Data Literacy를 갖추기 위한 몇 가지 관점들
기업에서 데이터 활용이 여러 곳에 쓰이면서 최근 몇 년간 '데이터 리터러시(Data Literacy)'에 대한 관심도 높아지고 있습니다. 데이터를 읽고 해석해서 활용할 수 있는 능력 등을 총칭하는 말로 쓰이는 데이터 리터러시는 다양한 모습으로 일상에서 활용되고 있습니다. 마치 '디지털 트랜스포메이션(Digital Transfomation)'처럼 필요성에 대해서는 모두가 인식하고 있으나 여전히 형이상학적이거나 부분 최적화 사례가 더 많은, 오히려 관련 교육 프로그램이 더 많은 키워드 중 하나가 아닐까 싶습니다.
Data literacy is the ability to read, understand, create, and communicate data as information. Much like literacy as a general concept, data literacy focuses on the competencies involved in working with data. It is, however, not similar to the ability to read text since it requires certain skills involving reading and understanding data.
- Baykoucheva, Svetla (2015). Managing Scientific Information and Research Data. Waltham, MA: Chandos Publishing. p. 80.
여러 온라인 교육에서 '데이터 리터러시 과정' 이라면서 비전공자 대상으로 하는 프로그램 등을 열고 있는 것을 보았습니다. 커리큘럼을 보면 데이터 기획부터 수집, 분석, 시각화하는 내용 등을 개론 수준으로 설명하고 있었습니다. 누구나 접근하기 쉬운 난이도라는 것은 고무적이지만 이렇게 해서 정말 데이터 리터러시가 쌓일까 하는 의문은 듭니다. 현직 데이터 분석가로서 접하는 데이터를 다루지 않는 현업들은 사실 이런 테크닉보다 데이터 자체에 대한 이해가 더 필요한 경우가 많은데 말이죠.
Gartner가 제시하는 조직 데이터 리터러시를 알 수 있는 몇 가지 질문들 :
- How many people in your business do you think can interpret straightforward statistical operations such as correlations or judge averages?
- How many managers are able to construct a business case based on concrete, accurate and relevant numbers?
- How many managers can explain the output of their systems or processes?
- How many data scientists can explain the output of their machine learning algorithms?
- How many of your customers can truly appreciate and internalize the essence of the data you share with them?
출처 : https://www.gartner.com/smarterwithgartner/a-data-and-analytics-leaders-guide-to-data-literacy/
현장에서 데이터를 분석하며 제가 느낀 데이터 리터러시를 위한 몇 가지 관점을 나누어보고자 합니다.
1. 보유 데이터로 할 수 있는 것과 할 수 없는 것을 알아야 합니다
갖고 있는 데이터로 무엇을 할 수 있고 무엇을 할 수 없는지 아는 것 만으로 데이터 문맹에서 벗어날 수 있다고 생각합니다. 데이터에 대한 이해가 없을수록 제한된 데이터에서 더 많은 것을 할 수 있을 거란 희망이 있는 것 같습니다. 시간적으로 적재된 단변수를 가지고 예측 모델링을 만들어서 장기적인 미래 예측값을 만들자고 이야기한다든지, 자연어 분석을 통해 매출을 정확하게 예측해 보자는 말은 사실 너무 이상적으로 들립니다. 하면 할 수 있지만 중요한 것은 할 수 있는 것과 잘할 수 있는 것의 차이죠. 통계의 기초적인 개념들인 상관관계, 회귀모델, 시계열 분석, 군집분석에 대한 대략의 방식만 알아도 갖고 있는 데이터로 할 수 있는 것과 없는 것을 알 수 있습니다. 현장에서 필요한 문제를 해결하기 위해 데이터를 결국 갖고 오는 쪽은 현장이기 때문에 모두가 이런 이해를 갖추는 게 필요합니다. 아래 사례도 하나의 예가 될 수 있겠네요.
2. 데이터 타입에 대한 이해가 필요합니다
integer, decimal, float 등의 차이를 알자고 하는 게 아닙니다. 계산할 수 있는 것과 없는 것, 문자형과 숫자형 변수에 대해서 만이라도 알자는 것이죠. 범주형 변수로 만들 수밖에 없는 것은 결국 비즈니스 도메인 지식이 필요합니다. 때로는 범주 내부에 하이어라키가 필요한 경우도 있습니다. 그렇게 만든 범주형 변수는 다른 데이터와 함께 분석하기 위해 기준을 맞추는 작업이 필요하죠. 결국 처음부터 범주를 잘 만들어 두는 게 반복된 작업을 하지 않고 문제를 해결할 수 있는 명확한 출발입니다. 그렇지만 데이터 리터러시가 부족하면 이런 배경은 모릅니다. 그때그때 문제가 생길 때마다 새로운 기준들로 문제를 더 복잡하게 만들죠. 물론 문제에 따라 범주의 정의를 다르게 가져가는 것은 필요합니다. 하지만 합의된 범주가 왜 쓰이지 않고 일회성으로 남아 계속 마스터 데이터가 아닌 마스터 테이블을 만들고 있는지는 생각해 볼 필요가 있는 문제입니다.
3. 숫자의 진정한 의미를 생각합니다
데이터로 표현하고 데이터를 가공해서 숫자로 만든다고 데이터 리터러시가 있는 것은 아닙니다. 중요한 것은 결국 실제적인 뜻으로 해석하는 것이죠. 물론 숫자 자체가 의미의 전부가 되는 경우도 있습니다. 확률이나 점수 등은 이미 공유하고 있는 방법으로 나온 결과로써 충분한 메시지를 담고 있습니다. 하지만 관계를 서로 확인할 수 없어 탐색적 분석으로 나온 결과를 해석할 때는 이게 정말 문제 해결에 맞는 숫자인지 알고 활용할지 결정해야 합니다. 현재의 높은 숫자가 미래를 보장해 줄 수 있을까요? 많이 언급되는 단어가 꼭 트렌드일까요? 클릭은 많이 했지만 구매하지 않은 상품은 어떻게 해석해야 할까요? 이런 질문을 해결하기 위해 다시 데이터로 데이터를 파는 것이 도움이 됩니다. 때로는 유저 경험 자체를 데이터 밖에서 참고해야 할 때도 있습니다.
4. 가설로 만들고 세부 기준을 공유하며 한계를 받아들이고 팩트로 피드백합니다
데이터 다루는 일을 주업으로 하고 있지 않다면 문제를 데이터로 해결할 수 있는 수준으로 만드는 연습이 실제적으로 더 도움이 되는 경우가 많습니다. 마치 수학 문제를 풀 때 줄글로 되어 있는 문제를 식으로 바꾸는 과정 같은 거죠. 어떤 데이터 중에서 어떤 조건으로 무엇을 보아야 하는지, 그리고 다른 것과 어떤 것을 비교할 것인지를 정의할 수 있다면 문제 해결은 빨라집니다. 가설을 만드는 과정이죠. 활용하는 데이터는 어떻게 나온 것인지 세부 기준을 공유합니다. 매출이면 어떤 것이 제외되고 반영된 값인지, 고객 행동 관련 내용이라면 어떤 것만 여기에 카운트되어있는지 정확하게 알고 문제 해결에 맞는지 정리합니다. 모아진 데이터의 성격 때문에 모델이라는 한계를 갖게 되면 이것을 받아들입니다. 중요한 것은 결과를 통해 실제 다음 액션을 했고 나온 값을 다시 팩트로 피드백하는 것이죠. 이 과정을 반복하면 조직 내부에 데이터 리터러시가 빠르게 확산될 수 있습니다.
5. 데이터 활용에 걸리는 시간을 알아야 합니다
데이터 분석을 하는 사람이기에 이런 말이 핑계처럼 들릴 수도 있겠지만 보다 더 나은 가치를 만들어서 서로 유의미한 결과를 만드는 본능은 누구나 갖고 있습니다. 데이터를 가공해 결과로 나오는데 필요한 시간에 대한 이해가 없으면 아무리 좋은 결과를 주고 싶어도 주기가 어렵습니다. 결국 가장 쉽고 어설픈 방법으로 결과를 주고 그것을 검증할 장치도 무색해지기 때문이죠. 데이터 마트를 구성하고 분석에 필요한 알고리즘을 선택해서 결과를 내는 과정에 들어가는 개략적인 시간 정도는 알고 미리 일정을 세팅해서 커뮤니케이션하는 게 좋습니다. 어떤 산업이든 다른 부서가 일을 하는데 얼마만큼의 시간이 들어가는지 어느 정도 일을 같이 해 본 사람이라면 알 수 있습니다. 이제 도입이 되는 데이터 활용에 대해서도 그런 기준을 맞출 필요가 있습니다.
물론 SQL, R, Python도 잘하고 머신러닝에 대한 이해와 경험도 있고 도메인 지식이 많으면 좋겠죠. 온라인 강의처럼 시각화 툴을 이용해서 멋진 그래프를 그리고 새로운 논문 내용을 적용해 보는 것도 멋진 일이죠. 하지만 모두가 이런 게 필요한 것도 아니고 이것만 잘한다고 데이터 활용을 제대로 한다고 말하기도 어렵습니다. 중요한 것은 문제의 해결이니까요. 문제의 해결을 위해서는 경우에 따라 엑셀로 할 수도 있습니다. 데이터 문해력을 높이기 위해서는 위에 몇 가지 관점을 나눈대로 데이터 자체에 대한 이해, 기초 분석 방법에 대한 이해가 중요합니다. 기술을 쌓는 것과 함께 본질적인 내용을 계속 생각해보고 바쁜 실무 중에도 반복해서 생각해야 하는 이유입니다.