데이터 분석이란 무엇인가?
최근 한 데이터 분석 강의의 커리큘럼을 본 적이 있다.
파이썬, 통계, 시각화 등 데이터 분석 핵심,
실제 기업 데이터 프로젝트로 실무역량 200%,
Pandas, Numpy, Seaborn 등 데이터 도구 완성
과연 이 강의 커리큘럼으로 이루고자 하는 데이터 분석은 무엇인지에 대해 유추해 보면,
Pandas나 Numpy와 같은 파이썬 라이브러리와 통계를 이용한 무언가
그러나 위 문장은 기괴하다.
데이터 분석이란건 행위이다. 특정한 행위가 무엇인지에 대해 설명하자면 우리는 일반적으로
"저 행위는 무언가를 하기 위한 행동이야" 라고 설명한다.
그러나 데이터분석이라는 행위에 대한 설명들은 대부분 어떠한 목적을 위해 행해지는지 얘기하지 않고,
행위 그 자체만을 얘기한다.
위 문장에서 행위에 해당하는 부분은 '무언가' 라는 단어로 얼버무려져있다.
어떠한 행위에 대한 목적을 모른채 그 행위를 수행한다는건, 행위가 행위로서 존재하기 위한 본질은 망각한 채 행위의 수행에서 발현되는 피상적인 표현만을 따른다는것이다.
행위의 본질을 외면한 채 그 피상적인 표현 그 자체만 따르는것은 그 행위와 같다고 할 수 있는가?
레스토랑의 쉐프가 요리를 하는 행위에 대해서, "칼질을 하고 불 위에서 무언가를 굽고, 찌고, 삶는 행위" 라고 정의했을 때 요리라는것이 실제로 쉐프가 손님들에게 근사한 경험을 선사하기 위해, 잊을 수 없는 특별한 추억과 감동을 전하기 위해 음식이라는 도구로서 선사하는 활동임을 알 수 있는가?
더 나아가 "칼질을 하고 불 위에서 무언가를 굽고, 찌고, 삶는 행위" 만을 놓고 누군가가 쉐프의 요리를 재현했을 때 과연 그 요리의 재현이 가능할것인가?
결국 파이썬을 배우고, Numpy를 이해하고, 시각화를 할 줄 안다는건 데이터분석을 한다고 얘기할 수 없다.
그러면 데이터 분석이란 무엇인가? 라는 이 글의 첫 시작으로 돌아가보자.
데이터 분석이란 무엇인지에 대해서 많은 사람들의 합의된 의견이 존재하는것은 아닐것이나, 실제 기업에서 데이터 분석이라는 행위를 통해 그것이 지향하는 목적을 수행한 바 있는 사람들은 아래 의견에 일부 동의할 것으로 생각된다.
"데이터 분석은 데이터를 통해 제품과 비즈니스의 문제를 해결하는 행위이다."
이보다 더 간결하게 데이터 분석에 대해 설명할 수 있는 문장은 사실 찾기 어렵다고 생각한다.
데이터 분석은 문제를 해결하기 위한 방법 중 하나이지, 데이터 분석이라는 행위 그 자체로 의미를 갖기 어렵다.
더 나아가 데이터 분석이라는 용어를 살펴보면 "데이터" 라는 명사와 "분석" 이라는 두 명사의 조합으로 이루어져 있다. 데이터라는 명사에 대해서는 누구나 다 잘 알테니 넘어가도 무방할것이나 여기서 "분석" 이라는 용어에 대해 모두의 이해를 일치시킬 필요가 있다.
분석: '나눌 분(分)' 자와 '쪼갤 석(析)'. '쪼개어 나눈다'는 의미를 가집니다. 어떤 사물이나 현상을 잘게 나누어 그 요소나 성질을 파악하는 행위 또는 그 결과를 뜻합니다.
위 설명에서 확인할 수 있듯이, 나누고 쪼개어서 현상의 성질을 파악하는 행위를 분석이라고 정의하고 있다.
그러면 데이터 분석이라는 행위를 사전적으로 정의해보면,
"데이터를 통해 어떠한 문제를 나누고 쪼개어 해석한다."
라는 해석이 도출될 수 있다.
어떠한가?
앞서 보여줬던 "Pandas나 Numpy와 같은 파이썬 라이브러리와 통계를 이용한 무언가" 라는 설명보다 "데이터를 통해 어떠한 문제를 나누고 쪼개어 해석한다." 라는 설명이 데이터 분석이 무엇인지에 대한 실체에 조금 더 가까워졌다고 볼 수 있지 않은가?
데이터 분석은 Pandas나 Numpy를 다루는 행위 그 자체가 아니다.
문제를 정의하고, 나누고, 이를 해석하여 해결방법을 모색하는 일련의 행위이다.
앞으로의 데이터 분석에 대한 설명과 논의는 데이터 분석에 대한 위와 같은 정의에서 출발한다.