#데이터 사이언티스트로 살아가기(3)
10월부터 데이터 분석에 관한 글을 적지만, 브런치에서 많은 작가님들이 글을 쓰는 종류는 수필, 시, 소설, 일기 등의 문학적인 요소가 대부분이다. 이런 문학과 내가 하는 비문학적 요소들을 융합할 수 없을까 고민하게 되었다. 뼈속부터 이과생인 내가 문학적인 플랫폼에서 살려니 어질어질 하지만, 요즘 같은 융합의 시대에 문학과 비문학의 경계가 무엇이 중요하냐 생각하면서, 그 경계에서 왼쪽 오른쪽을 왔다 갔다 한다.
문학가도 비문학적인 삶을 살아가고, 비문학가도 문학가적인 삶을 살고 있다. 융합의 시대에 우리가 이전에 그어놓았던 사회 전반의 모든 영역에서의 경계선은 차츰차츰 희미해질 것이다. 사회적인 관습과 문화에 따라서 경계가 흐려지고, 범주가 넓어지는 것이 특히 인공지능이 매일 같이 발전하고 있는 현재에는 더더욱 그 속도가 빠르고 변화 무쌍할 것이다.
"나"라는 존재를 그냥 이해하는 것보다, 데이터화해서 이해한다면 더욱 객관적인 평가가 가능하고 삶을 정리해 볼 수 있게 된다. 나 자신 뿐 아니라 "타인"에 대 볼 때도 첫인상, 느낌으로 이해하는 것과 더불어 데이터로 이해한다면 좀 더 세밀하게 사람을 이해하고 받아들일 수 있을 것이다.
하지만 아무런 배경지식 없이 데이터를 마주할 때 어떤 느낌일까?
일반적으로 데이터를 정리할 때 많이 사용하는 엑셀 파일의 수많은 행과 열의 값들을 그냥 보고 있으면 대체 이게 무슨 말인가?? 혼란에 빠진다.
우리가 사람에 대한 이해를 할 때는 그래도 결(layer)이 같다고 해야 할까? 내가 사는 방식과 다른 사람의 사는 방식이 크게 차이가 나지 않으니, 데이터를 이해하기 쉽다.
데이터를 이해하기 위해서 처음으로 하는 단계가 바로 데이터 탐색 분석이다. 물론 전처리도 해야 하지만, 처음에는 어떤 데이터를 전처리 해야 하는지도 모르기 때문에 탐색 분석을 통해서 계속 데이터를 보고, 이해하면서 결측치도 처리하고, 의미 있는 데이터도 선별하는 것이다.
인간 관계도 그런 듯하다. 사람에 대한 이해를 통해 결측치를 제거하고, 중요한 부분을 보면서 관계를 더 깊이 만들거나, 현 상태로 머물거나, 아니면 점차 축소하거나 결정해야 한다.
개인적으로 탐색 분석 (exploratory analysis) 과정은 데이터 결과 보다도 더 중요한 단계라고 생각한다.
이 과정을 잘해야, 데이터 해석의 방향을 설정할 수 있고, 데이터를 분석하고 싶은 동기부여도 생기기 때문이다.
오늘은 약간 넋두리를 적어 보았고, 다음 글에서는 본격적으로 분석하려는 데이터에 대한 탐색 과정을 소개하려고 한다.