코딩 몰라도 괜찮아!
MIT에서 만들어낸 웹 기반 데이터 탐색 시스템 다이브(DIVE). non-technical user가 코드를 직접 안 쓰고도 스토리를 만들어 낼 수 있게 돕는 걸 목표로 한단다. 그러니까 가지고 있는 데이터 셋 있을 때 업로드만 하면 시각화나 분석까지 짜잔---!!!! 해주는 툴. 실제 활용에서 얼마나 쓸만한지는 아직 장담할 수 없다(...) 아직 제대로 못 써봤기 때문이다. 데이터 만질 일이 없어요... 그래서 그냥 가지고 있는거 하나 업로드 해 봤는데, 첨에 정제 잘 해서 분류 잘 해두면 괜찮겠다?! 싶은 느낌 정도 들었다. 이거면 끝났다. 공부 안 해도 된다. 이런건 아니다. 아이디어가 좋다고 다 좋은 서비스가 되는 건 아닌 것처럼. 그래도 들어있는 기능의 목적이나 전체적인 구성을 보면 앞으로 나올 데이터 분석 툴이 어떤 형태여야 하는지 감 잡는데도 도움이 되고, 자주 쓰다보면 서비스의 기능에 맞춰 사용하는 법을 익힐 수도 있겠다. 들어가보면 프리로드된 데이터가 몇 세트 있기 때문에 시간있는 분들은 직접 체크를 해 볼 수도 있겠다. 아래는 소개문 간단 번역 + 내 생각.
이런 툴은 데이터 핸들링-통계적 분석에 필요한 지식이 없어도 자기가 일하고 있는 도메인 지식만 가지고 있으면 어느 정도 괜찮은 스토리를 만들 수 있게 도와준다. 데이터저널리즘에 관심있지만, 코딩이 넘 어렵다 그러면 이런 걸 찾아보는 게 오히려 좋을 수 있다. 어차피 기술은 갈수록 좋아지니까.
다이브 : https://dive.media.mit.edu/
다이브는 똑똑하게 데이터를 받아들인다. 이게 무슨 말이냐면, 데이터가 다루는 영역, 구조를 추론해 사용자가 필요로 할법한 시각화와 통계적 분석을 제시한다는 것. 꼭 기계가 읽기 좋은 종류의 데이터가 아니더라도 돌릴 수 있다. (DIVE works with human-interpretable data types) 이게 hwp(...)나 pdf(...)가 된다는 말은 아닌 것 같다. 보면 csv, tsv, 엑셀 파일 지원한다고 돼 있다. 아마 데이터가 tidy 하지 않아도 괜찮다는 걸로 보인다. tidy 데이터를 짧게 설명하자면... 사람이 눈으로 봤을 때 이해하기 편한 형태와 데이터 분석을 위해 다룰 때 편한 형태가 좀 다른데, 후자를 보통 tidy 하다고 표현한다.
시각화에 필요한 여러 문법을 사용자가 이해할 것 없이 클릭 몇 번으로 원하는 차트를 뽑아낼 수 있다. 원하는 필드만 몇 번 클릭하면 다이브가 괜찮은 걸로 추천해준다. 시각화가 차트 대충 아무거나 골라서 막 그린다고 되는 게 아니라서 시간이 많이 필요하다. 데이터를 잘 표현하면서 이해에 도움이 되는 걸 만든다는 게 쉽지 않다. 잘 만들어만 준다면 시간을 대폭 절약할 수 있겠다. 물론 이런 분석에 도움이 되는 자료라는 성격이 짙다. 그 자체로 콘텐츠의 성격을 강하게 갖는 시각화에는 적절하지 않겠다.
다이브는 통계 분석을 돌리는 장벽을 낮춰서 사용자가 데이터를 해석에 집중할 수 있게 돕는다. 아노바 분석, 회귀 분석 등등을 코드 한 줄 안 쓰고 할 수 있다. 테크니컬하고 세세한 문제보다 고민하고 생각하는 시간을 벌어주겠다는 것.
이렇게 얻어진 결과물, 분석은 블로그 포스팅 만들듯 직관적으로 작성할 수 있다. 위지윅(WYSIWYG, what you see is what you get)방식의 비주얼 내러티브 제작 가능. 데이터 기반 문서 작성까지 편리해진다. R에서 니터와 마크다운을 사용해 만드는 방식도 있는데, 아무래도 그건 약간의 허들이 있다. 데이터에 연동된 인터랙티브 콘텐츠를 이렇게 쉽게 만들어준다. PPT로도 뽑을 수 있게 지원한다.