brunch

You can make anything
by writing

C.S.Lewis

by 이매생각 Jan 29. 2022

헬로 데이터 과학! 데이터 사이언티스트가 되고 싶은 사

데이터 과학이 무엇인지 알고 싶으신가요?


많은 사람들이 데이터 과학이라는 단어만 들어도 굉장히 컴퓨터공학, 통계적 지식이 많은 활동으로 어렵게만 생각한다. 하지만 데이터 과학의 출발은 'TABLE 놀이'라고 할 수 있다. 테이블을 활용해서 분석하고 내용을 정리하는 과정이 바로 첫걸음인 것이다. 

책<헬로 데이터 과학>은 아주 쉽게 데이터 과학이 무엇인지, 데이터 과학이 무엇인지도 모르는 사람까지 이해할 수 있는 수준의 아주 좋은 입문서라고 할 수 있다. 왜 데이터 과학이 일상생활에서 필요한지 개인부터 전문가까지 읽을 수 있는 좋은 입문서라는 생각을 이 들었다.

+ 오랜만에 책을 추천해 주신 직장 동료분에게 진심으로 감사합니다!




데이터 과학이 가장 큰 문제는 무엇일까? 내가 생각했을 때 바로"통계 프로그램"이다. 개인적인 관점으로 어려운 통계 설루션 등을 배워야 내가 데이터 과학을 할 수 있다고 생각하는 마인드가 가장 문제이다.

물론 이 문제가 비단 SQL, R 설루션 탓은 아니다. 왜냐하면 당연히 이러한 툴을 사용해야지 기업이 가지고 있는 문제를 처리할 수 있는 수준이 된다. 하지만 데이터 과학의 핵심은 데이터의 크기나 처리가 아니다. 바로 테이블을 내가 원하는 대로 조정하고 바꾸는 것이 핵심이다. 

그런 의미에서 엑셀을 통해서도 데이터를 수집하고 분석하고 시각화하여 인사이트를 충분히 뽑아낼 수 있다. 문제만 정의를 잘한다면 기초적인 정보만으로도 충분히 좋은 인사이트를 뽑아낼 수 있다고 볼 수 있다. 


데이터 분석을 잘하고 잘 설명하기 위해서는 5가지 단계로 이어진다고 책에서는 밝힌다. 

탐색적 분석 > 개별 속성 분석 > 속성 간의 관계 찾기 > 통계적 추론으로 일반화 > 현상 예측하기

개인적으로 공부해 봤을 때 물론 분야마다 다르지만 데이터 분석이라는 것이 기본적인 현상 이해하는 탐색이 가장 분석에서 가장 많이 활용되는 것으로 보인다. 마케팅 분석 쪽에서는 아무래도 현상을 이해하는 것이 마케팅의 기본이라서 가장 많이 시간이 들이는 부분이다.

그리고 좋은 데이터 분석도 중요하지만 데이터를 가치 있게 만드는 것이 스토리텔링이다. 대표적으로 예시로 나온 FIVETHIRTYEIGHT의 기사를 기반으로 정리한 구조는 일반적인 서론, 본론, 결론의 형태를 가지고 있고 그 안에서 데이터 분석 과정을 담아내는 것이 핵심이라고 보인다. 


서론 : 데이터를 통해 얻은 결과나 분석 의도를 통해 독자에게 흥미를 제공한다.

본론 : 데이터 문제 해결 과정을 수집&가공 > 분석 > 분석 결과 순으로 작성

결론 : 전체 내용을 요약하고 방향을 제시




데이터를 통해 우리는 단순히 업무뿐만 아니라 인생을 바꿀 수 있음을 책을 통해서 배울 수 있었다. 이 책을 통해서 가장 배울 수 있는 부분은 단순히 데이터 과학이 우리 일상과 밀접하게 닿아있다는 뜻이 아니라 통계적 사고의 중요성을 배울 수 있었다


예를 들어 식단 조절을 하기 위해 매일 먹는 것을 기록한다면 내가 먹고 있는 음식들의 시간이나 종류, 칼로리 영양소를 기록하여 균형 잡힌 식사와 식단 양을 조절할 수 있다. 또는 데일리 리포트 작성을 통해 하루의 시간을 어떻게 쓰고 있는지를 확인하고 이를 통해 낭비되는 시간을 관리할 수 있다.


이처럼 통계적 사고를 하기 위한 기초 자료가 바로 데이터이다. 단순히 데이터는 작고 크고의 문제가 아니라 수집->가공->분석-> 예측이라는 일련의 과정에서 흐르고 있는 동력이라고 할 수 있다. 


책<헬로 데이터 과학>은 이름처럼 데이터 과학이 어렵지 않고 쉽게 우리 일상에 적용할 수 있는 과정임을 잘 알려주는 책이다. 데이터 분석가, 데이터 사이언스가 아닌 사람들이라도 쉽게 데이터 산업에 관심이 있는 누구나 읽어도 좋은 책이다. 한번 일독해 보시길 추천드린다.




작가의 이전글 나는 2021년 이렇게 돈을 벌었다.
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari