brunch

You can make anything
by writing

C.S.Lewis

by 강한별 Jan 07. 2017

신입 탐정의 데이터 분석 입문

신입 탐정의 데이터 분석 입문 -

이시다 모토히로 지음, 김완섭 옮김/길벗


추천 대상 : R에 대해서 하나도 모르는 사람(문과생 같은...?)

추천 정도 :  ★ ★ ★ ★

메모 :  예전에 나는 R 말고 Python이 좋고 Python만 하고 싶다고 쓴 적이 있었는데 며칠 전에 재밌어 보이는 R e-book이 있어서 바로 구입했다. R 관련 책을 보다가 중도포기 한 적이 있었는데 이 책은 굉장히 쉽게 나오고 이야기 식으로 풀어져 있어서 완독하는데 고작 이틀 걸렸다! 내용이 재밌기도 재밌고 난이도가 낮아서 쉽게 읽은 듯. 시간으로 따지면 한 3~4시간 안에 설렁설렁 볼 수 있는 책. 코드와 데이터도 제공한다.


R을 사용해서 분석하는 방법도 방법이지만 마음 가짐에 대해서도 좋은 구절에 몇 가지 있었다. 컴퓨터에 맡길 수 있는 것은 컴퓨터에 모두 맡기고 사람은 다른 곳에 노력과 지혜를 써야 한다든가, 문과생인 주인공이 결말 부분에 이르러 사고 방식이 변화하는 부분도 맘에 들었다.


결국은 향상심을 가지고 있는 것이 중요하지 출신 성분은 상관요소가 아닌 것이다. 하지만 향상심을 가지고 있고 실제 공부하고 적용하는 사람을 찾는 것이 특정 전공을 찾는 것보다 훨씬 어렵다고 생각한다.


마지막으로 하고 싶은 말은 이 책 한 권만으로는 절대 부족하다는 것이다. 어디까지나 R 기초 지식 습득을 위한 것임을 밝힌다.




발췌


(기본적인 R 사용법이나 통계 지식은 생략했다. 그냥 책 사서 보세요~)


 ‘일주일에 몇 번 상점가에서 물건을 삽니까?’라고 질문하고 응답란에는 ‘거의 매일’, ‘주 2, 3회’, ‘주 1회’, ‘기타’처럼 설정하는 것이 좋아요. 다음 질문인 ‘이후로도 상점가를 계속 이용할 생각입니까?’는 의미가 없는 질문이에요.


“원래는 먼저 가설을 세우고 그것을 검증하기 위해 설문을 진행하는 것이 바른 순서야.”측정은 대상 항목별로 행(가로)에 기록하며 위에서부터 아래로 나열한다. 측정한 값은 내용별로 열(세로)에 기록하고 왼쪽부터 오른쪽 순으로 입력한다



설문 조사를 하는 경우 응답자가 애매하게 생각할 수 있는 질문 및 보기는 피해야 한다.


엑셀 등에서도 날짜를 열로 나열하는 경우가 많은데 데이터 해석 프로그램에서 사용하려면 세로로 변환하는 것이 편해.”

 

데이터의 관계를 항상 직선으로 표현할 수 있는 건 아니에요. 이 그래프처럼 직선은 아니지만, 가로축과 세로축 수치가 관련이 있는 것처럼 보이는 경우도 있어요. 따라서 그래프를 그리는 것이 중요해요. 그리고 데이터의 분산 정도를 직선으로 나타낼 수 있다면 상관계수로 그 강도를 확인하면 되고요.”


“컴퓨터에 맡길 수 있는 부분은 적극적으로 그렇게 하는 것이 좋아. 사람은 다른 곳에 노력과 지혜를 써야지."


“바보냐? 아무 생각 없이 그냥 실행하는 게 아니야. 특히 텍스트 마이닝은 단어를 분할해서 그래프로 만들면 나름의 결과를 얻을 수 있다고 생각하지만, 오히려 위험해. 처음에 무엇을 조사하고 싶은지 분명히 해두는 것이 중요해. 기억해두도록!”


      나는 문과생이지만 지금은 참고서에 나오는 수식을 어느 정도 이해할 수 있는 정도가 됐다. 게다가 지금은 수학이 반드시 필요하다는 생각마저 하고 있다. 사람이란 변하는 존재인가 보다. 내가 변하게 될 줄이야.
























매거진의 이전글 코딩 호러의 진짜 소프트웨어 개발 이야기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari