brunch

데이터를 분석하는 순서

어려운 단어보다 실제 실행하는 순서대로 이해하기 (2016년 3월 9일)

by 김영하

최근 데이터 분석과 관련된 것이 큰 트렌드가 되고 있다. 데이터에 대해서 분류도 많다.

빅데이터, 스몰데이터, 생활 데이터, 오픈 데이터 등등...


어떤 데이터든 이해 및 분석해서 활용하지 않으면 그냥 그뿐이다. 데이터에서 정보를 만들어야 할 것이다.

아래는 http://cs109.org의 1강 내용 중 데이터 과학의 순서의 내용을 캡처한 것이다.


스크린샷 2016-03-10 오전 11.26.45.png


일단, 한번 훑어보면 개념적이다. 뭘 하라고는 하는데 두리뭉실하다. 다시 정리가 하고 싶어 졌다.


여러 프로젝트를 해본 경험과 시스템을 구축해본 경험으로 다음과 같이 정리해보았다.

전적으로 개인의 생각이다.


1. 목적 설정

- 데이터는 자신이 무엇이라고 말해주지 않는다. 그냥 데이터일 뿐이다.

이 데이터가 내포하고 있는 것을 찾기 위해 통계 및 시각화 기법들이 존재한다.

아무리 좋은 통계 및 시각화 기법들이 존재를 하더라고 데이터를 가지고 무엇을 하고 싶은지

먼저 설정하지 않으면 의미가 없다. 아무리 탐색적 자료 분석(EDA)을 한다고 해도

뭘 찾고자 하는지 설정을 하지 않으면 그냥 이것저것 확인해보는 것밖에 되지 않는다.

또한, 같은 데이터라도 누가 어떻게 보는 것에따라 전혀 다른 결과를 만들 수 있다.

2. 수집

- 그렇다. 목적이 설정되면 어떤 것을 참조할지 선택할 수 있다. 경제 관련된 데이터 분석을 하고

싶은데 스포츠 데이터를 가지고 하지 않을 것이다. 올바른 데이터의 선택이 필요하며

데이터의 수집 방법이 결정된다.


3. 저장

- 수집을 하게 되면 저장을 해야한다. 데이터를 저장하지 않으면 검색이 불가능하게 될 것이다.

또한, 어렵게 수집한 내용을 다른 사람과 같이 공유를 하면 좋지 않을까?

저장시 안정성을 위해 분산환경으로 만들지, 아니면 그냥 데이터베이스에 저장할지 등등

여러 고려사항등이 있을 것이다.


4. 검색

- 이제 본격적인 데이터 분석이 시작된다. 목적이 있고, 그 목적에 따른 데이터들이 수집/저장

되었으니, 뭔가를 찾아보아야 할 것이다.


5. 시각화

- 백 마디 말보다 화면 하나가 보여주는 것이 더 큰 효과가 있다. 탐색적 자료 분석에서도

검색된 데이터를 이해하기 위해 원그래프, 막대 그래프 등으로 표현하기도 한다.


6. 추론

- 검색 및 시각화가 되었으면, 이제 내가 분석한 내용이 맞는지 검증이 필요하다.

아니면 이제 결론을 가지고 다른 데이터를 유추할 수 있도록 다른 데이터 분석을

시도하게 된다.




keyword
작가의 이전글Nintendo Emulator