brunch

You can make anything
by writing

C.S.Lewis

by 김영하 Mar 10. 2016

데이터를 분석하는 순서

어려운 단어보다 실제 실행하는 순서대로 이해하기 (2016년 3월 9일)

최근 데이터 분석과 관련된 것이 큰 트렌드가 되고 있다.  데이터에 대해서 분류도 많다. 

빅데이터, 스몰데이터, 생활 데이터, 오픈 데이터 등등...


어떤 데이터든 이해 및 분석해서 활용하지 않으면 그냥 그뿐이다.  데이터에서 정보를 만들어야 할 것이다. 

아래는 http://cs109.org의 1강 내용 중 데이터 과학의 순서의 내용을 캡처한 것이다.



일단, 한번 훑어보면 개념적이다. 뭘 하라고는 하는데 두리뭉실하다. 다시 정리가 하고 싶어 졌다.


여러 프로젝트를 해본 경험과 시스템을 구축해본 경험으로 다음과 같이 정리해보았다.

전적으로 개인의 생각이다.


1. 목적 설정

    - 데이터는 자신이 무엇이라고 말해주지 않는다. 그냥 데이터일 뿐이다.

      이 데이터가 내포하고 있는 것을 찾기 위해 통계 및 시각화 기법들이 존재한다.

      아무리 좋은 통계 및 시각화 기법들이 존재를 하더라고 데이터를 가지고 무엇을 하고 싶은지

      먼저 설정하지 않으면 의미가 없다. 아무리 탐색적 자료 분석(EDA)을 한다고 해도

      뭘 찾고자 하는지 설정을 하지 않으면 그냥 이것저것 확인해보는 것밖에 되지 않는다.

      또한, 같은 데이터라도 누가 어떻게 보는 것에따라 전혀 다른 결과를 만들 수 있다.

     

2. 수집

   - 그렇다. 목적이 설정되면 어떤 것을 참조할지 선택할 수 있다. 경제 관련된 데이터 분석을 하고

     싶은데 스포츠 데이터를 가지고 하지 않을 것이다. 올바른 데이터의 선택이 필요하며

     데이터의 수집 방법이 결정된다. 


3. 저장

    - 수집을 하게 되면 저장을 해야한다. 데이터를 저장하지 않으면 검색이 불가능하게 될 것이다.

      또한, 어렵게 수집한 내용을 다른 사람과 같이 공유를 하면 좋지 않을까? 

      저장시 안정성을 위해 분산환경으로 만들지, 아니면 그냥 데이터베이스에 저장할지 등등

      여러 고려사항등이 있을 것이다.


4. 검색

    - 이제 본격적인 데이터 분석이 시작된다. 목적이 있고, 그 목적에 따른 데이터들이 수집/저장

      되었으니, 뭔가를 찾아보아야 할 것이다. 


5. 시각화

    - 백 마디 말보다 화면 하나가 보여주는 것이 더 큰 효과가 있다. 탐색적 자료 분석에서도 

      검색된 데이터를 이해하기 위해 원그래프, 막대 그래프 등으로 표현하기도 한다.


6. 추론

    - 검색 및 시각화가 되었으면, 이제 내가 분석한 내용이 맞는지 검증이 필요하다. 

      아니면 이제 결론을 가지고 다른 데이터를 유추할 수 있도록 다른 데이터 분석을  

      시도하게 된다.




작가의 이전글 Nintendo Emulator
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari