데이터 분석은 [데이터 수집 - 분석 - 시각화 - 인사이트 도출]이라는 굵직한 흐름으로 이루어진다. 사실 분석을 하기 위해서는 뭐라도 있어야 하기 때문에 데이터를 모으는 과정이 무척 중요한데, 데이터 분석을 공부하며서 데이터를 어디서 찾을지 어렵다는 문제가 있다. 이 때 활용할 수 있는 유용한 사이트들을 소개하려고 한다.
데이터를 찾는다고 할 때 가장 먼저 떠올리고 또 많이 추천하는 곳이다.
데이터도 있고, 분석 결과를 공유하고, 또 Competition도 열린다.
데이터를 찾고싶어서 몇 번 검색을 해봤는데,
생각보다 내가 원하는 데이터를 찾기 어려웠다.
내가 검색을 못하는 것일테지만...
데이터 뿐만 아니라 Disscussion도 있도 다양한 활동이 이루어지는 곳이다.
시작페이지가 예쁘지는 않지만,
데이터가 깔끔하게 잘 정리되어있다.
논문에서 사용한 데이터들이 대부분인듯 하다.
그렇기 때문에 데이터에 대한 설명도 충분하고,
데이터를 사용할 때 출처 표기도 명확하게 할 수 있다.
뉴스데이터를 검색할 수 있는 사이트이다.
키워드, 텍스트, 트렌드 분석에 유용하다.
한국어 자연어 분석을 하려면 한국어 텍스트가 있어야 하는데,
Kaggle이나 UCI Machine Learning Repository에는
한국어 텍스트 데이터 종류가 몇 가지 없다는 아쉬움이 있다.
빅카인즈는 그럴 때에 사용할 수 있다.
그렇지만 이건 뉴스 데이터이기 때문에 지도학습으로 사용하기에는
뉴스마다 학습할 답을 지정해줘야하는 번거로움이 있다.
(4) 공공데이터포털 및 광역도시별 데이터플랫폼
정부에서 운영하는 사이트로 광범위한 공공 데이터를 찾을 수 있다.
데이터가 상당히 방대하다.
따릉이 대여 이력 분석할 때 사용해봤는데,
따릉이 데이터는 서울시에서 제공해서 그런지,
데이터를 다운 받으려고 하니 서울 열린데이터광장으로 연결되었다.
# 서울 열린데이터광장
서울시를 포함해서 광역도시들에서 각자 데이터를 제공하는 사이트가 있다.
여기로 들어가면 그래도 범위가 한정되어서 둘러보기에 상대적으로 쉽게 가닥이 잡힌다.
그리고 자체적으로 운영하는 공모전의 수상작의 보고서나 발표 자료 등도 볼 수 있다.
이런걸 훑어보면 어떤 데이터로 어떤 분석을 진행할 수 있을지 참고할 수도 있다.
# 경남 빅데이터허브플랫폼
https://bigdata.gyeongnam.go.kr/index.gn