brunch

데이터를 찾을 수 있는 사이트 모음

by 노다해


데이터 분석은 [데이터 수집 - 분석 - 시각화 - 인사이트 도출]이라는 굵직한 흐름으로 이루어진다. 사실 분석을 하기 위해서는 뭐라도 있어야 하기 때문에 데이터를 모으는 과정이 무척 중요한데, 데이터 분석을 공부하며서 데이터를 어디서 찾을지 어렵다는 문제가 있다. 이 때 활용할 수 있는 유용한 사이트들을 소개하려고 한다.




(1) Kaggle


데이터를 찾는다고 할 때 가장 먼저 떠올리고 또 많이 추천하는 곳이다.

데이터도 있고, 분석 결과를 공유하고, 또 Competition도 열린다.


데이터를 찾고싶어서 몇 번 검색을 해봤는데,

생각보다 내가 원하는 데이터를 찾기 어려웠다.


내가 검색을 못하는 것일테지만...

데이터 뿐만 아니라 Disscussion도 있도 다양한 활동이 이루어지는 곳이다.


https://www.kaggle.com


%EC%8A%A4%ED%81%AC%EB%A6%B0%EC%83%B7_2025-08-21_%EC%98%A4%EC%A0%84_11.42.55.png?type=w1




(2) UCI Machine Learning Repository


시작페이지가 예쁘지는 않지만,

데이터가 깔끔하게 잘 정리되어있다.


논문에서 사용한 데이터들이 대부분인듯 하다.


그렇기 때문에 데이터에 대한 설명도 충분하고,

데이터를 사용할 때 출처 표기도 명확하게 할 수 있다.


https://archive.ics.uci.edu



%EC%8A%A4%ED%81%AC%EB%A6%B0%EC%83%B7_2025-08-21_%EC%98%A4%EC%A0%84_11.42.17.png?type=w1



(3) 빅카인즈 BIGKinds



뉴스데이터를 검색할 수 있는 사이트이다.

키워드, 텍스트, 트렌드 분석에 유용하다.


한국어 자연어 분석을 하려면 한국어 텍스트가 있어야 하는데,

Kaggle이나 UCI Machine Learning Repository에는

한국어 텍스트 데이터 종류가 몇 가지 없다는 아쉬움이 있다.


빅카인즈는 그럴 때에 사용할 수 있다.


그렇지만 이건 뉴스 데이터이기 때문에 지도학습으로 사용하기에는

뉴스마다 학습할 답을 지정해줘야하는 번거로움이 있다.

https://www.bigkinds.or.kr




%EC%8A%A4%ED%81%AC%EB%A6%B0%EC%83%B7_2025-08-21_%EC%98%A4%EC%A0%84_11.28.01.png?type=w1




(4) 공공데이터포털 및 광역도시별 데이터플랫폼


https://www.data.go.kr


%EC%8A%A4%ED%81%AC%EB%A6%B0%EC%83%B7_2025-08-21_%EC%98%A4%EC%A0%84_11.16.10.png?type=w1


%EC%8A%A4%ED%81%AC%EB%A6%B0%EC%83%B7_2025-08-21_%EC%98%A4%EC%A0%84_11.16.24.png?type=w1




정부에서 운영하는 사이트로 광범위한 공공 데이터를 찾을 수 있다.

데이터가 상당히 방대하다.


따릉이 대여 이력 분석할 때 사용해봤는데,

따릉이 데이터는 서울시에서 제공해서 그런지,

데이터를 다운 받으려고 하니 서울 열린데이터광장으로 연결되었다.




# 서울 열린데이터광장

https://data.seoul.go.kr



서울시를 포함해서 광역도시들에서 각자 데이터를 제공하는 사이트가 있다.

여기로 들어가면 그래도 범위가 한정되어서 둘러보기에 상대적으로 쉽게 가닥이 잡힌다.


그리고 자체적으로 운영하는 공모전의 수상작의 보고서나 발표 자료 등도 볼 수 있다.

이런걸 훑어보면 어떤 데이터로 어떤 분석을 진행할 수 있을지 참고할 수도 있다.




# 경남 빅데이터허브플랫폼

https://bigdata.gyeongnam.go.kr/index.gn







keyword
매거진의 이전글로지스틱 회귀의 손실함수, 우도함수와 교차엔트로피