데이터 분석, AI학습을 위한 데이터, 그리고 오픈데이터 원칙
세상을 더 잘 이해할 유일한 방법은
그것의 데이터를 모으는 것입니다.
- Steven Pinker
이 세상에는 수많은 데이터가 존재하고 있고 우리는 그 데이터를 통해 세상의 흐름을 이해할 수 있다. 더군다나 ChatGPT로 대표되는 수많은 생성형 AI들은 유용한 소스(데이터)만 있으면 알아서 분석하고 판단하고 제안까지 해준다.
그럼 세상을 더 잘 이해하기 위해, 조금 더 좁게는 당장 우리가 하는 일에 도움을 받을만한 수 많은 데이터들을 어떻게 하면 확보할 수 있을까.?
공공데이터 포털
첫번째로 소개하는 사이트는 대한민국 공공데이터 포털이다.
공공행정부터 교육, 교통, 농축수산, 문화관광, 식품건강까지 총 16개의 분류체계를 가지고 있으며 다운로드 및 API를 가져다 사용할 수도 있도록 정리되어 있다. 제공기관도 공공기관, 위원회, 교육기관, 입법/헌법기관까지 다양한 기관에서 데이터를 제공하고 있어 정말 공공데이터 '포털'이라고 불릴만 하다.
그리고 공공데이터 포털에는 국가중점데이터라는 민간에서 활용하기 용이한 데이터를 중점적으로 관리를 하고 있어 관련하여 보다 상세한 데이터들을 제공받을 수 있다.
https://www.data.go.kr/index.do
한국 통계청
한국의 흐름을 확인하고 관리하는 한국 통계청에서 제공하는 데이터라면 얼마나 다양한 정보들을 제공하고 있을까? 공공데이터 포털이 특정 카테고리에서 각 기관에서 제공한 자세한 데이터를 얻을 수 있다면, 한국 통계청은 한국의 인구 총조사, 경제활동 인구조사, 소비자 물가조사, 사회조사, 교육비조사, 건설경기동향조사 등, 정말 한국의 현재를 읽을 수 있는 자세하고 풍부한 데이터들로 구성되어 있다. 현재 한국 사회를 이해하는데 있어서는 필수적으로 들여다보아야 하는 정보들로 가득하다.
국가통계포털
통계청에서 제공하고 이씨는 서비스로 대한민국의 정말 다양한 통계들을 제공해주고 있다. 그리고 실험통계 등 재미있는 시도들도 많이 하고 있어서 데이터를 좋아하는 분들이라면 이 사이트에서 이것저것 만져보시다가 시간가는 줄 모를 듯. (예를들면 통계로 시간여행, 해석남녀, 나의 물가 체험하기 등 재미있게 시각화해둔 자료들이 많이 있다)
아이들과 교육용으로 함께 둘러보아도 좋을 것 같다.
Kaggle
국내에서도 유명한 사이트 중 하나로는 Kaggle을 지나칠 수는 없을 것 같다
Kaggle은 데이터 사이언티스트들, 그리고 머신러닝 엔지니어들을 위한 온라인 커뮤니티 서비스인데, 머신러닝을 조금이라도 공부해보신 분이라면 이 사이트에서 타이타닉 데이터셋을 구하고 또 생존자를 예측하는 테스트를 해보셨을거라 생각한다. 물론 생존자 예측 경진대회까지 참가를.. :)
해당 사이트의 데이터는, 컴퓨터사이언스, 교육, 분류, 컴퓨터비전, NLP, 데이터시각화, Pre-trained 데이터 등으로 나뉘어 있고, 좀 더 구체적으로는 아래와 같은 데이터들이 잘 정리되어 있다.
사우디아라비아의 인구수
학생들의 테스트 데이터
미국 주소 데이터셋
코로나일 때 건강한 다이어트 식단 데이터
23년 글로벌 유튜브 통계
23년 가장 많이 플레이된 스포티파이 노래 등
이 외에도 재미있는 데이터들이 많으니 둘러보셔도 좋을 것 같다.
https://www.kaggle.com/datasets
그리고 데이터에 대해 진심인 다른 나라들의 사례들 또한 정리해보았는데,
이 나라들의 공통점은 데이터에 대한 철학, 그리고 원칙들을 보다 명확히 정의해두었다는 생각이 들긴했다.
'오픈데이터'라는 원칙인데, 이는 아래와 같다.
오픈 데이터에 대한 원칙
공공데이터를 개방한다.
데이터의 품질과 양을 중요시한다.
모두가 사용할 수 있다.
거버넌스 개선을 위해 데이터를 개방한다.
혁신을 위해 데이터를 개방한다.
Data.gov.uk
간결하고 필수적인 UI로 이루어져 있으며, 비즈니스, 정부, 사회, 건강, 지도, 교육 등 영국의 전반적인 데이터들을 확인할 수 있다. 기관별로 필터링 해서 결과를 좁힐 수도 있고, 토픽별, 포맷별로도 좁혀가며 데이터를 확인할 수 있다.
Data.gov
뭐랄까. URL을 보면 gov뒤에 아무런 확장자가 없다. (보통 영국은 gov.uk, 호주는 gov.au 등 뒤에 나라를 표기하는 확장자들이 있기 마련) 이것이 천조국의 위엄인가..
아무튼, 미국의 오픈데이터 역시 업데이트도 잘되어 있고 방대한 자료들을 찾아볼 수 있다.
뿐만 아니라 User Guide도 상세히 잘 정리해두어서 한번 읽어보고 시작해도 좋다.
https://catalog.data.gov/dataset
Australia Goverment Data
호주의 경우 국가적인 차원에서 데이터들을 잘 정제하여 공유를 하고 있다.
호주 해양과학청, 해양/기후센터, 호주연방 등의 자료들과, 5개의 주로 이루어져 있는 호주의 지역을 나누어 데이터를 소팅해서 볼 수도 있다. 포맷역시 pdf, html, csv 등의 데이터 유형을 나누어 볼 수 있으며 기간별로 로 세팅하여 자료들을 살펴볼 수 있도록 정리되어 있다. 호주에 대해서 궁금하다면 한번 조사해보도록 하자.
가볍게 소개한 국가 외에도 참고하면 좋을만한 기관들이 있어 아래 추가해두었다.
개인적으로는 투박할지는 몰라도 독일 사이트가 개인적으로는 깔끔하고 맘에든다. :-)
영국(data.gov.uk)
미국 (https://data.gov/)
호주 (data.gov.au)
독일(opendata.dk)
덴마크 -헬스 (data.cms.gov)
세상에는 정말 어마무시하게 많은 데이터들이 이미 존재하고 있는 듯 하다.
이 재료들을 활용하여 인사이트들을 얻고, 또 세상을 위한 멋진 서비스들을 만들어낼 수 있을지는.
바로 이 데이터들을 다루는 모든 사람들에게 달려있다고 생각한다.
모두 즐거운 데이터 여행되시기를 바라며..
Reference
https://ko.wikipedia.org/wiki/%EA%B3%B5%EA%B3%B5_%EB%8D%B0%EC%9D%B4%ED%84%B0_%EA%B0%9C%EB%B0%A9
국내 통계청 사이트들
https://kosis.kr/index/index.do
https://kosis.kr/common/meta_onedepth.jsp?vwcd=MT_ZTITLE&listid=O_22 *