brunch

You can make anything
by writing

C.S.Lewis

by 삼더하기일 Apr 24. 2021

데이터가 없는데 빅데이터 어떻게 공부해?

데이터를 구할 수 있는 곳

빅데이터 공부를 시작하기 전, 그리고 이제 막 시작하는 단계에서 생길 수 있는 고민거리가 하나 있다. 우선, 빅데이터 공부를 시작하기 전이라면 내가 가지고 있는 데이터가 없는데 어떻게 빅데이터 처리하는 방법을 배우고 실습해볼 수 있을까? 하는 걱정이 들 수 있다. 이제 막 공부를 시작하는 단계에서도 마찬가지다. 대부분의 입문용 빅데이터 수업은 수업의 마지막 단계에서 프로젝트 실습을 요구한다. 그런데 프로젝트를 진행하려고 하니 내가 가지고 있는 데이터가 없어서 무엇부터 시작해야 할지 난감할 수 있다. 웬만하면 개인 수준에서는 가지고 있는 데이터가 없는 경우가 대부분이기 때문이다.


가진 데이터가 없는데 빅데이터 공부하고 실습을 어떻게 해?


사실 수업을 듣는다면 실습용 데이터를 제공해주는 경우가 대부분이기 때문에 공부하기 전에 이런 걱정을 크게 할 필요는 없다. 공부를 한다고 할지라도 특정 온라인 클래스를 수강하거나 책을 공부하거나 하다 보면 거기서 딸려 나오는 제공 데이터가 있다. 그렇기에 내가 가진 데이터가 없다고 빅데이터 공부와 실습에 막연함을 느낄 필요는 없다. 하지만 수업을 위해 실습을 진행하거나 더 재미있게 빅데이터 공부를 하기 위해서는 다양한 데이터 셋으로 실습을 하는 것이 좋은 것은 당연한 사실이다. 그리고 세상은 이미 빅데이터를 강조하고 있기 때문에 내가 사용할 수 있는 데이터를 조금만 노력하면 인터넷에서 쉽게 얻어볼 수 있다.


인터넷을 조금 살펴보면 다양한 데이터 셋을 만나볼 수 있습니다!


그래서 이번 시간에는 빅데이터, 데이터 분석을 공부하고자 하는 사람들이 조금 더 재미있고 흥미롭게 공부를 할 수 있도록 다양한 데이터 셋을 얻을 수 있는 장소를 소개해주려고 한다. 앞서 언급하였듯, 공부를 하는 입장에서는 학습을 할 때 제공되는 실습용 데이터 셋만으로도 충분하기 때문에 다른 데이터를 만져보는 게 귀찮다면 굳이 알고 있지 않아도 된다. 하지만 개인적으로 다양한 데이터 셋을 다뤄보는 것이 데이터 사이언스, 데이터 분석 분야에 있어서 매우 중요한 경험이라고 생각하며 특정한 데이터 분석 프로젝트를 진행함에 있어서도 실습용 데이터 셋 보다는 직접 구한 데이터로 활동을 진행하는 것이 더 의미 있다고 생각한다.


다양한 데이터 셋을 얻는 방법으로는 크게 웹 크롤링 하기, 프로그램에 내재된 데이터 이용하기, 무료로 배포된 데이터 활용하기, 데이터 경진대회 플랫폼 이용하기 등이 있다. 사실 웹 크롤링과 데이터 경진대회 플랫폼은 빅데이터를 공부하는 데 있어 상당히 중요한 요소 중 하나기 때문에 따로 시간을 들여서 소개할 계획이긴 하다. 그래도 이번 시간에는 가능한 다양하게 일반 개인 입장에서 여러 데이터 셋을 얻을 수 있는 곳을 간략하게 소개하려 한다. 각 소스마다 장단점이 있기 때문에 이를 잘 고려해서 본인이 원하는 데이터를 살펴보면 재미있게 데이터 분석을 공부하는데 많은 도움이 될 것이다.



1. 직접 크롤링하여 데이터 얻기


개인이 웹 상에 있는 데이터를 가장 확실하게 얻을 수 있는 방법은 직접 크롤링을 하여 데이터를 얻는 것이다. 내가 원하는 웹 사이트에서 직접 데이터를 긁어올 수 있기 때문에 본인 흥미에 맞는 데이터를 가장 잘 수집할 수 있는 방법이다. 본인 흥미에 따라 데이터를 선택할 수 있다는 점에서 최고의 소스가 될 수 있지만 기본적인 프로그래밍 실력을 요한다는 단점이 있다. 물론 초급자가 코딩을 조금만 배운다면 웹 크롤링을 충분히 수행할 수 있지만 이제 막 공부를 시작하려는 입장에서 부담이 되는 것은 사실이다. 그리고 학습 목적이라면 큰 연관은 없지만 크롤링한 데이터를 상업적으로 이용할 경우 문제가 될 수 있으니 조심해야 한다.




2. 프로그램에 내재된 데이터 셋 이용하기


보통 빅데이터를 분석하면 파이썬이나 R 프로그램을 이용한다. 어떤 프로그램을 이용하는 가는 개인의 선택이지만 프로그램 선택과 관련해서 고민이 된다면 이전 게시글(https://brunch.co.kr/@8d1b089f514b4d5/13)을 참고하기 바란다. 그리고 파이썬이던 R이던 프로그램 내에 기본적으로 어느 정도의 데이터 셋이 내재되어 있다. 데이터 셋이 내재되어 있다는 의미는 프로그램 내에서 특정 코드를 작성하면 알아서 데이터가 불러와진다는 것이다. 많은 수업에서 제공하는 실습용 데이터 셋도 대부분 이 데이터인 경우가 많다. 사실 데이터를 구하는 난이도만 보면 가장 쉽다고 볼 수 있지만 아무래도 재미없는 데이터, 여기저기서 다 쓰는 지겨운 데이터라는 인식이 있을 수는 있다.




3. 무료로 배포되는 데이터 활용하기


다양한 데이터를 얻을 수 있는 다음 방법으로는 무료로 배포되는 데이터 활용하기가 있다. 사실 어느샌가부터 빅데이터 인재 양성과 빅데이터 활용 장려 기조가 생성되어 있기 때문에 국가 및 기업 차원에서 다양한 데이터 셋을 배포하고 있다. 아직 다른 나라에서 데이터 분석을 해 본 경험은 없지만 빅데이터 분야에 있어 우리나라의 강점을 하나 뽑으라면 이 부분이 아닐까 싶다. 각 조직마다 다양하게 데이터 셋을 배포하고 있지만 이번 시간에는 대표적으로 국가에서 제공하는 공공데이터 포털, 네이버에서 제공하는 네이버 데이터 랩을 소개하려 한다.


먼저, 국가에서 공공데이터 포털(https://www.data.go.kr/index.do)을 통해 국가 기관에서 수집하고 관리하는 데이터 셋을 제공해주고 있다. 공공데이터 포털의 장점이라 함은 여러 공공기관에서 발생되는 정말 다양한 데이터 셋을 쉽게 접할 수 있다는 점이다. 다만, 많은 데이터가 아직 구조적으로 모자란 부분이 있어 분석에 활용하기에 한계가 있는 데이터도 많이 섞여있다. 그리고 네이버 데이터 랩(https://datalab.naver.com/)에서는 검색어, 쇼핑, 댓글과 관련한 통계 데이터를 제공한다. 엄청나게 다양한 종류의 데이터를 제공하고 있다고는 할 수 없지만 사람들이 흥미 있어하는 데이터 셋을 편리하게 제공해주고 있다는 장점을 지닌다. 이 두 포털 모두 처음 이용하는 사람도 쉽게 데이터를 다운로드할 수 있도록 구성되어 있다.


공공데이터 포털과 네이버 데이터 랩



4. 데이터 경진대회 플랫폼 이용하기


마지막으로 다양한 데이터 경진대회 플랫폼을 이용하여 여러 데이터 셋을 접해볼 수 있다. 데이터 경진대회 플랫폼은 쉽게 말해 주기적으로 데이터 사이언스 공모전을 개최하는 플랫폼이다. 데이터 경진대회 플랫폼에 접속하면 현재 진행되고 있는 경진대회는 물론 이미 종료된 경진대회의 역사까지 간단하게 살펴볼 수 있다. 여기서 눈여겨봐야 할 점은 간단하게 회원가입을 하고 로그인만 하면 쉽게 경진대회를 참여할 수 있다는 점이고 이미 종료된 경진대회 역시 참가하여 순위를 겨룰 수는 없지만 대회에 이용되었던 데이터를 다운로드하여 학습 및 실습을 진행해볼 수 있도록 서비스를 제공하고 있다는 점이다.


전 세계적으로는 캐글(https://www.kaggle.com/)이라는 플랫폼이 데이터 사이언스 경진대회에 있어서 가장 유명하다. 그리고 국내에서는 데이콘(https://www.dacon.io/)이라는 플랫폼이 존재하여 많은 국내 빅데이터/AI 학습자들을 모으고 있다. 캐글이던 데이콘이던 당장 수상을 노린다면 입문하는 사람 입장에서는 상당히 어려운 것이 사실이지만 학습을 목적으로 생각하면 입문자에게도 추천하는 플랫폼들이다. 두 플랫폼 모두 앞서 언급하였듯 여러 경진대회에서 이용된 데이터를 다운로드할 수 있도록 제공하고 있으며 경진대회에 참가했던 사람들의 아이디어와 코드 공유 문화도 정착되어 있어 이를 참고할 수도 있다.


캐글(Kaggle)과 데이콘 홈페이지


세상이 좋아져 데이터는 충분히 구할 수 있으니
다양한 데이터를 꼭 접해볼 것을 추천합니다!


데이터를 공부하고 이를 직업으로까지 삼고 있는 사람으로서 사실 이러한 데이터 제공이 없었다면 어떻게 공부를 했을까 막막하다. 말 그대로 세상이 좋아져 데이터를 구할 수 있는 다양한 장소가 생겼기에 공부를 하는 사람 입장에서는 다행이라고 생각한다. 그리고 다시 한번 말하지만 빅데이터를 다루는 사람이던 인공지능을 다루는 사람이던 다양한 데이터 셋을 통해 배운 내용을 실습해보고 프로젝트를 진행해 보는 것은 정말 중요하다. A라는 곳에서 잘 작동하던 알고리즘이나 모델이 B라는 데이터 셋에서는 그렇지 않은 경우가 정말 허다하다. 학생과 실무자 모두 이런 다양한 소스를 활용하여 한 차원 높은 역량을 함양하기 바란다.



※ 평소 빅데이터/인공지능에 궁금한 점이 있어 답변을 원하는 내용이 있다면 공유해주시면 감사하겠습니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari