brunch

You can make anything
by writing

C.S.Lewis

by 삼더하기일 Dec 12. 2022

쉽게 만나는 여러 가지 빅데이터 ② 캐글(Kaggle)

학습/경진용 데이터 파악

쉽게 만나는 여러 가지 빅데이터


지난 쉽게 만나는 여러 가지 빅데이터 1편에서는 통합 데이터지도에 대해서 소개를 드렸습니다. (https://brunch.co.kr/@8d1b089f514b4d5/68) 통합 데이터지도는 여기저기 개방되어 있는 다양한 데이터들을 한눈에 보기 쉽게 정리한 아주 고마운 플랫폼이었습니다. 빅데이터/인공지능 분야를 공부하는 사람이 아무리 많은 시간을 공부에 할애하더라도 통합 데이터지도에 있는 데이터를 모두 살피는 것은 불가능할 정도로 해당 플랫폼에는 정말 다양한 데이터셋이 소개되어 있습니다. 분명 통합 데이터지도 내의 각 데이터들을 파악하고 분석해본다면 여러 데이터를 다뤄본 경험이 향상해 실력 향상에 큰 도움을 줄 수 있습니다.


다만, 통합 데이터지도가 아무리 다양한 데이터를 경험하기에 좋은 플랫폼 일지라도 그 한계는 있습니다. 해당 데이터들은 대부분 개방에 특별한 목적을 두고 있지 않습니다. 대부분의 데이터는 그 특성에 따라 분석에 최적화된 데이터, 인공지능 개발에 최적화된 데이터, 학습에 최적화된 데이터 등이 나누어져 있습니다. 하지만 통합 데이터지도의 데이터들은 모두 데이터를 개방한 기관에서 일방적으로 데이터만을 공개하고 있을 뿐입니다. 게다가 공공데이터가 대부분인 그 특성상 아무래도 데이터들이 모두 우리나라 공공기관으로부터 나온 것이라는 한계점 역시 있습니다. 학습을 하는 사람의 입장에서 때로는 더욱 글로벌하며, 목적이 명확한 데이터 확보가 필요할 수 있습니다.


캐글(Kaggle)이란?


전 세계 데이터 과학자들의 놀이터이자 전쟁터


이러한 상황에서 통합 데이터지도의 보완책으로 캐글(Kaggle) 플랫폼을 생각해볼 수 있습니다. 캐글은 데이터 과학 분야의 대표적인 플랫폼 중 하나로 다양한 데이터 기반 경진대회를 개최하는 곳입니다. 많은 기업, 학교는 본인들의 데이터 문제를 해결하기 위해 캐글 플랫폼에 데이터 및 문제 상황을 제시하고 전 세계의 수많은 데이터 과학자들은 그 경진대회에 참가하여 역량 상승 및 문제 해결 과정에 참여하게 됩니다. 단언컨대 캐글은 이 세상에 존재하는 모든 빅데이터/인공지능 경진대회 플랫폼 혹은 커뮤니티 중 가장 규모가 크고 권위 있는 플랫폼이라고 할 수 있습니다.


캐글 메인 페이지 (출처 : kaggle.com)


캐글이 전 세계에서 가장 권위 있는 데이터 과학 플랫폼이라는 사실은 곧 전 세계에서 가장 실력 있는 데이터 과학자와 데이터를 보유한 기업들이 캐글 플랫폼으로 모인다는 것을 의미합니다. 그렇기 때문에 캐글은 단순히 빅데이터/인공지능 경진대회가 열리는 곳 그 이상의 의미를 지니고 있습니다. 수많은 데이터 보유 기업들이 참여하고 있기 때문에 다양한 국가의 다양한 조직에서 제공하는 데이터를 무료로 받아볼 수 있으며, 전 세계에서 가장 실력 있는 데이터 과학자들이 모이기 때문에 그 사람들의 생각, 노하우, 경험 등을 모두 체험해 볼 수 있습니다. 비단 여러 데이터를 경험해볼 수 있는 것뿐 아니라 빅데이터 분야를 공부하는 사람에게 있어서는 지식의 창고와 같은 역할을 하는 곳이라고 볼 수 있습니다.


다양한 기업의, 목적 있는 데이터 제공


다시, 원래 목적이었던 다양한 데이터 확보에 초점을 맞추어 생각해볼 때 캐글은 그 어떤 곳보다 다양한 조직이 데이터를 제공하고 있는 장소 중 하나입니다. 여기서 말하는 조직이란 일반적인 사기업에 한정되어 있지 않습니다. 이름만 들으면 아는 유명 글로벌 기업들, 프로 스포츠 리그, 대학교/대학원의 학술적 자료, 코로나와 같은 공공 개방 자료까지 정말 다양한 데이터셋을 캐글을 통해 만나볼 수 있습니다. 빅데이터 분야를 공부하는 사람이라면 관심이 가는 특정 주제의 데이터가 있을 확률이 높습니다. 이때 그 사람이 제조업, IT회사, 스포츠, 게임 등 어떤 분야의 데이터에 관심이 있을지라도 캐글만 접속한다면 해당 데이터를 만나볼 수 있습니다. 


캐글 데이터셋 페이지 (출처 : kaggle.com)


그리고 데이터의 목적성이 어느 정도 정해져 있다는 것은 캐글의 데이터를 논할 때 빼놓을 수 없는 장점입니다. 캐글에서 제공하는 모든 데이터가 그런 것은 아니지만, 경진대회에서 활용되는 데이터셋의 경우 구조상 캐글 및 주최 측이 경진대회 개최 목적과 목표를 명백히 서술해두고 있습니다. 때로는 인공지능 모델 구현이 그 목표가 될 수도 있고 때로는 서술적인 데이터 분석이 그 목적이 될 수도 있습니다. 이때 데이터에 대략적인 목적이 제시되었다는 것은 정말 큰 장점입니다. 해당 목적을 통해 우리는 실제 데이터 보유 기업에서는 어떤 고민을 하고 있는지에 대해 간접적으로 체험할 수 있습니다. 또한 잠시나마 해당 기업의 직원이 된 것처럼 그 데이터 문제를 풀어나가고자 한다면 이로부터 오는 경험은 그 무엇보다 값지다고 할 수 있습니다.


캐글 데이터셋으로부터 얻을 수 있는 것


편리한 분석 환경에서의 학습


회사에서 데이터를 살필 때가 아니라면 일반적으로 사람들은 데이터 분석을 위해 개인 PC를 이용하게 됩니다. 대부분의 경우 확보한 데이터를 활용하기 위해 csv나 xlsx와 같은 파일 형식으로 직접 파일을 저장하고 개인 PC 안에서 프로그램을 설치해 직접 프로그램을 가동해 해당 데이터를 불러오게 됩니다. 물론 최근에는 클라우드 시스템을 활용하여 이 과정을 대체하는 경우도 점차 늘어나고 있지만 아직은 흔히 말하는 로컬 환경(개인 PC 환경)을 이용해서 데이터를 살피고 분석하는 경우가 많습니다. 다만 이렇게 개인 PC만을 활용해 데이터를 확보하고 분석한다면, 확보한 모든 데이터들을 PC 내에 체계적으로 정리하고 또 대용량의 데이터를 저장하기 위한 저장공간을 확보하여야 한다는 부담감이 존재하기 마련입니다.


이때, 캐글 플랫폼에 존재하는 시스템을 활용한다면 캐글 내의 데이터들을 더욱 효율적으로 활용할 수 있습니다. 캐글은 노트북(Notebook) 기능을 제공하여 직접 파이썬 프로그래밍을 캐글 플랫폼 내에서 구현할 수 있도록 서비스를 제공하고 있습니다. 또한 이 기능을 사용한다면 캐글에서 제공하는 데이터셋을 간단한 코드를 통해 간편하게 불러올 수 있도록 환경을 구축해 이용자 입장에서 편의성을 높여주고 있습니다. 실제 기업에서 활용하는 데이터셋은 대부분 그 용량이 매우 큽니다. 우리가 일반적으로 생각하는 엑셀 파일과는 비교가 되지 않는 수준입니다. 이러한 점을 감안할 때 캐글의 데이터셋 제공과 노트북 기능은 학습의 편의성까지 챙겨주는 아주 고마운 존재라고 할 수 있습니다.


수준 높은 분석가들의 노하우 및 코드 공유


캐글 Discussions 페이지 (출처 : kaggle.com)


캐글 데이터셋을 활용할 때 또 하나의 빼놓을 수 없는 장점은 바로 수준 높은 분석가들의 노하우와 코드를 직접 확인할 수 있다는 점입니다. 앞서 캐글 플랫폼은 다양한 데이터를 제공해줄 뿐만 아니라 실력 있는 전 세계의 데이터 과학자들이 모이는 플랫폼이라고 했습니다. 이 두 가지 성질이 합쳐져 역량 높은 데이터 과학자들이 각 데이터 셋을 분석한 방법이나 노하우가 캐글 플랫폼에는 잘 기록되어 있다는 새로운 장점을 만들어내게 됩니다. 우리가 무언가 공부를 할 때 아주 질 좋은 참고서가 생긴 개념이라고 비유하면 이해가 쉽습니다. 그래서 새로운 학습자 입장에서는 데이터를 탐색적으로 살펴보는 방법부터 시작하여 문제를 해결하기 위한 의사결정 과정을 모두 그대로 확인하고 따라 해 볼 수 있다는 장점이 생기게 됩니다.


그리고 이러한 노하우 공유 문화는 데이터셋을 분석한 코드를 통해서만 이루어지는 것은 아닙니다. 애초에 캐글에는 Discussions라는 페이지가 따로 존재합니다. 즉, 대놓고 빅데이터/인공지능 분야에서 사람들이 궁금해하는 점과 토론이 필요한 점을 자유롭게 이야기할 수 있는 장소를 마련해 두었습니다. 이는 단순히 구글링을 통해서 필요한 내용을 검색해보는 것과는 차원이 다른 이야기입니다. 왜냐하면 캐글에는 전 세계에서 가장 실력 있는 데이터 과학자들이 몰려있기 때문입니다. 전 세계에서 가장 실력 있는 데이터 과학자가 몰려있기 때문에 특정 주제가 주어졌을 때 가장 심도 있으면서도 발전적인 대화가 오가는 곳이 바로 캐글이기도 합니다. 우리는 너무도 쉽게 데이터 과학 전문가들의 의견과 경험을 캐글을 통해 확인하고 문의할 수 있습니다.


빅데이터/인공지능 전문성 향상에 최적화된 캐글


최근 정말 많은 사람들이 빅데이터/인공지능 분야에 관심을 보이고 해당 분야에서 전문가가 되고자 노력을 하고 있습니다. 그리고 너무나 당연하게도 한 분야의 전문가가 되기 위해서는 기초를 탄탄히 쌓고 난 뒤에 심도 있는 고민과 학습을 병행하여 역량 향상을 도모해야 합니다. 어떤 분야이던 이 과정들을 어디서 어떻게 겪어나가면 좋을지 고민하는 것은 피할 수 없는 고민의 영역입니다. 다만 고맙게도 적어도 빅데이터/인공지능 분야에서만큼은 캐글이라는 유익한 플랫폼이 큰 도움을 주고 있습니다. 여러 데이터셋들을 경험 및 분석해보고 다른 사람의 접근 방식과 비교까지 할 수 있습니다. 이는 캐글이 데이터 과학분야의 걸음마부터 달리기까지의 모든 과정을 도와주는 아주 유용한 곳이라는 것을 의미합니다.


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari