brunch

You can make anything
by writing

C.S.Lewis

by 삼더하기일 Dec 19. 2022

쉽게 만나는 여러 가지 빅데이터 ③ AI 허브 (完)

인공지능 학습 전용 데이터 획득

쉽게 만나는 여러 가지 빅데이터


지난 쉽게 만나는 여러 가지 빅데이터 2편에서는 캐글(Kaggle)에 대해서 소개해드렸습니다. (https://brunch.co.kr/@8d1b089f514b4d5/69) 캐글은 우리나라를 넘어 전 세계의 다양한 데이터를 접할 수 있는 아주 소중한 플랫폼이었습니다. 캐글을 자주 애용한다면 다양한 기관에서의 데이터를 여러 차례 접할 수 있고, 뿐만 아니라 데이터 사이언스 분야의 실력자들이 빅데이터/인공지능에 관하여 의견을 나누고 자신의 코드를 정리해 올린 것을 쉽게 파악할 수 있습니다. 그리고 데이터 사이언스 입문자부터 시작해서 공부 목적, 인공지능 모델 구축 목적 등 데이터의 의도 역시 대략적으로나마 파악할 수 있는 것은 캐글의 정말 큰 장점 중 하나입니다.


다만, 전 세계의 글로벌한 데이터를 확인할 수 있다는 것은 명확히 장점으로 작용하는 반면 누군가에게는 우리나라의 데이터를 쓰지 않는 것이 낯섦을 안겨다 줄 수도 있습니다. 이러한 낯섦은 특히 영어에 친숙하지 않거나, 데이터 분야 자체에 갓 입문한 사람이라면 더더욱 크게 느껴질 수도 있습니다. 이전 쉽게 만나는 여러 가지 빅데이터 1편에서 살펴본 통합 데이터지도의 경우 우리나라의 여러 데이터를 소개해주고 있지만, 그 데이터를 인공지능 개발 목적으로 활용하기 어렵다는 단점이 있습니다. 통합 데이터지도에서 안내해주는 데이터는 텍스트, 이미지 등 인공지능 분야에서 주로 활용하는 비정형 데이터에 대한 자료가 상대적으로 부족하기 때문입니다.


AI 허브란?


대한민국의 AI 개발 지원을 위한 유용한 도우미


AI 허브 홈페이지 (출처 : https://aihub.or.kr/)


우리나라에서 AI 개발에 관심이 있는 사람이라면 그 누구든 AI 허브에 대해 알아야 할 필요가 있습니다. 다음은 AI 허브에서 직접 이야기하는 소개글입니다. "AI 허브는 AI 기술 및 제품·서비스 개발에 필요한 AI 인프라를 지원함으로써 누구나 활용하고 참여하는 AI 통합 플랫폼입니다." AI 허브는 AI 인프라를 지원한다고 명확히 서술하고 있습니다. 여기서 말하는 AI 인프라는 PC 자원, 일자리, 데이터 제안 등을 모두 포함하는 개념입니다. 하지만 AI 인프라 중 가장 핵심을 딱 하나만 고른다면 그것은 무조건 데이터입니다. 요즘 시대의 AI는 모두 빅데이터를 학습 재료로 사용합니다. 그리고 이 데이터를 확보하는 것은 결코 쉬운 일이 아닙니다. 


이러한 상황에서 수많은 이해관계자들로부터 AI 개발에 사용 가능한 데이터를 확보하여 국민들에게 무료로 제공해주는 플랫폼이 바로 AI 허브입니다. AI 개발에 관심이 있는 사람이라면 이러한 데이터 제공 서비스가 있다는 것이 매우 감사할 것입니다. 실제 현장에서 사용되는 데이터를 확인하는 일이 매우 복잡한 프로세스를 요하는 일일뿐더러 그런 데이터들을 보기 좋게 체계적으로 정리한 곳이 생각보다 그리 흔하지 않기 때문입니다. AI 허브에서는 사용자 입장에서 자유롭게 사용할 수 있는 여러 데이터들을 라벨링(AI 분야에서 데이터에 정답을 달아두는 행위, AI 개발에 중요한 작업)까지 해두어 높은 편의성과 함께 제공해주고 있습니다.


다양한 데이터를 주제에 따라 체계적으로 제공하는 AI 허브


AI 허브 데이터 분야 페이지 (출처 : https://aihub.or.kr/)

AI 허브의 가장 큰 장점을 하나 뽑으라면 언어(텍스트), 이미지, 영상, 음성 등 다양한 종류의 비정형 데이터를 모두 제공해준다는 것을 뽑지 않을 수 없습니다. AI 분야는 보통 어떤 데이터를 사용하느냐에 따라 대략적인 세부 분야가 구분된다는 특징이 있습니다. 텍스트 데이터를 주로 다루는 사람은 텍스트 데이터에 특화되어 AI 개발 학습을 하며 이 분야는 NLP(Natural Language Processing, 자연어 처리)라고 불립니다. 반면, 이미지/영상 데이터를 주로 다루는 사람은 해당 데이터에 특화된 AI 알고리즘을 공부하며 이 분야는 Vision 분야라고 부르곤 합니다. 즉 실제 사람들의 세부 관심 영역의 기준이라 할 수 있는 다양한 종류의 데이터셋을 AI 허브에서는 모두 제공해주어 AI에 관심 있는 사람 누구에게나 유익한 서비스를 제공합니다. 


그리고 AI 허브가 다양한 데이터를 제공해주는 것은 비단 데이터의 종류에 국한된 이야기만은 아닙니다. AI 허브에서는 헬스케어, 재난안전환경, 농축수산, 교통물류 등 데이터 종류뿐 아니라 매우 다양한 주제의 데이터를 수집하여 이용자에게 제공하고 있습니다. 헬스케어, 안전, 의료 등 이러한 데이터 주제는 보통 빅데이터 분야에서 도메인(Domain)이라 부릅니다. 아무래도 대부분의 사람은 관심 있는 도메인이 어느 정도 정해져 있습니다. 그렇기 때문에 해당 도메인으로부터 파생된 데이터를 집중적으로 체험하고 공부하고 싶어 하는 사람들 역시 흔치 않게 발견할 수 있습니다. AI 허브에서는 이러한 사람들로 하여금 자신의 관심사와 꼭 맞는 데이터를 제공해주는 환경을 구축했다고 할 수 있습니다.


AI 허브에서 얻을 수 있는 것


데이터 외 AI 인프라 활용


앞서 AI 허브는 AI 인프라를 종합적으로 지원하는 플랫폼이라고 스스로를 소개한다고 말했습니다. 이처럼 AI 허브는 단순히 AI 개발을 위한 데이터만을 제공하는 데 모든 목적을 두고 있지 않습니다. 앞서 잔시 언급하였지만 AI 개발을 위해 PC 장치를 지원해주기도 하고 경진대회 개최, 새로운 데이터 제안 등 다양한 활동을 진행 중에 있습니다. 이 모든 활동은 AI 개발에 진심인 사람이라면 누구나 흥미로워할 내용입니다. 학교나 회사에서는 쉽게 제공받을 수 없는 다양한 활동들이 포함되어 있기 때문입니다. 특히 이 중에 PC 장치 지원과 경진대회 개최는 특히 눈여겨 볼만한 AI 허브의 활동이라 할 수 있습니다. 


AI 허브에서는 지원 대상에 따라 GPU가 탑재된 AI 개발 목적의 PC 환경을 제공해주고 있습니다. AI를 개발하다 보면 대용량의 데이터를 확보하는 것에 문제를 겪을 뿐 아니라 그러한 대용량의 데이터를 직접 처리하고 알고리즘에 입힐 PC 환경을 구축하는 것에 많은 어려움을 느낄 수밖에 없습니다. 이러한 현실적인 문제를 해결할 하나의 실마리를 제공해 준다는 점에서 이는 매우 고마운 서비스라고 할 수 있습니다. 경진대회 개최 역시 마찬가지입니다. 각 기관에서 다양한 종류, 주제의 데이터를 실제 AI 개발에 활용하는 경진대회를 AI 허브는 많이 개최하고 있습니다. AI 개발에 관심이 있는 사람이라면 이를 통해 경험을 쌓고, 본인의 실력을 가늠해볼 수 있는 좋은 기회로 삼을 수 있습니다.


AI 허브 경진대회 페이지 (출처 : https://aihub.or.kr/)

무궁무진한 빅데이터/인공지능 아이디어 생성


AI 허브의 또 다른 활용 방법과 장점을 생각해보면 빼놓을 수 없는 것이 바로 무궁무진한 빅데이터/인공지능 아이디어를 생성하는 것에 큰 도움을 준다는 점입니다. 학교에서 빅데이터나 인공지능 관련 수업을 듣거나 대학원에서 학술 연구를 할 때, 회사에서 업무를 위해 데이터를 활용해야 할 때 등 빅데이터와 인공지능 분야에 종사하는 사람들은 다양한 상황에 놓일 수 있습니다. 그리고 이러한 상황들의 공통점이라고 한다면 바로 창의적으로 새롭게 데이터를 구해서 그동안은 진행하지 않았던 참신한 분석이나 AI 모델을 결과물로 내놓아야 하는 경우가 많다는 점입니다. 특히 학생의 입장이라면 데이터를 구하는 것부터 모델 생성까지 일련의 과정을 스스로 해야 하는 막막한 상황을 자주 겪게 될 것입니다.


사실 창의적인 AI 개발이나 빅데이터 분석이 듣기에는 정말 좋지만 이를 실행하기에는 어렵게 느껴질 수밖에 없는 현실입니다. 다만, AI 허브처럼 체계적으로 데이터를 정리하고 제공하는 기관이 있다면 이러한 빅데이터/인공지능 아이디어를 생성하는 데 큰 도움을 받을 수 있습니다. 참신한 생각을 통해 새로운 아이디어를 도출해도 이를 뒷받침할 데이터가 없다면 이를 실재화하는 것은 불가능하기 때문입니다. 오히려 거꾸로 데이터로부터 아이디어를 모으고 정리하기 시작한다면, 학교/직장 등 그 어느 곳일지라도 속한 조직에 바로 활용할 수 있는 유용한 아이디어를 훨씬 떠올리기 쉽습니다. 이는 빅데이터/인공지능 분야에서 새롭게 창업을 하거나 창업 아이디어를 꾀하고자 하는 사람들에게도 적용이 될 수 있는 이야기입니다.


환경은 준비됐습니다. 필요한 것은 행동입니다!


이번 쉽게 만나는 여러 가지 데이터 시리즈에서는 다양한 분야에서의 데이터를 접하고 활용할 수 있는 플랫폼에 대해서 소개를 해드렸습니다. 이 시리즈에서는 "데이터가 없는데 빅데이터와 인공지능 분야 공부와 경험은 어떻게 하지?"라는 고민에 답하기 위해 시작되었습니다. 결과를 종합하자면 통합 데이터지도, 캐글, AI 허브 등 생각보다 우리 주변에 빅데이터와 인공지능을 위한 환경은 잘 구축되어 있음을 알 수 있었습니다. 이는 매우 감사한 일임이 분명하지만, 주변에 환경이 구축된 것으로 만족을 하면 안 됩니다. 진짜 전문가가 되기 위해서는 적어도 이러한 소스들을 내가 직접 만져보고, 다뤄보는 경험과 행동이 뒷받침되어야 합니다. 단순히 여러 플랫폼이 존재하는 것을 아는 사람과 이를 실제로 활용하는 사람은 많은 차이가 있을 수밖에 없습니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari