brunch

AI 기업: 데이터 확보 방법 5가지

by 코아

AI 기술의 성패는 데이터에 달려 있다고 해도 과언이 아닙니다. 인공지능 모델은 방대한 양의 데이터를 학습해야 높은 성능을 발휘할 수 있으며, 데이터의 양과 질이 좋아야 알고리즘의 정확도도 높아집니다. 이러한 이유로 AI 기업들은 양질의 데이터를 확보하기 위해 다양한 노력을 기울이고 있습니다. 본 글에서는 웹 크롤링, 사용자 데이터 수집, 공개 데이터셋 활용, 제휴 및 파트너십, 시뮬레이션 및 합성 데이터 생성의 다섯 가지 주요 데이터 확보 방법을 살펴보겠습니다.


00.png



1. 웹 크롤링을 통한 데이터 수집

웹 크롤링(web crawling), 또는 웹 스크레이핑(web scraping)은 인터넷상의 공개 웹사이트들을 자동으로 방문하여 데이터를 추출하는 방법입니다. 봇이나 크롤러 소프트웨어가 사람 대신 웹 페이지를 훑으며 필요한 정보를 모으는 방식으로, 방대한 양의 텍스트·이미지 등 자료를 한꺼번에 수집할 수 있습니다. 예를 들어 검색엔진이나 대규모 언어모델(LLM)은 전 세계 웹사이트의 콘텐츠를 크롤링해 학습 데이터를 구축하곤 합니다. 이처럼 웹 크롤링은 인터넷에 공개된 거의 무한대의 정보를 활용할 수 있어 AI에 필요한 데이터를 대량으로 확보하는 강력한 수단입니다.


웹 크롤링의 가장 큰 장점은 데이터 수집 규모와 속도의 획기적 향상입니다. 한 번 크롤러를 설정해 두면 사람 손으로는 엄두도 못 낼 방대한 데이터를 빠른 시간 내에 긁어모을 수 있고, 원하는 유형의 정보만 선별하도록 맞춤 설정도 가능합니다. 또한 공개 웹에서 자료를 얻는 것이므로 소규모 스타트업이나 개인 개발자도 공개된 데이터를 활용해 대기업과 유사한 데이터를 확보할 수 있어, 데이터 접근의 평등성을 높여준다는 평가도 있습니다. 반면 단점으로는, 수집한 웹 데이터의 품질 관리와 법적 문제가 있습니다.


웹에는 검증되지 않은 노이즈 데이터나 편향된 정보가 많아 별도의 정제(cleaning) 과정이 필요합니다. 아울러 웹상의 콘텐츠는 저작권으로 보호된 경우가 많아, 무단으로 데이터를 크롤링했다가는 법적·윤리적 논란에 휘말릴 수 있습니다. 실제로 2023년 이미지 생성 AI인 스테이블 디퓨전(Stable Diffusion)이 웹 크롤링으로 수집한 저작권 이미지를 무단 학습에 사용했다가, 이미지 공급사인 Getty Images로부터 저작권 침해 소송을 당한 사례가 있습니다. 이러한 문제 때문에 많은 기업들이 웹 크롤링을 활용하더라도, 저작권 준수와 데이터 사용 동의 등 윤리적 가이드라인을 세워 철저히 관리하고 있습니다.


2. 사용자 데이터 수집

사용자 데이터 수집은 기업이 자사 제품이나 서비스 이용자들이 생성한 데이터를 모아 AI 개발에 활용하는 방법입니다. 소셜미디어, 스트리밍 서비스, 전자상거래 플랫폼 등에서 사용자들이 남기는 다양한 로그와 콘텐츠, 센서 데이터 등이 이에 포함됩니다. 예를 들어 스포티파이(Spotify)는 가입자의 음악 청취 이력을 AI DJ 기능의 추천 모델 학습에 활용하고, 페이스북(Facebook)은 이용자들의 클릭, 좋아요 같은 상호작용 데이터를 모아 콘텐츠 추천 알고리즘을 발전시킵니다. 이처럼 기업 내부에서 발생하는 데이터(사설 데이터)는 해당 서비스에 특화된 귀중한 자산으로, 별도의 외부 구매 없이도 지속적으로 축적된다는 장점이 있습니다.


사용자 데이터의 장점높은 관련성과 독점성에 있습니다. 자사 서비스 이용자에게서 나온 데이터이므로 해당 AI 모델이 실제 동작할 환경과 매우 유사하며, 경쟁사와 공유하지 않는 고유한 데이터 자산이 됩니다. 특히 서비스 이용자가 많을수록 데이터가 기하급수적으로 쌓여 모델 개선에 유리한 선순환이 만들어집니다. 예를 들어 전기차 업체 테슬라(Tesla)는 전 세계 수백만 대의 차량으로부터 주행 정보를 실시간 수집하여 매년 약 500억 마일에 달하는 방대한 주행 데이터를 확보하고 있는데, 이러한 실사용 데이터 축적 능력이 자율주행 AI 개발 경쟁에서 막대한 이점을 제공하고 있습니다. 반면 단점으로 프라이버시 이슈를 들 수 있습니다.


사용자 데이터에는 개인 정보가 포함된 경우가 많아 데이터 수집과 활용에 엄격한 법적 규제가 적용됩니다. 예를 들어 유럽의 GDPR 등 개인정보보호 규정에 따라, 기업은 이용자로부터 명시적 동의를 받거나 익명화 조치를 하는 등 절차를 지켜야 합니다. 또한 자사 사용자 데이터만으로 학습된 AI는 특정 이용자 집단의 성향에 지나치게 맞춰져 편향될 위험이 있고, 신규 제품의 경우 충분한 사용자 데이터가 쌓이기까지 시간이 걸린다는 한계도 있습니다. 이러한 이유로 기업들은 사용자 프라이버시를 지키면서도 데이터 활용 효율을 높이기 위해 연합학습(federated learning) 같은 방법을 병행하기도 합니다.



3. 공개 데이터셋 활용

공개 데이터셋(public dataset)이란 누구나 자유롭게 접근하여 사용할 수 있도록 공개된 대규모 데이터 모음을 뜻합니다. 주로 학계, 정부, 산업 콘소시엄 등이 비영리 또는 연구 목적 등으로 데이터를 공개하며, 인터넷을 통해 내려받을 수 있게 한 것입니다. 대표적인 예로 이미지넷(ImageNet)은 100만 장이 넘는 사진에 대한 라벨이 붙은 공개 데이터셋으로, 이미지 인식 AI 발전에 큰 역할을 했습니다. 자연어 처리 분야에서는 전 세계 웹 페이지를 아카이브한 Common Crawl 데이터셋이 널리 쓰입니다. 이 외에도 각국 정부의 공개 데이터 포털, UCI 머신러닝 저장소, 캐글(Kaggle) 등의 플랫폼에 다양한 분야의 공개 데이터셋이 존재합니다. 특히 캐글에는 1만 9천개 이상의 공개 데이터셋이 공유되어 있어 데이터 과학자들이 자유롭게 활용하고 있습니다.


공개 데이터셋을 활용하는 장점은 우선 무료이면서 손쉽게 이용 가능하다는 점입니다. 인터넷에서 몇 번의 클릭만으로 필요한 데이터를 다운로드받아 바로 프로젝트에 투입할 수 있기 때문에, 예산이나 시간이 부족한 경우 유용한 출발점이 됩니다. 누구나 접근할 수 있는 공개 데이터는 AI 연구의 저변을 확대했고, 표준화된 데이터셋을 통해 다양한 알고리즘을 비교·평가함으로써 학계 발전에도 기여했습니다. 다만 단점도 분명합니다. 우선 자신이 해결하려는 문제에 정확히 들어맞는 데이터셋을 찾기 어려운 경우가 많습니다. 새로운 분야이거나 매우 특수한 도메인이라면, 공개 데이터만으로는 최신성과 맥락이 맞는 데이터를 확보하기 어려울 수 있습니다.


또한 공개 데이터셋이라 해도 그대로 업무에 쓰기에는 전처리와 가공이 필요하고, 때로는 도메인에 맞게 추가 라벨링을 해야 하는 부담이 있습니다. 법적 측면에서도, "공개"의 범위와 라이선스를 잘 따져야 합니다. 일부 공개 데이터는 연구 용도로만 사용이 허가되고 상업적 이용은 제한되기도 하며, 데이터 제공처의 조건을 준수해야 합니다. 마지막으로 공개 데이터셋은 경쟁 우위 확보 측면에서는 한계가 있습니다. 누구나 똑같이 이용할 수 있는 자료이기 때문에, 기업 입장에서는 남들도 다 가지고 있는 데이터 이상의 차별화된 가치를 얻기 어렵다는 점입니다. 요약하면 공개 데이터셋은 초기 모델 개발이나 성능 벤치마크 용도로 유용하지만, 프로젝트가 확장되고 상업화 단계에 이르면 자체 데이터 수집이나 다른 방법과 조합해 보완하는 경우가 많습니다.


4. 제휴 및 파트너십을 통한 확보

데이터가 경쟁력인 AI 업계에서는 파트너십을 맺고 데이터를 공유하거나 구매하는 전략도 많이 활용됩니다. 제휴 및 파트너십을 통한 데이터 확보란, 필요한 데이터를 보유한 다른 기업·기관과 협력을 맺어 데이터를 제공받거나 공동 활용하는 방식을 말합니다. 예를 들어 기술 기업이 의료 분야 AI를 개발하고자 병원과 연구 협약(MOU)을 체결해 환자 데이터를 제공받거나, 반대로 병원이 기술 기업과 손잡고 AI 솔루션을 개발하면서 데이터를 공유하는 식입니다. 이런 협업을 통해 각 참여자는 윈윈(win-win)의 효과를 얻습니다. 데이터를 제공하는 측은 금전적 대가나 AI 분석 결과를 얻고, 데이터 활용 측은 고품질의 도메인 특화 데이터를 확보할 수 있습니다. 때로는 공개적으로 얻기 힘든 독점적인 데이터를 파트너십으로 확보하여 경쟁력을 높이기도 합니다.


한편, 제휴의 형태는 단순 협업부터 데이터 라이선스 구매까지 다양합니다. 일부 기업들은 데이터 브로커나 다른 플랫폼으로부터 대량의 데이터를 유료로 구매하기도 하는데, 실제로 2023년 커뮤니티 사이트 Reddit는 자사가 보유한 방대한 대화 데이터에 대해 API 접근을 유료화하여 AI 학습용 데이터 판매에 나섰습니다. 이는 ChatGPT 등의 성공으로 데이터 수요가 급증한 데 대응해 새로운 수익 모델을 연 사례로 화제가 되었습니다.


파트너십을 통한 데이터 확보의 강점은 무엇보다 양질의 특화 데이터에 접근할 수 있다는 점입니다. 협력 대상이 해당 분야에서 오랜 기간 축적해온 도메인 데이터를 얻을 수 있으므로, 이를 활용하면 모델 성능을 크게 높일 수 있습니다. 예를 들어 구글 딥마인드(DeepMind)는 영국 Moorfields 안과병원과 연구 협약을 맺고 100만 건 이상의 익명화된 안구 CT 스캔 영상을 제공받아, 당뇨병성 망막증 등의 안과 질환을 판별하는 AI 모델을 개발했습니다. 이 협업으로 병원은 진단 보조 AI라는 성과를 얻고, 딥마인드는 대량의 의료 데이터를 확보하여 연구를 진척시킨 사례입니다. 이처럼 산·학·병원 간의 데이터 제휴는 의료, 자동차, 금융 등 다양한 분야에서 찾아볼 수 있으며, 산업 전반의 AI 발전을 가속화하고 있습니다. 하지만 주의할 점도 있습니다.


우선 파트너십을 성사시키기까지 법률적·행정적 절차와 시간이 들고, 데이터 사용 범위나 소유권에 대한 명확한 계약이 필요합니다. 또한 다루는 데이터가 민감한 개인 정보일 경우 철저한 비식별화와 윤리적 검토가 선행되어야 합니다. 실제로 딥마인드가 NHS와 진행한 또 다른 의료 데이터 프로젝트에서는 환자 동의 없이 식별 가능한 진료 정보를 활용했다가 큰 논란이 되어 당국의 조사를 받은 바 있습니다. 따라서 파트너십으로 데이터를 주고받을 때는 데이터 프라이버시를 최우선으로 고려하고, 투명한 거버넌스 체계를 갖추는 것이 필수적입니다. 그럼에도 불구하고 적절한 협력을 통해 얻은 데이터는 경쟁사가 쉽게 모방할 수 없는 자산이 되므로, 많은 AI 기업들이 전략적으로 파트너십을 구축하고 있습니다.



5. 시뮬레이션 및 합성 데이터 생성

합성 데이터(Synthetic Data) 생성은 현실 세계의 데이터를 직접 수집하는 대신 컴퓨터로 가상 데이터를 만들어내는 접근입니다. 시뮬레이션 소프트웨어나 생성 모델(Generative Model)을 활용해 실제 데이터와 통계적으로 유사한 특성을 가진 데이터를 인공적으로 생산해내는 것이죠. 이렇게 생성된 합성 데이터는 겉보기엔 진짜 데이터와 구분이 안 갈 정도로 비슷하지만 실제 개인이나 사물이 반영된 것이 아니므로, 민감 정보 노출 없이도 활용할 수 있다는 장점이 있습니다. 이 덕분에 기업들은 합성 데이터를 활용해 보다 자유롭게 데이터를 공유하고 알고리즘을 개발할 수 있습니다.


합성 데이터 생성에는 여러 가지 방식이 있습니다. 시뮬레이션의 경우, 예를 들어 가상 도시 환경을 만들어 자율주행차의 주행 데이터를 모사하는 식입니다. 실제 차량을 도로에 내보내 겪기 힘든 위험 상황도 컴퓨터 시뮬레이션으로는 무한히 만들어낼 수 있어, 현실에서는 드문 사례까지 포함한 방대한 학습 데이터를 안전하게 확보할 수 있습니다. 한편 GAN이나 확률 모델 등을 이용해 기존 데이터의 분포를 학습한 후 유사한 가짜 데이터를 생성하기도 합니다. 예를 들어 실제 사람 얼굴 사진들을 학습한 GAN 모델이 전혀 새로운 가상의 인물 얼굴들을 무한히 만들어내거나, 실제 금융 거래 데이터를 본뜬 가상 거래 내역을 생성하는 식입니다. 이러한 합성 데이터의 활용이 늘어나면서, 가트너(Gartner)는 “2024년에는 AI 및 애널리틱스 프로젝트에 사용되는 데이터의 60%가 합성 생성될 것이다”라고 전망하기도 했습니다. 이는 합성 데이터가 데이터 부족 문제를 해소할 유망한 솔루션으로 각광받고 있음을 보여줍니다.


합성 데이터의 강점은 데이터 수집의 여러 제약을 획기적으로 완화해준다는 데 있습니다. 프라이버시 문제를 해결하는 대표적인 수단인데, 실제 개인정보가 담긴 데이터를 그대로 쓰지 않고도 그 패턴만 학습한 가짜 데이터를 쓰면 법적 위험 없이 모델을 훈련할 수 있습니다. 또한 현실에 드문 상황이나 극단적인 케이스도 자유롭게 만들어낼 수 있어 데이터 편향을 줄이고 다양성을 높이는 데 도움이 됩니다. 예를 들어 자율주행 AI를 위해 폭설 속 운전, 보행자가 돌발 튀어나오는 상황 등 드문 이벤트도 시뮬레이션으로 무한 재현해 학습시킬 수 있습니다. 데이터 생성 속도와 비용 측면에서도 큰 이점이 있습니다. 합성 데이터는 현실에서 일일이 모을 필요가 없으므로 짧은 시간에 대용량 데이터셋을 구축할 수 있으며, 사람이 일일이 라벨링하는 비용도 절감됩니다. 한 보고에 따르면 실제 사진 한 장을 라벨링하는 데 6달러가 들지만, 합성으로 생성하면 6센트에 불과하다는 분석도 있습니다. 이처럼 맞춤형 데이터 생성의 용이성, 속도, 비용 절감 때문에 의료, 금융, 제조 등 여러 산업에서 합성 데이터 활용이 늘고 있습니다.


그러나 합성 데이터에도 한계와 위험성이 존재합니다. 가장 큰 우려는 현실과의 괴리입니다. 합성 데이터가 실제 데이터의 통계적 특성을 모방한다고 해도, 모든 복잡한 현실 세계의 맥락을 100% 재현할 수는 없습니다. 오직 합성 데이터로만 훈련된 모델은 미묘한 분포 차이로 인해 실제 상황에서 성능이 저하되거나 엉뚱한 판단을 내릴 수 있다는 연구 결과도 있습니다. 예를 들어 2023년 발표된 “재귀적 학습의 저주(The Curse of Recursion)”라는 논문에서는 모델을 인공적으로 생성된 데이터에만 의존해 학습시키면 시간이 지날수록 모델이 원래 풀고자 했던 과제를 잊어버리는(collapsed) 현상이 발생함을 보였습니다. 결국 합성 데이터는 실제 데이터를 완전히 대체하기보다는 보완하는 용도로 쓰는 것이 권장됩니다. 이러한 하이브리드 접근법의 일환으로, 기존의 실제 데이터에 데이터 증강(data augmentation) 기법을 적용해 변형된 새로운 예시들을 만들어내는 방법도 널리 활용됩니다. 합성 데이터를 활용할 때 또 하나 유의할 점은 편향의 문제입니다. 합성 데이터를 만들 때 사용된 원본 데이터나 알고리즘에 편향이 있으면, 생성된 데이터에도 그 편향이 그대로 들어갈 수 있습니다. 따라서 합성 데이터 세트를 만들 때는 원본 데이터의 다양성과 품질 관리, 그리고 생성된 데이터의 검증이 중요합니다.


맺음말

정리하면, AI 기업들은 필요한 데이터를 확보하기 위해 웹 크롤링, 사용자 데이터 수집, 공개 데이터셋, 파트너십, 합성 데이터 생성 등 다양한 전략을 병행합니다. 각각의 방법은 장단점이 뚜렷하며 적용 분야나 상황에 따라 적합도가 다릅니다. 결국 AI 모델의 성능은 얼마나 양질의 데이터를 확보하고 활용했는가에 달려 있다고 해도 과언이 아닐 것입니다. 기업들은 위의 방법들을 조합하여 데이터의 양과 질, 다양성을 최대화하고자 노력하고 있습니다. 예를 들어 초기에 공개 데이터셋으로 모델을 개발한 뒤, 서비스 출시 후 사용자 데이터로 개선하고, 부족한 부분은 합성 데이터로 보충하는 식의 혼합 전략도 흔합니다. 중요한 것은 데이터 수집의 양적 확대와 함께 윤리적 책임과 품질 관리를 병행하는 것입니다. 방대한 데이터를 확보하더라도 개인정보 보호나 저작권을 소홀히 하면 신뢰를 잃고 법적 리스크가 발생할 수밖에 없습니다. 따라서 최신 정보와 정확한 원칙에 기반해 데이터를 확보·활용하는 것이 AI 기업의 성공에 필수적입니다. 오늘 살펴본 다섯 가지 방법에 대한 이해를 바탕으로, 독자 여러분도 AI 산업에서 데이터가 어떻게 확보되고 활용되는지 명확히 파악하셨기를 바랍니다.



참고자료

Introduction to Data Collection for AI

What data is used to train an AI, where does it come from, and who owns it?

Synthetic data generation vs. real data for AI


keyword
매거진의 이전글AGI 5단계와 AI의 현재와 미래