brunch
매거진 AI

2-4-1. 데이터 — AI 문명의 기억과 주권

AI는 데이터를 먹고 자라며, 인간의 세계를 복제한다.

by 유비관우자앙비
“AI는 데이터를 먹고 자란다. 인간에게 기억이 정체성을 만든다면, 인공지능에게 데이터는 존재 그 자체다.”


1️⃣ 데이터는 AI의 기억이다

AI가 세상을 이해하는 방식은 인간과 다르지만, 학습의 본질은 같습니다. 인간이 경험과 기억을 통해 사고한다면, AI는 데이터를 통해 사고합니다. 즉, AI에게 데이터는 단순한 ‘정보’가 아니라 기억이며, 동시에 정체성입니다.


GPT, Gemini, Claude 같은 거대 언어 모델이

인류의 언어를 다루는 이유는, 그 안에 이미 인류의 데이터가 녹아 있기 때문입니다. AI는 수많은 문서, 영상, 코드, 소셜미디어의 문장을 학습하며 ‘세계의 구조’를 통계적으로 이해합니다. 결국 AI는 데이터를 통해 세상을 기억하는 존재입니다.


2️⃣ 데이터의 세 가지 층위

AI 시대의 데이터는 세 겹의 층위로 나뉩니다.


공개 데이터(Open Data): 위키피디아, 블로그, 뉴스, 논문 등 공개된 정보. GPT-3는 이 데이터들로 훈련되었고, 인터넷이라는 거대한 ‘지식의 공공재’ 위에 세워졌습니다.

독점 데이터(Private Data): 기업·기관·정부가 보유한 독점적 자산. 의료영상, 제조공정, 금융거래, 사용자 로그 등 AI 성능의 격차는 결국 이 ‘독점 데이터’의 품질에서 발생합니다.

합성 데이터(Synthetic Data): 현실 데이터가 부족할 때, AI가 스스로 만들어내는 시뮬레이션 데이터. 자율주행, 헬스케어, 로보틱스 분야에서 급성장 중입니다.


이 세 층위의 균형이 AI 생태계의 ‘지능 격차’를 결정짓는 핵심 변수입니다.


3️⃣ 플랫폼의 데이터 전략 — “수집이 곧 전략”

AI 시대에 플랫폼은 단순한 서비스 사업자가 아닙니다. 이들은 인간의 ‘행동을 데이터로 변환하는 기술기업’으로 진화했습니다. 각 플랫폼은 자신이 속한 영역에서 AI 학습에 필요한 현실 데이터를 가장 많이, 가장 정밀하게 확보하려 합니다.


카카오모빌리티 — 도로 위의 센서 네트워크

카카오모빌리티(카카오T)는 단순한 택시 호출 앱이 아닙니다. 전국 30만 대 이상의 차량, 하루 1,000만 건 이상의 주행 기록이 실시간으로 수집되는 ‘도로 위의 센서 네트워크’입니다.


수집 데이터: GPS 이동 경로, 정차 패턴, 운전 습관, 도로 정체 상황, 승·하차 지점, 요금 변동, 날씨 및 교통 이벤트

AI 활용: 실시간 최적 경로 추천 및 교통 예측 모델

향후 자율주행 알고리즘 학습용 데이터셋 구축

보험, 차량 관리, 에너지 효율 서비스로의 확장


카카오는 지금의 모빌리티 서비스를 통해 자율주행 시대의 학습 데이터’를 축적하고 있습니다. AI가 운전하는 미래에, 지금의 택시 운행 로그가 교과서가 될 것입니다.


토스(Toss) — 금융 행동 데이터의 AI 실험실


토스는 금융 서비스의 껍질을 벗고, 이제 “행동 데이터로 금융을 재설계하는 기업”으로 자리 잡고 있습니다.


수집 데이터: 소비 패턴, 자산 이동 흐름, 결제 빈도, 투자 성향, 신용 점수 변화, 이체 시각, 카테고리별 소비 행동

AI 활용: 개인 맞춤형 금융 조언 및 신용평가 AI , 마이데이터 기반 ‘AI 금융 어드바이저’, 투자 성향에 따른 리스크 예측 모델


토스는 “데이터가 곧 신용*이라는 철학 아래, 금융의 미래를 수학이 아닌 AI의 학습 능력에 맡기고 있습니다. 사용자의 행동 하나하나가 모델의 예측력으로 전환되는 구조입니다.


네이버(Naver) — 언어와 행동의 집합지

네이버는 한국에서 가장 방대한 언어·검색·쇼핑 데이터를 보유한 플랫폼입니다. 하루 수천만 명의 사용자가 남기는 검색어, 리뷰, 클릭, 결제 로그는

‘한국인의 언어 감각’을 반영한 초대형 데이터셋입니다.


수집 데이터: 검색어, 클릭 히스토리, 리뷰 텍스트, 쇼핑 구매 로그, 광고 반응, 사용자 위치

AI 활용: 하이퍼클로바X(국산 초거대언어모델) 학습, 네이버 쇼핑·스마트스토어 개인화 추천, Papago, Clova Note 등 언어 기반 서비스 강화


네이버의 AI는 단순히 정보를 추천하지 않습니다.

‘한국어 문맥과 감정’을 이해하는 모델을 학습하고 있습니다. 이는 구글이나 오픈AI가 가지지 못한,

언어적 문화감각이라는 ‘로컬 데이터의 힘’입니다.


다만, 최근 검색이 LLM에 밀리고 있는 상황에서 네이버가 어떻게 반응할 것인지에 대해서는 세간의 주목이 몰리고 있습니다. 두나무 지분의 획득은 검색 열위의 상황에서 스테이블 코인으로 새 판을 짜려는 것이 아니냐는 관측이 나올 정도입니다.


쿠팡(Coupang) — 쇼핑을 넘어 ‘생활을 예측하는 AI’

쿠팡은 표면적으로는 이커머스 기업이지만, 실제로는 ‘한국인의 생활을 가장 깊이 이해하는 AI 기업’입니다. 로켓배송, 쿠팡이츠, 쿠팡플레이—이 세 개의 데이터가 하나의 사용자 단위로 통합되어 있습니다.


쇼핑 데이터 — ‘의도의 기록’

검색, 장바구니 체류 시간, 결제 타이밍, 반품 사유까지 모든 행동이 ‘소비 의도’의 로그로 변환됩니다. AI는 이를 바탕으로 재구매 주기, 수요 예측, 추천 모델을 고도화합니다.


쿠팡이츠 — ‘공간의 데이터’

배달 주문 데이터는 사용자의 위치·시간·식습관을 보여줍니다. AI는 “언제, 어디서, 무엇을 먹는가”를 학습하며 도시의 생활 리듬과 교통 흐름을 동시에 분석합니다.


쿠팡플레이 — ‘시간의 데이터’

OTT 시청 데이터는 사용자의 여가 패턴과 감정 반응을 측정합니다. “금요일 밤 드라마를 보는 사람은 토요일 오전에 식료품을 주문할 확률이 높다” — 쿠팡의 AI는 이런 상관관계를 스스로 학습합니다.


결국 쿠팡은 ‘무엇을 샀는가’보다 ‘어떻게 살고 있는가’를 분석하는 생활 예측 AI 플랫폼으로 진화 중입니다. 쿠팡의 경쟁자는 더 이상 쇼핑몰이 아니라, 사람의 하루를 먼저 예측하는 모든 기술이라고도 볼 수 있습니다. 쿠팡없이 어떻게 살았을까를 전 국민이 느끼게 하는 것이 목표인 만큼 더 해자를 깊게 파지 않을까 싶네요.


메타(Meta) — 감정의 언어를 수집하는 기업

메타는 세계 최대의 ‘감정 데이터 기업’입니다. 인스타그램·페이스북·스레드(Threads)에서 30억 명이 매일 자신의 감정과 관심사를 남깁니다.


수집 데이터: 좋아요·댓글·스크롤 속도·시청 시간·표정·색상·관계망

AI 활용: Llama 모델의 감정 언어 학습, Reels 추천 알고리즘 고도화, 광고 타게팅 및 감정 예측


메타의 AI는 인간의 감정을 수치화하고, 기분의 패턴을 예측하려 합니다. 이는 단순한 언어 이해가 아닌 ‘감정 모델링’의 영역입니다. 메타의 AI는 세상을 관찰하지 않고 세상의 감정을 기억하려 합니다.


4️⃣ 데이터의 패권 — ‘소유’에서 ‘주권’으로


데이터의 시대는 이제 소유권에서 주권(Sovereignty)의 시대로 넘어왔습니다.


미국은 AI 기업 중심의 ‘데이터 자유무역’을 유지하며 혁신을 가속화하고, 유럽은 GDPR을 통해 데이터를 개인의 권리로 정의하며 윤리를 강화하고, 중국은 ‘데이터 보안법’을 제정해 국가 단위 통제를 강화했습니다. 한국은 로컬 클라우드·AI 모델을 통해 ‘소버린 AI’ 구축을 추진 중입니다.


데이터는 이제 기술의 문제가 아니라 안보와 주권의 문제입니다.


5️⃣ 스타트업의 도전 — ‘작은 데이터, 깊은 가치’


대형 플랫폼이 ‘양’을 모은다면, 스타트업은 ‘질’을 겨냥합니다.


무스마(Moosma) — 건설현장 센서 데이터를 분석해 작업 안전성과 장비 상태를 예측하는 AI를 개발.

뷰노(VUNO) — 병원 CT/X-ray 데이터로 의료 AI 정밀도 개선.

레티널(Retinal) — 시각장애인을 위한 보행 데이터 수집, 인간 중심 AI 모델 구축.

마이뮤직테이스트(MyMusicTaste) — 팬덤 행동 데이터를 분석해 공연 시장의 수요를 예측.


이들은 말합니다. 모든 데이터가 중요한 게 아니다. 문맥이 맞는 데이터가 진짜 지능을 만든다고.


6️⃣ 데이터의 미래 — AI가 데이터를 만드는 시대


AI는 더 이상 데이터의 소비자만이 아닙니다. 이제 스스로 데이터를 만들어내는 창조자(Generator)로 진화했습니다.


자율주행 시뮬레이션, 합성 의료 이미지, AI가 만든 이미지로 AI를 학습시키는 멀티모달 모델까지— 세상은 점점 더 ‘AI가 만든 데이터’로 돌아가고 있습니다. 이는 개인정보와 법적 리스크를 줄이면서 AI의 성능을 빠르게 확장시킬 수 있는 새로운 방법입니다. AI가 세상을 학습하던 시대에서, 이제 세상이 AI로 학습되는 시대가 오고 있는 것입니다.


7️⃣ 결론 — 데이터는 문명의 기억이다

AI 산업의 경쟁은 결국 누가 더 좋은 데이터를 가졌는가로 귀결됩니다. 데이터는 기술이 아니라, 철학이자 권력입니다.


AI는 데이터를 먹고 성장하며, 데이터의 품질이 곧 AI의 품격을 결정합니다. 인간이 기억으로 문명을 세웠듯, AI 역시 데이터로 문명을 세우고 있습니다.


“데이터는 AI의 기억이며, 그 기억을 지배하는 자가 미래의 문명을 설계한다.”


다음 편 예고

이제 기억이 완성되었다면, 이제는 AI가 움직이기 위한 에너지—전력의 이야기가 남았습니다. 4-2. 전력 — AI 문명을 움직이는 보이지 않는 엔진 편에서는 AI 데이터센터의 전력, 원자력·재생에너지·LNG의 교차로를 다룹니다.

keyword
매거진의 이전글2-3. GPU를 장악한 거인들