AI, 모델보다 좋은 데이터가 우선
10년 전 회사에서 빅데이터 전담조직이 생기고, 각종 분석 솔루션들이 유행했다. 데이터 안 하면 세상에서 도태된다는 분위기였다. 집에 있는 초딩 2학년아이를 코딩 학원 보내던 시절이었다. 열풍이 지나간 후 데이터 전문가들의 현장 목소리는 '노가다'라는 결론. 돌릴 수 있는 데이터가 한정되어 있어서, 직접 손봐야 하는 고충을 말했다. 이후 데이터 거버넌스에 대한 목소리가 나오면서, 많이 정비하긴 했지만, 생각보다 데이터 품질이 빨리 개선되진 않았다.
요즘 나오는 AI는 대부분 모델 경쟁이다. 하루가 멀다 하고 벤치마크에서 경쟁력이 입증됐다고 한다. 과거 초고속 인터넷 경쟁같다. 실제 업스테이지 같은 LLM 기업들은 글로벌 벤치마크에서 상위권을 기록하는 기염을 토하고 있다. 하지만, 이제 오픈소스들이 다들 폐쇄형으로 전환하고, 그나마 많이 쓰는 구글 람다마저 최근에 중단할 수 있다는 보도도 있었다. 모델만으로 AI의 진화를 다 커버하긴 어려운 환경이다.
그럼 당장 뭘 해야 하는지 전문가들에게 물어보니, 데이터라는 답을 준다. 몇 년 전 앤드류 융 교수가 “모델보다 데이터를 개선하라”는 메시지로 Data Centric를 강조했다. 데이터에서 문제에 있는 부분을 제거하면, 좋은 결과가 나온다는 연구도 소개한다.(댓글 첨부) 요즘에는 토큰 수 자체를 줄이는 데이터 중심 압축(token compression)이나, 유해·편향 콘텐츠 교정하는 기술, 주요 특성만 잡아내는 피쳐링 엔지니어링 등으로 진화되고 있다.
MIT Sloan에서도 unstructured data에 주목하며,2025년 AI 전략의 핵심으로 데이터 엔지니어링과 데이터 중심 플랫폼 구축을 말한다. 컨설팅 회사 Roland Berger는 기업 경쟁력이 LLM 자체가 아닌 고유·품질 데이터 구조화 능력에 따라 좌우된다고 분석했다.
한국 기업들의 데이터 관리는 생각보다 어렵다. 일단 무조건 모으고 본다. 버릴 수도 없다. 데이터가 앞으로 돈이 된다고 난리 쳐서 그렇다. 그게 현실이다. 소버린 AI가 모델만 있는 게 아닌데, 데이터 이야기는 쏙 빠진다. 데이터 정비하는 게 아까 이야기한 대로 '노가다'이기 때문이다. 광 팔기 어려운 일이다. 아무도 나서지 않는다. 하지만, AI의 발전은 이미지넷처럼 수십만 방대한 이미지 파일을 '노가다'로 분류한 대학원생들로 시작했다. 생성형 AI 역시 데이터 일부를 가지고 나머지 데이터를 예측한다. 좋은 데이터 소스가 있어야 예측이든 추론이든 정확해진다. 이제 휴머노이드 수준이 올라가면, 굿 데이터가 전부일지 모른다.
저커버그가 최근 140억 달러를 주고 인수한 Scale AI는 데이터 라벨링 기업이다. 이 회사 CEO 28세 알렉산더 왕은 MIT 중퇴하고 캘리포니아로 넘어가 스케일(Scale)을 설립했고, AI 붐이 일면서 급속도로 성장하기 시작했다. 스케일은 전 세계에서 계약직을 고용하여 AI 모델을 훈련하는 기술 기업들의 데이터 태그를 담당한다. '노가다'가 돈이 되는 순간이다.
한국의 LLM이 진화되고 있지만, 사실 외국에서 수입한 큰 깡통 로봇에 한국어로 학습시키고, 튜닝해 가면서 억지로 만든 느낌도 있다. 거기다가 무슨 데이터를 집어넣어야 쓸모가 있는지는 패스하고 모델 만들고 고민하는 분위기다. 아이들 학원에서 선행교육을 시키는 거다. 아직 기초가 없는데, 갑자기 3-4년을 뛰어넘는 학습을 시킨다. 그게 지금 현장의 AI 현실이 아닌가 싶다. 솔직히 실무에선 머신러닝도 이제 시작단계인데, AI가 외래종 포식자가 돼버린 느낌이다. 클라우드 전환도 한참 남은 현실이다. 그냥 '닥공'이다.
양질의 데이터가 없으니 이제 Nvidia, Google, OpenAI 등 주요 기업들이 합성 데이터(synthetic data)를 말한다. 지난 4월 구글은 AI가 스스로 데이터를만들어내고, 그 데이터를 학습하며, 다시 경험을 만들어내는 순환 구조가 가능하다고 발표했다. 유전자가위 합성생물학처럼 전혀 다른 차원으로 데이터를 만드는 분위기다. 이리되면 데이터 편향이나 왜곡을어떻게 교정하느냐가 경쟁력이 된다. 그러면, 현장에서는 데이터 구조를 이해하고, 아키텍처를 잘 만드는 싸움이다.
팔란티어가 잘 나가는 이유는 이런 산재된 데이터의부가가치를 판단해주기 때문이라고 한다. 정말 중요한 정보만 찾아준다. 이 회사 시작은 여기저기 분산된 미 국방부 PC 재정비 프로젝트이었다. PC에 있는 분산된 데이터를 한 곳으로 모으는 일을 하다 보니, 비즈니스 모델을 봤다. 데이터를 한 곳으로 모으고 통일된 형태로 만들어줘서, 필요할 때마다 쓸 수 있게 해 줬다. 최근에도 팔란티어는 해당 산업 전문 대형 컨설팅과 같이 일을 한다고 한다. 데이터 분류를 하려면, 정말 중요한 데이터가 뭔지 선수들에게 물어보고 작업하는 거다. 데이터 온톨로지(ontology)가 그렇게 발전하고 있다.
AI로 뭘 할지 먼저 고민했으면 좋겠다. 모든 기업과 부서가 AI에 다 매달릴 수는 없다. 당장 중요한 몇 가지를 결정하고, 꾸준하고 일관되게 조직이든 예산이든 분배하면 된다. 어차피 LLM을 퍼블릭하게 가느냐, 프라이빗으로 가느냐 역시 데이터 공개 수준에 달려있다. 데이터 태그, 라벨링 역시 어디서 할 것인가 결정해야 한다. 내부에서 할지, 외부 아웃소싱할지. AI 100조 중 상당 부분은 현장에서 데이터 정제, 분류를 할 수 있는 인프라 지원으로 투자가 필요하다.
대규모로 국가/민간 데이터 구조화 사업을 집중적으로 해서 취업난을 겪고 있는 후배들이 좋은 커리어를 갖는데 도움이 되는 방법도 있다. 팔란티어 데이터 온톨로지 모델을 한국형으로 전환해보는 거다. 대기업 법인세 감면해주는 조건으로, 대학과 데이터캡스톤 프로젝트도 대폭 늘릴 필요가 있다. 그런 경험을 거친 친구들이 좋은 비즈니스 모델을 제안하면, 모태펀드에서 적극적으로 투자해 주는 것까지 연결해줘야 한다.
AI의 미래는 결국 다음 세대를 위한 투자다. 몇 년을 앞선 조기 교육보다는 차근차근 정성을 들여서 키우는 게 우선이다. 아이들이 이 세상을 잘 살아갈 수 있는 데이터가 뭔지 생각해보면, 그 해답을 찾을 수 있지 않을까 싶다.