도구를 넘어, 통찰을 말하다.
매일 아침 10~20개의 AI 관련 기사를 추리고, 번역과 요약을 하고, 이미지를 생성하며 웹링크를 만들어 GUAVA AI News를 만들었습니다. 하지만 어느 순간, 이 모든 것이 나의 것이 아닌 듯한 느낌이 들었습니다.
AI로 글을 쓰면 남들은 속일 수 있을지 모르지만, 내 마음은 속일 수 없었습니다. 친구들은 늘 말했죠.
"너만 그리 살면 뭐 하냐? 좀 영악하게 살어.. 바보처럼 살지 마. 자본주의에서는 돈을 버는 게 먼저야."
그렇게 돈 버는 노하우를, 남들처럼 쉽게 사는 방법을, AI로 머리 안 쓰고 하는 방법을 배우려고 수개월을 노력했습니다. 그러다 문득 깨달았습니다. 나는 원래 천재가 아니고 바보이고, 그게 바로 내 강점이라는 것을.
마치 수능을 준비하는 고3 학생이 모든 문제집을 다 풀어버린 것처럼, AI도 이제 학습할 데이터가 부족해지고 있습니다. 테슬라의 일론 머스크는 "우리는 이제 기본적으로 AI 훈련에서 누적된 인간 지식의 총합을 고갈시켰다"라고 말했습니다.
가트너의 분석에 따르면, 이미 AI 프로젝트의 60%가 합성 데이터를 사용하고 있습니다. OpenAI는 18개월이 넘는 개발 기간 동안 최소 2차례의 대규모 훈련을 진행했지만, 투입된 막대한 비용 대비 그 진보가 미미했다고 합니다.
빅테크 기업들은 이 문제를 해결하기 위해 다양한 방법을 시도하고 있습니다. 마치 셀카를 여러 각도에서 찍듯이, 하나의 데이터를 다양하게 변형하는 '데이터 증강' 기술을 활용합니다. 또한 완전히 새로운 데이터를 만들어내는 '합성 데이터' 기술도 발전시키고 있습니다.
특히 테슬라의 사례는 흥미롭습니다. 자율주행 학습을 위해 비가 오는 도로, 눈이 쌓인 도로, 사고가 난 상황, 공사 중인 도로 등 다양한 상황을 컴퓨터로 만들어내고 있죠. 의료 분야에서도 실제 환자의 개인정보를 보호하면서 MRI나 CT 스캔 같은 의료 이미지를 인공적으로 생성해내고 있습니다.
하지만 듀크대학교의 에밀리 벵거 교수가 경고했듯이, AI가 생성한 콘텐츠의 급증은 AI 모델 자체에 치명적일 수 있습니다. 마치 복사본의 복사본을 계속 만들면 품질이 떨어지는 것처럼, AI가 만든 데이터로만 학습을 하면 점점 품질이 떨어질 수 있다는 우려가 있습니다.
진정한 혁신가들은 이제 다음과 같은 질문을 던지고 있습니다:
이 기술로 어떤 본질적 문제를 해결할 수 있는가?
데이터의 양이 아닌 질적 향상을 어떻게 이룰 것인가?
AI의 환각 현상을 어떻게 막을 것인가?
실제 세계와의 괴리를 어떻게 줄일 것인가?
결국 우리는 이중의 도전에 직면해 있습니다. 한편으로는 데이터 고갈이라는 기술적 한계, 다른 한편으로는 그 기술을 의미 있게 활용하기 위한 본질적 도전. 이 시점에서 우리에게 필요한 것은 표면적 해결책이 아닌, 더 깊은 차원의 통찰입니다.
GUAVA가 걸어가야 할 AI 시대의 방향을 아직 잘 모르겠습니다.
그렇다고 모든 방향으로 뛰어갈 수는 없습니다. 어느 쪽이 맞는 방향인지 알 수 있는 나침반, 아니 나침반이 되어 줄 수 있는 글, 사람, 영상들을 계속 찾아보려고 합니다.
To Be Continue......