AI는 아직 데이터에 목이 마릅니다

법을 넘나들면서라도 해결하고 싶은 그것

Apr 17. 2024

#1 데이터는 생각보다 더더욱 부족합니다

현재 AI Giants의 LLM 경쟁은 규모 경쟁에 따른 비용 문제를 어떻게 해결할까가 주요 변수로 떠올랐습니다. NVIDIA GPU 확보 경쟁과 META의 MTIA, 구글의 TPU 시리즈 등 각자 자신의 칩셋을 확보하고자 하는 행보는 이 변수를 보다 풍부한 스토리로 만들고 있지요.

하지만 여기서 우리가 같이 주목해야 하는 것은 데이터의 문제입니다. AI Giants들은 인터넷에서 합법적으로 수집할 수 있는 데이터를 모두 끌어다 쓰고도 부족해서 AI 결과물로 생성된 합성 데이터까지 동원하고 있습니다. 우리의 생각보다 심각한 수준으로 AI Giants는 데이터에 대한 갈급함을 가지고 있습니다. 상도덕에 어긋나는 불법적인 행위를 해서라도 해결하고 싶을 정도로 말입니다.

이는 향후 LLM의 경쟁 지형은 물론 이를 둘러싼 주변 생태계에 큰 영향을 미칠 수 있는 요소라고 판단합니다.

#2 Open AI는 Google의 데이터를 훔쳤습니다

OpenAI의 공동 창립자이자 사장으로 있는 Greg Brockman의 묵인(+지원)하에 OpenAI의 연구자들이 Speech-to-Text 기술인 Whisper를 이용해서 백만 시간 이상의 유튜브 데이터를 받아쓰고 ChatGPT4 훈련에 활용했음이 보도된 바 있습니다. 일부 연구자들은 이 행위가 YouTube의 정책에 위반됨을 얘기한 바 있으나 그대로 진행이 되었다고 하네요. 이 사건은 기술적 성능으로 1위를 유지하고 있는 OpenAI가 얼마나 데이터 확보에 필사적인지를 보여줍니다.

https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

How Tech Giants Cut Corners to Harvest Data for A.I.

OpenAI, Google and Meta ignored corporate policies, altered their own rules and discussed skirting copyright law as they sought online information to train their newest artificial intelligence systems.

https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

#3 META는 뭔가 있어

Meta는 페이스북, 인스타그램으로 많은 SNS 데이터를 보유하고 있는 것 처럼 보이지만 이를 자신의 AI 학습에 바로 확인하기에는 많은 법적 걸림돌이 있습니다. 이미 2018년 ‘Cambridge Analytica Data Breach’ 사건이 공개되면서 규제 기관과 사용자 그룹의 신뢰을 잃고 치명상을 입었던 입장에서는 보다 합법적이고 안전한 데이터 확보 방안이 필요할 것입니다(Meta의 이런 안전지향 태도는 논란의 여지가 많은 질문에 대해 효율적인 회피 방안을 가지고 있던 Llama2에서도 드러납니다).

이에 Meta는 작년에 전 세계 출판 업계에서 상당한 영향력을 가진 ‘Simon & Schuster’ 인수 계획을 내부 변호사와 함께 논의한 것으로 알려졌습니다. ‘Simon & Schuster’는 세계 5대 출판사 중 하나로 2020년에는 ‘Penguin Random House’와의 합병을 진행하려다 반독점법으로 거부된 바 있는 회사입니다. 2020년대에 들어서도 글로벌 시장에서 기록적인 매출 성장을 기록하며 글로벌에서도 높은 영향력을 보유하고 있죠. 또한 디지털 혁신에 매우 적극적인 회사로 업계에서는 전자책, 오디오북 시장에 대한 높은 소비를 이끌어낸 회사로 평가받고 있기에 데이터 수집을 원하는 입장에서는 조건에 딱 들어맞는 Data Supplier가 아닐 수 없습니다.

이러한 거대 출판사 인수를 고민했던 Meta의 전략은 향후 AI 시장의 흐름이 단순히 기술 성능과 비용의 경쟁으로만 흐르지 않을 것임을 암시합니다.

https://www.theguardian.com/books/2024/apr/09/meta-discussed-buying-publisher-simon-schuster-to-train-ai

Meta ‘discussed buying publisher Simon & Schuster to train AI’

Audio shared with the New York Times appears to record executives discussing purchase of the US books giant to feed into its large language models

https://www.theguardian.com/books/2024/apr/09/meta-discussed-buying-publisher-simon-schuster-to-train-ai

#4 양적-질적으로 우수한 Data Supplier가 필요합니다

인터넷에서 합법적으로 획득할 수 있는 데이터로는 성능 경쟁의 우위를 장담할 수 없고 차별적이고, 양적으로 풍부하고, 양질이기까지 한 데이터를 확보할 수 있다면 이 AI LLM 전쟁에서 확실한 전기를 잡을 수 있을 것입니다. 비용 혁신이라는 명제를 AI Giants 모두가 수렴해갈 지점으로 본다면 이러한 데이터 전략은 어쩌면 차별화 측면에서 확실한 승리 전략이 될 수도 있습니다.

#5 여러가지 상상을 해봅니다

- 이렇게 된다면 Meta AI는 다른 AI Giants보다 고급 언어를 구사할 수 있게 되고, 언어의 중의적 의미에 대해 다 잘 파악할 수 있을까?

- ‘Simon & Schuster’의 데이터를 활용해서 훈련되었다는 것 자체가 사용자들에게는 Premium Brand의 가중치를 주게 되지 않을까?

- 이 시도의 전략적 임팩트가 다른 AI Giants에게 영향을 줄 것이고, AI Giants들이 보다 미디어 시장 확보에 적극적으로 나서게 되지 않을까?

- 규제 기관은 이에 빠르게 움직여서 AI Giants들의 미디어 시장 잠식 방어에 나서게 될까?

- AI Giants들이 미디어 시장 잠식에 나선다면 우리의 사회는 어떤 영향을 받게 될까?

keyword

Web3.0이 도대체 뭐길래매거진의 다음글