인공지능(AI)은 컴퓨터가 인간에게 똑똑해 보이는 일을 하도록 만드는 기술로 설명할 수 있습니다. 이런 의미에서 AI는 이미 널리 퍼져 있습니다. 예를 들어, 내비게이션 소프트웨어는 검색 알고리즘을 사용해 집에서 새 레스토랑까지 가장 빠른 경로를 찾고, 비행기는 스스로 착륙하며, 교통 카메라는 광학 문자 인식을 통해 과속 차량의 번호판 문자를 식별합니다. 또한, 온도 조절기는 집에 누가 있는지에 따라 온도 설정을 조정합니다. 이것이 모두 AI이며, 마케팅에서는 그렇게 표현하지 않더라도 그렇습니다. 오래된 농담에 따르면, AI가 일관되고 신뢰할 수 있게 작동할 때 그것은 그냥 공학이라고 불립니다. (반대로 또 다른 농담에 따르면, AI는 아직 제대로 작동하지 않는 것들을 의미합니다.)
현재 전 세계의 주목을 받고 있으며 막대한 컴퓨팅 파워와 전기를 소비하는 AI는 딥러닝이라는 기술에 기반을 두고 있습니다. 딥러닝에서는 선형대수학(특히 행렬 곱셈)과 통계를 사용하여 학습 과정에서 대규모 데이터셋으로부터 패턴을 추출하고 학습합니다. 구글의 Gemini나 OpenAI의 GPT와 같은 대규모 언어 모델(LLM)은 방대한 텍스트, 이미지, 비디오 데이터를 학습하여 여러 능력을 개발했으며, 이 중에는 명시적으로 학습하지 않았던 "돌발적" 능력도 포함되어 있습니다(이는 희망적인 가능성뿐만 아니라 우려를 자아내기도 합니다). 이와 같은 모델들의 더 전문화되고 특정 분야에 맞춘 버전들이 이제 이미지, 음악, 로봇 공학, 유전체학, 의학, 기후, 날씨, 소프트웨어 코딩 등 다양한 분야에서 존재합니다.
인간이 이해할 수 있는 범위를 초월한다
이 분야의 급속한 발전은 AI가 "약물 개발을 장악하고 있다", "할리우드 스토리텔링의 모든 측면을 변화시킬 것이다", 그리고 "과학 자체를 변혁할지도 모른다"는 예측을 불러일으켰습니다(이 모든 주장들은 지난 1년 동안 이 신문에서 언급되었습니다). AI는 과학적 발견을 가속화하고, 사무직 업무의 지루함을 자동화하며, 아직 상상할 수 없는 놀라운 혁신을 이끌어낼 것이라고 합니다. AI는 효율성을 높이고 경제 성장을 촉진할 것으로 예상됩니다. 그러나 동시에 일자리를 대체하고, 프라이버시와 보안을 위협하며, 윤리적 딜레마를 초래할 수도 있습니다. AI는 이미 인간이 무엇을 하고 있는지 이해하는 능력을 능가한 상태입니다.
■ A short history of AI
1956년 여름, 뉴햄프셔에 있는 Dartmouth College에 소수이지만 저명한 인물들이 모였습니다. 그들 중에는 정보 이론의 창시자인 Claude Shannon과, 스웨덴 왕립 과학 아카데미가 수여하는 노벨 경제학상과 Association for Computing Machinery가 수여하는 Turing Award을 모두 수상한 유일한 인물인 Herb Simon이 있었습니다. 이들은 젊은 연구자인 John McCarthy의 초대로 모였으며, McCarthy는 "기계가 언어를 사용하고, 추상화와 개념을 형성하며, 현재 인간에게만 맡겨진 문제들을 해결할 수 있는 방법"에 대해 논의하기를 원했습니다. 이 모임은 McCarthy가 "artificial intelligence"이라고 이름 붙인 것에 전념한 첫 학술 모임이었으며, 이후 60여 년 동안 이 분야의 청사진을 제시했지만, 그 야망에 걸맞은 진전을 이루지 못했습니다.
Dartmouth meeting는 사람처럼 생각할 수 있는 기계에 대한 과학적 탐구의 시작을 의미하지는 않았습니다. 튜링상의 이름을 딴 앨런 튜링도 이 문제에 대해 고민했으며, 매카시에게 영감을 준 존 폰 노이만도 마찬가지였습니다. 1956년까지 이 문제에 접근하는 여러 가지 방법이 이미 존재하고 있었습니다. 역사학자들은 매카시가 자신의 프로젝트를 위해 "인공지능"이라는 용어를 만든 이유 중 하나가 그것이 이 모든 접근 방식을 포괄할 만큼 충분히 넓었기 때문이라고 생각합니다. 일부 연구자들은 세계에 대한 사실과 기하학 및 기호 논리와 같은 공리들을 결합하여 적절한 반응을 추론하는 시스템을 선호했으며, 다른 이들은 많은 다른 것들의 끊임없이 업데이트되는 확률에 따라 하나의 사물의 확률이 결정되는 시스템을 구축하는 것을 선호했습니다.
이후 수십 년 동안 이 주제에 대한 지적 활발함과 논쟁이 많았지만, 1980년대에 이르러서는 "전문가 시스템(expert systems)"이 미래의 방향으로 널리 합의되었습니다. 이러한 시스템은 기호 논리를 사용하여 인간의 전문 지식을 포착하고 적용하려는 것이었습니다. 특히 일본 정부는 이러한 시스템과 그에 필요한 하드웨어에 대해 큰 지지를 보냈습니다. 그러나 대부분의 경우, 이러한 시스템은 실제 세계의 복잡성을 처리하기에는 너무 경직되어 있었습니다. 1980년대 후반에 이르러 AI는 과도한 약속과 미흡한 성과의 대명사가 되면서 평판이 크게 떨어졌고, 연구자들은 이 용어를 회피하기 시작했습니다.
그러나 오늘날의 AI 붐은 이러한 인내심 있는 노력의 한 구석에서 탄생했습니다. 1940년대에 뇌 세포(neuron의 일종)가 작동하는 방식에 대한 기초가 모아지기 시작하면서, 컴퓨터 과학자들은 기계도 같은 방식으로 연결될 수 있는지 궁금해하기 시작했습니다. 생물학적 뇌에서는 뉴런 간의 연결이 있어 하나의 뉴런에서의 활동이 다른 뉴런에서의 활동을 촉발하거나 억제할 수 있습니다. 하나의 뉴런이 하는 일은 그와 연결된 다른 뉴런들이 무엇을 하고 있는지에 달려 있습니다. 이러한 모델링의 첫 번째 시도는 Marvin Minsky ( 다트머스 모임 참석자)가 하드웨어를 사용하여 뉴런 네트워크를 모델링한 것입니다. 그 이후로, 소프트웨어에서 상호 연결된 뉴런 층이 시뮬레이션되었습니다.
이 인공 신경망은 명시적인 규칙을 사용하여 프로그래밍되는 것이 아니라, 대신 많은 예시에 노출되는 것을 통해 "학습(learn)"합니다. 이 학습 과정에서 뉴런 간의 연결 강도(“weights” 비중)가 반복적으로 조정되어 결국 주어진 입력이 적절한 출력을 생성하도록 합니다. Minsky 자신은 이 아이디어를 포기했지만, 다른 사람들은 이를 발전시켰습니다. 1990년대 초까지 신경망은 손으로 쓴 숫자를 인식하여 우편물을 분류하는 등의 작업을 할 수 있도록 학습되었습니다. 연구자들은 더 많은 뉴런 층을 추가하면 더 정교한 성과를 이룰 수 있을 것이라고 생각했습니다. 그러나 이는 시스템을 훨씬 더 느리게 만들기도 했습니다.
새로운 종류의 컴퓨터 하드웨어가 이 문제를 해결할 방법을 제공했습니다. 2009년 스탠퍼드 대학의 연구원들이 기숙사 방에서 게이밍 PC를 사용해 신경망의 실행 속도를 70배나 증가시켰을 때, 그 잠재력이 극적으로 입증되었습니다. 이는 모든 PC에 있는 “중앙 처리 장치”(central processing unit;CPU)뿐만 아니라 화면에 게임 세계를 생성하는 “그래픽 처리 장치”(graphics processing unit; GPU)를 이 컴퓨터가 가지고 있었기 때문에 가능했습니다. 그리고 이 GPU는 신경망 코드를 실행하는 데 적합한 방식으로 설계되었습니다.
이러한 하드웨어 가속과 더 효율적인 학습 알고리즘을 결합한 결과, 수백만 개의 연결을 가진 신경망도 합리적인 시간 내에 학습할 수 있게 되었으며, 신경망은 더 큰 입력을 처리하고, 결정적으로 더 많은 층을 가질 수 있었습니다. 이러한 “더 깊은(deeper)” 네트워크는 훨씬 더 강력한 성능을 발휘하는 것으로 드러났습니다.
이 새로운 접근 방식의 힘, 즉 "deep learning"으로 알려진 방식의 강력함은 2012년의 ImageNet Challenge에서 명백해졌습니다. 이 챌린지에서 경쟁하는 이미지 인식 시스템들은 백만 개 이상의 라벨이 붙은 이미지 파일을 포함한 데이터베이스를 제공받았습니다. "개"나 "고양이" 같은 단어에 대해, 데이터베이스에는 수백 장의 사진이 포함되어 있었습니다. 이미지 인식 시스템들은 이러한 예시를 사용해 입력된 이미지를 한 단어로 설명하는 출력으로 "mapping"하는 방법을 학습하게 됩니다. 그런 다음, 이전에 본 적 없는 테스트 이미지를 입력받았을 때 이러한 설명을 생성하도록 도전받았습니다. 2012년, 당시 University of Toronto에 있던 Geoff Hinton이 이끄는 팀이 딥러닝을 사용해 85%의 정확도를 달성했고, 이는 즉각적으로 돌파구로 인식되었습니다.
2015년까지 이미지 인식 분야의 거의 모든 사람들이 딥러닝을 사용하게 되었으며, ImageNet Challenge에서의 우승 정확도는 96%에 도달하여 평균적인 인간의 점수를 능가하게 되었습니다. 딥러닝은 또한 음성 인식(소리를 텍스트로 매핑), 얼굴 인식(얼굴을 이름으로 매핑), 번역 등과 같이 "인간에게만 맡겨졌던" 다른 여러 문제에도 적용되었습니다.
이 모든 응용 분야에서 인터넷을 통해 접근할 수 있는 방대한 데이터는 성공의 필수 요소였습니다. 더욱이 인터넷을 사용하는 사람들의 수는 큰 시장의 가능성을 보여주었습니다. 그리고 네트워크가 더 커질수록(즉, 더 깊어질수록), 더 많은 학습 데이터를 제공받을수록 그 성능은 더 향상되었습니다.
deep learning은 곧 다양한 새로운 제품과 서비스에 도입되기 시작했습니다. Amazon의 Alexa와 같은 음성 기반 기기가 등장했고, Online transcription services(온라인 녹취 서비스)가 유용해졌으며, 웹 브라우저는 자동 번역 기능을 제공하게 되었습니다. 이러한 것들이 AI에 의해 가능해졌다고 말하는 것이 멋있게 들리기 시작했으며, 사실 거의 모든 AI로 언급되는 기술은 딥러닝에 의존하고 있었습니다.
ChatGPT와 그 경쟁자들은 실제로 "언어를 사용하고 추상화를 형성"하는 것처럼 보입니다.
2017년에는 더 많은 컴퓨팅 파워와 데이터로 제공되는 양적 혜택에 질적인 변화가 추가되었습니다. 그것은 transformer라고 불리는 새로운 방식의 뉴런 간 연결 배치였습니다. transformer는 패턴의 요소들이 멀리 떨어져 있어도 신경망이 입력 내의 패턴을 추적할 수 있게 해주며, 데이터를 분석할 때 특정 특징에 "attention"를 기울일 수 있게 해줍니다.
transformer는 네트워크가 문맥을 더 잘 이해하도록 만들어 주었으며, 이는 "자기 지도 학습(self-supervised learning)"이라는 기법에 적합했습니다. 본질적으로, 학습 중 일부 단어들이 무작위로 비워지며, 모델은 가장 적합한 후보를 채워 넣도록 스스로 학습합니다. 이 학습 데이터는 사전에 라벨이 필요하지 않기 때문에, 인터넷에서 수집한 수십억 단어의 원시 텍스트를 사용하여 이러한 모델을 훈련시킬 수 있습니다.
transformer 기반의 대규모 언어 모델(large language models;LLMs)은 2019년에 OpenAI라는 스타트업이 GPT-2라는 모델을 출시하면서 널리 주목받기 시작했습니다. (GPT는 "Generative Pre-trained Transformer"의 약자입니다.) 이러한 LLM들은 명시적으로 훈련되지 않은 "돌발적(emergent)" 행동을 할 수 있는 능력을 가진 것으로 밝혀졌습니다. 방대한 양의 언어 데이터를 흡수한 덕분에 요약이나 번역과 같은 언어 작업에서 놀라운 능력을 보였을 뿐만 아니라, 단순 산수나 소프트웨어 작성과 같은 훈련 데이터에 암묵적으로 포함된 작업에서도 능숙했습니다. 다만, 이로 인해 입력된 데이터의 편향이 그대로 재현되어 인간 사회의 많은 기존 편견이 모델의 출력에 나타나기도 했습니다.
2022년 11월에는 더 큰 OpenAI 모델인 GPT-3.5가 챗봇 형태로 대중에게 공개되었습니다. 웹 브라우저만 있으면 누구나 질문을 입력하고 응답을 받을 수 있었습니다. 그 어떤 소비자 제품도 이렇게 빠르게 확산된 적은 없었습니다. 몇 주 만에 ChatGPT는 대학 에세이부터 컴퓨터 코드에 이르기까지 모든 것을 생성하기 시작했습니다. AI는 또 한 번의 큰 도약을 이룬 것입니다.
첫 번째 AI 기반 제품군이 인식(recognition)에 기반한 것이라면, 이번 두 번째 제품군은 생성(generation)에 기반합니다. Stable Diffusion이나 DALL-E와 같은 딥러닝 모델들은 텍스트 프롬프트를 이미지로 변환하는 데 '확산(diffusion)'이라는 기술을 사용했습니다. 다른 모델들은 놀라울 정도로 현실적인 비디오, 음성 또는 음악을 생성할 수 있습니다.
이번 도약은 단지 기술적인 것만은 아닙니다. 무언가를 만들어내는 것(generation)은 큰 차이를 만듭니다. ChatGPT와 Google의 Gemini, Anthropic의 Claude(Anthropic은 이전에 OpenAI에서 일했던 연구자들이 설립한 회사)와 같은 경쟁자들은 다른 딥러닝 시스템과 마찬가지로 계산을 통해 출력을 생성합니다. 하지만 요청에 따라 새로운 것을 만들어내는 사실 때문에, 이들은 얼굴을 인식하거나 받아쓰기를 하거나 메뉴를 번역하는 소프트웨어와는 매우 다르게 느껴집니다. 이들은 정말로 "언어를 사용"하고 "추상화를 형성"하는 것처럼 보이며, 이는 바로 매카시가 꿈꾸었던 바와 같습니다.
■ AI 기업들은 곧 인터넷 데이터의 대부분을 소진할 것입니다.
2006년, 당시 University of Illinois에 있던 Fei-Fei Li는 인터넷을 활용하여 AI 연구를 혁신할 수 있는 방법을 보았습니다. 언어학 연구는 80,000개의 "명사 동의어 세트"(noun synonym sets:synsets)를 식별해냈는데, 이는 같은 종류의 사물을 설명하는 동의어 그룹을 의미합니다. Fei-Fei Li박사는 인터넷에 있는 수십억 개의 이미지가 각 동의어 세트에 해당하는 수백 가지 예시를 제공할 것이라고 생각했습니다. 이들을 충분히 모으면, 이 분야에서 이전에 본 적 없는 AI 학습 자원을 확보할 수 있을 것이라고 보았습니다. 그녀는 "많은 사람들이 모델에 주목하고 있습니다. 우리는 데이터에 주목합시다."라고 말했습니다. 그 결과가 바로 ImageNet이었습니다.
인터넷은 이미지를 제공했을 뿐만 아니라, 이들 이미지를 라벨링하는 데 필요한 자원도 제공했습니다. 검색 엔진이 개, 고양이, 의자 등으로 추정되는 사진들을 제공한 후, 이러한 이미지들은 사람들이 Amazon의 크라우드소싱 서비스인 Mechanical Turk를 통해 검사하고 주석을 달았습니다. 이를 통해 수백만 개의 정제되고 검증된 이미지로 이루어진 데이터베이스가 탄생했습니다. 2012년, AlexNet이라는 프로그램이 ImageNet의 일부를 학습에 사용하여 "딥러닝(deep learning)", 즉 이전에 사용되었던 것보다 훨씬 더 많은 층(layer)을 가진 신경망의 놀라운 잠재력을 입증했습니다. 이것이 AI 붐의 시작이었으며, 이를 위한 학습 데이터를 제공하기 위한 라벨링 산업의 시작이기도 했습니다.
이후 대규모 언어 모델(LLM)의 발전도 인터넷 데이터에 의존했지만, 다른 방식으로 이루어졌습니다. LLM의 고전적인 학습 방식은 이미지의 내용을 가장 잘 설명하는 단어를 예측하는 것이 아니라, 텍스트 조각에서 잘려나간 단어를 주변 단어를 바탕으로 예측하는 것이었습니다.
이러한 유형의 훈련에서는 라벨링된 정제된 데이터가 필요하지 않습니다. 시스템은 단어를 공란으로 만들고 추측한 후 그 답을 평가하는 "자기 지도 학습(self-supervised training)"이라는 과정으로 훈련할 수 있습니다. 그러나 방대한 양의 데이터는 여전히 필요합니다. 시스템이 훈련에 사용할 텍스트가 많을수록 성능이 향상됩니다. 인터넷에는 수백 조 단어에 달하는 텍스트가 존재하므로, 이는 대규모 언어 모델(LLM)들에게 있어 마치 무작위로 퇴적물에 쌓인 수십억 년의 탄소가 현대 산업에 기적적인 연료로 정제되는 것과 같은 역할을 하게 되었습니다.
50억 개의 웹 페이지를 포함한 공개된 인터넷의 많은 부분을 아카이브한 Common Crawl은 AI 연구에서 널리 사용되었습니다. 이후의 모델들은 Books3와 같은 수천 권의 책을 모은 자료 등 더 많은 출처에서 데이터를 보충하여 사용했습니다. 그러나 기계들이 요구하는 텍스트의 양은 인터넷이 제공할 수 있는 속도를 훨씬 능가하는 속도로 증가했습니다. 연구 회사인 Epoch AI는 2028년까지 인터넷에 있는 고품질의 텍스트 데이터가 모두 사용될 것으로 추정합니다. 산업계에서는 이를 "데이터 장벽( data wall) "이라고 부릅니다. 이 장벽을 어떻게 극복할 것인지는 AI의 중요한 당면 과제 중 하나이며, 아마도 AI의 발전을 가장 크게 늦출 가능성이 있는 문제일 것입니다.
하나의 접근법은 데이터의 양보다는 quality에 집중하는 것입니다. AI 연구소들은 단순히 인터넷 전체를 대상으로 모델을 훈련시키지 않습니다. 그 대신, 데이터를 필터링하고 순서를 정하여 모델이 학습하는 양을 극대화합니다. AI 회사인 Databricks의 나빈 라오는 이것이 시장에 나와 있는 AI 모델들 간의 "주요 차별화 요소( main differentiator) "라고 말합니다. 세상에 대한 "진정한 정보(True information)"가 분명히 중요하며, 많은 "추론(reasoning)"도 중요합니다. 예를 들어, 학술 교과서는 매우 가치가 있는 자료입니다. 하지만 데이터 소스 간의 균형을 설정하는 것은 여전히 일종의 암묵적인 기술로 남아 있습니다. 게다가, 시스템이 다른 유형의 데이터를 접하는 순서도 중요합니다. 예를 들어, 모든 수학 관련 데이터를 학습 과정의 끝에 몰아넣으면, 모델이 수학에 특화될 수 있지만 다른 개념들을 잊어버릴 수도 있습니다.
이러한 고려사항은 데이터가 단지 다른 주제에 관한 것뿐만 아니라 다른 형식일 때 더욱 복잡해질 수 있습니다. 새로운 텍스트 데이터의 부족으로 인해, OpenAI의 GPT-4나 Google의 Gemini와 같은 최신 모델들은 이제 자기 지도 학습 과정에서 텍스트뿐만 아니라 이미지, 비디오, 오디오 파일에서도 학습하고 있습니다. 비디오로 학습하는 것은 데이터 포인트가 매우 밀집되어 있어 가장 어렵습니다. 현재 모델들은 보통 프레임의 하위 집합을 선택하여 작업을 단순화합니다.
어떤 모델이 사용되든 간에, 소유권 문제는 점점 더 중요한 이슈로 인식되고 있습니다. LLMs(대규모 언어 모델) 훈련에 사용되는 자료는 종종 저작권이 있으며, 권리 소유자의 동의나 대가 없이 사용됩니다. 일부 AI 모델은 유료로 제공되는 콘텐츠를 무단으로 활용하기도 합니다. 모델 제작자들은 이러한 행위가 미국 저작권법의 "공정 사용" 예외에 해당한다고 주장합니다. 인간이 학습할 때 저작권이 있는 자료를 읽을 수 있는 것처럼, AI 모델도 마찬가지로 허용되어야 한다는 것입니다. 그러나 기술 분석가인 Benedict Evans는 "규모의 차이(difference in scale)"가 "원칙의 차이(difference in principle)"로 이어질 수 있다고 말한 바 있습니다.
최고의 라벨러(labellers)는 시간당 최대 100달러를 벌 수 있습니다.
다양한 권리 소유자들이 서로 다른 전략을 취하고 있습니다. Getty Images는 이미지 생성 회사인 Stability AI를 자사의 이미지 저장소를 무단 사용한 혐의로 고소했습니다. 뉴욕 타임스는 OpenAI와 마이크로소프트를 수백만 개의 기사에 대한 저작권 침해로 고소했습니다. 다른 신문사들은 자사의 콘텐츠를 라이선스하기 위해 계약을 체결했습니다. 월스트리트 저널의 소유주인 뉴스 코퍼레이션(News Corp)은 5년 동안 2억 5천만 달러에 달하는 계약을 체결했습니다. (이코노미스트는 AI 기업들과의 관계에 대해 입장을 밝히지 않았습니다.) 다른 텍스트 및 비디오 소스도 동일한 조치를 취하고 있습니다. 코딩 도움 사이트인 Stack Overflow, 소셜 미디어 사이트인 Reddit, 그리고 X(이전의 트위터)는 이제 훈련을 위한 콘텐츠 접근에 대해 비용을 부과하고 있습니다.
이 상황은 관할권에 따라 다릅니다. 일본과 이스라엘은 자국의 AI 산업을 촉진하기 위해 보다 관대한 입장을 취하고 있습니다. 유럽 연합은 일반적인 "공정 사용(fair use)" 개념이 없어 더 엄격할 수 있습니다. 시장이 형성되는 곳에서는 다양한 유형의 데이터가 서로 다른 가격을 요구할 것입니다. 모델들은 최신 정보를 유지하기 위해 현실 세계의 최신 정보에 접근해야 할 필요가 있을 것입니다.
모델의 성능은 자기 지도 학습으로 생성된 버전(pre-trained version,사전 학습된 버전이라고도 함)을 추가 데이터로 정제하여 향상시킬 수 있습니다. 예를 들어, "지도 학습을 통한 미세 조정"(Supervised fine-tuning)은 모델에 인간이 수집하거나 직접 작성한 질문과 답변 쌍을 제공하는 것입니다. 이를 통해 모델이 좋은 답변이 어떤 것인지 배우게 됩니다. 반면에 "인간 피드백을 통한 강화 학습"(Reinforcement Learning from Human Feedback, RLHF)은 답변이 질문자를 만족시켰는지를 모델에 알려주는 방식으로, 이는 약간 다른 차원의 문제입니다.
RLHF에서는 사용자가 모델의 출력 품질에 대해 피드백을 제공하고, 이러한 피드백이 모델의 매개변수, 즉 "가중치"를 조정하는 데 사용됩니다. 예를 들어, 챗봇과의 상호작용에서 사용자가 '좋아요' 또는 '싫어요' 버튼을 클릭하는 것이 RLHF에 특히 유용합니다. 이는 기술자들이 "데이터 플라이휠(data flywheel) "이라고 부르는 현상을 만들어내는데, 이는 더 많은 사용자가 더 많은 데이터를 생성하고, 그 데이터가 더 나은 모델을 조정하는 데 다시 사용되는 순환 과정을 의미합니다. AI 스타트업들은 사용자가 모델에게 어떤 유형의 질문을 하는지 주의 깊게 관찰하고, 해당 주제에 맞게 모델을 조정하기 위한 데이터를 수집하고 있습니다.
인터넷에서 사용할 수 있는 사전 학습 데이터가 고갈됨에 따라, 후속 학습(post-training)이 더욱 중요해지고 있습니다. Scale AI와 Surge AI와 같은 라벨링 회사들은 후속 학습 데이터를 수집하여 연간 수억 달러의 수익을 올리고 있습니다. Scale AI는 최근 140억 달러의 가치 평가를 바탕으로 10억 달러를 펀했습니다. Mechanical Turk 시절과는 상황이 많이 달라졌으며, 최고의 라벨러들은 시간당 최대 100달러를 벌고 있습니다. 그러나 후속 학습은 더 나은 모델을 생산하는 데 도움을 주고 많은 상업적 응용에 충분하지만, 결국에는 점진적인 개선에 불과합니다.
데이터 장벽을 조금씩 뒤로 밀어내는 대신, 이 장벽을 완전히 뛰어넘는 다른 해결책이 있을 수 있습니다. 그 중 하나는 기계가 생성하는 합성 데이터(synthetic data)를 사용하는 것입니다. 합성 데이터는 기계에 의해 생성되므로 무한히 생성할 수 있습니다. DeepMind(구글의 자회사)가 개발한 AlphaGo Zero는 그 좋은 예입니다. 회사의 첫 번째 성공적인 바둑 모델은 아마추어 게임에서 수백만 번의 수를 데이터로 사용하여 훈련되었습니다. 그러나 AlphaGo Zero는 기존의 데이터를 전혀 사용하지 않았습니다. 대신, 이 모델은 3일 동안 스스로 490만 번의 대국을 통해 바둑을 학습하며, 승리 전략을 기록했습니다. 이러한 "강화 학습"을 통해 AlphaGo Zero는 가능한 많은 대응 수를 시뮬레이션하고 그 중 승리 가능성이 가장 높은 것을 선택하여 상대의 수에 대응하는 방법을 배웠습니다.
비슷한 접근 방식은 LLM(대규모 언어 모델)이 수학 증명을 단계별로 작성하는 데도 사용할 수 있습니다. 예를 들어, LLM은 처음에 여러 가지 첫 번째 단계를 생성함으로써 답변을 구축할 수 있습니다. 그런 다음, 인간 전문가의 데이터를 바탕으로 품질을 판단하도록 훈련된 별도의 "helper" AI가 가장 적합하고 발전시킬 가치가 있는 단계를 식별합니다. 이러한 AI가 생성한 피드백도 일종의 합성 데이터로, 처음 모델을 추가로 훈련시키는 데 사용할 수 있습니다. 결국 LLM이 한 번에 답변을 작성했을 때보다 더 높은 품질의 답변을 얻을 수 있으며, 결과적으로 개선된 LLM도 얻게 될 것입니다. 이러한 능력은 시간을 들여 더 깊이 생각함으로써 출력의 품질을 향상시키는 것으로, 이는 인간의 "system 2" 사고와 유사합니다. 이는 OpenAI의 공동 창립자인 Andrej Karpathy가 최근 강연에서 설명한 바와 같이, 신중하고 심사숙고하는 사고 방식을 의미합니다. 현재 LLM은 심사숙고 없이 반사적으로 반응하는 인간의 "system 1" 사고와 유사한 방식을 사용해 응답을 생성합니다.
이 접근 방식을 의료나 교육과 같은 분야로 확장하는 것은 어렵습니다. 게임에서는 승리의 정의가 명확하며, 특정 행동이 유리한지 여부를 판단하는 데이터를 수집하기가 더 쉽습니다. 그러나 다른 분야에서는 이보다 더 복잡합니다. "좋은" 결정이 무엇인지를 판단하는 데이터는 일반적으로 전문가들로부터 수집됩니다. 하지만 이는 비용이 많이 들고, 시간이 오래 걸리며, 불완전한 해결책에 불과합니다. 또한, 특정 전문가의 판단이 옳은지 어떻게 알 수 있을까요?
분명한 것은, AI의 급속한 발전을 유지하기 위해서는 전문 소스에서 수집되거나 합성적으로 생성되거나 인간 전문가가 제공하는 더 많은 데이터에 접근하는 것이 중요하다는 점입니다. 석유 매장지처럼, 가장 접근하기 쉬운 데이터 저장소는 고갈되었습니다. 이제 새로운 데이터 소스를 찾거나 지속 가능한 대안을 찾아내는 것이 과제입니다.
■ 의학, 미디어 등을 혁신하는 LLM
인공지능(AI)은 컴퓨터가 인간에게 똑똑해 보이는 일을 하도록 만드는 기술로 설명할 수 있습니다. 이런 의미에서 AI는 이미 널리 퍼져 있습니다. 예를 들어, 내비게이션 소프트웨어는 검색 알고리즘을 사용해 집에서 새 레스토랑까지 가장 빠른 경로를 찾고, 비행기는 스스로 착륙하며, 교통 카메라는 광학 문자 인식을 통해 과속 차량의 번호판 문자를 식별합니다. 또한, 온도 조절기는 집에 누가 있는지에 따라 온도 설정을 조정합니다. 이것이 모두 AI이며, 마케팅에서는 그렇게 표현하지 않더라도 그렇습니다. 오래된 농담에 따르면, AI가 일관되고 신뢰할 수 있게 작동할 때 그것은 그냥 engineering이라고 불립니다. 반대로, 또 다른 농담에 따르면 AI는 아직 제대로 작동하지 않는 것들을 의미합니다.
현재 전 세계의 주목을 받고 있으며 막대한 컴퓨팅 파워와 전기를 소비하는 AI는 deep learning이라는 기술에 기반을 두고 있습니다. deep learning에서는 선형대수학(linear algebra, 특히 행렬 곱셈matrix multiplications)과 통계를 사용하여 학습 과정에서 대규모 데이터셋으로부터 패턴을 추출하고 학습합니다. 구글의 Gemini나 OpenAI의 GPT와 같은 대규모 언어 모델(LLM)은 방대한 텍스트, 이미지, 비디오 데이터를 학습하여 여러 능력을 개발했으며, 이 중에는 명시적으로 학습하지 않았던 "돌발적" 능력도 포함되어 있습니다. 이들 모델의 더 전문화되고 특정 분야에 맞춘 버전들이 이제 이미지, 음악, 로봇 공학, 유전체학, 의학, 기후, 날씨, 소프트웨어 코딩 등 다양한 분야에서 존재합니다.
이 분야의 급속한 발전은 AI가 "약물 개발을 장악하고 있다( taking over drug development)", "할리우드 스토리텔링의 모든 측면을 변화시킬 것이다(transform every aspect of Hollywood storytelling) ", 그리고 "과학 자체를 변혁할지도 모른다(transform science itself)"는 예측을 불러일으켰습니다(이 모든 주장들은 지난 1년 동안 이 신문에서 언급된 내용들입니다). AI는 과학적 발견을 가속화하고, 사무직 업무의 지루함을 자동화하며, 아직 상상할 수 없는 놀라운 혁신을 이끌어낼 것이라고 합니다. AI는 효율성을 높이고 경제 성장을 촉진할 것으로 예상됩니다. 그러나 동시에 일자리를 대체하고, 프라이버시와 보안을 위협하며, 윤리적 딜레마를 초래할 수도 있습니다. AI는 이미 자신이 무엇을 하고 있는지에 대한 인간의 이해를 초월한 상태입니다.
연구자들은 AI가 무엇을 할 수 있고 할 수 없는지에 대해 여전히 파악해 나가고 있습니다. 지금까지 더 큰 모델이 더 많은 데이터로 훈련될수록 더 뛰어난 성능을 발휘한다는 것이 입증되었습니다. 이는 더 많은 데이터와 더 큰 모델을 계속해서 추가하면 더 나은 AI를 만들 수 있다는 믿음을 부추겼습니다. "scaling laws"에 관한 연구도 진행되었으며, 이 법칙은 모델 크기와 학습 데이터의 양이 상호작용하여 LLM(대규모 언어 모델)을 어떻게 향상시키는지를 보여줍니다. 하지만 "더 나은" LLM이란 무엇일까요? 정확하게 질문에 답하는 모델일까요, 아니면 창의적인 아이디어를 내놓는 모델일까요?
기존 시스템과 프로세스가 AI를 얼마나 잘 활용할 수 있을지를 예측하는 것도 까다롭습니다. 지금까지 AI의 강력함은 주로 개별 작업에서 가장 두드러지게 나타났습니다. 예를 들어, 폭동을 일으킨 군중의 이미지를 AI 모델에 제공하면, 특정 목적으로 훈련된 AI 모델이 당국을 위해 군중 속 얼굴을 식별할 수 있습니다. 법학 시험을 LLM에 맡기면, 평균적인 고등학생보다 더 나은 성적을 낼 것입니다. 그러나 개방형 과제에서의 성과를 평가하는 것은 더 어렵습니다.
현재의 대형 AI 모델들은 시(poetry)에서 포토리얼리즘 이미지에 이르기까지 훈련 데이터에 표현된 패턴을 바탕으로 다양한 것을 생성하는 데 매우 능숙합니다. 그러나 이러한 모델들은 생성된 것들 중에서 어떤 것이 가장 의미가 있거나 주어진 상황에서 가장 적절한지를 결정하는 데는 덜 능숙합니다. 논리와 추론에서 덜 뛰어난 것입니다. 더 많은 데이터가 일관된 추론 능력을 열어줄지, 아니면 완전히 다른 종류의 모델이 필요할지는 아직 불확실합니다. 오랜 시간 동안 AI의 한계는 인간의 추론이 그 힘을 활용하는 데 필수적일 수 있다는 가능성을 내포하고 있습니다.
이러한 한계를 파악하는 것은 의료와 같은 분야에서 중요합니다. AI를 적절히 사용하면 암을 조기에 발견하고, 서비스 접근성을 확장하며, 진단을 개선하고, 개인 맞춤형 치료를 제공할 수 있습니다. 4월에 npj Digital Medicine에 발표된 메타 분석에 따르면, AI 알고리즘은 이러한 작업에서 인간 임상의보다 더 나은 성과를 낼 수 있습니다. 그러나 AI의 훈련 과정은 인간의 개입이 필요하다는 것을 시사하는 방식으로 AI를 오도할 수도 있습니다.
예를 들어, AI 모델은 "데이터 분포 변화(data distribution shifts)"로 인해 인간의 편견을 악화시키는 경향이 있습니다. 예를 들어, 진단 모델이 주로 백인의 피부 이미지를 학습한 후 흑인의 피부 이미지를 받게 되면 오류를 범할 수 있습니다. AI를 자격 있는 인간과 결합하는 것이 가장 효과적인 것으로 나타났습니다. 연구에 따르면, AI를 사용한 임상의들은 암을 올바르게 진단한 사람들의 비율을 81.1%에서 86.1%로 증가시켰으며, 또한 암이 없다고 정확하게 진단한 사람들의 비율도 증가했습니다. AI 모델은 인간과 다른 종류의 실수를 저지르는 경향이 있기 때문에, AI와 인간의 협력이 AI나 인간 단독으로보다 더 나은 성과를 내는 것으로 나타났습니다.
로봇 방법론
과학에서 새로운 가설을 탐구하는 데 있어 인간이 덜 필요할 수 있습니다. 2009년 케임브리지 대학교의 Ross King은 그의 궁극적인 목표가 자율 실험실로 기능하거나 "로봇 과학자"로 기능하는 시스템을 설계하는 것이라고 말했습니다. 킹 박사의 AI 과학자 "Adam"은 가설을 세우고, 로봇 팔을 사용해 실험을 수행하며, 센서로 결과를 수집하고 이를 분석하도록 설계되었습니다. 아담은 대학원생이나 박사후 연구원과 달리 먹거나 잠을 잘 필요가 없습니다. 그러나 이러한 유형의 AI 시스템은 (현재로서는) 주로 약물 개발과 재료 과학과 같은 상대적으로 좁은 분야에 제한되어 있습니다. 이들이 인간이 주도하는 연구에 비해 획기적인 성과를 낼 수 있을지는 여전히 불확실합니다.
AI 기술은 수십 년 동안 과학 분야에서 데이터를 분류하고 선별하며 분석하고, 예측을 수행하는 데 사용되어 왔습니다. 예를 들어, CETI 프로젝트의 연구자들은 고래의 소리를 대규모로 수집한 데이터를 기반으로 AI 모델을 훈련시켜, 어떤 소리가 의미를 가지고 있을지 분석했습니다. 또 다른 예로는 Google DeepMind가 개발한 딥 뉴럴 네트워크인 AlphaFold를 들 수 있습니다. 이 모델은 방대한 단백질 데이터베이스로 훈련되어, 단백질의 3차원 구조를 빠르고 정확하게 예측할 수 있습니다. 이는 인간이 며칠간의 신중한 실험과 측정을 통해 수행해야 했던 작업이었습니다. 또 다른 딥마인드의 AI 시스템인 GNoME은 특정 화학적 특성을 가진 새로운 물질을 발견하는 데 도움을 주기 위해 개발되었습니다(그림 참조).
AI는 연구자들에게 과도하게 부담이 되는 방대한 데이터 흐름을 이해하는 데 도움을 줄 수 있습니다. 예를 들어, 새로운 아원자 입자(subatomic partcles)를 식별하기 위해 입자 충돌기에서 나오는 결과를 선별하거나, 과학 문헌을 따라가는 데 도움을 줄 수 있습니다. 아무리 꼼꼼한 독자라도 자신의 연구와 관련된 모든 과학 논문을 소화하는 것은 불가능합니다. 소위 문헌 기반 발견 시스템(literature-based discovery systems)은 이 방대한 텍스트를 분석하여 연구의 공백을 찾거나, 오래된 아이디어를 새로운 방식으로 결합하거나, 심지어 새로운 가설을 제안할 수 있습니다. 그러나 이러한 유형의 AI 작업이 유익할지 여부를 판단하기는 어렵습니다. AI가 인간보다 예상치 못한 추론적 도약을 더 잘 수행할 수 있을지는 확실하지 않으며, 오히려 전통적이고 이미 많이 다루어진 연구 경로를 선호하여 흥미롭지 않은 결과로 이어질 수도 있습니다.
교육 분야에서는 AI, 특히 ChatGPT와 같은 봇이 실제로 창의적 사고를 방해할 수 있다는 우려가 있습니다. 교육 회사인 Chegg이 2023년에 수행한 연구에 따르면, 전 세계 학생들의 40%가 학교 과제를 할 때 주로 글쓰기를 위해 AI를 사용했다고 합니다. 이로 인해 일부 교사, 교수 및 학군에서는 AI 챗봇을 금지하기도 했습니다. 많은 사람들은 AI의 사용이 문제를 해결하거나 주장을 전개하는 과정에서 문제 해결 능력과 비판적 사고 능력의 발전을 방해할 것이라고 우려합니다. 반면, 다른 교사들은 AI를 도구로 받아들이고 이를 과제에 통합하는 전혀 다른 접근 방식을 취하고 있습니다. 예를 들어, 학생들에게 ChatGPT를 사용하여 주제에 대한 에세이를 작성하게 한 다음, 그것이 틀린 부분을 비판하도록 요구할 수 있습니다.
잠깐, 본 내용도 챗봇이 쓴 걸까요?
오늘날의 생성형 AI는 버튼 클릭 한 번으로 텍스트를 생성하는 것뿐만 아니라, 이미지, 오디오, 비디오도 몇 초 만에 만들어낼 수 있습니다. 이는 팟캐스팅, 비디오 게임, 광고 등 다양한 미디어 업계에 큰 변화를 일으킬 잠재력을 가지고 있습니다. AI 기반 도구는 편집을 단순화하고, 시간을 절약하며, 진입 장벽을 낮출 수 있습니다. 하지만 AI가 생성한 콘텐츠는 일러스트레이터나 성우와 같은 일부 예술가들을 위험에 빠뜨릴 수 있습니다. 시간이 지나면 AI로 구동되는 인간 배우의 시뮬라크라(복제된 이미지) 또는 완전히 인공적인 배우를 사용하여 전체 영화를 만드는 것도 가능해질 수 있습니다.
그럼에도 불구하고 AI 모델은 스스로 문제를 창조하거나 해결할 수 없습니다(적어도 아직은). AI는 자율적이거나 감정을 가진 존재가 아닌, 단지 정교한 소프트웨어일 뿐입니다. 이들은 인간 사용자가 호출하고 명령을 내리며, 그 결과를 적용하거나 버리는 방식에 의존합니다. AI의 혁신적인 능력, 그것이 긍정적이든 부정적이든 간에, 여전히 인간과 인간의 판단에 의존하고 있습니다.
<Economist지>