이 글은 Dr. Stephen Wolfram(이하 울프럼 박사)의 ISC Summer School on Large Language Models: Science and Stakes, June 3-14, 2024에서의 강연 영상을 보고 작성했습니다. 강연은 아래 유튜브 링크에서 확인 하 실 수 있습니다.
https://youtu.be/5dggwz76Qys?si=zUwz99SsTZHqeBMX
울프럼 박사는 이 강연에서 그가 진행 중인 물리학 프로젝트의 내용을 투영시켜 인공지능에 대한 아주 흥미로운 아래와 같은 이론과 아이디어를 설명합니다. 강연에서 논의된 주요 포인트에 대해 이야기해 보겠습니다.
- 현대 AI와 신경망에 대한 논의: 신경망이 단순한 계산을 수행하며, 계산적 비환원성을 깨뜨릴 수 없다고 설명합니다.
- 언어 모델의 작동 원리: 대규모 언어 모델(LLM)이 효과적으로 작동하는 이유는 인간 언어에 내재된 규칙성 때문이라고 주장합니다. 이는 우리가 미처 인식하지 못했던 언어의 "의미론적 문법"을 보여줍니다.
- 기계 학습의 성공 요인: 왜 기계 학습이 작동하는지에 대해 탐구합니다. 그는 계산적 비환원성이 오히려 신경망 훈련의 성공을 가능케 하는 요인일 수 있다고 제안합니다.
- 생물학적 진화와의 비교: 기계 학습의 작동 원리를 이해하기 위해 생물학적 진화의 간단한 모델을 사용합니다. 이를 통해 적응적 진화의 과정과 기계 학습의 과정 사이의 유사성을 보여줍니다.
- 규칙 공간에서의 진화: 규칙 공간에서의 적응적 진화 과정을 시각화하여 보여줍니다. 이는 고차원 공간에서 항상 성공으로 가는 경로가 있다는 것을 시사합니다.
- 계산적 비환원성역할: 계산적 비환원성이 기계 학습의 한계를 설정하는 동시에, 훈련이 가능한 이유이기도 하다고 주장합니다. 이는 규칙 공간의 구조에 내재된 예측 불가능성과 관련이 있습니다.
위에서 왜 계산적 비환원성이 오히려 신경망 훈련의 성공을 가능케 하는 요인인지 조금 더 풀어서 살펴보겠습니다.
울프럼 박사는 계산적 비환원성이 신경망 훈련의 성공에 중요한 역할을 한다고 주장하는데 이는 얼핏 모순되어 보일 수 있습니다. 신경망은 고차원적인 파라미터 공간에서 작동합니다. 계산적 비환원성은 이 공간의 구조를 매우 복잡하고 예측하기 어렵게 만듭니다. 이러한 복잡성은 역설적으로 신경망이 지역 최적점에 갇히는 것을 방지하는 데 도움을 줍니다. 만약 파라미터 공간이 매우 규칙적이고 예측 가능하다면, 신경망은 쉽게 지역 최적점에 갇힐 수 있지만, 계산적 비환원성으로 인한 복잡성은 이러한 함정을 피하는 데 기여합니다.
비가역적 계산은 파라미터 공간에 랜덤성을 제공합니다. 이는 신경망이 다양한 해결책을 탐색할 수 있는 기회를 증가시킵니다. 울프럼 박사는 이러한 고차원 공간에서는 항상 '성공으로 가는 경로'가 존재한다고 주장하며, 계산적 비환원성이 이러한 경로의 존재 가능성을 높인다고 보고 있습니다.
또한 훈련 과정의 정확한 결과를 예측할 수 없다는 것은, 오히려 새롭고 효과적인 솔루션을 발견할 기회를 제공합니다. 이는 신경망이 인간이 예상하지 못한 방식으로 문제를 해결할 수 있게 합니다. 또한, 계산적 비환원성은 신경망이 훈련 데이터에 과도하게 맞춰지는 과적합을 방지할 수 있습니다. 이는 일종의 규제(regularization) 효과를 제공하여, 더 일반화된 학습을 가능케 합니다.
마지막으로, 복잡한 시스템에서 종종 관찰되는 창발적(emergence) 특성이 신경망의 학습 과정에서도 나타날 수 있습니다. 이는 단순한 규칙이나 초기 조건으로부터 예측하기 어려운, 유용한 특성들의 발현을 의미합니다.
계산적 비환원성은 신경망 훈련 과정이 일종의 복잡계(complex system)임을 의미합니다. 이 복잡성은 신경망이 다양한 해결책을 탐색하고, 지역 최적점을 벗어나며, 예상치 못한 효과적인 솔루션을 발견할 수 있는 기회를 제공합니다. 울프럼 박사는 이러한 특성이 신경망 훈련의 성공을 가능케 하는 중요한 요인이 된다고 생각합니다.