학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 문장은 삭제했습니다. 이번에는 Tim Lou가 미디엄에 올린 글을 정리한 것입니다.
2024 노벨 물리학상은 10월 4일 발표되었으며 올해 수상자는 존 홉필드 교수와 제프리 힌튼 교수에게 돌아갔다. 하지만 이번에는 조금 다르다. 자연계에 대한 일반적인 발견 대신에 조금 더 인공적인 것에 상이 수여되었다.:
“인공 신경망을 통한 머신러닝을 가능하게 하는 기초적인 발견과 발명에 대한 공로"다.
- 노벨 재단 보도 자료
이번 수상으로 홉필드 네트워크( Hopfield network)와 볼츠만 머신( Boltzmann machine)이라는 두 가지 머신러닝(ML) 모델이 조명을 받았다.
ML은 물리학과는 거리가 멀어 보일 수 있기 때문에 의외의 결과일 수 있다. 하지만 초기 많은 기초 ML 개념은 물리 시스템에서 영감을 받았다.
이번 수상의 의미는 무엇인가? 최근 생성 AI(텍스트/이미지/비디오 생성) 발전을 강조하고, 이러한 최신 모델의 토대가 물리학에 뿌리를 두고 있다는 점을 상기시키기 위한 것이라고 생각한다. 좀 더 구체적으로 말하면, 홉필드 네트워크와 볼츠만 머신은 자연계 물리 원리를 차용해 학습과 추론을 수행하는 최초 생성 모델이라고 할 수 있다.
이 글에서는 1982년 J. Hopfield와 1985년 G. Hinton의 중요한 연구에 대해 설명한다. 하지만 이러한 개념에 대해 자세히 알아보기 전에 그 동기가 된 물리학을 이해할 필요가 있다.
계산의 물리학(The Physics of Computation)
디지털 데이터와 계산은 기본적으로 0과 1이라는 이진수를 기반으로 한다. 이 개념은 물리학 어디에서 유래했을까? 바로 자석이다! 자석에는 각각 북극과 남극이 있는데, 자석을 반으로 나누면 각 반이 자체 극을 가진 새로운 자석을 형성한다. 계속해서 자석을 분해하면 결국 가장 작은 자석인 원자 속의 전자에 도달하게 된다. 작은 팽이처럼 각 전자는 스핀이라고 하는 방향을 갖고 있다. 이러한 스핀은 양자역학적 양이므로 측정 시 불연속적인 값만 취할 수 있으며, 각 스핀은 정렬되거나 반정렬될 수 있지만 그 사이에는 아무것도 없다. 이러한 개별적인 2진법 동작은 자기 하드 드라이브가 데이터를 저장하는 방식의 기초를 형성한다.
이러한 스핀은 어떻게 1과 0 사이를 결정할까? 자석 내부에는 수많은 스핀이 네트워크를 형성한다. 물질에 따라 이 네트워크 각 스핀은 이웃 스핀과 정렬하거나 반대로 정렬하는 것을 선호할 수 있다. 개울을 따라 흐르는 물처럼, 이러한 스핀은 시간이 지남에 따라 시스템 에너지를 최소화하기 위해 회전하다가 최소 에너지에 도달하면 멈춘다.
상호 작용 조건은 인접한 스핀이 상관 관계 또는 반상관 관계를 선호하는지 여부를 결정하며, 편향은 지구 자기장이 자석을 북쪽을 향하게 하는 것과 같이 스핀의 전반적인 정렬을 결정한다. 물질 내부에서 에너지에 대한 정확한 방정식은 물리학에 의해 결정되며 쉽게 수정할 수 없다. 하지만 컴퓨터에서는 모든 에너지를 인위적으로 시뮬레이션할 수 있다. 이를 통해 스핀이 원하는 패턴으로 자리를 잡을 수 있도록 할 수 있다. 이것이 바로 홉필드 네트워크와 볼츠만 머신를 이루는 기초다.
스핀에서 기억으로(From Spin to Memory)
뇌의 뉴런은 두 가지 상태, 즉 흥분 또는 억제 상태 중 하나로 존재할 수 있다. 또한 네트워크 스핀이 작동하는 방식과 유사하게 서로 상호 작용한다. 이러한 유사성 때문에 과학자들은 인지 및 지능을 연구하는 데 스핀 네트워크를 사용하게 되었다. 홉필드 교수는 이 아이디어를 응용해 기억 모델을 만들다.
홉필드 네트워크는 물질의 전자 스핀에서 영감을 얻은 인공적인 기억 모델이다. 기억 모델에는 기억을 저장하고 불러오는 두 가지 핵심 기능이 필요하다. 모델 ML 언어에서 이는 신경망을 훈련하고 추론에 사용하는 것과 유사하다. 어떻게? 홉필드 네트워크는 스핀 네트워크의 물리학을 차용해 에너지 함수를 최소화함으로써 학습하고 추론한다.
트레이닝
홉필드 네트워크는 입력 데이터를 어떻게 기억으로 저장할까? 입력 데이터를 입력할 때 평균 에너지를 최소화하도록 가중치와 편향이 설정되낟. 최신 신경망과 달리 에너지 함수가 매우 단순하기 때문에 최적의 가중치와 편향을 직접 계산할 수 있으며, 복잡한 훈련을 필요로 하지 않는다.
추론
저장된 기억을 어떻게 검색할까요? 머신러닝 용어로 이것은 생성 문제(generative problem)다. 잡음이 있거나 이전에 보지 못한 입력이 주어지면 홉필드 네트워크는 가중치와 편향을 일정하게 유지하면서 그 에너지를 최소화해 가장 가까운 저장 기억을 찾는다. 자석처럼 입력 상태에서 뉴런(또는 회전)을 시작한 다음 각 뉴런을 반복적으로 뒤집어 총 에너지를 줄인다. 이러한 방식으로 홉필드 네트워크는 순환 신경망(recurrent neural network)으로서 작동한다(다음 상태가 이전 상태에 의존하기 때문에). 이러한 업데이트는 언젠가는 멈추고 입력이 출력으로 변환되는 것을 보장한다.
홉필드 네트워크는 기억을 저장할 수 있지만 몇 가지 중대한 문제들이 있다.
가중치와 편향의 수는 기억 크기보다 훨씬 커야 한다(가중치는 1과 0이 아닌 실수다).
일부 기억이 너무 유사하면 김억 검색이 실패할 수 있습니다.
생성 모델은 저장된 그대로의 기억만 불러올 수 있기 때문에 비효율적이다.
해결책은? 다양한 가능성을 탐색할 수 있도록 시스템을 가열(heat)하는 것이다. 이것이 바로 볼츠만 머신의 기초다.
ChatGPT가 위키피디아나 뉴스 기사만 낭독할 수 있다면 큰 도움이 되지 않을 것이다. 마찬가지로, 엄격하고 결정론적인 규칙을 따르는 홉필드 네트워크는 대부분의 실제 ML 작업에 효과적이지 않다.
홉필드 네트워크 문제는 너무 경직되어 있다는 것이다. 이는 분자가 역동적이고 다양한 구성을 매우 효율적으로 탐색할 수 있는 자연계 네트워크와는 대조적이다. 이러한 자연 시스템은 열역학에서 연구되며, 확률과 온도를 사용해 혼란스러운 과정을 모델링한다.
이를 통해 힌튼 교수는 보다 유연한 모델인 볼츠만 머신을 개발하게 되었다:
볼츠만 머신은 온도를 절대 0에서 유한한 값으로 증가시킴으로써 얻어지는 홉필드 네트워크의 불확실성(noise)의 일반화다.
이 관점에서 보면 홉필드 네트워크 경직성은 단순히 온도가 낮기 때문에 발생하는 것이다. 그렇다면 온도를 높이면 어떻게 네트워크에 노이즈가 추가될까? 오븐에서 음식을 따뜻하게 유지하는 것과 마찬가지로 시스템을 온도 T로 유지하려면 일반적으로 외부 열원에 연결해야 한다. 이를 통해 시스템은 외부 노이즈가 많은 환경과 에너지를 교환할 수 있다. 그 결과, 네트워크는 더 이상 에너지를 엄격하게 최소화하지 않는다. 대신, 볼츠만 분포에 따라 모든 에너지 E에서 네트워크를 찾을 가능성이 있다.
실제로 이것은 뉴런이나 스핀이 1 또는 0으로 확정되는 대신 확률이 존재한다는 것을 의미한다. 따라서 볼츠만 머신은 더 이상 정확한 기억 모델이 아니다. ChatGPT와 마찬가지로 데이터 확률 분포를 모델링한다. 이것은 훈련 데이터를 넘어 새로운 예시를 생성하는 데 활용할 수 있다. 온도와 확률을 추가하면 홉필드 네트워크에 비해 볼츠만 머신의 훈련과 추론이 크게 바뀌며 이는 최신 생성 모델에서 볼 수 있는 패러다임에 더 가깝다.
트레이닝
이제 모든 것이 확률론적이기 때문에 더 이상 에너지를 최소화하는 데 그치지 않는다. 대신 최신 머신러닝 훈련과 유사하게 입력 데이터를 관찰할 수 있는 (로그) 확률을 최적화한다. 이 접근 방식은 열 물리학의 개념과 연결될 수 있는데, 에너지 최소화와 열 변동 사이 균형이 자유 에너지라는 더 넓은 개념으로 이어진다.
수학적으로 이러한 대응은 정확하게 이뤄질 수 있다. 볼츠만 머신에서 확률을 최대화하는 것은 자유 에너지를 최소화하는 것과 같다. 따라서 볼츠만 머신은 말 그대로 눈송이와 결정을 형성하는 열역학에서 원리를 차용해 일반화가 가능한 복잡한 네트워크를 만드는 것이다. 네트워크의 가중치와 편향의 훈련은 최신 머신러닝 훈련과 유사하다.
추론
일단 훈련이 완료되면 볼츠만 머신은 실제 확률을 계산하기 때문에 완전한 생성 모델이다! 입력이 주어지면 일부 뉴런(예: ChatGPT에 대한 프롬프트)을 고정하고 다른 입력은 변동하도록 선택할 수 있다. 각 단계에서 에너지를 계산하고 이를 통해 각 뉴런이 1 또는 0이 될 확률을 결정할 수 있다. 그런 다음 이 확률에 따라 무작위로 구성을 선택한다. 새로운 데이터를 생성하는 이러한 능력 덕분에 볼츠만 머신은 완전히 엄격한 데이터 기반 확률론적 훈련과 추론을 통해 최초 생성 AI 모델 중 하나가 되었다. 홉필드 네트워크와 볼츠만 머신은 현대 생성 모델의 토대를 마련했지만, 계산 비효율성으로 인해 더 이상 널리 사용되지는 않는다. 그러나 이러한 아이디어 중 일부는 계속해서 현대 연구를 주도하고 있다.
에필로그
동료들과 대화와 온라인 토론을 읽다 보니 올해의 노벨 물리학상을 둘러싸고 많은 논란이 있다. 핵심적인 질문은 다음과 같다.
정말 물리학인가?
정말 노벨상을 받을 만한 가치가 있는가?
더 나은 후보가 있지 않나?
두 번째와 세 번째에 대한 논의는 자제하겠지만, 첫 번째에 대해서는 말할 수 있다. 홉필드 네트워크와 볼츠만 머신은 생물물리학, 신경물리학, 계산 물리학이라는 더 넓은 물리학의 하위 분야에 속하는 것이 분명하다. 이러한 하위 분야는 복잡한 (생물학적) 시스템을 연구하는데, 이 시스템은 너무 복잡해서 정확하게 설명하기 어려운 경우가 많다. 홉필드 교수와 힌튼 교수는 대략적인 모델을 개발해 그럴듯한 자연 법칙과 결합하면 복잡한 계산이 가능하다는 것을 입증했다. 이는 이렇게 단순화된 시스템에서도 지능의 요소가 나타날 수 있다는 원리를 증명하는 역할을 한다
어떤 사람들은 물리학의 '순수성' 측면에서 볼 때 노벨상을 받을 만한 가치가 없다고 주장할 수도 있다. 하지만 나는 이 분야가 진화하고 있다고 생각한다. 점점 더 많은 과학자들이 지능과 인지와 같은 새로운 현상을 연구하는 데 물리학을 활용하는 것이 중요하다는 것을 인식하고 있다. 이런 의미에서 2024년 노벨 물리학생은 모던 물리학자가 된다는 것이 어떤 의미인지 잘 보여준다.
나는 자연이 궁극적인 계산 기계라고 굳게 믿고 있으며, 물리학을 기반으로 한 많은 ML 모델이 각광받고 있는 것은 당연한 일이다. 물리학은 자연의 특정 법칙에 관한 것이 아니라 반복해서 적용될 수 있는 일반적인 원리에 관한 것이다. 인류가 진정한 인공 지능을 개발하려면 물리 법칙에 기반한 기반이 있어야 한다는 데는 의심의 여지가 없다.