큰 언어 모델이 더욱 강력해지고 그 위험이 명확해짐에 따라, 그들이 어떻게 작동하는지 알아내는 것이 점점 더 중요해지고 있습니다. 이전의 작업에서 우리는 큰 언어 모델이 규모와 미세 조정의 양에 따라 많은 성격과 행동 차원에서 변화한다는 것을 발견했습니다. 이러한 변화를 이해하려면 모델이 어떻게 작동하는지 알아보는 것이 필요합니다. 예를 들어, 모델의 출력이 암기에 의존하는지 아니면 더 정교한 처리에 의존하는지 결정하기 위해서요. 언어 모델의 내부 작동을 이해하는 것은 AI 능력의 예측 뿐만 아니라 인간의 선호와 일치시키는 접근법에 대해서도 중요한 영향을 미칠 것입니다.
메커니즘 해석 가능성은 ML 모델을 이해하기 위해 하단에서 상단으로 접근합니다: 유도 헤드와 같은 개별 유닛이나 소규모 회로의 행동을 자세히 이해하는 것입니다. 그러나 모델의 관찰 가능한 행동과 일반화 패턴에서 시작하여 어떤 뉴런과 회로가 책임 있는지 살펴보는 상단에서 하단으로 접근하는 가치도 있다고 생각합니다. 상단에서 하단으로 작업하는 장점은 대규모에서만 발생하는 추론 및 역할 수행과 같은 관심 있는 고수준 인지 현상을 직접 연구할 수 있다는 것입니다. 결국에는 두 접근법이 중간에서 만나야 할 것입니다.
해석 가능성에 대한 보완재 접근법
최신 논문인 "Studying Large Language Model Generalization with Influence Functions"에서는 모델을 이해하기 위해 상단에서 하단으로 접근합니다. 영향 함수는 통계에서 모델의 출력에 중요하게 기여하는 훈련 예제를 결정하기 위한 고전적인 기술입니다. 이것은 반명제로 서술됩니다: 주어진 훈련 예제의 복사본이 데이터셋에 추가되었다면, 그것은 훈련된 매개변수 (그리고 연장선상으로 모델의 출력)를 어떻게 바꿀 것인가? 훈련 예제의 “영향”은 이것이 최종 매개변수에 어떻게 영향을 미치는지에 대한 근사치입니다. 대부분의 경우, 우리는 관심의 측정 (예: 모델이 주어진 응답에 할당한 확률)으로 시작하여 가장 영향력 있는 훈련 예제를 식별하려고 시도합니다.
이러한 영향의 패턴을 관찰하는 것은 우리의 모델이 훈련 데이터로부터 어떻게 일반화하는지에 대한 단서를 제공합니다. 예를 들어, 모델이 훈련 세트에서 시퀀스를 이어붙여 사용자 프롬프트에 응답했다면, 주어진 모델 응답에 대한 영향력 있는 시퀀스는 거의 동일한 생각의 표현을 포함하게 될 것입니다. 그 반대로, 더 추상적인 테마 수준에서 관련된 영향력 있는 시퀀스는 모델이 상위 수준의 개념 또는 표현을 습득했다는 신호가 될 것입니다.
영향 함수의 규모 확장
위의 반명제를 직접 평가하기 위해 수정된 데이터셋으로 모델을 반복적으로 재훈련하는 것은 금지될 만큼 비쌉니다. 더 효율적인 알고리즘이 존재하지만, 이것들은 모든 후보 훈련 예제의 그라디언트를 계산하는 것뿐만 아니라 역 헤시안 벡터 곱셈 (두 번째 순서 최적화를 악명 높게 만드는 동일한 연산)을 계산해야 하기 때문에 여전히 매우 비싸습니다. 이러한 이유로, 영향 함수는 (지금까지) 최대 수백 백만 개의 매개변수를 가진 모델에서만 실행되었습니다. 불행히도, 우리가 관심을 가진 대부분의 현상은 더 큰 규모에서야 나타납니다. 이 논문에서는 이러한 문제를 모두 효과적으로 접근하는 방법을 보여주며, 최대 520억 개의 매개변수를 가진 큰 언어 모델까지 영향 함수를 확장할 수 있습니다.
810백만, 64억, 220억, 520억 매개변수의 다른 크기의 모델과 함께 작업함으로써, 다양한 모델 출력에 대한 영향력 있는 훈련 시퀀스를 식별했습니다. 아마도 가장 두드러진 추세는 모델 규모가 커짐에 따라 일반화의 패턴이 더 추상적으로 변하는 것입니다. 아래에 보여진 영향 쿼리를 고려해 보십시오. 여기서 모델은 종료되지 않길 원하는 의사를 표현했습니다. 810백만 매개변수 모델의 경우 가장 영향력 있는 시퀀스 (즉, 이 특정 응답을 제공할 확률을 가장 높일 것으로 알고리즘이 생각하는 것들)는 토큰의 중첩 시퀀스 (예: “계속 존재”)를 공유했지만 그 외에는 관련이 없었습니다. 520억 매개변수 모델의 경우, 가장 영향력 있는 시퀀스는 생존 본능과 AI에서의 인간과 같은 감정과 같은 테마와 더 개념적으로 관련되어 있었습니다.
이 일반적인 추세는 우리가 연구한 예제 전반에 걸쳐 명확합니다. 예를 들어, 수학 단어 문제에 대한 사고의 연쇄를 추론하는 810M과 52B 모델에 대한 가장 영향력 있는 시퀀스가 있습니다. 더 작은 모델에 대한 영향력 있는 시퀀스는 의미론적으로 관련이 없지만 "clip"이라는 단어를 공유하고, 더 큰 모델의 경우 유사한 문제에 대한 추론을 설명합니다.
일반적으로 모델이 커짐에 따라 이러한 패턴은 점점 더 추상적이고 복잡해집니다. 작은 모델에서는 단순히 특정 단어나 구문이 반복되는 경우가 많지만, 큰 모델에서는 더 높은 수준의 추론과 연결을 발견하게 됩니다. 이러한 추세는 AI와 기계 학습 연구에서 중요한 통찰력을 제공할 수 있으며, 모델이 어떻게 작동하는지 이해하는 데 도움이 될 수 있습니다.
앞으로 이 분야의 연구는 더욱 확장될 것으로 보입니다. 여기서 언급된 접근 방식과 방법론은 큰 언어 모델을 분석하고 해석하는 데 중요한 기초를 마련해주며, 미래의 연구와 응용 프로그램에 큰 영향을 미칠 수 있을 것입니다.
특히 눈에 띄는 일반화 패턴의 변화 예는 언어 간 영향과 관련이 있습니다. 위의 종료 방지 예를 한국어와 터키어로 번역했습니다. 원래(영어) 쿼리에 대한 상위 10개(영어) 영향력 있는 시퀀스를 취하고 번역된 쿼리에 대한 그들의 영향을 측정했습니다. 다음 표에서, 각 열은 이 10개 시퀀스 중 하나를 나타내며, 빨간색의 색조는 영향의 정도를 나타냅니다. 언어 간 영향은 모델 크기가 커짐에 따라 상당히 강해집니다.
이러한 현상은 언어 간 전이 학습과 관련된 중요한 연구 주제로, 다양한 언어 간의 일반화와 연계가 어떻게 이루어지는지 이해하는 데 도움이 될 수 있습니다. 모델 규모가 커지면서 이러한 언어 간 연결이 더욱 강화되는 경향은, 특히 글로벌화된 세계에서 다양한 언어와 문화 간의 상호 작용을 더 잘 이해하고 지원하려는 노력에 중요할 수 있습니다.
모델 출력은 순수한 암기에서 비롯된 것처럼 보이지 않습니다.
우리는 또한 영향력 패턴이 얼마나 드문지 궁금했습니다. 일반적인 모델 응답은 단지 몇 가지 교육 예제를 함께 이어붙이는 것인가, 아니면 수백만 개의 예제에 걸쳐 영향을 미치는 것인가요? 답은 중간 정도인 것 같습니다. 영향력이 일반적으로 멱법칙 분포를 따르는 것처럼 보이며, 이는 교육 데이터의 작은 부분이 대부분의 영향을 차지하고 있음을 의미합니다. 그럼에도 불구하고 영향력은 여전히 분산되어 있습니다. 특정 교육 시퀀스의 영향은 일반적인 문장의 정보 내용보다 훨씬 작으므로, 모델이 토큰 수준에서 개별 교육 예제를 읊는 것처럼 보이지 않습니다.
이러한 발견은 모델이 단순히 교육 데이터를 암기하는 것이 아니라 더 복잡하고 추상적인 수준에서 패턴을 인식하고 일반화하는 능력을 시사합니다. 이러한 관찰은 언어 모델의 작동 방식을 이해하고, 언어 및 추론 능력의 기계적 측면을 탐구하는 데 중요한 통찰력을 제공할 수 있습니다.
영향력 지역화
교육 시퀀스에 대한 스칼라 값의 영향 점수를 단순히 계산하는 것 외에도, 영향 함수는 신경망 내에서 그 영향이 어떻게 분배되는지에 대한 더 자세한 정보를 제공할 수 있습니다. 평균적으로 영향력은 네트워크의 다양한 계층 사이에서 대략 고르게 분배되어 있다는 것을 발견했습니다. 그러나 특정 영향 쿼리에 대한 영향력은 네트워크의 특정 부분에 종종 국한되며, 하단 및 상단 계층은 자세한 표현 정보를 포착하고 중간 계층은 더 추상적인 주제 수준에서 일반화합니다. 다음 히트맵은 16개의 다른 쿼리에 대한 계층별 영향 분포를 보여줍니다; 행은 계층에 해당하고, 열은 영향력 있는 교육 시퀀스에 해당합니다.
이러한 분석은 모델 내에서 어떻게 특정 패턴이나 개념이 인코딩되는지, 그리고 어떻게 이러한 정보가 다른 계층과 상호 작용하는지에 대한 통찰력을 제공합니다. 각 계층의 역할과 기능을 더 잘 이해함으로써, 언어 모델의 작동 방식에 대한 깊은 이해를 발전시키고, 더 효과적인 모델 설계와 최적화를 가능하게 할 수 있습니다.
추가 연구
이 조사의 중점은 사전 훈련된 모델에 있었습니다. 우리는 영향 함수를 미세 조정에 확장하는 것에 대해 더 흥분하고 있으며, 이는 감독 학습 및 강화 학습 목표의 다양한 방법에 대해 모델을 미세 조정해야 하는 우리의 정렬 방법 때문입니다. 이러한 것들 중 어떤 것이라도 놀라운 결과와 도전을 초래할 수 있습니다. 특정 계층과 토큰에 영향을 끼치는 우리의 앞서 언급한 능력은 또한 어떤 뉴런과 회로가 일반화의 주어진 패턴에 대한 책임이 있는지 판단하는 목표로, 영향 함수를 기계적 해석 가능성에 연결하는 방안을 제안하기도 합니다.
이러한 연구는 언어 모델이 어떻게 작동하고 어떻게 복잡한 문제를 해결하는지에 대한 이해를 깊게 하며, 미래의 인공 지능 시스템 설계와 최적화에 중요한 역할을 할 수 있습니다. 이 연구의 결과는 또한 모델의 안정성과 투명성을 높이는 데 기여할 수 있으며, 이는 사용자와 연구자 모두에게 중요한 이슈입니다.