배우는 방법 자체를 배우다.
대학교 3학년 즈음, 나는 “Learning to Learn”이라는 Coursera 강의를 수강했다. ‘배우기 위한 배움’이라는 이 강의는 어떻게 하면 “학습”을 잘할 수 있는지를 알려주는 내용이었다. 배우는 방법도 배워야 한다는, 다소 중복되는 단어를 사용하지만 그래서 더 흥미로운 표현이다. 배움에 대한 배움은 열심히 인간의 지식을 학습하는 인공지능(AI)에게도 해당되는 내용이다.
AI는 방대한 데이터를 통해 ‘학습된 존재’다. 그런데 이 학습 과정은 인간과 달라서, 우리는 AI가 어떤 방식으로 배웠는지 결과물을 통해서만 알 수 있다. 잘 배웠는지, 충분히 배웠는지는 그가 내놓는 답변을 평가하는 방식으로 판단하게 된다. 보통의 경우 성능을 통해서 평가되는데, 일부 연구자들은 "어떻게 배웠는지 궁금해한다."
연구자들이 던지는 핵심 질문 중 하나는 바로 이것이다. 과연 AI는 어떻게 배웠는가? 이 질문은 인지과학(cognitive science)에서 인간의 학습 과정을 탐구하는 방식과도 닮아 있다. 인지과학은 유년기부터 청소년기를 거쳐 성인에 이르기까지, 뇌의 발달과 마음의 구조가 어떻게 변화하고 성장하는지를 연구한다. 마찬가지로, AI가 어떻게 학습했는지를 분석하는 것은 인간 수준의 지성에 도달한 또 다른 (유사하지만 다른) ‘마음의 구조’를 들여다보는 일이라 무척 흥미롭다.
인간에 대해선 윤리적인 제약이 많아 실험이 제한적이다. 반면 AI는 ‘AI를 위한 윤리’가 아직 명확하게 정립되어 있지 않기 때문에, 다양한 실험이 가능하다. 예컨대, 부정적인 문장을 주고 AI의 반응을 살펴보는 스트레스 테스트, 혹은 특정 방향으로 사고방식을 변화시켜 반응의 변화를 관찰하는 트리트먼트 테스트(treatment test) 등이 있다.
그 실험의 결과로,
지금까지 연구자들이 얻은 것은
언어 모델에 대한 생물학적 해석이다.
이처럼 인간의 심리를 연구하는 데 사용되던 다양한 방법론을 AI에 적용할 수 있다는 점은, ‘지성’이라는 것을 우리가 직접 해부하고 이해하고, 나아가 배우는 데 매우 유리한 환경을 만들어준다. 이를 전문적으로는 역설계(reverse engineering)라고 부른다.
AI의 내부 구조를 분석하는 연구자들은 기계적 이해(mechanistic interpretability)라는 표현도 자주 사용한다. 이는 AI를 단지 심리적 차원—예를 들어 ‘많이 혼났기 때문에 행동을 제약받았다’는 식의 해석—으로만 바라보지 않고, 뇌의 회로를 파헤치듯 사고의 경로 자체를 분석하고자 하는 시도다.
무언가를 떠올리는 과정은 회로로 표현될 수 있다. 인간도 AI도. 아래 그림은 AI의 생각회로이다.
흥미롭게도 이 사고 경로는 종종 인간의 사고와 매우 유사하게 나타난다. 예를 들어, “텍사스주의 수도는 오스틴이다”라는 문장을 AI가 떠올릴 때, 내부에서는 관련된 여러 개념이 얽히고 중요한 정보가 활성화된다. 이는 마치 인간의 뇌가 기억을 상기할 때 여러 개념을 동시에 불러오는 방법과 비슷하다. 연구자들은 AI 내부에서 일어나는 이 ‘생각의 과정’을 시각화하고, 구조화하며, 분석하고 있다.
AI의 생각을 해부하는 과정은,
인간의 뇌가 어떻게 지식을 구조화하고
떠올리는지에 대한 또 다른 거울을 제공해 준다.
나아가 이런 역설계 과정을 이해하면,
인간이 다루는 ‘지식의 본질’에 조금씩 가까워질 수 있다.
이는 곧 지식을 다루는 기술,
engineering of intelligence,
지성 자체를 공학적으로 다루는 것이다.