TechCrunch에서 전한 뉴스이다.
OpenAI의 ChatGPT와 같은 대규모 언어 모델(LLM)은 블랙박스라는 말을 자주 듣게 되는데, 이는 사실 어느 정도 맞는 말이다. 데이터 과학자조차도 모델이 왜 그렇게 반응하는지 알기가 어렵고, 마치 무에서 유를 창조하는 것처럼 그 이유를 알기 힘들다.
LLM의 레이어를 벗겨내기 위해 OpenAI는 LLM의 어떤 부분이 어떤 행동과 관련이 있는지를 자동으로 식별하는 도구를 개발하고 있다. 이 도구를 개발한 엔지니어들은 아직 초기 단계라고 강조하고 있지만, 오늘 아침 이 도구를 실행하기 위한 코드가 깃허브에 오픈소스로 공개되어 있다.
OpenAI의 해석 가능성 팀 매니저인 윌리엄 샌더스(William Sanders)는 AI 시스템의 문제가 무엇인지 예측하는 방법을 개발하려고 노력하고 있다고 말했다. 모델이 무엇을 하고 있는지, 그리고 그 모델이 만들어내는 답을 신뢰할 수 있는지를 진정으로 알 수 있도록 하고자 한다.
이를 위해 OpenAI의 도구는 언어 모델을 사용하여 다른 구조적으로 단순한 LLM, 특히 OpenAI의 GPT-2 구성 요소의 기능을 파악한다.
어떻게? 먼저 LLM에 대한 배경을 간단히 설명한다. 뇌와 마찬가지로 LLM은 ‘뉴런’으로 구성되어 있다. 뉴런은 텍스트의 특정 패턴을 관찰하고, 모델 전체가 다음에 무엇을 ‘말’할 것인지에 영향을 미친다. 예를 들어, 슈퍼히어로에 대한 질문 (예: ‘가장 유용한 초능력을 가진 슈퍼히어로가 누구인가’)이 있다면, ‘마블 슈퍼히어로 뉴런’이 있다면 모델이 마블 영화의 특정 슈퍼히어로를 언급할 확률을 높일 수 있다.
OpenAI의 도구는 이러한 설정을 활용해 모델을 개별 부품으로 분해한다. 먼저 평가 대상 모델에 대해 텍스트 시퀀스를 실행하고 특정 뉴런이 자주 ‘활성화’되는 경우를 기다린다. 그런 다음 OpenAI의 최신 텍스트 생성 AI 모델인 GPT-4에 이 활성도가 높은 뉴런을 ‘보여주고’ GPT-4가 설명을 생성하도록 한다. 그 설명의 정확성을 판단하기 위해 GPT-4에 텍스트 시퀀스를 주고 뉴런의 행동을 예측(시뮬레이션)하게 한다. 그리고 시뮬레이션 된 뉴런의 거동과 실제 뉴런의 거동을 비교한다.
OpenAI에서 확장형 정렬 팀을 이끌고 있는 제프 우는 이 방법을 사용하면 기본적으로 모든 뉴런에 대해 그것이 무엇을 하는지에 대한 예비적인 자연어 설명을 생각해내고, 그 설명이 실제 행동과 얼마나 일치하는지 점수를 매길 수 있다고 말했다. 이어 GPT-4를 프로세스의 일부로 사용하여 뉴런이 무엇을 찾고 있는지에 대한 설명을 생성하고, 그 설명이 뉴런이 하는 일의 현실과 얼마나 일치하는지 점수를 매기고 있다.
연구진은 GPT-2의 307,200개 뉴런에 대한 설명을 모두 생성할 수 있었고, 이를 데이터 세트로 정리해 도구 코드와 함께 공개했다.
이러한 도구는 언젠가 편향과 독성을 줄이는 등 LLM의 성능을 개선하는 데 사용될 수 있을 것이라고 연구진은 말한다. 그러나 연구진은 이 도구가 실제로 유용하게 사용되려면 아직 갈 길이 멀다는 것을 인정한다. 이 도구는 전체의 극히 일부인 약 1,000개의 뉴런에 대해 자신 있게 설명할 수 있었다.
또한 이 도구는 GPT-4를 필요로 하기 때문에 냉소적인 사람들은 이 도구가 본질적으로 GPT-4의 광고라고 주장할 수도 있다. 프로그램을 신경망 모델로 변환하는 컴파일러인 딥마인드의 Tracr과 같이 상용 API에 덜 의존하는 다른 LLM 해석 도구도 존재한다.
제프 우는 그렇지 않으며, 이 도구가 GPT-4를 사용하는 것은 단지 부수적인 것이며 오히려 이 분야에서 GPT-4의 약점을 보여주는 것이라고 말했다. 또한 이 도구는 상업적 응용을 염두에 두고 만든 것이 아닌 이론적으로는 GPT-4 이외의 LLM을 사용할 수도 있다.
대부분의 설명은 실제 신경세포의 행동을 설명할 수 없거나, 매우 낮은 점수를 받았다. 예를 들어, 많은 뉴런은 무슨 일이 일어나고 있는지 매우 이해하기 어려운 방식으로 활동하는데, 5~6가지 다른 것들에 대해 활동하지만 식별할 수 있는 패턴이 없다. 또한 패턴이 있어도 GPT-4가 이를 찾아내지 못하는 경우도 있다.
더 복잡하고, 더 새롭고, 더 큰 모델이나 웹을 검색하여 정보를 얻을 수 있는 모델에 대해서는 말할 것도 없다. 그러나 이 두 번째 점에 대해 제프 우는 웹 브라우징을 할 수 있다고 해도 이 도구의 기본 메커니즘은 크게 달라지지 않을 것이라고 생각한다. 뉴런이 왜 특정 검색 엔진 쿼리를 실행하거나 특정 웹 사이트에 액세스하는 이유를 파악하기 위해 단순히 수정만 하면 된다는 것이다.
이 연구가 해석 가능성을 자동화 된 방식으로 다루는 유망한 길을 열어 줄 것으로 기대한다. 또한 희망은 뉴런이 반응하는 것뿐만 아니라 이러한 모델의 전반적인 작동, 즉 어떤 종류의 회로를 계산하고 있는지, 특정 뉴런이 다른 뉴런에 어떻게 영향을 미치는지 등에 대해 실제로 좋은 설명을 할 수 있기를 바란다.
기사 원문 : (2023.05.10) <OpenAI’s new tool attempts to explain language models’ behaviors>
It’s often said that large language models (LLMs) along the lines of OpenAI’s ChatGPT are a black box, and certainly, there’s some truth to that. Even for data scientists, it’s difficult to know why, always, a model responds in the way it does, like inventing facts out of whole cloth.
In an effort to peel back the layers of LLMs, OpenAI is developing a tool to automatically identify which parts of an LLM are responsible for which of its behaviors. The engineers behind it stress that it’s in the early stages, but the code to run it is available in open source on GitHub as of this morning.
“We’re trying to [develop ways to] anticipate what the problems with an AI system will be,” William Saunders, the interpretability team manager at OpenAI, told TechCrunch in a phone interview. “We want to really be able to know that we can trust what the model is doing and the answer that it produces.”
To that end, OpenAI’s tool uses a language model (ironically) to figure out the functions of the components of other, architecturally simpler LLMs — specifically OpenAI’s own GPT-2.
How? First, a quick explainer on LLMs for background. Like the brain, they’re made up of “neurons,” which observe some specific pattern in text to influence what the overall model “says” next. For example, given a prompt about superheros (e.g. “Which superheros have the most useful superpowers?”), a “Marvel superhero neuron” might boost the probability the model names specific superheroes from Marvel movies.
OpenAI’s tool exploits this setup to break models down into their individual pieces. First, the tool runs text sequences through the model being evaluated and waits for cases where a particular neuron “activates” frequently. Next, it “shows” GPT-4, OpenAI’s latest text-generating AI model, these highly active neurons and has GPT-4 generate an explanation.
To determine how accurate the explanation is, the tool provides GPT-4 with text sequences and has it predict, or simulate, how the neuron would behave. In then compares the behavior of the simulated neuron with the behavior of the actual neuron.
“Using this methodology, we can basically, for every single neuron, come up with some kind of preliminary natural language explanation for what it’s doing and also have a score for how how well that explanation matches the actual behavior,” Jeff Wu, who leads the scalable alignment team at OpenAI, said. “We’re using GPT-4 as part of the process to produce explanations of what a neuron is looking for and then score how well those explanations match the reality of what it’s doing.”
The researchers were able to generate explanations for all 307,200 neurons in GPT-2, which they compiled in a dataset that’s been released alongside the tool code.
Tools like this could one day be used to improve an LLM’s performance, the researchers say — for example to cut down on bias or toxicity. But they acknowledge that it has a long way to go before it’s genuinely useful. The tool was confident in its explanations for about 1,000 of those neurons, a small fraction of the total.
A cynical person might argue, too, that the tool is essentially an advertisement for GPT-4, given that it requires GPT-4 to work. Other LLM interpretability tools are less dependent on commercial APIs, like DeepMind’s Tracr, a compiler that translates programs into neural network models.
Wu said that isn’t the case — the fact the tool uses GPT-4 is merely “incidental” — and, on the contrary, shows GPT-4’s weaknesses in this area. He also said it wasn’t created with commercial applications in mind and, in theory, could be adapted to use LLMs besides GPT-4.
“Most of the explanations score quite poorly or don’t explain that much of the behavior of the actual neuron,” Wu said. “A lot of the neurons, for example, are active in a way where it’s very hard to tell what’s going on — like they activate on five or six different things, but there’s no discernible pattern. Sometimes there is a discernible pattern, but GPT-4 is unable to find it.”
That’s to say nothing of more complex, newer and larger models, or models that can browse the web for information. But on that second point, Wu believes that web browsing wouldn’t change the tool’s underlying mechanisms much. It could simply be tweaked, he says, to figure out why neurons decide to make certain search engine queries or access particular websites.
“We hope that this will open up a promising avenue to address interpretability in an automated way that others can build on and contribute to,” Wu said. “The hope is that we really actually have good explanations of not just what neurons are responding to but overall, the behavior of these models — what kinds of circuits they’re computing and how certain neurons affect other neurons.”