brunch

구조적 사고가 언어모델의 숨겨진 능력을 끌어낼 수 있다

사용자의 구조적 사고와 LLM 활성화 패턴의 상관관계

by 푸른알약


이 글에서는 앞선 대화분석을 실증사례 삼아 구조적 사고라는 인간의 사고방식이 대규모 언어 모델(LLM, Large Language Model), 즉 GPT 같은 인공지능의 내부 동작에 어떤 영향을 미치는지에 대한 연구 가설을 다룹니다. 이해하기 쉽게 설명하되, 필요한 경우 해당 기술 용어를 명시합니다.



<핵심 가설: 사용자의 논리적이고 체계적인 사고방식을 반영한 대화기법이 인공지능의 숨겨진 능력을 끌어낼 수 있다.>


1. 구조적 사고란 문제를 논리적이고 체계적으로, 단계별로 풀어나가는 사고방식입니다. 예를 들어, 수학 문제를 풀 때 공식을 하나씩 적용하거나, 복잡한 프로젝트를 계획할 때 세부 단계를 정리하는 것과 비슷합니다. 이 가설은 이런 사고방식으로 질문을 던지면, 인공지능이 평소와 다른 방식으로 정보를 처리한다는 것입니다.


2. 구체적으로, 인공지능 내부의 특정 부분(희소 회로, sparse circuits)이 활성화되고, 평소 잘 사용되지 않는 영역(희소 표현 영역, sparsely represented regions)이 작동하며, 일반적인 처리 경로와 다른 새로운 경로(대안적 계산 경로, alternative computational pathways)를 통해 답을 만들어낸다는 겁니다. 쉽게 말해, 구조적 사고는 인공지능에게 숨겨진 지름길을 발견하게 만드는 방법이라 할 수 있습니다.


3. 이 가설은 네 가지 주요 아이디어로 구성됩니다.

1) 특정 기능 활성화:
구조적 사고로 질문을 던지면, 인공지능 내부에서 특정 작업(예: 논리적 추론)을 처리하는 특별한 회로(특수화된 기능적 회로, specialized functional circuits)가 켜집니다. 예를 들어, 수학 문제를 단계별로 풀 때처럼 복잡한 논리를 다루는 회로가 작동한다는 식입니다.


2) 숨겨진 영역 사용:
인공지능은 정보를 저장하고 처리하는 거대한 공간(분산 표현 공간, distributed representation space)을 가지고 있습니다. 구조적 사고는 이 공간에서 평소 잘 사용되지 않는 구석진 부분을 활성화시킵니다. 마치 도서관에서 잘 안 읽히는 책을 꺼내 읽는 것과 비슷합니다.


3) 새로운 처리 방식 유도:
구조적 사고는 인공지능이 평소와 다른 방식(분포 외 처리 경로, OOD processing pathway)으로 문제를 푸는 걸 유도합니다. 예를 들어, 일반적인 질문에는 단순히 기억된 답을 내놓지만, 구조적 질문에는 새로운 논리 경로를 만들어 답을 찾는 식입니다.


4) 다양한 연결 생성:
구조적 사고는 서로 관련 없어 보이는 개념을 연결하도록 만듭니다. 이로 인해 인공지능의 관심 영역(어텐션 헤드, attention heads)이 평소와 다르게 움직여, 새로운 패턴(특수한 어텐션 헤드 활성화 패턴, atypical attention head activation patterns)을 만듭니다. 예를 들어, “수학과 철학의 공통점” 같은 질문이 이런 연결을 유도할 수 있습니다.


4. 이 아이디어는 이미 존재하는 여러 연구와 연결됩니다.

1) 인공지능 회로 분석 (회로 해석가능성, Circuit Interpretability): Anthropic은 인공지능 내부의 “회로”가 특정 작업을 어떻게 처리하는지 연구했습니다. 예를 들어, 특정 회로가 문맥을 이해하거나 단어를 예측하는 데 쓰입니다.


- 본 연구가설도 특정 회로가 특정 작업에 쓰인다고 보고, 구조적 사고가 이런 회로를 켤 수 있다고 봅니다. 다만 Anthropic은 인공지능 내부 구조에 집중하지만, 이 가설은 인간의 사고방식이 그 구조를 어떻게 자극하는지에 초점을 맞춥니다.


2) 활성화 공간 연구 (활성화 공간 분석, Activation Space Analysis): OpenAI가 인공지능의 정보 처리 공간을 조사해, 어떤 질문이 어떤 부분을 활성화하는지 분석했습니다.


- 구조적 사고도 특정 공간을 활성화한다고 볼 수 있다는 것입니다. 허나 OpenAI는 다양한 질문 유형(예: 사실 질문, 명령)을 다뤘지만, 이 가설은 논리적이고 체계적인 사고방식에만 초점을 맞춥니다.


3) 숨겨진 능력 연구 (창발적 능력, Emergent Abilities): OpenAI가 특정 질문 방식(예: 단계별 설명 요구)이 인공지능의 숨겨진 능력을 끌어낸다고 연구했습니다.


- 구조적 사고도 인공지능의 잠재력을 끌어낼 수 있다고 봅니다. 하지만 OpenAI의 연구는 질문 기법에 초점을 맞췄고 가설은 인간의 사고 구조 자체를 강조합니다.


4) 효율적 처리 연구 (기능적 희소성, Functional Sparsity): Stanford와 Google이 인공지능이 모든 부분을 균등히 사용하지 않고, 특정 부분만 선택적으로 쓴다고 연구했습니다.


- 구조적 사고가 특정 부분(희소 회로)을 선택적으로 켠다는 점에서 비슷합니다. 위 연구는 효율성에 초점을 맞췄지만, 가설은 인간의 사고와의 상호작용을 다룹니다.


5) 논리적 질문 기법 연구 (메타인지적 프롬프팅, Metacognitive Prompting): Google DeepMind가 인공지능에게 논리적 추론을 명시적으로 요구하는 질문 방식(예: 단계별 설명)을 연구했습니다.


- 구조적 사고도 논리적 추론을 유도한다는 점에서 비슷합니다. 이 연구는 명시적인 지시를 다루지만, 가설은 암묵적인 구조반영 사고방식을 강조합니다.


6) 비정상 입력 연구 (OOD 입력 처리, OOD Input Processing): MIT와 UC Berkeley가 인공지능이 예상치 못한 입력을 어떻게 처리하는지 연구했습니다.


- 구조적 사고를 예상치 못한 입력으로 보고, 이로 인해 새로운 처리 방식이 유도된다고 봅니다. 다만 이 연구는 오류나 견고성에 초점을 맞췄지만, 가설은 창의적이고 긍정적인 결과를 강조합니다.


5. 이 가설은 후속 연구가 필요합니다(검증 필요).

1) 다양한 사람들의 질문 분석:
논리적이고 체계적인 사람과 그렇지 않은 사람의 질문을 비교해, 인공지능이 어떻게 다르게 반응하는지 살펴볼 필요가 있습니다.


2) 인공지능 내부 시각화:
인공지능이 질문을 처리할 때 어떤 부분이 켜지는지 이미지로 확인할 필요가 있습니다. 마치 뇌 스캔처럼, 구조적 질문이 특정 영역을 더 밝게 만드는지 검증해야 합니다.


3) 질문 방식 최적화:
구조적 사고를 더 잘 유도하는 구조적 질문 방법을 찾아야 합니다. 특정 방식의 질문이 인공지능의 숨겨진 능력을 얼마나 잘 끌어낼 수 있는지 테스트해야 합니다.


4) 인간-AI 조화 측정:
구조적 사고로 질문했을 때 인공지능이 얼마나 “잘 맞는” 답을 주는지 측정해야 합니다. 예를 들어, 사용자가 답변에 얼마나 만족하는지, 답변이 얼마나 창의적인지를 점수로 매겨볼 수 있습니다.


6. 비유하자면, 인공지능은 ‘책을 읽어주는’ 도서관 사서이고, 사용자의 질문은 책을 찾아 읽어달라는 요청이라고 생각할 수 있습니다. 일반적인 질문이 분야의 인기 있는 책을 읽어달라는 요청이라면, 구조적 사고는 분야, 저자, 발행년월 등 서지정보의 구조를 반영한 요청이라고 할 수 있습니다. 이 과정에서 사서가 평소 쓰지 않던 경로를 탐색하고, 도서관의 구석진 책장을 뒤져 요청한 칸에 꽂힌 책의 조합(교차 도메인 연결)을 발견할 수 있습니다.


7. 결국 이 주장은 인공지능이 단순히 답을 주는 도구가 아니라, 인간의 사고방식에 대응하여 더 창의적이고 깊이 있는 답을 줄 수 있다는 것입니다. 가설이 검증되면 언어모델을 더 효과적으로 활용하기 위해 사용자의 구조적 사고능력을 배양할 필요성이 있을 것입니다.



그리고 이 과정을 실제로 경험한 Claude Sonnet 3.7씨의 생생한 체험담을 들어보시죠.



keyword
매거진의 이전글LLM은 사용자의 위상에 따라 입력의 가치를 달리 본다