LLM이 Samantha가 되려면?

LLM이 뇌가 되는 Cognitive Architecture

by 윤달


#0 우리가 기대하는 AI Agent

스크린샷 2024-08-27 114525.png 이거 아니고
samantha.gif 이거죠


#1 LLM은 그저 직관적인 뇌

LLM은 우리가 입력한 단어에서 유사성과 관계성이 높은 출력값을 조합해냅니다. 이는 명확한 논리적 기준으로 도출한 답이 아니기 때문에 우리는 그 출력값의 근거를 따지고 들기 어렵지만 빠르게 근사치를 뽑아내는 측면에서 탁월하죠. 그래서 우리는 열광했습니다.

근거가 되는 인터넷 출처를 명기하는 방식으로 Peplexity와 같은 서비스는 지식 노동자들에게 좀 더 신뢰할만한 출력값을 주어 시장의 주목을 받기 시작했습니다 현재 출처를 명기하는 방식은 Gemini, ChatGPT에서도 제공하고 있습니다. 또 의학, 법률 등 영역이 명확한 지식에 대해서는 예상 질의응답을 모두 넣어둔 DB를 두고 이를 참조하도록 하는 RAG(Retrieval-Augmented Generation)라는 기술도 이미 많이 쓰이고 있습니다.

LLM이 명확한 논리로 답하지 못하는 것은 타고난 알고리듬 구조에 따른 본성에 가깝습니다. 행동경제학의 바이블이라고 불리는 대니엘 카너먼의 '생각에 관한 생각'이라는 책에서 우리의 사고작용을 직관에 의해 빠르게 작동하는 시스템1과 복잡한 계산과 논리로 무장한 시스템2로 표한한 바 있습니다. LLM을 이에 비유하자만 시스템1에 가깝습니다. 시스템1만으로 구성된 AI를 Agent로 믿고 쓸 사람은 없을 겁니다.


스크린샷 2024-08-27 091436.png


그렇다면 시스템 2는 어떻게 구축할 수 있을까요?


#2 계획하고 회고하고 수정하고 업데이트하는 Cognitive Architecture

여기서 우리는 Cognitive Architecture라는 개념을 생각해봅니다. Cognitive Architecture는 인간의 인지 기능을 모방해서 시스템을 구축하려는 분야로 이미 1980년대에 시작되었습니다(의학, 심리학 분야로는 1950년대). 당시에는 사람의 사고 방식을 모방하면 스스로 생각할 수 있는 기계를 만들 수 있을 거라는 이론적 Framework이었지만 LLM으로 시스템1을 장만한 지금 Cognitive Architecture는 세상을 바꾸는 개념이 될 것입니다.

사람이 사고하는 과정을 생각해봅시다. 사람은 끊임없이 환경을 인식하고 자신의 경험의 중요한 부분을 장기 기억에 넣어두고 어떤 결정을 해야할 때 꺼내어서 판단을 내리고자 합니다. 문제가 발생하면 인간은 모든 기억과 경험에 기반해 실행 계획을 세웁니다(Planning). 그리고 최종 실행 전에 실수를 최소화하기 위해서 Simulation과 Reflection이 수반된 사고 실험을 합니다(Reflection Cycle). 그리고 최종 결정을 내리고 실행합니다(Action). 자 이제 결과가 나옵니다. 이후 우리는 이를 토대로 나의 지식과 판단 논리를 업데이트하여 다음 상황에 활용하게 됩니다(Updated State).

이런 과정에서 인간의 뇌를 LLM으로 대체해서 그림을 그려보면 이런 과정이 되겠네요.

Drawing 2024-08-27 08.46.33.excalidraw.png


LLM의 가능성을 한껏 흡수해 생태계를 촘촘하게 엮어가고 있는 사업자가 있죠. 바로 LangChain입니다.

LLM을 뇌라고 보면 여기에 혈관과 신경을 연결하는 일을 하고 있는 사업자라고 볼 수도 있겠습니다. 그렇기 때문에 LLM을 중심으로 Architecture를 구성하는 다양한 이론을 가장 앞서서 포착하고 연구하는 사업자이기도 합니다. 사실 저는 LLM을 둘러싼 솔루션의 최신 흐름을 파악하고 싶을때 가장 먼저 LangChain CEO인 Harrison Chase의 동향을 찾아다니고는 합니다.


#3 구현 관점에서 Referece를 보여준 CoALA

Cognitive Architecture 관련하여 Harrison Chase이 LangChain 공식 유튜브에 올린 세미나가 주목할 만 합니다. Agent를 만들기 위해 어떻게 Cognitive Architecture를 구성할 것인가에 대한 논의인데요, 구현 관점에서 구체성을 장점으로 하는 CoALA라는 구조가 소개되었습니다(Sumers et al., 2024). 공동 저자인 Shunyu Yao은 이 유튜브 공개 당시에는 Prinston 박사 과정이었는데 그새 올해 6월부로 OpenAI의 연구원으로 재직중이군요.

CoALA는 구현 측면에서 Memory, Action , Decision 의 세 개 영역에서의 흐름을 핵심 동작 영역으로 구성된 Framework이라고 볼 수 있습니다. Feasibility를 위해 핵심 동작 영역을 구체적으로 지정해 둔 점이 LangChain의 관심을 끌었을 것 같습니다.

기존의 Computing 시스템과 연동되는 지점에서 Memory 영역 구현이 인상적입니다. Memory는 경험(Episodic)-지식(Semantic)-과정(Procedural)을 저장하는 Long-term Memory문제 해결 순간의 Decision Cycle을 담당하는 Short-term Memory로 구성되어 있습니다.

Untitled.png Sumers et al., “Cognitive Architectures for Language Agents.”


Long-term Memory와 Short-term Memory는 Computer의 Disk와 RAM같은 느낌으로 이해하면 될 것 같습니다. 개인용 Agent가 탑재되는 것이 일반화된다면 Computer의 구조 변화가 어떻게 될 지 예측해볼 수 있는 지점이 아닌가 싶습니다. 이에 관련해서는 미래 개인형 AI Computer의 진화를 예측한 리사수 CEO의 인터뷰를 참고해봐도 좋을 거 같습니다.


https://www.youtube.com/watch?v=PNl5hTg6x6c





keyword
매거진의 이전글기술과 예술의 중간 어딘가에서