기술적 관점에서 '자아'있는 AI의 구현법과 기술의 타당성을 확인해보자
요약:
1. 소비자가 원하는 서비스를 위해 AGI가 필요하긴 한가?
2. 그럼에도 불구하고 AGI를 만들기 위해선 '발달학 관점의 학습 기법', 'Time series 데이터', '좋은 저장 기술'이 필요하지 않을까?
3. AGI 구성을 위해 가능성이 검증된 정도의 기술에서 구현법을 구상해 본다.
3.1 생체적 모방 통해 (지능이 아닌) 본능을 학습하는 Neural Network
3.2 '나'라는 인지를 위한 '기억 또는 경험'을 위한 KV 편집 또는 Prompting
3.3 경험을 위한 각종 Sensor
강인공지능(AGI)에 대해서 여러 기사가 나오고 있습니다.
LLM을 만드는 회사들은 AGI를 만들거라며 투자자를 모으고 있습니다.
궁금함이 생겼습니다.
# '자아'가 있는 인공지능이 꼭 필요한게 맞을까요?
# 그래도 만든다면 어떻게 만들 수 있을까요? 무엇을 고려해야할까요?
스스로 생각한다는 것은 사람과 같이 통제할 수 없다는 뜻이기도 합니다.
그게 우리가 원하는 것으로서의 기술이 맞을까요?
그럼에도 불구하고 공학적으로 흥미로운 기술임엔 틀림없습니다.
인간이 살아가며 걸음마 부터 언어를 배우는 것까지 어떤 과정으로 학습하고 성장하는지 심리학적인 관점에서 살펴보고 이것을 어떻게 공학적으로 구현할 수 있을지 상상해보았고, 그 결론을 아래 글에 적어두었습니다.
제목에는 "사랑"이 필요하다고 하였습니다.
관심과 보살핌이 필요하다는 의미로 사랑이라는 단어를 사용하였습니다.
이 글에선
자아가 있는 인공지능의 학습의 과정을
"하나의 주체로서 경험하여 맥락있는 데이터의 학습"이라 생각하였습니다.
그러기 위해선
시간선 상에서 연결되는 경험을 하여야하고, 지금처럼 여러 주체의 경험이 섞인 데이터의 학습이 아닌 단일 개체에서 받아들여진 데이터가 필요합니다.
그리고 좋은 데이터가 받아들여지기 위해선
좋은 환경에 좋은 경험을 하게 만들어야합니다.
이렇게 하면
마치 아이를 키우는 것 같을 것 같습니다.
그래서 사랑이 필요하다 생각하였습니다.
잘 생각해 보면
오늘날 '인공지능'이라는 단어는 사실
그 자체의 의미를 제대로 담지 못하는 상태다.
'지능'을 흉내 내지 못하고 있기에 그 자체의 의미를 제대로 실현하지 못하는 기술이라 할 수 있다.
사실 지능을 제대로 흉내 내지 못한다는 그 말 또한 참으로써 작용하기 위해 큰 걸림돌이 있다.
우리는 '지능'에 대한 정의를 할 수 없기 때문에
지능을 흉내 내지 못한다는 말조차 꺼낼 수 없다.
그럼에도 불구하고
우리는 본능적으로 오늘날의 인공지능이, chatGPT가, LLM이
사람과 같은 행색을 할 능력은 없다는 것을 알고 있다.
그 이유에 대한 변론은
아래 논문이 대신해 줄 것이다.
LLM은 아직 확률에 기반하여 출력을 내놓는 기계라 하는 것이 옳으며,
때문에 자신만의 preference라는 것이 없다는 점에서 자신의 결과에 대해 사용자가 부정하면 그것을 그대로 수용해버리는 모습을 보이고, 이것은 '인격'이라는 것을 LLM이 가지고 있지 않다는 것을 이야기한다.
이 글은 기본적으로 필자의 생각을 나열하는 것이다.
앞으로 이 글에선 다음과 같은 이야기를 할 것이다.
1. 인간이 왜 지능을 만들고 싶어 하는지를 환기한다.
이를 위해 인간의 지능을 향한 탐험을 간단히 설펴보고 지능을 만드는 것이 그 목적에 타당한지 확인한다.
2. 인간과 같은 지능을 만들기 위해 필요한 기술은, 철학적 요소는 무엇인지를 알아본다
발달항을 중심으로 인간이 '학습'하는 경로를 파악한다.
3. 인간과 같은 지능을 만들기 위해 파악한 방법을 토대로 현재의 기술로는 어떻게 이를 구현할 수 있을지 이야기한다.
우선 우리가 왜 AI를 만들고 있고 지금의 LLM을 만들고 있는지 알아야 한다.
목적 없이 나아가는 것은 효과적이지 못하며, 자칫하면 위험할 수 있다.
인류는 꽤나 오랫동안
자신들이 이해하고 제어할 수 있는 기술로 '지능'을 재현하고자 하였다.
엄밀히 말하자면,
처음에는 나 대신에 해줄 무언가를 자동으로 해줄 수 있는 것을 찾았고
사회가 고도화되면서 그것의 가장 중요한 기능이 '지능'이라고 판단하게 되었다고 보는 게 맞지 않을까.
그건 기본적으로 인간이 가진 호기심이기도 하며
노동에서 벗어나고자 하는 기본적인 욕구에 해당하기도 한다.
고대, 중세에는 사실 지능의 기술을 만들어야 할 이유가 크게 없었다.
그리스를 기준으로 말하자면,
인간임에도 시민과 비시민이 나뉘고 인권을 인정받는 자와 아닌 자로 나뉘었기 때문이다.
때문에 시민은
비시민에게 온갖 궂은일을 떠맡기면 그만이었다.
그러한 관점에서
고대 ~ 중세 시대 인간을 따라 하고자 하는 시도는 정말 인간을 만들고자 함이라기보단
"권력의 과시", "귀족층의 관심거리" 정도라고 생각하는 것이 좋다고 본다.
이후 모든 인간이 인간으로서 존중받는 세상이 오면서
더 이상 노동을 떠넘길 곳이 사라지게 된다.
(이론적으로) 모든 노동은 대가를 치러야만 이루어지기 때문이다.
이제 인간은 노동을 대신할 무언가가 필요해졌다.
그러한 욕구와 인간의 호기심의 반영이
오토마타이며, 로봇이며, AI이다.
고대 오토마톤이라고 불릴 만한 기계적 장치에는
기원전 1세기 이집트 알렉산드리아에 살고 있는 오늘날로는 공학자로 불릴 수 있는 '헤론'의 작품이 많다.
증기나 물의 힘을 이용해 스스로 열리는 신전 문, 소리를 내는 새 등이 그의 작품이라 할 수 있다.
오늘날에 와서야 참 별거 없는 장치라 볼 수 있지만
당시 이러한 기술은 우리가 요즈음 '외계임을 고문해서 만들었다'라고 말하는 것보다 더한 불가사의에 가까운 것이라 느껴졌을 것이다.
그리고 그 느낌을 들게 하는 것이 정확히 당시 '기술'의 목적이었다.
신의 존재를 가시적으로 드러내거나 신성한 공간의 신비로움을 극대화하기 위한 장치, 왕은 신과 가까운 존재 또는 그에 달하는 권능을 가진 존재라는 것을 만천하에 알리기 위한 장치.
그런 것이었다.
중세 시대에도 크게 다르지 않다.
칼리프의 궁전에는 노래하는 새, 움직이는 사자상 등이 설치되어 외국 사절들에게 깊은 인상을 남겼고. 이는 정교한 기계 장치를 제작하고 운영할 수 있는 국가의 부와 지식을 상징하는 정치적 도구였다.
중세 하면 빼먹을 수 없는 것이 종교다.
유럽에서는 종교 개혁 이후, 시계 기술의 발전과 맞물려 오토마톤이 교회와 수도원에 설치되기 시작했다. 정해진 시간이 되면 인형이 나와 종을 치거나 성경의 한 장면을 재현하는 식의 시계였다고 한다.
18세기에 나서부턴 더 이상 '신'이나 '권위'를 위한 것이 아니라
본격적으로 인간 그 자체를 탐험하는 시도가 많아졌다.
당시 유럽 귀족들은 '공예품'을 모으는 것을 취미로 여겼던 것으로 보인다.
공예품의 정점은 사람의 손끝에서 만들어지는 정밀함이다.
귀족이 이것을 직접 만든 것은 아니지만
사람이 아닌 물리적인 기계 장치가 연주를 한다거나, 글을 쓴다는 것은 그들에게 매우 신기한 (또는 과시의) 요소로 작용했을 것이다.
하지만 동시에
이 시기의 오토마톤은 부유한 귀족과 왕족을 위한 고급 진 공예품인 동시에, 인간과 기계의 경계에 대한 철학적 질문이 성행했고 그를 탐구하고자 한 시도 중 하나로도 보인다.
당시는 데카르트의 '기계론'이 귀족들 사이에서 유행했다.
오토마톤은 생명의 본질을 탐구하고 인간의 지성을 증명하려는 시대정신의 산물인 것이다.
중요한 것은
인간이 점차 인간이란 무엇이며, 인간은 무엇으로 이루어져 있고, 어떻게 활동하는지 궁금해하기 시작했으며
이는 인간이 인간을 만들고자 하는 호기심으로 만들어진 욕망이 피어나기 시작했다는 것이다.
그리고 이 욕망을 정당하게 만들어주는 하나의 이유는
"인간과 같은 무언가를 만들면 더 이상 (원래) 인간은 일을 하지 않아도 된다"라는 것이다.
사실 이렇게 적었지만
그 본능적 욕망이 먼저일지, 합리성이 먼저일지는 잘 모르겠다.
확실한 것은 서로가 상보적 관계라는 것이다.
인간의 노동을 대신하고 또 인간의 호기심을 탐구하기 위한
"인공적 지능을 가진 어떠한 개체"를 만들기 위한 시도는 한동안 이렇다 할 발전이 없었다.
'Artificial Intelligence'가 나오기 전까진 말이다.
Artificial Intelligence, 줄여서 AI라는 단어가
길게 봤을 때는 대략 100년 정도 되었다고 보는 게 일반적인 시선이다.
1943년, McCulloch와 Pitts에 의해서 논리회로를 사용한 간단한 인공 신경망의 개념이 등장하였고
1950년, 앨런 튜링이 튜링머신의 개념을. 그리고 1956년 다트머스 회의에서 AI가 공식 용어로 채택되게 된다.
그 뒤로 한동안 AI의 발전은 또다시 어려움을 겪게 된다.
다만 이 당시에도 개념적(이론적) AI의 발전은 계속 지속되고 있었다.
그러한 AI가 크게 성장하는 것은
트랜지스터와 집적 회로의 획기적 발전에 큰 영향을 받게 된다.
그렇게 1980년대 잠시 반짝이던 'AI'의 꿈은 다시 침체기를 겪게 된다.
마지막이자 최근 AI의 새로운 부상은
빠른 연산을 대량으로 수행 가능한 GPGPU(General Purpose GPU)의 발전과 크게 맥락을 같이한다.
2012년도 알파고를 시작으로
22년도 GPT의 Chat 버전인 ChatGPT 그리고 수많은 LLM의 출현이 AI 발전의 현재이다.
약 80년대까지만의 AI는 순수하게 지식의 확장, 인간의 탐구심에 의한
'지능'의 인공적 발현을 위한 움직이었다면,
2000년대 이후의 AI는 정말 우리를 노동에서 해방시켜줄, 산업적인 움직임에 가깝다.
실제로 80년대 이후 과학자와 공학자들은
인간을 빼닮은 '지능'을 만들 수 있다는 기대감을 약간은 포기하고 실용적인 AI를 추구하기 시작한다.
특정 조건, 특정 Task만을 잘하자! 하는 게
이를 "Narrow AI" 또는 "Expert System"이라고 부르기도 한다.
로봇은 (인공) 지능과 떨어질 수 없는 관계이다.
왜냐하면 인간이 만들고자 하는 것은 인간의 노동을 대신해 줄 것이기 때문이다.
오늘날 우리는 '지식 노동'이란 것을 하며
컴퓨터 앞에서 키보드를 두드리는 직업도 많이 생겨났지만
아날로그적이고 물리적인 육체에서 벗어나지 못한 인간에게 있어
'육체노동'은 세상의 주춧돌이다.
때문에 우리는 로봇이 필요하다.
로봇의 역사는 가히 100년을 넘는다.
앞서 말했던 오토마타를 시작으로, 1920년대 일본에선 '가쿠텐소쿠(Gakutensoku)'라는 로봇이 표정을 구사하는 시도를 하였고,
미국 웨스팅하우스에선 '일렉트로(Electro)'라는 로봇이 걸음마를 떼기 시작했다.
이후에 와선
일본의 아시모(Asimo), 보스턴 다이나믹스의 아틀라스(Atlas)과 같은 휴머노이드 로봇들이
휴머노이드 시대를 제대로 열게 된다.
물론 여기에 한국 Kaist의 휴보(Hubo)도 있다.
이런 로봇들도 결국 한계를 맞이하게 되는데
생각보다 로봇을 인간의 환경에서 움직이게 한다는 것이 복잡한 작업이라는 것이다.
이 한계를 깨기 시작한 것이 다름 아닌
AI의 발전이다.
사실 로봇의 움직임에 AI를 사용하고자 하는 시도는 계속 있어왔다.
하지만 2020년 전과 후는 차원이 다르다.
Data Augmentation 기술과 강화학습을 통한 로봇 학습은
로봇의 움직임을 완전히 다른 차원으로 옮기게 된다.
테슬라의 옵티머스, 보스턴 다이나믹스의 아틀라스, 엔지니어드 아츠, Sanctuary AI와 같은 기업들의 로봇이 그 대표적인 예이다.
이젠 정말로 기업들이 휴머노이드를 회사의 스마트 팩토리에 이를 도입하려고 준비 중이다.
이렇게 이제 AI는 생각만(정확히 말하면 생각을 하는 건 아니지만) 하는 것을 넘어서
'Action'을 할 수 있는 능력을 가지게 되었다.
올해 1월에 아래와 같이 AI는 이제 육체가 필요하다는 글을 적은 적이 있는데
이런 방향성이 더욱 확실해지는 시기를 지나고 있다.
강 인공지능(AGI)라는 단어가 점차 대중에게 알려지면서
이 단어 또한 마케팅의 돛단배에 올라탔다.
분명 어떠한 개념이 꼭 학술적 의미에 그칠 필요는 없지만
사람들의 이목을 끌기 위해 단어에 화려한 분칠을 할 때가 있다.
그리고 이렇게 포장된 단어는 이따금 우리 사회에 오해를 불러일으키곤 한다.
말했듯이,
'강 인공지능'이라는 단어도 그러한 영향에서 자유롭지 못하다.
그렇기에 강 인공지능의 의미를 정의하고 넘어가고자 한다.
이 부분은 위키피디아의 말을 빌려오자
강 인공지능(strong AI) 또는 인공 일반 지능(artificial general intelligence, AGI)은 인간처럼 실제로 사고하여 문제를 해결할 수 있는 "일반 지능"을 인공적으로 구현하려는 시도이다.
강 인공지능은 그러니까 진짜 '통속의 뇌'를 만들고자 하는 것이다.
강 인공지능을 위와 같이 정의한다면,
과연 강 인공지능은 필요한가?라는 질문을 던져야 한다.
Application 없는 기술은 '연구'될 수는 있지만
당장은 우리 삶에 큰 영향을 끼치기 어렵다.
필자의 생각은 이러하다
위 관점에서 강 인공지능은 아직 지식의 확장, 인간의 지식 탐험의 욕구의 범위에 머무른다.
우리가 지금까지 지능을 탐구하고 로봇을 만드는 과정을
크게 보면 노동의 효율화, 노동의 단축, 더 나아가 노동에서의 해방이라는 관점으로 해석할 수 있다.
그러한 관점에서 과연 의식을 지닌 지능이 필요한가?
의식을 지닌 존재는 자신만의 생각과 욕구가 있는 존재일 터,
그것을 활용하여 우리가 원하는 대로 관리한다는 생각은 비효율적이다.
인간 사회의 가장 크고 작은 사건의 많은 경우가
인간 개개인의 사고가 다르기에 나타나는 것이 현실인데
그것을 답습하는 것에 불과할 수 있다.
오히려 하나 또는 특정 목적만 수행할 수 있고
생각하지 않는 '말 잘 듣는' 로봇 하나가 더 효율적이지 않을까?
즉 지금의 인공지능 시스템의 패러다임에서의 고도화가 차라리 나은 것은 아닌가?
그럼에도 불구하고 우리가 강 인공지능을 만들겠다고 가정해 보자.
지식 확장의 관점에선 그것이 더 재밌다.
과거 고등학생 즈음
CNN 모델에 대해서 발표 준비를 하던 필자는
다음과 같은 상상을 해보았다.
인공지능이 어떻게 학습되는지 잘 모른다면,
일단 사람과 정말 똑같이 '키워'보면 어떨까?
정확히 말하자면 이 생각은
변인을 통제하는 방식에서 나온 아이디어이다.
강 인공지능을 만드는 기초적인 원리를 모르겠다면
우선 최대한 인간이 커오는 방식과 동일하게 만들어보면 어떨까
하는 생각에서 시작된 것이다.
지금부터의 글은 필자의 상상에 심리학적인 팩트를 바탕으로 구축된 글이다.
마지막 챕터에서 언급되겠지만 실질적으로 학계, 연구계에서 연구되는 바와는 다를 수 있다.
이 글의 결론은
인간의 경험, 그리고 기억하는 능력을 모두 구현할 수 있다면
그것을 AI에 데이터화 할 수 있다면
그것이 가능할 때
비로소 '자아'가 있는 '지능'을 만들 수 있지 않을까?
라는 것이다.
왜 이러한 결론에 도달했는지에 대한 내용을
앞으로 써 내려가겠다.
오늘날의 인공지능이
인간의 뉴런을 모방하려고 하는 시도에서 나온 구조라면
강 인공지능도 인간을 인간으로 만드는 요소를 잘 살펴보는 곳에서 힌트를 얻을 수 있지 않을까?
그리고
인간을 인간으로 만드는 요소를 잘 관측하는 분야는
인간의 발달 과정을 연구하는 "발달학"이다.
발달학이 설명하고자 하는 것에는
한 인간이 왜 이러한 사고와 행동을 하였는가를 설명하는 것이 포함되어 있다.
예를 들어
한 소시오패스가 왜 이러한 경향을 띄게 되었는가를
발달학으로 설명하려 하는 시도가 있다.
좀 더 우리가 이야기하려는 주제와 맞닿아있는 이야기가 있다.
바로 흔히 '개들이 키운 소녀'로 알려진
"옥사나 말라야"라는 여성이 있다.
이 여성의 유년기를 소개하자면
부모의 무관심으로 "인간 사회"에 대한 학습이 제대로 이루어지지 못하고
오히려 "개"들의 사회 관습을 학습해버린 인간의 이야기다.
이후 늦은 나이지만 사회화를 거치며 말을 할 수 있게 되었지만, 완벽하진 못했다.
그녀는 개들처럼 짖는 법과 그들이 먹는 습성들을 몸속 깊이 익힌 상태였다.
이러한 안타까운 사연을 뒤로하고 우리가 얻을 수 있는 Insight는
인간이 인간으로 태어난다고 인간처럼 행동하는 것이 아닐 수 있다는 관점을 제안한다는 것이다.
위 사례는
인간이 인간성을 지니는 것에는
가정과 사회에서의 후천적 학습에 의한 것이라는 주장에 힘을 싣는 사례이다.
경험과 지능의 관계에 대하여
발달 심리학에서는 이러한 주장을 한다.
발달 심리학의 거장인 "장 피아제(Jean Piaget)"은
"몸으로 배우는 지능"이라는 주장을 펼친다.
그는 아기가 감각과 운동을 통해 세상을 배우는 '감각 운동기'를 인지발달의 첫 단계로 보았다.
아기는 물건을 만지고, 던지고, 입에 넣는 등 모든 감각기관과 운동 기관을 활용하여 세계의 거시적인 인과관계를 이해하고, 더불어 물체가 눈앞에 사라지더라도 어딘가에는 존재한다는 '물체의 영속성'과 같은 개념을 체득한다고 주장한다.
비슷하지만 또 다른 관점으로 '비고츠키'의 주장이 있다.
그는 학습이 '사회적 상호작용'을 통해 일어난다고 보았다. 특히 '근접 발달 영역(ZPD)'의 개념은 어린 시절의 아이가 혼자 하는 것이 아니라 보호자의 도움을 받으며 경험하는 것이 가장 효과적인 학습을 가능하게 한다고 한다.
이 두 주장의 가장 중요한 부분은
"직접 경험한다"라는 것에 있다.
직접 경험만 한다면 뭐든 지능이 될 수 있을까?
아니다, 경험을 했다면 이것을 축적해야 한다.
장 피아제의 "몸으로 배우는 지능"에서 세상의 상호작용의 인과관계 이해는
"과거의 사건 현재의 사건"을 연결 지음으로써 가능해진다.
그 말은 과거를 기억하기 때문에 가능하다는 것이다.
또한 기억은 과거와 현재의 정보의 "인과관계"를 다시 "저장" 하고 다시
새로운 현재를 마딱드릴때, 과거의 정보를 통해 예측하는 능력까지 가능하게 한다.
때문에 기억은 지능의 또 다른 중요한 요소라고 볼 수 있다.
기억이 지능의 중요한 요소라는 점을 뒷받침할 수 있는 이론이 있다.
https://caer.org.uk/wp-content/uploads/CAER-Working-Memory-Guidance.pdf
사람은 지시를 따르거나, 덧셈 연산, 문장을 이해하는 등의 쉽게 말하자면 모든 "생각"을 동반하는 과정에는 "작업 기억"이 작동한다는 이론이 있다.
조금 더 정확히 말하자면
작업 기억이란 정보를 일시적으로 붙잡아두고 조작하는 능력으로, 모든 학습의 기초가 죄는 인지적 작업 능력이라고 한다. 그리고 이 작업 용량은 유아기와 청소년기까지 계속 용량이 발전되며 더욱 복잡한 문제를 해결할 수 있다고 위 문헌에선 이야기하고 있다.
이는 AI의 "Task의 학습"과도 매우 비슷한 것 같다.
일화 기억은 말 그대로 어떠한 사건 그 자체를 기억하는 능력이다.
"어제 할머니 집에서 무엇을 했지?"와 같이 개인적인 경험을 말할 수 있다. 이 경험은 과거의 경험을 시간순으로 엮어가며 '나'라는 개체를 중심으로 서사를 기억한다.
사회적 관계 속 '나'라는 기억은 스스로에 대한 이해를 할 수 있게 하고,
특정 상황에서 내가 무엇을 해야 하는지에 대한 '사회적 스크립트'를 만드는데 중요한 역할을 하게 된다.
이라는 것이 있다.
이것도 말 그대로 어떠한 실질적 "사건"과 추상적 "의미"를 연결 짓는 정보를 말한다.
사과는 빨갛다, 개는 짖는 다와같이 세상에 대한 사실과 개념을 연결 지어 저장하는 능력이다.
이러한 의미 기억은 세계에 대한 지식 체계를 구축하게 한다.
무언가를 "언어"라는 의미로 표현하는 능력이 이것과 연관되며,
이 능력을 토대로 새로운 단어의 의미를 기억하는 능력에도 영향을 미치게 된다.
즉, 새로운 경험에 대한 개념화를 돕는 장치라고 볼 수 있다.
지금부터는 강 인공지능을 어떻게 하면 만들 수 있을지에 대한 이야기를 해보겠다.
다시 한번 단순히 자아가 없다는 것 말고 더 구체적으로 현대의 AI가 인간의 지능과 무엇이 다른지 정리해 보자.
자기 확신 없음: 단어와 단어의 구조를 학습하는 구조로 인해 문장의 패턴에 가장 잘 어울리는 문장을 만들려고 함. 즉, 이전에 내놓은 답변에 대해서 부정하는 대답이 돌아왔다면 답변에 대한 부정에 어울리는 문장의 생성을 진행함. CoT(Chain of Thought)이라는 기술을 도입함으로써 이를 이를 완화하려는 시도가 있지만 여전히 비교적 쉽게 보완을 깨트릴 수 있음. 쉽게 말해 아주 쉽게 세뇌 당한다고 표현할 수 있음.
내재적 동기 없음: 스스로 무언가에 호기심을 가지고 파악하려는 기능 없음. '목적'을 인간이 만들어주어야만 그 목적에 대한 탐구를 하는 기능만이 전부, 인간처럼 수시로 변하는 목적과 또 그러한 동기를 구현하지 못함.
사실 흔히 AI의 한계라고 하는 것 중에 "지식의 범위 = 데이터의 범위"라는 말을 많이 하지만.
사실 이 한계는 인간도 비슷하다고 본다.
때문에 이를 직접적인 한계로 보지 않겠다.
다르게 말하여 위에서 말한 두 가지 한계의 조합으로 나오는 문제라고 생각한다.
사람 또한 보지 못한 것에 대한 완전히 새로운 상상을 하지 않는다.
인간이 말하는 상상력이란 어떠한 논리적 과정과 경험에 의하여 구체적으로 쌓아 올린 지식에 가깝다.
미래학자 또는 미래를 그린 작가들의 사고과정을 보자면
미래에는 현대의 물리적, 제도적인 측면을 고려하며 어떠한 것이 바뀌고, 어떠한 문제가 생기는지를 생각해 내고.
현재 우리가 가지고 있는 "상식", 예를 들어 '지금은 이것이 진리야'라고 할 수 있는 것을 깨부수고 논리적 전개를 진행하는 훈련을 통해 새로운 지식을 쌓아 올리는 것이라고 할 수 있다.
즉, 단 한 번의 찰나의 생각에 나오는 것이 아니다.
상상력이 뛰어나다는 것은
상식이라는 틀을 깨부수는 훈련이 잘 되었고, 그것을 논리적으로 전개할 수 있다는 뜻이다.
때문에 필자는 내재적 동기를 가지고 활발한 탐구를 통해 지식을 넓히고, 자기 확신을 가진 상태에서 고도의 논리적 전개를 할 수 있다면 넓은 데이터(경험)의 범위를 바탕으로 더 넓은 지식의 범위를 만들어낼 수 있다고 본다
AI의 경험은 맥락이 없는 경험이다.
AI는 기억을 시간순으로 쌓아가는 것이 아니라.
같은 작업에 대한 여러 사건을 보고 그들의 가장 공통된 특징을 찾아내는 것에 있다.
그리고 그것을 Weight라고 하는 값들로 저장한다.
그리고 이렇게 저장된 Weight는 쉽사리 변경하지 못한다.
Weight를 변경하기 위해선 새로운 정보를 받아들이고 이것을 Gradient Descent라는 일종의 '미분'연산을 행해야 하는데,
이 과정이 매우 연산량이 높기 때문에 실시간으로 처리되진 못한다.
우리가 오늘날 조 단위의 GPU를 사며 AI를 연구하는 이유가 이 연산에 있다.
물론 TTA(Test Time Adaptation), Injection과 같은 방법으로 Weight나 연산의 결과를 변경하는 방식이 있지만
근본적으로 Weight를 바꾸는 방식은 아니다.
(서비스 업데이트를 하지 않는 이상)
때문에 Weight는 한 번 학습되고 실제 서비스가 될 때는 Update 되지 않는다.
그러한 관점에서 인간이 자라면서 생성되곤 "큰 틀에선 변화하지 않는'
우리 몸의 DNA 그리고 신경망과 비슷하다고 볼 수 있다.
하지만
오늘날 Neural Network는 지식의 함유의 범위까지 영향을 미친다.
우리가 ChatGPT와 같은 LLM에 무언가를 물을 때 그것이 좋은 답변을 말하는 이유는
단어의 연관성이 처음부터 Neural Network에 각인되어 있기 때문이다.
어떠한 관점에서는 이것을 지식이 함유되어 있다고 할 수 있다.
데이터와 데이터에 대한 정답을 보고 학습을 진행하는
Supervised Learning(지도학습)의 경우 Neural Network가 '지식'을 학습한다고 볼 수 있다.
또 실제로 이러한 학습 방식은 대부분 '지식'을 학습하는 Task에 활용되고 있다.
반면에 State가 있고 State에 변화를 가하는 Action을 토대로 결과를 평가하는
Reinforcement Learning(강화 학습)의 경우 Neural Network가 '지식'을 학습하게 할 수 있지만
조금 더 인간의 '본능'을 학습하는 방법론으로 더 많이 쓰이고 있다.
예를 들어 휴머노이드의 걷는 것, 뛰는 것, 갑작스러운 충격에 중심을 잃지 않는 것과 같이
본능적인 작업을 가능하게 하는데 강화 학습이 많이 사용되고 있다.
왜냐하면 '본능'이라는 것은 무엇을 정답이라 해야 할지 명확하지 않기 때문이다.
분명 잘한 것은 있지만 정답이랄 것은 없다.
이러한 경우엔 Reinforcement Learning이 매우 효율적인 접근이 될 수 있다.
인간의 뉴런들은 지식을 담지 않는 것처럼 보인다.
본능을 담는다.
만약 뉴런이 지식을 담았다면 인간은 처음부터 '지식'을 담고 태어났어야 한다.
태어나자마자 말을 할 수 있어야 하고, 수학을 할 수 있어야 한다.
그러지 않는다는 것은
최초의 인간 뉴런은 본능적인 것 만을 수행하고, 정보를 담고 저장하고, 관계를 파악하는 것을 잘 하는 회로라고 볼 수 있다.
때문에 인간을 닮은 강 인공지능을 만들기 위해선
Neural Network을 Train 하는 과정을 지식이 아닌 본능을 학습하는 과정을 심어야 하지 않겠나.
즉, DNA와 같이 인간을 이루는 필수적인 정보를 담는 DNA와
(=인공적으로 만들어진 신경망 구조와 초기값)
이를 바탕으로 만들어진 신경망과 같은 역할을 해야 하는 것이다.
=(인공적 신경망에서 학습을 통해 변화할 수 있는 모델)
위 글에서는
Neural Net 구조를 지식을 담기 위함이 아니라 본능을 담고자 했다.
그렇다면 지식은 어디에 어떻게 담을 수 있을까?
다행히도 LLM에 지식을 담을 수 있는 방법이 더 있다.
시간이 오래 걸리는 학습하는 방식이 아니라 Inference 시간에 지식을 주입하는 방법이다.
LLM이 Inference 시 참고하는 KV라는 값을 Cache 하는 것과
또는 애초에 Prompt에 이전 대답들을 쌓아가면서 새로운 Inference 시 계속 주입해 주는 것이다.
이것을 사용하면 LLM은 시간선 위에서 학습되는 기억을 바탕으로 하는 경험 학습을 흉내 낼 수 있어 보인다.
이것을 바탕으로 발달학에 근거한 학습을 해볼 수 있으리라 사료된다.
우선 KV 값이라는 것에 대해 잠깐 정리하고 넘어가자.
KV 값이란 ChatGPT, Gemini 등의 LLM이라고 불리우는 다양한 생성형 모델의 바탕이 되는 기술인 Transformer라는 아키텍쳐 내부의 Attention이라는 매커니즘의 구성 요소이다.
KV 값은 Key와 Value의 줄임말이며, 어떠한 값 Key에 대한 내용 Value를 뜻한다.
때문에 LLM은 주어지는 Input에 대한 Key값과 Value 값을 계산해야 한다.
"오늘의 날씨는 맑다"라는 문장이 주어진다면 LLM은 이에 대한 KV 값을 연산해야 한다.
이후 "하지만, 내일은 비가 온다"라는 문장이 추가된다면 앞에 있는 오늘의 날씨는 맑다에 필요한 KV 값은 그대로 사용하되 이후의 값만을 연산하면 되는 것이다.
이제 중요한 것은 이 경험의 정보를 본능의 Neural Network와 어떻게 연결하는가이다.
기존 LLM의 학습 방향은 언어가 가지는 패턴을 학습하자였다.
언어의 패턴은 일종의 사고과정의 결과물이기 때문에, 문장의 생성을 함으로써 사고 과정을 흉내 내볼 수도 있었다.
하지만 이것은 엄연히 '흉내'이며 실질적인 '사고'라 할 수 없다.
물론 사고한다는 것을 정의 내리는 것 자체가 어렵지만 단어를 확률론적으로 나열하는 것을 사고한다고 보기 어려운 것은 확연하다.
왜냐하면 인간을 포함한 동물은 언어가 없던 시기에도 사고할 수 있었던 것으로 보이기 때문이다.
언어는 사고의 결과물이지 사고가 언어에 종속되는 것은 아니다.
때문에 우리는 "어떠한 일련의 과정"을 통해 언어라는 하나의 기능을 구현하게 해야 하는 것이다.
다시 말해 내부적 처리를 통해 근육을 움직여 언어를 포함하여 걷기, 쓰기, 등의 다양한 "기능"을 수행하게 해야 한다는 것이다.
또 다른 말로 표현하자면
학습의 추상화를 한 단계 더 높이는 패러다임의 전환이 필요하다고 말할 수 있고
직설적으로 표현하자면
걷고, 쓰고, 말하고, 무조건 반사적인, 그리고 인간이 신경 쓰지 않는 모든 기능을 포함할 수 있는 High Modality가 필요하다.
즉, 청각, 후각, 촉각, 미각, 시각 그리고 혹시나 아직 우리가 모르는 그 무언가의 Modality를 통합하여 배울 수 있는 진정한 의미의 World Model이 필요하다.
학습의 범위 또는 모델의 Modality에 대해선 위와 같이 표현해 볼 수 있다.
그렇다면 이제 실제 학습은 어떻게 진행되어야 할까?
우리가 추구해야 할 AGI의 학습은 단순히 방대한 데이터를 모방하는 데이터 기반 학습에서 탈피하여, 경험 기반 강화 학습(Experience-Based Reinforcement Learning)의 형태로 전환되어야 한다.
이미 3.1 챕터에서 '본능을 학습하는 Neural Network'의 가능성을 제시했듯이, 이 선천적 본능을 기반으로 '나'라는 인지 주체가 환경과 상호작용하며 후천적 경험을 축적하는 메커니즘이 필요하다.
선천적 본능은 인간이기 이전에 "동물"로서의 인간을 구성한다고 본다.
때문에 오랜 시간 동안 발달학적의 관점에서 AGI의 개발은 단순한 인지 및 행동부터 고차원적인 인지 및 행동을 기본적으로 지닌 상태로 시작해도 좋다.
발달학적 관점에서의 인간의 본능의 발달: Piaget의 감각 운동 단계 연구는 영아의 성장이 단순한 반사 행동(선천적 본능)에서 시작하여 점차 복잡하고 의도적인 행동으로 발전함을 보여준다. 이 과정에서 객체 영속성, 인과관계, 공간 좌표계와 같은 핵심 인지 개념이 형성된다. 본능적 Neural Network는 이러한 발달 커리큘럼을 모방하여 구현되어야 한다.
인간을 가장 인간답게 만드는 것은 대부분 "후천적 경험"에 있다고 본다.
인간은 학습을 통해 인간다워진다. 선천적 본능을 기반으로 후천적 경험을 쌓아야 한다.
학습에 있어서 가장 중요한 것은 어떻게 '가치(Value)'와 '보상(Reward)'을 설계할 것인가이다. 기존의 강화 학습은 인간이 명시적으로 설계한 리워드 함수에 의존한다.
이러한 구조에서 착안하여 AGI를 위한 리워드는 "호르몬" 기반 위에서 구현되어야 한다고 필자는 생각한다.
심리학적 기반의 기억 시스템의 학습: 작업 기억의 가소성 연구에 따르면, 뇌의 작업 기억을 담당하는 영역들은 평생에 걸쳐 가소적 변화를 겪는다. 특히 도파민과 아세틸콜린과 같은 신경전달물질이 작업 기억을 뒷받침하는 흥분-억제 회로를 조절하며, 시스템의 가소성에 결정적인 역할을 수행한다.
운동학적 관점에서의 학습: 운동 학습과 신경 가소성 연구는 물리적 활동(근육, 모터의 사용)이 시냅스 형성 증가와 신경 기능을 촉진하는 호르몬 인자 방출을 야기함을 증명한다. 이러한 현상은 신경인지 기능의 개선을 유도하며, 본능적 Neural Network에서 '신체화된 경험(Embodied Experience)' 통한 운동 학습이 전체적인 인지 능력 향상에 기여할 수 있음을 시사한다.
이러한 내용을 종합하면
AI의 리워드 시스템은 호르몬 작용을 모방하는 방식으로 설계되어야 한다는 것이 주요 골자이다.
앞서 언급된 "경험과 기억"의 이해를 바탕으로
좋은 리워드를 설계할 수 있어야 한다.
환경과의 상호작용에서 긍정적인 결과(예: 예측 성공, 미지의 현상 탐험 성공)가 발생했을 때, 마치 도파민이 분비되어 특정 신경 경로를 강화(시냅스 가중치 증가) 하는 것처럼, 본능에 충실한 경험 기반 학습의 리워드로 작용해야 한다.
이러한 학습을 통해 AGI는 근육(모터)의 사용을 익혀 걷기, 말하기 등의 다양한 인간의 기능을 수행할 수 있게 될 것이다. '발달적 AI'의 성공적인 구현은 이처럼 생물학적 및 심리학적 리워드 메커니즘에 대한 깊은 이해와 정교한 설계에 달려있다고도 볼 수 있다.
우리가 상정한 '선천적 본능과 후천적 경험의 통합' 기반의 학습은 무수히 긴 Time-series 데이터를 실시간으로 처리하고, 끊임없이 가변적인 파라미터 업데이트를 수행해야 한다.
앞서 지적했듯이, "무수히 긴 Prompt를 받아서 무수히 긴 출력을 내놓는 것을 매우 순간적인 시간 안에 매우 적은 에너지를 사용하여 가능해야" 하며, 재귀적 구조를 가진 LLM의 Transformer는 이러한 실시간 처리와 에너지 효율성 면에서 구조적 한계를 갖는다.
궁극적으로 AGI의 '발달'이 지향해야 할 학습 방식은 기존의 딥러닝에서 지배적으로 사용되는 Backpropagation (역전파) 방식에서 탈피된 새로운 패러다임을 요구한다.
Backpropagation은 전역적인 오류 정보를 기반으로 모든 파라미터를 조정하는 매우 비효율적이고 비생물학적인 방식이다.
때문에
뉴로모픽 컴퓨팅(Neuromorphic Computing)은
이 문제를 해결하기 위한 유일한 하드웨어적 대안을 제시한다.
비동기적, 저 에너지 연산: 뉴로모픽 칩은 뇌의 스파이킹 신경망(SNNs)을 모방하여, 데이터가 일정 역치에 도달했을 때만 비동기적으로 연산이 이루어진다. 이는 초저전력으로 실시간 처리를 가능하게 하며, 현재 컴퓨팅의 에너지 및 속도 제약을 근본적으로 해결한다.
하드웨어 기반의 지역적 학습: 뉴로모픽 아키텍처는 **시냅스 가소성(Synaptic Plasticity)**을 하드웨어 수준에서 구현할 잠재력을 가진다. 즉, 오류 역전파(Backpropagation) 없이도, 국소적인 활동 패턴(예: Spike-Timing Dependent Plasticity, STDP)만을 기반으로 지역적으로 파라미터가 스스로 업데이트될 수 있음을 의미한다.
이러한 뉴로모픽 기반의 Backpropagation에서 탈피된 학습 방식이야말로, '발달하는 AI'가 실시간 경험에 즉각적으로 반응하고, 생물학적 뇌처럼 지속적인 진화 능력을 갖추게 되는 필수적인 기술적 기반이 될 것이다.
Khan, A., Casper, S., & Hadfield-Menell, D. (2025). Randomness, Not Representation: The Unreliability of Evaluating Cultural Alignment in LLMs. arXiv preprint arXiv:2503.08688.
https://arxiv.org/abs/2503.08688
이 논문은 대형 언어 모델(LLM)의 문화적 정렬성 평가가 가지는 불확실성과 한계에 대해 실험적 분석을 수행한다. 평가 방법론의 안정성, 확장 가능성, 조종 가능성에 대한 기존 가정들을 검증하며, LLM이 인격체가 아님을 강조한다.
Piaget, J. (1952). The Origins of Intelligence in Children. New York: International Universities Press.
(현대 요약)
https://theeducationhub.org.nz/piagets-theory-of-education/
장 피아제의 인지 발달 이론은 인간 학습이 경험과 인지 구조의 상호작용으로 점진적으로 발달한다고 설명하며, 학습자의 성숙도에 따른 단계별 인지 발달 과정을 제시한다.
Vygotsky, L. S. (1978). Mind in Society: The Development of Higher Psychological Processes. Cambridge, MA: Harvard University Press.
(현대 요약)
https://en.wikipedia.org/wiki/Zone_of_proximal_development
비고츠키는 근접발달영역(ZPD)을 통해 학습자는 성숙한 조력자와의 상호작용을 통해 잠재 능력을 발휘하며 성장한다고 주장한다.
Baddeley, A. D., & Hitch, G. J. (1974). Working Memory. Psychology of Learning and Motivation, 8, 47-89.
https://www.simplypsychology.org/working-memory.html
작업 기억 모델은 단기 기억이 여러 구성 요소의 복합 시스템이며, 정보의 처리와 유지, 조작 과정에 필수적임을 밝힌 심리학 이론이다.
Pawlak, W. A., et al. (2025). Neuromorphic Algorithms for Brain Implants: A Review. Frontiers in Neuroscience, 19, 1570104. https://www.frontiersin.org/journals/neuroscience/articles/10.3389/fnins.2025.1570104/full
신경모방 컴퓨팅 분야의 최신 기술 동향을 소개하며, 생체 신경망의 플라스틱성과 확률성 모델링, 에너지 효율적 실시간 데이터 처리 등이 AGI 개발에 필요한 기술로 설명된다.
Malik, A. A. (2023). Case of Tesla's Optimus: The Next Generation of Industrial Automation. arXiv preprint arXiv:2304.04949.
https://arxiv.org/pdf/2304.04949.pdf
Tesla Optimus 휴머노이드 로봇 개발 사례 연구로, 인간형 로봇이 수행하는 작업 및 인공지능 적용 현황을 개괄한다.
Boston Dynamics. (2023). Atlas Robot.
https://bostondynamics.com/atlas/
Atlas는 고도로 기동성과 정밀 제어를 갖춘 휴머노이드 로봇으로, 인간과 유사한 움직임과 작업 수행 능력을 갖추고 있음.