우리의 뇌 그리고 AI를 만든 다섯 번의 혁신
원 제목은 A Brief History of Intelligence
내가 뽑은 이 시대 3대 추천서로 등극.
지능의 기원 과정을 살아있는 화석-진화의 과정에서 찾는 독창적인 아이디어로 정리한 책.
현존하는 생명들은 모두 한 뿌리로부터 진화 과정을 겪어왔고, 인간이 겪어온 과정이 현재에도 그대로 남아 우리의 조상셈이 되는 생명체들이 있으니, 그들의 지능과 행동과 뇌를 가지고 지능이 발전해온 과정을 살펴본다.
그렇게 발견한 5단계의 지능 혁신이, (1)조종 (2)강화학습 (3)시뮬레이션 (4)정신화 (5)언어 이다.
특히 (1)~(3)이 매우 흥미로웠고, 뇌와 인간지능의 리버스 엔지니어링 관점에서 AI 분야에 인사이트를 주는 내용이 많았다. (저자가 AI 스타트업 대표겸 연구자)
알아두면 좋을 개념들도 많이 얻었고, 뇌과학책을 꽤 읽었음에도 이번 책으로 많이 정리가 되는 큰 수확이 있었다. 5억년의 대서사시를 통찰하며 다섯가지 포인트를 뽑아내다니, 저자에게 정말 감동했고 이렇게 정리해줘서 고맙다.
(1) 조종 : 좌우대칭동물
- 예쁜꼬마선충으로 대표되는 좌우대칭동물의 조종의 우아함, 청소로봇 룸바의 원리와 동일
- 이를 촉발하는 정동(감정가와 각성).
(2) 강화학습 : 척추동물
- 척추동물의 시간차 학습과 도파민 반응의 일치
- SNARC 를 고안한 민스키가 고민한 Temporal credit assignment problem 을 Temporal diffence learning 으로 해결하여 강화학습의 솔루션을 발견한 서튼
- 그리고 도파민은 보상의 신호가 아니라 강화의 신호라는 것을 알아낸 슐츠, AI와 신경과학의 아름다운 협력, A neural substrate of prediction and reward
- 패턴인식과 불변성 문제, 감각과 뇌의 공진화.
(3) 시뮬레이션 : 포유류
- 새겉질 기둥의 발견, 새겉질은 인식과 생성 사이의 불안정한 균형
- 그리고 새겉질은 사전 학습된 3차원 world model 일수도
- 상상력=생성모델=시뮬레이션이 만들어낸 세가지 능력 : 대리 시행착오-반사실적 학습-일화기억
- 감각새겉질이 감각기관으로 부터 들어온 정보로 world model 을 만들듯이, aPFC는 해마-시상하부-편도체로 들어온 정보로 myself model을 만들어 내고 있는 것일 수도
(4) 정신화 : 영장류
- 마음이론, 모방학습, 미래의 필요예측
- 정신화는 새겉질(gPFC)을 영리하게 새로 적용한 결과, 생성모델의 창발적 속성일 것
- 상대방의 의도와 지식을 추론하는 마음이론은, 결국 메타인지
- 포유류의 aPFC가 편도체와 해마의 입력을 설명하여 '의도'를 발명했다면, 영장류의 gPFC는 aPFC의 입력(의도)를 설명하는 '마음'을 발명한 것일 수도. 측 gPFC는 의도-지식-생각에 대한 시뮬레이션을 결과를 설명하는 시뮬레이션 모델
- 동기를 가지고 모방학습을 하려면 타인을 이해해야만 가능
- 마음이론(타인)을 나에게 적용하면 그게 바로 미래의 필요예측
(5) 언어 : 초기 인류
- 내적 시뮬레이션에 있는 요소에 이름을 붙인 것이 언어, 선언적 명칭은 인간만 사용
- 도구사용의 필요, 뒷담화, 이타주의, 처벌이 언어 발전의 선순환고리
- 언어가 있어야, 세대를 거치며 축적가능
이로서,
AI 시대에 읽어야 할 3권을 뽑는다면, 최신 순으로,
1. 지능의 기원
2. 넥서스 - https://brunch.co.kr/@greenful/150
3. Life 3.0 - https://yeonjea.notion.site/Life-3-0-by-Max-Tegmark-f07d30ca1a3c4230a51392802efa5776
되시겠다.
아래는, 마구잡이 책 정리....
먼 미래에는 훨씬 중요한 연구 분야가 열릴 것이다.
심리학은 각각의 정신적 힘과 능력의 단계에 따른 필연적 습득이라는 새로운 토대 위에 세워질 것이다.
인간의 기원과 역사에 새로운 빛이 드리울 것이다.
- 찰스 다윈, 1859
by 정재승
* 이책의 독창성
- 지능의 발달 = 뇌의 진화적 혁신과 환경 적응의 상호작용 결과
- 생물학적 진화와 인지적 필요의 결합
- 진화적 관점과 신경과학적 메커니즘을 통합
* 저자가 던지는 메세지
- 인간지능 vs 인공지능 : 인간의 고유한 정서, 사회적 맥락과 진화적 배경을 완전히 모방 불가
- 다학제적 접근이 필수
- 현대인 역시 변화하는 환경에 맞서 지적 유연성과 비판적 사고 발휘해야
* 지능의 진화 : 5번의 혁신적 도약
* 1 조종 : 5.5억년 전
- 좌우대칭 동물 출현
- 능동적 탐색, 자극에 반응하는 신경구조
* 2 강화학습 : 5억년전
- 척추동물 출현
- 복잡한 행동 패턴 습득, 환경 적응 가속화
* 3 시뮬레이션 :
- 포유류
- 미래 상황 예측, 가능한 시나리오
* 4 정신화
- 영장류
- 마음을 이해하고 모방, 사회적 상호작용과 협력
* 5 언어
- 초기 인류
- 지식을 세대간 전파
- 복잡한 개념의 전달과 문화 축적
* 인간의 뇌, 복잡, reverse engineering 은 거의 불가능
- 숫자 : 860억개의 neuron, 100조개 이상의 연결 synapse
- 신호 : 수백 가지 서로 다른 화학물질
- 행태 : 연결들 자체가 항상 변화
- ● 아이디어 : 해답은 현재가 아니라 오래전 과거가 숨겨놓은 잔재에 있을지도 모른다
나는 AI를 작동시킬 방법은 딱 한 가지, 인간의 뇌와 비슷한 방식으로 연산을 수행하는 것이라 늘 확신해왔다
- Geoffrery Hinton, 2024 노벨물리학상 수상
* 우리의 뇌는 동물과 유사
- 유사성이 바로 단서, 모두 공통 조상에 뿌리를 두고 있기 때문임.
- 뇌는 의도없이 혼란한 진화를 통해 등장, 진화에서 system은 단순하게 시작함
- 이론적으로 시간여행 가능함 : (1) 화석 이용 (2) 다른 동물의 뇌를 조사해서 우리 조상 뇌를 재구성
- 뇌는 타임캡슐. 정신적 능력을 습득해간 과정 추적 가능
* 3중뇌 triune brain 가설 by Paul MacLean
- 새겉질(neocortex, 인지) - 변연계(limbic system, 감정) - 파충류의 뇌(reptile brain, 생존 본능)
- 각각 층은 차례로 생겼고 더 나은 지능을 가짐
- 현재는 신뢰 잃은 가설
* AI와 뇌는 서로 연구에 영향
- 창조할 수 없는 것은 이해할 수도 없다 - 파인만
- 뇌는 AI 연구 영감의 원천, AI는 우리가 뇌를 얼마나 잘 이해하는지 알려주는 척도
쥐 수준의 AI부터 시작하자, 그리고 그 다음에는 고양이 수준의 AI를 만들고 이런식으로 진행해서 사람 수준의 AI까지 가보자 - Yann LeCun
* 5번의 혁신
- 극단적 상황, 또는 강력한 feedback loop에 갇혔던 시기에 등장
* AI 시스템을 현실 세계에 적용하려 시도하면서 인간지능과 AI 사이에 존재하는 차이를 마주하게 됨
- 사업팀은 인간기준으로 간단해 보이는 아이디어로 논의하나, 기계학습팀은 실제로는 어마어마하게 어려움을 참을성 있게 설명함
- 이러면서 뇌에 대해 호기심을 가지게 됨
* 왜 우리는,
- 비합리적이고 자멸적인 선택을 할까?
- 이타적이었다가 잔인해지는 과정을 반복해왔을까?
* 지능의 기원
- 책을 읽고, 과학자들과 장문의 이메일을 교환하기에 이름
- 신경과학과 AI의 개념을 묶어서 설명할 종합서가 필요하다고 생각
- 많은 사람의 연구를 종합, 조각을 한데 모은것
* ● 진화는 항상 독립적으로 공통의 해결책에 수렴한다
- 날개는 곤충, 박쥐, 새에서 독립적으로 진화함 (이들의 공통 조상에게 날개가 없었음)
- 눈도 독립적으로 진화
- 자연의 위계 scale of nature by 아리스토텔레스와 현대 생물학자 : 더 우월한(위계) 생명체가 존재
- BUT 완전히 잘못됨
- ● 오늘날 살아남은 생명체는 모두 1등이다 => 내 생각과 totally 일치. 나와 고사리는 동일한 존재
* cortex = 겉질 = 피질
* neocortex = 새겉질 = 신피질 = 6 layer cortex
* frontal 이마엽 = 전두엽
* prefrontal 이마옆앞 = 전전두엽
* 40억년전, DNA 유사분자
- 초기 : 수명 짧음
- 그 후 : 스스로 복제, 개별적으로는 살아남지 못해도 집단적으로 살아남음, 원시적 형태의 진화
* 생명의 탄생으로 이어진 진화적 사건 2개
- (1) 최초의 세포 : 보호성 지질(lipid) 방울이 DNA를 둘러쌈
- (2) 최초의 단백질 합성(protein synthesis) : 리보솜(ribosome) 이 DNA를 아미노산으로 번역, 아미노산 서열이 접히면서 단백질(3차원 구조물)이 됨
=> DNA : 생명의 청사진 , 리보솜 : 그 공장 , 단백질 : 그 생성물
=> 생명의 자연 발생 abiogenesis : 무생물 abio -> 생물로 진화 genesis
* 35억년전 , LUCA : last universal comon ancester 모든 생명체의 공통 조상
- DNA, 단백질 합성, 지질, 탄수화물
* 세포를 살아있는 상태로 유지하는데 드는 에너지 : 최초는 아마도 수소, 그러나 생산 효율 낮음
* 남세균 cyanobacteria : ● 광합성 photosynthesis - 효율적으로 에너지를 추출하고 저장하는 메커니즘 발견
* 산소대폭발 사건 Great Oxygenation Event (aka 산소대학살) : 남세균에 의해 지구를 테라포밍, 산소농도 치솟아, 멸종
* ● 세포호흡 cellular respiration 으로 에너지 생성하는 세균 등장
- 산소와 당분 -> 이산화탄소
- 이 당분 -> 지능 폭발의 에너지적 토대 : 왜냐면, 광합성 미생물과 달리 사냥을 해야했으므로
* 두 시스템의 공생관계로 지금까지.
* 유산소호흡 -> 평화의 끝 -> 잡아먹으면서, 진화의 엔진이 됨 -> 공격과 방어의 혁신
* 최초의 진핵생물 eukaryote
- 섭식 영양(다른 세포를 통째로 삼켜서 세포벽내에서 분해)
- 식물, 균류, 동물 : 독립적으로 다세포성 진화
* 8억년전 복잡성 3단계
- 1단계 : 단세포 생명체 : 세균, 단세포 진핵생물
- 2단계 : 소형 다세포 생물 : 단세포 먹으면서, 세포 추진체로 이동
- 3단계 : 대형 다세포 생물 : 커서 이동불가
* neuron 신경세포란?
- 생물학자 : 신경계를 구성하는 1차적 세포
- 기계학습 연구자 : 신경망의 기본 단위, 가중치 계산하는 작은 계산기
- 정신물리학자 : 외부세계의 특성 측정하는 감지기
- 운동제어 신경과학자 : 근육과 운동을 제어하는 반응기
- 일반인 : 전선 , 의식을 만들어 내는 물질 , ...
* ●neuron은 모두가 동일한 방식으로 작동
- 동물들이 서로 구별되는 이유는 neuron자체가 아니라 이 단위들의 ●회로 구성방식이 다르기 때문
- 진화 과정에서도 변화가 없었음. ●6억년간 동일
* '당분'은 생명체만 생산 가능, 먹기위해서는 두가지 : 죽기를 기다리거나 잡아먹거나
* 균류 : 기다리는 전략 (체외소화) VS 동물 : 잡아먹는 전략 (체내소화)
- 동물은 신경세포와 뇌를 진화시킴
- 창자배가 있는 동물 = 신경세포와 근육 있음
- 산호(동물)의 폴립하나 = 신경세포와 근육이 있는 위장
* 식물은 태양을 향하고, 균류도 먹이방향으로 성장할수 있으나
* 산호는 감지하고 움직이는 것이 처음으로 ●신속하고 구체적으로 일어났음
- 먹이를 잡고 입을 벌려 넣고 닫고, 일부 근육은 이완 일부는 수축 등 정교한 조율
* 19C : 신경계는 독립된 신경세포로 이뤄져있고, 따로 작동하여 자신만의 신호 생성, 단방향으로 흐름
=> ● 생각 : 즉시적인 Backprop 없음
* Single-neuron electrophysiology 전기생리학 by 애드거 에이드리언
- neuron의 신호를 information 단어로 처음 사용한 과학자
- 발견1 : 실무율 all-or-none low로 전달함 ( 이 신호 = spike or 활동전위 action potential ) , 중간상태 없음
- 발견2 : 발화율 부호화 firing rate coding : 강도는 neuron 발화속도(빈도)로 나타남 ( 압력, 빛 명도, 냄새농도, 수축력...)
- 발견3 : ●적응 adaptation으로 압축문제 해결 : 발화속도는 초당 500을 못넘김, 자연의 변수를 500 내에서 부호화 하려면(squishing problem)
- 변수와 발화율의 관계를 끝없이 재설정
- 기준치에 대해 자극의 강도가 상대적으로 얼마나 변했는지를 신호로 보냄
- 자극이 강할수록 다음 neuron 반응을 이끌어 내려면 더 강하게 자극해야함, 약하면 neuron이 더 예민해짐
=> ● 생각 : 모델에 이런 구조 없음, log 형태로 계산이 유사한 시도일 듯
* 신경 충동이 신경세포간에 시냅스를 통해 전달됨 by 노벨상 : 라몬 카알, 찰스 셰링턴, 헨리 데일, 존 에클스
- 시냅스 : neuron 간의 미세간극
- neuron 내부는 전기적, neuron 사이에는 화학적(신경전달물질) 소통
* 흥분성 신경세포 , 억제성 신경세포 by 존 에클스
- 서로 다른 신경물질 분비
* ●모든 동물에서 발견 : 실무율로 스파이크 발생, 발화율 부호화, 적응, 흥분/억제 신경전달 물질의 시냅스
* ●●좌우대칭 체제의 쩌는 구조 : 인간 공학자도 주변 탐색에 이보다 더 나은 구조를 발견 못함
- 앞으로 가고, 방향만 바꾸면됨 : 조종
- 뇌가 있는 동물은 좌우대칭 동물뿐
=> 생각 : AI 는 몸이 없음. 지능의 탄생의 '동기'가 AI는 없음, '존재'와 '반응'이 없음
* 예쁜꼬마선충 Caenorhabditis elegans
- 선충 : 좌우대칭동물 등장후 거의 그대로 남음
- 신경세포 302개, 놀랍게 정교한 행동
- 세균도 단백질 추진체의 운동 방향을 바꾸긴 했음, 차이는, 수백만개 세포의 생명체 조종은 다른 문제라는 것
- 여기서 말하는 혁신은 '다세포 생명체 규모에서' 가능한 조종 : 자극->뉴런 회로 활성화->근육 세포 활성화
* 1980-90 : AI 분열
- Symbolic AI
- 인간의 지능을 구성요소로 분해해서 채워넣자
- Behavioral AI by 로드니 브룩스
- 더 단순한 수준 지능을 연습해야 인간 지능 이해가능
- 진화에 바탕, '언어와 논리'의 등장은 '감지-반응(수십억년)와 뇌-운동-탐색(5억년)'의 진화 기간에 비하면 눈깜짝할 사이에 등장
- 존재와 반응이라는 본질만 확보되면, 그 뒤는 간단하지 않을까
* 사고실험 : 1890년 비행기가 없던 시절, 연구자들이 타임머신으로 미래로 와서 보잉747을 비행하고 되돌아 갔다
- 경험한것(좌석, 이중창..)을 복제했으나, 원리는 알 수 없었음
- ●뇌를 역설계하려는 것은 이러한 시도와 같음
* 최초의 룸바(by 브룩스) : 최초의 좌우대칭동물과 유사
- 둘다 세상의 이해, 세상의 모델 구축없이 탐색 방법이용
* 조종을 하려면 좋은것과 나쁜것을 구별해야
- 자극에 감정가(valence)를 부여
- 사람처럼 복잡한 구조는 감정가는 neuron과 별개의 구조가 계산
* 맛있는 냄새와 위험한 냄새를 동시에 맡으면?
- 케바케
- 최초의 뇌 : 조종할 방향을 통합하여 정하는 하나의 거대한 신경회로
* ●감정가는 내적상태에 따라 달라짐
* ●● 조종의 4요소
- 좌우대칭 체제, 감정가 신경세포, 뇌, 내적상태바탕으로 감정가 조절하는 능력
* 그리고 조종의 효과를 키우며 등장하는 기술 : 감정
* ●감정의 기원 : 최초 뇌가 직면한 문제를 해결할 지적 전략으로 진화함
* ●●정동 affect : 감정가 & 각성
- 감정가 : 스트레스 호르몬 수치, 도파민 수치, 특정 뇌 활성화
- 각성 : 심박수, 호흡수, 동공크기, 아드레날린, 혈압
* 각성된 나쁜기분 (탈출상태) , 각성된 좋은기분 (활용상태)
* 정동상태 : 외부자극으로 촉발되나, 자극이 사라져도 오래 지속되는 특징 -> 제대로 조종하기 위해 지속성 필요
- 먹이를 접했으면 냄새순간 말고도 주변을 더 탐색해야 효과적, 적의 냄새 맡았으면 안나도 더 도망가야 효과적
* 신경조절 신경세포(from 도파민 신경세포, 세로토닌 신경세포) : 다수 신경세포에 오랜시간 광범위하게 미묘한 영향
* 신경전달물질은 다양한 신경세포에 다양한 영향을 줌
* 서로 다른 신경물질이 균형을 이루어 정동상태를 결정
* 도파민(원함) : 뭔가 좋은것이 있음
* 세로토닌(만족) : 좋은 일이 실제 일어나고 있음, 감정가 끄는 포만의 화학물질, 이제 살것같다
* 도파민 수치를 높이면 계속 먹지만 혐오를 표현함
* 도파민이 없으면 먹지 않지만, 입에 음식을 넣어주면 기분좋은 표정 지음
* 절망사 : 자살, 약물 : 뇌에 죽임을 당하는것
- 왜 이런 결함?
* 투쟁-도피 반응 : 탈출을 위해 수면-번식-소화등의 비싼 행동이 억제됨 (세로토닌 효과 상쇄)
- 아드레날린 : 진화 과정중 탈출 반응을 오래 지속시킬 비법이 고안됨
- 탈출 촉발 + 에너지 절약위해 다른 활동 중단(성장, 소화, 번식, 면역 중단) => 급성 스트레스 반응
- 이에 대응하는 대응조절 반응 진화 : 전쟁이후를 대비하는 항스트레스 화학물질 오피오이드
* 스트레스 요인이 완화되지 않으면 2분후 선충은 '포기'
- 에너지 보존을 위해 영리한 선택
- BUT 만성 스트레스 반응, 우울 장애의 근원
- 만성 스트레스 : 급성 스트레스와 다르게 각성과 동기부여가 멈춤 (세로토닌이 활성화 -> 무감각)
기억이 전부다. 기억이 없으면 우리는 아무것도 아니다 - 에릭 캔들
=> 생각 : AI에게 기억이란?
* 조건반사 by 파블로프
- 자기도 모르게 일어나는 불수의적 연합학습 -> 학습과 기억이 생각보다 오래전에 생겼다는 단서
- 연합학습 : 기존의 경험으로 조종 결정을 바꿈
* 원래 선충은 소금에 긍정적
- 소금물에서 배고픔 경험한 선충 -> 소금이 있는 맹물에 넣으면, 소금에서 멀어짐 (소금에 대한 긍정적 감정가가 부정적 감정가로 바뀜)
* 연합 획득 : 먹이주기 전에 버져 계속 들려주면 연합이 강화됨
- 연합 소거 : 먹이가 없는데 버져 들려주면 강도가 약해짐, 그러다 침 안흘림
- 자발적 회복 : 며칠 기다렸다가 버져 올리면 다시 침흘림
- 재획득 : 오래전 소거된 연합은 새로운 연합보다 더 빨리 획득됨
- ●원시적 형태의 장기기억 : 불완전 하나, 연속 학습 가능
* 관련된 연합에 대해서만 학습하는 방법 -> ●●신뢰할당 문제의 해결책
- 1. 적격성 흔적 eligibility trace : 바로 전에 발생한 것
- 2. 가리기 overshadowing : 가장 강한 단서
- 3. 잠재적 억제 latent inhibition : 특별한 것
- 4. 차폐 blocking : 하나의 예측 단서를 고수하고 불필요한 연합 회피
* 고대 학습 메커니즘 (다 틀림)
- 플라톤 : 뇌의 눌린 흔적이 기억
- 데카르트 : 뇌에 새로운 주름이 기억
- 누군가 : 영구적 진동
* 20세기 초, 학습 : 시냅스에서 일어나는 변화(강도변화, 새로운 시냅스 형성, 기존 시냅스 제거)를 통해 일어남
* 헵 학습 hebbian learning by 도널드 헵 : 함께 발화하는 신경세포는 서로 연결된다
- ●입력 뉴런과 출력 뉴런이 동시에 활성화 되면 특정한 단백질 장치가 시냅스 강화 과정을 촉발함
- 다음번에 두드림 감지 신경세포가 활성화 되면 자체적으로 운동 신경세포를 활성화함(둘간의 연결이 강화되었으므로, 조건반사)
=> 생각 : 인간은 backprop이 아닌 헵학습으로 강화 되는군. 인간은 이미 그렇게 구성되어 있는데, AI는 그걸 구현해야하니 그걸 backprop 으로 구현한 것이군.
* 학습은 조종을 최적화 하는 기술이었음. 그러나, 뇌의 핵심기능으로 전환됨(혁신2)
* 캄브리아기 대폭발 : 지구 역사상 가장 극적으로 동물 다양성이 확대된 사건
- 조종 -> 포식 -> 경쟁의 가속
* 척추동물 vertebrate 등장
- 뇌의 변화가 두드러짐
* 대부분 공유, 사람 뇌 이해하려면 어류 뇌만 알아도 절반 성공
* 발달과정
- 1단계 : 3가지 주요 구조 : 앞뇌(전뇌), 중간뇌, 뒷뇌(후뇌)
- 2단계 : 앞뇌의 2가지 하위 시스템 발달 : 겉질(치질)과 바닥핵(기저핵) , 시상과 시상하부
- 3단계 : 6구조 : 겉질, 바닥핵, 시상, 시상하부, 중간뇌, 뒷뇌
* 최초의 동물 - 신경세포
- 초기 좌우대칭 동물 - 뇌 : 감정가, 정동, 연합
- 초기 척추동물 - 진짜 뇌
* 확고한 다윈주의자, 에드워드 손다이크
- 공통 조상에서 유래했으면 유사한 학습매커니즘일 것. 동물의 학습법 -> 사람의 학습법일것
* 동물이 상자탈출법을 학습하는데 걸리는 속도를 측정(박사학위논문)
- 시행착오 학습 : 첫번째 시행, 두번째 시행 성공 시간 측정
- 기존의 생각 : 학습은 통찰, 모방, 계획일 것 -> 틀림
- ● 동물에게 필요한 것은 시행착오 뿐 : 효과의 법칙 law of effect
- 사람의 행동도 모두 시행착오라는 주장(버러스 스키너, 손다이크 제자)도 있었으나, 이것은 틀린 가설 (혁신3~5)
* 강화 reinforcing 와 처벌 punishing
- 긍정적 감정가는 강화, 부정적 감정가는 처벌
* 손다이크의 시행착오 = 강화학습
- ●시행착오를 통해 임의의 행동 순서를 학습하는 능력
- BUT 단순할것 같은 인간의 직관과 다르게, 생각보다 어려운 프로세스임
* 마빈 민스키의 SNARC (확률적 신경아날로그 강화 계산기 stochastic neural-analog reinforcement calculator)
- 시도1 : 인공신경망에 미로 탐색하도록, 성공하면 활성화 시냅스 강화 -> 실패(잘 학습되지 않음)
- 문제 : 강화와 처벌은 게임이 끝날때만 이뤄짐.
- 수백번의 수를 둬야 함. 그 중 어떤 것을 잘둔것으로 봐야할까
- 신뢰 할당 문제(가리기, 잠재적 억제, 차폐)와 유사, 그러나 시간이 겹치는 자극 경우만 동작
=> ●시간적 신뢰 할당 문제 temporal credit assignment problem 를 해결해야 함
- 강화학습은 시차를 두고도 신뢰를 할당할수 있는 전략 필요
- 시도2 : 성공시 모든 수를 강화 -> 실패(잘 학습되지 않음)
- 문제 : 합리적 시간안에 어느 수가 좋은 수인지 학습이 불가능
* Temporal Credit Assignment in Reinforcement Learning by 리처드 서튼 박사 논문
- A Unified Theory of Expectation 학부 논문
- AI가 이겼을 때 대신, AI가 이기고 있다고 생각할 때 보상을 해준다면?
- 행위자와 비평가로 나누어 비평가는 매순간 승리 확률 예측, 확률 높아지면 행위자는 비평가에게 보상 받음
- ●시간차 학습 temporal diffence learning by 서튼
- 막상 막하로 흐르다 10번째 수에서 훨씬 유리해졌다고 느낌 -> 강화! : 성공
- 시간적 신뢰학습 문제 해법
- 실시간 학습 가능
- 문제 : 순환논리 : 비평가는 행위자에게 의존, 행위자는 비평가에게 의존
- BUT : 성공 - 마법같은 부트스트래핑 (자력강화)가 일어나서, 동작을 하더라
* Neurogamon : Backgammon 하는 AI 시스템 by 제럴드 테사우로
- Neurogamon -> 딥블루(체커 이김) -> 왓슨(퀴즈쇼 이김) 을 만든 연구소에서 일함
- Neurogamon : 시행착오가 아닌, 인간 전문가가 할 것으로 예상하는 행동을 재현하는 방식으로 학습 -> 중급자 수준됨
- 서튼의 연구를 보고 ● TD-Gammon (temporal diffence gammon) 연구 -> 전문가 수준 달성, 서튼 이론 입증함
* 뇌가 시간차 학습을 구현한다 by 피터 다얀, 리드 몬터규
- 테사우로 연구 보고 연구 박차
- 도파민으로 쥐 행동 조절 가능함(도파민만 원함), 도파민이 강화와 연관되었다고 생각
* 도파민 측정 실험 by 볼프람 슐츠
- 도형을 보여주고 설탕물 주는 원숭이 실험
- 처음에는 도파민이 감정가 신호처럼 반응, 반복 후에는 보상 자체에 대한 반응을 중단하고 예측 단서에만 반응
- ●도파민 반응은 서튼의 시간차 학습 신호와 일치
- ●●도파민은 보상의 신호가 아니라 예측 보상을 향한 강화의 신호 by 슐츠
- 시간적 신뢰 할당 문제를 해결하려면, 실제 보상이 아닌 예측되는 미래 보상의 변화를 바탕으로 행동을 강화해야 함
* A Neural Substrate of Prediction and Reward 1997 by 다얀, 몬터규, 슐츠
- ●AI와 신경과학 분야의 가장 유명하고 아름다운 협력중 하나
* 초기 좌우대칭동물의 도파민 : 원함 - 근처에 좋은게 있다
- ●●척추동물 도파민 : 원함 + 시간차학습 신호 - 10초후에 멋진 일이 일어날 확률이 67%다
* 실망, 안도 -> 미래 보상을 예측 학습하도록 설계된 창발적 속성 emergent property
* 조명을 켜고 5초뒤 물고기가 반대쪽으로 가지 않으면 전기 충격
- 안전한 장소로 가는 것의 강화 : 예측되는 충격의 누락
- 실망의 생물학적 발현 관찰한 것
- 미래 보상을 예측하는데 실패한 것에 대한 처벌 : '부재'의 강화효과
- 척추동물만 학습 가능
* 시간차학습, 실망, 안도, 시간 지각 모두 서로 관련됨
* 특정 관문을 열고 닫으면서 동물의 행동을 조정함
- 파킨슨 병 : 바닥핵의 붕괴로 나타남
- ●바닥핵은 도파민 분비를 극대화하는 행동을 반복하도록 학습함 - 서튼의 '행위자'
- ●시상하부는 도파민 분비 조절 - 서튼의 '비평가'
- 실제 보상을 받았는지 판단
- ●그림과 같은 회로가 시간차학습을 구현하기 위한 서튼의 행위자-비평가 시스템이라는 주장도 있음
* 바닥핵회로, 5억년전 기술. 서튼이 이제 발견한 것.
* 냄새인식 = 후각신경세포를 활성화하는 여러 분자의 특정 조합을 인식하는 것 = 패턴인식
* ●모든 척추동물은 신경세포 패턴을 해독해서 사물 인식 -> 동물의 지각범위를 극적으로 확장시킴
- 50가지 세포 패턴 , 100조개 이상
- 식별discrimination 문제와 일반화 generalization 문제
* Backpropagation & 지도학습 by 제프리 힌턴, 베이비드 루멜하트, 로널드 윌리엄스
- ●AI는 구현했지만, 뇌 설명모델로는 한계 : 뇌는 지도학습안함 , 역전파는 생물학적으로 안일어남 (생각1)
* 후각신경세포는 신호를 겉질의 피라미드 신경세포에게 보냄
* ●후각 입력 네트워크의 특징 : 확장성과 희소성 = 확장 재부호화 expansion recoding
- 1 넓은 범위의 차원 확장 : 소수의 후각신경세포가 훨씬 많은 겉질 신경세포와 연결됨
- 2 희소 연결 : 후각신경세포 하나는 겉질신경세포의 한 부분집합에만 연결됨
-> 식별 문제 해결 : ●패턴분리 = 비상관화 = 직교화
* ●겉질이 자동연합 auto-association 신경망으로 등장, 패턴인식 가능해짐
- 냄새 패턴이 피라미드 신경세포에 어떤 패턴을 활성화 시키면 -> 세포의 조합이 헵 가소성 hebbian plasticity 를 통해 자동으로 연결됨
* 척추동물 뇌 : 자동연합을 통해 뇌가 내용 주소화 기억장치(CAM:content-addressable memory)를 사용
- ●●경험의 부분집합을 이용해, 원래 패턴을 다시 활성화해서 기억 회상
* 컴퓨터 : 레지스터 주소화 기억장치(REM:resister-addressable memory)
- ●●메모리 주소가 있어야만 회상
* 인공신경망 - 새 과제 학습하면 기존 것 망각
- 현대의 AI시스템도 극복 못함
- 모든 것을 학습시키고 동결시키는 방법으로 회피중
* 연속학습 : 동물의 뇌는 오래전부터 해옴
- 이론1 : 패턴분리 능력을 통해 겉질이 파괴적 망각 피해감(간섭 확률이 낮음)
- 이론2 : 겉질에 이뤄지는 학습이 놀라는 순간에만 선별적으로 일어남(학습이 선별적으로 일어남)
* 우리는 아래 두개를 같은것으로 인식. 망막에 활성화 되는 신경세포가 겹치지 않을 수도 있는데 동일함을 알아봄
* 겉질의 V1 (첫번째 시야, 눈으로 1차 입력 받는 부위) by 데이비드 허블 , 토르스텐 비셀
- 개별 신경세포들이 놀라울 만큼 선별적으로 반응함
- 1. 시각계 위계 : V1 -> V2 -> V4 -> IT : receptive field 가 넓어지고, 점점 더 종합적 모양에 반응
- 2. 같은 수준에 속한 신경세포들은 비슷한 특성에 반응
* 합성곱 신경망 by 후쿠시마 구니히코
- 허블 비셀 2가지 발견이 불변성 문제를 해결했을 것.
- convolution neural network 발명
- 영리하게 귀납적 편향 도입 : 장소가 달라져도 동일한 특성으로 취급해야한다는 가정
* Conv network 약점
- 1 시각처리는 생각보다 위계가 강하지 않았음
- 2 합성곱 신경망은 이동의 제약이 있고 3차원 회전 이해 못함
- 3 합성곱 신경망도 지도학습&역전파 사용하여 동시 업뎃방식 사용
- 4 포유류의 시각겉질에서 영감을 받음. but 어류도 불변성 문제 거뜬히 해결
* 감각기관과 척추동물의 뇌는 공진화 coevolution 함
=> 생각 : AI는 공진화할 감각기관이 없다...
- 패턴 인식과 감각기관이 정교화해지면서 강화학습이 선순환
* 몬테수마의 복수 게임 : 여러 방들에 장애물이 있고, 보상은 아주 멀리있는 방의 문을 열면 받음
- AI가 극복하기 어려웠던 게임
- 2018, 구글 딥마인드가 해결 : 서튼의 시간차학습 알고리즘 + ●호기심
* ●강화학습에는 서로 반대되는 2과정 필요
- 1 기존에 강화된 행동(활용)
- 2 새로운 행동(탐색)
- 행동의 5%는 환전 무작위 행동
-> 이걸로 부족해서, 호기심 부여 : 새로운 장소 탐색, 새로운 일하면 보상해서 ●'놀라움' 자체를 강화(활용-탐색의 딜레마 극복)
- 새로운 방을 찾아나서는 것 자체로 가치있는 일이 됨
* ●척추동물 : 실질적 보상없어도 놀라움 자체로 도파민 분비
- 쥐, 도박을 함 by 스키너
- 도박꾼, 인스타그램 (놀라움에 도파민 , 호기심) : 무의식적으로 강화되므로 멈추기 어려움
- 5억년간 놀라움을 좋아하도록 진화한 인간의 속성을 이용한 것.
* 우리 뇌는 집에 대한 내적 모델이 있음
* 생각 => 천개의 뇌에서 자세히 논의하는 내용임
- https://brunch.co.kr/@greenful/133
* 공간지도 : 척추동물에 존재
* 개미는 공간지도를 작성하지 않고, 전체를 반복함(먹이 향해 가는 개미를 들어서 돌아오는 길에 놓으면, 돌아가지 않고 집에 왔다 다시 나감)
* 반고리관 , 안뜰 감각(전정감각), 안뜰계(전정계) : 3차원의 감각
* 머리방향감지 신경세포 : 신경 나침반
* 겉질의 3 하위 영역
- 가쪽 겉질 -> 후각겉질
- 배쪽 겉질 : 시각 소리 -> 편도체
- 안쪽 겉질 -> ●해마 (공간지도)
* ●사람과 쥐의 해마에는 장소세포 place cell 이 존재
* 초기 척추동물, 공간지도 진화
- ●처음으로 자신과 세상을 구분, 상대적 위치 기억
* ●포유류가 알아낸 색다른 시행착오 학습법 = 상상을 통한 학습
* 데본기 말기 멸종 : 식물 성행 - 이산화 탄소 급감 - 빙하기
* 물밖으로 -> 양서류 유사 최초의 네발 동물 -> 도마뱀 유사 양막류
* 그리고 온혈성 수궁류
- 밤에도 사냥할 수 있으나, 에너지가 필요
* 페름기-트라이아스기 대멸종 : 원인 미상
- 에너지가 많이 필요한 수궁류는 어렵고 에너지가 덜 필요한 파충류가 더 살기 유리
- 작은 견치류가 살아남아, 파충류가 자는 밤에 조용히 사냥
* ●새겉질 - 시뮬레이션의 조건
- 시력 : 먹이 경로 시뮬레이션 위해 필요, 육지는 물속보다 100배 멀리 봄
- 온혈성 : 시뮬레이션은 비용과 시간, 온혈의 부작용으로 신경세포의 전기신호 작동속도가 빠름
- 비포유류 중 시뮬레이션 하는 것은 조류뿐. 비포유류 중 온혈성도 조류뿐
* 새겉질만 새로움 (인간 새겉질, 뇌의 70%)
- 바닥핵 : 도파민 분비 극대화 학습
- 시상하부 : 감정가 반응 촉발, 신경전달물질 분비하여 조절
- 중간뇌 뒷뇌 : 반사적 행동 패턴 구현
마운트캐슬의 미친 아이디어
* ●●새겉질 기둥은 완전히 똑같은 일을 한다 by 버넌 마운트캐슬
- 1 수직적 활성 - 새겉질 판에 있는 500μm 수직 기둥 하나의 신경세포들은 감각자극에 비슷하게 반응(수평으로 옆기둥의 신경세포는 반응안함)
- 2 수식적 연결 - 기둥 안에 수직적 연결은 많고 기둥간의 연결은 적음
- 3 유사성 새겉질 어느 부위든 현미경으로는 동일해 보임
* ●대체가능 : 손상된 새겉질 주변의 새겉질 영역이 기능을 대신한다.
* ●새겉질을 이해하려면 하나의 기둥(100만개 연결)만 이해하면 될지도.
* 생각 => 천개의 뇌에서 자세히 논의하는 내용임
- https://brunch.co.kr/@greenful/133
* 생각 => 라마찬드란 박사의 두뇌실험실에서 자세히 다루는 내용
- https://brunch.co.kr/@greenful/107
* 1 채워넣기 - 시각뿐 아니라 인간의 감각 대부분에서 관찰됨
* 2 한번에 하나만 - 뇌는 한번에 한가지 해석만 볼 수 있음
* 3 되돌리기 불가 - 정신은 감각입력을 설명할 해석을 원함, 설명이 된 후에는 불변
* 추론 by 헤르만 폰 헬름홀츠
- 사람이 경험한 것을 지각하는 것이 아니라 뇌가 존재한다고 생각하는 것을 지각한다
- ●실제로 보이는 것을 지각하는 것이 아니라 보이는 것을 바탕으로 시뮬레이션한 현실을 지각한다
* 생성모델의 초기 개념 - 헬름홀츠 기계
* 힌턴 : 숫자로 인공신경망 테스트 , 인식모드와 생성모드를 별개로 학습 => 성공함
- 1 지도 없이 인식함
- 2 일반화
- 3 새로운 손글씨 숫자를 생성함
* 시력을 상실하고 몇달간 오히려 많은 것이 보이는 환각 - 샤를보네증후군
- 감각 입력의 통제 없이 시뮬레이션이 생성 과정에 갇혀 표류하며 환각 발생
- 시각은 제한된 환각인 셈, 헬름홀츠의 추론, 생성모델이 실제 하는 일과 일치
=> ●●●생각 : 모델 스스로 너무 공회전 하게 하면 환각이 발생할 수 있다. 과도한 CoT, 추론이 이에 해당할 수 있다
- 꿈을 꾸는 것도, 잠 부족시 환각과 지적장애를 보이는 것도 포유류와 조류뿐
* ●●●새겉질은 인식과 생성 사이의 불안정한 균형상태에 있다
* 힌턴 : wake-sleep algorithm 라고 이름 붙임 : 인식단계는 wake, 생성단계는 sleep
* 상상할 때는 뇌가 실제 시각 데이터 처리를 멈추면서 동공이 확대됨
- 시각장애인과 비슷한 상태
- 생성과 인식 동시 수행 불가
- 지각과 상상은 별개의 시스템이 아니라 동전의 양면
* ●새겉질은 실제로 입력되는 감각 데이터와 시뮬레이션으로 예측하는 데이터를 끊임없이 비교함
- 시뮬레이션이 감각 데이터와 같으면 알아채지 못하나, 예측과 다르면 알아챔
* 새겉질 기둥을 모두 한데 모으면 보고 만지고 들을 수 있는 사물로 가득한 풍부하고 조화로운 3차원 세계의 시뮬레이션이 만들어짐
- 어떻게 가능할까 -> ●●어쩌면, 3차원 대상을 표상한다고 가정하도록 미리 회로가 배선되어 있을지도
- 새겉질은 어쩌면 세상에 대해 매우 좁은 범위를 가정하고 있을지도. 뇌가 범용인 이유는 이 좁은 가정 때문일 수도
- ●3차원 세상은 이미 가정한 상태로, 감각의 원인을 추론할때, 가장 일치한다고 믿는 3차원 내적 시뮬레이션을 진행하는 것이 아닐까
- ●● 생각 => 그렇다면 현대의 AI시스템에서 빠진 것이 무엇인가 = world model
* 동물에게는 강력한 world model 을 학습할 능력이 있습니다 by 얀 르쿤
* ●●●포유류의 새겉질 = world model 이다
* 새겉질에서 진화된 원래 기능은 인식이 아니라 ●상상력(생성모델, 시뮬레이션)이다
- 새겉질 연구는 인식에 포커싱하는데 중요한건 그게 아니다
* 대리 시행착오 vicarious trial and error by 에드워드 톨먼
- 쥐는 결정하기 어려울때만 머리를 돌렸다
- 결정을 어렵게 만드는 방법
- 1 선택에 따른 비용과 이익을 비슷하게 하는 것
- 2 규칙을 바꿈
* 쥐가 탐색시 해마의 특정 장소세포가 활성화 됨 by 데이비드 레디시, 애덤 존슨
- 공간지도와 유사
- 쥐는 자신 환경에 대한 world model 을 확보하고나면 머리속에서 모델을 신속하게 탐험해서, 장애물을 우회해 방법을 찾아냄
* 쥐는 빨리 얻을 수 있는 바나나를 포기하고 다음 문에서 체리를 먹으려다가 45초 기다려야 한다는 신호가 나오면 후회함(바나나 상상) , 다음번에는 다른 사료를 빨리 먹고 체리 먹으러 감
* 영장류(원숭이)는 반사실에 대한 추론도 함
- 보자기를 내서 진 후, 게임을 재생해볼수 있어서, 바위를 냈다면 이긴다는 사실을 깨닫고, 다음 행동을 변화시킴
- ●반사실이 없으면 인과관계와 상관관계를 구분할 수 없음
* 신뢰 할당의 문제 : 예측하고 싶은 중요사건 발생시, 무엇이 원인이라고 신뢰할 수 있을까
- 좌우대칭동물 : 차폐, 억제, 가리기로 예측이나 연합 형성
- 척추동물 : 시간차 학습이 진화하면서 바닥핵이 미래에 받을 거라고 예측되는 보상의 변화를 이용
- 비평가가 방금 상황이 좋아졌거나 나빠졌다고 생각하는 시점에 그 단서나 행동에 신뢰 할당
- ●포유류 : 반사실에 신뢰 할당, 인과관계를 바탕으로 신뢰 할당 (내가 이 수를 두지 않았다면, 게임에서 졌을까?)
* 인과 관계는 물리학보다는 심리학일수도
- 통제된 실험을 통해 인과관계 짐작할수 있으나 확실한 증거가 될수는 없다(완벽 통제는 불가하므로)
- ●인과관계가 실제로 존재하는지 여부를 떠나, 궁극적으로 우리가 직관적으로 인과관계를 지각하게 된 것은 실제로 존재하기 때문이 아니라 그렇게 지각하는 것이 유용했기 때문
- 인과관계 : 과거에 했던 선택의 대안을 통해 학습할 수 있도록 우리 뇌가 만들어낸 것
* 일화기억 : 과거에 있었던 특정 일화를 떠올리는 기억
- 과거를 비슷하게 재창조하는 시뮬레이션
- 시뮬레이션인 이유1 : 과거기억과 미래상상은 비슷한 신경회로 사용
- 이유2 : 일화기억 역시 기억 되살리는 과정에 내용을 채워 넣음
- 새겉질에서 상상으로 꾸며낸 장면과 실제로 있었던 일화 기억은 구분이 모호함(반복하여 상상하면 실제라고 강하게 확신함)
* 해마 : 새로운 일화 기억을 만드는데 필요, 예전 기억 떠올릴땐 불필요
- 일화기억은 해마와 새겉질 사이 협력의 결과
- 해마 : 패턴 신속 학습가능, 세상 시뮬레이션 불가능
- 새겉질 : 시뮬레이션 가능, 패턴 신속학습 불가능
- 일화기억은 반드시 신속하게 저장되어야 함
* ● 인공신경망의 파괴적 망각 문제의 해결책 제시
- 시간차학습 : 모델 없는 강화학습, 시뮬레이션할 모델이 필요없음
- 시뮬레이션 : ●모델 기반 강화학습, 유연성이 더 높음, 단 내적 world model 구축하고 탐색해야함
* ●●world model 이 없으면 행동을 시뮬레이션하고 결과를 예측할 수 없음 -> AI 시스템
- 그러나 만들기 어려움1: world model 은 어려움 - 복잡, 잡음, 불완전
- 어려움2 : 무엇을 시뮬레이션 할지 어려움 , 마빈민스키 'search problem:실제 상황에 선택지는 너무 많음
* 이마옆압새겉질 뇌졸증 : 의도를 잃음
* 새겉질 = 감각새겉질 + 이마엽새겉질
- 이마옆새겉질 = 운동겉질 + 과립이마엽앞겉질(gPFC) + 무과립이마엽앞건질(aPFC)
- 과립세포 granule cell : 기둥 4번층 , aPFC에는 4번층이 빠짐
- 먼저, aPFC : 포유류에서 진화, 가장 오래된 이마엽 영역
- 다음, 운동 겉질 : 포유류이후, 영장류 이전에 진화
- 그다음, gPFC : 영장류에서 진화 (혁신4)
* 초기 포유류 : 이마엽새겉질에서 시뮬레이션이 일어나고, 감각새겉질에서 시뮬레이션을 통제
- 이마엽새겉질 : 대리 시행착오, 일화기억 회상, 반사실적 학습
- aPFC 가 손상되면 왜 의도가 사라질까?
* ●●감각새겉질은 감각기관의 입력을 받아 세계 모델을 만듬
* aPFC 입력은 해마-시상하부-편도체
- ●●aPFC 도 감각의 동작처럼, 동물 자신의 행동을 설명하고 예측하려 시도하는 것이 아닌가
- aPFC는 동물 자신을 모델화 하는 법을 배워서, 자기가 관찰한 행동의 의도를 추론하고, 그 의도를 통해 동물이 다음에 무슨 행동을 할지 예측
* 1단계: 시뮬레이션의 촉발
- aPFC 기둥들의 상태
- 1. 침묵 상태
- 2. 의도를 인식하고 기둥들이 동일하게 다음 행동을 예측하는 상태
- 3. 기둥들이 서로 다르고 일관성 없는 행동을 예측하는 상태
- ●3번, 예측이 일치하지 않는 정도가 불확실성을 측정하는 척도
- ●시뮬레이션을 촉발하는 것이 불확실성일 수 있음
=> 생각 : AI의 불확실성과 연결지어 보자...
- 불확실성은 바닥핵에서 측정될 수도. 행위자-비평가 시스템이 여럿 있어서 예측결과 차이가 나는 걸수도 있음
* 2단계: 선택지 시뮬레이션하기
- ●●일시적으로 멈춘 후에는 aPFC의 서로 다른 기둥들이 동물이 그 다음에 하리라 생각하는 행동들을 차례로 시연함 (모델기반 강화학습)
- aPFC : 왼쪽으로 가면?
- 감각새겉질 : 왼쪽으로 가는 시뮬레이션을 만들어 aPFC에게 보냄
- aPFC : 똑바로 가면?
- 감각새겉질 : 시뮬레이션을 만들어 aPFC에게 보냄
- ●aPFC에서 모델화한 상상의 목표에 도달할때까지 반복
- 선별하는것은 aPFC, 감각새겉질이 만들어낸 세계에서 뭘 선택할지는 바닥핵이 결정
* 3단계: 선택지 정하기
- 바닥핵이 먹이 먹는 상상보다 물 먹는 상상에 더 흥분하면, 물마시는 상상 득표수가 선택의 역치를 넘으면, 바닥핵이 행위를 장악하고 쥐는 물을 마시러감
- 그러나, ●바닥핵은 감각새겉질이 실제 세상을 시뮬레이션 하는지, 상상의 세계를 시뮬레이션 하는지 알지 못함
* 습관 by 토니 디킨슨
- 감각 단서로 촉발될 뿐 행동이 고차원적 목표와는 완전히 분리되어 자동화된 운동반응
- ●aPFC가 잠깐 멈춰 시뮬레이션 하는 과정없이, 바닥핵이 그냥 행동을 장악한 것
* 모델기반 - 목표 중심행동 - 시스템2
* 모델없는 - 습관적 행동 - 시스템1
* 생각 => 생각에 관한 생각에 자세히 나옴 https://brunch.co.kr/@greenful/22
* 목표 자체는 초기 포유류 이전에 진화하지 않았을 지도 모름
* ●감각 정보에 대한 설명이 실재가 아니듯, 의도 역시 실재가 아니다.
- ●의도는 동물이 다음에 어떤 행동을 하려는지 추측하는 계산상의 요령이다
=> 생각 : 철학으로 넘어가는 느낌
* 바닥핵 : 의도도 목표도 없음, 기존에 강화된 행독을 반복하도록 학습할 뿐
* aPFC : 명시적 목표가 있음 : 원하는 결과를 향해 시뮬레이션해서 최종 목표를 갖게 됨
* 새겉질이 생성 모델을 구현함 by 칼 프리스턴
- 능동추론 : 이마엽새겉질에서는 목표를 구성하고, 목표 추구하는 행동을 변화시킴
- 감각새겉질은 감각 입력을 설명하고 예측하는 수동추론
* 4번층은 어떤일을 할까?
- 시뮬레이션에 참여할 때 활발한 감각 입력이 억제되면서 4번층 활성이 낮아짐
- 현재 경험하고 있지 않은 뭔가를 시뮬레이션 할 수 있음 (하늘을 보며 자동차 상상)
- 4번층은 필요없어졌을 수도
- 원래는 내적 모델을 관찰 내용에 맞추는 것으로 시작했다가(4번 층과 함께 발달)
- 그 다음, 자신의 내적 모델에 행동을 맞추도록 압박하는 상황으로 옮겨감(4번층 필요없음)
- 진화의 선순환
* 이마엽새겉질, aPFC - 주의, 작업기억, 실행통제, 계획수립 => ●모두 시뮬레이션의 통제들임
- 원론적으론 동일한 기능, 어떤 시뮬레이션을 만들지 선택하려고 애쓰는 뇌의 노력이 다른 모습으로 발현한 것
* 시뮬레이션의 통제들
- 주의 => 시뮬레이션 후 행동할 때는 계획을 고수하려면 필요
- 뭔가를 머리속에 붙잡아두는 작업기억 => aPFC가 내적 시뮬레이션을 계속하도록 하는것
- 행동억제, 의지력, 자기 통제 => 상상한계획을 충족하는 동안 편도체가 자체적으로 회피반응을 촉발하지 못하도록 막기
- 순간순간 느끼는 갈망(편도체와 바닥핵) vs 더 나은 선택(aPFC) 의 긴장상태
* 도마뱀 : 새겉질이 없으므로 시행착오늘 수없이 반복해 과제를 학습
* 쥐 : 선천적 반응을 억제하는 법을 배움, aPFC 손상되면 못함
* 포유류 : ●내부의 world model 을 대리로 탐험하고 상상한 결과를 바탕으로 선택하고, 그 계획을 고수할 수 있는 능력.
- ●목표가 있는 최초의 조상임
* 운동겉질이 운동이 통제자, 그러나
- 운동 겉질과 새겉질 기둥에는 동일한 미세회로가 있음, 왜 운동겉질만 운동 명령을 만들까?
- 일부 포유류는 운동겉질이 없지만 잘 다님
- 운동 겉질 손상으로 인한 마비는 영장류만 일어남
* 운동 겉질은 운동 명령을 생성하는 것이 아니라 운동을 예측하는 것일수도
- 지속적으로 관찰하는 상태일지도
- ●그렇다면 aPFC와 동일하게 작동할 것
- aPFC가 동물이 왼쪽으로 간다고 예측하면
- ●운동 겉질은 왼발을 어느 발판에 딛는다고 예측 : 운동 겉질은 몸에 대한 모델이 있어서 시뮬레이션가능(embodiment)
* 운동겉질이 손상되면
- 숙련된 동작 수행 장애
- 새로운 동작의 순서 학습에 장애
-> 운동을 계획하는 장소라고 짐작 가능
* 문장을 듣는것만으로도 자세를 고치는 내적 시뮬레이션이 활성화 되어 자세에 영향을 줌
- 사람을 의자에 앉혀놓고 '나는 일어나 슬리퍼를 신고 욕실에 간다' 들으면 자세가 흐트러짐
- 운동기술을 머리에서 리허설 하면 연설, 골프, 수술까지 수행능력 향상됨
* 운동 위계의 서로 다른 수준을 관리하도록 설계된 시스템
- aPFC는 상위 목표에 민감, 운동겉질은 하위 목표에 민감
- aPFC(상위 목표)를 손상시키면 먹이를 원(상)하지 않아도 계속 레버를 누름(하)
- 운동앞겉질(하위 목표) 손상되면, 상위에서 동작으로 연결이 안됨 (외계인 증후군, 손이 자신의 통제를 벗어났다고 주장)
- 운동겉질(하위 목표)을 손상시키면 상위목표에 민감(상), 습관을 만드는데 어려움 겪음(하)
* 식기 세척 로봇의 숙제
- 새겉질이 어떻게 감각입력을 정확하게 시뮬레이션하는지
- 운동 겉질이 어떻게 유연하고 정확하게 미세운동 시뮬레이션하고, 계획을 수립하고, 활동하면서 지속 학습하는지
- ●스스로 자동학습, 실시간 운동 조정, 상위목표를 주면 필요한 하위 목표를 생각
* 1500만년전, 초기 영장류에서 등장한 능력 정신화 3종
- ●마음이론 : 상대방 의도와 지식을 추론
- ●모방학습 : 관찰을 통해 학습
- ●미래의 필요 예측 : 당장 필요없어도 미래의 필요를 위해 지금 행동하는 능력
=> 자신의 마음에 대한 생성모델 구성에 따른 창발적 속성일 수도
=> 초기 영장류에서 처음 진화한 ●gPFC 에서 등장함
* 새겉질의 모든 영역이 동일한 미세회로 -> 영장류 능력 설명이 안됨
- ●새겉질을 영리하게 새로 적용한 덕분에 능력 생긴듯. 생성모델의 창발적 속성일 것
* 사회적 뇌가설과 생태적 뇌가설은 동전의 양면 by 로빈 던바
- 과일을 먹는 생활과 사회적 위계 양쪽의 압력이 하나로 합쳐져 자신의 마음을 모델화 하는 gPFC 같은 영역을 정교하게 발달시키도록 진화압 넣었을 것.
* 페름기-트라이아스기 대멸종
- 소행성 충돌, 흙먼지 태양가림 2년, 육상생물 70%멸종
- 그 이후 포유류 시대 Era of Mammals
* 최초의 영장류
- 엄지손가락
- 커진 몸집 유지 위해 주식이 곤충->과일
- 집단생활, 뇌 크기 100배
* 뇌커진 이유는 큰 사회집단 유지하기 위해 독특한 인지기능 필요(생태적 아닌 사회적 요구 때문) by 니컬러스 험프리, 프란스 드 발, 로빈 던바
* 뇌 - 사회집단 크기 상관관계 by 로빈 던바
- 영장류에만 상관관계존재 : 집단의 크기가 아닌 유형 때문인 듯
* 포유류
- 무력한 새끼, 놀이를 많이 함
- 집단 생활 : 분쟁에 필요한 에너지 비용 최소화, 분쟁 해결 도구(힘과 복종 알릴 메커니즘)를 진화시킴
- 힘 : 사슴, 영양 : 뿔 / 곰, 원숭이, 개 : 으르렁
- 복종 : 개: 몸낮춤/ 곰 : 앉아서 시선돌림
* 포유류 생활방식 : 단독, 짝, 하렘, 다중수컷
- 하렘, 다중수컷 : 경쟁최소화 전략 -> 엄격한 위계
* 침팬지 : 마키아벨리즘 성향, 수단과 방법 가리지 않고 행동
- 지위 낮은 침팬지 벨에게만 먹이위치를 알려줬을 때, 처음엔 알려줬으나 대장 락에게 빼앗기자 숨기려고 정교한 전략
- 락과 벨 모두 상대방 의도를 이해하며 상대 믿음을 조작하며, 전략 사용
* 유인원 : 우연한 행동과 의도적 행동 구분
- 의도적 먹이 표시 상자에게는 가고, 펜을 떨어뜨려 우연히 표시된 상자는 무시
- 먹이 줄만한 상황이 아닌 사람을 선택하고, 먹이줄 의지가 없는 사람은 피함
* 상대 마음 이해하려면, 의도뿐 아니라 지식도 파악해야
- 고글을 가지고 놀게 한 후(고글의 특성 파악), 먹이 요청 위해 불투명 고글쓴 사람이 아닌 투명 고글쓴 사람에게 감
* 마음이론 : 상대방의 의도와 지식을 추론하는 행위
- 초기 포유류에는 없었고 초기 영장류/초기 유인원에게 등장
- 털손질 시간과 집단 규모 상관관계
- 가족관계 : 새끼의 구조신호가 들리면, 개체들은 새끼의 어미를 쳐다봄
- 위계관계 : 지위 높은 원숭이의 복종신호가 들리면 개체들은 깜짝 놀라 스피커를 봄
- 물리적 뿐 아닌 정치적 힘 : 가문의 위계, 동맹관계
* 여유
- 1. 과일 : 큰 뇌에 에너지 소비가능한 진화적 선택권 생김
- 2. 시간 : 먹이 구하는데 시간이 줄어 사회적 위계를 차지하기 위한 진화적 선택지(근육대신 뇌)
- 완전 새로운 진화의 군비경쟁 -> 정치적 수완을 획득하기 위한 전쟁
- 누가 권력자인지, 누구와 친구가 될지, 누구를 배신할지 : 마음이론 필요
* 뇌 : 어느 뇌가 새로 생긴것이고, 어느 뇌가 동일 영역 발달에 불과한가
- 어려움 : 시간 흐름에 따른 뇌크기 변화, 한 시점에 종에 따른 뇌크기 다양성
- 몸집에 따라 그냥 커질수도
- 근본 기능은 그대로고 성능만 개선될수도
- 살짝만 바뀌어 새로움과 낡음의 경계
* 새로운 영역
- gPFC : 이마엽새겉질에 새로 추가, aPFC를 둘러쌈
- 1차감각겉질(PSC:primary sensory cortex) : 몇몇 감각새겉질 영역(위관자고랑, 관자마루접합)
- ●gPFC와 PSC는 긴밀하게 연결 : 입력과 출력 연결성, 새로운 인지기능을 생성하는 생성모델
* ●gPFC는 느낌을 물었을때 활성화 : 마음방랑 (mind wandering) , 자기참조 (self-reference) 할때
- gPFC 손상 : 거울속 자신을 못알아봄(mirror-sign syndrome)
* ●●자기모델화
- 포유류 : aPFC - 편도체와 해마로 직접 입력
- 영장류 : gPFC - 입력 대부분을 aPFC로부터 받음 (편도체, 해마, 감각입력도 거의 안받음)
- 해석
- aPFC가 편도체와 해마의 활성에 대해 설명해주는 것처럼(의도를 발명)
- gPFC는 aPFC의 의도모델을 설명해주는 것일지도(마음을 발명), aPFC의 의도를 설명위해 자체적인 내적 시뮬레이션 모델을 구축하는 것일지도
* 사고실험 : 왼쪽으로 틀었다
- 좌우대칭동물 - 반사작용 : 먹이 냄새 풍기는 왼쪽으로 틀도록 진화가 새겨놓은 규칙에 따라
- 척추동물 : 왼쪽으로 가면 예측되는 미래 보상이 극대화 되니까
- 포유류 : 왼쪽이 먹이로 이어지니까 (바깥세상 시뮬레이션을 통해 안다)
- 영장류 : 나는 배가 고프고, 그래서 먹으면 기분이 좋아지고, 내가 알기론 왼쪽에 먹이 있으니까(지식 자체에 대한 모델을 만든다, 시뮬레이션 결과를 설명한다)
- gPFC는 동물이 무엇을 원하고-알고-생각하는지에 대한 시뮬레이션 자체를 설명
- ●● 메타인지 : 생각에 대해 생각할 수 있는 능력
굳이 2차 모델을 개발하는 수고를 들여 얻는 진화적 이점은 뭘까?
* 타인 의도를 이해해야 할때만 gPFC 가 활성화 (1,2 만화만 불들어옴)
* 타인 지식을 추론할때도 gPFC-PSC 활성화 (틀린 믿음 테스트 > 샐린-앤 테스트, 인간 만4세에 통과)
* 영장류 gPFC 크기는 사회관계망 크기와 상관관계 있음
- 영장류 gPFC 클수록 사회적 위계에 지위 높은 경향
- 사람 gPFC 두꺼울수록 사회관계망 크고 마음이론 과제 잘수행
* 시뮬레이션 이론(simulation theory) 사회적 투사 이론 (social projection theory)
- 자신의 마음을 이해한 후, 그 바탕으로 다른 사람의 마음 이해 from 플라톤 시대부터 고민
- 증거
- 만2세 - 거울속 자신 인지, 원하다/바라다/상상하다 사용
- 만3세 - 자신의 믿음이 틀렸을 수 있음 이해 , 난 그게 악어인줄 알았어요 근데 이제 도마뱀이란걸 알아요
- 만4-5세 - 틀린 믿음 테스트 통과
* 자신 마음 상태에 대해 보고하는 능력과 타인 마음 상태에 대해 보고하는 능력에 강한 상관관계
* 마음이론은 어떻게 작동할까?
- 처음에는 자신의 내적 시뮬레이션(마음) 생성모델 구축
- 이 모델을 이용해서 다른 사람의 마음을 시뮬레이션
* ●●사람과 비슷한 AI시스템을 원한다면 반드시 마음이론을 갖춰야 함
- 사람과 비슷한 : 우리와 함께 살며 우리 말로 우리 의도를 추론하고, 말하기전에 필요하고 원하는 것 예측하고, 온갖 규칙과 에티켓이 숨겨져 있는 인간 집단에서 사회적 관계를 탐색하는
- SAI 의 필수요소는 마음이론일지도
- 인간의 표현에서 실제 의미를 추론하지 못한다면 요청을 잘못해석해서 재앙을 일으킬 것
* 마음이론 : 사회계층 사다리
- 명성관리, 부도덕감춤, 동맹, 친한척, 충성맹세, 연합, 반란, 내분잠재우고, 관계회복
- 마음이론은, 포식자나 먹이가 아닌 정치라는 미묘하고 매서운 위험에서 생존하기 위해 발달
- 그리고, 마음이론은 정치 이외에 두가지 새로운 능력(17장 모방학습, 18장 미래예측)으로 거듭남
* 거울신경세포 mirror neuron : 운동앞겉질과 운동겉질에 있는 신경세포
- 자신이 직접 수행할 때뿐 아니라, 다른 존재가 동작을 수행하는 것을 지켜보기만해도(움직이지않아도) 해당 운동신경세포가 활성화됨
- 의견들
- 1. 연합에 불과함 : 운동과 연합된 단서에 반응해서 운동신경세포가 활성화
- 2. 영장류 마음이론 메커니즘임 : 다른 개체의 운동을 자동으로 따라하는 메커니즘으로 자신의 행동을 모델화해서 '내가 왜 이 행동하지?' 질문하고, 이를 통해 다른 개체 의도 추론
- 3. 우연히 상상했음을 보여주는 단서일 뿐 : 거울신경세포는 특별하지 않고, 타인의 행동보고 자기도 그 행동한다고 생각한다는 단순 증거
* 운동 시뮬레이션의 이점
- 원래의 이점은 운동 계획 가능이었음
- + 상대의 의도도 이해할수 있음
- + 새로운 기술을 학습하는데 도움이 됨(모방학습)
- 운동앞겉질의 활성화는 모방학습과 단순 상관관계뿐 아니라, 때론 필수적(운동앞겉질 일시적 억제하면, 손으로 키보드 치는 영상 보여주고 따라하라고 하면 못함. 빨간점으로 키보드 가이드하면 모방 가능)
* 타이핑, 자동차운전, 양치질, 매듭묶기, 자전거타기
- 독창성이 아닌 모방해서 습득한 것
* 영장류와 일부 조류만, 관찰학습으로 '새기술'을 습등가능
* 관찰로 새기술 습득하려면 마음이론 필요
* ●마음이론이 관찰통한 새기술 습득에 필요한 이유
- 1. 후손에게 효율적으로 기술 전달가능
- 2. 학습자가 오랜 시간 학습에 집중 가능(복잡한 기술의 의도를 파악할 수 있어서 동기가 부여됨)
- 3. 전문가가 의도한 동작과 의도하지 않은 동작을 구분 가능
* 앨빈(ALVINN, autonomous land vehicle in a neural netwlrk) 1990 by 딘 포멀로, 척 소프
- 인간 운전자를 모방하는 법 학습하여 성공
- 난관 : 작은 오류도 치명적 운전 실패 - 올바른 운전 훈련만 받아서
- 전문가 행동 직접 모방도 취약하군!
* 전문가 모방 문제 극복 전략
- 1. 교사-학생 관계 모방 : 자율주행 2009 by 스테판 로스, 드루 배그넬
- 능동 교육 : 잘 동작
- 2. 역강화학습 inverse reinforcement learning : 원격조종헬리콥터 2010 by 피터 에빌, 에덤 코츠, 앤드류 응
- AI가 먼저 전문가가 의도한 궤적을 추론하도록 훈련 (보상함수를 먼저 학습하고, 추론한 보상함수를 이용해 스스로를 보상/처벌 하면서 학습)
- 마음이론이 필요
* 생태적 뇌 가설의 급속 뇌확장의 이유는 과일 식단 (영장류 뇌 확장 설명 또다른 이론)
- 초기 영장류 주식, 과일
- 땅에 떨어지기전에 잘 익은 상태로 매달린 상태, 다른 경쟁자 전에 가서 습득해야함
- 검색경로, 미래의 필요 시뮬레이션 해야함
* 인간만이 미래의 필요를 바탕으로 계획 수립 1970 by 비교심리학자 도리스 비쇼프퀠러, 노르베르트 비쇼프
- 침팬지, 원숭이도 계획함이 후에 발견
* 다른 누군가의 마음을 상상하는 것이 미래의 내 마음을 상상하는 것과 다를까?
- ●미래의 필요를 예측하는 매커니즘은 마음이론의 작동 메커니즘과 동일할지도 모름
* 자신의 마음으로부터 분리된 마음 상태(dissociated mental state)를 모델화 하는 일반적인 능력을 용도변경해서 마음이론과 미래 필요 예측에 사용할 수 있다 by 토마스 수텐도르프
- 증거
- 1. 마음이론, 미래 필요 예측 : 영장류에만 있음
- 2. 사람은 마음이론 과제, 미래필요예측 과제 모두에서 비슷한 실수함 (목마르면 남도 목마르다 생각, 배고프면 미래 음식예측에 부정확)
* 뇌의 등장부터 1년으로 환산하면, 크리스마스 이브쯤
* 혁신5 : 언어
- 숲이 사라지면서 도구 -> 전달하려면 언어 필요
- 언어를 가능하게 한 것은 오래된 구조의 용도변경
- 내적 시뮬레이션에 들어있는 요소에 이름을 붙임
- 뒷담화, 이타주의 , 처벌 -> 언어 발전의 선순환고리
- 집단지성 -> 뇌가 커지고, 화식
* 인간을 진정으로 독특한 존재로 만드는 것 -> 마음이 더이상 단독으로 존재하지 않고, 역사에 걸쳐 축적된 아이디어를 통해 서로 연결되어있다는 것
* 인간 뇌에만 있고 다른 유인원에는 없는 신경학적 구조는 발견안됨
* 단 하나의 예외가 있었다.
* 언어의 특이점 - 인간 집단은 백퍼 언어 사용
- 1. 선언적 명칭을 부여 (declarative label, symbol) : 이것은 '소'다
- 다른 동물은 유전적으로 새겨짐
- 선언적 명칭 vs 명령적 명칭(imperative label) : 명령적 명칭은 보상을 주는 명칭, '앉아, 기다려' - 기본적인 시간차 학습
- 2. 문법 (규칙)
- 주어-목적어/ 순서의 의미 / 시점 / 의미가 다른 관사
* 언어는 진화일까 문화일까
* 가르쳐봤으나
- 명령적 명칭만 가능, 문법이라 하기 어려운 수준
- 그러나 논쟁이 있음
* 신화 - 현대 인류 문명의 토대 by 철학자 존 설이 제기, 유발 하라리가 대중화
- 인간의 특이점 : 수없이 많은 낯선 사람과 지극히 유연한 방식으로 협동하기 때문
=> 생각 : 사피엔스에 자세히. https://brunch.co.kr/@greenful/19
* DNA와 비유
- DNA의 힘 : 구축한 산물(심장, 간,...)이 아니라, 그것을 통해 가능해진 과정(진화)
- 언어의 힘 : 그 산물(더 나은 가르침, 협동, 공통의 신화)가 아니라, 아이디어가 세대를 이어가며 전달되고 수정될 수 있도록 길을 터준 과정
- 밈meme by 리처드 도킨스, 이기적 유전자 : 아이디어가 진화한다, 타인에게 퍼져가는 문화적 썸띵
* 인간의 모든 발명은 그에 앞선 기본 구성요소가 축적되어 있어야 함
- 언어가 없는 동물은 내적 시뮬레이션이 축적되지 않음
- 축적이 없으면 영원히 개인 수준 복잡성 넘는 발명 불가
특이점은 이미 찾아왔다
* 축적된 아이디어 총합이 복잡성의 임계점에 도달 : 인간 뇌에 담을 수 없는 시점
* 세대를 넘어 전달하는 지식 범위 확장 4가지 사건
- 1. 더 큰 뇌
- 2. 집단 내에 사람 역할 전문화
- 3. 아이디어를 저장하는 뇌가 많아짐(인구 집단 규모&세대)
- 4. 문자의 발명
* 인간은 문화를 일종의 메타 생명체로 바꿈
- 메타 생명체의 의식은 세대를 거치며 수백만 뇌를 통해 흐르는 지속적 아이디어와 생각안에서 실체와
- 이 토대가 언어
* 브로카 영역 (Broca's area) - 말하는 능력
* 베르니케 영역 (Wernicke's area) - 말을 이해하는 능력
* 이렇게 말하고 싶지만 아님 : 언어가 뇌의 특정 영역에. 다른 지적 능력과 구분됨 : 진화가 우리 뇌에 짜 넣은 특유의 독립적 능력
- 새겉질은 이 두 영역을 새로 진화시켰고, 특정 하위 신경망이 탄생, 언어가 탄생 -> 사실은 더 복잡
* 운동겉질과 왼쪽 얼굴의 연결이 손상된 환자
- 미소를 지어보라고 하면 왼쪽 마비(오른쪽만 웃음)
- 농담을 들었을 때 미소(마비 없음)
=> 생각 : 매우 다양한 사례, 라마찬드란 박사의 두뇌 실험실 https://brunch.co.kr/@greenful/107
* 원숭이의 소리는 인간의 언어보다는 웃음 반응과 유사
- 적절한 감정이 없는 상태에서 소리를 만드는 것이 침팬지에게는 거의 불가능한 과제로 보인다 by 제인 구달
* 아이가 오랫동안 언어 교육 못받으면 언어 습득 불가
- 언어의 신경생물학적 수수께끼
- 새로 진화한 구조물에서 생겨나지 않음. 유인원의 시스템이 더 정교해져서 등장한 것도 아님
* 새 하늘을 나는 법 : 학습시스템 + 본능
* 교육과정은 모델 자체 만큼이나 중요
- 생후 4개월 : 원시대화 : 부모와 교대로 발성 표정 몸짓 교환, 부분적으로 유전적 대화 참여 본능있는 듯
- 9개월 : 공동관심 (joint attention) : 엄마가 바라보거나 가리키는 것 -> 이름을 말해줌
- 1년 : 선언적 명칭이라는 토대가 마련된상태로, 문법 적용해 문장으로 결합
- 새겉질의 오래된 정신화 영역을 용도 변경해서 언어라는 새로운 용도로 사용
* ●인간의 뇌에도 언어 기관이 따로 존재하지 않음
- 복잡한 뇌 영역 네트워크에서 기술을 학습할 수 있도록 강제하는 교육과정에 있다
- 인간만 언어를 배울 수 있는 이유가 이 때문
- 유인원이 기초적 언어를 배울 수 있는 이유도 이때문, 더 못나가는 이유는 학습 본능, 공동관심이 없음
* 아프리카 산맥 동쪽, 숲이 죽으면서 초원이 많아지고, 진화압이 작용 -> 인간으로 진화
- 서쪽유인원-침팬지, 동쪽유인원-인간
* 호모에렉투스
- 안락한 숲 서식지 사라짐 -> 초기엔 동물 사체 -> 육식으로 전환
- 초육식동물, 85% 육식 : 도구, 육식동물 다수 멸종
- 던지기 적합한 어깨와 몸통, 지구력 사냥(땀), 화식
- 출산의 딜레마 : 머리는 커야하는데, 직립하려면 골반이 좁아야함, 그래서 인간은 뇌성장에 12년 걸림(최장)
- 고기먹고 석기와 불쓰고 조산하고 일부일처제에 할머니 육아를 하고 털이 없고 땀흘리며 뇌가 큼
* 윌리스의 문제 wallace's problem : 언어에 대한 '진화론적' 설명 찾기
- 언어 진화의 중간단계 해독할 종이 없음
- 남은 단서
- 1. 후두와 성대 50만년전
- 2. 언어가 10만년 전에는 있었던 증거 : 상상을 조각, 추상적 동굴 미술, 기능없는 장신구
* 개인에게 적용되는 진화 논리를 똑같이 집단에게 적용하면?
- 언어 이득엔 이타적인게 많음
- 이타성 : 종의 생존에 유리, 개인이 공공선에 희생하므로
* 두가지 이타주의
- 1. 혈연선택 : 두명의 형제 또는 8명의 사촌을 위해 내 목숨 내놓겠다 by 진화생물학자 존 버든 샌더슨 홀데인
- 벌 집단의 희생 : 모두 형제(여왕벌)
- 2. 상호이타주의 (reciprocal altruism) : 네가 도우면 나도 돕는다
- 성공하려면 배신자 찾아 처벌해야만 함
* 집단지성의 등장
- 대화 70% 뒷담화 by 던바
- 뒷담화로 안정적 상호이타주의 시스템 구현 가능
* 퍼펙트 스톰 : 함께 일어나기 어려운 상황이 동시다발적 일어나 중대한 일이 발생할 수 있는 조건이 형성됨
- 뒷담화/이타주의/처벌 -> 집단커지고 -> 뇌크기 증가 진화압 -> 아이디어 많아지고 뇌크기 증가 -> 더 정교한 내적 시뮬레이션 -> 뇌크기 진화압 -> 열량섭취도 많이 하게 되고 -> 뇌커지고 -> 출산시기도 앞당기고 -> 언어학습
* 언어, 이타주의, 잔인성, 화식, 일부일처제, 조산, 뒷담화 => 인간의 의미를 만들어감
* 다른 주장
- 1. 굴절적응(exaptation) : 어떤 용도로 진화된 특성이 나중에야 다른 용도로 변경 (예: 깃털 : 단열->비행)
- 언어는 처음에 생각을 위해 진화했다가 나중에 혈연관계가 없는 개체와 소통하기 위해 굴절적응 by 촘스키
- 2. 스팬드럴 (spandrel) : 그냥 등장
- 짝짓기를 위한 울음에서 생긴 부산물
* 다양한 종이 번성했으나, 살육과 상호교배로 4만년 전에 단 한종의 인류만 -> 우리
* GPT-3과 언어 기능을 담당하는 새겉질 영역 모두 예측에 관여하는 것으로 보인다
* 왼쪽 2~4번 문제, 우리는 단순 예측이 아닌 상상을 했을 것 => 시뮬레이션
- 우측 GPT-3 대답 : 지하실 / 30미터 못잡아 / 1시간 뒤에 못가
* 기저율 무시하는 인간 바이어스
- 새겉질에 내적 시뮬레이션을 만들어 작동하고 그에 따라 추론하기 때문
* 인간 아이 언어학습
- 천적으로 타고난 공동관심 비언어적 메터니즘 모드로 들어간 후 물체에 이름부여: 이미 존재하는 내적 시뮬레이션 요소에 기호 연결
- 인간 뇌 : 언어 예측 시스템 + 내적 시뮬레이션
* 인간 언어의 막강함
- 단어를 이용해서 주변 사람과 동일한 내적 시뮬레이션을 만들어 낼수 있는 능력
=> 생각 : 우리와 LLM 은 동일한 내적 시뮬레이션을 만들고 있나
* 슈퍼인텔리전스 2014 by 닉 보스트롬
- 사고실험 : 종이 클립 생산량을 최대로 늘려라
* 밥 : 우리 헤어져. / 앨리스 : 어떤 여자야? by 언어학자 스티븐 핑커
- ●사람은 정신화로 이걸 해낸다
* 화나게 하는 말을 듣고 안들은 것으로 무효화 할 수 없다
- 우리 안에서 시뮬레이션을 일으키기 때문
* 위의 문제, GPT-4는 문제 없이 대답
- RLHF 영향
- CoT : 예측에 그치지 않고 추론을 하라고 하니, 실제로는 생각이 없는데도 생각이라는 창발적 속성을 보임
-> ●세상의 시뮬레이션을 만들어 생각하는 인간의 방식과는 다르지만.
* LLM은 오직 언어만으로 훈련받았으나 세상을 이해하는 것처럼 보이는데 성공
- 물리적 세상을 경험하지 않았으나 그 세상에 대해 정확히 추론
-> 생각 : 나는 아직 부족하다 했으나 저자는 충족한다고 본 듯. 충족인가.
* ● 하지만, 바깥세상에 대한 내적 모델이나 마음에 대한 다른 모델을 통합하지 않는다면 (시뮬레이션과 정신화를 통합하지 않는다면) 인간의 지능에 관한 본질적인 뭔가를 담아낼 수 없을 것
- 그리고 LLM을 더 빨리 도입하고 맡기는 결정이 많아질수록 이런 미묘한 차이가 중요해 질것
* 언어는 뇌의 내적 시뮬레이션을 들여다 보는 창
* 혁신1 조종
- 좋은것- 나쁜것
- 탐색
- 좌우대칭체계 - 이진법 - 단순화 - 최초의 뇌가 통합
- 신경전달물질로 상태 지속 유지
- 연합학습으로 자극의 상대적 감정가를 수정
- 정동의 초기 원형 등장 : 쾌락 고통, 포만, 스트레스
* 혁신2 강화
- 과거에 긍정적 감정가로 이어진 행동은 반복하고, 부정적 감정가 행동은 억제하도록 하는 모델없는 강화학습
- 척추동물
- 겉질은 패턴 인식과 공간지도 구축 담당, 바닥핵은 시행착오를 통한 학습 담당
- 지적 특성과 정동적 특성 함께 등장 : 누락 학습, 시간 지각, 호기심, 공포, 흥분, 실망, 안도
* 혁신3 시뮬레이션
- 포유류, 겉질 하위 영역이 현대의 새겉질로
- 상상을 통한 학습
- 계획 수립 발전
- 과거 사건을 재생(일화기억), 과거 대안 선택 고려(반사실적 학습)
- 미세운동 능력
* 혁신3 정신화
- 마음모델링, 다른 개체 마음도 시뮬레이션
- 영장류, 새겉질 진화
* 혁신5 언어
- 선언적 명칭과 문법
- 세대를 거치며 축적
* 지구 생명 나이 40억년, 태양 사망까지 70억년, 은하 붕괴까지 1000조년
* 혁신6 아마도 artificial superintelligence
- 인지용량 무한 확장, 복제, 재구성
- 개체성 불분명