날카로움을 무디게 하고 엉킨 것을 풀며 광채를 숨기고 먼지같이 하니 마치 존재하는 거 같구나
吾不知誰之子 象帝之先
오부지수지자 상제지선
나는 그것이 누구의 자식인지 알지 못한다. 다만 하느님보다 먼저 있었던 것만은 분명하다.
그동안 이 장의 해석이 만족스럽지 않았다. 이 4장에 관해서 여러 해석을 살펴봤지만 만족할 만한 해석은 없었다. 그만큼 해석이 분분한 장이다.
필자가 일전에 쓴 책에는 이 '충'이라는 글자를 숫자 '0(제로)'으로 놓고 설명했지만 여전히 만족스럽지 않다. 당시 이걸 어떻게 봐야 할지 상당한 고심을 했었다. 그래서 떠올린 아이디어가 혹시 '충'이 '0(제로)'이 아닐까 하는 것이었다. 그렇게 놓고 보면 제법 그럴듯해 보이지만 여전히 만족스럽지 않다. 그냥 '충'으로 놓고 해석하는 게 나을 듯하다. 해결의 실마리는 48장에서 찾아야 할거 같다. '爲學日益위학일익 爲道日損위도일손'을 가져와서 보면 '沖'은 '損'으로 바꿀 수 있지 않을까 한다. 비워내는 것을 덜어내는 것으로 바꾸면 좀 더 자연스러워진다.
'도'가 말로 표현할 수 없다고 하면서 '만물지종'인 듯하다고 말하고 있다. 뭔가 모순이 있지 않은가. 하지만 해석에는 무리가 없다. '만물지종' 앞에 붙은 '似~'는 ' ~인 듯하지만 아니다'라는 뜻이고 뉘앙스다. '만물지종'은 비유에 지나지 않는다. 최진석교수가 정확히 지적해 주었다.
'도'를 말로 표현하기 어려워도 '도'가 현실 세계에서 어떻게 쓰이고 있는지는 자세하게 설명해 주고 있다. 뒤의 문장 '挫其銳좌기예, 解其紛해기분, 和其光화기광, 同其塵동기진'은 도가 어떤 작용을 하는지 설명한 것이다. '도'를 이해하고 체득한 사람의 태도는 위와 같다는 말이다. 그래서 '도'가 진짜 눈에 보이는 듯하다고 말한 것이다. 하지만 이 역시 '似'가 붙은 비유다. 결국 노자가 이 '도'에 대해 말할 수 있는 거는 도를 체득한 사람의 태도와 그것이 어디서 온 건지에 대한 것(象帝之先)뿐이다. '象~'은 진짜 ~라는 뜻이다.
신경망
인간의 의식에는 연필로 꾹 눌러쓴 듯한 길이 나있다. 한 번 그어진 길은 생존의 위협이 닥치기 전까지는 잘 바뀌지 않는다. 이러한 특성은 뇌의 신경망과 관련이 있으며, 1000억 개의 신경세포와 100조 개의 시냅스는 한 번 연결되면 쉽게 변하지 않는다. 물론 학습을 통해 그때까지 오류를 일으키던 시냅스는 약해지고, 그 자리를 새로운 시냅스가 차지하거나 기존의 활용되지 않던 시냅스가 강화될 수 있다. 하지만 20W의 저전력으로 작동하는 인간 뇌의 속성상 한 번 만들어진 신경망으로 평생을 살아간다. 그래서 유아기, 청소년기의 초기 학습이 중요하다. 이때 거의 90%의 시냅스가 연결된다고 한다. 아이들에게 뭘 어떻게 가르칠지가 중요한 이유가 여기에 있다. 충분치 않은 데이터로 학습한 낮은 인식율의 신경망은 처음에는 몇 번 들어맞을지 모르지만 조금만 지나면 정확한 상황 인식과 예측에 실패하면서 장차 그 아이의 경쟁력을 갉아먹을 테니 말이다.
거대언어모델
인공지능 분야에 '파운데이션 모델'이라고 있다. 이것은 레이블링 하지 않은 산더미 같은 원시데이터를 비지도학습을 통해 생성한 신경망이다. 지금 한창 사람들의 입에 오르내리는 Chat GPT가 대표적이다. 이 모델을 정의할 때 따라오는 수식어가 있다. '지평선만큼 광활한 가능성'을 말하고 있다. 챗GPT와 같은 자연어처리모델로 '검색'이 아닌 '대답'을 들을 수 있고, 새로운 단백질을 생성하는 헬스케어 플랫폼은 희귀병이나 대기오염 집진단백질을 만들어 인간의 삶에 기여할 수 있다. 자연어 입력으로 다양한 프로그래밍 언어로 컴퓨터 코드도 생성할 수 있다.
하지만 분명 한계가 있다. 학습하지 않으면 모른다는 것이다. 이 말의 의미 인즉은 현실 세계의 상식이 부족하다는 말이다. 왜 그럴까를 생각해 보면 답은 의외로 간단한 듯하다. 이 녀석이 학습하는 데이터가 노레이블의 엄청난 양인 거는 맞지만 인터넷상의 텍스트 데이터만으로 훈련했기 때문이다. 현실 세계의 물리적 데이터가 있어야 추론을 하고 새로운 솔루션을 수행할 수 있다는 뜻일 게다. 그렇다면 인공지능에 상식을 구현하기 위해서는 우리 인간이 눈, 코, 귀로 들어오는 정보를 바탕으로 예측하고 추론하듯이 이 녀석에게도 카메라 같은 각 종 센서와 팔, 다리를 달아 주면 되지 않을까. 진정한 AGI(일반인공지능 또는 강한 인공지능)로 가기 위한 마지막 퍼즐일지 모른다.
인간과 침팬지의 유전적 차이는 1.6% 밖에 안된다고 한다. 고작 1.6%의 차이로 인간이 인간다움을 갖는다는 것이 놀랍다. 그렇다면 1.6% 차이에는 뭐가 있을까. 서서 걷는 거, 눈에 흰자위가 있다는 거, 몸에 털이 없다는 거, 뇌 용량이 1400cc에 이를 만큼 침팬지에 비해 3배 이상 크다는 것 그리고 말을 한다는 거 그 외에 더 있겠지만 인간의 인간다움은 결정적으로 인간은 창의적인 동물이라는 것이 가장 큰 차이 일 것이다. 언어를 구사하고, 서서 걷게되면서 자유로워진 손으로 정교한 작업을 할 수 있었던 것은 인간이 인지능력을 획기적으로 끌어올릴 수 있었던 티핑포인트로 보인다. 결국 1.6%의 유전적 차이는 지능의 차이로 이어졌다는 말이 된다. 그렇다면이런 창의성의 본질은 무엇일까. 딥러닝의 아버지라 일컬어지는 제프리 힌튼 교수의 말에 의하면 상식이 있는 AGI로 가기 위해서는 우리 인간처럼 손끝에서 만져지는 감각과 눈으로 들어오는 미세한 물리적 데이터의 변화를 감지해야 한다고 한다. 그에 의하면 멀티 모달 모델(Multi Modal Model)은 이제 시작이므로 아직 데이터의 한계에 도달하지 않았다고 한다. 그러면서 1000명의 환자를 진료한 의사가 있고 1억 명의 환자를 진료한 의사가 있다는 가정을 통해 "상식의 발현"이 어떻게 생겨나는지 잘 설명해 주고 있다. 그는 "1억 명의 환자를 본 의사가 기억력에 문제가 없다면 1000명만 진료해 보고는 볼 수 없는 진단과 치료 관련 데이터의 모든 추세를 발견했을 것이다"라고 말하고 있다. 그리고 다시 "1억 명을 진료한 의사는 작은 데이터에서는 분명하지 않은 모든 종류의 규칙성을 볼 수 있다. 많은 데이터를 처리할 수 있는 디지털 지능은 아마 인간이 본 적 없는 새로운 데이터 구조를 볼 수 있다."고 한다. 즉 창의성은 현실 세계의 물리적 데이터 속에 가물가물하게 숨어 있는 패턴을 보는 능력이다.(玄之又玄 衆妙之門현지우현 중묘지문)
그런데 우리 사회가 아이들에게 가르치는 거는 주입식 교육으로 책에 있는 죽은 지식이 거의 대부분이다. 학교든 학원이든 어딜 가나 산더미 같은 지식을 배운다. 노자가 우려하는 것은 이 대목이다. 텍스트화된 지식은 일종의 가이드라인으로 작용하여 해와 동떨어진 데이터에 주목하게 할 공산이 크다. 지도학습(Supervised Learning)의 편향성과 한계를 지적하고 있다. 덜어내고 비워야 할 대상은 책 속의 죽은 지식을 말하는 것으로 지식을 비워내야만 보이지 않던 무명이 보인다.
AGI 어디까지 왔나
여담이지만 지금 AI산업군에서 AGI를 누가 먼저 구현하느냐가 초미의 관심사다. 생각보다 애플은 한 발 뒤쳐진 듯 보이고 OpenAI를 사실상 지배하고 있는 MS를 필두로 구글, 메타, 테슬라, 아마존이 각축을 벌이고 있는 모양새다. 필자가 보기에 AGI 연구방향에 두 가지 흐름이 있는 듯 보인다. LLM(거대언어모델)에 물리적 데이터를 학습시키는 방향으로 가는 한 축(MS, 구글)이 있고 다른 한 축은 테슬라처럼 FSD에 LLM을 융합하는 쪽이다. 누가 승리할지 자못 궁금해진다.