brunch

인공지능으로 구축하는 월드 모델과 들쭉날쭉함의 원인

지식 덕후의 탄생

by 안영회 습작

마침 <암묵적 세계 모델과 명시적 언어 모델>을 쓰고 난 직후에 읽은 미라클레터 기사로 인해 쓰게 되는 글입니다.


인공지능으로 구축하는 월드 모델 프로티어의 등장

낱말은 같은 것을 지칭하는 듯하지만 <암묵적 세계 모델과 명시적 언어 모델>에서 제가 쓴 세계 모델은 자연적으로 만들어진 것을 지칭하는 말입니다. 위키피디아에서 World model 페이지를 찾아가면 Mental model로 포워딩(자동 안내)합니다.

그렇게 보면 인공지능 업계에서 만들고 있는 '월드 모델'이라는 개념보다는 아직 우리 몸에서 만들어지는 멘탈 모델(혹은 정신 모델)이 더 보편적으로 쓰여 온 개념이라는 사실을 짐작할 수 있습니다.


그런데 인공지능 업계는 언어 모델을 넘어서서 인공적인 월드 모델을 만들고 있어 혼선이 생길 수 있습니다. 아무튼 같은 이름으로 불리는 서로 다른 모델의 존재에 관심을 갖게 된 계기는 앞서 언급한 기사에서 소개한 구글의 지니 3 소개 글 때문입니다.

먼저 기사에서 월드 모델을 소개하는 내용을 옮겨 봅니다.

지니 3의 핵심은 '월드 모델'(World Model)이라는 개념에 있습니다. 월드 모델은 단순히 그림을 그리는 생성형 AI가 아니라 주어진 정보를 바탕으로 세상의 규칙과 물리 법칙을 이해하고 재현합니다. 예를 들어 '눈 덮인 숲속에서 모험하기'라는 문장을 입력하면 눈송이가 떨어지고 발자국이 남는 환경이 만들어집니다. 그리고 그 속에서 캐릭터를 직접 조종하며 길을 찾아갈 수 있습니다.


공간 컴퓨팅(Spatial computing)과 월드 모델

한편, 기사에서 또 눈에 띈 단어는 '공간 기억력'이었습니다. 이는 '공간 컴퓨팅(Spatial computing)' 맥락에서 나온 개념입니다.

공간 컴퓨팅은 단순히 가상현실(VR)이나 증강현실(AR)만을 의미하지 않습니다. 현실 세계와 디지털 세계의 경계를 허물고, 사람·사물·정보가 실시간으로 상호작용할 수 있는 환경을 만드는 기술입니다. 애플이 지난해 초 출시한 '비전 프로'가 대표적인 예인데요. 이 기기는 단순한 헤드셋이 아니라, 눈·손·목소리로 디지털 객체를 조작할 수 있는 '공간 컴퓨터'라는 새로운 개념을 제시했습니다.

제가 이 말을 들었던 순간도 애플 비전 프로가 나왔던 때인 듯합니다. 위키피디아 페이지를 보면 공간 컴퓨팅 제품 소개에 애플 비전 프로가 등장합니다.

또한, 놀랍게도 위키피디아에 공간 기억(Spatial memory)에 대한 페이지가 있습니다. 하지만, 인공이 아닌 사람의 공간 기억을 다루고 있습니다.

인지 심리학과 신경 과학에서 공간 기억은 위치로 가는 경로를 계획하고 물체의 위치나 사건의 발생을 기억하는 데 필요한 정보를 기록하고 복구하는 것을 담당하는 기억의 한 형태입니다. 공간 기억은 공간에서 방향을 잡는 데 필요합니다. 공간 기억은 자기중심적 공간 기억과 타자중심적 공간 기억으로 나눌 수도 있습니다.

우리가 일상에서 만나는 '길치' 같은 낱말과 연관이 있는 개념이라 하겠습니다.


경계가 사라지는 일과 품질이 들쭉날쭉인 현상

마지막으로 기사에서 '가상과 현실 경계가 사라진다'라고 이름 붙인 단락의 내용에 눈에 들어왔습니다.

지니3와 같은 월드 모델 기술이 성숙해질수록 우리는 점점 더 현실과 가상의 경계를 구분하기 어려운 시대에 접어들고 있습니다. 예전에는 가상현실(VR)이라는 말이 곧 어색한 그래픽과 제한된 움직임을 의미했습니다. 하지만 이제는 텍스트 한 줄이 실제와 거의 구분되지 않는 3D 환경을 만드는 시대가 열리고 있습니다. 특히 이 환경 속에서의 행동이 즉시 반영되고, 시간이 지나도 그 흔적이 남는다는 점은 '가상'이라는 단어마저 재정의하게 만듭니다.

게임이나 메타버스와 같이 산업에서 기존에 만들어 온 유산들과 접목하여 드러날 미래에 대한 이야기인데, 그 내용 자체보다는 '경계가 사라진다'는 표현에 주목했습니다. 어쩐지 최근에 인공지능 관련한 논문이나 영상에서 반복적으로 봤던 'jagged'라는 단어를 연상시켰기 때문입니다.

둘은 명확한 상관관계가 있을까요? 먼저 콜린스 사전 풀이를 봅니다.

Something that is jagged has a rough, uneven shape or edge with lots of sharp points.

그리고, 제 기억 속에 남았던 jagged은 흔적을 찾아봅니다. 첫 번째는 구글 CEO인 순다르 피차이 영상에서 언급한 'AJI (Artificial Jagged Intelligence)'라는 용어입니다.[1]

이 용어는 현재 AI의 극적인 발전과 동시에 특정 부분에서는 아직 잘 작동하지 않는 불균형한 특성을 나타냅니다. 예를 들어, AI가 눈부신 발전을 보여주지만, 동시에 숫자 계산 오류를 범하거나 "strawberry"에서 'R'의 개수를 세는 것과 같은 간단한 작업에서 막히는 경우가 있다는 것입니다.

따라서, 'jagged'는 AI의 능력이 매끄럽지 않고 들쑥날쑥하다는 의미로 사용되며, 특정 영역에서는 매우 뛰어나지만 다른 영역에서는 여전히 부족하거나 예상치 못한 오류를 보인다는 점을 강조합니다. ... 선다 피차이(Sundar Pichai)는 현재 AI가 바로 이 'AJI' 단계에 있다고 설명합니다.

다음으로 OECD에서 작성한 <Introducing the OECD AI Capability Indicators> 보고서에서도 등장합니다.[2]

• "The development of LLM capabilities has been described as a "jagged frontier" (Dell’Acqua et al., 20232) because of relatively advanced capabilities in some domains (e.g. breadth of factual knowledge) and limited ones in others (e.g. formal reasoning)."

이 문장과 그 의미를 요약하면 다음과 같습니다:

의미: 대규모 언어 모델(LLM)의 역량 발전은 "들쭉날쭉한 경계(jagged frontier)"로 묘사됩니다. 이는 AI의 역량이 모든 분야에서 균일하게 발전하는 것이 아니라, 일부 영역(예: 사실적 지식의 폭)에서는 상당히 발전했지만, 다른 영역(예: 형식적 추론)에서는 제한적인 모습을 보이는 불균형적인 발전 양상을 의미합니다. 이러한 들쭉날쭉한 특성은 미래 AI 발전, 심지어 가상의 인공 일반 지능(AGI) 시스템에서도 지속될 가능성이 있다고 언급됩니다


심지어 'Jagged Technological Frontier'라는 표현이 제목에 들어간 논문이 여러 차례 다른 논문에서 인용되기도 했습니다. 그런 현상들을 관찰하면서 인류의 두뇌로 만든 결과물과 인공지능에 의해 만든 결과물이 섞이면서 새로운 경계가 만들어지고 있는 중이라 들쭉날쭉 하게 Jagged 보일 수도 있다는 생각이 들었습니다.


주석

[1] 다음은 해당 영상을 출처에 넣고 구글 노트북LM에게 jagged가 쓰인 부분을 물어 얻은 내용의 일부입니다.

[2] 앞서와 비슷하게 OECD 보고서를 출처에 놓고 구글 노트북LM에게 다음과 같은 프롬프트를 입력한 결과입니다.

Jagged라는 내용이 등장하는 문장과 의미를 요약해 주세요.


지난 지식 덕후의 탄생 연재

(51회 이후 링크만 표시합니다.)

51. 어떻게 생각이 이론과 방법으로 진화하는가?

52. 빠른 진전이 만드는 디플레이션 기술 혁명

53. 공동지능co-intelligence 길들이기

54. 자기 중심성에서 벗어난 사고를 돕는 과학의 쓸모

55. 중심을 어디에 두는가만으로도 달리 보이는 세상

56. 뉴스를 빠르고 유익하게 소비하기 2025

57. 구글 노트북LM을 이용한 기사 내용 내비게이션

58. 브라우저가 아닌 다양한 플랫폼으로 분산된 검색 욕구

59. AI알못이 AI 논문을 읽고 얻은 호기심

60. 몸으로 체득하는 지식만 기억이 되어 작동한다

61. Time Horizon은 시간지평인가 시간적 범위인가?

62. 미디어 문해력, 협상론적 세계관 그리고 문화의 힘

63. 적대적 트리거와 충조평판 그리고 감정의 민첩성

64. 기억의 3 계층 그리고 점진주의와 프레임 문제의 관련성

keyword
이전 13화적대적 트리거와 충조평판 그리고 감정의 민첩성