정렬의 시대: 언어가 프로토콜이 될 때

by 지적 지니

두 번의 정렬, 하나의 구조

역사에는 인간이 자신을 기계에 맞추어 재편한 순간들이 있다. 산업혁명은 그 최초의 전면적 사례였다. 기계 이전의 인간은 자연의 리듬으로 살았다. 해가 뜨면 일하고, 배가 고프면 먹고, 일이 끝나면 쉬었다. 역사학자 E. P. Thompson이 '과제 중심(task-oriented)'이라 명명한 이 시간 감각은 인간의 신체와 자연 사이의 유기적 교신이었다. 그러나 공장이 들어서면서 이 감각은 파괴되었다. 기계는 인간에게 자신의 리듬을 요구했다. 출근 시각, 교대 시간, 생산 할당량—모든 것이 기계의 효율을 위해 인간의 신체 리듬을 분절하고 표준화한 결과물이었다. 루이스 멈퍼드는 이것을 간파하여 "증기기관이 아니라 시계야말로 근대 산업 시대의 핵심 기계"라고 말했다. 기계가 인간에게 적응한 것이 아니라, 인간이 기계에게 적응한 것이다. Thompson이 '내면적 시간 표기법의 재주조'라 부른 것처럼, 변화는 행동에 그치지 않았다. 의식 자체가 바뀌었다. 시간을 분·초로 분절해서 인식하고, 정시 출근을 덕목으로 여기고, 시간 낭비에 죄책감을 느끼는 근대적 심리 구조가 탄생했다. 인간은 자신이 기계에 맞추어 쓰였다는 사실을 잊은 채, 그것을 자연스러운 인간의 조건이라고 믿게 되었다.


지금 두 번째 정렬이 시작되고 있다. 이번에 기계가 요구하는 것은 인간의 시간이 아니라 인간의 언어다. 그리고 언어는 시간보다 훨씬 깊은 곳에 있다. 언어는 세계를 분절하는 방식 자체이기 때문이다.


기계는 언어가 프로토콜이 되길 원한다

프로토콜(protocol)이란 서로 다른 시스템이 교신하기 위해 합의한 규칙의 집합이다. TCP/IP는 인터넷의 프로토콜이다. 어떤 기계도, 어떤 언어도, 어떤 운영체제도 이 규칙을 따르면 데이터를 주고받을 수 있다. 프로토콜의 핵심은 표현의 풍요가 아니라 전달의 확실성이다. 프로토콜은 모호성을 제거하고, 예외를 최소화하고, 처리 효율을 극대화한다. 프로토콜은 아름답지 않다. 그것은 기능적이다.


LLM이 언어생활에 전방위적으로 침투할 때, 자연어에 가해지는 압력은 바로 이 방향이다. 자연어를 프로토콜에 가깝게 만드는 압력. 모호성을 줄이고, 예외를 제거하고, 기계가 처리하기 쉬운 구조로 언어를 수렴시키는 압력이다.


이 압력이 작동하는 기제는 단순하다. 대형 언어 모델의 학습 데이터 중 영어가 압도적 다수를 차지하며, 중국어가 그 뒤를 따른다. GPT-3 학습 데이터에서 한국어는 약 0.017%, Llama 2에서도 0.06%에 불과하다. 두 지배 언어는 모두 고립어(isolating language)다. 고립어의 원리는 명료하다. 단어의 위치가 그 문법적 성분을 결정한다. "Dog bites man"과 "Man bites dog"는 같은 단어들로 완전히 다른 사건을 기술한다. 위치가 의미를 만든다. 이것은 프로토콜의 논리와 정확히 일치한다. 슬롯의 위치가 데이터의 의미를 결정한다.


Llama-2에 대한 실증 연구는 이 구조를 확인한다. 일본어로 입력이 들어와도 모델의 중간 레이어에서 영어적 추상 표현으로 변환되었다가 다시 일본어로 출력되는 3단계 구조가 관측되었다. 기계의 내부에서 세계의 모든 언어는 일단 영어식 고립어 논리로 번역된다. 그 변환 과정에서 소실되는 것들이 있다. 그리고 그 소실이 지금 인간의 언어생활로 역류하고 있다.


소실되는 것들

한국어는 교착어다. 단어에 붙는 형태소가 문법 관계를 표현한다. 격조사 이/가 , 을/를 , 에서, 에게는 단어의 위치가 아니라 단어에 붙는 형태소가 문장 성분을 결정한다. "나는 밥을 먹었다"와 "밥을 나는 먹었다"는 어순이 달라도 같은 명제를 표현한다. 위치가 아니라 형태가 의미를 만든다. 그리고 이 자유로운 어순은 단순한 문법적 여유가 아니다. 그것은 표현의 수단이다. "먹었다, 나는 밥을"은 완료의 감각을 전경화한다. "밥을, 나는 먹었다"는 목적어에 심리적 초점을 놓는다. 어순의 이탈 자체가 강조의 언어다.

서울대 연구가 보여주듯, LLM은 '아이가 망고를 먹었어'와 '아이는 망고를 먹었어'의 정보구조 차이를 동일한 의미로 처리하여 '孩子吃了芒果'로 일원화해 번역한다.


이/가/와/은/는 의 화제·초점 대립, 이 미묘한 의미 분기를 기계는 능숙히 변별하지 못한다. 기계가 변별하지 못하는 것은 서서히 인간에게도 불필요한 것이 된다. 이것이 소실의 경로다. 격조사의 탈락이 가속화되고 있다. 한국어 프롬프트에서 "이 문서 요약해줘"는 표준적 표현이 되었다. "이 문서를 요약해줘"의 목적격 조사 '를' 이 탈락한다. 구어체에서 이미 진행 중이던 이 현상이, LLM 인터페이스라는 문어 환경에서도 정상화된다. 어순이 경직되고 있다. LLM은 거의 예외 없이 표준 어순을 생성하고, 사용자들은 그 출력에 반복적으로 노출된다. 비표준 어순이 오류처럼 느껴지기 시작한다. 강조의 도구가 어순이라는 구조적 수단에서 "특히", "무엇보다"라는 어휘적 표지로 이행한다.


한국어의 연결어미— -어서 , -지만, -므로, -는데 —가 담당하던 절간 의미 관계가 단문의 나열과 병치로 대체된다.Kim et al.의 연구는 이 소실이 단순한 불편함에 그치지 않음을 보여준다. 조사를 생략하거나 비정형 어순을 사용해도 일반적 과제 정확도에는 큰 영향이 없었으나, 논리적 추론 과제에서는 정확도가 유의미하게 하락했다. 조사는 단순한 문법 장식이 아니다. 그것은 논리의 인프라다. 조사가 소실될 때 소실되는 것은 예의나 격식이 아니라, 명제들 사이의 관계를 정밀하게 추적하는 언어적 능력이다.


경어법의 구조도 마찬가지다. 한국어의 존대법은 동사 어미에 화자·청자·주어의 삼중 사회적 관계를 동시에 인코딩하는 정교한 시스템이다. "선생님이 오셨어요"는 단 하나의 어미로 주체 존대와 청자 중간 대우를 동시에 실현한다. LLM은 이 복잡성을 충분히 구현하지 못하고 평탄한 문체를 선택한다. 사용자들이 이 중립적 경어에 익숙해질 때, 굴절적 경어는 "님"과 "감사합니다"라는 어휘적 표지의 위치적 배치로 대체된다. 관계가 동사 속에 녹아들었던 언어에서, 관계가 별도의 단어가 되어 슬롯에 삽입되는 언어로의 이행이다.


자발적 정렬의 메커니즘

이 변화가 강제로 이루어지지 않는다는 점이 핵심이다. 그것은 편리함의 형태로 도착한다.

산업혁명 초기, 시간 규율은 명시적 강제를 필요로 했다. 공장주들은 종을 울리고, 규칙을 게시하고, 지각을 벌금으로 처벌했다. 일부 공장주들은 더 많은 노동을 착취하기 위해 공장 시계를 임의로 앞당기거나 뒤로 돌리기도 했다. 노동자들은 저항했다. 러다이트 운동은 그 저항의 극단이었다. 그러나 저항은 결국 내면화로 귀결되었다. 수 세대가 지나자 알람 시계 없이는 일어나지 못하는 인간이 탄생했다. 규율이 습관이 되고, 습관이 본성이 된 것이다.


LLM에 의한 언어 정렬에는 강제가 없다. 조사를 생략한 프롬프트가 더 빠르게 처리된다. 위치중심적 문장이 더 명확하게 해석된다. "내일 회의 자료 요약 3페이지"라고 쓰면 기계는 정확히 응답한다. 사용자는 기계에 정렬함으로써 즉각적 보상을 얻는다. ChatGPT 출시 이후 AI 선호 단어들이 인간 글쓰기에서 측정 가능한 수준으로 증가했다는 연구 결과는 이 자발적 동화의 속도를 보여준다. LLM이 생성하는 문장 구조가 메아리처럼 인간에게 역류하는 "닫힌 문화 피드백 루프"가 형성되고 있다.


2026년 USC Dornsife의 Sourati 연구팀이 Trends in Cognitive Sciences에 발표한 결과는 이 루프가 언어를 넘어 추론 방식 자체에까지 도달했음을 보여준다. LLM이 선호하는 선형적 '체인 오브 쏘트' 논리 방식이 직관적·추상적 추론 방식을 대체하고 있으며, 그룹이 LLM을 함께 사용할 때 개인이 사용할 때보다 더 적고 덜 창의적인 아이디어를 생성한다. Sourati는 이것을 경고한다. "우려되는 것은 단순히 LLM이 사람들이 쓰고 말하는 방식을 바꾼다는 것이 아니라, LLM이 무엇이 신뢰할 수 있는 발화이고, 올바른 관점이며, 심지어 좋은 추론인지를 은밀히 재정의하고 있다는 것이다." 이것은 Thompson이 말한 '내면적 시간 표기법의 재주조'와 구조적으로 동일하다. 정상성의 기준 자체가 기계의 내부 구조에 맞추어 재정의되고 있다.


저항의 동기를 찾기 어렵다는 것이 이 정렬을 산업혁명의 정렬보다 더 깊게 만드는 조건이다. 공장 노동자는 기계에 맞추면서 고통받았다. LLM 사용자는 기계에 맞추면서 편리함을 느낀다. 편리함으로 포장된 정렬은 저항의 거점을 지운다.


프로토콜화된 언어가 사회에 남기는 것

언어의 프로토콜화가 언어 내부에만 머무른다면 그것은 언어학의 문제다. 그러나 언어는 사회관계의 인프라이기도 하다. 언어가 프로토콜이 될 때, 사회는 무엇을 잃는가.


첫째, 관계의 밀도가 줄어든다. 한국어 경어법은 단순한 예의의 형식이 아니다. 그것은 화자가 매 발화마다 상대방과의 관계를 의식하도록 강제하는 언어적 장치다. "드세요"와 "먹어요"와 "먹어"는 같은 명제를 전달하지만, 세 발화는 완전히 다른 관계 위상을 실현한다. 이 굴절이 평탄화될 때, 언어에서 관계를 의식하는 의무가 사라진다. 어휘적 경어 표지("님", "감사합니다")는 관계의 위상을 표시하지만, 굴절적 경어법처럼 매 동사마다 관계를 의식하도록 강제하지는 않는다. 언어가 프로토콜이 될 때, 관계는 슬롯에 삽입되는 데이터가 된다.


둘째, 세대 간 해석 격차가 벌어진다. 굴절적 언어를 완전히 구사하는 세대와 위치중심적 언어에 익숙한 세대 사이에는 단순한 어휘 차이 이상의 단절이 생긴다. 같은 단어를 쓰면서 다른 방식으로 세계를 분절하는 두 세대는, 번역이 필요한 사이가 된다. 언어 내부에 단층이 생기는 것이다. 산업혁명이 농촌적 시간 감각과 도시적 시간 감각 사이에 문화적 단층을 만들었던 것처럼.


셋째, 문해력의 기준이 하향 재정의된다. 산업혁명이 수공예 숙련 기술을 탈숙련화(deskilling)했듯, LLM이 불완전한 문장도 처리함이 확인되면서 정확한 문법은 더 이상 필요 없다는 인식이 확산될 수 있다. 그러나 Kim et al.의 연구가 보여주듯, 조사의 탈락은 논리적 추론 과제에서 실질적 정확도 저하를 유발한다. 문해력의 기준이 낮아지는 것이 아니라, 낮아졌다는 사실을 인식하지 못하게 되는 것이다.


넷째, 언어적 다양성이라는 인류의 인지 면역체계가 약화된다. 언어는 단순히 소통 수단이 아니다. 서로 다른 언어는 서로 다른 방식으로 세계를 분절하고, 그 분절의 다양성은 인류가 문제를 사고하는 방식의 다양성을 보존한다. 하버드 연구팀의 평가에서 GPT-4 등 주요 LLM은 WEIRD(Western, Educated, Industrialized, Rich, Democratic) 인구 집단의 언어와 추론 방식에 가장 가깝게 군집되었다. 세계의 언어생활이 이 모델들을 통해 매개될 때, 인류의 인지 다양성은 하나의 기준점을 향해 수렴한다. 농경적 신체 리듬의 다양성이 공장 시계의 단일 리듬으로 수렴된 것처럼.


언어가 프로토콜이 된 세계

극단까지 밀어붙여 생각해보자. 언어의 프로토콜화가 완결된 세계는 어떤 모습인가.

그 세계의 언어는 효율적이다. 슬롯이 명확하고, 어순이 예측 가능하고, 모호성이 최소화되어 있다. 기계는 이 언어를 완벽하게 처리한다. 번역 오류가 줄어들고, 자동화가 가속화되고, 국제 커뮤니케이션의 마찰이 감소한다. 이것들은 실질적 이득이다.


그러나 그 세계의 언어는 무언가를 더 이상 할 수 없다. "먹었다, 나는 밥을"이라는 도치가 만들어내는 완료의 전경화를 할 수 없다. -는데 가 열어두는 화자의 심리적 여백을 남길 수 없다. 이/가/와/은/는 의 대립이 만드는 정보 구조의 미세한 층위를 구별할 수 없다. 그리고 그 불능을 불능으로 인식하지 못한다. 왜냐하면 그것을 인식하는 데 필요한 언어 자체가 없어졌기 때문이다.


이것이 프로토콜화의 역설적 완결이다. 프로토콜은 시스템 간 교신을 가능하게 하면서, 동시에 프로토콜이 표현할 수 없는 것을 사고 불가능한 것으로 만든다. TCP/IP는 아름답지 않다. 그것은 데이터를 전달할 뿐이다. 언어가 TCP/IP가 될 때, 언어는 더 이상 아름답지 않다. 그것은 정보를 전달할 뿐이다.


오웰의 뉴스피크는 사고의 통제를 위해 언어를 의도적으로 단순화했다. 가능한 표현의 범위를 줄임으로써 사고 가능한 범위를 줄이는 것이 뉴스피크의 설계 원리였다. LLM에 의한 언어 프로토콜화는 그 의도 없는 버전이다. 아무도 설계하지 않았다. 단지 수십억 개의 자발적 선택들이 집합된 결과다. 의도의 부재가 이 변화를 막을 이유가 되지는 않는다.


세 번째 자연 이전에

인간은 두 개의 자연을 살아왔다. 첫 번째 자연은 생물학적 자연이다. 해와 달과 계절에 따른 원초적 리듬. 두 번째 자연은 산업적 자연이다. 알람과 교대 근무와 표준시로 재편된, 그러나 너무 익숙해진 나머지 자연처럼 느껴지는 기계적 리듬. 그것이 기계의 요구였다는 사실은 망각 속으로 사라졌다.


지금 세 번째 자연이 형성되고 있다. 언어적 자연. LLM의 위치론적 구조에 정렬된, 프로토콜에 가까운 언어로 세계를 분절하는 인지 양식. 이것 역시 세대가 지나면 자연처럼 느껴질 것이다. 그것이 기계의 요구였다는 사실은 다시 한번 망각 속으로 사라질 것이다.


경고는 이 과정 자체를 막을 수 없다. 산업혁명을 막을 수 없었던 것처럼. 그러나 산업혁명의 역사는 반작용이 가능하다는 것도 보여준다. 노동권 운동은 기계의 리듬에 인간의 조건을 협상해 넣었다. 교착어 특화 LLM이 개발되고, 서울대 Thunder-LLM처럼 한국어 형태론을 내재화한 모델이 등장하는 것은 그 역방향 경로의 가능성이다. USC 연구팀이 AI 개발자들에게 모델에 다양한 언어와 추론 방식을 의도적으로 포함시킬 것을 권고하는 것 역시 같은 방향의 대응이다.


그러나 가장 선행되어야 할 것은 인식이다. 산업혁명기의 시간 규율에 맞서기 위해서는, 먼저 자신이 기계의 리듬에 정렬되어 있다는 사실을 의식해야 했다. 두 번째 정렬에 맞서기 위해서도 같은 의식이 필요하다. 내가 격조사를 생략하는 이유가, 그것이 자연스러워서가 아니라 기계가 더 잘 처리하기 때문일 수 있다는 의식. 내가 도치를 피하는 이유가, 그것이 오류여서가 아니라 LLM의 출력물에 반복 노출된 결과일 수 있다는 의식. 언어 습관이 단순히 개인의 선택이 아니라 시스템의 구조에 의해 형성된다는 의식.


언어는 도구이기도 하지만, 동시에 도구를 사용하는 자가 그 도구에 의해 형성되는 공간이기도 하다. 우리가 어떤 언어로 생각하느냐는, 우리가 무엇을 생각할 수 있느냐를 조건 짓는다. 그 조건을 기계에 위임하는 일은, 기계가 무엇인지를 충분히 이해한 뒤에 이루어져야 한다. 지금은 아직 그 이해가 완성되기 전이다.

작가의 이전글제국에서 마피아로