I. 자연어는 어떻게 변해왔는가 — 인간 간 상호작용의 압축사
자연어의 역사를 이해하려면, 언어가 처음부터 "소통의 도구"가 아니었다는 사실에서 출발해야 한다. 언어는 환경 압력에 대한 적응적 압축(adaptive compression)이었다. 유인원의 경고 울음에서 초기 호모 속(Homo)의 원시 발화(proto-speech)로의 전환은, 정보 전달의 효율성이 생존과 직결되는 환경에서 벌어진 일이다. 여기서 핵심적 관찰이 하나 있다: 언어는 태초부터 대역폭(bandwidth)의 문제였다.
인간의 인지적 대역폭은 극히 제한적이다. 밀러의 마법 숫자 7±2, 작업기억의 용량 한계, 주의(attention)의 병목. 자연어는 이 제한된 채널을 통해 복잡한 세계 모델을 전송하기 위해 진화한 손실 압축 코덱(lossy compression codec)이다. 모든 발화는 화자의 내적 상태 공간(internal state space)에서 극히 일부만을 샘플링하여 선형적 토큰 시퀀스로 직렬화(serialize)한 것이고, 청자는 자신의 세계 모델을 동원하여 그 압축을 복원(decompress)한다. 이 과정에서 필연적으로 정보 손실이 발생하지만, 인간 간 소통에서는 공유된 맥락(shared context)이라는 거대한 배경 지식이 그 손실을 보상해왔다.
자연어의 진화사에서 핵심 국면 전환들을 살펴보면 일관된 패턴이 드러난다:
구어에서 문어로의 전환(~3500 BCE)은 단순한 매체 변환이 아니었다. 문자 체계는 발화의 시간적 구속을 해제하면서, 동시에 언어에 공간적 구조(spatial structure)를 부여했다. 수메르의 쐐기문자가 처음에 회계 기록—곡물 자루의 수량, 거래 당사자—에서 출발한 것은 우연이 아니다. 문자의 최초 용법은 자연어의 표현적 풍요가 아니라, 구조화된 정보의 비휘발성 저장(non-volatile storage of structured information)이었다. 언어가 이미 그 시점에서 프로토콜의 맹아를 품고 있었다는 암시다.
인쇄술(1440년대)은 언어의 표준화를 강제했다. 방언의 바다에서 "표준어"라는 프로토콜이 추출되었다. 이는 단순한 규범의 문제가 아니라, 상호운용성(interoperability)의 문제였다. 서로 다른 지역의 독자가 동일한 텍스트를 동일하게 해석할 수 있어야 했다. 맞춤법, 문법 규칙, 구두점 체계—이 모든 것은 자연어 위에 덧씌워진 프로토콜 레이어(protocol layer)다.
전신(1837)과 그 이후의 전기통신은 언어에 전혀 새로운 압력을 가했다. 전신에서는 글자 수가 곧 비용이었으므로, 언어는 극단적 압축을 향해 변형되었다. "ARRIVING TUESDAY STOP SEND MONEY STOP"—이것은 자연어인가 프로토콜인가? 그 경계가 이미 이 시점에서 흐려지기 시작했다.
디지털 통신(1990년대~)은 이 추세를 가속화했다. SMS의 160자 제한이 "u r gr8"을 낳았고, 트위터의 140자가 해시태그(#)와 멘션(@)이라는 기계가독적 메타데이터를 자연어 안에 삽입하는 관행을 대중화했다. 이모지는 문자 체계의 진화에서 주목할 만한 역전(reversal)인데—추상적 기호 체계에서 다시 상형적(pictographic) 표현으로 되돌아간 것이기 때문이다. 그러나 이를 단순한 퇴행으로 보면 안 된다. 이모지는 텍스트 기반 소통에서 부재하는 화용론적 단서(prosodic/pragmatic cues)를 보충하기 위한 적응이다.
:) 는 미소라는 감정의 표현이 아니라, "이 발화를 적대적으로 해석하지 말라"는 화용론적 지시자(pragmatic marker)다.
이 전체 역사에서 드러나는 메타 패턴은 이렇다: 자연어는 매 국면 전환마다 표현력(expressiveness)과 효율성(efficiency) 사이의 긴장을 새로운 균형점에서 재협상해왔다. 그리고 그 재협상은 항상 상호작용 환경의 변화에 의해 촉발되었다.
II. 자연어는 어떻게 변하고 있는가 — 기계가 대화에 끼어든 이후의 신호들
AI, 특히 대규모 언어모델(LLM)의 대중적 보급은 자연어의 사용 환경을 근본적으로 변형시키고 있다. 이 변형의 신호(signal)들을 식별하고 범주화해보자.
범주 1: 화용론적 재편(Pragmatic Restructuring)
인간 간 대화에서 화용론(pragmatics)은 그라이스(Grice)의 협력 원칙과 네 가지 격률—양의 격률(quantity), 질의 격률(quality), 관련성의 격률(relation), 양태의 격률(manner)—로 기술되어 왔다. 인간-AI 상호작용에서 이 격률들이 체계적으로 변형되고 있다.
양의 격률의 과잉 충족 압력. 인간 대화에서는 "충분히, 그러나 과도하지 않게" 정보를 제공하라는 것이 양의 격률이다. 그런데 AI에게 말할 때, 사용자들은 점차 과잉 명시(over-specification)의 습관을 발달시키고 있다. "좋은 레스토랑 추천해줘"가 아니라 "서울 강남역 근처, 예산 5만원 이하, 2인 식사, 이탈리안, 테라스 좌석 있는 곳"처럼 말하는 것이다. 이는 AI가 인간과 달리 공유 맥락이 없다는 것을 학습한 사용자의 적응이며, 자연어가 쿼리 언어(query language)를 향해 변형되고 있다는 신호다.
관련성의 격률의 구조화. 프롬프트 엔지니어링(prompt engineering)이라는 완전히 새로운 언어적 실천이 등장했다. 이것은 단순한 기술적 스킬이 아니라 새로운 레지스터(register)의 탄생이다. "역할을 부여하라," "단계적으로 사고하라고 지시하라," "출력 형식을 지정하라"—이러한 규칙들은 자연어 안에서 메타-지시(meta-instruction)를 삽입하는 관행이다. 인간 간 대화에서도 "쉽게 설명해줘"나 "결론부터 말해줘" 같은 메타-지시가 있었지만, AI와의 상호작용은 이를 극도로 정교화하고 체계화하고 있다.
질의 격률의 무력화. 가장 흥미로운 변화다. 인간 간 대화에서 "사실이 아닌 것을 말하지 말라"는 격률은 신뢰의 기반이다. 그런데 AI의 환각(hallucination) 문제는 사용자로 하여금 출력에 대한 검증을 언어적으로 요청하는 습관을 만들고 있다. "출처를 밝혀줘," "확실하지 않으면 말해줘," "단계별로 추론 과정을 보여줘"—이런 요구는 인간 간 대화에서는 무례하거나 불필요한 것이었다. 그러나 기계와의 대화에서는 표준적 관행이 되어가고 있으며, 이 습관이 인간 간 소통으로 역류(backflow)할 조짐이 있다.
범주 2: 레지스터 분기(Register Bifurcation)
사회언어학에서 레지스터란 상황에 따른 언어 사용 양식의 변이를 말한다. AI의 도입은 기존 레지스터 체계에 완전히 새로운 차원을 추가하고 있다.
인간-기계 레지스터(Human-Machine Register)의 결정화. 사람들은 AI에게 말하는 방식과 인간에게 말하는 방식 사이에서 점차 뚜렷한 코드 전환(code-switching)을 발달시키고 있다. AI에게는 명령형을 더 빈번히 사용하고, 공손성 표지(politeness markers)를 줄이며, 구조화된 입력을 제공하는 경향이 관찰된다. 그러나 여기서 주목할 점은 이 경계가 양방향으로 침투하고 있다는 것이다. AI에게 말하듯 인간에게 말하는 사람, 인간에게 말하듯 AI에게 말하는 사람—이 두 방향의 침투 모두 관찰되며, 어느 방향이 궁극적으로 우세할지는 아직 미결정적이다.
전문어의 민주화와 재계층화. AI가 전문 지식에 대한 접근을 민주화하면서, 전문 용어(terminology)의 사회적 기능이 변하고 있다. 과거에 전문어는 게이트키핑(gatekeeping)의 도구였다—의사가 의학 용어를 쓰는 것은 전문성의 표지이자 비전문가를 배제하는 장벽이었다. AI가 누구나 전문 용어를 생성하고 이해할 수 있게 하면서, 전문어의 사회적 위신 기능은 약화되는 반면, 정밀성 기능(precision function)은 오히려 강화되고 있다. 사람들은 AI와의 상호작용을 통해 더 정밀한 용어를 사용하는 법을 배우고, 이를 인간 간 소통에도 적용하기 시작한다.
범주 3: 직렬화 형식의 수렴(Serialization Format Convergence)
가장 심층적이며, 장기적으로 가장 파급력이 큰 변화다.
자연어와 형식 언어(formal language)는 역사적으로 별개의 영역으로 취급되어 왔다. 그런데 AI와의 상호작용에서 이 두 영역이 급속히 수렴(converge)하고 있다. 사용자들은 자연어 안에 JSON과 유사한 구조를 삽입하고("이름: ..., 나이: ..., 취미: ..."), 마크다운 문법을 일상 대화에 활용하며, 자연어 지시 안에 프로그래밍적 논리("만약 A이면 B를, 아니면 C를")를 삽입한다.
역방향도 마찬가지다. 프로그래밍 언어는 점차 자연어에 가까워지고 있다. GitHub Copilot에서 자연어 주석이 코드를 생성하고, SQL의 자연어 인터페이스가 보급되며, 향후 프로그래밍의 상당 부분은 자연어로 수행될 것이라는 전망이 힘을 얻고 있다.
이 양방향 수렴의 결과물은 반구조화된 자연어(semi-structured natural language)라는 새로운 형태다. 완전한 자연어도, 완전한 형식 언어도 아닌 중간 지대. 이것이 바로 자연어의 프로토콜화가 진행 중이라는 가장 강력한 신호다.
범주 4: 인지적 외주화(Cognitive Outsourcing)와 언어 기능의 재분배
AI가 기억, 추론, 지식 검색의 상당 부분을 대행하면서, 자연어의 기능적 부하(functional load)가 재분배되고 있다. 과거에 자연어는 정보 저장(서사, 교훈, 지식의 구전), 추론(논증, 토론), 정보 검색(질문)을 모두 수행해야 했다. AI가 이 중 상당 부분을 떠안으면서, 인간 간 자연어의 기능은 점차 조정(coordination), 의도 표현(intention signaling), 정서적 연결(emotional bonding)에 집중되는 방향으로 이동할 수 있다. 이는 자연어의 "퇴화"가 아니라 기능적 특화(functional specialization)다.
이제 핵심 논제에 도달한다. 나는 다음을 역설하고자 한다: 자연어는 태초부터 프로토콜이 되려 했으나, 인간의 인지적 한계와 상호작용 환경의 제약으로 인해 그 잠재력이 실현되지 못한 채 수천 년을 보냈다. 산업혁명 이후의 극단적 분업이 그 잠재력을 부분적으로 현실화했고, AI가 그 완성의 트리거가 될 수 있다.
프로토콜로서의 자연어: 이미 내장된 속성들
통신 프로토콜의 핵심 요소를 떠올려 보자: 주소 지정(addressing), 패킷 구조(packet structure), 오류 검출/정정(error detection/correction), 핸드셰이크(handshake), 흐름 제어(flow control). 자연어에는 이 모든 것이 이미—비공식적이고 불완전한 형태로—존재한다.
주소 지정: 호칭어, 시선, 제스처를 통해 발화의 수신자를 지정한다. 패킷 구조: 발화 턴(turn)이 패킷에 해당한다. 문장, 절, 화행(speech act)이 중첩된 계층적 구조를 갖는다. 오류 검출/정정: "뭐라고?" "다시 말해줘" "그러니까 네 말은..." 같은 수리 시퀀스(repair sequence)가 이 기능을 수행한다. 핸드셰이크: 인사, 대화 개시/종료 의례("안녕하세요"..."그럼 이만")가 연결 수립/해제의 프로토콜이다. 흐름 제어: 대화에서의 턴 테이킹(turn-taking) 규칙—끼어들기, 침묵, 백채널("응," "그래")—이 흐름 제어 메커니즘이다.
그러나 이 모든 것이 암묵적(implicit)이고, 맥락 의존적(context-dependent)이며, 비결정론적(non-deterministic)이라는 점에서 자연어는 미성숙한 프로토콜이다. TCP/IP가 엄격한 사양서에 의해 정의되는 것과 달리, 자연어의 "프로토콜 사양"은 사회적 관습, 문화적 규범, 개인적 습관의 복잡한 혼합물이며, 공식적으로 문서화되지 않은 채 암묵적으로 전수된다.
산업혁명과 분업: 프로토콜화의 첫 번째 물결
산업혁명은 인간 활동의 극단적 분업(division of labor)을 가져왔고, 이는 자연어에 심대한 구조적 압력을 가했다.
분업이 심화되면 참여자들 사이의 공유 맥락이 축소된다. 동일한 공동체에서 동일한 일을 하던 사람들은 풍부한 공유 맥락 위에서 느슨한 자연어로도 충분히 소통할 수 있었다. 그러나 수천 명이 각자 극도로 전문화된 역할을 수행하는 공장에서, 또 글로벌 공급망의 수만 개 노드에서, 소통의 모호성은 곧 비용이 된다. 잘못된 해석은 불량품, 사고, 납기 지연을 의미한다.
이 압력 하에서 자연어는 프로토콜화의 첫 번째 물결을 경험했다:
표준화된 전문 용어(terminology). 각 산업 분야는 모호성을 최소화한 전문 용어 체계를 발전시켰다. 이는 자연어 어휘의 프로토콜화다.
표준 운영 절차(SOP). 자연어로 작성되지만, 해석의 재량을 극소화하도록 설계된 지시문. "밸브 A를 시계 방향으로 90도 회전하라"는 자연어이면서 동시에 거의 명령어(command)다.
법률 언어. 자연어의 프로토콜화가 가장 극단적으로 진행된 사례다. 법률 문서는 자연어의 형식을 취하지만, 모든 단어의 해석을 고정하기 위해 정의 조항, 선례, 해석 규칙의 복잡한 체계에 의존한다. 법률 언어는 "자연어가 프로토콜이 되려고 할 때 어떤 일이 벌어지는가"의 생생한 실례다—그것은 작동하지만, 괴물적으로 복잡하고, 비전문가에게는 사실상 불가독하다.
ISO 표준, 국제 규격. 산업 간, 국가 간 상호운용성을 보장하기 위한 명시적 프로토콜이며, 자연어를 매체로 사용하면서도 해석의 여지를 체계적으로 봉쇄하려 한다.
이 모든 것은 자연어가 분업의 압력 하에서 프로토콜을 향해 진화해왔으나, 자연어의 본질적 모호성 때문에 완전한 프로토콜화에는 이르지 못했음을 보여준다. 법률 언어의 괴물적 복잡성은 바로 그 불완전한 프로토콜화의 비용이다.
AI: 프로토콜화의 두 번째 물결, 그리고 임계점
AI—특히 LLM—는 자연어의 프로토콜화에 있어 질적으로 새로운 국면을 연다. 그 이유를 세 가지 차원에서 살펴보자.
첫째, AI는 자연어를 입력/출력 인터페이스로 사용하는 최초의 비인간 행위자(non-human agent)다. 과거의 모든 자연어 프로토콜화는 인간 간 소통의 맥락에서 이루어졌다. 인간은 모호성을 맥락으로 해소하는 데 탁월하므로, 완전한 프로토콜화의 동기가 약했다. 그러나 AI는 공유 맥락 없이 자연어를 처리해야 하며(물론 점차 맥락 창이 확장되고 메모리가 추가되고 있지만, 인간 수준의 공유 맥락과는 질적으로 다르다), 이는 사용자로 하여금 자연어를 더 명시적으로, 더 구조화하여, 더 프로토콜적으로 사용하도록 유도한다.
둘째, AI는 자연어와 형식 언어 사이의 번역기(translator)다. LLM은 자연어 입력을 받아 코드를 생성하고, 구조화된 데이터를 자연어로 설명하며, 자연어 지시를 API 호출로 변환한다. 이 번역 기능은 자연어와 형식 언어 사이의 경계를 사실상 해체하며, 둘 사이의 수렴을 가속화한다. 자연어는 더 이상 "비형식적 소통 수단"이 아니라, 형식적 시스템과 직접 인터페이스하는 범용 상호작용 계층(universal interaction layer)으로 기능하기 시작한다.
셋째, AI는 자연어 처리의 피드백 루프를 극단적으로 가속화한다. 과거에 자연어의 변화는 세대 단위의 느린 과정이었다. 그러나 매일 수억 건의 인간-AI 대화가 이루어지는 현재, 자연어 사용 패턴의 변화는 실시간으로 관찰되고, AI의 학습 데이터에 반영되며, 다시 사용자의 언어 사용에 영향을 미치는 재귀적 피드백 루프(recursive feedback loop)를 형성한다. 이 루프의 속도는 전례 없는 것이며, 자연어의 진화를 수십 배 가속화할 잠재력이 있다.
이 분석에 기초하여, 자연어가 향하고 있는 방향을 몇 가지 축으로 전망해본다.
계층적 이중 구조의 확립. 자연어는 점차 두 층으로 분화될 가능성이 높다. 상위 층은 인간 간 정서적 소통, 예술적 표현, 관계 유지에 특화된 풍요한 자연어(rich natural language)이고, 하위 층은 인간-기계, 기계-기계, 그리고 업무적 인간 간 소통에 사용되는 구조화된 자연어(structured natural language)다. 후자는 사실상 자연어의 외피를 쓴 프로토콜이다.
의도 명시성(intention explicitness)의 규범화. 현재 인간 간 소통에서는 의도를 간접적으로 전달하는 것이 사회적으로 선호되는 경우가 많다("시간 있으면 이거 좀 봐줄 수 있어?"는 사실상 명령이지만 요청의 형식을 취한다). AI와의 상호작용이 보편화되면서, 의도를 직접적으로 명시하는 것이 효율적이라는 인식이 인간 간 소통에도 전이될 수 있다. 이는 화용론적 차원에서의 프로토콜화다.
메타데이터의 자연어 내재화. 해시태그, 멘션에서 시작된 추세가 심화되어, 자연어 발화 안에 다양한 메타데이터—맥락 태그, 확신도 표지, 출처 표시, 감정 태그—가 내재화될 수 있다. 어떤 형태가 될지는 아직 불확실하지만, 방향성은 분명하다: 자연어는 메시지 본문(payload)만이 아니라 헤더(header) 정보까지 담는 자기 기술적(self-describing) 포맷을 향해 진화할 것이다.
자연어의 프로토콜화는 단순히 언어학적 변화가 아니라, 사회 구조 자체의 재편과 연동된다.
산업혁명이 육체노동을 분업화하고 기계화했듯이, AI 혁명은 인지노동을 분업화하고 기계화하고 있다. 이 과정에서 자연어는 인지노동의 분업을 조정하는 프로토콜로서의 역할이 극대화된다. 인간이 AI에게 의도를 전달하고, AI가 실행하며, 결과를 인간에게 보고하는—이 사이클에서 자연어는 단순한 소통 수단이 아니라 인간-기계 인지 시스템의 인터페이스 프로토콜이다.
그리고 이것은 새로운 형태의 불평등을 내포한다. 산업 시대에 기계를 다루는 기술적 문해력(technical literacy)이 계층 분화의 축이 되었듯이, AI 시대에는 자연어를 프로토콜적으로 구사하는 능력—곧 자신의 의도를 기계가 최적으로 처리할 수 있는 형태로 정밀하게 표현하는 능력—이 새로운 문해력이 되며, 새로운 계층화의 축이 될 수 있다. 프롬프트 엔지니어링이 이미 그 맹아적 형태다.
자연어는 인간 인지의 제약 속에서 태어난 아름답고 불완전한 압축 체계였다. 그것은 수만 년간 인간 문명의 근간이었으며, 시, 철학, 법, 과학을 모두 담아냈다. 그러나 그 이면에서 자연어는 항상 자신의 한계—모호성, 맥락 의존성, 대역폭의 제약—와 씨름해왔다.
AI는 이 오래된 긴장에 새로운 해법을 제시한다. 자연어는 AI를 매개로 하여 형식적 시스템과 직접 접속할 수 있게 되었고, 이는 자연어의 기능적 사정거리를 전례 없이 확장한다. 동시에 AI는 자연어에 더 높은 정밀성과 구조성을 요구하며, 이는 자연어를 프로토콜의 방향으로 밀어붙인다.
그러나 여기서 중요한 역설이 있다: 자연어가 프로토콜화되는 바로 그 과정에서, 자연어의 고유한 강점—모호성을 통한 창조적 가능성, 은유를 통한 인지적 도약, 정서적 공명—은 오히려 더 선명하게 부각된다. 기계가 처리할 수 있는 영역이 분리되어 나감으로써, 기계가 처리할 수 없는 영역—진정으로 인간적인 언어의 영역—이 비로소 식별 가능해지는 것이다.
자연어는 아직 영글지 못한 프로토콜인가? 그렇다, 그리고 영원히 완전히는 영글지 못할 것이다. 그 불완전성이야말로 자연어가 프로토콜 이상의 것—인간 존재의 표현 양식 자체—일 수 있게 하는 조건이기 때문이다. AI가 촉발하는 것은 자연어의 프로토콜로의 완전한 전환이 아니라, 자연어 안에 잠재하던 프로토콜적 차원과 표현적 차원의 의식적 분화(conscious differentiation)다.
그리고 그 분화의 한가운데에서, 우리는 언어의 역사에서 전례 없는 순간에 서 있다.