brunch

AI에게 '답'을 묻지 마세요

필라델피아 인콰이러의 경우로 본 AI의 한계

by 박 스테파노

AI의 성능이 급속히 고도화되면서, 인간은 일자리의 상실을 넘어 존재 그 자체가 위협받는다는 불안을 체감하고 있다. 그러나 역설적으로, 그 두려움의 와중에 많은 이들이 일상과 업무의 영역에서 AI의 도움을 받고 있다. 인간의 역사란 아이러니의 연속이며, 문명은 늘 이중적 속내 위에서 진화해왔다. 이런 모순된 태도는 업종을 가리지 않지만, 그중에서도 ‘진실’을 다룬다고 자임하는 언론의 영역에서 나타나는 변화는 특히 주의 깊게 살펴볼 필요가 있다.


이미 파편화된 미디어 환경 속에서 전통 언론사들은 ‘레거시’라는 이름의 무게를 간신히 붙들고 있다. 그럼에도 여전히 많은 사람들은 그들의 보도와 탐사를 통해 현실의 윤곽을 가늠하고 판단의 좌표를 찾는다. 그러나 오늘날 언론사의 내부를 들여다보면, 취재 현장의 저널리스트들조차 AI를 공식적이든 비공식적이든 폭넓게 활용하고 있다. 사실 확인이나 관련 보도 검색, 논지 가설의 타당성 검토까지 — 생성형 언어모델(LLM)을 보조도구로 쓰는 일은 이미 일상이 되었다. 문제는 여기서 한 걸음 더 나아가, 기사 작성 그 자체를 AI에게 의존하는 사례가 늘고 있다는 사실이다. 이제 그것은 공공연한 비밀로 남지도 못한다.


이 세태는 ‘제로 클릭(zero click)’ 현상을 두려워하는 언론 플랫폼의 딜레마를 여실히 드러낸다. 독자가 뉴스를 직접 클릭하지 않고 요약된 정보만 소비하는 시대, 속보 경쟁과 조회수 논리가 지배하는 시장에서 AI의 즉각적 생산성은 달콤한 유혹처럼 작용한다. 그러나 그 편의성의 이면에는 거대언어모델의 구조적 한계가 놓여 있다. AI가 만들어내는 ‘편향’과 ‘환각(hallucination)’은 사실을 왜곡하고, 나아가 진실을 모호하게 만든다.


AI 검색 chatbot Dewey. Withdewey.com 화면 캡쳐


이런 상황에서 최근 미국의 유서 깊은 언론사 The Philadelphia Inquirer(필라델피아 인콰이어러)가 보여준 움직임은 주목할 만하다. 이 매체는 기자들을 대상으로 대형언어모델(LLM, 예: GPT 등)의 위험성과 한계를 이해시키는 내부 교육 프로그램을 도입했다. 이는 단순히 새로운 기술을 환영하는 태도를 넘어, AI의 작동 원리와 그 취약성을 인식하고 경계하려는 윤리적 실천에 가깝다. 흥미롭게도 인콰이어러는 이미 자체 아카이브 검색 도구 ‘Dewey’를 내부 챗봇 형태로 운용해 왔다. 하지만 이번 교육의 초점은 도구의 사용법이 아니라 ‘언제, 어떤 방식으로 AI를 활용할 것인가 — 그리고 언제 그것을 의심하고 검증해야 하는가’라는 근본적 물음에 있다.


결국 이 프로그램은 기술의 도입이 아니라 태도의 문제를 다룬다. 언론의 내면에서 ‘AI 맹신’을 경계하고, 비판적 사유의 감각을 되살리려는 시도. 그것은 저널리즘이 스스로의 존재 이유를 잃지 않기 위한 최소한의 방어선이며, 인간이 진실을 향해 말하고 쓰는 행위를 여전히 스스로의 책임 아래 두려는 조용한 저항의 몸짓처럼 읽힌다.



AI 도구의 한계와 오용 우려


인콰이어러의 내부 도구 Dewey는 언론사가 축적해 온 방대한 보도·저장 아카이브를 기반으로 작동하는 챗봇이다. 본래의 취지는 기자들이 신속하게 과거 보도를 검색하고, 사실관계를 검증하며, 맥락적 정보를 탐색하도록 돕는 데 있었다. 그러나 초기 사용자들의 질문 유형은 예상과 달랐다. “이 인물이 언급된 횟수는?” “이 날짜에 실린 기사 링크를 알려 달라”와 같은 단순한 사실 추출과 집계형 질의가 대부분이었다.


문제는, 이러한 질문이 오히려 LLM이 가장 취약한 영역에 속한다는 점이다. LLM은 정밀한 데이터 연산이나 통계 집계보다는 언어적 패턴 예측에 기반해 작동하기 때문이다. 결국 인콰이어러 내부에서는 이 도구의 오용을 방지하기 위해, 구성원들의 인식 자체를 교정할 필요가 있다는 결론에 이르렀다.


거대언어모델(LLM)은 ‘정답을 찾아주는 기계’가 아니라, ‘확률을 예측하는 언어 모델’이다. 이는 단순히 개념적 정의가 아니라, 그 구조적 한계를 이해하는 핵심이다. LLM은 수치 계산, 데이터 집계, 세밀한 사실 검증에서 종종 오류를 일으킨다. 그것이 바로 소위 ‘할루시네이션(hallucination)’이라 불리는 현상이다.


예를 들어 Claude라는 모델이 “36 + 59 = 95”라는 정답을 내놓을 때, 그 내부에서는 인간이 예상하지 못한 복잡한 가능성 탐색 과정이 일어난다. 전통적인 계산기나 컴퓨터의 산술 연산처럼 규칙을 적용하는 방식이 아니다. LLM은 언어의 통계적 패턴을 기반으로, ‘이 문맥에서 다음에 올 가능성이 가장 높은 수’를 예측할 뿐이다. 따라서 “95”라는 결과는 수학적 결론이라기보다, “그럴듯한 언어적 조합”으로서 선택된 값에 가깝다. 모델은 연산 알고리듬을 이해하거나 적용하지 않는다. 단지 학습된 텍스트 속에서 “36 + 59”라는 표현과 함께 가장 자주 등장한 수치, 가장 자연스러운 응답을 확률적으로 제시할 뿐이다. 즉, 수학이 아니라 작문을 한 셈이다.


클로드 3.5 하이쿠가 36 + 59가 무엇인지에 대한 질문에 올바르게 답하기 위해 거친 엄청난 과정. Medium제공


이 구조의 흥미로운 지점은, 모델에게 “어떻게 그렇게 계산했느냐”고 물을 때 드러난다. 대부분의 경우, 모델은 그 과정에 대한 설명을 엉뚱하게 하거나 초등 수준의 산수 방식을 언어적으로 포장해 답한다. 이는 LLM이 자신의 사고 과정을 ‘이해’하지 못한 채 단순히 ‘언어적으로 재현’하고 있음을 보여준다. 모델은 왜 그런 답을 냈는지조차 스스로 설명할 수 없다. 인간이 보기에 ‘맞는 결과’를 내놓을지라도, 그 내부 논리는 재현 불가능한 확률의 미로 속에 잠겨 있다.


이 지점은 인공지능 연구에서 자주 거론되는 ‘설명 가능성(explainability)’의 문제와 깊이 맞닿는다. AI는 결과를 산출하지만, 그 결과에 이르는 구체적 경로를 인간이 완전히 파악하거나 재구성할 수 없다. 더 근본적으로는, AI 자신조차도 그 이유를 명료히 밝힐 수 없다. 그렇기에 거대언어모델을 슈퍼컴퓨터의 연산기로 착각하는 것은 위험하다. 언어의 예측 기계에게 ‘정확한, 과학적인, 불가역적인 답’을 기대하는 것은, 마치 우물에서 숭늉을 찾는 일과 같다.



교육의 중요성: “AI 기본 원리” 가르치기


인콰이어러의 기술·제품 책임자(CTO 겸 제품 책임자) 매트 보(Matt Boggie)는 최근 내부 구성원들을 위해 45분 분량의 교육 프로그램, ‘AI Fundamentals’를 직접 설계했다. 이 강의는 단순한 기술 소개가 아니라, 언론인이 거대언어모델(LLM)의 본질을 이해하고 그것을 어떤 맥락에서 활용해야 하며, 언제 경계해야 하는지를 숙고하게 만드는 일종의 사고 훈련에 가깝다.


강의의 핵심은 LLM의 작동 구조와 한계를 동시에 이해하는 데 있다. 토큰 단위의 언어 처리 방식, 확률 분포에 기반한 문장 생성 원리, 학습 데이터의 통계적 특성과 그로부터 파생되는 편향 가능성 — 이러한 기술적 원리를 언론인의 언어로 풀어 설명한다. 동시에 LLM의 오류 가능성과 불확실성, 데이터 편향, 사실 왜곡의 잠재적 위험이 구체적 사례와 함께 제시된다.


매트 보는 이 교육을 통해 명확히 강조한다. “AI는 아이디어 발상이나 문체 전환, 초안 요약에는 유용하지만, 사실 확인과 검증의 영역에서는 결코 최종 판단의 주체가 되어선 안 된다.” 다시 말해, LLM은 ‘사고를 돕는 도구’이지 ‘진리를 판별하는 기계’가 아니라는 점을 내면화시키는 것이 교육의 목표다.


이 프로그램의 의도는 기술 습득 그 자체가 아니라, 언론 조직 내부에 “AI에 대한 이해”와 “비판적 거리 두기”를 문화로 정착시키는 데 있다. 인콰이어러는 AI를 환영하면서도 동시에 그것을 경계하는 태도를 제도화하려 한다. 기술의 효용을 인정하되, 판단의 주권은 인간에게 남겨두는 일 — 그것이 저널리즘의 생명선이라는 인식이다.


교육의 부재는 재앙을 부른다. AI Sora


이런 접근은 단순한 윤리 교육을 넘어선다. OpenAI의 연구 결과들에 따르면, LLM이 오류를 내는 것은 일시적 버그나 불완전한 데이터의 결과가 아니라, 그 구조적 속성에 기인할 수 있다. 언어 모델이 확률적 예측을 기반으로 작동하는 한, ‘환각(hallucination)’은 피할 수 없는 현상이다. 다시 말해, LLM은 언제나 일정한 확률로 오류를 생성할 가능성을 품고 있으며, 이는 기술의 결함이 아니라 존재론적 한계로 이해되어야 한다.


이 구조적 한계는 언론에게 유독 심각한 의미를 갖는다. 언론의 신뢰는 정확성과 검증 위에 세워지기 때문이다. 만약 기자가 LLM의 응답을 맹신하거나, 2차 검증 없이 기사에 반영한다면, 그 순간 AI는 보조자가 아니라 오류의 매개가 된다. 언론의 글 한 줄이 현실을 흔들 수 있다는 점을 생각하면, 이러한 오류 가능성은 단순한 기술 문제가 아니라 저널리즘의 윤리와 직결된 문제로 읽혀야 한다.


결국 인콰이어러의 시도는, AI를 도입하는 것이 아니라, 인간이 다시 ‘판단하는 존재’로 서기 위한 재교육의 과정이다. 기술의 정밀함보다 언어의 책임을, 효율성보다 진실의 무게를 가르치는 45분의 시간 — 그것이 오늘날 언론이 미래를 준비하는 가장 근본적인 방식일지 모른다.



AI, 특히 언어모델은 정답 도출기가 아니다


이 사례로부터 우리가 숙고해야 할 지점은 단순히 기술의 신뢰성 문제가 아니다. 그것은 인식의 구조, 그리고 책임의 문제로까지 확장된다. 우선 우리는 기계와 인간의 인식 차이를 명확히 자각해야 한다. AI 언어모델은 인간처럼 의미를 ‘이해’하거나 논리적으로 ‘추론’하지 않는다. 그들은 방대한 언어 데이터를 통계적으로 학습해, 가장 높은 확률로 이어질 다음 단어를 예측할 뿐이다.


우리가 어떤 질문을 던졌을 때 AI가 내놓는 것은 ‘그럴듯한 답’이지, ‘옳은 답’이 아니다. 이 단순한 사실이 바로 AI와 인간 사고의 본질적 간극을 드러낸다. 인간의 사고가 경험과 맥락, 판단의 윤리 위에 서 있다면, AI의 응답은 언어의 패턴 위에만 서 있다. 언뜻 유사해 보이지만, 두 체계 사이에는 결코 좁혀지지 않는 심연이 있다.


이 지점에서 AI 윤리의 확장이 필수적 과제로 등장한다. 전통적으로 저자의 윤리는 사실 확인, 교차 검증, 출처의 신뢰성 확보에 초점을 맞춰 왔다. 그러나 이제 그 위에 새로운 층위가 놓인다. 저자는 AI 도구를 사용할 때마다 그 모델의 작동 구조와 한계를 염두에 두어야 하며, 그로 인한 오류 가능성을 스스로 감수하고 통제할 책임을 져야 한다. AI가 제시한 정보를 그대로 믿는 태도는 단순한 부주의가 아니라, 윤리적 무책임으로 이어질 수 있다. 언론사의 경우 ‘사실을 보도한다’는 언론의 사명은, 이제 ‘AI가 만든 사실의 형태를 해석하고 검증한다’는 과제를 포함하게 되었다.


AI가 전가의 보도는 아니다. AI Sora


이런 변화의 흐름 속에서 필라델피아 인콰이어러의 선택은 주목할 만하다. 이들은 AI를 무조건적으로 수용하거나 배척하지 않았다. 대신 도입과 동시에 내부 교육을 병행했다. 기자와 편집자가 도구의 작동 원리를 이해하고, 오류가 어디서 발생할 수 있는지를 학습하도록 한 것이다.


“왜 그것이 그렇게 작동하는가”, “어떤 맥락에서 잘못될 수 있는가”를 질문하게 만드는 내부 훈련 — 그것이야말로 진정한 AI 리터러시의 출발점이다. 이러한 접근은 단순히 효율성을 추구하는 조직이 아니라, 기술의 한계를 문화적 차원에서 내면화하는 언론의 모범으로 읽힌다. 우리 언론계나 연구 기관에서도 이러한 ‘비판적 수용 능력’이 점점 더 중요한 덕목이 되어가고 있다.


마지막으로, AI의 한계를 인식하고 책임의 경계를 분명히 하는 일이 남는다. AI는 도구이자 보조수단이지, 결코 ‘권위’가 될 수 없다. 모델이 내놓은 결과에는 언제나 오류의 가능성이 열려 있으며, 그 오류를 점검하고 교정할 책임은 인간에게 있다. 따라서 언론사나 연구 기관, 미디어 매체는 AI를 도입하기 이전에 명확한 책임 구조를 설계해야 한다. 편집자의 검증 절차, 오류 정정 체계, 데이터 출처의 투명화가 함께 마련되지 않는 한, AI의 효율성은 오히려 저널리즘의 신뢰를 잠식할 수 있다.


결국 문제는 기술이 아니라 태도다. 언어모델이 진리를 쓰지 않는다는 사실을 인정하는 순간, 인간은 다시금 ‘판단하는 존재’로 돌아온다. 그리고 그 판단의 무게를 견디는 것이야말로, AI 시대의 언론이 감당해야 할 새로운 윤리의 이름이다.



인식론적 함의: 확률과 의미 사이의 간극


언어모델이 ‘가능성 탐색’의 메커니즘 위에 서 있다는 사실은, 우리가 흔히 기대하는 ‘정확한 논리 계산’의 세계와는 근본적으로 다르다. AI가 내놓는 답은 언제나 참의 언어가 아니라, 확률의 언어다. 그것은 문법적으로 가능성이 높은 조합일 뿐, 진리의 필연을 보증하지 않는다. 이 차이는 단순한 기술적 한계라기보다, 인식론적 구조의 차이를 드러낸다. 인간의 언어는 의미를 통하여 세계와 접속하지만, AI의 언어는 패턴을 통해 세계를 모방한다. 인간에게 언어는 사유의 매개지만, AI에게 언어는 계산의 결과다.


이 간극은 철학과 인지과학, 언어학이 오래전부터 직면해온 물음 ― ‘언어란 무엇인가’, ‘의미는 어떻게 성립하는가’ ― 의 기술적 변주이기도 하다. 인간 언어에는 늘 애매성과 다의성, 맥락성이 배어 있다. LLM은 바로 그 불확정성을 수치화하고, 통계적으로 정리해 응답을 생성한다. 그러나 그 순간, 의미의 깊이는 확률의 평면으로 치환된다. 따라서 우리는 AI의 답변 속에 숨은 불확실성의 공간을 읽어내는 감각을 길러야 한다. 그것은 기술을 ‘신뢰하는 능력’이 아니라, 기술을 의심할 줄 아는 능력이다.


언론은 전통적으로 신뢰기관(trust institution)으로 존재해왔다. 그런데 만약 AI가 잘못된 정보를 산출하고, 언론이 이를 검증 없이 받아들인다면, 그 순간 신뢰의 균열이 발생한다. 사실의 오염은 곧 언어의 오염이며, 언어의 오염은 사회적 신뢰의 붕괴로 이어진다. 그래서 언론의 AI 도입은 단순한 기술 문제가 아니라 책임의 재구성 문제다.


윤리적 고찰이 필요한 교육. AI Sora


이 맥락에서 글쓰기도 예외가 아니다. 오늘날의 글쓰기, 특히 플랫폼 위에서 이루어지는 글쓰기는 광의의 저널리즘이다. 사유와 감정, 철학과 정보가 뒤섞인 콘텐츠의 홍수 속에서, 이미 AI의 흔적은 곳곳에 배어 있다. 그러나 인용은 허구이고, 개념은 오역되며, 문장은 그럴듯한 허상으로 번안된다. 이는 단순한 실수가 아니라, 무책임한 사유의 복제다. 글을 쓴다는 행위는 여전히 사회적 책임을 동반한다. 따라서 우리는 다음 세 가지 윤리적 의무를 다시 세워야 한다.


첫째, 검증의 책임이다. AI가 제시한 정보의 사실 여부를 확인할 의무는 전적으로 작성자에게 있다. 그 나태함은 조작과 편견을 낳고, 표절과 도용을 확대시킨다. 언어의 무분별한 전유는 결국 지식 생태계의 붕괴를 초래한다.


둘째, 설명의 책임이다. AI가 글의 생산에 개입했다면, 그 사실을 투명하게 밝히는 것이 독자에 대한 최소한의 예의다. 이는 자기 반성을 위한 고지이자, 개선의 가능성을 여는 창이다.


셋째, 인정과 정정의 책임이다. 오류가 드러났을 때 이를 인정하고 수정하는 절차를 제도화해야 한다. 인간의 실수를 감추지 않고 드러내는 순간, 그것은 과실에서 책임으로 전환된다. 바로 그 지점에서 다시금 신뢰가 회복된다.


많은 조직이 AI 도구를 도입하면서 단순한 사용법만을 가르친다. 그러나 필라델피아 인콰이어러의 접근은 달랐다. 그들은 기술의 효율성보다 사유의 윤리를 가르쳤다. “왜 그렇게 작동하는가, 언제 믿을 수 있고 언제 의심해야 하는가”를 교육의 핵심에 두었다. 이러한 교육은 기술의 훈련이 아니라 비판적 사고의 재건이다. 이 점은 문학과 철학, 인문학적 통찰을 지닌 글쓰기, 즉 기술과 인간의 사유를 잇는 다학제적 작가들에게도 귀감이 된다. AI의 사용법만이 아니라, 그 역사적·철학적 맥락, 언어모델의 구조와 한계를 함께 이해하는 시도가 필요하다.



답을 구하기 전에 질문 부터 세우자


이 시점에서 제안할 수 있는 것은 분명하다. AI 활용을 단기적 기술 도입으로 끝내지 말고, 사회적 사고의 인프라로 끌어올려야 한다. 조직 구성원이 AI와 관계 맺는 방식이 곧 문화가 되어야 한다. 이를 위해서는 지침서보다 더 깊은 구조, 즉 지속적인 토론, 오류 사례의 공유, 내부 피드백 루프, 실습이 결합된 복합적 시스템이 필요하다.


최근 화두가 된 ‘소버린 AI’(Sovereign AI) 개념은 복잡한 생태계를 단순한 국가주의 프레임으로 납작하게 압축한다. 그러나 이런 단순화는 사고의 깊이를 갉아먹는 위험한 편의다. AI는 인간의 노동을 대신하는 존재가 아니라, 인간의 사유를 확장하는 거울이어야 한다. 그것이 기술의 본연 목적이다.


글쓰기만큼은 그 대리 수행이 불가능한 영역이다. 생각의 결, 감정의 떨림, 문장의 호흡은 통계로 복제되지 않는다. 그래서 글쓰기는 여전히 인간의 일이다. 글을 쓰는 목적은 정답을 구하는 것이 아니라 질문을 세우는 일이다. 특히 AI로 통칭되는 생성형 언어모델에서 질문의 품질은 그 어느 때보다 중요하다. 그 질문을 세우는 힘은 끊임없는 독서와 고독한 쓰기라는 인간 본연의 시간에 의해 가능해 진다.


공존의 방법을 노력해야. AI Sora


최근 대학가에서 “학생들이 AI가 작성한 리포트를 그대로 제출한다”는 교수들의 하소연이 잦다. 그러나 ‘AI 표절 탐지기’라는 상업적 장치들이 난무하는 현실은, 오히려 AI에 대한 무지를 드러낸다. 거대언어모델(LLM)은 결코 동일한 결과를 복제하지 않는다. 확률적 생성 원리에 따라 언제나 다른 산출물을 낸다. 따라서 진정한 문제는 표절이 아니라, 사유의 부재다.


교육의 과제는 금지와 처벌이 아니라, 이해와 지도에 있다. AI의 원리를 이해하고, 그것을 ‘보조 도구’로 활용하는 방식을 가르치는 것이야말로 교육자의 첫 책임이다. 그러나 정작 많은 교육자들이 LLM이나 AGI의 알고리즘과 생성 프로세스를 제대로 이해하지 못한 채, 막연한 불안과 금지의 언어로 대응하고 있다.


AI 시대의 위기는 기술이 아니라 이해의 결핍이다. 그리고 그 결핍을 메우는 일, 바로 그것이 지금 우리 모두에게 주어진 인문학의 새로운 책무다.



※ 참고 문헌:

https://generative-ai-newsroom.com/how-the-philadelphia-inquirer-is-teaching-journalists-the-limits-of-genai-9f74146f91c3


keyword
매거진의 이전글띄어쓰기