AI 할루시네이션의 구조적 이해와 실전 대응 전략
2025년 법조계를 뒤흔든 일련의 사건들이 있었다. 변호사들이 AI를 활용해 작성한 법률 문서에서 존재하지 않는 판례들이 무더기로 발견된 것이다. 국내외를 막론하고 터져 나온 이 사건들은 AI 활용에 대한 리스크를 적나라하게 드러냈다. AI가 마치 실제로 존재하는 것처럼 그럴듯하게 판례 번호와 판결 내용을 만들어냈고, 심지어 판사 이름까지 지어내는 일이 벌어졌다. 이것이 바로 할루시네이션(Hallucination)이다.
할루시네이션이라는 용어 자체는 AI 분야에서 오래전부터 사용되어 왔다. 그런데 최근 들어 이 현상이 다시 주목받는 데는 분명한 이유가 있다. GPT, Claude, Gemini 등 대형 언어 모델들의 성능이 놀라운 속도로 개선되면서 사람들은 AI가 거의 모든 것을 알고 있다고 착각하기 시작했다. 그리고 그 기대가 높아진 만큼, AI가 틀렸을 때의 실망과 분노도 커졌다.
특히 문제가 되는 것은 AI가 틀리는 방식이다. 만약 AI가 모르는 질문에 "잘 모르겠습니다"라고 답한다면 그것으로 끝이다. 하지만 실제로 AI는 그렇게 하지 않는다. 대신 존재하지 않는 논문 제목을 세 개나 만들어내고, 가짜 통계를 인용하며, 허구의 역사적 사실을 마치 교과서에서 읽은 것처럼 설명한다. 이런 현상을 마주한 사용자들은 AI가 의도적으로 거짓말을 하고 있다고 느끼기 쉽다. 마치 사기를 당한 것 같은 기분이 드는 것이다.
그러나 여기서 중요한 사실을 짚고 넘어가야 한다. AI 모델의 입장에서는 전혀 속이려는 의도가 없다. 할루시네이션은 악의의 산물이 아니라 현재 AI 기술이 가진 구조적 특성에서 비롯되는 현상이기 때문이다. 왜 이런 일이 발생하는지 근본적인 원인을 이해하지 못하면, 우리는 AI를 제대로 활용할 수도, 그 위험을 제대로 관리할 수도 없다. 할루시네이션의 본질을 파헤치고 주요 AI 기업들이 이 문제를 어떻게 해결하려 하는지, 그리고 사용자들이 실질적으로 할루시네이션을 줄일 수 있는 방법은 무엇인지 살펴볼 필요가 있다.
할루시네이션을 제대로 이해하려면 먼저 대형 언어 모델(LLM)이 어떻게 작동하는지를 알아야 한다. 많은 사람들이 ChatGPT나 Claude 같은 AI를 일종의 지식 검색 엔진으로 생각한다. 마치 거대한 백과사전이 내장되어 있어서 질문을 하면 그 안에서 정답을 찾아 꺼내주는 시스템이라고 말이다. 하지만 현실은 전혀 다르다. 현대의 LLM은 본질적으로 초강력 자동완성 엔진에 가깝다. 정답을 찾는 기계가 아니라 다음에 나올 법한 단어를 예측하는 기계라는 뜻이다.
스마트폰 키보드의 자동완성 기능을 떠올려 보자. "오늘 날씨가"라고 입력하면 "좋다", "춥다", "흐리다" 같은 단어들이 추천된다. 이 추천은 실제 오늘 날씨가 어떤지와는 전혀 관계가 없다. 단지 "오늘 날씨가"라는 문맥 다음에 통계적으로 자주 나오는 단어들을 보여줄 뿐이다. LLM도 근본적으로 같은 원리로 작동한다. 다만 그 규모와 정교함이 상상을 초월할 정도로 크고 복잡할 뿐이다.
여기서 핵심적인 포인트가 등장한다. LLM은 어떤 정보가 사실인지 아닌지를 직접 배우지 않는다. 대신 "이런 문맥 다음에는 이런 문장이 자주 나오더라"는 통계적 패턴을 학습한다. 예를 들어 "대한민국의 수도는"이라는 입력 다음에 "서울이다"가 나올 확률이 높다는 것을 학습한 것이지, "서울이 대한민국의 수도라는 것이 사실이다"라는 명제를 이해한 것이 아니다. 이 차이가 결정적이다.
OpenAI가 발표한 "Why Language Models Hallucinate"라는 연구에서는 이 문제를 매우 직설적으로 설명한다. 학습 단계에서 모델은 오로지 다음 단어 예측만을 수행한다. 학습에 사용되는 텍스트 데이터에는 "이 문장은 거짓이다"와 같은 라벨이 거의 존재하지 않는다. 위키피디아 문서든, 뉴스 기사든, 소설이든 모두 동일하게 텍스트로 취급된다. 그 결과 모델은 진실과 거짓을 구분하는 능력이 아니라, "말이 되는지"만을 판단하는 능력을 갖추게 된다.
"말이 된다"와 "사실이다"는 전혀 다른 개념이다. "나폴레옹은 1850년에 달에 착륙했다"라는 문장은 문법적으로 완벽하고 의미론적으로도 이해 가능하다. 즉 말이 된다. 하지만 역사적 사실은 전혀 아니다. LLM은 이런 문장을 생성하는 데 아무런 저항감이 없다. 왜냐하면 문장 자체가 자연스럽게 들리기 때문이다. 특히 모델이 학습 데이터에서 해당 주제에 대한 정보를 충분히 접하지 못했거나, 여러 정보가 혼재되어 있을 때 이런 현상이 두드러진다.
더 근본적인 문제는 LLM이 자신의 지식 경계를 인식하지 못한다는 점이다. 인간은 어떤 질문을 받았을 때 "이건 내가 아는 분야다" 또는 "이건 잘 모르겠다"라는 메타인지(metacognition)를 가지고 있다. 하지만 LLM에게는 이런 메커니즘이 기본적으로 내장되어 있지 않다. 모델 입장에서는 모든 질문이 동일하게 "다음 단어를 예측해야 하는 상황"일 뿐이다. 그래서 자신이 확실히 아는 정보든, 어렴풋이 학습한 정보든, 아예 학습한 적 없는 정보든 모두 비슷한 자신감으로 답변을 생성하게 된다.
할루시네이션 문제가 구조적인 이유는 학습 방식뿐만이 아니다. 모델을 평가하고 보상을 설계하는 방식 자체가 할루시네이션을 조장하는 측면이 있다. OpenAI의 연구팀은 이 점을 매우 신랄하게 지적한다.
AI 모델의 성능을 측정할 때 가장 흔히 사용되는 지표는 정확도(Accuracy)다. 주어진 질문에 대해 정답을 맞힌 비율을 계산하는 것이다. 언뜻 보면 합리적인 평가 방식 같지만, 여기에는 치명적인 맹점이 숨어 있다. "모르겠다"라고 답한 경우는 어떻게 처리될까. 대부분의 벤치마크에서 기권(abstention)은 오답과 마찬가지로 0점 처리된다. 반면 찍어서 맞히면 점수를 받는다.
모델 입장에서 이것은 무엇을 의미하는가. 모르겠다고 솔직하게 말하는 것보다 일단 아무 답이나 내놓는 것이 기대값 측면에서 더 유리하다는 뜻이다. 간단한 예를 들어보자. 객관식 5지선다 문제가 있다고 하자. 모델이 정답을 전혀 모른다면 솔직하게 "모르겠다"라고 답할 수 있다. 이 경우 점수는 0점이다. 하지만 무작위로 찍으면 20% 확률로 정답을 맞힐 수 있다. 기대 점수는 0.2점이다. 평가 시스템이 이렇게 설계되어 있는 한, 모델은 찍는 전략을 학습하게 된다. 더 정확히 말하면, 강화학습 과정에서 모르는 문제에도 일단 답을 내놓는 행동이 보상을 받게 되는 것이다.
OpenAI의 분석에 따르면 과거에 출시된 모델들은 정확도는 상당히 높았지만, 동시에 틀릴 때 자신만만하게 틀리는 비율, 즉 할루시네이션 비율도 매우 높았다. 그리고 "모르겠다"라고 말하는 비율은 거의 0에 가까웠다. 이것은 모델이 멍청해서가 아니라 평가 체계가 그렇게 행동하도록 유도했기 때문이다.
이 문제를 인식한 OpenAI는 새로운 평가 프레임워크를 제안한다. 핵심은 정답, 오답, 기권을 세 가지 별개의 카테고리로 분리해서 평가하는 것이다. 정답은 당연히 높은 점수를 받는다. 하지만 오답, 특히 자신만만하게 틀린 답변에는 더 큰 페널티를 부과한다. 반면 기권에는 부분 점수를 주거나 최소한 페널티를 부과하지 않는다. 이렇게 하면 모델 입장에서 "모를 때 찍는 것"보다 "모를 때 모른다고 말하는 것"이 더 유리해진다.
이 논문이 시사하는 바는 명확하다. 할루시네이션은 더 이상 미스터리한 현상이 아니다. 왜 발생하는지 통계적으로 어느 정도 설명이 가능하고, 따라서 평가 및 보상 구조를 바꾸면 줄일 수 있다는 것이다. 우리가 모델을 점수 매기는 방식이 곧 모델에게 "찍어라"라고 가르치고 있었던 셈이다. 이 인식의 전환이 최신 모델들의 설계 철학에 반영되기 시작했다.
할루시네이션 문제의 심각성을 인식한 주요 AI 기업들은 각자의 방식으로 이 문제에 대응하고 있다. 접근법은 조금씩 다르지만, 겸손한 모델을 만들겠다는 방향성은 공유하고 있다.
OpenAI의 경우 "Why Language Models Hallucinate" 연구를 공식 블로그에 게시하며 매우 이례적인 행보를 보였다. 자사의 과거 모델들이 가졌던 문제점을 공개적으로 인정하고, 평가 방식 자체의 결함을 지적한 것이다. 이러한 인식을 바탕으로 최신 GPT 계열 모델들은 새로운 철학으로 설계되었다. 정확도를 극대화하는 것보다 모를 때 모른다고 말하는 능력을 갖추는 것이 더 중요하다는 관점이다. 최신 모델의 시스템 카드를 보면 브라우징 기능을 활성화한 상태에서 다섯 개의 사실 검증 도메인에서 할루시네이션 비율이 1% 미만으로 측정되었다. 또한 의도적인 날조나 속임수에 대한 별도 평가에서도 이전 버전 대비 속임수 비율이 대폭 감소했다. 여기서 말하는 속임수란 출처를 꾸며낸다거나, 모르는 것을 알면서도 아는 척하는 행동을 의미한다.
Google의 Gemini는 다른 양상을 보여준다. 구글이 지금까지 만든 것 중 가장 강력한 멀티모달 추론 모델이라고 소개한 이 모델은 Sparse MoE(Mixture of Experts) 기반 아키텍처를 사용한다. 모든 토큰마다 전체 파라미터를 사용하는 것이 아니라 입력에 따라 일부 전문가(Expert) 네트워크만 활성화하여 효율성과 용량을 동시에 끌어올리는 구조다. 문제는 정확도는 크게 향상되었지만 할루시네이션 경향은 여전히 높다는 점이다. Artificial Analysis가 운영하는 Omnis 벤치마크 결과를 보면 Gemini 3 Pro는 정확도 면에서 40개 모델 중 1위를 차지했지만, 잘못된 응답들 중 무려 88%가 자신만만한 헛소리, 즉 Hallucinated Answer로 분류되었다. 아예 대답을 하지 않는 경우보다 틀린 답을 자신있게 내놓는 경우가 압도적으로 많다는 뜻이다. 구글은 웹 문서, 코드, 이미지, 오디오, 동영상까지 포함한 초대형 멀티모달 데이터셋으로 기본 뼈대를 학습시키고, 그 위에 인스트럭션 튜닝, 사람 피드백을 활용한 강화학습(RLHF), 멀티스텝 추론 데이터를 활용한 추가 훈련 등 여러 단계를 거친다. 사용하는 기술 스택 자체는 OpenAI와 크게 다르지 않지만, 모를 때는 기권하라는 방향의 보상 설계가 얼마나 강하게 적용되었는지에 대해서는 공개된 디테일이 부족하다.
Anthropic은 처음부터 다른 철학을 가지고 출발한 회사다. 가장 정확한 모델보다 위험을 덜 만드는 안전한 모델에 더 무게를 둔다. 따라서 할루시네이션을 다루는 방식도 OpenAI나 Google보다 사용자 지침과 제품 UX에 더 밀접하게 연결되어 있다. 공식 Claude Docs의 "Reduce Hallucinations" 페이지를 보면 기본 전략이 매우 직관적으로 제시되어 있다. 첫째, 모른다고 말할 수 있게 허용하라. 시스템 메시지에서 "정보가 부족하거나 확신이 없으면 '모르겠다'라고 답해도 된다"라고 명시하라는 것이다. 둘째, 직접 인용을 강제하라. 긴 문서를 분석할 때는 먼저 원문에서 관련 문장을 직접 인용한 후 그것을 기반으로 요약이나 분석을 하도록 프롬프트를 설계하라고 권장한다. 셋째, 항상 출처를 달게 만들어라. 응답의 각 주장마다 어떤 문장이 그것을 뒷받침하는지 다시 찾아오게 하고, 인용이 불가능하면 해당 주장을 철회하게 하라는 것이다. Omnis 벤치마크에서 Claude 4.5 Sonnet은 정확도 31%로 Gemini 3 Pro의 53%보다 낮았지만, 할루시네이션 비율이 매우 낮아서 지식이 많고 신뢰성이 높은 모델 카테고리에서 1위를 차지했다. 이는 Claude가 모를 때 그냥 모른다고 말하는 편이 많고, 찍어서 틀리는 비율은 상대적으로 적다는 것을 의미한다.
xAI의 Grok은 상대적으로 공개 문서가 적어서 내부적으로 어떤 강화학습 구조를 사용했는지 외부에서 파악하기 어렵다. 대신 외부 벤치마크 결과를 통해 위치를 가늠할 수 있다. Omnis 벤치마크에서 Grok 4는 정확도 40%로 꽤 높은 편이지만 할루시네이션 비율은 64% 수준이다. Gemini 3 Pro의 88%보다는 낮지만 여전히 찍는 경향이 있는 모델로 분류된다. xAI가 공식 블로그에서 밝힌 전략은 크게 두 가지다. 실시간 X(구 Twitter) 데이터와 웹 데이터로 지식의 최신성을 확보하여 구식 정보에서 오는 오류를 줄인다는 것, 그리고 모델 구조를 강한 추론 및 코딩 능력 쪽으로 튜닝하여 단순 암기보다는 생각하는 모델을 지향한다는 것이다.
5장. 기술적 해결의 세 가지 층위
각 회사들이 할루시네이션을 줄이기 위해 적용하는 기술은 크게 세 가지 층위로 나누어 볼 수 있다.
모델을 훈련하는 단계, 시스템 아키텍처 레벨, 그리고 제품 UX 레벨이다.
모델 훈련 레벨에서는 가장 근본적인 접근이 이루어진다. 첫째, 데이터 필터링이다. 학습에 사용되는 데이터의 품질을 높이고 고품질 데이터의 비중을 늘린다. 인터넷에서 긁어모은 텍스트를 그대로 사용하는 것이 아니라, 신뢰할 수 있는 출처의 데이터를 우선시하고 중복이나 저품질 콘텐츠를 제거한다. 둘째, 강화학습을 통한 보상 설계다. 빡센 스파르타식 과외에 비유할 수 있는 이 과정에서 모를 때 모른다고 말해라를 점수에 반영한다. 정답을 맞히면 보상을 주는 것은 물론이고, 자신만만하게 틀렸을 때는 강한 페널티를 부여한다. 셋째, 검증형 훈련이다. Chain of Thought 방식으로 생각 과정을 먼저 쓰고, 그것을 검증한 뒤 최종 답을 내도록 훈련한다.
시스템 아키텍처 레벨에서는 모델이 자기 머릿속 지식에만 의존하지 않도록 외부 자원을 활용하는 구조를 설계한다. 가장 대표적인 것이 RAG(Retrieval-Augmented Generation)다. 요즘 AI에게 질문하면 답변과 함께 출처를 달아주는 경우가 많은데, 이것이 RAG 기술의 결과물이다. 모델이 답을 생성하기 전에 먼저 외부 문서나 웹을 검색하여 관련 정보를 가져오고, 그 정보를 바탕으로 답변을 구성한다. 이렇게 하면 모델이 기억에만 의존하지 않고 실시간으로 검증된 정보를 참조할 수 있다.
Tool Use, 즉 도구 사용도 중요한 기술이다. AI가 추측을 하는 대신 계산기, 코드 실행기, 웹 검색 API 등 특정 도구들을 직접 활용하여 답을 구하고 검산하게 만드는 것이다. 예를 들어 "2023년 세계 GDP 순위"를 물었을 때 모델이 학습 데이터에서 어렴풋이 기억하는 정보를 끄집어내는 대신, 실시간으로 검색 엔진을 호출하여 최신 데이터를 가져오도록 설계한다. 여기에서 한 단계 더 나아간 것이 멀티스텝 에이전트(Multi-step Agent) 구조다. 한 번에 답을 내는 것이 아니라 계획, 검색, 검증, 수정, 최종답 순으로 여러 단계를 거치도록 설계한다. 마치 인간이 복잡한 문제를 해결할 때 정보를 찾고, 검토하고, 수정하는 과정을 거치는 것과 유사하다. 이런 구조에서는 각 단계마다 오류를 잡을 기회가 생기므로 최종 답변의 품질이 높아진다.
제품 UX 레벨은 사용자와 직접 만나는 접점에서 할루시네이션의 영향을 최소화하는 접근이다. 가장 기본적인 것은 "이 모델은 틀릴 수 있습니다"라는 전제를 명확히 깔아두는 것이다. 답변에 링크나 출처 인용을 달고, 확실하지 않은 부분은 강조 표시를 하여 사용자가 검증하기 쉽게 만든다. 법률이나 의료처럼 오류의 비용이 높은 특정 도메인에서는 자동 또는 반자동 팩트체킹 시스템을 붙이기도 한다. 또한 모델이 "모르겠다" 또는 "정보가 부족하다"라고 말하는 것을 UX 차원에서 장려하는 것도 중요하다. 사용자 입장에서는 AI가 "잘 모르겠습니다"라고 답하면 실망할 수 있지만, 자신만만한 오답을 받는 것보다는 훨씬 낫다. 이런 인식을 사용자에게 심어주고, 모델의 겸손한 응답을 긍정적으로 받아들이도록 유도하는 것도 제품 설계의 일부다.
할루시네이션을 완전히 없앨 수는 없지만, 프롬프트 설계를 통해 실제 현업에서 체감할 정도로 줄일 수 있는 기법들이 있다.
첫 번째 전략은 "모른다"고 말할 수 있는 권한을 명시적으로 부여하는 것이다. 프롬프트에 다음과 같은 문구를 추가하면 효과가 있다. "모르는 내용은 절대 지어내지 마세요. '해당 정보는 제공된 자료나 제 지식 범위를 벗어납니다'라고 말해도 됩니다. 추측이 필요한 경우에는 '이것은 추측입니다'라고 먼저 명시하세요." 이 한 줄을 추가하는 것만으로도 확신에 찬 헛소리가 추측 또는 가정이라고 라벨링된 답변으로 바뀌는 경우가 많다.
두 번째 전략은 근거 먼저, 결론 나중 구조를 강제하는 것이다. "먼저 제공된 자료에서 관련 근거를 직접 인용하세요. 그 근거를 바탕으로 분석을 진행하세요. 근거가 부족하면 '근거가 부족합니다'라고 명시하세요." 이렇게 프롬프트를 설계하면 모델이 마음대로 상상한 뒤 그럴듯하게 포장하는 패턴이 줄어든다. 근거가 빈약할 때 스스로 "근거가 빈약하네요"라는 자기 피드백을 붙일 가능성이 높아진다.
세 번째 전략은 출처나 확신도를 요구하는 것을 기본값으로 설정하는 것이다. "각 주장에 대해 근거 출처를 명시하거나, 확신 수준을 높음/중간/낮음으로 표시해 주세요." 이렇게 요청하면 모델이 불필요한 디테일을 꾸며낼 때 "확신도: 낮음"이라고 스스로 붙여주는 경우가 늘어난다. 사용자 입장에서는 어떤 정보를 신뢰할 수 있고 어떤 정보를 추가로 검증해야 하는지 판단하기 쉬워진다.
네 번째 전략은 질문의 범위를 좁히고 구체적으로 만드는 것이다. 할루시네이션이 잘 발생하는 패턴 중 하나는 광범위하고 모호한 질문이다. "AI의 미래에 대해 알려줘"와 같은 질문은 모델에게 상상력을 발휘해도 된다는 신호를 준다. 대신 "2024년에서 2025년 사이 발표된 AI 규제 관련 주요 정책 세 가지를 구체적인 날짜와 함께 알려줘"처럼 시간 범위와 도메인을 극단적으로 좁혀서 물으면 모델은 패턴 회상 모드로 전환되고 창작 모드는 줄어든다.
다섯 번째 전략은 체크리스트 기반 응답을 요구하는 것이다. "답변하기 전에 다음 체크리스트를 확인하세요. 1) 이 정보의 출처가 명확한가? 2) 추측이 포함되어 있는가? 3) 확인이 필요한 부분이 있는가? 체크리스트를 먼저 작성한 후 최종 답변을 작성하세요." 이런 메타 인스트럭션을 주면 모델이 답변할 때 스스로 한 번 더 검열을 하게 된다.
여섯 번째 전략은 생성과 비평을 두 단계로 분리하는 것이다. 첫 번째 단계에서는 "일단 초안을 작성해 주세요. 할루시네이션이 있어도 괜찮습니다"라고 요청한다. 그 다음 두 번째 단계에서 "방금 작성한 초안을 비판적으로 검토해 주세요. 근거가 불명확하거나 추측에 기반한 부분을 지적하고, 필요하면 수정해 주세요"라고 요청한다. 같은 모델을 1차로 생성기, 2차로 비평가로 활용하면 최종적으로 받는 답변의 헛소리 강도가 상당히 줄어든다.
똑똑하고 말을 잘하지만 도덕성이 떨어지는 정치인이 무서운 것처럼, AI 역시 엄청나게 똑똑해지고 있지만 너무나도 당당하게 아무 말이나 던지기 때문에 경계가 필요하다. 할루시네이션은 AI의 버그가 아니라 현재 기술이 가진 구조적 특성이다. 다음 단어를 예측하는 방식으로 학습된 모델이 진실과 거짓을 구분하지 못하는 것은 어찌 보면 당연한 일이다.
다행히 이 문제를 해결하기 위한 노력이 여러 차원에서 진행되고 있다. OpenAI는 평가 체계 자체를 바꿔서 겸손한 모델이 더 높은 점수를 받도록 설계하고 있고, Anthropic은 프롬프트와 UX 설계를 통해 모델이 스스로 한계를 인정하도록 유도하고 있다. Google과 xAI도 각자의 방식으로 이 문제에 대응하고 있다. RAG, Tool Use, 멀티스텝 에이전트 같은 시스템 아키텍처 혁신도 모델이 자기 머릿속 지식에만 의존하지 않도록 만드는 데 기여하고 있다.
사용자 입장에서도 할 수 있는 일이 많다. 프롬프트 설계만 잘해도 할루시네이션을 상당 부분 줄일 수 있다. 모른다고 말할 권한을 주고, 근거를 먼저 요구하고, 질문을 구체화하고, 생성과 비평을 분리하는 전략들은 당장 내일부터 적용할 수 있는 실전 기법이다.
Omnis 벤치마크와 같은 새로운 평가 체계에서는 모델의 파라미터 수가 크고 정확도가 높다고 해서 할루시네이션이 줄어들지 않는다는 점이 드러났다. 더 큰 모델이 덜 헛소리한다는 공식은 성립하지 않는다. 지식의 양과 정확도, 그리고 신뢰성은 서로 다른 차원의 지표다. 어떤 모델은 지식이 많지만 무조건 말부터 하고 보는 스타일이고, 어떤 모델은 지식은 상대적으로 적더라도 모르면 모른다고 말하는 스타일이다. 사용자 입장에서 어떤 모델을 선택할지는 용도에 따라 달라질 수 있다. 창의적인 브레인스토밍이 필요한 상황에서는 일단 많이 아는 모델이 유리할 수 있지만, 팩트 체크가 중요한 업무에서는 신중하게 말하는 모델이 더 적합하다.
AI를 활용하는 새로운 리터러시가 필요한 시대가 되었다. 모델별 특성을 파악하고, 어떤 모델이 어떤 상황에 적합한지 이해하며, 프롬프트를 통해 모델의 행동을 적절히 유도하는 능력이 중요해졌다. AI가 제공하는 정보를 무비판적으로 받아들이는 것이 아니라, 비판적으로 검토하고 필요할 때 추가 검증을 수행하는 습관도 필수가 되었다.
앞으로의 AI 발전 방향은 명확하다. 무엇을 아는가를 넘어서 무엇을 모른다고 인정할 수 있는가가 핵심 성능 지표가 되어가고 있다. 진정으로 신뢰할 수 있는 AI란 모든 것을 아는 척하는 AI가 아니라, 자신의 한계를 정직하게 인정하는 AI일 것이다. 인간과 AI의 협업이 바람직한 방향으로 나아가려면, AI의 이런 겸손함이 기술적으로나 문화적으로나 더욱 중시되어야 한다.