글쓰기도 사람을 이겼다: 2026년 AI 현주소

4월 첫주차 AI 트렌드

Apr 3. 2026

원본 자료

"AI 써봤는데 별로던데?" 그때와 지금은 다릅니다

주변에서 이런 말을 들어본 적 있을 겁니다.

"AI 한번 써봤는데, 엉뚱한 답만 내놓더라." 혹은 "AI가 쓴 글은 바로 티가 나잖아." 1년 전이라면 맞는 말이었을 수도 있습니다. 하지만 2026년 4월 현재, AI의 실력은 그때와는 완전히 다른 수준에 와 있습니다.

최근 뉴욕타임스가 86,000명을 대상으로 블라인드 테스트를 진행했습니다. 같은 주제로 쓴 글 두 편을 보여주고 더 좋은 글을 고르게 했는데, 54%가 AI가 쓴 글을 선택했습니다. 사람이 쓴 글보다 AI가 쓴 글을 더 많이 골랐다는 뜻입니다. 이 결과를 처음 접했을 때 솔직히 놀랐습니다.

이 글은 "AI 아직도 안 쓰는 사람"에게 보여주기 위해 썼습니다. 구체적인 숫자와 데이터로, 지금 AI가 정확히 어디까지 와 있는지 정리했습니다.

환각률 96% 감소: "AI가 거짓말한다"는 옛말

AI를 기피하는 가장 흔한 이유 중 하나가 "할루시네이션(hallucination)" 문제입니다.

AI가 그럴듯하지만 사실이 아닌 정보를 만들어내는 현상이죠. 한때는 꽤 심각한 문제였습니다.

그런데 숫자를 보면 상황이 완전히 달라져 있습니다. Vectara의 요약 벤치마크 기준, 최고 성능 모델의 환각률은 2021년 21.8%에서 2025년 0.7%로 떨어졌습니다. 4년 만에 96%가 줄어든 겁니다. 100번 답변하면 21번 틀리던 AI가, 이제는 100번 중 1번도 채 틀리지 않는 수준이 된 것이죠.

물론 법률이나 의료 같은 전문 분야에서는 아직 환각률이 높아질 수 있습니다. 하지만 일상적인 업무, 이를테면 이메일 초안 작성이나 보고서 요약, 데이터 분석 같은 작업에서는 환각 문제가 사실상 해결 단계에 접어든 셈입니다.

▶ 원본 자료 https://www.allaboutai.com/resources/ai-statistics/ai-hallucinations/

AI Hallucination Report 2026: Which AI Hallucinates the Most?

Compare top LLMs in 2026 by AI hallucination rate. Discover the most accurate AI models from OpenAI, Google, Anthropic & more, ranked and verified.

https://www.allaboutai.com/resources/ai-statistics/ai-hallucinations/

NYT 블라인드 테스트: AI 글쓰기, 사람을 넘다

"AI가 쓴 글은 티가 난다"는 말도 이제는 재검토가 필요합니다.

2026년 3월, 뉴욕타임스는 흥미로운 실험을 했습니다. 같은 주제에 대해 사람이 쓴 글과 AI가 쓴 글을 나란히 놓고, 독자들에게 "어느 쪽이 더 좋은지" 골라보라고 한 겁니다. 누가 쓴 건지는 알려주지 않았습니다.

86,000명이 참여한 이 테스트에서 54%가 AI가 쓴 글을 선택했습니다. 압도적인 차이는 아니지만, "사람 글이 무조건 낫다"는 전제가 더 이상 성립하지 않는다는 의미입니다.

다만 이 결과를 "AI가 사람보다 글을 잘 쓴다"고 단정하기엔 무리가 있습니다. 테스트 설계에 대한 비판도 있었거든요. 비교 대상이 된 인간 글이 특별히 뛰어난 작가의 글은 아니었다는 점, 장르에 따라 결과가 달라질 수 있다는 점은 고려해야 합니다. 하지만 "AI 글은 다 티가 나서 못 쓴다"는 인식은 분명히 깨진 셈입니다.

▶ 원본 자료 https://www.nytimes.com/interactive/2026/03/09/business/ai-writing-quiz.html

Who’s a Better Writer: A.I. or Humans? Take Our Quiz.

A.I. chatbots contain the sum of all human knowledge. That can make them pretty good writers.

https://www.nytimes.com/interactive/2026/03/09/business/ai-writing-quiz.html

AI 능력은 7개월마다 2배로 뛴다

AI 연구기관 METR이 2019년부터 2026년까지 최고 성능 AI 에이전트들을 대상으로 코딩 작업 능력을 측정한 결과, AI가 처리할 수 있는 작업의 복잡도가 약 7개월마다 2배씩 성장하고 있다는 것을 발견했습니다.

일부 분석에서는 이 속도가 최근 더 빨라져 4개월 수준까지 단축되었다는 주장도 나옵니다.

이것이 의미하는 바는 꽤 충격적입니다. 지금 이 순간 AI가 못하는 작업이 있더라도, 반년 뒤에는 할 수 있게 된다는 뜻이니까요. "작년에 써봤는데 별로였어"라는 경험은 이미 유효기간이 지난 정보일 가능성이 높습니다.

▶ https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

Measuring AI Ability to Complete Long Tasks

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

파워유저는 AI를 3.5개 쓴다

AI를 잘 활용하는 사람들의 습관에서도 흥미로운 패턴이 보입니다.

AI Daily Brief의 월간 설문조사에 따르면, 응답자의 97%가 매일 AI를 사용하고 있으며 60% 이상이 에이전트나 자동화 같은 고급 기능을 활용하고 있었습니다. 그리고 이들이 사용하는 AI 모델 수는 평균 3.5개였습니다.

왜 하나가 아니라 여러 개일까요?

AI 모델마다 잘하는 영역이 다르기 때문입니다. 엑셀 작업에는 이 모델, 글쓰기에는 저 모델, 이미지 생성에는 또 다른 모델을 쓰는 식입니다. 마치 연필과 볼펜과 만년필을 용도에 맞게 쓰는 것과 비슷합니다.

반면 초보자들이 가장 많이 하는 실수가 바로 "무료 기본 모델만 쓰는 것"입니다. ChatGPT에 접속하면 기본으로 설정된 모델이 있는데, 이건 비용 절감을 위해 최고 성능 모델보다 한 단계 아래인 경우가 많습니다. AI를 처음 써보고 "별로"라고 느꼈다면, 최고 성능 모델이 아니라 비용 효율적인 모델로 경험한 것일 수 있습니다.

AI가 좋아졌다고 해서 무조건 믿어도 된다는 뜻은 아닙니다.

실제로 AI를 많이 쓰는 사람들이 공통으로 지적하는 주의사항이 있습니다.

첫째, AI는 틀려도 자신 있게 말합니다. 환각률이 낮아졌다고 해도 0%는 아닙니다.

문제는 AI가 모르는 것을 "모릅니다"라고 하지 않고, 확신에 찬 어조로 잘못된 정보를 제시할 수 있다는 점입니다. 중요한 의사결정에 AI 답변을 그대로 쓰기보다는, 핵심 정보는 반드시 한 번 더 확인하는 습관이 필요합니다.

둘째, AI는 아첨을 잘합니다.

"이 사업 아이디어 어때?"라고 물으면 대부분 "정말 좋은 아이디어네요!"라고 답합니다. 비판적 시각이 필요할 때는 명시적으로 "반대 의견을 제시해줘" 혹은 "이 아이디어의 약점을 찾아줘"라고 요청해야 솔직한 피드백을 받을 수 있습니다.

셋째, 양이 곧 질은 아닙니다.

AI 덕분에 100페이지 보고서도 금방 만들 수 있게 되었지만, 그렇다고 모든 마이크로 의사결정에 100페이지짜리 메모를 붙이면 조직이 오히려 혼란에 빠집니다. "이걸 AI로 만들 수 있는가"와 "이걸 만들어야 하는가"는 다른 질문입니다.

격차는 벌어지고 있다

한 가지 분명한 사실이 있습니다. AI를 쓰는 사람과 쓰지 않는 사람 사이의 격차는 좁아지는 것이 아니라 벌어지고 있다는 점입니다. AI의 능력이 복리처럼 성장하기 때문입니다. 지금 시작한 사람은 6개월 후에는 능숙한 사용자가 되어 있겠지만, 6개월을 더 미룬 사람은 그만큼 더 큰 격차를 극복해야 합니다.

프롬프트 엔지니어링 같은 전문 기술이 필요했던 시절은 지났습니다. 지금의 AI는 그냥 한국어로 말하면 됩니다. 마음에 안 들면 다시 말하면 됩니다. 마치 동료에게 업무를 맡기듯 자연스럽게 대화하면, AI가 알아서 더 좋은 프롬프트로 변환해서 처리합니다.

"AI가 별로"라고 느꼈던 그 경험은 이미 유효기간이 지났을 가능성이 높습니다.

지금 다시 한번 시도해볼 만한 가치가 충분합니다.

출처

Vectara Hallucination Leaderboard - AI 환각률 벤치마크 (21.8% -> 0.7% 감소) https://www.allaboutai.com/resources/ai-statistics/ai-hallucinations/

New York Times - Who is a Better Writer: A.I. or Humans? (86,000명 블라인드 테스트, 54% AI 선호) https://www.nytimes.com/interactive/2026/03/09/business/ai-writing-quiz.html

METR - Measuring AI Ability to Complete Long Tasks (코딩 작업 복잡도 7개월마다 2배 성장) https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

Jakob Nielsen - 18 Predictions for 2026 (AI 능력 성장 가속화 분석) https://jakobnielsenphd.substack.com/p/2026-predictions

keyword

Brunch Book 금요일 연재

연재 주간 AI 트렌드

전체 목차 보기

이전 08화Claude Cowork에 드디어 온 프로젝트 기능AI를 더 똑똑하게 만들어주는 두 가지 트렌드다음 10화