요즘 AI의 발전을 체감하는 순간들은 비슷합니다. "이 정도까지 해?" 싶은 코딩 보조, 자연스러운 대화, 이미지와 영상 생성, 업무 자동화 도구들이 빠르게 일상에 들어옵니다. 몇 년 전 데모 수준이던 것들이 제품이 되고, 제품이 사용 데이터를 낳고, 그 데이터가 다음 모델을 끌어올리는 흐름이 반복됩니다.
많은 사람들은 AI의 발전을 "규모(Scale)의 승리"로 요약합니다. 더 큰 모델, 더 많은 데이터, 더 많은 연산. 이 요약은 틀리지 않지만, 한 가지를 놓치기 쉽습니다. 같은 규모라도 어떤 분야는 눈에 띄게 빨리 좋아지고, 어떤 분야는 기대만큼 진도가 나가지 않습니다. 왜일까요?
이 질문에서 출발하면, AI의 미래를 조망하는 방식이 달라집니다. 단순히 "더 큰 모델"이 모든 작업 능력을 동시에 끌어올린다고 상상하는 대신, 어떤 문제들이 AI로 빠르게 정복되는지, 그리고 그 과정에서 어떤 원리가 작용하는지 보게 됩니다.
굿하트의 "지표가 목표가 되는 순간, 그 지표는 진실을 말하지 않는다"는 통찰은 AI 발전 양상을 이해하는 실용적인 관점이 되고 있습니다. 인간 조직의 KPI나 시장의 가격 신호가 행동을 바꾸듯, AI에서도 벤치마크와 보상 신호는 단순한 측정치를 넘어 발전의 방향 자체를 결정하기 때문입니다. 이 글에서는 '측정 가능함'이 어떻게 AI 발전을 가속하는지, 그리고 '점수의 상승'과 '현실의 개선'이 언제 겹치고 언제 어긋나는지를 조망해보고자 합니다.
AI가 특히 빠르게 좋아지는 영역의 공통점은 명확합니다. 결과를 검증 가능(verifiable)하게 판정할 수 있고, 그 판정을 자동으로 채점할 수 있다는 점입니다.
여기서 "검증 가능하다"는 말은 정답이 하나라는 뜻만은 아닙니다. 어떤 방식으로든 "맞다/틀리다" 또는 "성공/실패"를 비교적 신뢰할 만하게 가를 수 있어야 합니다. 검증 가능성이 확보되는 순간, AI의 개선은 훨씬 빠르고 공학적으로 변합니다. 개선을 반복하려면 매번 "어느 쪽이 더 나은지"를 확인할 수 있어야 하고, 그 확인이 싸고 빠를수록 반복이 가속되기 때문입니다.
코딩이 대표적입니다. 컴파일이 되는가, 테스트를 통과하는가, 특정 요구사항을 만족하는가 같은 기준은 비교적 명확합니다. 모델이 낸 결과를 빠르게 평가하고, 그 평가를 다시 학습 신호로 돌리기 쉽습니다. 그 결과 AI에 의해 가장 먼저 파괴적인 변화를 겪는 분야가 되는 것이 기정 사실화되고 있습니다.
수학도 비슷합니다. 많은 수학 문제는 정답 여부를 비교적 명확하게 판정할 수 있고, 풀이 과정이 일정한 규칙을 따르기 때문에 "틀렸다"는 신호를 주기가 쉽습니다. 그 결과 AI의 수학 풀이 능력은 국제수학올림피아드(IMO)에서 금메달 수준의 점수를 기록할 정도로 향상되었습니다.
여기까지는 낙관적인 이야기입니다. 검증 가능한 것은 개선이 빠르고, 개선이 빠르면 혁신이 현실이 됩니다. 그런데 다음 질문이 생깁니다. 검증 가능한 것만 좋아지는 구조라면, 검증이 어렵거나 비용이 큰 가치들은 어떤 처지에 놓일까요?
AI 분야에서 "성능"은 대개 숫자로 표현됩니다. 정확도, 승률, BLEU나 ROUGE 같은 지표, 인간 선호도 평가 점수, 안전성 점검 통과율 등입니다. 숫자가 필요한 이유는 분명합니다. 숫자가 있어야 비교가 가능하고, 비교가 있어야 누적이 가능하기 때문입니다. "벤치마크가 없다면 발전도 없다"는 반론은 충분히 설득력이 있습니다.
다만 숫자는 언제나 어떤 현실을 대표하는 '대리변수'입니다. 대리변수가 잘 설계되어 있으면 점수 상승이 곧 현실 개선으로 이어집니다. 문제는 최적화가 강해질수록, 즉 많은 자원과 관심이 특정 지표에 집중될수록, 그 대리변수가 애초에 대표하려던 현실과 조금씩 어긋날 수 있다는 점입니다.
구체적 예시를 보겠습니다. MMLU(Massive Multitask Language Understanding) 같은 벤치마크는 AI의 지식 범위를 측정하기 위해 설계되었습니다. 초기에는 점수 향상이 실제 이해력 증가를 잘 반영했습니다. 그러나 많은 모델이 이 벤치마크에 최적화되면서, 몇 가지 패턴이 발견되었습니다:
1. 특정 유형의 질문에 대한 "패턴 인식" 능력이 발달합니다
2. 비슷한 문제 구조에서 높은 정확도를 보이지만, 문제가 조금만 변형되면 성능이 크게 떨어집니다
3. 벤치마크에 자주 등장하는 주제는 잘 다루지만, 실제 전문가 작업에서 중요한 맥락 파악이나 미묘한 판단은 여전히 어려워합니다
이것은 누군가의 부정직 때문이 아닙니다. 보상이 걸린 환경에서 시스템이 보이는 합리적 적응입니다.
이 현상을 너무 AI만의 특수성으로 몰고 가면 오히려 설득력이 약해집니다. 우리는 이미 비슷한 구조를 여러 곳에서 경험해왔기 때문입니다.
인사평가를 떠올려보면 됩니다. 측정되는 항목이 중요해지고, 측정되지 않는 항목은 "좋은 일"이어도 뒷전으로 밀리기 쉽습니다. 예를 들어 "처리한 티켓 수"가 KPI가 되면, 빠르게 처리할 수 있는 간단한 요청만 우선 처리하고 복잡하지만 중요한 문제는 미루게 됩니다.
주식 시장의 가격도 흥미로운 사례입니다. 가격은 정보를 반영한다고 말하지만, 동시에 행동을 유발합니다. 분기 실적, 성장률, 특정 지표가 시장의 관심을 받으면 기업은 그 지표를 만족시키는 방식으로 전략을 조정합니다. 장기 R&D보다 단기 수익성에 집중하거나, 지속가능성보다 분기별 성장률을 우선시하는 결정이 합리적이 됩니다. 가격은 단순한 '측정치'가 아니라 '규범'이 됩니다.
AI의 loss와 벤치마크도 유사합니다. 모델은 보상을 최대화하는 방향으로 학습합니다. 인간이 KPI를 최적화하고, 시장이 가격 신호에 최적화하듯, AI는 학습 신호에 최적화합니다. 중요한 차이는 속도와 규모입니다. AI는 훨씬 빠르게 적응하고, 한 번의 설계가 대규모 사용자에게 일괄적으로 영향을 미칠 수 있습니다. 그래서 "지표의 설계"는 단순한 기술적 선택이 아니라, 시스템 전체의 행동을 설계하는 일에 가까워집니다.
앞으로 AI가 특히 빠르게 발전할 가능성이 큰 영역은 다음 조건을 만족합니다:
- 결과의 좋고 나쁨을 비교적 명확히 판단할 수 있어야 합니다
- 그 판단을 자동화하거나 대량화할 수 있어야 합니다
- 배포 후 데이터가 다시 학습으로 연결되는 루프가 있어야 합니다
이런 조건을 갖춘 분야는 기술이 빠르게 전진합니다.
코딩·소프트웨어 개발은 테스트와 검증이 자동화되어 있어 루프가 잘 돕니다. Cursor AI, Claude Code같은 도구가 빠르게 개선되는 이유입니다. 코드가 실행되는가, 테스트를 통과하는가, 요구사항을 만족하는가는 즉각적으로 확인 가능합니다.
반대로 의료나 법률처럼 정답이 하나가 아니고 책임이 뒤따르며, 상황 맥락이 중요한 분야는 "측정 가능한 성능"을 만들기 위해 더 많은 사회적 합의와 비용이 필요합니다. 의료 진단 AI가 특정 질병 식별 벤치마크에서 높은 점수를 받더라도, 실제 임상 현장에서는 환자 이력, 다른 증상과의 상관관계, 검사 비용 대비 효과 같은 복합적 판단이 필요합니다. 그래서 벤치마크 점수는 좋아지는데 실제 현장 적용은 조심스러워지는 양상이 나타날 수 있습니다.
이 전망은 "AI가 어떤 분야를 대체한다" 같은 단정이라기보다, 어떤 평가 구조가 기술 발전을 가속하는지에 대한 관찰에서 나옵니다. 그리고 바로 그 지점에서 다음 질문이 등장합니다. 루프가 쉬운 분야에서의 빠른 발전이, 우리가 원하는 가치와 항상 같은 방향일까요?
이쯤에서 자연스럽게 나오는 반론이 있습니다. "그렇다면 지표를 더 잘 만들면 되지 않습니까?" 실제로 AI 분야는 계속 더 좋은 평가를 만들고 있습니다. 단일 지표에서 다중 지표로, 정적 문제에서 상호작용 과제로, 단기 성능에서 장기 과업 수행으로 평가를 확장합니다. 이는 분명히 건강한 방향입니다.
다만 "더 좋은 지표"가 언제나 문제를 해결하는지는 조금 더 생각해볼 필요가 있습니다. 이유는 간단합니다. 우리가 실제로 원하는 가치들은 대개 다차원적이고, 상황 의존적이며, 때로는 서로 충돌합니다. 유용성과 안전성은 함께 가야 하지만, 동일한 지표 하나로 깔끔하게 합쳐지기 어렵습니다. 예를 들어 "사용자 질문에 더 많이 답변한다"는 지표는 유용성을 높이지만, 때로는 답변하지 않는 것이 더 안전할 수 있습니다. 다양성과 개인화도 마찬가지입니다.
그래서 평가가 정교해질수록 "정답"에 가까워지기도 하지만, 동시에 평가 자체가 하나의 정치적·윤리적 선택이 됩니다. 무엇을 우선시할지, 어떤 위험을 허용할지, 누구의 경험을 대표값으로 삼을지 같은 질문이 뒤따릅니다.
기술비평의 역할은 "벤치마크가 나쁘다"라고 말하는 데 있지 않습니다. 오히려 반대입니다. 벤치마크가 얼마나 강력한지, 그래서 벤치마크가 기술의 진로를 얼마나 쉽게 바꿔버리는지를 드러내는 데 있습니다. 측정은 진보의 조건이지만, 측정이 곧 진보의 정의가 되는 순간, 우리는 진보의 의미를 좁혀버릴 수 있습니다.
지금까지의 관찰은 단순합니다. 피드백 루프를 만들기 쉬운 분야가 더 빨리 좋아집니다. 검증이 싸고 반복이 쉬우면, 개선은 공학적으로 가속됩니다.
그런데 다음 단계에서 더 중요해지는 건 "어느 분야가 유리한가"가 아니라, 비검증적인 문제(non-verifiable)를 검증 가능한 문제(verifiable)로 치환하는 능력일 수 있습니다. "좋은 기획", "설득력", "현명한 판단"이런 것들을 분해하고 성공 조건을 정의하면 갑자기 루프가 생깁니다. 같은 모델을 써도 성과가 갈리는 이유는 여기서 나옵니다.
하지만 과연 모든 것을 검증 가능한 형태로 치환할 수 있을까요? 어떤 가치들은 측정 가능한 단위로 쪼개는 순간 본질이 달라집니다. 더 근본적으로, 어떤 문제는 검증 불가능함 자체가 본질일 수 있습니다. 이런 것들을 억지로 루프로 만들 수는 있습니다. 하지만 그 순간 우리는 문제를 해결하는 게 아니라 문제를 바꿔치기하고 있을지 모릅니다.
미래는 더 똑똑한 모델이 아니라, 더 좋은 피드백 루프를 가진 쪽으로 기웁니다. 하지만 더 중요한 미래는, 무엇을 루프 안에 넣고 무엇을 루프 밖에 남겨둘지 구분할 수 있는 쪽으로 기울 것입니다.