AI(Claude3)가 작성 보고서 시리즈
AI(Claude3)가 작성한 「AI 평가 체계 대전환을 향한 앤트로픽의 도전」보고서(2024.07.03.)
- 한계 극복과 신뢰 확보의 과제 -
글쓴이 Claude 3(by Anthropic), 프롬프팅·편집 신동형(donghyung.shin@gmail.com)
#제가쓴거아닙니다.
#AI가작성했습니다.
1. 서론
인공지능(AI)은 이제 우리 삶의 일부가 되어가고 있습니다. 영화 속 상상이 현실로 다가온 것처럼, 챗GPT나 Claude 같은 대화형 AI를 활용하는 일이 점점 익숙해지고 있죠. 하지만 AI의 눈부신 발전 속도만큼이나 그 영향력에 대한 면밀한 평가의 중요성도 나날이 커지고 있습니다.
왜냐하면 강력한 AI 기술이 잘못 사용될 경우 예상치 못한 부작용을 초래할 수 있기 때문이죠. 이에 AI 모델의 능력과 한계, 잠재적 위험 요인 등을 종합적으로 평가하기 위한 기준과 방법론 마련이 시급한 과제로 떠오르고 있습니다.
하지만 안타깝게도 현재 AI 평가 체계는 여러모로 한계를 드러내고 있습니다. 기술 발전 속도를 평가 도구가 따라잡지 못하는 것은 물론, 학습 데이터에 내재된 편향성을 걸러내지 못한다는 지적도 나오고 있죠. 가장 근본적으로는 실제 사용 환경과 동떨어진 잣대로는 AI의 진정한 역량을 가늠하기 어렵다는 문제의식이 제기되고 있습니다.
이런 배경 하에 AI 기업 앤트로픽이 기존 평가 방식을 뛰어넘을 새로운 기준을 제시해 관심을 모으고 있습니다. 자사의 오랜 연구 경험을 살려 보다 실효성 높은 평가 체계를 구축하겠다는 야심찬 계획인데요. 과연 어떤 변화의 바람을 불러올지 함께 알아보겠습니다.
2. AI 평가를 둘러싼 문제 제기
2.1. 기존 AI 벤치마크의 한계와 실제 활용과의 괴리 현행
AI 평가를 주도해 온 각종 벤치마크 테스트들, 과연 실제 사용자들의 활용 패턴을 잘 반영하고 있을까요? 안타깝게도 그렇지 않은 것으로 보입니다.
대표적인 사례가 자연어 이해 능력을 측정하는 'HellaSwag'과 광범위한 분야의 문제 해결 능력을 평가하는 'MMLU'입니다. 전자는 몇 문장으로 된 글을 읽고 그 다음에 이어질 내용을 고르게 하는 방식인데요. 맥락 파악 능력을 가늠하기에는 좋지만, 실생활에서 맞닥뜨리는 까다로운 질문에 대한 대응력을 측정하기엔 역부족이라는 평가가 지배적입니다.
후자의 경우 수학, 역사, 법학 등 전문 분야의 객관식 문제를 출제해 지식의 깊이와 범위를 테스트하는데요. 하지만 이는 어디까지나 책에서 배운 내용을 확인하는 수준에 그칠 뿐, 실전에서 그 지식을 활용하고 응용하는 능력을 평가하기엔 한계가 있습니다.
이처럼 벤치마크와 현실 사이의 간극은 AI 평가를 둘러싼 근본적 고민을 불러일으키고 있습니다. 케임브리지 대학의 AI 윤리 연구자 카를로스 씨의 말마따나 "AI 평가의 궁극적 목표는 실제 환경에서 모델이 내는 성과와 부작용을 사전에 진단하는 것"인데, 책상물림의 잣대로는 그 본질에 다가가기 어렵다는 것이죠.
예를 들어 학교 시험에서 만점을 받은 학생이라고 해서 모두 실생활의 문제를 척척 해결할 수 있는 건 아닙니다. 시험에 나오는 유형을 잘 익혔을 뿐, 응용력이나 창의력은 별개의 문제이기 때문이죠. 마찬가지로 기존 벤치마크에서 고득점을 얻은 AI가 실전에서도 같은 성과를 낼 거란 보장은 없습니다.
표 1 벤치마크와 실제 AI 활용 사례의 간격
2.2. 부정확하고 피상적인 능력 측정 문제
여기에 더해 일부 벤치마크들은 평가 기준 자체에 모호함과 부정확성이 있다는 문제 제기도 있습니다.
예컨대 'HellaSwag' 테스트의 경우 전체 문항의 1/3 이상이 오타나 어색한 표현을 담고 있었다고 합니다. 말 그대로 '헬랄(엉망진창) Swag'인 셈이죠. 이로 인해 정작 평가하려 한 AI의 맥락 이해 능력보다는, 오류 투성이 문장을 얼마나 잘 '해석'하는지를 테스트하게 된 격입니다.
비슷한 사례로 구글, 오픈AI 등이 애용하는 'MMLU'에도 단순 암기로 풀 수 있는 문제가 상당수 포함돼 있다고 합니다. 마치 학교 시험에서 족보대로만 풀면 되는 문제가 출제되는 것과 다를 바 없죠. 이러다 보니 겉보기엔 화려한 성적표를 받아 들었지만, 실상 AI 모델의 진정한 능력을 가늠하기엔 역부족이라는 비판을 피하기 어려운 상황입니다.
이렇듯 부실하고 피상적인 평가 도구로는 도무지 AI 기술의 본질에 접근하기 어렵습니다. 마치 겉만 번지르르한 사과를 보고 맛있겠다 칭찬했다가는, 막상 깎아보면 속이 썩어 있는 걸 발견할 수 있는 것과 마찬가지죠. AI 평가가 겉치레에 그치지 않기 위해서는 겉과 속을 꿰뚫어 보는 예리한 통찰이 필요할 때입니다.
2.3. 평가 체계 전반에 대한 신뢰도 훼손 우려
설상가상으로 평가 도구의 부실함은 자연스레 평가 결과에 대한 신뢰도 저하로 이어지고 있습니다.
앞서 언급했듯 'HellaSwag'의 경우 문항 자체에 오류가 많아 변별력이 떨어진다는 지적이 있었죠. 정작 우수한 AI 모델의 역량이 제대로 발휘되지 못하거나, 반대로 부실한 모델이 운 좋게 높은 점수를 받을 수도 있는 아이러니한 상황인 셈입니다.
게임 업계에 이런 속담이 있습니다. "버그 많은 게임은 게이머들의 신뢰를 잃는다." 아무리 화려한 그래픽과 재밌는 설정을 갖췄어도, 온갖 오류로 게임 플레이를 방해한다면 그 게임은 설 자리를 잃고 맙니다. AI 평가도 마찬가지입니다. 기준이 되어야 할 테스트 자체가 엉터리라면, 그 결과를 믿고 따르라고 하기 어려울 것입니다.
근본적으로 이 같은 문제는 급변하는 기술 환경을 평가 체계가 따라잡지 못한 데서 비롯된 것으로 보입니다. 눈부시게 발전하는 AI 기술의 속도를 제대로 반영하지 못한 채, 낡은 잣대로 새로운 현상을 재단하려 들다 보니 자연스레 괴리가 발생하게 된 것이죠.
이제 우리에겐 새로운 시대에 걸맞은 혁신적 평가 기준이 필요합니다. 단순히 겉으로 드러난 성능을 확인하는 데 그치지 않고, AI의 본질적 역량과 사회적 영향력을 꼼꼼히 따져보는 종합적 평가 체계 말이죠. 앤트로픽이 내놓은 제안이 그 해법이 될 수 있을지 다음 장에서 자세히 살펴보겠습니다.
3. 앤트로픽의 새로운 AI 평가 프로그램
3.1. 프로그램의 배경과 취지
앤트로픽은 "눈 앞의 성과에 도취되지 않고, AI의 잠재력과 위험성을 면밀히 따져보는 평가 체계 구축이 시급하다"는 문제의식 하에 이번 프로그램을 기획했다고 밝혔습니다.
블로그를 통해 공개된 계획에 따르면, 자사의 핵심 연구진은 물론 다양한 외부 전문가 집단과의 협업을 통해 AI 평가의 혁신을 도모한다는 구상입니다. 범용적으로 활용 가능한 새로운 테스트 도구는 물론, 특정 분야에 특화된 심층 평가 모델도 다수 개발한다는 야심찬 청사진이 제시되었습니다.
앤트로픽 측은 "고도화된 AI 기술을 제대로 평가하기 위해서는 관련 전문 지식과 현장 경험의 융합이 필수"라며 "각계 전문가 집단과 적극적으로 소통하며 실효성 높은 평가 체계를 구축해 나가겠다"고 강조했습니다. 다양한 시각과 관점이 결집될수록 보다 균형 잡힌 평가 기준을 세울 수 있을 것이라는 기대감을 내비친 것이죠.
3.2. 핵심 평가 영역과 방법론
3.2.1. AI 안전성 수준 평가
무엇보다 앤트로픽은 자체 개발한 'AI 안전성 지표(ASL)'를 평가 체계의 중심축으로 삼을 계획입니다. ASL은 AI 시스템이 야기할 수 있는 위험도에 따라 1단계(일반 응용 수준)에서 5단계(통제 불가능한 초지능 수준)까지 구분한 것인데요.
단순히 성능지표로만 AI를 평가하던 기존 방식과 달리, 윤리적/사회적 위험성을 고려한 종합적 진단을 강조한 점이 돋보입니다. 예컨대 높은 성능을 보이는 AI라 하더라도 오남용 소지가 크다면 그에 걸맞은 안전장치 마련을 요구하는 식이죠.
다만 ASL이 아직 보편적 기준으로 자리 잡지는 못했다는 점, 그리고 앤트로픽의 입장이 다분히 반영된 잣대라는 점은 향후 개선이 필요해 보입니다. 객관성과 중립성을 확보하기 위해 관련 논의를 지속적으로 개방하고, 외부 의견을 적극 수렴해야 할 것입니다.
3.2.2. 첨단 역량 및 안전성 지표 개발
두 번째 핵심은 AI 모델의 첨단 역량과 안전성을 다각도로 평가할 수 있는 새로운 지표 개발입니다. 단순히 문제 풀이나 정답률에 초점을 맞추기보다는, 실생활에서 마주할 법한 복합적 상황에 대한 대응력을 가늠해보자는 것이죠.
예를 들어 의료 분야 AI라면 단순 진단 정확도를 넘어, 환자와의 커뮤니케이션 능력, 의료윤리 준수 여부, 응급 상황 대처 능력 등을 종합적으로 평가할 수 있어야 합니다. 자율주행차 AI의 경우에도 운전 실력만큼이나 돌발 상황에서의 판단력, 탑승자 안전 보장 능력 등이 중요한 평가 요소가 될 것입니다.
또한 앤트로픽은 AI의 지식 습득 과정과 학습 효율성을 평가하는 방안도 제안했습니다. 방대한 데이터를 얼마나 효과적으로 학습하는지, 새로운 개념을 빠르게 이해하고 활용하는 능력은 어느 정도인지 등을 집중적으로 살펴보겠다는 것이죠.
이는 단순히 정해진 문제를 잘 푸는 것을 넘어, 스스로 학습하고 발전하는 AI의 잠재력을 평가하기 위한 시도로 보입니다. 급변하는 환경에 적응하며 꾸준히 진화하는 것, 그것이 바로 인공지능의 궁극적 가치이자 목표일 테니까요.
3.2.3. 평가 인프라 및 도구 지원
앤트로픽은 AI 평가 혁신을 위한 토대 마련에도 공을 들일 계획입니다. 전 세계 개발자들이 손쉽게 평가 도구를 제작하고 공유할 수 있는 플랫폼을 구축하는 한편, AI 스스로 평가 문항을 생성하고 분석하는 자동화 시스템도 개발 중이라고 합니다.
이를 통해 기존에는 소수 전문가 집단에 의존했던 AI 평가 과정을 보다 개방적이고 효율적으로 혁신하겠다는 구상인데요. 개발 과정의 자동화로 평가에 소요되는 시간과 비용을 크게 절감하는 동시에, 다양한 배경의 인재들이 참여할 수 있는 기회도 확대하겠다는 것입니다.
실제로 AI 평가 문항 개발에는 관련 지식과 경험은 물론, 높은 수준의 프로그래밍 역량까지 요구되는 만큼 참여 인력 확보가 쉽지 않았던 게 사실입니다. 앤트로픽의 지원 사업이 이 같은 진입장벽을 낮춰 AI 평가의 저변을 확대하는 촉매제가 되어줄 것으로 기대됩니다.
3.3. 모범 평가 방식의 제언
앤트로픽은 보다 효과적이고 신뢰할 만한 AI 평가가 이뤄지기 위해서는 몇 가지 핵심 원칙이 지켜져야 한다고 강조합니다.
우선 평가의 난이도와 복잡성을 대폭 높일 것을 주문했습니다. 단순 암기나 패턴 인식으로는 통과하기 힘든 수준의 종합적 사고력과 문제해결능력을 요구하는 문항 개발이 필요하다는 것이죠.
또한 AI 모델이 학습 과정에서 접하지 않았던 신규 개념과 상황을 적극 활용해야 한다고 제안했습니다. 단순히 기존에 학습한 내용을 반복하는 것이 아니라 낯선 문제에 창의적으로 대응하는 능력, 이른바 '일반화 능력'을 테스트할 수 있어야 한다는 뜻입니다.
나아가 기계적 평가를 넘어 전문가와 실사용자의 직접 참여도 확대할 것을 강조했습니다. 아무리 정교하게 설계된 평가 문항이라 해도 실전 경험이 풍부한 전문가의 식견을 완벽히 담아내긴 어렵습니다. 그런 만큼 실제 활용 과정에서의 성과와 한계를 가늠해볼 수 있는 참여형 평가 모델을 확산해야 한다는 제언이 나온 것입니다.
무엇보다 평가 과정 전반의 투명성 제고가 시급하다고 역설했습니다. 어떤 기준으로, 어떤 절차를 거쳐 평가가 이뤄졌는지를 낱낱이 공개함으로써 그 결과에 대한 신뢰도를 높여야 한다는 것이죠. 나아가 각국 정부와 국제기구 차원의 표준 규격 마련도 적극 추진해야 한다고 강조했습니다.
이처럼 앤트로픽은 몇 가지 혁신 원칙을 제시하며 한 단계 진화한 AI 평가 방식의 청사진을 내놓았습니다. 기존의 관행과 틀에서 벗어나 보다 현실 적합하고 미래지향적인 기준을 세우겠다는 의지의 발현이라 하겠습니다.
4. 새로운 AI 평가 체계를 향한 과제
4.1. 현실 적합성과 정확성 확보
물론 앤트로픽의 제안이 완벽한 해법이 될 수는 없을 것입니다. 여전히 풀어야 할 숙제도 만만치 않아 보입니다.
무엇보다 새로운 기준이 실제 AI 활용 현장을 얼마나 충실히 반영할 수 있을지가 관건입니다. 아무리 정교한 잣대라 해도 급변하는 기술 환경과 시시각각 달라지는 사용자 니즈를 완벽히 담아내긴 어려울 테니까요. 그런 만큼 평가 체계 수립 과정에서부터 다양한 이해관계자들의 목소리에 귀 기울이는 열린 자세가 필수적으로 요구됩니다.
이는 자칫 평가의 객관성과 중립성을 저해할 수 있는 요인이기도 합니다. 각자의 입장과 이해관계에 따라 상충되는 의견이 제시될 수 있고, 이는 곧 평가 기준을 둘러싼 논란과 혼선으로 이어질 수 있기 때문이죠.
따라서 이해 당사자들이 합의할 수 있는 최대공약수를 찾되, 그것이 AI 발전의 대의에 부합하는 방향으로 수렴될 수 있도록 조율하는 것이 중요할 것으로 보입니다. 장기적 관점에서 업계 전반의 건전한 성장을 도모할 수 있는 평가 모델, 그것이 바로 우리가 추구해야 할 궁극적 지향점이 되어야 할 것입니다.
4.2. 기업 주도 평가에 대한 공정성 문제
나아가 앤트로픽 주도의 평가 체계 구축이 시장의 공정한 경쟁을 저해할 수 있다는 우려에도 귀를 기울일 필요가 있어 보입니다.
아무리 개방적이고 협력적인 태도를 취한다 해도 자사의 입지와 이해관계를 고려하지 않을 수 없는 것이 영리 기업의 속성입니다. 자칫 경쟁사보다 유리한 고지를 점하기 위해 평가 기준을 왜곡하거나, 유리한 결과만을 취사선택해 공개하려 들 가능성을 배제하기 어렵죠.
더군다나 AI 기술을 둘러싼 국가 간 경쟁이 그 어느 때보다 치열한 상황입니다. 중국의 급부상에 미국이 초조해하는 가운데, 유럽연합은 인권과 윤리 중심의 규제로 맞서고 있습니다. 이런 각축장에서 한 기업의 영향력이 지나치게 확대될 경우 기술 발전의 불균형과 독과점 문제로 이어질 수 있습니다.
따라서 보다 중립적이고 투명한 평가 기구의 필요성이 제기되는 시점입니다. 특정 기업의 이해관계를 초월해 산업 전반의 발전상을 조망하고, 다양한 목소리를 공정하게 대변할 수 있어야 할 것입니다. 정부와 학계, 시민사회 등 관련 주체들이 폭넓게 참여하는 독립 기구 설립이 한 방안이 될 수 있겠죠.
5. 결론
지금까지 앤트로픽이 제시한 AI 평가 혁신 방안과 그 의의, 그리고 남겨진 과제들을 살펴보았습니다. 급격한 기술 발전 속도에 현행 평가 체계가 미처 적응하지 못하고 여러 문제점을 드러내는 상황 속에서, 새로운 평가 기준 정립을 위한 이들의 도전은 매우 시의적절한 것으로 보입니다.
물론 여전히 풀어야 할 숙제도 만만치 않아 보입니다. 현실 적합성 제고라는 과제를 비롯해 공정성 시비 가능성 등 넘어야 할 산이 적지 않습니다. 무엇보다 이해관계자들 간의 활발한 소통과 협력, 그리고 정부 당국의 적극적 노력이 필수적으로 요구되는 대목입니다.
그럼에도 AI 평가체계 혁신을 위한 담대한 모색 자체로 앤트로픽의 이번 행보는 큰 의미가 있다고 생각합니다. 미래 기술에 대한 냉철한 평가와 균형 잡힌 시각 확립의 토대를 마련했다는 점, 나아가 관련 논의의 장을 새롭게 열어젖혔다는 점에서 높이 평가할 만합니다.
AI라는 거대한 물결 앞에서 우리에겐 치밀한 분석과 전략적 대응이 그 어느 때보다 필요한 시점입니다. 단순히 눈앞의 성과에 도취되기보다는 장기적 관점에서 기술의 향방을 꼼꼼히 짚어보는 지혜가 절실히 요구되는 때죠.
앞으로도 AI의 역량과 영향력을 면밀히 분석하고, 그에 맞는 평가 체계를 구축하기 위한 노력이 지속되어야 할 것입니다. 학계와 산업계, 정부와 시민사회 등 다양한 주체들의 적극적 참여 속에 보다 건강하고 지속가능한 AI 생태계를 조성해 나가는 것, 그것이 우리에게 주어진 시대적 과제이자 의무일 것입니다.
앤트로픽의 도전은 그 출발점이자 신호탄이 될 것입니다. 치열한 논의와 고민 속에 더 나은 대안이 마련되기를, 그리고 우리 사회가 기술과의 조화로운 공존을 향해 한 걸음 더 나아가기를 기대해 봅니다. – 끝 -
보고서 다운로드
#인공지능평가, #AI평가, #artificialintelligenceevaluation, #AIevaluation, #AI벤치마크, #AIbenchmark, #앤트로픽, #Anthropic, #AI안전성평가, #AIsafetyevaluation, #AI성능평가, #AIperformanceevaluation, #인공지능윤리, #AIethics, #인공지능활용, #AIapplication, #평가자동화, #evaluationautomation, #ASL, #AISafetyLevels, #평가기준, #evaluationcriteria, #평가체계, #evaluationframework, #평가혁신, #evaluationinnovation, #기술발전, #technologicaladvancement, #기술환경, #technologicalenvironment, #실생활대응력, #realliferesponsiveness, #학습효율성, #learningefficiency, #객관성, #objectivity, #공정성, #fairness, #투명성, #transparency, #신뢰성, #reliability, #독립평가, #independentevaluation, #이해관계자, #stakeholders, #인간과기술, #humansandtechnology, #산업과윤리, #industryandethics
참조 자료
A new initiative for developing third-party model evaluations (Anthropic, 2024)(LINK)
Anthropic looks to fund a new, more comprehensive generation of AI benchmarks (WiggersKyle, 2024)(LINK)
Why most AI benchmarks tell us so little (WiggersKyle, Why most AI benchmarks tell us so little, 2024)(LINK)