AI 데이터 솔루션 기업 Toloka 창업자/CEO와의 대화
Toloka는 암스테르담에 본사를 둔 글로벌 AI 데이터 솔루션 기업으로, 20만명 이상의 전문가 및 어노테이터(Annotator) 네트워크를 통해서 AI 모델을 개발할 때 필요한 고품질 데이터 레이블링, 품질 관리 및 평가 서비스를 40개 이상의 언어로 제공하는 회사입니다. 얼마 전 메타로부터 거액의 투자를 받은 Scale AI라든가 Amazon Mechanical Turk 등 과 유사한 회사라고 볼 수 있겠죠. 지난 5월, 제프 베조스의 Bezos Expeditions가 리드한 가운데 7,200만달러의 투자를 유치하기도 했습니다.
Olga Megorskaya는 Toloka의 창업자이자 CEO로서 AI 산업에서 독보적인 경력을 쌓아온 사람입니다. 상트페테르부르크 국립대학교에서 경제학 수리 모델링으로 학위를 취득한 다음, 러시아의 최대 IT 기업인 Yandex에서 약 10년간 일하면서 검색 품질 평가자로 시작해서 크라우드소싱 및 플랫폼 부서장, 검색 평가 서비스 책임자 등을 맡았습니다.
2014년 Toloka를 창업했고, 지금은 아마존, 마이크로소프트, 앤쓰로픽, 쇼피파이 등 글로벌 기술 리더들과 협업하는 데이터 파트너로 회사를 성장시켰습니다. Forbes Technology Council 멤버로 활동하면서 AI 데이터 분야의 전문성을 인정받고 있고, NeurIPS, ICML, SIGIR, CVPR, KDD 등 최고 수준의 학술 컨퍼런스에서 크라우드소싱과 품질 관리에 관한 연구 논문을 발표하기도 하고 강연을 하면서, 학계에서도 높은 평판을 유지하고 있습니다.
이번 에피소드에서는 Orga와 함께 진정한 ‘Human-AI 공동 에이전시 (Co-Agency)’라는 개념이 실제로 어떻게 구현되는지를 깊이있게 생각해 봅니다. 사람이 AI 시스템을 만드는데 필요한 단순한 레이블링 작업을 넘어서, 전문적인 판단, 그리고 에이전트와의 공동 실행 (Co-Execution) 역할까지 맡게 되는 방식으로, 그 역할이 어떻게 진화해 왔는지 살펴봅니다 - 이 변화는, 단지 기술적인 측면 뿐 아니라 사람에 대한 ‘보상 구조’까지 완전히 바꾸고 있다는 점에서도 주목할 만하다고 생각합니다.
대화의 주요 토픽은 아래와 같습니다:
사람을 ‘호출할 수 있는 함수 (Callable Functions)’로 비유하는 것이 왜 잘못된 접근인지, 그리고 그보다 더 적절한 비유는 무엇인지
진정한 Human-AI 공동 에이전시 (Co-Agency)는 어떤 의미를 갖는지
왜 일부의 데이터 작업은 예전처럼 몇 초 수준이 아니라 며칠까지 걸리는지, 그리고 그게 보옂는 현대적인 AI의 현실은 무엇인지
진정한 Human-AI 협업의 가장 큰 병목(Bottleneck)은 ‘기술’이 아니라는 사실
벤치마크의 미래, 합성 데이터의 한계, 그리고 사람들에게 왜 ‘AI를 불신하는 방법’을 가르쳐야 하는지
AI 에이전트가 왜 ‘계획을 신뢰하지 말아야 할 때’를 사람으로부터 배워야 하는지
만약에 여러분이 에이전트 시스템을 구축하고 있다거나, 사람과 AI가 협업하는 ‘Human-AI 워크플로우’의 확장 가능성에 관심이 있다면, 이 대화를 꼭 한 번 꼭꼭 씹으면서 읽어보시기 바랍니다. 올가는 그리 눈에 띄지 않은 채로 조용히 세계 최고 수준의 모델들의 성능을 실전에서 뒷받침해 온 사람으로, 자신만이 이야기할 수 있는 시스템 차원의 또 다른 통찰력을 갖고 있습니다.
올가와 함께 푸코의 진자, 텍스트의 힘, 그리고 에이전트 시대에 사람의 판단력이 거꾸로 얼마나 과소평가되고 있는지에 대해서 한 번 이야기를 풀어볼까요?
Q. 올가, 오늘 함께 해 주셔서 고맙습니다. 예전에 다른 글에서 ‘사람은 AI 에이전트 툴박스 안에 있는 또 하나의 호출 가능한 함수’라는 문구를 인용하신 적이 있는데요. 사람을 그런 식으로 보는 구도가 있다는 걸 언제 처음 실감하셨나요?
불러주셔서 감사합니다.
네, 그 글을 봤을 때 깊게 공감도 하고 고민도 했는데요, 사람이 AI의 루프에 어떻게 관여해 왔는지를 이야기하는게 마치 저희 회사인 Toloka의 역사를 그대로 이야기하는 것 같았거든요.
Toloka를 처음 시작했을 때는, 소위 말하는 전통적인 머신러닝 모델을 개발하는데 필요한 학습 데이터를 지원하는게 목표였어요. 당시를 되돌아보면, 각각 기업들이 고양이, 개, 보행자, 자동차, 부품 등의 여러 가지 다양한 객체를 분류하기 위해서 각각 ‘분류기’를 머신러닝 기술로 따로 따로 만들던 시절이죠. 그래서 사람이 레이블링한 정답 데이터 (Ground Truth)가 필요했던 거고, 그 작업은 비교적 단순했어요. 다만, 적용 분야가 엄청나게 다양했구요. 우리 회사의 경우 실제로 매일 수천 개의 프로젝트에서 수만 명의 사람들이 레이블링 작업을 하고 있었어요.
그 때 저희가 깨달은 중요한 개념이 바로 Toloka가 가진 철학의 기반이 됐습니다 - 바로, 사람이 하는 데이터 생산을 스케일링하려면, 그 사람의 노력을 기술적으로 관리해야만 한다는 거죠.
개인적으로는 ‘사람을 호출 가능한 함수’라고 표현하는 걸 그리 좋아하진 않아요. 대신 이렇게 생각해요 - ‘사람의 노력을 체계적이고 기술적으로 관리해서, 고품질의 데이터를 대규모로, 반복 가능하게 생산할 수 있다’구요.
그러다 다음 시대로 넘어왔죠 - 보통 파운데이션 모델 (Foundation Model) 시대라고들 하죠. 챗GPT 같은 거대 언어모델들이 등장했어요. 이제 단순한 레이블링 작업만 가지고는 부족해졌어요. 과제가 훨씬 복잡해졌고, 심도있는 도메인 전문성이 필요해졌어요. 그래서 저희는 박사급 물리학자, 시니어 소프트웨어 엔지니어, 법률 전문가 등 진짜 전문가들을 정답 데이터를 만들어낼 소스로 영입하기 시작했어요. 재미있는 건, 과제의 다양성은 오히려 줄어들었다는 건데요. 수천 개의 분류기를 만들기 위해서 훈련하던 시대에서, 이제는 소수의 파운데이션 모델이 다양한 작업을 할 수 있도록 파인튜닝하거나 적용하는 방식으로 산업의 구조가 바뀐 거예요.
그렇게 시간이 흐르고, 이제 다시 새로운 시대가 열리고 있어요 - 바로 AI 에이전트의 시대예요.
이 시대가 흥미로운 건, 이전에 거친 두 시대의 도전 과제가 동시에 존재한다는 거예요 - 한 편으로는 과제가 점점 더 복잡해지고 있어요. 더 많은 시간, 더 정밀한 판단, 더 높은 전문성이 요구돼요. 예전에는 평균적으로 레이블링 작업이 30초 안에 끝났는데, 지금은 데이터셋의 한 가지 항목에만 전문가가 10시간, 심지어는 며칠씩 투입되기도 해요.
다른 한 편으로는, 다양성도 다시 증가하고 있어요. 이제 AI 에이전트는 단순한 챗봇을 넘어서 엄청나게 다양한 환경에서 작동해요. 멀티모달 인터페이스, 수백 가지의 인터랙션 시나리오가 있고, 그 모든 것들을 테스트하고 평가하고 레드팀을 돌려야 해요.
자, 결과적으로, 다시 한 번 ‘사람의 노력을 기술적으로 관리하는 역량이 중요’해졌어요. 적합한 전문가를 적절한 작업에 매칭하는 것 - 즉, 각각의 사람을 스킬, 가용성, 비용이라는 벡터로 보는 방식이 데이터 파이프라인의 핵심이 되고 있습니다. 그런 면에서, 어찌 보면 사람과 AI 에이전트는 점점 닮아가고 있어요. 둘 다 기술을 갖고 있고, 둘 다 용량(Capacity)이 있고, 도구와 통합할 수 있고, 둘 다 비용이 드니까요.
저희 Toloka는 ‘사람 에이전트와 AI 에이전트 간의 하이브리드 협업’에 대한 확신을 갖고 있는 회사입니다 - 미래는 바로 이 교차점으로부터 열릴 거라고 생각합니다.
Q. 예전에 Toloka에서의 여정을 이야기해 주신 게 기억나네요. 크라우드 기반 데이터 레이블링에서 시작해서, RLHF를 적용하는데 필요한 사람의 피드백, 틈새 영역을 위한 전문가 평가를 거쳐서, 이제는 멀티 에이전트 팀 내에서의 Co-Agency로 나아가고 있다고 하셨죠. 그래서 질문드리는데, 진정한 공동 에이전시 (Co-Agency)라는게 뭐라고 생각하세요?
AI 에이전트 시대의 본질적인 변화는 두 가지라고 생각합니다.
하나는, 앞서 이야기했듯이 인터랙션의 ‘표면(Surface)’이 다양해졌다는 거예요. 이제 단순하게 챗봇 안에서 모델과 대화하는 게 아니라, 우리가 매일 사용하는 컴퓨터, 앱, 도구 전체가 AI 에이전트와 상호작용하는 인터페이스가 되고 있어요. 일상적으로 사용하는 모든 도구들이 이제 AI와 연결되고 있다는 거죠.
두 번째는, 반복(Iteration)이예요. 사용자와 시스템 사이에 상호작용이 여러 번 일어나는 구조예요. 우리는 하나의 출발점에서 시작해서 다양한 경로로 확장되는 장기적인 워크플로우를 다뤄야 해요. 훈련 데이터를 수집하거나 생성형 시스템을 위한 벤치마크를 만들 때, 이전처럼 단순히 모델과 사용자 간의 짧은 대화만 수집하던 단계하고는 전혀 다른 차원의 복잡성이 생긴 겁니다.
Q. 그럼, Co-Agency에 대한 당신의 정의는 정확히 뭔가요?
저희가 말하는 Co-Agency는 AI 에이전트와 사람 에이전트가 동일한 과제를 함께 해결하는 걸 말해요.
AI 에이전트가 사람을 아주 효과적으로 도와줄 수 있는 영역이 분명히 있어요. 예를 들어서, 작업을 작은 단위로 나누고, 전체 계획을 세우고, 사람이 그 계획을 제대로 따르고 있는지를 검증하는 일에서는 AI가 훨씬 뛰어나요. 사람은 꽤 자주 계획을 따라가다가 실패해요 - 게으르거나 부족해서가 아니라, 우리 인간은 삶 전체라는 방대한 문맥(Context)을 기반으로 사고를 하기 때문이에요. 나에게는 직관적으로 너무나 당연한 단계가 있지만, 그게 다른 사람에겐 당연하지 않을 수 있어요.
하지만 스케일링할 수 있게끔 사람이 하는 작업의 체계을 갖추려면 어떤 단계로 빼놓지 않고 실행해야 해요. 그리고 여기서 AI가 사람이 놓칠 수 있는 부분을 새롭게 발견하고 확인하게끔 하는 역할을 해요. 작업 결과를 다시 보게 하고, 실수나 문제를 찾아내게 하죠. 이렇게 해서 AI 에이전트가 사람 전문가들이 과제를 수행하는 데 큰 도움을 주고 있어요.
하지만 반대로, AI가 할 수 없는 영역도 있습니다. 그 중에 가장 중요한 건, AI는 ‘자신이 뭘 모르는지’조차 모른다는 점이에요. 그래서, 아이러니하게도, 지금 우리가 사람 전문가들에게 가장 중요하게 훈련시키고 있는 역량은 ‘LLM을 신뢰하지 않는 법’입니다. AI가 제시한 계획이 대부분은 맞더라도 30%는 틀릴 수 있고, 그걸 판단할 수 있어야 해요.
바로 그 지점에서 사람의 역할이 중요해져요. “아니야, 이건 니 말대로 안 할래. 나는 내 판단을 믿고 내 방식대로 갈 거야.’라고 말할 수 있는 게 바로 사람의 고유한 힘이죠. 이 판단이야말로 시스템 전체에 가장 중요한 신호가 되기도 해요.
Q. 표현을 좀 달리 해 보자면, 결국은 사람이 ‘스스로를 더 신뢰하는 법’을 배워야 한다는 말이네요.
맞아요. 어떤 경우에는 특히 그게 아주 중요하고, 그게 바로 우리가 해결하려고 하는 핵심이기도 합니다. AI를 신뢰해야 할지 말아야 할지를 사전에 알 수 없다는 점, 이게 문제예요. 그리고 그 판단의 순간, 그 순간이 바로 시스템에 정말 중요한 신호를 제공하는 순간이에요.
Q. 정말 흥미롭네요. 이런 판단이 사람과 AI 사이의 진정한 공동 에이전시 (Co-Agency)를 어렵게 하는, 가로막는 중요한 병목인가요, 아니면 다른 것도 있나요?
네, 가장 본질적인 병목 지점이 바로 그거라고 생각해요.
물론 그 외에도 엔지니어링 측면의 과제들이 있어요. 예를 들어서, 지금 당장은 많은 AI 에이전트들이 자유롭게 컴퓨터나 다양한 애플리케이션을 다룰 수 없죠. 하지만 이런 건 시간이 지나면 해결될 거예요. 아마 1년쯤 지나면 대부분의 애플리케이션에서 문제는 사라질 겁니다.
다만 좀 더 복잡한 과제, 예를 들어서 AutoCAD 같은 특수 도메인의 전문 소프트웨어에서 AI 에이전트가 잘 작동하려면 시간이 더 걸릴 거예요. 전 세계에서 많이 쓰이지 않는 분야의 경우엔 더욱 그렇고요.
하지만 저는 이런 건 대체로 기술적 한계일 뿐이라고 봐요. 언제나 ‘롱테일(Long Tail)’에 해당하는 특이한 사례들이 있겠죠. 이런 곳에서는 결국 사람 전문가와의 협력이 반드시 필요하게 됩니다. 그래야 과제를 마무리하고 제대로 해결할 수 있거든요.
그런데 이런 모든 작업에서의 핵심은 여전히 단 하나입니다 - 언제 에이전트를 믿고, 언제 사람의 판단을 우선시할지 결정하는 것. 이건 정말로 어려운 일이에요.
Q. 그런 판단의 능력을 사람들에게 어떻게 훈련시키죠?
사실, 이런 우리가 오래 전부터 배운 교훈이에요 - 사람을 훈련시킨다는 건, 모델을 훈련시키는 것과 크게 다르지 않아요. 사람들도 결국 예시로 학습합니다.
즉, 실제 사례들을 담은 데이터셋을 만들고, 그걸 통해서 어디가 옳고, 어디가 틀렸는지 설명해 주는 거예요. 그렇게 많은 예시를 보면서 사람들도 자신만의 뉴럴 네트워크를 훈련시켜 가요. 그러다 보면 자연스럽게 논리를 이해하게 됩니다.
지금까지도 이 방식이 가장 효과적인 교육 방법이라고 생각해요.
Q. 이전에 Pinecone의 Edo Liberty와의 인터뷰에서, 챗GPT가 등장한 이후에 벡터DB의 아키텍처를 완전히 새로 짰다는 이야기를 들었거든요. Toloka에도 그런 변화가 있었나요? 챗GPT 붐 이전과 이후 어떤 점들이 달라졌나요?
아 그래요? Toloka의 경우에는, 챗GPT 자체가 기술 아키텍처를 바꿔놓거나 하는 계기가 된 건 아니예요.
하지만 그것보다도 더 중요한 변화가 있었어요 - 바로 챗GPT의 등장이, 우리가 기존의 크라우드소싱 중심 사업구조에서 고급 전문인력 중심의 구조로 전환하게 되는 큰 전환점이 되었다는 거예요. 그런 변화에 따라서 기술적으로도 새로운 과제들이 생겼고, 우선순위라든가 투자 영역도 완전히 달라졌죠. 예를 들어, 특정한 도메인에서 뛰어난 전문가들을 확보하려면, 그 분들을 선별, 검증하고 신뢰를 쌓기 위해서 필요한 기술 인프라, 커뮤니티 인프라에 더 많이 투자를 해야 합니다. 이건 기술만으로는 해결할 수 없는, 사업 운영의 또 다른 층위이기도 해요.
그리고 저는 확신합니다. AI 훈련에 진짜 의미있는 신호를 줄 수 있는 사람들은, 그 분야의 실제 전문가들 뿐이예요. 하루에 8시간, 주 5일을 AI 레이블링만 하면서 일하는 사람이 줄 수 있는 신호는 한계가 있습니다. 현업에서 실제로 활동하고 있는 전문가들이 가지고 있는 최신의 통찰력과 현장 경험이 필요한 거예요.
그런 전문가들을 끌어들이고, 그 분들 참여할 수 있게 동기를 부여하는 것, 그 작업을 시작하게 된 것이 가장 큰 변화였고, 그게 바로 챗GPT 이후 Toloka의 본질적인 전환점이었습니다.
그리고 이제, AI 에이전트 시대에는 이 모든 것들의 위에서 다시 한 번, ‘진정한 Human-AI 공동 에이전시 (Co-aAgency)’를 위한 새로운 기술적 기반이 필요할 거라고 봅니다.
Q. Toloka의 데이터셋 관련 작업에서, 합성 데이터 (Synthetic Data)는 어떤 역할을 하고 어떤 의미를 가지고 있나요?
저희 비즈니스의 특성 상, 고객들에게 제공하는 데이터셋은 거의 전적으로 사람이 생성한 데이터일 수 밖에 없어요. 저희는 앤쓰로픽, 아마존, 마이크로소프트 같이 세계에서 가장 기술적으로 앞선 기업들과 협업하고 있거든요. 합성 데이터만으로 구성된 데이터셋이라면, 그 회사들이 얼마든지 스스로도 만들 수 있어요.
하지만 합성 데이터만으로는 더 이상 얻을 수 없는 수준의 성능 향상 한계가 반드시 오게 됩니다. 그 시점에서는 결국 사람의 정답 데이터(Ground Truth)가 필요해져요. 합성 데이터의 품질을 평가하거나, 그 이상에 도달하는 수준의 학습 신호를 주기 위해서요. 그래서 저희는 여전히 순수한 ‘사람’의 데이터에 집중하고 있어요.
물론, 그런 데이터셋을 제공하는 과정에서 합성 데이터 생성 기법과 비슷한 기술적 방법들을 사용하기도 합니다. 데이터의 다양성을 확보하려면 그렇게 해야 하니까요. 예를 들어서 데이터셋의 주제나 카테고리를 체계적으로 설계 (Taxonomy)해서, 다양한 토픽을 골고루 커버할 수 있도록 만드는 게 중요합니다.
예를 들어서, 금융 분야의 학습 데이터를 만든다고 해볼게요. 그럼 모델이 학습해야 할 핵심 금융 주제들을 빠짐없이 포함해야 하잖아요. 우선은 사람 전문가가 나서서 전체 구조 (Taxonomy)를 정의하고, 그 구조를 기반으로 합성 혹은 반합성 방식으로 스켈레톤 데이터를 생성하고, 그 위에 다시 전문가들이 들어와서 데이터를 검수하고 수정하고 고도화하는 식으로 작업이 이뤄집니다.
합성 데이터 - 데이터 합성 기술 - 는 굉장히 강력한 도구예요. 실제로 많은 기업들이 활용하고 있죠. 하지만 업계 전반에서는 이제 합성 데이터만으로는 충분하지 않다는 공감대가 있어요. 사람의 감수와 감독이 반드시 필요하죠. 최소한 합성 데이터의 품질을 평가해야 하고, 모델의 품질을 측정할 벤치마크도 함께 개발해야 합니다. 그리고 이런 벤치마크는 대부분 고도로 훈련된 전문가들의 정성적(Qualitative) 작업을 필요로 해요.
Q. 그렇다면, Human-AI 공동 에이전시 (Co-Agency)는 AGI로 가는 길일까요? 아니면 그게 AGI 그 자체라고 해야 할까요?
글쎄요, 솔직히 말씀드리면, 전 AGI에 대한 논의는 현실적이지 않다고 생각합니다. 저는 좀 더 실용적인 엔지니어링 관점에서 지금 할 수 있는 일에 집중하고 싶어요. 사람과 AI가 협업하는 하이브리드 시스템, 그리고 공동 에이전시 구조는 분명히 지금 AI의 다음 단계라고 봅니다. 다만, 그게 마지막 단계인지 아닌지는 저도 몰라요.
개인적으로는 완전한 AGI라는 개념 자체에 회의적이에요. 결국, 사람이 가진 지혜에서만 나올 수 있는 정답(Ground Truth)는 언제나 필요할 거라고 봐요.
Q. 네, 그래서 항상 현장에 계신 분들과의 대화를 좋아해요. AGI 얘기를 꺼내면 다들 결국 ‘좀 더 현실적으로 봐야죠’라고 하거든요. 실전에서 어떻게 돌아가는지를 아시는 분들이 진짜 목소리를 들려주시니까요.
네, 이게 좋은 점이자 안 좋은 점일 수도 있어요. 우린 늘 작은 단계를 하나 하나 밟아가면서 일을 해야 하니까, 때로는 큰 그림을 놓칠 위험도 있다고 생각해요.
돌아보면 Toloka가 지난 10년 동안 정말 큰 진화를 이뤘어요. 하지만 매 순간은 작고 현실적인 실천의 연속이었습니다. 10년 전만 해도 지금 같은 모습은 상상하기 어려웠을 거예요.
Q. 맞아요. 처음에는 ‘기적’처럼 느껴졌던 것도 결국은 그냥 ‘소프트웨어’가 되잖아요. 그럼 앞으로 5년 정도를 내다 보았을 때, 가장 기대되는 점, 그리고 걱정되는 점은 뭔가요?
네, 다시 현실적인 엔지니어링 관점에서 말하자면, 저는 Human-AI Collaboration을 위한 기술적인 진화가 가장 기대돼요. 이걸 통해서 훨씬 더 많은 전문가들이 다양한 도메인에서 AI 개발에 참여할 수 있는 기회가 열릴 거예요.
지금은 여전히 AI는 일부의 기술 중심 산업에 국한된 ‘버블’ 안에 있다고 생각해요. 하지만 진짜 흥미로운 건, 달력 예약이나 항공권 예매 같은 소비자용 앱을 넘어서, 더 실질적인 산업 영역과 실물 경제로 AI가 진입하는 과정이예요.
AI가 사무실이나 노트북을 넘어서, 인간의 실제 경제 활동에 들어가기 시작할 때, 그게 바로 진짜 변화라고 생각해요. 그 과정을 지켜보는 게 정말 기대됩니다.
걱정되는 점은 뭐가 있을까요? 글쎄요, 모든 급진적 변화에는 우려가 따르기 마련이예요. 하지만 저는 ‘우려’라기보다는, 우리가 방향을 주도할 수 있는 위치에 있다는 점에 주목하고 싶어요. 이걸 진화라고 부르든 혁명이라고 부르든, 우리가 직접 잘 관리하고 조율할 수 있는 기회이기도 해요. 그리고 다행히도 우리에겐 그럴 수 있는 수단이 실제로 있어요.
예를 들어서, 저희는 AI 에이전트의 안전성(Safety)과 책임감(Responsibility)을 확보하기 위한 레드팀 작업, 그리고 모델 개발의 방향성을 정의할 벤치마크 개발에 집중하고 있어요.
또, 다양한 전문 직종의 사람들에게 AI 훈련에 참여할 수 있는 새로운 수익의 기회를 제공하려고 해요. AI가 나를 대체할까봐 두려워하는 게 아니라, AI를 통해 새로운 기회를 발견할 수 있도록 돕는 것, 그게 저희가 맡은 중요한 역할이라고 생각합니다.
그래서, Toloka는 두려워할 필요가 없는 위치에 있다고 봐요. 오히려 우리가 원하는 방향으로 미래를 설계할 수 있는 주체가 될 수 있는, 아주 흥미로운 시점에 와 있다고 생각합니다.
Q. 벤치마크에 대해서도 여쭤보고 싶네요. 최근의 벤치마크를 둘러싼 논란을 보면, 결국 사람의 판단에 의존하는 것이 얼마나 위험할 수 있는지 보여줬잖아요? 조작되기도 쉽고, 속이기도 쉽고요. Toloka에서는 벤치마크를 어떻게 다루고 계신가요? 그리고 좀 더 일반적인 관점에서, 모델을 위한 벤치마크에 대해 어떻게 생각하시나요?
저는 벤치마크는 정말 중요한 도구라고 생각해요. 그리고 이제는 업계 전반에서 그 중요성을 받아들이고 있다고 느껴요. 왜냐하면 3년 전만 해도 평가는 아예 언급조차 되지 않았고, 2년 전쯤에서야 "무언가 평가 기준이 필요하다"는 얘기들이 나오기 시작했거든요.
하지만 그 때는 어떻게 해야 할지는 아무도 몰랐어요.
새로운 벤치마크를 설계한다는 건 상당히 지적인 작업이에요. "무엇을 평가할 것인가?", "어떤 질문에 답을 얻어야 하는가?"를 고민해야 하죠. 그래서 벤치마크를 설계하는 일은 아주 책임감이 필요하고, 중요한 역할이라고 생각해요.
그런데, 공개 벤치마크의 문제는 너무 쉽게 유출된다는 점이에요. 그래서 업계에서는 보통, 자사에서 중요하게 여기는 벤치마크를 선택한 다음에, Toloka 같은 파트너와 함께 커스텀 벤치마크를 비공개로 설계해요. 그래야 유출 위험 없이, 실제 제품 개발에 도움이 되는 테스트를 할 수 있으니까요.
요즘 특히 에이전시 관련 벤치마크 중에서 TAU Benchmark가 많이 언급되는데요. 요즘은 그와 유사한 벤치마크를 자사 모델에 적용하려는 시도들이 많이 보여요.
TAU Benchmark(�-bench)는 시에라(Sierra)에서 개발한 대화형 AI 에이전트 평가용 벤치마크로, 실제 환경에서 에이전트가 모의 사용자하고 여러 차례 인터랙션하면서 복잡한 작업을 얼마나 잘 수행하는지 측정하는 도구입니다. 이 벤치마크는 에이전트가 데이터베이스, 도구 API, 도메인별 정책 문서를 활용해서 규칙을 따르고, 정보를 수집·추론하고, 현실적인 대화 속에서 맥락을 유지하는 능력을 평가합니다. 작업이 완료된 후에는 데이터베이스 상태를 목표 결과와 비교하는 방식으로 에이전트의 의사결정 정확성과 신뢰성을 객관적으로 측정하고, 반복 실험에서의 일관성(pass^k 지표)도 함께 평가합니다.
최근 실험 결과를 보면, 최신의 LLM 기반 에이전트들도 TAU Benchmark의 복잡한 시나리오에서는 성공률이 50% 미만에 그치는 등, 실제 서비스 적용을 위해서는 더욱 정교한 추론 및 계획 능력이 필요함을 시사하고 있기도 합니다.
편집자 주
코딩 분야에서는 SWEBench가 인기를 끌고 있고, 조금 재미있는 사례로는 GAIA benchmark 같은 것도 있어요. 사람에겐 아주 쉬운 작업인데, AI 에이전트에게는 의외로 어려운 작업들로 구성된 벤치마크죠. 아마 실제로는 쓸모가 별로 없는 시나리오들일 텐데, AI의 한계를 들여다볼 수 있다는 점에는 꽤 유익한 사례들이에요.
Q. 그렇다면, 전체적으로, 일반적으로 통용될 수 있는 ‘범용 벤치마크’라는 게 가능하다고 보세요? 아니면 여전히 각 팀이, 회사가 개별적으로 내부 벤치마크를 만드는 게 더 의미 있다고 보시나요?
솔직히 말씀드리면, 전 모든 걸 한꺼번에 측정할 수 있는 범용 벤치마크는 있을 수 없다고 생각해요.
그보다는 각각의 목적에 맞는 특화된 벤치마크 세트가 훨씬 실용적이에요.
예를 들어서, “이번엔 이 벤치마크에서 90% 이상 달성하자”라고 목표를 세우고, 그 벤치마크에 맞춰서 모델을 최적화하고, 그 다음에는 또 다른 벤치마크를 설정해서 목표를 맞춰가죠. 이게 바로 지금 업계가 소위 기술의 발전을 이끌어가는 방식이에요.
물론, 산업 전반에 적용할 수 있는 범용 벤치마크나 데이터셋을 만들려는 시도들도 있어요. 저희도 예컨대 MLCommons 커뮤니티와 함께 레드팀용 데이터셋을 만들고 2024년 12월에 공개했는데, 산업 전반에서 공통으로 쓸 수 있도록 하겠다는 의도를 가지고 작업을 했어요.
이런 작업들의 취지는 훌륭하지만, 실제 서비스 관점에서는 각 팀이 자기만의 경로, 자기만의 벤치마크를 따로 정해서 그에 맞춰 나아가는 게 훨씬 현실적이에요.
Q. 어찌보면, 결국 다시 ‘사람의 역할’로 돌아오는 거 아닌가 싶네요.
네, AI를 가르치기 위한 정답(Ground Truth)의 원천이자, AI를 평가하는 벤치마크가 되는 것, 그게 정말 사람의 역할이라고 생각해요. 결국, AI라는게 왜 필요하냐, 무슨 개념이냐라는 걸 생각해 볼 때, 사람은 ‘단순한 실행자(Executor)가 아니라 ‘기준점(Benchmark)’이 되어야 하기 때문이죠.
물론, 지금도 어떤 영역에선 평균적인 AI 모델이 평균적인 사람보다 성능이 뛰어나기도 해요. 그래서 이제는 여전히 AI보다 더 나은 '집단으로서의 사람의 지혜'를 수집하는 게 일이 된 거죠. 결국 그게 AI 발전의 본질이에요.
기술적인 관점으로 돌아가 보면, 사람 오퍼레이터와 AI 오퍼레이터를 동일한 방식으로 다뤄야 한다고 생각해요. 작업 흐름은 사람과 AI를 구분하지 않고 자연스럽게 통합되어야 하고, “여긴 사람이 하는 영역”, “여긴 AI가 하는 영역”이라고 선 긋는 것이 무의미하게 될 거예요.
Q. 마지막 질문이네요. 저는 책이 사람을 만든다고 믿는데요, 올가의 철학이나 Toloka의 운영에 영향을 준 책이 있다면 소개해 주세요.
사실, 이 질문을 최근에 한 번 고민해봤어요. 좀 특이한 대답일 수 있는데, 제가 가장 좋아하는 책은 순수한 소설이에요. 바로 움베르토 에코의 『푸코의 진자(Foucault’s Pendulum)』예요.
이 책은 정말 다양한 문화적 레퍼런스와 복합적인 층위를 갖고 있어요. 예전에 처음 읽었을 땐 그걸 잘 몰랐는데, 최근에 다시 읽으면서 정말 놀랐어요.
이 책이 1980년대, AI가 등장하기 훨씬 전에 쓰인 건데도, 그 안에는 ‘텍스트의 힘’, 문자 자체의 힘이 강하게 담겨 있어요. 단지 몇 글자로 구성된 문장이 완전히 새로운 개념, 사회, 종교, 심지어는 생사 문제까지 만들어낼 수 있다는 이야기죠.
소설 속 이야기 자체는, 우연히 어떤 쪽지 하나를 발견하고 그 안의 글자를 어떻게 해석하느냐에 따라 비밀 결사와 보물 이야기로 이어지기도 하고, 혹은 그냥 아내가 남편에게 시장에서 물건 사오라고 쓴 메모일 수도 있어요.
같은 텍스트가 두 가지 완전히 다른 세계를 열어버리는 것, 이게 지금 우리가 대형 언어 모델을 통해 현실에서 겪고 있는 일과 너무 닮았어요.
그래서 저는 이 책이 지금의 AI 시대와 기묘하게 맞닿아 있다고 느껴요. 50년 전에는 지적 유희로만 존재하던 것이, 이제는 우리가 실제로 살아가는 현실이 된 거니까요.