AI는 자기 내부뿐만 아니라 자기 레시피를 진화시키고 있다.
최근 논문들을 살펴보면 AI가 더 똑똑해지는 방법에는 크게 두 가지 흐름이 있는 것 같습니다.
하나는 모델 내부, 수천억 개의 가중치를 직접 바꾸는 것입니다. 당연한 이야기겠지만, 모델의 성능 자체를 끌어올리는 것은 언어모델을 제공하는 회사가 해야할 일입니다. 클로드와 GPT, 그리고 gemini와 중국의 AI모델들이 시간을 다투며 매일 겨루고 있는 상황이기도하죠.
반면, 모델을 사용하는 회사의 입장은 다릅니다. 다릅니다. 이미 모델은 존재하고 어떻게 하면 더 나에게 맞는 AI를 만들어 나갈 것인가를 고민하고있죠.그리고 그 방법은 지침서, 즉 스킬 파일을 어떻게 더 정교하게 고쳐 나갈 것인가를 고민하는 쪽으로 흘러갑니다.
여기서 이 글을 처음 보시는 분들을 위해 스킬 파일에 대해 간단하게 설명하고 넘어가고자 합니다.
스킬 파일이란 AI에게 줄 작업 순서를 평범한 문서 형태로 적어둔 것입니다. 사람이 읽어도 바로 이해할 수 있는 형식이고요. 세계 최고의 요리사가 특정 레시피를 만드는 방법을 글로 계속 다시 쓰면서 남겨서 누구나 똑같은 퀄리티의 요리를 완성해 나가는 것과 비슷합니다.
이해를 돕기 위해, 제가 실제로 사용하는 '분석가 agent'의 스킬을 일부 보여드리겠습니다.
[ 그림 1. 제가 사용하고 있는 '데이터 분석가 agent'스킬 중 일부 ]
스킬 파일의 실제 모습은 이렇습니다. 확장자가 .md 인 파일로 구성되어있습니다. .md라고 해서 어려워 하실 필요는 없습니다. 우리가 엑셀을 이용하면 .xlsx, 이미지를 이용하면 .png, 워드를 이용하면 .word를 사용하듯 .md라는 형태의 파일이 있는 겁니다.
마크다운은 블로그 같은 데서 쓰는 가벼운 문서 형식으로, 특별한 프로그램 없이도 메모장으로 열고 쓸 수 있습니다. 저는 위와 같이 적었지만 실제로 AI가 이해하는 형태는 아래와 같이 적용됩니다.
[ 그림 2. 위 파일을 실제로 AI가 이해하는 형태 ]
즉, markdown 형식의 파일은 AI가 이해하기 쉽게 적혀진 레시피에 가깝습니다.
오늘은 그 스킬을 고도화하는 방법을 적은 논문 중 한개를 소개드리려 합니다.
2026년 4월 2일, 일리노이대 시카고, 컬럼비아대, 브리티시컬럼비아대 연구진이 발표한 EvoSkills입니다.
AI 에이전트가 "스킬 파일"을 AI 스스로 진화시키는 방법론이죠
EvoSkills의 구조를 이해하려면 시험 공부하는 학생을 떠올리면 됩니다.
등장인물은 셋입니다.
먼저 "학생 AI"가 있습니다. 과제를 풀기 위한 스킬 파일을 작성하는 역할입니다.
다음은 "튜터 AI"입니다. 학생에게 모의시험을 출제하는 녀석입니다.
마지막으로 "국가고시"에 해당하는 외부 채점관이 있습니다. 합격이면 1, 불합격이면 0. 이유는 알려주지 않습니다.
학생이 먼저 첫 번째 스킬 파일을 만듭니다. 예를 들어 "소인수분해" 과제라면 이런 식입니다.
튜터는 모의시험을 내고, 학생이 틀리면 "42번째 줄에서 문자열을 반환했는데 정수여야 합니다" 같은 구체적 피드백을 줍니다. 학생은 이 피드백을 받아 스킬 파일을 수정하고, 100점을 맞을 때까지 반복합니다.
그런데 만약에 튜터가 쉬운 시험만 낸다면 어떻게 될까요?
학생이 모의시험에서 100점을 맞았는데
국가고시에서 0점을 받는 상황이 생깁니다.
이건 튜터가 너무 쉬운 문제만 냈다는 뜻이겠죠. 그러면 튜터 스스로 시험 난이도를 올립니다. 엣지 케이스(예외적인 상황)를 추가하고, 수학적 복잡도를 높이고, 더 까다로운 조건을 겁니다.
학생 입장에서는 갑자기 벽에 부딪힌 겁니다. "그럭저럭 괜찮은 수준"에 안주하고 있었는데, 튜터가 충격을 줘서 빠져나오게 하는 구조입니다. 그러면 학생은 더 견고한 스킬 파일을 만들어야 하고, 이 과정이 반복되면서 스킬의 품질이 점점 올라갑니다.
연구진은 이 방법으로 만든 스킬이 사람이 직접 작성한 스킬보다, 그리고 Anthropic의 자체 스킬 생성기보다 높은 성능을 보였다고 보고합니다. 금융, 자연과학, 헬스케어, 소프트웨어 엔지니어링, 에너지, 로보틱스 등 다양한 분야에서요.
솔직히 "모든 분야에서 인간보다 낫다"는 주장에는 약간의 유보가 필요하다고 봅니다. 다만 이 논문이 던지는 진짜 질문은 성능 비교가 아닙니다.
여기서 잠깐 멈춰서 생각해보아야 할 필요성이 있습니다.
수천억 개의 수치값으로 이뤄진 신경망을 직접 다시 학습시키는 것과 AI 외부에 지침서를 만들어 정답을 찾아나가는 것. 어느 것이 더 효과적인지요.
따져보면 외부 스킬 파일 방식이 합리적인 이유가 분명히 있습니다.
우선 이식성입니다. Opus 4.6이 진화시킨 스킬 파일을 Haiku 4.5에 넣어도, 심지어 DeepSeek V3에 넣어도 상당한 수준으로 작동합니다. 모델 가중치(신경망이 학습하는 수치값)를 직접 건드리면 그 모델에서만 쓸 수 있지만, 스킬 파일은 텍스트니까 어떤 모델이든 읽을 수 있습니다. 한 번 진화시킨 스킬이 모델을 가리지 않고 재사용된다는 건 상당한 장점입니다.
그다음은 치명적 망각(catastrophic forgetting) 문제입니다. 파인튜닝(기존 모델에 추가 학습을 시키는 것)으로 새로운 지식을 넣으면, 새로운 걸 외우느라 기존 기억이 덮어씌워질 위험이 있습니다. 이를 방지하는 기술이 있긴 하지만, AI 회사 입장에서 모델을 업데이트하려면 시간과 비용이 만만치 않습니다. 외부 스킬 파일에 지식을 담으면 모델은 건드리지 않으니 이 비용이 거의 들지 않습니다.
마지막으로 감사 가능성입니다. 스킬 파일은 사람이 읽을 수 있습니다. "아, 이 방법론은 이 작업에 안 맞겠는데" 같은 판단을 바로 할 수 있죠. 수십억 개 수치값으로 이뤄진 블랙박스 신경망에서는 왜 그런 결과가 나왔는지 들여다보는 것 자체가 어렵습니다.
결국 모델 내부를 바꾸는 것보다 외부 지침서를 진화시키는 편이 더 유연하고, 안전하고, 비용도 적게 든다는 겁니다. EvoSkills가 보여준 건 이 접근이 성능까지 담보한다는 점입니다.
실제로 AI를 사용하는 기업들은 언어 모델에 기대는 것을 넘어, 각자의 스킬 파일을 고도화하는 쪽으로 진화하고 있습니다.
제가 있는 분야도, AI언어 모델은 윤활유와도 같고 실질적인 가이드는 '스킬파일'이 담당할 때가 많습니다.
그 납득의 이유는 기업이 확률대신 규칙을 원하기 때문입니다.
좀 더 자세하게 설명드리자면 순수한 LLM(거대언어모델)은 확률에 기반한 시스템입니다.
여러 가능한 답 중에서 가장 그럴듯한 것을 골라 내놓는 방식이다 보니, 왜 그런 결정을 내렸는지 설명할 수 없는 경우가 많습니다. 금융, 의료, 항공 같은 영역에서 이건 치명적입니다. 모델이 99% 정확하더라도, 매일 수백만 건의 기업 데이터베이스 연산을 실행한다면 그 1%가 재앙이 될 수 있습니다.
반면 결정론적 스킬 파일은 다릅니다. 같은 데이터를 넣으면 항상 같은 결과가 나옵니다. 회사의 규정 준수 담당자가 파이썬 스크립트를 읽으면 기계가 정확히 무엇을 하는지 볼 수 있습니다. "데이터 정렬" 스킬을 실행하면 파이썬 인터프리터가 수학적 정확성을 매번 보장합니다. 감사 가능하고, 예측 가능하고, 검증 가능합니다.
더 큰 모델을 만드는 건 AI 회사들이 고민할 영역입니다. 하지만 실제로 AI를 사용하는 우리에게는 조금 다른 질문이 남습니다. 같은 모델이라도 어떤 스킬 파일을 주느냐에 따라 결과가 달라진다면, 결국 AI의 사용성을 높이는 길은 "더 좋은 스킬 파일"을 만드는 데 있는 건 아닐까요.
EvoSkills는 그 과정마저 AI가 스스로 해낼 수 있다는 가능성을 보여줬습니다. 솔직히 저도 이 방향이 어디까지 갈 수 있을지는 모르겠습니다. 최근 트렌드는 AI를 잘 쓰는 것과 AI에게 좋은 레시피를 주는 것이 같은 말이 되어가고 있는 것 같습니다.
원본 논문: EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification (2026년 4월 2일, University of Illinois Chicago, Columbia University, University of British Columbia)