진짜 AI-Augmentation의 길
* 이 글은 '튜링 포스트 코리아'에서 발행된 주간 AI 뉴스레터의 일부입니다. AI 기술, 스타트업, 산업과 사회에 대한 이야기에 관심이 있으시면 '튜링 포스트 코리아' 구독해 주세요.
‘생성형 AI’에 대한 폭발적인 관심에 이어서 - 물론 그 연장선상에서 - AI 영역에서 지금 가장 ‘핫’하면서 많은 관심을 받는 ‘새로운 버즈워드 (buzzword)’ 중 하나가 있다면 바로 ‘Open-Ended Exploration’일 거라고 생각합니다. 한글로 번역하는게 영 부자연스럽고 맘에 들지 않아서 이 글에서는 ‘개방형 탐색 에이전트’라고 부르려고 하는데요, 현재 언급하는 맥락에서의 의미는 ‘사전에 정의된 제약 사항이나 고정된 목표가 부여되지 않은 상태에서 환경을 탐색하고 새로운 결과물을 만들어내는 능력을 가진 에이전트’라고 할 수 있겠습니다.
‘AI 에이전트’, ‘에이전틱 AI’ 등의 용어와 연결시킨다면 더 직관적으로 그 의미를 이해하기 쉬울 수는 있지만, 그래도 이 둘은 살짝 차이가 있습니다; ‘개방형 탐색 에이전트’는 ‘AI가 목표를 넘어서 새로운 것을 탐구하는 것’을 의미하고, ‘창의적이고 예측 불가능한 발견’을 강조하는 반면에, ‘에이전틱 AI’는 ‘특정 목표를 달성하기 위해 행동하는 것’을 말하고 ‘목표 지향적 행동’을 강조합니다.
‘개방형 탐색 에이전트’에 대한 큰 관심은 사실 아주 자연스러운 현상이라고 봅니다. 지금 거대언어모델 (LLM)을 활용해서 우리들이 하는 일의 대략 70%를 자동화할 수 있다고 이야기하는 수준에 이르고 있기는 하지만, 자세히 들여다보면 여전히 사람의 손을 상당히 타야 작업을 잘 수행하는 ‘어시스턴트’ 형태의 어플리케이션이 대부분이기 때문이죠.
이런 시스템은 주어진 환경을 파악해서 수행활 활동을 계획하고, 자율적으로 행동하고, 피드백을 받아 개선하는 소프트웨어 시스템이라고 할 수 있습니다. AI가 가져올 미래 가치가 바로 이 ‘개방형(Open-Ended)’ 시스템에 있다고 주장하는 전문가들도 많이 있구요.
이번 주에는 일본의 스타트업 Sakana AI에서 최근 발표한 AI Scientist를 포함해서 이 영역을 개척하고 있는 4개의 연구를 살펴보려고 합니다.
‘The AI Scientist’는 작년 말 일본에 설립된 Sakana AI라는 스타트업에서 지난 주에 내놓은 연구 논문입니다. 바로 이 논문의 핵심 컨셉이, 자율적으로 연구 아이디어를 만들어내고 실험도 수행하고, 논문을 작성하는 ‘Open-Endedness’에 있습니다. 연구자들이 이 논문을 가지고 테스트하는 것들을 살펴보면, 아직 그 구현 수준에 제한이 있고 결과물의 품질도 중간 수준으로 보이지만, 이 프레임웍은 시스템이 미리 정해진 경로가 없는 상태에서 새로운 연구의 방향을 탐색’할 수 있도록 하는, ‘개방형 발견 (Open-Ended Discovery)’이라는 아이디어를 구현하고 있습니다.
Sakana AI의 이번 논문은 ‘AI를 중심으로 연구 과정을 End-to-End로 자동화할 수 있는가’라는 질문에 대한 첫 번째 시도이니만큼, 섣불리 과도하게 기대할 이유도, 지나치게 폄훼할 필요도 없다고 봅니다. 예를 들어, 미네소타 대학교와 UC 버클리의 연구자들이 2024년 2월에 쓴 논문 ‘Shallow Synthesis of Knowledge in GPT-Generated Texts: A Case Study in Automatic Related Work Composition’에서 지적한 것처럼 ‘LLM이 자동적으로 생성하는 결과물이 과연 과학자나 연구자들이 하는 작업과 인지적으로 유사한 의미와 과정으로 결과를 만들어내는 작업인가’ 하는 질문에 과연 ‘AI Scientist’ 논문을 적용한 결과가 어떤 답을 주는지 등을 객관적으로 평가해 볼 필요가 있습니다. (밑의 그림을 보면, GPT가 생성한 Citation Graph는 사람이 직접 작업한 것과 많이 다를 뿐 아니라 ‘유의미하지 않은’ 그래프를 만들고 있습니다)
한 편으로는, 지금의 arXiv에 올라오는 논문들의 숫자, 종류, 품질, 그리고 Peer Review 상황들을 본다면 ‘우리는 그렇게 타이트하게 하나’ 싶은 생각도 듭니다만 ^.^;
어쨌든 지금 많은 연구자들이 ‘AI Scientist’를 살펴보면서 공개된 코드로 다양한 구현을 해 보고 있는 듯하니, 조만간 또 한 번 기회가 될 때 업데이트 드릴 수 있도록 하겠습니다.
영국의 AI 스타트업 Cosine (코사인)에서 바로 며칠 전 지니 (Genie)라는 ‘소프트웨어 엔지니어링’을 위한 모델을 선보였는데요. 깃허브 리포지토리에서 수집한 약 2천 3백개의 소프트웨어 엔지니어링 문제로 구성된 ‘SWE-Bench’ 벤치마크에서 30.08%로 경쟁 모델들과 현격한 격차를 보이며 최고 성능을 보여줍니다.
지니 모델의 테크니컬 리포트에 명시적으로 ‘개방형 탐색’ 시스템이라는 접근 방식이 설명되어 있진 않지만, 지니는 ‘소프트웨어 엔지니어링’이라는 문제 영역에서 ‘Open-Ended Discovery’의 특성을 보여줍니다:
자율적인 작업 수행과 완료: 지니는 다양한 프로그래밍 작업을 자율적으로 실행할 수 있기 때문에 사람이 지속적으로 개입하거나 가이드하지 않아도 문제의 해결책들을 다방면으로 탐색할 수 있습니다.
사람과 유사한 추론: 실제 소프트웨어 엔지니어의 의사 결정 과정을 담고 있는 데이터셋을 학습해서, 지니는 좀 더 개방적이고 창의적인 방식으로 문제에 접근할 수도 있습니다.
협업의 잠재력: 실제 개발자와 함께 작업을 할 수 있기 때문에, 단독으로가 아니라 사람과 AI가 협업하는 과정을 통해서 Open-Ended Discovery가 될 수 있는 가능성을 열어줍니다.
지니 모델을 만드는 과정에 녹아들어있는 이 ‘자율성’은 ‘개방형 탐색’의 핵심적인 요소로, 모델이 만들어내는 결과물이 단순히 ‘학습된 패턴을 조금씩 변형하는 반복’이 아니라 소프트웨어 엔지니어링이라는 맥락 안에서 실행되는 ‘창의적인 탐구의 산물’이라는 점에서 큰 의미가 있습니다.
여기서 말씀드리는 ADAS는 흔히 자율주행에서 이야기하는 ADAS (Advanced Driver Assistance System)가 아니고, 위에 나와있는 것처럼 ‘Automated Design of Agentic Systems’입니다. 이건 ‘에이전트를 수작업으로 설계하지 말고 시스템이 자동적으로 설계하고 계속해서 개선하면 어떨까?’라는 아이디어에서 출발한 연구인데요.
브리티시 컬럼비아 대학교, 그리고 벡터 인스티튜트 (Vector Institute)의 연구자들이 작성한 이 논문을 아주 간단히 요약하자면, ‘메타 에이전트’가 ‘Meta Agent Search’라는 알고리즘을 사용해서 ‘에이전트 시스템’을 학습, 개선하고 점진적으로 우수한 성능의 에이전트를 작성, 테스트하면 어떨까 하는 연구입니다. 실험의 결과를 보면, 이렇게 메타 에이전트를 통해 만들어진 에이전트가 수작업으로 설계된 에이전트보다 더 우수한 성능을 발휘하고, 도메인 간의 전이 학습에서도 그 성능을 유지하는 것으로 나타납니다. (물론, 이 연구는 초기 연구로, 메타 에이전트의 재귀적 개선 - Recursive Improvement - 과정이 완전히 자율적이 되려면 사람의 초기 입력과 가이드라인이 중요합니다)
ADAS는 에이전틱 시스템의 설계 뿐 아니라 ‘지속적인, 자율적인 진화’, 그리고 ‘새로운 챌린지가 있는 다양한 환경과 다른 도메인에의 적용’까지 검토한다는 측면에서, ‘개방형 탐색 에이전트’ 시스템의 새로운 차원을 연다고 볼 수도 있을 것 같습니다.
언뜻 보기에는 큰 관련이 없어 보일 수 있지만, LongWriter는 ‘언어를 생성하는 것’ 자체에 있어서 ‘개방성’이 뭔지를 이야기하는 논문이라고 볼 수 있습니다. 칭화대학교와 Ziphu AI라는 중국의 AI 유니콘 연구자들이 공저한 이 논문은, ‘일관성이 있는 아~주 아주 긴 텍스트’를 생성할 수 있게 해서 정말 창의적인 글쓰기, 대량의 기술 문서 등 엄청난 양의 텍스트를 생성해야 하는 어플리케이션에 AI가 중추적인 역할을 할 수 있다는 걸 보여줍니다.
현재 Long-Context를 지원하는 거대언어모델들이 많죠? 크게는 100,000개에 달하는 입력 토큰도 받아주는 모델들이 있지만, 이런 거대한 모델들조차 2,000개 정도의 단어로 만들어진 여러 개의 문단들을 일관성있고 유의미하게 생성하는 작업은 쉽지가 않습니다. 이 논문의 실험 결과에 따르면, 이런 현상은 ‘지도학습 미세조정 (SFT; Supervised Fine-Tuning)’ 과정에서 아주 긴 텍스트 샘플이 별로 주어지지 않아서 발생한다고 합니다. 그래서 연구진들은 AgentWrite라는 이름의 ‘에이전트 기반 파이프라인’으로 아주 긴 문장을 생성하는 작업을 하위 작업들로 나눠서 ‘기성품 (Off-the-Shelf)’ LLM으로도 20,000 단어가 넘는, 그렇지만 일관성이 있는 긴 텍스트를 생성할 수 있도록 했습니다.
위에서 살펴본 4개의 논문에서 볼 수 있듯이, ‘개방형 (Open-Ended) 탐색 에이전트’ 시스템은 자율적으로 진화하는 AI 시스템의 가능성을 충분히 보여주는 반면에, 저품질의 결과물 또는 정당화할 수 없는 결론을 만들어낸다거나 (예, ‘AI Scientist’의 경우), 개발 과정의 투명성이 충분하지 않아서 문제가 될 수 있다거나 (예, ‘지니’의 경우) 하는 개선점 또한 드러내고 있어, 앞으로의 이 분야의 연구는 ‘지속적인 결과물의 품질 개선을 담보할 방법론’과 ‘에이전트의 행동을 이해, 통제하기 위한 투명성’의 두 가지 축을 중심으로 전개될 것으로 보입니다.
위에서 본 예시들처럼, 개방형 탐색 에이전트 기술은 ‘과학적 발견’을 훨씬 가속화, 효율화하고, 소프트웨어 개발을 혁신하고, 나아가 AI가 생성할 콘텐츠의 너비와 깊이를 크게 확장시킬 수 있는 잠재력을 지니고 있습니다.
그렇지만 과연 어떻게 이런 시스템을 효과적으로 감독할 것인가, 어느 정도 범위까지 자율성을 부여할 것인가 등을 포함해서 기술의 발전이 야기할 광범위한 기술적, 산업적, 사회적 영향에 대한 너무나도 중요한 질문들도 함께 제기됩니다.
이런 중요한 질문들, 도전 과제들에 차근차근 우리만의 답을 해 나가면서 기술을 발전시킬 수 있다면, 그야말로 AI가 우리 인간의 지식, 그리고 창의성을 확장하는데 파트너로서 기여하는 시대, ’AI-Augmentation의 시대’에 다다를 수 있을 거라고 생각합니다. 어때요, 기대되지 않으세요?