brunch

AGI의 시대: 임박한 AGI 타임라인

아폴로 리서치 CEO 마리우스 호반이 올린 LessWrong 글

by STEVE HAN

저는 2024년 8월부터 슬로우뉴스에 한 주 간의 AI 소식을 제 시각으로 정리한 "AI in a week"를 연재하고 있습니다. 관심 있는 분들은 링크를 통해서 읽어주시고 뉴스레터에 가입해 주시면 됩니다. 이 연재 중에 AGI에 관련된 소식은 여기 브런치에도 올릴 예정입니다.

제 신간 'AGI의 시대'도 많이 읽어 주시면 감사하겠습니다.

-----

프론티어 모델의 위험성을 검증하는 회사인 아폴로 리서치 CEO인 마리우스 호반의 글이다. 그는 이제 AGI(인공 일반 지능; 모든 인지적인 행동에서 인간만큼 좋은 성능을 보이는 인공지능)를 좀 더 심각하게 생각해야 하며, AGI 기업과 전 세계가 훨씬 더 많은 준비를 해야 한다고 주장한다. 이제 명확한 계획 없이 행동하는 것은 무책임할 정도로 모델이 충분한 능력을 갖춘 영역에 접어들었다고 평가한다.

따라서 특히, 정부, 학계, 시민사회가 비판하고 개선할 수 있도록 AGI 업체들이 세부 계획을 공개(비밀 정보 제외)해야 하고, 앤스로픽의 RSP 같은 정책이 좀 더 상세하게 만들어져야 한다고 지적한다.

GettyImages-2151310977.jpg

그가 예측하는 타임라인은 다음과 같다.

2024년: AI는 사람이 30분 정도 걸리는 ML 엔지니어링 작업을 상당히 안정적으로 수행할 수 있으며, 강력한 추론을 통해 2~4시간이 걸리는 작업도 안정적으로 수행할 수 있다.

2026년: AI가 8시간의 ML 엔지니어링 작업을 안정적으로 수행하고, 때로는 강력한 유도 기능을 갖춘 고품질의 새로운 연구(예: 최고 수준의 ML 컨퍼런스에서 인정받을 수 있는 자율 연구)를 수행할 수 있다.

2027년: 능력 손실 없이 AI 랩의 최고 연구원을 대체할 수 있는 AI를 보유하게 된다.

2028년: AI 기업의 자동화된 AI 연구원 수가 1만~1백만 명에 달한다. 소프트웨어 개선이 비약적으로 발전하고, 알고리즘 개선에는 한계가 없으며 기하급수적으로 증가한다. 거의 모든 지식 기반 작업을 자동화할 수 있다. 이게 다리오 아모데이가 쓴 ‘사랑과 은총의 기계’ 에세이에 나오는 ‘데이터센터 안의 천재들’에 해당한다.

2029년: 새로운 연구로 로봇 공학이 훨씬 더 발전한다. 물리적 세계는 더 이상 AI에 의미 있는 제한이 되지 않는다. 2024년 기준으로도 경제적으로 가치 있는 업무의 95% 이상이 기능 손실 없이 완전히 자동화될 수 있다.

2030년: 초인적인 일반 능력을 갖춘 수십억 개의 AI가 정치, 군사, 사회 등 사회 모든 분야에 통합된다.


이 타임라인은 중간값 기준이고 더 빠르게 전개될 수 있다. 2025년 말에서 2026년에는 AGI 연구소에서 최고 수준의 연구자를 대체할 수 있는 AI가 등장할 것이다. 이렇게 전망하는 근거와 이유는 다음과 같다.

지난 십 년 간의 기술 발전을 살펴본 바,

AGI 회사들이 시간대를 얘기하기 시작했고,

AGI를 막는 장애물이 더 이상 존재하지 않기 때문이다.

짧은 기간(2~3년 안)에 AGI가 등장한다고 할 경우, 해석 가능성(interpretability), 확장할 수 있는 감독 기능, 슈퍼 얼라인먼트 같은 분야에서 근본적·혁신적 돌파구가 나올 여유가 없을 가능성이 높기에, 현존 기술(또는 조금 개선된 수준)로 ‘최소 안전장치’를 갖추는 것이 현실적으로 가능한 대안이라고 본다.

GettyImages-1415443846.jpg

가장 긴급하게 요구하는 두 가지 원칙은 첫째 모델 가중치와 지적 재산을 안전하게 보호해서 오용되지 않게 막아야 하고, 두 번째로는 최초의 강력한 AI 시스템을 강력히 통제해 이들이 음모(스키밍)를 꾸미지 못하게 막고 이를 기반으로 더 강력한 AI에 대한 얼라인먼트 계획을 수립해야 한다는 얘기다.

저자는 긴 글을 통해서 최소한 우리가 해야 할 일을 두 개의 레이어로 나누어서 구분하고 레이어1은 자신이 보기에 반드시 해야 할 일이며 레이어2도 중요하고 향후 리스크를 크게 낮출 것이지만 레이어1에 비해 중요도는 좀 떨어지는 이슈들이다.

레이어1의 주요 계획은 다음과 같다.

충실하고 사람이 읽을 수 있는 CoT로 패러다임 유지

대폭 개선된 (CoT, 액션 및 화이트박스) 모니터링

제어(사람이 읽을 수 있는 CoT를 가정하지 않음)

스키밍에 대한 훨씬 더 깊은 이해

평가(모델 능력·성향 평가) 대폭 강화

보안(사이버·물리) 강화

2순위로 제시하는 레이어2 권장 사항은 다음과 같다.

기존 얼라인먼트 기법(RLHF, RLAIF 등) 정밀 개선

해석 가능성·확장 가능 감독 기능 등 근본 연구 지속

조직(회사)의 안전 전략·논리를 더 투명하게 공개

안전 우선(Safety-first) 문화

꽤 긴 글이지만 가장 첨단 모델의 안전성을 평가하던 기관의 책임자가 지금까지 경험을 기반으로 우리가 되도록 빨리 갖추어야 할 역량과 정책 방향을 거론한 것이기 때문에 좀 더 깊이 있게 읽어 보기를 바란다.


keyword
작가의 이전글책읽기: 예니 에르펜베크의 카이로스