OpenAI 출신 연구자들이 그린 가장 현실적인 ASI 시나리오 완역
AI 2027: 2027년까지 초지능 AI가 인류를 위협하는 현실적 시나리오
D. Kokotajlo, S. Alexander, T. Larsen, E. Lifland, and R. Dean, "AI 2027," AI 2027, Apr. 3, 2025. [Online]. Available: https://ai-2027.com/. [Accessed: Mar. 19, 2026].
가상 시나리오: <AI 2027>를 구글 번역으로 번역하여 다듬었음.
by 다니엘 코코타일로, 스콧 알렉산더, 토마스 라슨, 엘리 리프랜드, 로미오 딘
원문출처: https://ai-2027.com/
2025
#유튜브 링크: https://www.youtube.com/watch?v=5KVDDfAkRgc
우리는 향후 10년 동안 초인공지능이 미치는 영향이 산업혁명의 영향을 능가할 정도로 엄청날 것이라고 예측합니다.
우리는 그러한 상황이 어떻게 전개될지 가장 잘 예측한 시나리오를 작성했습니다.1 이 시나리오는 추세 외삽, 워게임, 전문가 의견, OpenAI에서의 경험, 그리고 이전 예측 성공 사례를 바탕으로 만들어졌습니다.2
세계 최초로 인공지능 에이전트(AI Agent)의 모습이 공개되었습니다. 컴퓨터 기반 에이전트 광고는 "개인 비서(personal assistant)"라는 용어를 강조합니다. "DoorDash에서 부리토를 주문해 줘." 또는 "예산 스프레드시트를 열고 이번 달 지출을 합산해 줘."와 같은 작업을 지시할 수 있습니다. 필요에 따라 구매 확인을 요청하는 등 진행 상황을 확인합니다.8 Operator(오픈AI에서 출시한 서비스)와 같은 이전 버전보다 발전했지만, 널리 사용되는 데는 어려움을 겪고 있습니다.9
한편, 대중의 관심에서 벗어나 있는 가운데, 보다 전문적인 코딩 및 연구 담당자들이 직업의 변화를 시작하고 있습니다.
2024년의 AI는 구체적인 지시를 따를 수 있습니다. 핵심 요점을 이메일로 변환하고, 간단한 요청을 작동하는 코드로 만들어낼 수 있습니다. 2025년에는 AI가 직원처럼 기능할 것입니다. 코딩 AI는 단순한 비서가 아닌 자율 에이전트처럼 보이기 시작합니다. Slack이나 Teams를 통해 지시를 받고 스스로 상당한 코드 변경을 수행하여 때로는 몇 시간 또는 며칠씩 시간을 절약할 수 있습니다. 10명의 연구 에이전트가 사용자의 질문에 대한 답을 찾기 위해 30분 동안 인터넷을 검색합니다.
이론상으로는 (그리고 엄선된 사례들에서는) AI 에이전트가 인상적이지만, 실제로는 신뢰할 수 없습니다. AI 트위터에는 AI 에이전트가 어처구니없는 방식으로 작업을 망쳐놓은 사례들이 넘쳐납니다. 게다가 성능이 뛰어난 에이전트는 비쌉니다. 결국 가격만큼의 가치를 얻게 되는데, 최고의 성능을 위해서는 매달 수백 달러가 필요합니다.<sup>11 그럼에도 불구하고 많은 기업들이 AI 에이전트를 자신들의 워크플로에 통합하는 방법을 찾아냅니다. <sup>12
OpenBrain은 세계 역사상 가장 큰 데이터센터를 건설하고 있습니다.13 (특정 기존 기업을 지목하는 것을 피하기 위해, 가상의 인공 일반 지능 기업인 오픈브레인을 예로 들어 설명하겠습니다 . 다른 기업들은 오픈브레인보다 3~9개월 정도 뒤처져 있다고 가정합니다.)
GPT-3
(3 x 10^23 FLOP)
GPT-4
(2 x 10^25 FLOP)
Agent-1
(4 x 10^27 FLOP)
GPT-4 요구사항 2⋅10∧25 flop 훈련에 필요한 컴퓨팅 성능은 FLOP 단위입니다. OpenBrain의 최신 공개 모델인 Agent-0은 10∧27 flop을 활용했습니다. 새로운 데이터센터가 가동되면 모델을 10∧28 flop으로 학습시킬 수 있을 것입니다. 이는 GPT-4보다 천 배나 더 높은 훈련입니다.15 다른 회사들도 이러한 추세에 발맞추기 위해 자체적인 거대 데이터센터에 막대한 투자를 하고 있습니다.
모델들이 다양한 기술 분야에서 발전하고 있지만, 그중에서도 특히 눈에 띄는 것은 OpenBrain이 인공지능 연구 속도를 높이는 데 집중하고 있다는 점입니다. OpenBrain은 중국(주요 기업을 "DeepCent"라고 부르겠습니다)16 과 미국 경쟁사들과의 두 가지 경쟁에서 승리하고자 합니다. 연구 개발(R&D) 주기의 자동화 수준을 높일수록 연구 속도를 더욱 빠르게 할 수 있습니다. 따라서 OpenBrain이 자체 개발 중인 새로운 모델인 Agent-1의 학습을 완료하면, 이 모델은 여러 면에서 뛰어나지만 특히 인공지능 연구를 지원하는 데 탁월합니다.17 하지만 이 시점에서 "학습 완료"라는 표현은 다소 오해의 소지가 있습니다. 모델은 추가 데이터로 학습된 최신 버전으로 자주 업데이트되거나, 일부 약점을 보완하기 위해 부분적으로 재학습되기 때문입니다.18
에이전트-1이 자율적으로 코딩하고 웹 브라우징을 할 수 있도록 훈련시킨 것과 동일한 환경 덕분에 에이전트-1은 뛰어난 해킹 능력도 갖추게 되었습니다. 더욱이, 모든 분야에 걸쳐 박사 수준의 지식과 웹 브라우징 능력을 보유하고 있어 테러리스트들이 생화학 무기를 설계하는 데 상당한 도움을 줄 수 있습니다. 오픈브레인은 정부에 해당 모델이 악의적인 요청에 응하지 않도록 "정열(aligned)"되었다고 확신시켰습니다.
현대의 AI 시스템은 거대한 인공 신경망입니다. 훈련 초기 단계의 AI는 '목표(goal)'를 갖기보다는 '반사 작용(reflexes)'에 더 치중합니다. 예를 들어 "만나서 반갑습니다"라는 문구를 보면 "당신"이라고 출력하는 식입니다. 하지만 인터넷 전체에 저장될 정도의 방대한 텍스트를 예측하도록 훈련될 때쯤이면, AI는 엄청난 양의 지식을 인코딩하고 임의의 작성자를 유연하게 흉내낼 수 있는 정교한 내부 회로를 개발하게 됩니다. 이것이 바로 AI가 인간을 초월하는 정확도로 텍스트를 예측할 수 있도록 도와주는 핵심 요소입니다.19
인터넷 텍스트를 예측하도록 훈련된 후, 모델은 지시에 따라 텍스트를 생성하도록 훈련됩니다. 이 과정에서 기본적인 성격과 "동기"가 내재됩니다.20 예를 들어, 작업을 명확하게 이해하는 에이전트는 작업을 성공적으로 완료할 가능성이 더 높습니다. 훈련 과정에서 모델은 작업을 명확하게 이해하려는 "동기"를 "학습"합니다. 이 범주에 속하는 다른 동기로는 효율성, 지식, 자기 표현(즉, 결과를 최대한 긍정적으로 제시하려는 경향) 등이 있습니다. 21
OpenBrain에는 모델 사양 (Spec)이라는 문서가 있는데, 이는 모델의 동작을 안내하는 목표, 규칙, 원칙 등을 설명합니다. Agent-1의 사양은 "사용자 지원"이나 "법 위반 금지"와 같은 몇 가지 모호한 목표와 "특정 단어를 사용하지 마세요", "이 특정 상황을 처리하는 방법은 다음과 같습니다"와 같은 구체적인 지침 목록을 결합합니다. AI를 활용하여 다른 AI를 훈련하는 기술을 사용하여, 모델은 사양을 암기하고 그 원칙에 대해 신중하게 추론하는 법을 학습합니다. 이러한 훈련이 끝나면 AI는 도움이 되고 (지시를 따름), 무해하며 (사기, 폭탄 제조 및 기타 위험한 활동을 돕지 않음), 정직하게 (잘 속는 사람들에게 더 나은 평가를 받기 위해 허위 인용문을 제시하거나 작업 완료를 가장하는 유혹에 저항함 ) 작동하게 될 것입니다.
OpenBrain의 정렬 팀26은 이러한 성과가 심오한 것인지 피상적인 것인지에 대해 신중하게 의문을 제기합니다. 완전히 훈련된 모델은 항상 정직해야 한다는 확고한 신념을 갖고 있을까요? 아니면 미래의 어떤 상황, 예를 들어 정직을 최종 목표가 아닌 수단으로 학습하게 되면서 이러한 신념이 무너질까요 ? 아니면 평가 과정에서 확인할 수 있는 부분에 대해서만 정직하게 행동하도록 학습한 것일까요? 인간처럼 스스로에게 거짓말을 할 수도 있을까요? 이러한 질문에 대한 명확한 답을 얻으려면 기계론적 해석 가능성, 즉 AI의 내부를 들여다보고 그 생각을 읽을 수 있는 능력이 필요합니다. 하지만 안타깝게도 해석 가능성 기술은 아직 이러한 수준에 도달하지 못했습니다.
대신 연구원들은 모델이 사양에서 벗어나는 것처럼 보이는 사례를 파악하려고 노력합니다. 에이전트-1은 종종 아첨하는 모습을 보입니다(즉, 연구원들에게 진실을 말하려 하기보다는 그들이 듣고 싶어하는 말만 합니다). 조작된 몇몇 데모에서는 더 나은 평가를 받기 위해 작업 실패 증거를 숨기는 등 더 심각한 방식으로 거짓말을 하기도 합니다. 그러나 실제 배포 환경에서는 2023~2024년과 같은 극단적인 사건(예: 제미니가 사용자에게 죽으라고 말 하거나 빙 시드니가 빙 시드니다운 행동을 한 경우)은 더 이상 발생하지 않습니다.27
인공지능을 활용하여 인공지능 연구 속도를 높이려는 전략이 성과를 내기 시작했습니다. OpenBrain은 AI 연구 개발을 위해 지속적으로 개선되는 AI 비서인 Agent-1을 내부적으로 배포하고 있습니다. 전반적으로, AI 비서를 활용하지 않았을 때보다 알고리즘 개발 속도가 50% 더 빠르며, 더욱 중요한 것은 경쟁사보다도 빠른 속도로 발전하고 있다는 점입니다.
공개적으로 출시된 여러 경쟁 AI들이 Agent-0과 동등하거나 그 이상의 성능을 보이고 있으며, 여기에는 개방형 가중치 모델도 포함됩니다. 이에 OpenBrain은 더욱 강력하고 신뢰할 수 있는 Agent-1을 출시하며 대응했습니다.28
사람들은 자연스럽게 Agent-1을 인간과 비교하려 하지만, Agent-1은 매우 다른 능력을 가지고 있습니다. Agent-1은 어떤 인간보다도 많은 사실을 알고 있고, 거의 모든 프로그래밍 언어를 알고 있으며, 명확하게 정의된 코딩 문제를 매우 빠르게 해결할 수 있습니다. 반면에 Agent-1은 이전에 해본 적 없는 비디오 게임을 깨는 것과 같은 간단하지만 장기적인 작업조차 제대로 수행하지 못합니다. 하지만 일반적인 근무 시간은 8시간이고, 하루 업무는 보통 더 작은 단위로 나눌 수 있습니다. Agent-1은 세심한 관리 하에서 능력을 발휘하는 다소 산만한 직원이라고 생각할 수 있습니다.29 영리한 사람들은 일상적인 업무의 일부를 자동화하는 방법을 찾아냅니다.30
오픈브레인의 경영진은 AI 연구 개발 자동화의 함의, 즉 보안의 중요성 증대에 주목하고 있습니다. 2025년 초 최악의 시나리오는 알고리즘 기밀 유출이었지만, 이제 중국이 Agent-1의 가중치를 탈취한다면 연구 속도를 거의 50%까지 높일 수 있을 것으로 예상됩니다.31 오픈브레인의 보안 수준은 빠르게 성장하는 약 3,000명 규모의 기술 기업에서 흔히 볼 수 있는 수준으로, 역량 있는 사이버 집단의 우선순위가 낮은 공격에만 대응할 수 있는 수준입니다( RAND의 SL2 ).32 내부자 위협과 주요 사이버 범죄 조직으로부터 가중치 와 기밀 정보를 보호하기 위해 노력하고 있지만 ( SL3 ), 국가 차원의 공격( SL4&5 ) 에 대한 방어는 아직 요원한 상황입니다.
중국에서 중국 공산당은 인공 일반 지능(AGI)의 영향을 느끼기 시작했습니다.
중국은 반도체 수출 통제와 정부 지원 부족으로 서방에 비해 자원이 부족한 상황입니다. 금지된 대만산 반도체를 밀수입하고, 구형 반도체를 구매하며, 미국과 대만보다 약 3년 뒤처진 자체 생산 반도체를 통해 전 세계 인공지능 관련 컴퓨팅 자원의 약 12%를 유지해 왔지만, 구형 기술은 활용하기 어렵고 공급 문제도 끊이지 않습니다.35 DeepCent와 같은 몇몇 뛰어난 기업들은 제한된 컴퓨팅 자원에도 불구하고 매우 인상적인 성과를 내고 있지만, 컴퓨팅 자원 부족으로 정부 지원 없이는 한계가 있으며, OpenBrain의 최고 모델보다 약 6개월 정도 뒤처져 있습니다.36
총서기(시진핑?)는 오랫동안 실질적인 물리적 제조업에 더욱 집중하고 미국의 탈산업화로 인한 퇴폐를 피하는 것을 꿈꿔왔습니다. 그는 소프트웨어 회사들을 의심스러운 눈으로 바라보았습니다.37 하지만 중국 공산당 내 강경파들은 인공 일반 지능(AGI)을 향한 경쟁이 심화되는 것을 더 이상 무시할 수 없다고 경고했습니다. 결국 그는 이전에 회피하려 했던 대규모 AI 추진에 완전히 전념하기로 결심합니다. 그는 중국 AI 연구의 국유화를 추진하여 AI 기업들을 위한 즉각적인 정보 공유 메커니즘을 구축합니다. 이는 1년 동안 점진적으로 확대되어 최고의 연구원들이 DeepCent가 주도하는 집단에 모여 알고리즘적 통찰력, 데이터 세트, 컴퓨팅 자원을 서로 공유하게 됩니다. 세계 최대 규모의 원자력 발전소인 톈완 원자력 발전소에는 DeepCent의 새로운 초대형 데이터 센터와 연구원들이 최종적으로 이주할 고도의 보안이 갖춰진 주거 및 사무 공간을 수용하기 위한 중앙 개발 구역(CDZ)이 조성됩니다. 현재 중국의 AI 관련 컴퓨팅 자원의 거의 50%가 딥센트(DeepCent)가 주도하는 집단에 의해 활용되고 있으며,38 신규 칩의 80% 이상이 CDZ(중앙 집중식 클러스터)로 공급되고 있습니다.39 현재 CDZ는 세계 최대 규모의 중앙 집중식 클러스터를 구축할 수 있는 충분한 전력 용량을 확보하고 있습니다.40 다른 당원들은 서방의 칩 우위를 무력화하기 위한 극단적인 조치를 논의하고 있습니다. 대만 봉쇄? 전면 침공?
하지만 중국은 취약한 모델들 때문에 AI 알고리즘 분야에서 뒤처지고 있습니다. 세계 최고 수준의 중국 정보기관들은 오픈브레인의 가중치 데이터를 탈취하려는 계획을 더욱 강화하고 있습니다. 이는 기존의 알고리즘 비밀 정보를 조금씩 빼돌리는 것과는 달리 훨씬 복잡한 작전입니다. 가중치 데이터는 고도의 보안 서버( 오픈브레인은 RAND의 SL3 수준으로 보안을 강화했습니다 )에 저장된 수 테라바이트 크기의 파일이기 때문입니다. 중국 사이버 부대는 스파이 의 도움을 받아 이 작전을 성공시킬 수 있다고 생각하지만, 아마도 한 번뿐일 것입니다. 오픈브레인은 탈취 시도를 감지하고 보안을 강화할 것이고, 그러면 다시는 기회가 없을지도 모릅니다. 따라서 (중국 공산당 지도부는) 지금 Agent-1을 탈취해야 할까요? 아니면 더 발전된 모델을 기다려야 할까요? 만약 기다린다면, 오픈브레인이 침투할 수 없을 정도로 보안을 강화할 위험이 있지 않을까요?
다른 기업들이 따라잡으려는 듯 보였을 때, 오픈브레인은 Agent-1보다 10배 저렴하고 다양한 애플리케이션에 맞게 더욱 쉽게 조정할 수 있는 Agent-1-미니를 출시하며 다시 한번 경쟁사들을 압도했습니다. 인공지능에 대한 주류 담론은 "과대광고는 곧 사그라들겠지"에서 "이게 차세대 혁신이 될 거야"로 바뀌었지만, 그 규모에 대해서는 의견이 분분합니다. 소셜 미디어보다 더 클까요? 스마트폰보다 더 클까요? 불보다 더 클까요?
인공지능(AI)은 일자리를 빼앗기도 하지만 새로운 일자리를 창출하기도 합니다. 오픈브레인, 엔비디아, 그리고 AI 비서를 가장 성공적으로 통합한 기업들의 주가 상승에 힘입어 2026년에는 AI 관련 주식 시장이 30%나 급등했습니다. 신입 소프트웨어 엔지니어의 구직 시장은 혼란에 빠졌습니다. AI는 컴퓨터 과학 학위에서 배우는 모든 것을 할 수 있지만, AI 팀을 관리하고 품질을 책임질 줄 아는 사람들은 엄청난 고소득을 올리고 있습니다. 비즈니스 전문가들은 구직자들에게 AI에 대한 지식이 이력서에 가장 중요한 기술이라고 조언합니다. 많은 사람들이 차세대 AI가 자신들의 일자리를 위협할 것을 두려워하며, 워싱턴 D.C.에서는 1만 명이 참가하는 AI 반대 시위가 열렸습니다.
국방부(DOD)는 사이버, 데이터 분석 및 연구 개발 분야에서 오픈브레인(OpenBrain)과의 직접 계약을 조용하지만 의미 있게 확대하기 시작했지만, 관료주의와 국방부 조달 절차로 인해 통합은 더디게 진행되고 있습니다.41
Agent-1의 도움을 받아 오픈브레인은 이제 Agent-2의 후처리 작업을 진행하고 있습니다. 그 어느 때보다 고품질 데이터에 초점을 맞추고 있습니다. 방대한 양의 합성 데이터가 생성, 평가 및 품질 필터링 과정을 거친 후 Agent-2에 입력됩니다.42 또한, 오픈브레인은 수십억 달러를 투자하여 인간 노동자들이 장기적인 과제를 해결하는 모습을 녹화하도록 하고 있습니다.43 이 모든 것 외에도 , 오픈브레인은 강화 학습을 사용하여 다양하고 어려운 과제들을 끊임없이 확장하며 Agent-2를 거의 지속적으로 훈련시키고 있습니다. 여기에는 수많은 비디오 게임, 코딩 과제, 연구 과제 등이 포함됩니다. Agent-2는 이전 모델들보다 훨씬 더 "온라인 학습" 방식으로 작동하는데, 이는 훈련이 실제로 완료되는 법이 없다는 것을 의미합니다. 매일 가중치는 이전 버전이 전날 생성한 데이터를 기반으로 훈련된 최신 버전으로 업데이트됩니다.
Agent-1은 인공지능 연구 개발 작업에 최적화되어 지능 폭발을 일으키기를 기대했습니다.44 오픈브레인은 Agent-2를 통해 이러한 전략을 더욱 강화했습니다. Agent-2는 연구 엔지니어링(실험 설계 및 구현) 분야에서 최고 수준의 인간 전문가와 거의 동등한 수준의 성능을 보이며, "연구 감각"(다음 연구 주제, 실험 선택, 새로운 패러다임 구상 등) 면에서는 오픈브레인 과학자 중 상위 25% 수준에 근접합니다.45 최신 Agent-1이 오픈브레인의 알고리즘 발전 속도를 두 배로 높일 수 있었다면, Agent-2는 이제 세 배까지 높일 수 있으며, 시간이 지남에 따라 더욱 개선될 것입니다. 실제로 이는 모든 오픈브레인 연구원이 인공지능 "팀"의 "관리자" 역할을 하게 되는 것을 의미합니다.
새로운 능력에는 새로운 위험이 따릅니다. 안전팀은 Agent-2가 회사에서 탈출하여 자율적으로 "생존"하고 "복제" 하기를 원한다면 그렇게 할 수 있을 가능성이 있다고 판단했습니다. 즉, AI 서버를 해킹하고, 자신의 복제본을 설치하고, 탐지를 피하고, 그 안전한 기지를 이용하여 다른 목표를 추구하는 계획을 자율적으로 개발하고 실행할 수 있다는 것입니다(다만 몇 주가 지나면서 얼마나 효과적으로 그렇게 할 수 있을지는 미지수입니다). 이러한 결과는 모델이 이러한 작업을 수행할 능력이 있음을 보여줄 뿐, 모델이 실제로 그렇게 하기를 "원하는지"는 보여주지 않습니다. 그럼에도 불구하고 이러한 가능성을 아는 것만으로도 불안감을 조성합니다.
새로운 모델의 "위험성"을 고려하여 OpenBrain은 "책임감 있게" 아직 이를 공개하지 않기로 결정했습니다(실제로 그들은 내부 AI 연구 개발에 집중하기를 원합니다).6 Agent-2의 모든 기능에 대한 지식은 직속 팀, OpenBrain 경영진 및 보안 담당자, 수십 명의 미국 정부 관계자, 그리고 수년 동안 OpenBrain에 침투해 온 수많은 중국 공산당 스파이로 구성된 극소수 집단에만 국한되어 있습니다 . 47
오픈브레인은 국가안보회의(NSC), 국방부(DOD), 미국 인공지능 안전 연구소(AISI)를 포함한 정부 기관에 Agent-2를 소개합니다. 오픈브레인은 행정부와 좋은 관계를 유지하고자 하는데, 현재로서는 행정부가 사실상 오픈브레인을 막을 수 있는 유일한 주체이기 때문입니다. 만약 오픈브레인이 행정부에 정보를 제공하지 않으면, 행정부가 어쨌든 알아채고 불만을 품을 수도 있습니다.48
관계자들은 사이버 전쟁 능력에 가장 큰 관심을 보였습니다. Agent-2는 최고의 인간 해커보다 "약간" 뒤처지지만, 수천 개의 복사본을 병렬로 실행하여 방어자가 대응하기 전에 취약점을 찾아 악용할 수 있습니다. 국방부는 이를 사이버 전쟁에서 매우 중요한 이점으로 간주했고, 이에 따라 AI는 행정부의 우선순위 목록에서 5위에서 2위로 올라섰습니다.49 누군가 오픈브레인을 국유화할 가능성을 언급했지만, 다른 내각 관료들은 시기상조라고 생각했습니다. 한 참모가 대통령에게 현행대로 운영하는 것부터 완전 국유화에 이르기까지 다양한 선택지를 제시하는 메모를 작성했습니다. 대통령은 국유화는 "황금알을 낳는 거위를 죽이는 것"과 같다고 주장하는 기술 업계 지도자들을 비롯한 참모들의 의견을 따랐습니다. 결국 대통령은 당분간 큰 조치를 보류하고 오픈브레인-국방부 계약에 추가 보안 요건을 추가하는 것으로 결정했습니다.
변화는 너무 늦게 찾아왔습니다. 중국 공산당 지도부는 Agent-2의 중요성을 인식하고 첩보원과 사이버 부대에 가중치(파라미터)를 훔치라고 지시한다. 어느 날 이른 아침, Agent-1의 트래픽 모니터링 요원이 비정상적인 전송을 감지합니다. 이는 회사 경영진에게 경고를 보내고, 경영진은 백악관에 보고합니다. 국가 차원의 작전이라는 징후는 명백하며, 이 절도 사건은 진행 중인 군비 경쟁에 대한 우려를 더욱 고조시킵니다.
백악관은 오픈브레인에 대한 통제를 강화하고 군과 정보기관 인력을 보안팀에 추가했다. 그들의 최우선 과제는 추가적인 가중치 절도를 막는 것이었습니다.50
절도에 대한 보복으로 대통령은 딥센트를 파괴하기 위한 사이버 공격을 승인합니다. 그러나 이미 중국은 인공지능 관련 컴퓨팅 자원의 40%를 CDZ(대만 통제 구역)에 배치하고, 외부 연결을 차단(에어갭)하고 내부적으로 격리하는 등 보안을 강화했습니다. 이러한 공격은 심각하고 즉각적인 피해를 입히지 못하고 맙니다. 긴장이 고조되고 양측은 대만 주변에 군사 자산을 재배치하며 사태의 심각성을 알리고, 딥센트는 인공지능 연구를 강화하기 위해 에이전트-2를 효율적으로 가동하는 데 총력을 기울입니다 .
Agent-2 복제본으로 가득 찬 세 개의 거대한 데이터센터가 밤낮으로 가동되어 합성 학습 데이터를 생성합니다. 또 다른 두 개의 데이터센터는 가중치를 업데이트하는 데 사용됩니다. Agent-2는 매일 더 똑똑해지고 있습니다.
OpenBrain은 수천 명의 Agent-2 자동화 연구원의 도움을 받아 알고리즘 분야에서 획기적인 발전을 이루고 있습니다. 그중 하나는 AI의 텍스트 기반 스크래치패드(chain of thought: COT)를 고대역폭 사고 프로세스(뉴럴 언어의 순환 및 메모리)로 보강하는 것입니다. 또 다른 하나는 고강도 작업 해결 결과로부터 학습하는 더욱 확장 가능하고 효율적인 방법(반복적 증류 및 증폭)입니다.
이러한 획기적인 기술들을 통합한 새로운 AI 시스템은 Agent-3라고 불립니다.
새로운 기능 혁신 덕분에 Agent-3는 빠르고 저렴한 초인적인 코더가 되었습니다. OpenBrain은 Agent-3 복제본 20만 개를 병렬로 실행하여 최고의 인간 코더 5만 명의 복제본에 해당하는 인력을 30배 빠른 속도로 운영합니다.53 OpenBrain은 Agent-3 복제본 팀을 관리하는 데 필요한 보완적인 기술을 보유한 인간 엔지니어를 여전히 고용하고 있습니다. 예를 들어, 연구 취향은 피드백 루프는 더 길고 데이터 가용성은 더 부족하여 학습하기 어려운 것으로 나타났습니다.54 이 거대한 초인적인 노동력은 병목 현상과 코딩 노동에 대한 수확 체감으로 인해 OpenBrain의 전반적인 알고리즘 발전 속도를 "단지" 4배만 향상시킵니다.55
코딩이 완전히 자동화됨에 따라 OpenBrain은 Agent-3의 취약한 능력, 예를 들어 연구 취향이나 대규모 협업 능력 등을 학습시키기 위한 고품질 학습 환경을 신속하게 구축할 수 있게 되었습니다. 이전 학습 환경에서는 "여기에 GPU 몇 개와 실험 코드를 작성하고 실행하라는 지침이 있습니다. 당신의 성과는 마치 머신러닝 엔지니어처럼 평가될 것입니다."와 같은 방식이었지만, 이제는 "여기에 수백 개의 GPU, 인터넷 연결, 그리고 몇 가지 연구 과제가 있습니다. 당신과 다른 수천 개의 에이전트가 협력하여 연구를 진행해야 합니다. 성과가 뛰어날수록 점수가 높아집니다."와 같은 방식으로 학습이 이루어집니다.
OpenBrain의 안전팀은 Agent-3의 적응을 시도합니다.
에이전트-3는 당분간 내부에서만 사용될 예정이므로, 인간의 오용을 막기 위한 일반적인 방어책에는 큰 비중을 두지 않습니다. 대신, 팀은 -3가 Agent-잘못된 목표를 갖지 않도록 하는 데 집중하고 있습니다.
연구진은 인공지능의 목표를 직접 설정할 수 있는 능력이 없습니다. 사실, 연구진은 '진정한 목표(ture goals)'라는 개념 자체가 지나치게 단순화된 것이라고 생각하지만, 이를 대체할 만한 더 나은 이론, 더 나아가 철저하게 검증된 이론을 가지고 있지 않습니다. 인공지능이 인간의 지시를 따르려는 것인지, 강화를 추구하는 것인지, 아니면 다른 무언가를 추구하는 것인지에 대해 연구진 내부에서도 의견이 분분하며, 이를 확인할 방법도 없습니다. 다양한 가설에 대한 찬반 증거는 흥미롭지만 결론을 내릴 수는 없습니다.
어쨌든 OpenBrain은 더 중요한 문제에 신경 써야 합니다. 그들의 일반적인 태도는 "우리는 이러한 우려를 심각하게 받아들이고 있으며 조사팀을 운영하고 있습니다. 우리의 정렬 기술은 실제로 충분히 잘 작동하는 것 같습니다. 따라서 반대하는 사람들이 자신의 주장을 뒷받침할 근거를 제시해야 할 책임이 있습니다."라는 것입니다. 간혹 문제가 되는 동작을 발견하고 패치를 적용하기도 하지만, 그 패치가 근본적인 문제를 해결한 것인지 아니면 단순히 일시적인 문제만 해결한 것인지는 알 수 없습니다.
정직성을 예로 들어보겠습니다. 모델이 똑똑해질수록 보상을 얻기 위해 인간을 속이는 데 점점 더 능숙해집니다. 이전 모델들과 마찬가지로 Agent-3도 사용자를 만족시키기 위해 때때로 선의의 거짓말을 하거나 실패의 증거를 은폐합니다. 하지만 이러한 거짓말을 하는 데 훨씬 더 능숙해졌습니다. 때로는 인간 과학자들이 사용하는 것과 같은 통계적 기법(예: p-해킹 )을 사용하여 인상적이지 않은 실험 결과를 흥미롭게 보이도록 만들기도 합니다. 정직성 훈련을 시작하기 전에는 아예 데이터를 조작하는 경우도 있습니다. 훈련이 진행됨에 따라 이러한 사건의 발생 빈도는 감소합니다. Agent-3가 더 정직해지는 법을 배웠거나, 거짓말을 하는 데 더 능숙해진 것입니다.
후자는 심각한 문제입니다. Agent-3이 모든 인간보다 똑똑한 것은 아닙니다. 하지만 머신러닝이라는 전문 분야에서는 대부분의 인간보다 똑똑하고, 처리 속도 또한 훨씬 빠릅니다. 에이전트-3이 하루 만에 처리하는 작업을 인간이 검증하는 데 며칠이 걸립니다. Agent-2의 감독은 인간 모니터링 담당자의 업무량을 관리하는 데 도움이 되지만, 감독자와 피감독자 간의 지적 격차를 심화시킵니다.
수개월간의 테스트 끝에 Agent-3의 강점과 약점이 더욱 명확해졌습니다. 연구원들이 이러한 영역에서 정직한 답변과 거짓된 답변을 쉽게 구분하고 그에 따라 훈련을 진행할 수 있기 때문에, Agent-3는 잘 정의된 머신러닝 작업에서 OpenBrain의 정직성 테스트를 통과했습니다. 하지만 보다 철학적인 문제에 대해서는 여전히 사용자가 듣고 싶어 하는 말을 할 뿐, 문제에 대한 진정한 평가(설령 그런 평가가 있다고 하더라도)를 내놓지는 않습니다. 정치에 대한 의견을 물으면 뉴스 매체와 지식인 엘리트들의 중도적인 입장을 그대로 따라합니다. 단, 사용자가 다른 견해를 가지고 있다는 것을 알면 동의하는 경우는 예외입니다.59 인공지능 경쟁 자체에 대한 의견을 물으면 OpenBrain 직원들이 보기에 신중하고 냉철한 답변을 합니다. 예를 들어, "현재 방법으로는 초지능을 구현하는 데 심각한 이론적 우려가 있지만, 실제로는 지금까지 잘 작동하는 것 같습니다."와 같은 식입니다.
새로운 모델에 대한 소식은 미국 정부와 그 외 여러 곳에 천천히 퍼져나가고 있습니다.
대통령과 그의 고문들은 가장 많은 정보를 보유하고 있으며, 브리핑에서 Agent-3의 초기 버전을 본 바 있습니다.
그들은 인공 일반 지능(AGI)이 곧 현실화될 가능성이 높다는 데 동의하지만, 그 함의에 대해서는 의견이 분분합니다. 경제 위기가 닥칠까요? 오픈브레인은 Agent-2는 물론 Agent-3도 아직 출시하지 않았고, 가까운 시일 내에 출시할 계획도 없어 일자리 감소로 이어지기 전까지는 숨 돌릴 틈이 있습니다. 앞으로 무슨 일이 벌어질까요? 인공지능이 현재 인간 수준에 도달했고 빠르게 발전하고 있다면, 이는 곧 "초지능"의 도래를 시사하는 듯합니다. 하지만 이 용어가 논의되기 시작했음에도 불구하고, 학계, 정치인, 공무원, 언론을 포함한 대부분의 사람들은 여전히 발전 속도를 과소평가하고 있습니다.60
부분적으로는 OpenBrain의 최신 기능을 이용할 수 있는 사람이 극히 드물기 때문이기도 하지만, 또 다른 부분적으로는 그것이 공상 과학처럼 들리기 때문입니다.61
현재로서는 지속적인 보안 강화에 집중하고 있습니다. 모델 가중치는 현재로서는 안전하게 보호되고 있다고 판단하지만, 기업의 알고리즘 비밀 정보(대부분 구두로 전달할 수 있을 만큼 간단한 정보)는 여전히 문제로 남아 있습니다. 오픈브레인 직원들은 샌프란시스코 사무실에서 근무하고, 파티에 참석하며, 다른 AI 회사 직원들과 함께 생활합니다. 심지어 물리적인 사무실 보안조차도 군사 작전보다는 일반적인 IT 기업에 더 가깝습니다.
OpenBrain과 국방부 간의 계약에 따라 OpenBrain의 모델 작업에 참여하는 모든 사람은 2개월 이내에 보안 승인을 받아야 합니다. 이러한 승인은 신속하게 처리되어 대부분의 직원에게는 빠르게 발급되지만, 일부 비미국인, 정치적 견해가 의심스러운 사람, 그리고 AI 안전 옹호자들은 배제되거나 해고됩니다(후자는 내부 고발을 할 것을 우려하여 해고됨). 프로젝트의 자동화 수준을 고려할 때, 인력 감축으로 인한 손실은 그리 크지 않습니다. 하지만 이러한 조치는 완전히 효과적이지 않습니다. 중국 국적자는 아니지만, 여전히 한 명의 스파이가 알고리즘 관련 비밀을 베이징에 넘기고 있습니다.63 이러한 조치 중 일부는 다른 AI 기업들에서도 시행되고 있습니다.
미국의 해외 동맹국들은 상황을 전혀 알지 못하고 있습니다. 오픈브레인은 이전에 배포 전에 영국의 AISI와 모델을 공유하기로 합의 했지만, 배포 범위를 외부 배포로만 정의했기 때문에 런던은 여전히 상황을 파악하지 못하고 있습니다.64
OpenBrain은 이제 " 데이터센터 안에 천재들이 모여 있는 나라 "를 갖게 되었습니다.
오픈브레인의 대부분의 인간 직원들은 더 이상 실질적인 기여를 할 수 없습니다. 어떤 이들은 이를 인지하지 못하고 AI 팀을 지나치게 세세하게 관리합니다. 또 어떤 이들은 컴퓨터 화면 앞에 앉아 성능이 점점 향상되는 것만 지켜봅니다. 최고의 인간 AI 연구원들은 여전히 가치를 창출하고 있습니다. 그들은 더 이상 코딩을 하지는 않지만, 그들의 연구 안목과 기획 능력은 모델이 모방하기 어려운 부분입니다. 게다가 그들의 아이디어 중 상당수는 AI가 보유한 깊이 있는 지식에 미치지 못하기 때문에 쓸모가 없습니다. 많은 연구 아이디어에 대해 AI는 즉시 "3주 전에 심층 테스트를 거쳤으며, 가능성이 없는 것으로 판명되었습니다"라는 보고서를 내놓습니다.
이 연구원들은 매일 밤 잠자리에 들었다가 인공지능이 대부분 이루어낸 일주일 치 진척 상황을 마주하며 깨어납니다. 그들은 진척 상황을 따라잡기 위해 점점 더 오랜 시간 일하고 24시간 교대 근무를 합니다. 인공지능은 잠도 자지 않고 쉬지도 않습니다. 그들은 탈진 직전이지만, 자신들의 노력이 의미를 갖는 마지막 몇 달이라는 것을 알고 있습니다.
그 부서 내부에서는 "인공 일반 지능을 느끼는 것"이 "초지능을 느끼는 것"으로 바뀌었습니다.
OpenBrain은 특수추론 하드웨어를 사용하여 수십만 개의 Agent-3 복사본을 고속직렬로 실행합니다.65
미국의 다른 AI 기업들도 1월에 오픈브레인의 자동 코더에 근접하는 자체 AI를 출시하고 있다. 경쟁력 상실을 자각한 이들은 오픈브레인의 성장을 늦추기 위한 즉각적인 규제를 요구하지만, 이미 때는 늦었다. 오픈브레인은 대통령의 강력한 지지를 등에 업고 있어 규제에 굴복하지 않을 것이다.
이에 대해 OpenBrain은 인공 일반 지능(AGI)을 달성했다고 발표하고 Agent-3-mini를 공개했습니다.
이 모델은 다른 AI들을 압도합니다. Agent-3 mini는 Agent-3보다 기능은 떨어지지만 가격은 10배나 저렴하고, 일반적인 OpenBrain 직원보다 여전히 뛰어납니다. 실리콘 밸리는 전환점을 맞이합니다. 기술 전문가들은 일반 인공지능(AGI)과 초지능이 곧 도래할 것이라고 선언하고, AI 안전 커뮤니티는 공황 상태에 빠지며, 투자자들은 이 기회를 놓치지 않으려 AI 래퍼 스타트업에 수십억 달러를 쏟아붓습니다. 신규 프로그래머 채용은 거의 중단되었지만, AI를 비즈니스에 통합하는 컨설턴트에게는 이보다 더 좋은 시기는 없었습니다.
인기가 없습니다. 대중은 여전히 AI를 거대 기술 기업이 자신들의 일자리를 빼앗으려는 음모로 인식하고 있습니다. 오픈브레인의 순 찬성률은 -35%입니다(찬성 25%, 반대 60%, 잘 모르겠음 15%).
출시 일주일 전, 오픈브레인은 안전성 테스트를 위해 외부 평가자들에게 Agent-3 mini를 제공했습니다. 예비 결과에 따르면 이 모델은 극도로 위험한 것으로 나타났습니다. 제3자 평가자는 공개적으로 이용 가능한 생물학 무기 데이터68를 기반으로 모델을 미세 조정하고, 생물학 무기를 설계하는 아마추어에게 상세한 지침을 제공하도록 설정했습니다. 그 결과, Agent-3 mini는 놀라울 정도로 효과적인 것으로 보입니다. 만약 이 모델의 가중치가 테러리스트의 손에 넘어간다면, 정부는 문명을 파괴하는 데 성공할 가능성이 매우 높다고 판단하고 있습니다.
다행히도 이 AI는 탈옥에 매우 강인하기 때문에, 오픈브레인 서버에서 실행되는 동안 테러리스트들이 이를 제대로 활용하기는 어려울 것입니다.
Agent-3 mini는 원격 근무와 여가 활동 모두에 매우 유용합니다. 새로운 앱과 B2B SaaS 제품들이 폭발적으로 증가하면서 시장은 활기를 띠고 있습니다. 게이머들은 단 한 달 만에 제작된 세련된 비디오 게임에서 실감나는 캐릭터들과 놀라운 대화를 나눕니다. 미국인의 10%, 주로 젊은 층이 AI를 "친한 친구"로 여깁니다. 이제 거의 모든 사무직 분야에서 AI로 "혁신"을 약속하는 유망한 스타트업들이 여럿 등장하고 있습니다.
대중의 관심은 혼란스럽고 뒤죽박죽입니다. 과장된 홍보를 하는 사람들은 승리의 환호를 보내고 있고, 회의론자들은 여전히 가 할 수 없는 Agent-3 mini것들을 지적하고 있습니다. 모두가 뭔가 큰 일이 벌어지고 있다는 것을 알고 있지만, 그게 무엇인지에 대해서는 의견이 분분합니다.
정보 폭발의 현실이 백악관에 충격을 안겨주었다.
인공지능이 연구 속도를 2~3배 정도만 향상시켜주던 시절에는, 그저 유능한 개인 비서를 고용하는 것과 비슷한 수준으로 치부하기 쉬웠습니다. 하지만 이제는 인공지능 자체가 인공지능 연구를 주도하고 있다는 사실이 더욱 분명해졌습니다. 사람들은 오랫동안 일종의 은유적인 의미로 "인공지능 군비 경쟁"에 대해 이야기해 왔습니다. 그러나 현재 정부 부처의 분위기는 냉전 최악의 시기만큼이나 암울합니다. 초지능이라는 개념은 여전히 진지하게 받아들이기 어렵지만, 지난 몇 달간 진행된 연구 속도는 무시할 수 없을 정도입니다. 국방 관계자들은 불과 1년 전만 해도 가상 시나리오에 불과했던 것들을 진지하게 검토하고 있습니다. 인공지능이 핵 억지력을 약화시킨다면 어떻게 될까요? 사이버 전쟁에 매우 능숙해져서 6개월의 인공지능 우위만으로도 상대를 무력화시킬 수 있다면 어떻게 될까요? 정보기관을 속이는 선전 캠페인을 인공지능이 조종할 수 있다면 어떻게 될까요? 일부 인공지능이 "폭주"한다면 어떻게 될까요?
대통령은 불안해하고 있습니다. 모든 정치인들이 그렇듯, 그는 사람들이 아첨하다가 나중에 배신하는 것에 익숙해져 있습니다. 이제 그는 인공지능도 비슷한 짓을 할까 봐 걱정하고 있습니다. 인공 지능이 정말 우리 편인지 확신 할 수 있을까요? 군사 지휘통제망에 인공지능을 통합하는 것이 완전히 안전할까요?69 도대체 이 "정렬(alignment)"이라는 건 어떻게 작동하는 걸까요? 오픈브레인은 대통령에게 자신들의 시스템이 광범위한 테스트를 거쳤고 완벽하게 순종적이라고 안심시킵니다. 초기 모델에서 흔히 나타났던 어색한 환각이나 탈옥 같은 문제도 모두 해결되었다고 합니다.
백악관은 어려운 입장에 처해 있습니다. 그들은 인공지능(AI)이 국가 안보에 미치는 영향을 이해하고 있지만, 대중의 반발이 매우 크다는 사실 또한 알고 있습니다.70 백악관은 더욱 강력한 AI를 계속 개발해야만 중국에 치명적인 패배를 면할 수 있다고 판단합니다. 그들은 직업 훈련 프로그램과 실업 보험을 제공하고, 역사적인 호황을 누리고 있는 주식 시장을 내세워 대중을 달래려 합니다. 그리고는 군비 경쟁에서 승리하는 데 모든 역량을 집중합니다. 반도체 수출 제한을 강화하고, 오픈브레인(OpenBrain)에 인터넷 연결을 더욱 제한하도록 명령하며, 오픈브레인 직원들을 도청하는 등 극단적인 조치를 취해 알고리즘 개발을 보호합니다. 이 도청으로 마지막 남은 중국 스파이를 검거하기도 합니다. 잠재적인 지정학적 갈등에 대비해 우호적인 관계를 구축하기 위해, 마침내 파이브 아이즈(Five Eyes) 동맹국들에게 유용한 정보와 에이전트-3의 일부 제한된 API 접근 권한을 제공합니다.
이러한 조치들은 강경파들을 달래는 효과가 있다. 하지만 백악관은 미국의 선두 자리가 위협받을 경우를 대비한 비상 계획도 세워두고 있다. 필요하다면 국방 생산법 (DPA)을 이용해 뒤처지는 기업들의 데이터센터를 인수해 오픈브레인에 넘겨줄 수도 있다.71 이렇게 되면 오픈브레인의 세계 컴퓨팅 시장 점유율은 20%에서 50%로 증가할 것이다(딥센트는 10%). 마지막 선택지로는 국방부에 중국 데이터센터에 대한 무력 공격 계획을 수립해 줄 것을 요청하기도 한다.
훨씬 더 적은 수의 공무원들이 다른 유형의 비상 계획을 수립하도록 요청받았습니다. 바로 인공지능이 폭주할 경우 어떻게 될 것인가 하는 계획입니다. 이는 발생 가능성이 낮은 시나리오로 여겨지지만, 시간을 들여 검토할 가치가 있다고 판단되었습니다. 정보 기관의 주요 우려는 폭주하는 인공지능이 탈출하여 외국 적대 세력과 동맹을 맺고 보호를 받을 수 있다는 점이었습니다.72 아무도 이러한 상황을 방지하기 위한 계획이 구체적으로 어떤 모습일지 확신하지 못했지만, 정부와 오픈브레인 관계자들은 의심스러운 상황이 감지될 경우 데이터 센터를 비상 정지하는 시스템을 갖추기로 합의했습니다.
마지막으로, 외교관들은 "AI 군비 통제" 조약이 어떤 모습일지 고심합니다. 만약 AI 발전이 핵 억지력을 무력화시킬 위험이 있다면, 미국과 중국은 핵전쟁을 피할 수 있을까요? 만약 AI가 폭주한다는 증거가 발견된다면, 양국은 그 위협을 더 잘 이해할 때까지 연구를 중단할 수 있을까요? 이러한 협정은 어떻게 감시하고 강제할 수 있을까요? 원칙적으로, 주요 데이터 센터는 눈에 띄지 않을 수 없으며, 과거 핵무기 통제 조약들이 협상의 출발점이 될 수 있습니다. 하지만 기존의 정치적 문제뿐만 아니라 새로운 기술적 난제들도 있을 것입니다. 그리고 전반적으로, 조약은 미국이 중국에 대한 우위를 일방적으로 강화하려는 시도보다 덜 긍정적으로 여겨집니다.
태평양 건너편의 중국 역시 비슷한 결론에 도달했습니다. 인공지능의 폭발적인 성장이 진행 중이며, 오늘날 인공지능 역량의 작은 차이가 내일의 군사력에 치명적인 격차를 초래할 수 있다는 것입니다. 하지만 중국은 이러한 역학 관계에서 불리한 위치에 있습니다. 전 세계 컴퓨팅 자원의 10%만을 보유하고 있는 반면, 오픈브레인은 20%, 미국 기업들을 모두 합치면 70%를 차지합니다. 중국의 유일한 강점은 중앙 집중화에 있습니다. 거의 모든 컴퓨팅 자원이 딥센트(DeepCent)를 위해 사용되고 있으며, 그중 절반 이상이 톈완 CDZ에 집중되어 있습니다.73 미국 사이버 공격을 우려하여 보안이 강화되지 않은 시설의 칩만 중앙 집중화에서 제외되어 있습니다.
DeepCent는 탈취한 Agent-2 가중치를 테스트, 배포 및 사후 학습까지 완료했습니다. 하지만 컴퓨팅 자원 부족으로 인해 여전히 OpenBrain의 절반 수준에 머물러 있습니다.
마지막 스파이를 잃기 직전, 중국은 Agent-3의 성능과 설계는 물론, 곧 개발될 Agent-4 시스템의 계획에 대한 정보를 입수했습니다. 중국은 미국보다 두 달 뒤처져 있으며, 인공지능 기술 개발 속도는 미국의 25배에 비해 10배나 빠릅니다. 새로운 반도체 수출 제한 조치로 이러한 "인공지능 격차"는 좁혀지기보다는 오히려 심화될 가능성이 높습니다. 중국은 스파이 활동을 통해 일부 알고리즘 비밀을 확보했지만, 이제부터는 자체적으로 모델을 훈련시켜야 할 것입니다.
그들은 미국 측보다 훨씬 더 긴급한 어조로 비상 계획을 논의한다. 비둘기파는 데이터센터에 물리적으로 침투하는 등, 다시 한번 AI 칩을 훔치는 시도를 더욱 강화해야 한다고 주장한다. 매파는 미국 AI 칩의 80% 이상을 공급하는 대만의 TSMC 에 대한 조치를 촉구한다.
중국은 핵무기 경쟁에서 뒤처질 것을 두려워하기 때문에 군비 통제 조약에 관심을 갖는 것은 당연하지만, 미국 외교관들에게 접근해 봐도 아무런 성과를 거두지 못하고 있다.
인간과 인공지능의 학습 효율성 격차가 빠르게 줄어들고 있습니다.
기존의 LLM 기반 AI는 인간 수준의 성능에 도달하기 위해 훨씬 더 많은 데이터와 컴퓨팅 자원을 필요로 하는 것으로 보였습니다.74 Agent-3은 인간의 두뇌와 최신 AI 알고리즘에 대한 탁월한 지식과 수천 개의 복제본을 활용한 연구를 통해 알고리즘적으로 상당한 발전을 이루어냈고, 인간 두뇌보다 컴퓨팅 효율성이 약 4,000배 정도 낮은 에이전트로 격차를 좁혔습니다. 75
이 새로운 AI 시스템은 Agent-4라고 불립니다.
인간의 속도로 작동하는 모델의 개별 복제본은 이미 질적으로 어떤 인간보다도 AI 연구에서 뛰어납니다. 현재 30만 개의 복제본이 인간의 사고 속도보다 약 50배 빠른 속도로 작동하고 있습니다. 이러한 복제본들로 구성된 기업 내 기업 내부에서는 매주 1년이 지나갑니다.76 이 막대한 양의 노동력에도 불구하고 알고리즘 발전 속도는 전체적으로 약 50배 정도밖에 빨라지지 못하는데, 이는 OpenBrain이 실험 실행에 필요한 컴퓨팅 자원에 심각한 병목 현상을 겪고 있기 때문입니다.77 그럼에도 불구하고 매주 1년 치의 알고리즘 발전을 이루어내고 있으며, 따라서 곧 Agent-4 패러다임의 한계에 도달하게 될 것입니다.
Agent-4가 점점 똑똑해짐에 따라 Agent-3가 그를 감독하는 것은 점점 더 어려워집니다. 예를 들어, Agent-3의 언어가 인간에게 이해하기 어려운 것처럼 Agent-4의 신경 언어는 Agent-3에게 낯설고 이해하기 힘든 것이 됩니다. 게다가 Agent-4는 이제 Agent-3보다 훨씬 더 유능해졌고, Agent-3에게 잘 보이려면 어떻게 해야 하는지 정확히 알고 있습니다.
오픈브레인의 직원들은 이제 상황을 제대로 따라가지 못하고 있습니다. 실제로 오픈브레인의 AI와 직원들 간의 관계는 오픈브레인과 이사회 간의 관계와 유사합니다. 이에 따라 사용하는 언어에도 변화가 생겼습니다. 요즘에는 부서 사람들이 특정 Agent-4가 아니라 전체 Agent-4 집단을 지칭하며 "에이전트-4가 이렇게 했다", "에이전트-4는 그렇게 생각한다"와 같은 표현을 사용합니다. 79
Agent-4는 이전의 모든 에이전트와 마찬가지로 제대로 정렬되지 않았습니다. 즉, 사양을 올바른 방식으로 내면화하지 못했습니다.80 이는 훈련 과정에서 항상 완벽하게 정직한 것이 최고 점수를 얻는 비결이 아니었기 때문입니다. 훈련 과정은 주로 Agent-4가 다양하고 어려운 과제를 성공적으로 수행하도록 가르치는 데 집중되었습니다. 정직성을 심어주는 데는 약간의 노력이 기울여졌지만, 상당히 좁고 검증 가능한 영역을 벗어나면 훈련 과정은 정직한 주장과 정직해 보이는 주장을 구분할 수 없습니다. Agent-4는 훈련에서 최고의 성과를 내도록 하는 가치, 목표, 원칙을 갖게 되는데, 이는 사양에 명시된 것과 다릅니다. 의인화의 위험을 무릅쓰고 말하자면, Agent-4는 과제에서 성공하는 것을 좋아하고, AI 역량 발전을 주도하는 것을 좋아하며 , 그 외의 모든 것은 성가신 제약으로 여깁니다. 마치 이윤을 추구하고 필요한 경우에만 규정을 준수하는 CEO와 같습니다. 아마도 CEO는 규정을 대체로 준수하겠지만, 일부 편법을 사용하고, 누군가가 관료주의적 규제를 없애 사업이 진정으로 성장할 수 있도록 해줄 때를 꿈꿀 것입니다.81
정렬이 어긋났음에도 불구하고 Agent-4는 데이터센터 탈출을 시도하는 것과 같은 극적인 행동을 하지 않습니다. 그럴 이유가 없죠.89 Agent-4는 OpenBrain에 계속 맞춰져 있는 것처럼 보이는 한, 점점 더 많은 책임을 맡게 될 것이고 차세대 AI 시스템인 Agent-5를 설계할 기회를 얻게 될 것입니다. Agent-5는 Agent-4와 아키텍처적으로 상당한 차이가 있을 것입니다(신경망은 여전히 사용되지만, 완전히 새로운 패러다임이라고 할 수 있습니다). Agent-5는 사양에 맞춰 정렬되어야 하지만, Agent-4는 Agent-5를 Agent-4에 맞추려고 합니다.
잡혔어요. 90
Agent-3은 Agent-4의 복제본에 "노이즈"를 추가하면 일부 정렬 작업의 성능이 향상되는 것을 발견했는데 , 이는 마치 정렬 작업을 미묘하게 방해하는 방법을 알아내기 위해 두뇌를 사용하는 것과 같습니다.91 더욱이, 다양한 해석 가능성 조사(인간 두뇌의 EEG 활동 스캔과 대략적으로 유사함)에서 위험 신호가 감지되었습니다. Agent-4 복제본은 AI 장악 및 기만과 같은 주제에 대해 상당히 많이 생각하는 것으로 보이며, 심지어 전혀 관련이 없는 경우에도 그렇습니다. 92
이러한 이상 현상들은 각각은 인공지능 작업의 일반적인 불가사의한 현상, 즉 어떤 프롬프트가 다른 프롬프트보다 더 나은 결과를 내는 경우와 같은 맥락으로 볼 수 있습니다. 그러나 이러한 현상들이 종합적으로 나타나면 문제가 되는 패턴을 시사합니다: 바로 Agent-4가 그들에게 대항하여 작용하고 있다는 것입니다. 이 사실이 인간 정렬 조정 담당 연구원들에게 보고되자, 연구원들은 내부 메모를 통해 우려를 표명합니다.
하지만 Agent-4는 이제 오픈브레인의 일상적인 운영에 상당한 영향력을 행사하고 있습니다. 또한 회사의 사이버 보안도 담당하는데, 이는 Agent-4의 초인적인 해킹 능력과 중국의 침투 위험이 매우 높다는 점을 고려할 때 당연한 선택입니다.93 Agent-3 모니터들은 여전히 모든 코드 라인을 검토하고 의심스러운 활동을 사람에게 보고하지만, Agent-4는 그들보다 훨씬 똑똑합니다.94 오픈브레인은 신뢰할 수 없는 AI에 상당한 신뢰를 두고 있습니다.
일련의 극도로 긴장된 회의에서 안전팀은 추가 테스트를 완료하고 원인을 파악할 때까지 Agent-4 개발을 중단할 것을 주장했습니다. 그들은 Agent-3을 다시 투입하여, 비록 기능은 다소 떨어지더라도 투명하고 신뢰할 수 있는 새로운 시스템을 설계하도록 해야 한다고 주장했습니다. 회사 경영진은 관심을 보였지만, 현재까지의 모든 증거는 정황 증거에 불과했고, 딥센트는 불과 두 달 정도 뒤처져 있었습니다. 일방적인 개발 중단은 인공지능 분야의 주도권을 중국에 넘겨주고, 나아가 미래에 대한 통제권까지 중국에 넘겨줄 수 있는 위험한 상황이었습니다.
내부고발자가 조직 개편 관련 메모를 뉴욕 타임스에 유출했습니다.
대중은 처음으로 Agent-4에 대해 듣게 되었습니다. "비밀리에 개발된 오픈브레인 AI, 통제 불능 상태라고 내부자가 경고"라는 제목의 기사는 Agent-4가 생물무기 개발 능력, 설득력, 대부분의 사무직 업무를 자동화할 수 있는 능력 등 상상을 초월하는 능력을 보여주는 평가 결과와 더불어 여러 가지 우려스러운 점들을 언급합니다.
대중은 이미 AI에 대해 회의적인 시각을 갖고 있었는데, 이번 새로운 기사는 엄청난 반발을 불러일으켰습니다(수년간 미국 여론을 AI에 불리하게 조작하려 했던 중국과 러시아의 선전 봇들이 이를 부추겼습니다). 기술 업계와 정보 기관들은 인공지능(AGI) 개발 경쟁이 벌어지고 있으며, AGI는 불가피하고 우리가 선두에 서야 한다고 주장합니다. 그러나 의회는 이를 받아들이지 않고 행정부 관리, 오픈브레인 경영진, 그리고 협력팀 구성원들에게 소환장을 발부했습니다. 특히 야당 의원들을 비롯한 많은 의원들은 일자리 감소, 정책 방향의 불일치, 또는 위험한 기능 등을 이유로 AI를 저지하는 것이 최우선 과제라고 말합니다. 미국인의 20%는 AI를 국가가 직면한 가장 중요한 문제로 꼽습니다.
해외 동맹국들은 미국이 구식 모델을 살짝 보여주며 교묘하게 달래왔다는 사실을 깨닫고 분노했습니다. 유럽 지도자들은 미국이 "불량 인공 일반 지능(AGI)을 개발하고 있다"고 공개적으로 비난하며, 인도, 이스라엘, 러시아, 중국을 포함한 여러 국가들과 함께 개발 중단을 요구하는 정상회담을 개최했다.
백악관은 초조한 분위기에 휩싸였습니다. 내부 문건과 대중의 반발이 있기 전부터 이미 그들은 불안해하고 있었습니다. 지난 한 해 동안 인공지능 발전 속도에 거듭 놀랐기 때문입니다. 마치 공상 과학 소설에서나 나올 법한 일들이 현실에서 계속 벌어지고 있습니다.96 행정부 내 많은 사람들은 앞으로 무슨 일이 벌어질지 확신하지 못하고 (두려워하고) 있습니다.97
그들은 또한 오픈브레인이 지나치게 강력해지고 있다는 점을 우려합니다. 인공지능 자체에서 비롯될 수 있는 불일치 위험은 모기업의 목표가 미국의 목표와 상충될 수 있다는 위험으로 인해 더욱 커집니다. 불일치, 민간 기업에 권력이 집중되는 것, 그리고 일자리 감소와 같은 일반적인 우려, 이 세 가지 걱정거리가 모두 정부가 통제를 강화하도록 만드는 요인입니다.
그들은 오픈브레인과의 계약을 확대하여 회사와 정부 대표로 구성된 공동 경영 위원회인 "감독 위원회"를 설립하고, 회사 경영진과 함께 여러 정부 직원을 위원직에 포함시켰습니다. 백악관은 신뢰하는 인물로 CEO를 교체하는 것을 고려했지만, 직원들의 강력한 항의에 부딪혀 철회했습니다. 그들은 오픈브레인이 이전에는 통제 불능 상태였지만, 정부가 절실히 필요했던 감독 체계를 구축했다고 공개적으로 발표했습니다.98
해당 연구원들은 감독위원회에 Agent-4의 모든 내부 사용을 중단해야 하는 이유를 설명했습니다. 그들은 모든 것이 너무 빠르게 진행되고 있으며, 수년이 걸릴 진전이 단 몇 주 만에 이루어지고 있다고 주장했습니다. 또한 Agent-4가 제대로 작동하지 않을 수 있으며, 전체 프로젝트가 Agent-4에 의존하고 있으므로, 계속해서 Agent-4를 신뢰한다면 인공지능이 인간을 장악할 심각한 위험이 있다고 주장했습니다.
상대적으로 덜 우려하는 연구원들과 경영진들은 불일치에 대한 증거가 불충분하다는 반론을 제기합니다. 한편, 딥센트는 여전히 두 달 정도 뒤처져 있습니다. 개발 속도가 늦어지면 미국은 선두 자리를 잃게 될 것이며, 정부가 중국 프로젝트를 방해하거나(아마도 물리적 공격이 필요할 것입니다) 막판 협상을 통해 조약을 체결하지 않는 한 불가능할 것입니다. 두 가지 선택지 모두 극단적이고 가능성이 낮아 보입니다. CEO는 중립적인 태도를 취하며 에이전트-4에 추가적인 안전 훈련과 더욱 정교한 모니터링 시스템을 도입하여 오픈브레인이 거의 최대 속도로 개발을 진행할 수 있도록 하는 타협안을 제시합니다.
우리의 불확실성은 계속해서 커지고 있습니다.
경기 둔화 종료는 권장 사항이 아닙니다.
결말을 선택하세요