학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 번역 과정에서 의미 전달이 애매한 일부 문장은 삭제했습니다. 이번 글은 위클리 AI 뉴스레터 애널리스트인 알베르토 로메로가 미디엄에 공유한 글을 정리한 것입니다.
GPT-4는 역사상 가장 큰 기대를 모았던 AI 모델이었다. 하지만 OpenAI는 3월 GPT-4를 출시했을 때 크기, 데이터, 내부 구조, 학습 및 구축 방식에 대해 아무 것도 알려주지 않았다. 진정한 블랙박스.
알고 보니 모델이 너무 혁신적이거나 아키텍처가 너무 비밀스러워 공유할 수 없었기 때문에 중요한 세부 정보를 숨긴 것이 아니었다. 최근의 루머들을 믿는다면 그 반대가 사실인 것 같다.
기술적으로나 과학적으로 볼 때 GPT-4는 획기적이라고 보기 어렵다. 그렇다고 해서 반드시 나쁘다는 것은 아니다. GPT-4는 현존하는 최고 언어 모델이며, 단지... 다소 압도적이지 않을 뿐이다. 3년을 기다린 사람들이 기대했던 것과는 다르다.
아직 공식적으로 확인되지 않은 이 소식은 GPT-4와 OpenAI에 대한 주요 인사이트를 공개하고 AI의 진정한 최첨단 상태와 미래에 대한 의문을 제기한다.
GPT-4: 작은 모델들의 혼합
6월 20일, 자율주행 스타트업 Comma.ai의 설립자 조지 호츠(George Hotz)는 GPT-4가 단일 모놀리식 고밀도 모델(GPT-3 및 GPT-3.5와 같은)이 아니라 2200억 개의 파라미터를 가진 8개 모델이 혼합된 모델이라는 사실을 유출했다. 그날 늦은 오후, 메타의 파이토치 공동 설립자인 수미스 친탈라(Soumith Chintala)가 유출 사실을 재확인했다. 바로 전날 마이크로소프트 빙 AI 책임자인 미하일 파라킨도 이에 대해 암시한 바 있다.
GPT-4는 하나의 큰 1T 이상 모델이 아니라 8개 작은 모델이 교묘하게 조합된 것이다. 오픈AI가 이 "히드라" 모델에 사용된 것으로 추정되는 전문가들의 혼합 패러다임은 새로운 것도 아니고 그들이 발명한 것도 아니다. 이 글에서는 이것이 왜 이 분야와 매우 관련이 있는지, 그리고 OpenAI가 세 가지 핵심 목표를 달성하기 위해 어떻게 계획을 훌륭하게 실행했는지 설명하겠다.
두 가지 주의할 점이 있다. 첫째, 이것은 루머다. 명백한 출처(Hotz와 친탈라)는 확실하지만 OpenAI 직원이 아니다. 파라킨은 Microsoft에서 임원직을 맡고 있지만 이를 명시적으로 확인한 적이 없다. 이러한 이유로 이 소문은 신중하게 받아들일 필요가 있다. 그럼에도 불구하고 이 이야기는 매우 그럴듯하다.
둘째, 인정할 것은 인정하자. GPT-4는 사용자들 평가처럼 인상적입니다. 내부 아키텍처 세부 사항은 그 사실을 바꿀 수 없다. 작동하면 작동한다. 하나의 모델이든 여덟 개가 묶여 있든 상관없다. 글쓰기 및 코딩 작업에 대한 성능과 능력은 확실하다.
GPT-4를 둘러싼 비밀
나는 GPT-4의 불만족스러운 측면을 은폐하고 대화 상단에 위치함으로써 GPT-4를 둘러싼 불합리하게 높은 기대에 대처하는 OpenAI 숙련도에 박수를 보내지 않을 수 없다.
지난 1월, StrictlyVC의 코니 로이조스가 트위터에서 떠돌던 100조 GPT-4 그래프에 대해 언급하자 알트먼은 "사람들은 실망하고 싶어 하고, 실망하게 될 것"이라고 말했다. 그는 2022년 여름에 훈련을 마친 GPT-4가 사람들 기대를 충족시키지 못할 것이라는 것을 알고 있었다.
하지만 그는 OpenAI의 신비로운 명성을 무너뜨리고 싶지 않았다. 그래서 GPT-4를 대중 감시에서 숨겨 신비로운 분위기를 더욱 고조시켰다.
그 무렵 OpenAI는 이미 ChatGPT를 통해 그 위상을 결정지었다. (구글의 AI R&D 역사가 더 길고 풍부함에도 불구하고) 대다수의 사람들이 보기에 그들은 이 분야 선두주자였다. 그렇기 때문에 GPT-4가 사람들이 기대했던 획기적인 발전이 아니며, GPT-3에서 크게 도약하지 못했다는 사실을 명시적으로 인정할 수 없었다.
그래서 그들은 정말 강력한 기술임을 암시하고 암시하는 데 집중했다.(예: AGI의 불꽃, 초지능이 가까워졌다 등). 일리야 수츠케버가 더버지와 인터뷰에서 밝힌 것처럼 경쟁 압력이 커졌다는 암시를 통해 GPT-4 사양을 공개하지 않기로 한 결정을 옹호했다.
이런 상황에서 OpenAI의 비밀에 대한 해석 주류는 다음과 같이 요약할 수 있다.: "비즈니스 생존과 안전상의 이유로 구글이나 오픈소스 이니셔티브가 이를 모방하도록 할 여력이 없기 때문에 사양을 공개하지 않을 것이다. 또한 GPT-4의 SOTA 성능은 아키텍처가 과학적 업적임에 틀림없다는 것을 의미한다."
OpenAI는 원하는 것을 얻었습니다. 알트먼은 솔직히 말해서 GPT-4는 실망스러웠지만, 동시에 잠재의식적인 신호는 GPT-4가 마법과도 같다는 다른 무언가를 암시했다. 그리고 사람들은 그것을 믿었다.
하지만 어떤 면에서는 마술과도 같다. 우리 모두는 실제로 그것을 보았다. 다만 대부분 사람들이 혁명적인 성과로 인식하는 것과는 다르다. 그저 오래된 트릭을 재구성한 것일 뿐이다. 여러 전문가 모델을 하나로 결합하고 각 전문가가 별도 영역, 작업 또는 데이터에 특화하도록 훈련된 것은 2021년에 처음 성공적으로 구현된 기법이다. 2년 전이다. 누가 해냈을까? 바로 Google 엔지니어들이다.(윌리엄 페더스, 트레버 카이 같은 엔지니어 중 일부는 나중에 OpenAI에 고용됐다.).
OpenAI는 분명 엔지니어링의 독창성을 더했지만(그렇지 않았다면 Google은 자체 GPT-4 또는 그 이상을 가지고 있었을 것이다.), 이 모델이 벤치마크에서 절대적인 우위를 점할 수 있었던 핵심은 단순히 하나의 모델이 아니라 8개 모델이라는 점이다. 즉, GPT-4는 마술과도 같지만 OpenAI는 이를 쇼에서 볼 수 있는 수준으로 만들었다. 교묘한 방향 전환과 매끄러운 손놀림이 교묘하게 섞여 있다. 그리고 이 트릭은 단지 리메이크에 불과하다.
OpenAI가 GPT-4를 숨겨서 달성한 3가지 목표
첫째, 사람들 상상력을 해방시켰다. 회의론자들은 이를 비과학적 관행으로 간주했지만, 이는 모델의 힘에 대한 추측을 불러일으켰다. 이를 통해 그들은 AGI와 이에 대한 계획의 필요성이라는 자신들이 선호하는 내러티브를 확립할 수 있었고, 정부에 안전 요건(특히 타인을 위한)과 규제(목표에 부합하는)가 가장 중요하다고 설득할 수 있었다. 환상이 완성됐다.: GPT-4는 외관이 반짝반짝 빛나기 때문에 내부도 똑같이 반짝반짝 빛나야 하는데, 반짝반짝 빛나면 위험할 수 있다.
실제로 비꼬는 비유를 하자면, GPT-4는 "트렌치코트를 입은 너구리"의 시선으로 묘사하는 것이 더 낫다.
둘째, 오픈소스 이니셔티브는 물론 구글이나 앤트로픽과 같은 경쟁업체가 자신들이 발명하거나 발견한 기술을 모방하는 것을 효과적으로 막았다. 하지만 OpenAI는 GPT-4에서 해자가 없었다. LLaMA는 GPT-4와 경쟁할 수 없지만, 8개 LLaMA를 하나로 묶으면 경쟁할 수 있을지도 모른다. 사람들은 사과와 오렌지를 비교하고 있었지만 몰랐던 것이다. 제가 착각한 것일 수도 있고 오픈소스가 그렇게 뒤처지지 않았을 수도 있다.
해자 때문에 GPT-4가 실제보다 더 인상적으로 보였던 것이다.
결국, 그들은 GPT-4가 실제로는 그다지 획기적인 AI가 아니라는 사실을 숨겨서 목격자, 외부인, 사용자들이 이 분야 빠른 발전 속도에 대한 믿음을 잃지 않도록 효과적으로 막았다. 까다롭게 말하자면, GPT-4는 한편으로는 ~GPT-3.5 모델 8개를 스택으로 쌓아 훈련하고 실행할 수 있는 충분한 자금과 GPU를 확보하고, 다른 한편으로는 다른 회사가 개발한 오래된 기술을 아무에게도 알리지 않고 사용하는 대담함의 결과물이라고 할 수 있다.
GPT-4는 비즈니스 마케팅의 마스터 클래스였습니다.
결론
어쩌면 Hotz의 말처럼 OpenAI와 업계 전반이 아이디어가 부족한 것일 수도 있다. 어쩌면 기업, 미디어, 마케터들이 생각하는 것처럼 AI가 그렇게 빠른 속도로 발전하고 있지 않을 수도 있다. 어쩌면 GPT-4는 GPT-3에서 생각만큼 큰 도약이 아닐 수도 있다. 공식 버전이 나오기 전까지는 루머는 루머일 뿐이다.(OpenAI에 연락을 취했지만 아직 답변을 받지 못했다). 하지만 이야기의 타당성을 부정하기는 어렵다. 출처의 가치 외에도 전반적으로 일관성이 있기 때문이다. 이것이 제가 이 뉴스에 높은 신뢰도를 부여하는 이유다. 핫츠의 결론을 인용해 보겠다.: "기업이 비밀스러운 것은 그렇게 멋지지 않은 무언가를 숨기고 있기 때문입니다." 결국 GPT-4는 그다지 멋지지 않을 수도 있다.