brunch

매거진 지식브런치

라이킷 8 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 키르히아이스 Apr 16. 2024

GPT-4보다 뛰어난 애플의 생성 AI 총 분석 -4-

8. 멀티모달 생성 AI 모델 MM1 출시(2024.3.14)

애플은 그동안 자체 생성 AI모델에 대해서는 침묵을 지켜왔는데 2024년 3월에 논문으로 약간의 움직임을 보여주었다. 무려 31명의 애플소속 연구원이 저자로 참여한 이 논문은 고성능 대형언어모델(MLLM)에 관한 것이다.

이 모델은 이미지와 텍스트 모두를 해석할 수 있는 멀티모달이고 매개변수는 30B(300억 개)이다. 대화의 맥락을 이해하기 때문에 질문할 때마다 처음부터 다시 시작할 필요가 없다고 한다. 애플의 모든 인공지능 개발 방향과 마찬가지로 이미지 처리에 강점이 있는 것으로 보인다.

논문에는 2장의 사진이 제시되는데 첫 번째 사진에는 테이블에 마그나 브랜드의 맥주가 올려져 있고 두 번째 사진에는 가격이 표시된 메뉴판이 있다. 여기서 메뉴판에 있는 가격을 참고해 마신 맥주의 가격을 총합산하라는 질문을 인공지능에게 던진다.

이 질문은 생각보다 복잡한데 첫 번째 사진에는 마그나 맥주 2병이 있지만 탄산수로 보이는 유리병 하나가 있고 컵 2개에 물이 담겨있다. 메뉴에는 맥주 브랜드별로 가격이 적혀있다. 이걸 계산하려면 우선 맥주병을 찾아야 하고 브랜드를 읽어내야 한다. 그리고 몇 병인지 파악해서 메뉴에서 같은 브랜드가 얼마인지 알아낸다음 병개수와 가격을 곱해야 한다.

계산해면 6+6=12가 나와야 정상이다. 2가지 모델과 비교를 하는데 베이징 대학의 생성 AI Emu2와 메타의 LLaVA이다. MM1은 12달러를 정확하게 계산해 낸다. 그러나 Emu2는 엉뚱하게도 15.99를 출력하는데 각 맥주가 10.99달러이고 5병이라는 말도 안 되는 추론을 하고 있다. LLaVA는 맥주가 몇 병인지 정확하지 않다며 각 맥주마다 2병씩 계산해 44를 도출하고 있다. Emu2는 역사가 짧으니 그렇다 쳐도 이 분야에서 가장 구력이 긴 메타의 LLaVA가 말도 안 되는 결론을 내고 있다는데 주목할 필요가 있다.

가장 기초인 맥주구분부터 안되고 있는 것이다. 맥주를 먼저 찾아내고 몇 병인가 알아낸 다음 브랜드를 읽어서 가격을 찾아야 하는데 첫 단계부터 안되고 있다.

어쩌면 매개변수를 비슷하게 30B 수준에 맞춰서 그럴 수도 있는데 원인이야 어떻든 적은 매개변수로 높은 성능을 내는 MM1의 압승이라고 할 수 있다. 이미 아이폰에서 사진 검색할 때 맥주라고 치면 맥주가 있는 사진만 결과로 보여준다. 아마도 이것은 생성 AI는 아니겠지만 머신러닝으로 이렇게 학습하는 방식에 대한 노하우는 갖고 있었을 것이다. 그것을 생성 AI에 적용한 것이 아닌가 추측한다.

MM1을 통해 우리가 알 수 있는 것은 애플이 이미지와 관련된 인공지능에 집중하고 있고 문맥을 해석하는 모델을 이미 보유하고 있다는 것이다. 매개변수가 300억 개로 제한된 것은 연구논문이라서 그런 것도 있고 향후 휴대폰에 들어갈 온디바이스 AI를 위한 테스트일 수도 있다. 사람들이 착각하는 게 생성 AI가 어디서 툭 떨어지거나 전혀 다른 세계의 것이 아니다.

넓게 보면 머신러닝이고 그 안에 딥러닝, 그리고 그 안에 생성형 AI가 있는 것이다. 애플은 자체 연구조직을 통해 학문적인 레벨에서 고수준의 연구를 해왔고 이를 논문으로 지속적으로 발표해 왔다. 애플의 머신러닝 사이트에 가면 그들의 연구결과를 모두 볼 수 있다. 그런 구력이 있기 때문에 생성 AI가 나와도 능숙하게 대처할 수 있는 것이다. 당장 제품이 안 나온다고 난리를 칠 일이 아니다. 도요타가 전기차에 늦었다고 하는 것도 마찬가지 경우이다. 도요타는 전기차부문 최다 특허를 보유하고 있고 하이브리드 기술과 전기차기술이 그렇게 다른 게 아니다.

도요타는 하이브리드가 잘 나가고 있으니 굳이 전기차로 넘어갈 필요가 없는 것이고 누군가 초창기 전기차 시장에서 개고생 하면서 시장을 닦아놓으면 천천히 들어가도 된다. 당장 전기차가 안 나온다고 닦달할 일은 아니란 것이다.

MM1은 활용할 곳이 많다. 앞서 말한 사진 검색에서 텍스트로 검색도 되지만 사진 분류도 얼마든지 자동으로 가능하다. 이미지가 된다면 텍스트는 더 쉽다. 왜냐하면 이미지가 이렇게 맥락을 찾아 검색될 수 있는 것은 사전 인공지능 훈련 시에 텍스트를 이미지에 가미했기 때문이다.

이제 인공지능 학습은 이미지만 가지고 하지 않고 이미지와 그 이미지에 관련된 정보를 담은 메타데이터를 같이 넣고 학습시킨다. 이렇게 하면 더 빠르고 정확한 학습이 가능하다.

메시지가 왔을 때 그것을 요약하거나 정리할 수 있을 것이고 스팸 메시지를 걸러낼 수도 있을 것이다.

관련논문: https://arxiv.org/abs/2403.09611

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision

arxiv.org

9. GPT-4를 능가하는 수준의 이미지 참조 능력 ReALM(Reference Resolution As Language Model, 2024.3.29)

애플이 또 생성 AI모델을 논문으로 발표했는데 기존에 발표된 MM1의 발전된 모델인지 새로운 모델인지 알 수 없지만 생성 AI모델의 수준을 더 올려놓는 방법론을 제시했다. 이름은 ReALM이다. 이것은 이미지를 통해 지시했을 때 그것을 보다 정확하게 해석할 수 있도록 개선한 것이다. 특히 우리가 일상생활에서 자주 쓰는 이거, 저거 같은 모호한 단어들을 이미지 상에서 찾아 해석하는데 뛰어난 성능을 보인다.

사용자의 지시를 이미지에서 찾아서 해석하는 것을 참조해상도라고 하는데 논문에 제시된 예제는 2개의 스크린 캡처를 제공하고 각각 연락처와 주소가 표시되어 있다. 만약 여기서 “Queen Anne의 주소를 알려달라”라고 하면 5520 Roy St, Seattle로 시작되는 주소를 알려준다. 중요한 건 우리가 인공지능에 주는 정보가 텍스트가 아니라 이미지라는 사실이다.

이렇게 하면 지시를 하기 위한 입력이 매우 단순해지는 효과가 있다.

다른 경우에 이런 명령방식도 가능하다.

스크린에 낮시간과 저녁시간의 연락처가 표시되어 있을 때 저녁 연락처로 전화해 줘라고 말만 하면 연락처를 화면에서 찾아서 연락해 준다.

스크린에 사진과 링크가 떠있을 때 아침 조리법 링크를 저장하라고 명령하면 화면에서 링크를 찾아서 저장해 준다. 심지어 아침이라고 표시가 안되어있는데도 어떤 메뉴가 아침인지 이해하고 그 링크를 저장한다.

이런 것도 가능하다.

“Didi를 데리러 가라는 알람을 꺼.”

“워싱턴에 있는 지점으로 데려다줘.”

“세금 마감일 전에 인쇄물을 받도록 알려줘.”

이렇게 무궁무진한 확장이 가능하다. 이것은 아마도 시리 같은 인공지능 비서에게 적용되기 쉽고 자연스럽고 빠른 대화가 가능해질 것이다. 논문에는 이런 예도 나와있다.

“주변 약국 좀 알려줘.”

”여기 있습니다.”

-XXX

-YYYY

-ZZZ

”제일 마지막 약국에 전화해줘.”

문맥을 이해하지 못하면 하나하나 일일이 설명해야 하는데 인공지능을 사용하면서 여간 불편한 점이 아니다. 물론 다른 생성 AI들도 안 되는 것은 아니지만 정확도 면에서 낮다고 볼 수 있다. 논문에서 실험한 결과에 따르면 이미지 없는 대화에서는 GPT-4와 동일한 수준, 이미지를 포함한 대화에서는 90.1 대 93으로 ReALM이 더 뛰어난 결과를 냈다. 그런데 GPT-4가 170B(1조 7천억) 개의 파라미터를 갖고 있다고 추정되는 것과 달리 ReALM은 고작 3B(30억) 개에 불과하다. 효율성면에서 확연한 장점을 가지고 있다는 얘기가 된다. 파라미터 개수 경쟁을 펼치는 많은 업체들과는 차별되는 점이다.

이것은 온디바이스 AI를 염두에 두고 있는 애플의 철학이 고스란히 반영된 것으로 물론 다방면의 많은 데이터에서는 GPT-4를 따라갈 수 없겠지만 휴대폰에서 사용할 인공지능에서 만큼은 확실한 우위를 가지고 있다는 얘기가 된다. 최소한 사용자가 부족하거나 느리다는 느낌을 받지는 않을 것이다.

이미 소스까지 공개되어 있는 생성 AI를 단순히 ‘구현’하는데만 집착하는 많은 기업들과 달리 애플은 오히려 여유를 부리며 마치 자신이 창조한 것처럼 생성 AI의 문제점부터 개선하고 있다. 나는 이런 애플의 기업철학을 칭찬하고 싶다. 생성 AI 모델은 야근, 특근하면 당장 만들 수 있다. 최근 사례를 보면 8개월 정도면 다들 개발하는 것으로 보인다. 하지만 그건 중요한 게 아니다. 그렇게 만들어봐야 몇 달이면 다른 업체에 따라 잡힌다.

진짜 중요한 것은 인공지능에 대한 장기적인 비전과 철학을 갖고 있느냐이다. 생성 AI가 있네 없네 이런 논쟁은 무의미하다는 것이다. 여차하면 그냥 중소기업이 만든 생성 AI를 인수해 버리면 된다. 그보다 중요한 건 생성 AI의 개화시점인 지금 어떤 방향으로 갈 것인지에 대해 논할 수 있는 수준에 와 있느냐이다. 국내 대기업들은 그저 개발에만 몰두하고 정작 이런 논의에는 빠져있어서 안타깝다. 생성 AI를 만들었다는 얘기만 있지 어떻게 가야 한다가 없다.

ReALM 구조

애플은 많은 사람들의 걱정과 조소 속에서도 나름 이 정도 단계까지 와있는 것이다. 이번 논문은 전원 애플소속 연구원들이 참여했고 최상위권에 있는 다른 인공지능 모델들과 경쟁하는 수준에 있다는 걸 보여주고 있다.

로이터통신에 따르면 애플은 셔터스톡과 최대 5억 달러의 계약을 하고 이미지 데이터를 쓰는 계약을 했다고 한다. 셔터스톡은 개인들이 제작해 올리는 이미지를 월 사용료를 받고 라이선스 해 판매하는 사이트이다. 그에 앞서서 많은 언론사로부터 기사 데이터를 구매협상했던 것도 보도된 바 있다. 이런 것은 이미 자체 생성 AI모델이 준비되었다는 반증이다.

앞으로 인공지능 학습을 위해서는 이렇게 데이터가 중요할 텐데 국내기업들은 데이터를 구매했다는 얘기를 거의 들어보지 못했다. 깡통 생성 AI를 만들려고 하는지 이해할 수가 없다.

아무튼 애플의 생성 AI준비 상태를 여러 논문과 언론기사를 통해 파악해 보았다. 많은 도움이 되었길 바란다.

관련논문: https://arxiv.org/abs/2403.20329

ReALM: Reference Resolution As Language Modeling

Reference resolution is an important problem, one that is essential to understand and successfully handle context of different kinds. This context includes both previous turns and context that pertains to non-conversational entities, such as entities on th

arxiv.org

keyword

키르히아이스 경제 분야 크리에이터 소속 직업 출간작가

퇴사일기 저자

세상의 꿈과 사람을 연결하고 싶습니다.

구독자 738

매거진의 이전글 GPT-4보다 뛰어난 애플의 생성 AI 총 분석 -3- GPT-4보다 뛰어난 애플의 생성 AI 총 분석 -5- 매거진의 다음글

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari