brunch

You can make anything
by writing

C.S.Lewis

by 김준석 Oct 07. 2024

Weekly news on LLM - 10월 첫째주


제목: LLM 뒤처진 카카오, ‘대화형 AI’로 승부수

요약: 카카오의 새 AI 서비스 ‘카나나’가 베일을 벗는다. 기존 카카오톡을 활용하면서도 10·20세대를 겨냥할 수 있는 대화형 서비스 ‘AI 메이트’를 앞세운다. 자체 개발 LLM으로 경쟁하기에는 한발 늦은 만큼 이를 활용한 서비스로 승부수를 띄웠다는 평가가 나온다. 카카오는 이달 22일부터 24일까지 경기도 용인시 ‘카카오 AI 캠퍼스’에서 ‘이프 카카오 2024(if kakao 2024)’를 열고 카나나를 소개한다. 이번 행사에서 이상호 카카오 카나나엑스 성과리더는 대화형 AI 서비스 카나나에 대해 ‘AI 메이트와의 새로운 연결’이라는 주제로 설명한다. ‘나의 컨텍스트(context·맥락)를 아는 친구, AI 메이트’라는 별도 세션도 마련했다. AI가 사용자와의 대화나 프로필 정보를 기반으로 친구처럼 맞춤형 대화를 나누거나 개인화된 콘텐츠를 추천하는 방식이 될 것으로 보인다. 자사 LLM인 ‘코(KO)GPT 2.0’도 공개될 전망이다. 김병학 카카오 카나나알파 성과리더가 카카오 생성형 AI 모델을 소개하는데, 카나나 서비스에 활용하는 외부 모델도 언급할 가능성이 있다. 정신아 대표는 AI 연구개발 자회사 카카오브레인의 주요 사업을 카카오 본사로 이전하고 AI 전담 조직 카나나를 신설했다. 내부적으로 코GPT 2.0 개발은 마쳤지만 모델만 단독으로 공개하기보다는 서비스로 선보이는 것을 택했다. 모델 성능으로 경쟁하기에는 선두업체를 따라잡기 쉽지 않은 만큼 이용자들이 체감할 수 있는 서비스로 실제 가치를 보여주겠다는 것이다. 비용 효율화 측면에서 빠르게 출시할 수 있는 서비스이기도 하다. 카카오는 AI 모델의 성능을 좌우하는 파라미터 수에서 60억·130억·250억·650억개 등 다양한 크기를 테스트하면서 비용 합리적인 AI를 찾는 데 집중했다. 대규모 투자가 필요한 LLM 고도화보다는 핵심 서비스인 카카오톡에 접목하는 기능에 초점을 둔 것이다. 관건은 차별화다. AI 캐릭터를 만들어 대화할 수 있는 캐릭터닷AI(미국), 연애용 AI 챗봇 러버스(일본), 연예인 등 실제 인물을 AI로 만든 엑스에바(중국) 등이 있다. 국내에도 제타를 비롯해 재피, 로판AI, 러비더비, 디어메이트 등 유사한 서비스가 많다.

https://view.asiae.co.kr/article/2024093015471768696



제목: 엔비디아, 프론티어 모델 경쟁에 합류..."GPT-4o 맞먹는 오픈 소스 LMM 출시" 

요약: 엔비디아가 프론티어급 LMM을 공개했다. 특히, 오픈AI의 'GPT-4o'와의 경쟁을 선언, 비상한 관심을 모으고 있다.엔비디아가 매개변수 720억개의 LMM 'NVLM-D-72B'를 오픈 소스로 허깅페이스에 공개했다고 보도했다. 이 모델은 지난달 17일 아카이브를 통해 논문으로 발표했다. 그러나 별도의 발표가 없었기 때문에 주목받지 못하다가, 최근 X등에 관계자들의 호평이 잇따르며 주목받게 됐다. 연구진은 논문에서 "우리는 최첨단 결과를 시각 언어 작업에서 달성한 LMM을 소개한다"라며 "이는 GPT-4o와 같은 선도적인 독점 모델과 오픈 액세스 모델과 경쟁한다"라고 설명했다. 또 모델 가중치를 공개적으로 제공하고 훈련 코드도 공개하겠다고 약속했다. 인상적인 벤치마크 결과도 공개했다. 대부분 벤치마크에서 GPT-4o나 '클로드 3.5 소네트', '제미나이 1.5 프로', '라마 3-V 405B' 등과 대등한 성능을 보이며, VQA v2와 OCR에서는 최고 점수를 획득했다. 특히 멀티모달 훈련 후 텍스트 전용 작업에서 성능을 개선한다고 강조했다. 이 경우 다른 모델은 텍스트 성능이 저하되는 반면, NVLM-D-72B는 주요 텍스트 벤치마크에서 정확도를 평균 4.3포인트 높였다고 전했다. 모델이 공개되자 전문가들은 호평을 내놓았다. ‘필’이라는 AI 연구자는 X에 "와! 엔비디아가 방금 72B 모델을 공개했는데, 수학 및 코딩 평가에서 라마 3.1 405B와 동등하며 비전 기능도 갖추고 있다"라고 감탄했다. 엔비디아가 이처럼 강력한 모델을 오픈 소스로 출시함에 따라 그동안 폐쇄형 기업의 전유물이었던 LMM 분야의 연구가 급속화될 것이라는 예측이다. 메타도 지난 25일 '커넥트' 행사를 통해 매개변수 11B와 90B의 LMM '라마 3.2'를 공개했다. 특히 그동안 플랫폼에 집중했던 엔비디아가 직접 프론티어 모델 출시에 합류했다는 점에 관심이 모인다. 엔비디아도 그동안 LLM 모델을 출시하고 논문도 다수 발표했지만, 대부분 GPU에 최적화된 온디바이스 모델이거나 다른 모델의 배포를 지원하는 프레임워크, 합성데이터 생성 모델 등에 집중해 왔다.

https://www.aitimes.com/news/articleView.html?idxno=163873



제목: 메타, 강력한 동영상 생성 AI '무비 젠' 공개..."오픈 소스 공개 대신 인스타그램에 통합"

요약: 메타가 오픈AI의 '소라'에 맞설 동영상 생성 AI 모델을 공개했다. 영상은 물론 오디오를 동시에 생성하며, 영상 중 일부분만 편집할 수 있는 등 강력한 기능을 갖추고 있다. 이 제품은 별도 출시 없이, 내년 인스타그램 등 메타의 플랫폼을 통해 서비스될 예정이다. 메타는 이번 연구가 2022년 공개한 메이크 어 신( Make-A-Scene)과 메이크 어 비디오(Make-A-Video) 등을 시작으로 라마 이미지 모델 등을 거치는 등 몇년에 걸친 노하우를 반영하고 있다고 설명했다. 이를 통해 가장 진보적이고 몰입적인 스토리텔링 모델을 만들었다고 주장했다. 일반 사용자는 물론, 전문적인 영상 제작자와 편집자, 심지어 할리우드 영화 제작자까지도 유용하게 사용할 수 있다고 강조했다. 기능은 이제까지 등장한 영상 모델 중 가장 강력한 편으로 꼽힌다. 최대 16FPS로 16초짜리의 사실적이고 개인화된 HD 비디오와 48kHz 오디오를 제작할 수 있으며, 비디오 편집 기능도 제공한다. 주요 기능으로는 ▲비디오 생성 ▲개인화된 비디오 ▲정밀한 비디오 편집 ▲오디오 생성 등 네가지를 들었다. 우선 텍스트 프롬프트를 통해 고화질(HD) 비디오를 제작할 수 있다. 300억개의 매개변수 트랜스포머 모델을 통해 1080p 해상도로 최대 16초 길이의 영상을 생성한다. AI는 프롬프트 관리 기능을 통해 카메라 모션, 객체 상호 작용, 환경 물리학을 포함한 비디오 생성의 다양한 측면을 처리할 수 있다.사용자가 자신이나 다른 사람의 이미지를 업로드, AI 생성 비디오에 등장시킬 수 있는 개인화된 비디오 기능도 제공한다. 개인의 모습을 유지하면서 다양한 프롬프트로 맞춤형 콘텐츠 생성이 가능하다. 메타는 모델을 훈련하기 위해 사용이 허가됐거나 라이선스를 획득한 1억개의 비디오와 10억개의 이미지를 사용했으며, 특히 비디오를 통해 물리적인 현실 세계에 대해 학습했다고 밝혔다. 하지만 상세한 데이터 출처는 공개하지 않았다. 기술적으로는 기존 이미지 생성 모델을 작동하던 Diffusion Model과 LLM, 그리고 'Flow Matching'이라는 새로운 기술을 결합했다고 밝혔다. 플로우 매칭은 시간 경과에 따른 데이터셋 분포의 변화를 모델링하는 것으로, 비디오의 다음 장면을 유추할 때 샘플의 이동 속도를 계산해 자연스러운 다음 동작을 만들어내는 기술이다. 이를 통해 고품질의 비디오를 만들어 낼 수 있으며, 인간의 눈에도 더 자연스러운 결과가 나온다는 설명이다. 무비 젠은 기존 메타의 '라마' 시리즈처럼 오픈 소스로 공개될 가능성은 없는 것으로 알려졌다. 대신, 메타 AI처럼 메타 팰랫폼에 통합된다. 메타 대변인은 "현재는 내부 직원과 일부 영화 제작자를 포함한 소수의 외부 파트너에게만 제공되고 있으며, 오픈 소스로 출시될 가능성은 낮다"라며 내년에 인스타그램이나 왓츠앱, 메신저 등 메타 플랫폼에서 서비스될 예정이라고 말했다.

https://www.aitimes.com/news/articleView.html?idxno=163947



제목: MIT 경제학자 "10년간 AI에 영향받을 직업은 5% 불과...기업은 투자비만 날리게 될 것"

요약: 유명 경제학자인 다론 에이스모글루 MIT 교수가 AI으로 인한 일자리 위협이 크게 과장됐다고 지적했다. 향후 10년간 AI에 영향을 크게 받거나 대체될 직업은 전체의 5%에 불과할 것으로 예측했다. 하지만, AI 과장광고에 따른 투자 붐은 당분간 지속될 것으로 봤다.블룸버그는 에이스모글루 교수가 AI의 생산성이 기대에 못 미칠 것이며, 이에 따라 많은 기술기업은 엄청난 돈을 날릴 것으로 예측했다고 보도했다. 그는 AI가 아무리 유망해도 과장 광고에 부응할 가능성은 낮다고 밝혔다. 그의 계산에 따르면, 모든 일자리 중 소수(5%)만이 앞으로 10년 동안 AI에 의해 대체되거나 크게 도움을 받을 준비가 돼 있다. 블루칼라는 물론 화이트칼라 중에서도 일부만이 AI의 영향을 받을 것이라는 예상이다."그 5%에서 경제 혁명을 기대할 수는 없다"라며 "결국 많은 돈이 낭비될 것"이라고 말했다. 기술 자체를 깎아내리지는 않았다. 그는 "오픈AI의 챗GPT와 같은 기술은 여러 면에서 매우 인상적"이라고 밝혔다. 하지만 현재는 물론, 앞으로 몇년간은 기술 수준이 인간을 대체할 정도가 되지 못할 것이라는 예상이다. 인간 수준의 판단력을 갖추지 못하고 환각 같은 오류가 발생하면, 결국 기업에서 인간을 밀어내고 이를 채택할 가능성이 없다고 봤다. 이 경우 "AI는 건설이나 청소와 같은 물리적 작업 자동화에도 쓸모가 없다"라고 덧붙였다. 향후 몇년간 전개될 것으로 예상하는 시나리오 3가지도 제시했다. 첫번째는 과장 광고가 천천히 식고, 기술의 실제 활용에 맞춰 투자가 조정되는 가장 온건한 시나리오다. 두번째는 투자 열풍이 1년 정도 더 지속, 결국 기술주 폭락으로 이어지고 기술 환멸을 불러오는 것이다, 이를 'AI의 겨울'이라고 칭했다.마지막은 광기가 수년간 지속, 기업들은 일자리를 줄이고 수천억달러를 AI에 투자한다는 내용이다. 이 경우, 기업들은 결국 AI로 무엇을 할지를 찾아내는 데 실패, 해고한 근로자를 다시 고용한다는 결론이다.

https://www.aitimes.com/news/articleView.html?idxno=163929



제목: 'AI 대모' 리 교수 "수십년 연구한 나도 AGI 잘 몰라"...누가 감히 AGI를 거론하나

요약: 페이페이 리 스탠포드대학교 교수 겸 월드랩스 설립자가 인공일반지능(AGI)과 현재 개발 중인 '대형세계모델(LWM)' 등에 대한 의견을 밝혔다. AGI에 대해서는 "잘 모르겠다"라고 말했는데, 이는 AGI라는 용어가 최근 사업적인 목적으로 활용되는 데 대한 반박이다. 지난 2010년 '이미지넷(ImageNet)' 구축으로 비전 AI의 탄생을 이끌어 'AI의 대모'로 불리는 리 교수가 이런 말을 한 데에는 이유가 있다. 최근 오픈AI나 구글, 앤트로픽, xAI, 메타 등이 투자 확대를 위해 사업적인 의도로 AGI라는 용어를 남발하는 데 대한 반박이다. 리 교수는 어린 시절부터 '지능'이라는 개념에 매료, AI를 공부하게 됐으며, 2000년대 초반부터 일부 연구자들과 조용히 기초를 만들었다고 밝혔다. 이후 2010년 구축한 이미지넷이 인공신경망인 '알렉스넷(AlexNet)'과 결합하고 GPU 지원을 받으며 현대적인 개념의 비전 AI가 등장했다. 리 교수는 "빅데이타와 신경망, GPU 컴퓨팅을 AI의 세가지 핵심 요소"로 꼽았다. 대신, "다양한 종류의 AI가 등장, 우리에게 더 나은 기술을 제공할 것으로 믿는다"라고 말했다.다양한 기업과 기술들이 모여있는 AI 생태계에서 서로에게 영향을 주고받으며 AGI를 가능하게 만든다는 내용이다. 따라서 특정 기업이 특정 시점에 AGI를 들고나오는 것이 아니라고 설명한 것이다. 리 교수가 설립한 월드랩스 역시 AGI 구축의 주요한 방법으로 여겨지는 '공간 지능(spatial intelligence)'을 연구하고 있다. 이를 바탕으로 구축 중인 것이 LWM이다.그는 "앞으로 몇년 안에 공간 지능을 현실에 더 가깝게 만들 수 있을 것으로 기대한다"라고 말했다. 또 LWM을 만드는 것이 LLM 개발보다 복잡한 과정이라고 전했다. "현재 LLM의 기반이 되는 인간 언어는 아마도 100만년에 걸쳐 만들어졌을 것"이라며 "하지만 인간의 시각과 지각은 아마도 5억4000만년이 걸렸을 것"이라는 설명이다. 리 교수는 공간 지능을 "컴퓨터가 보는 것뿐만 아니라, 컴퓨터가 3D 세계 전체를 이해하도록 하는 것"이라고 정의했다.

https://www.aitimes.com/news/articleView.html?idxno=163951


작가의 이전글 Weekly news on LLM - 9월 넷째주
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari