Weekly news on LLM - 12월 첫째주

by 김준석


제목: 카카오 자체 멀티모달 LLM ‘카나나-v’...어떻게 개발되고 있을까

요약: 카카오가 텍스트와 이미지를 이해하는데 특화된 멀티모달 LLM 고도화 작업 중간 결과와 향후 개발 계획을 공개했다. 5일 차범준 카카오 카나나알파 조직 개발자는 카카오테크 공식 기술 블로그를 통해 자체적으로 개발 중인 멀티모달 LLM ‘카나나-v’의 개발 진행 상황을 밝혔다. 카나나-v는 앞서 공개된 LLM ‘허니비’ 연구 성과를 기반으로 개발된 모델로, 이미지와 텍스트를 다루는 것을 목적으로 고도화가 진행 중이다. 글로벌 AI 모델 시장에서 멀티모달 LLM은 다양하지만, 한국어 기반 이미지에 대한 텍스트 추출·이해 능력에 특화된 모델은 찾아보기 힘든 실정이다. 카나나-V는 한국어를 기반으로 된 아날로그 문서 이미지를 기반으로 OCR을 비롯한 문서 이해, 포스터 그림·문자 이해 등에서 강점을 보인다는 설명이다. 차 개발자는 블로그에서 “자체 개발한 벤치마크로 타사 모델과 비교해보니 ‘한국형 지식’ 영역에서 두 번째로 높은 성능을 기록했다”며 “향후 한국형 지식 관련 데이터를 지속적으로 확보해, 해당 영역에서 가장 높은 성능을 달성할 수 있도록 개선할 계획”이라고 전했다. 영어와 달리 한국어 경우, 멀티모달 언어모델을 위한 퍼블릭 데이터를 찾기 어렵기 때문에, 거의 모든 데이터를 개발자들이 직접 제작했다. 먼저, 멀티모달 언어모델만을 위한 데이터가 아니더라도 사용가능한 모든 한국어 데이터셋을 모았다. 카카오 그룹 내 확보하고 있던 한국어 데이터들과, AI HUB에 공개된 한국어 데이터를 가져왔다. 카나나-v 개발팀은 이렇게 모은 데이터셋들을 멀티모달 언어모델이 학습할 수 있도록 이미지에 대한 ‘질문-답변’ 형태로 변환 했다. 기존 데이터셋에 따라 변환 과정이 달라지는데, 이미지만 활용하고 적절한 질문-답변을 새로 만들어야 했던 경우도 있었다. 차 개발자는 “결과적으로 데이터를 모았음에도 한국어 데이터는 상대적으로 부족했다”며 “위 방식으로 모을 수 있었던 한국어 데이터가 적은 양은 아니었지만, 도메인 다양성이 부족하다는 한계점이 있었다고 덧붙였다. 개발팀이 고안한 해결책은 데이터가 부족한 도메인을 살펴보고, 필요한 데이터의 품질과 종류에 따라 수집 방법을 추가하는 것이었다. 고품질 데이터가 필요한 경우 직접 이미지를 모으고 어노테이션(각 데이터에 태그를 지정하는 과정)을 수행해 데이터셋을 구축했다. 마지막으로 차 개발자는 “현재 카카오에서는 카나나-v 외에도, 통합 멀티모달 언어모델 카나나-o를 개발 중이다” “오는 2025년에는 비디오 입력까지도 처리할 수 있는 모델까지 확장할 예정이다. AI가 우리 일상에 보다 실질적인 도움을 제공하는 진정한 파트너로서 발전하길 기대하고 있다”고 강조했다.

https://www.ddaily.co.kr/page/view/2024120518145106088



제목: 아마존, 신형 LLM '노바' 출시…6개 AI모델 골라 쓴다

요약: 아마존과 아마존웹서비스가 새로운 생성형 인공지능 ‘아마존 노바’를 공개하며 오픈AI와 구글이 주도하는 AI 패권 경쟁 판도 뒤집기에 나섰다. AWS는 내년 3㎚ 공정으로 개발한 AI 반도체 ‘트라이니엄3’을 내놓으며 엔비디아의 아성에도 균열을 내겠다는 전략이다. 아마존에 따르면 노바는 6종으로 구성된다. 노바 마이크로는 텍스트 전용 경량 모델이다. 노바 라이트·프로·프리미어는 각자 사양이 다른 멀티모달 모델로 이용자는 목적에 따라 골라 쓰면 된다. 아마존은 이미지 생성 AI ‘노비 캔버스’와 아마존 최초의 동영상 생성 AI ‘노바 릴’도 선보였다. 특히 노바 릴은 텍스트 프롬프트와 이미지를 통해 짧은 동영상이나 마케팅, 광고·엔터테인먼트용 전문가 품질의 동영상을 생성할 수 있다. 아마존은 대화형 AI 비서 시장도 적극 공략한다. ‘노바 스피치 투 스피치 모델’과 ‘애니 투 애니 모델’도 내년에 출시할 계획이다. 스피치 투 스피치 모델은 목소리로 질문해 목소리로 답을 얻는 모델이며 애니 투 애니는 문자를 입력해 동영상을 얻거나 영상을 입력해 이미지가 출력되는 등 모든 조합이 가능한 모델이다. 아마존은 새 브랜드 노바를 통해 오픈AI와 구글 등과 치열한 AI 경쟁을 벌이겠다는 전략이다. 재시 CEO는 “노바 라이트는 오픈AI의 ‘GPT-4o 미니’ 대비 19개 벤치마크 중 17개에서, 구글의 ‘제미나이’와 비교해서는 21개 벤치마크 중 17개에서 동등하거나 우위에 있다”며 “노바 프로는 20개 언어 이해 및 추론 능력 측면에서 GPT-4o와 동등하거나 우수하다”고 말했다. 노바는 한국어를 포함해 200여 개 언어를 지원한다. AWS AI 플랫폼 ‘베드락’에서만 독점 제공한다. 그는 “AWS는 항상 그래왔듯이 가장 뛰어난 조합을 제공할 것”이라고 자신감을 드러냈다.

https://www.sedaily.com/NewsView/2DHZOQQ920



제목: '챗GPT' 지원 AI 스마트 안경 출시...가격도 메타 '레이밴'과 동일

요약: 메타의 ‘레이벤’과 경쟁할 만한 스마트 안경이 등장했다. 인공지능 음성 비서 '챗GPT'를 탑재하고 전면 부착 카메라로 사물을 인식하는 등 제대로 된 기능을 갖췄다. 솔로스는 10일 스마트 안경 ‘에어고 비전(AirGo Vision)’을 공식 출시한다고 발표했다. 가격은 299달러부터로, 레이밴과 동일하다. 그동안 등장했던 중국산 휴대폰 액세서리와는 차원이 다르다. 에어고 비전은 오픈AI의 'GPT-4o' 모델과 통합, 음성 명령을 통해 카메라에 포착된 사람, 사물, 텍스트에 대해 질문하고 답할 수 있는 기능을 제공한다. 구글의 '제미나이'나 앤트로픽의 '클로드' 등 다른 AI 모델과의 통합도 가능하다. 이는 '라마'만 사용하는 레이밴 스마트 안경보다 장점이다. 또 텍스트 번역과 주변 경로 안내, 카메라를 통한 상세 정보 제공 등 다양한 작업을 수행할 수 있다. 솔로스 챗 온라인을 통해 인터넷 검색, 날씨 정보 확인, 최신 뉴스 접근이 가능하며, 솔로스 트랜슬레이트 기능으로 언어 번역 및 메시지 응답 기능도 제공한다. 메타의 레이벤처럼 사진 촬영 기능을 지원한다. 특히 카메라 사용이 제한된 장소나 다른 디자인의 안경을 착용하고 싶을 경우에는 카메라가 없는 다른 안경 프레임으로 갈아 끼울 수 있다는 것이 장점이다. 이를 위해 안경리를 프레임에서 분리하도록 설계했다.

https://www.aitimes.com/news/articleView.html?idxno=166137



제목: 수츠케버 "스케일링 막 내려...추론으로 AI 자의식 생길 것"

요약: 오픈AI의 추론 모델의 기반을 만든 일리야 수츠케버 SSI 창립자가 데이터 고갈로 인해 LLM의 사전 훈련에 따른 '스케일링 법칙' 시대는 끝났다고 선언했다. 대신, 추론이 새로운 AI를 열 것이며, 특히 이로 인해 인간의 예상을 뛰어넘는 자의식을 갖춘 초지능이 등장할 것이라고 예고했다.수츠케버 창립자는 13일 캐나다 밴쿠버에서 열린 'NeurIPS' 컨퍼런스에서 "우리가 아는 사전 훈련은 의심할 여지 없이 끝날 것"이라고 말했다. 그는 이유로 석유처럼 한정된 데이터가 고갈됐다는 점을 들었다. "컴퓨팅은 성장하고 있지만, 데이터는 성장하지 않는다. 왜냐하면 인터넷은 하나뿐이기 때문"이라며 "우리는 최고 데이터를 달성했고, 더 이상은 없을 것"이라고 밝혔다. 이와 관련, 상당수 전문가는 앞으로 2년 내 AI 학습에 사용할 인터넷 데이터가 바닥을 드러낼 것으로 보고 있다. 그러나 수츠케버 창립자는 한술 더 떠 모델 성능 향상에 도움이 될 만한 데이터는 이미 바닥을 드러냈다고 단언한 셈이다. 따라서 그는 차세대 AI 개발이 에이전트와 추론 중심으로 변할 것이라고 밝혔다. 특히 AI 에이전트에 대해서도 오랜 기간 연구해 왔다며, "AI가 에이전트와 추론 능력을 동시에 갖추면 더 깊은 이해력은 물론, 자의식까지 갖게 될 것"이라고 예고했다. 이는 추론 향상으로 인해 아무도 예측하지 못한 AI 발전 상황이 벌어진다는 말이다. 현재 AI는 학습한 것에 따라 패턴을 찾아내는 수준이지만, 추론을 동원하면 사람과 같이 생각하는 방식으로 문제를 단계별로 해결할 수 있어 상상을 초월하는 발전이 가능하다는 것이다. "시스템이 더 많이 추론할수록 인간이 이를 예측하는 것은 불가능해진다"라며 "인간 최고의 체스 선수라도 AI를 예측하는 것이 불가능한 것처럼, 진정한 추론 시스템이 작동하면 아무도 AI가 어떻게 될지 예측할 수 없다"라고 강조했다. 수츠케버 창립자의 SSI는 이런 문제를 해결하는 '초지능 안전'을 목표로 하고 있다. 동시에 추론이 데이터 부족을 해결하는 방법이라고도 설명했다. "그들은 제한된 데이터로부터 사물을 이해할 것"이라며 "그들은 혼란스러워하지 않을 것"이라고 밝혔다. 더불어 AI 시스템의 스케일링 법칙과 진화 생물학을 비교, 종에 따른 두뇌와 신체 질량의 관계를 보여주는 연구를 인용했다. 대부분 포유류가 비슷한 두뇌-신체 크기의 스케일링 패턴을 따르지만, 인류의 조상인 유인원은 이 법칙을 벗어나 두뇌 크기가 월등하게 크다는 것이다. 즉, 인류의 진화가 유인원의 두뇌에서 다른 포유류와는 다른 확장 패턴을 보인 것처럼, AI도 현재 사전 훈련 방식을 넘어 새로운 확장 방식을 통해 급속한 발전을 이룰 수 있다는 것이다. 그리고 그 핵심을 추론으로 본 것이다. 지난 9월에도 수츠케버 창립자는 흡사한 내용을 밝힌 바 있다. 로이터와의 인터뷰에서 "기존 작업과는 조금 다른 산을 발견했다. 이 산꼭대기에 오르면 패러다임이 바뀌고, AI에 대해 우리가 알던 모든 것도 변할 것"이라며 기존 스케일링과는 다른 개념으로 초지능을 개발하겠다고 말했다. 수츠케버 창립자는 오픈AI 재직 시 '테스트-시간 계산(test-time computation)'이라는 이론을 발전, 현재 'o1' 모델이 기반이 된 '큐스타(스트로베리)'의 기반을 만들었다. 지난 2015년 오픈AI 창립 멤버로 합류, GPT 모델 개발을 이끌어온 대표적인 AI 개발자 중 하나다.

https://www.aitimes.com/news/articleView.html?idxno=166231


keyword
작가의 이전글Weekly news on LLM - 11월 셋째주