brunch

You can make anything
by writing

C.S.Lewis

by 김준석 Mar 25. 2024

Weekly news about LLM - 3월 넷째주


제목: GPT-5 여름 출격?...최고 LLM 레이스 달아오른다

요약:오픈AI가 올해 여름께 차세대 거대언어모델(LLM)인 GPT-5를 선보일 것이란 전망이 나와 비상한 관심이 쏠린다.오픈AI는 일부 엔터프라이즈 고객들에게 GPT-5 관련 데모를 제공했는데, GPT-4보다 "훨씬 낫다"는 평가를 받았다. 현재까지 분위기만 놓고 보면 오픈AI를 상대로한 도전자들 공세는 지난해보다는 탄력을 받는 양상이다. 구글, 앤트로픽 등이 신형 LLM을 내놓고 벤치마크 테스트에서 오픈AI 최상위 LLM인 GPT-4를 앞서는 수치를 공개하면서 오픈AI에 쏠렸던 관심이 다소 분산되는 장면이 연출되고 있다.미스트랄은 지난달말  오픈AI GPT-4와 구글 제미나이 울트라를 겨냥한 신형 LLM인 미스트랄 라지(Mistral Large)를 공개했다. 일부 추론 작업은 제미나이 울트라와 GPT-4와 맞먹는 성능을 제공한다고 한다. 메타도 오는 7월 차세대 오픈소스 LLM인 라마3((Llama 3)를 선보일 예정이다 디인포메이션 최근 보도에 따르면 라마3 시리즈 중 가장 큰 버전은 1400억개 매개변수를 지원한다. 라마2와 비교해 매우 큰 수준이다.

https://www.digitaltoday.co.kr/news/articleView.html?idxno=510374


제목: 삼성전자 "2∼3년안에 반도체 1위 되찾을것…AI칩 '마하1' 개발"

요약: 삼성전자는 대규모언어모델(LLM)용 AI 칩 '마하1'을 개발 중인 사실도 밝혔다.경계현 사장은 "현존하는 AI 시스템은 메모리 병목으로 인해 성능 저하와 파워 문제를 안고 있다"며 "이 문제를 개선하기 위해 범용인공지능 컴퓨팅랩을 신설하고 AI 아키텍처의 근본적인 혁신을 추진하겠다"고 밝혔다. 경 사장은 "메모리 처리량을 8분의 1로 줄이고, 8배의 파워 효율을 갖게 하는 것을 목표로 현재 개발 중인 마하1 AI 인퍼런스 칩은 그 혁신의 시작이 될 것"이라며 "저전력(LP) 메모리로도 LLM의 추론이 가능하도록 준비하고 있다"고 설명했다.이어 "기술 검증을 했고 SoC 디자인을 하고 있다"며 "올해 연말 정도면 칩을 만들어서 내년 초에는 저희 칩으로 구성된 시스템을 볼 수 있을 것"이라고 덧붙였다.

https://www.yna.co.kr/view/AKR20240320078152003?input=1195m


제목: 엔비디아, 차세대 괴물 반도체 ‘블랙웰’ 공개

요약: 젠슨 황 엔비디아 CEO는 이날 미국 캘리포니아주 새너제이 SAP센터에서 열린 ‘GTC 2024’에서 “새로운 산업혁명을 추진하는 엔진”이라며 신형 GPU 칩 B100과 B200을 공개했다. 이들 GPU는 엔비디아의 새 AI 아키텍처 ‘블랙웰(Blackwell)’을 기반으로 한다. B200 2개를 CPU와 연결해 만든 ‘슈퍼칩’ GB200도 함께 모습을 드러냈다. GB200은 현존 최고 성능 AI 칩으로 평가받는 엔비디아의 H100에 비해 생성형 AI를 구동하는 LLM의 추론 성능을 30배까지 향상한다. 반면 LLM 구동에 드는 비용과 에너지 소비는 25분의 1로 줄어든다. 

https://www.segye.com/newsView/20240319516555?OutUrl=naver


제목: "기업의 실질적 생성형 AI 활용은 통합에 달렸다"

요약: “오라클의 AI 솔루션은 생성형 AI와 기업 데이터 플랫폼을 유기적으로 연계하는데 초점을 맞추고 있다. 오라클은 ‘통합’에 주목한다. 기업이 그동안 투자해온 데이터 플랫폼, 다양한 도구, 프로그래밍 언어 등을 그대로 활용하면서 동시에 생성형 AI란 최신 기술을 개방형으로 구축, 활용하게 지원한다.” 나정옥 오라클 부사장은 “현재 비즈니스의 핵심이 ‘데이터’에서 AI 기반 ‘분석’으로 변화하고 있는 가운데, 오라클은 기술 스택 전반의 모든 레이어마다 AI 솔루션을 제공하는 ‘풀 스택’ 전략을 통해 기업 AI 여정을 촉진한다”고 말했다. 오라클의 최신 생성형 AI 기술 및 서비스를 살펴보면, 애플리케이션은 생성형 AI를 내재화한 퓨전 애플리케이션을, AI 서비스는 라마 2와 코히어 등의 LLM 미세조정 및 추론 서비스 및 데이터 플랫폼과 결합 가능한 검색 증강 생성(RAG) 서비스를 제공한다. 데이터 플랫폼은 AI를 내장한 자율운영 데이터베이스와 마이SQL 히트웨이브 및 오라클 데이터베이스 23c의 벡터 검색 지원 기능 등을 제공한다. 오라클 김태완 상무는 “OCI 생성형 AI 서비스는 상용 모델과 오픈소스 모델을 제공하며, 프롬프트 엔지니어링, 텍스트 임베딩, 코드 생성, 요약 등의 기능을 이용할 수 있다”며 “여러 모델을 운영, 테스트할 수 있고, 자바나 파이썬 코드를 생성하고, 텍스트를 벡터로 변환해 데이터 간 연관성과 유사도를 시각적으로 확인할 수 있는데, 모든 과정을 UI로 할 수 있다”고 설명했다.

https://zdnet.co.kr/view/?no=20240321163831


제목: '응답 전 독백 하는' LLM 프롬프트 기술 또 등장

요약: 인공지능(AI) 시스템에 '내면의 독백'을 제공하면 추론 능력이 훨씬 향상된다는 스탠포드의 연구 결과가 나왔다. 사람들이 말하기 전에 다음에 무엇을 말해야 할지 고려하는 것처럼, AI 시스템이 프롬프트에 응답하기 전에 생각하도록 훈련하는 방식이다. 응답하기 전에 먼저 생각하는 ‘내면의 독백’을 부여한 알고리즘 ‘콰이엇-스타(Quiet-STaR)’에 대한 논문을 온라인 아카이브에 게재했다. AI 시스템이 대화 프롬프트에 응답하기 전, 많은 내부 근거를 병렬로 생성하도록 지시한다. AI는 근거가 있는 예측과 논리가 없는 예측을 혼합해 최상의 답변을 출력한다. 질문 성격에 따라 인간 참가자가 확인할 수도 있다.연구진은 오픈 소스 대형언어모델(LLM)인 '미스트랄 7B'에 콰이엇-스타를 적용, 훈련 버전과 비적용 버전을 비교 테스트했다. 그 결과 추론 테스트에서 콰이엇-스타 적용 버전의 점수는 47.2%를 기록했으며, 비적용 버전은 36.3%였다.연구진은 "콰이엇-스타는 원본 훈련 데이터와 관계없이 백그라운드에서 일반적으로 여러 다른 유형의 LLM에 '조용히' 적용될 수 있어, 추론 능력을 향상할 수 있다"라고 설명했다.

https://www.aitimes.com/news/articleView.html?idxno=158176


제목: 오픈AI, 'GPT 스토어' 방치하나...개발자 불만 늘어

요약: 오픈AI가 야심 차게 공개한 'GPT 스토어'가 무관심 속에 방치됐다는 지적이 나왔다. 출시 2개월이 넘었으나, 개발자 지원이 거의 없는 것은 물론 사용자도 줄어드는 것으로 알려졌다. 이는 오픈AI의 신경이 여러 곳으로 분산됐기 때문이라는 분석이다. 키릴 데모킨이라는 개발자는 "사람들은 오픈AI가 GPT 스토어를 포기한 것으로 느끼고 있다"라고 말했다. 사용자 분석 측면에서 오픈AI로부터 아무 지원도 받지 못했으며, 수익 공유프로그램에 대해서도 아무런 이야기를 듣지 못했다고 불평하고 있다. GPT 스토어의 실패의 원인에 대해서, 오픈AI가 어지러울 만큼 많은 프로젝트와 다양한 이수로 인해 신경이 분산된 결과일 수도 있다는 분석이 있다. 여기에는 AI 에이전트 개발, 비디오 생성 AI 소라의 출시 준비, 'GPT-4.5' 및 'GPT-5' 개발 등이 포함됐다. 샘 알트먼 CEO의 AI 칩 프로젝트, 저작권 소송, 미국과 유럽연합(EU)의 독점 문제 조사 등 외부 요인도 다수다. 특히 최근에는 알트먼 축출 사태에 따른 정부 조사와 이사회 구성 문제, 일론 머스크의 소송에 대한 반박 등이 이어졌다.

https://www.aitimes.com/news/articleView.html?idxno=158087


제목: 몇달 뒤 등장할 'GPT-5', 과연 어떤 모습일까

요약: 오픈AI의 'GPT-5' 출시가 임박했다는 소식이 들려왔습니다. 이미 일부 기업에 데모를 전달해 테스트 중이라고 합니다. 현재 텍스트와 이미지를 넘어, 비디오와 음성까지 포함하는 진정한 '멀티모달' 기능을 갖출 것이라는 예측입니다. 그리고 가장 중요한 것은 인공일반지능(AGI)에 대한 진전을 보여주는 것입니다. 얼마 전 공개한 동영상 생성 인공지능(AI) '소라'가 그 예입니다. 지난해 말 알트먼 CEO가 "AGI 개발을 앞당길 중요한 발견"이라며 자랑한 새로운 모델 'Q스타(Q*)'가 반영될 것으로 보입니다. 이는 완벽한 답을 내놓는 수학적 추론이 가능한 모델로, 기존 언어모델의 한계를 뛰어넘을 기술이라는 설명입니다. AI 에이전트도 강화된 AGI의 한 예로 꼽힌다. 오픈AI가 AI 에이전트를 개발한다는 소식은 잘 알려져 있으며, 이번에 GPT-5를 경험한 한 CEO도 이를 지적했습니다. 

https://www.aitimes.com/news/articleView.html?idxno=158183

keyword
작가의 이전글 Weekly news about LLM - 3월 셋째주
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari