제목: 진짜 특이점이 왔다! OpenAI 영상 모델 ‘Sora’
요약: OpenAI가 16일 text-to-video AI 멀티 모달 모델인 ‘Sora’를 공개했다. 기존 구글의 모델이 5초 남짓한 영상을 생성할 수 있는것과 비교해 ‘Sora’는 최대 1분 길이의 영상 생성이 가능하다. 수많은 텍스트 토큰이 수학, 자연어, 코드등 텍스트의 양식을 통합하는데 사용된것과 유사하게, ‘Sora’는 동영상과 이미지를 ‘패치‘라는 단위로 표현했고, 이전보다 디퓨전 모델을 고도로 훈련시킨 모델이다. 텍스트로 영상을 생성하는 것외에도 정지 이미지를 동영상으로 변환가능하고, 서로다른 두 영상을 자연스럽게 이어주는 영상 생성이 가능하고, 기존 영상의 앞과 뒤를 확장하여 영상 길이를 늘릴수도 있다. 현재 일반 사용자는 이용이 불가하고 모델의 안전성을 테스트하는 ‘레드팀‘과 일부 비주얼 아티스트, 영화 감독등에게 제공하여 피드백을 받고 있다.
https://www.inven.co.kr/webzine/news/?news=293193
제목: “1시간 영화도 단숨에 처리한다“…구글, 제미나이 1.5 공개
요약: 구글이 16일 제미나이(Gemini)의 차세대 모델인 ‘제미나이 1.5’를 공개했다. 내부 테스트 결과, 제미나이 1.5는 기존 1.0에 비해 87% 향상된 성능을 보였다고 한다. 제미나이 1.5는 한번에 처리할 수 있는 정보의 양(context size)이 크게 개선이 되었는데, 기존 1.0에서 3.2만개 토큰에서 100만개로 크게 늘었다. 오픈AI의 GPT4 터보가 12.8만개 규모와 비교하면 7~8배 수준이다. 제미나이 1.5는 영상 1시간, 음성 11시간, 코드 3만줄, 단어 70만개등의 방대한 정보를 한번에 처리할 수 있다. 구글은 제미나이 1.5 프로가 영상등 다양한 모달리티에서도 고도로 정교화된 이해와 추론능력을 보인다고 밝혔다.
https://www.edaily.co.kr/news/read?newsId=02174646638791176&mediaCodeNo=257&OutLnkChk=Y
제목: 구글, LLM이 스스로 성능 향상하는 ‘self-discover’ 프롬프트 방식 공개
요약: 구글 딥마인드는 LLM이 스스로 성능을 향상시킬수 있는 ‘self-discover’ 프레임워크를 개발해서 GPT4의 성능을 최대 32% 향상 시켰다고 발표했다. 인간이 어떻게 추론하고 문제를 푸는지에 대한 인지 이론에서 영감을 받은 다양한 프롬프트 기술이 있다. 대표적으로 문제를 단계별로 해결하는 chain of thought, 문제를 여러 하위 문제로 나누는 decomposition prompting, 문제에 대해 피드백을 구하는 step-back prompting등이 있다. 또한 chain of thought의 단점을 보완하기 위한 plan-and-solved라는 프롬프트 기술도 등장했다. 풀고자하는 task들은 고유한 구조를 가지고 있기때문에, 각 task에 적합한 추론 기술을 LLM이 자체 발견하고 선택하게 하는 프롬프트 프레임워크를 제안했다. 벤처비트는 “LLM이 스스로 추론 방식을 찾아낸다는 아이디어는 이제 막 제안되었지만, 궁극적으로는 AGI를 향해 나아갈 수 있는 잠재력을 가지고 있다.‘고 평했다.
https://www.aitimes.com/news/articleView.html?idxno=157130
제목: “여러 LLM을 통합할 때 유용” … 콩, AI 개발 특화 API 플러그인 오픈소스로 공개
요약: API 관리 및 모니터링 전문 기술 업체 콩이 LLM 개발에 특화된 API 플러그인을 오픈소스로 공개했다. 콩에 따르면, 해당 플러그인은 오픈AI, 애저 AI, 코히어, 앤트로픽, 미스트랄, 메타의 모델을 지원하며, 사용 방법을 표준화하여 애플리케이션 코드를 변경할 필요 없이 ‘스위치 한 번’으로 LLM 간에 쉽게 전환할 수 있다. 콩은 “새로운 플러그인은 하나 이상의 LLM을 제품에 통합할 때 특히 유용하며 이를 통해 생산성이 높아지고 AI 기능을 더 빠르게 출시할 수 있을 것“이라고 밝혔다.
https://www.ciokorea.com/news/325723
제목: ‘AI 안경’ 또 등장...AR보다는 AI 기능에 집중
요약: 애플 임원 출신이 만든 스타트업인 브릴리언트 랩스가 AI기반의 스마트 안경 ‘Frame’을 출시했다. (가격 349달러) 안경 착용자의 눈에 보이는 대상을 인식해 분석해 주는 것은 물론 실시간 번역과 웹검색까지 지원한다. 예를들어 ‘Frame’ 착용자는 음성으로 보고 있는 건물에 대한 답을 얻거나, 외국어 간판을 쳐다보면 글씨를 번역해 볼 수 있다. 또한 보고 있는 운동화를 구매할 수 있는 사이트로 연결시켜주고, 음식에 대한 영양 정보를 검색할 수도 있다. 또한 원하는 가구를 자신의 공간에 들여올 때 적절한 크기와 배색인지 보게해주는 AR 기능도 있다.
https://www.aitimes.com/news/articleView.html?idxno=157128
제목: 2024년 AI, LLM 보다 SLMs가 더 중요해질 것
요약: MS가 2024년 주목해야 할 3가지 AI 트렌드를 공개했다. 첫번째는 소형언어모델(SLMs)이 AI 모델이 더욱 중요한 역할을 할 것이다. 소형언어모델은 시간과 자원을 적게 소모해 모바일 기기에서도 쉽게 실행가능하며, 오프라인 상태에서도 활용가능한 장점을 가지며, 선별된 고품질 학습 데이터를 사용해 보다 정확한 결과를 얻을 수도 있기 때문이다. MS는 파이(Phi)와 오르카(Orca)를 개발해 특정분야에서 대형언어모델과 동등하거나 더 나은 성능을 보이는 모델을 찾기위해 노력하고 있다. 두번째는 인간의 인지능력과 유사한 멀티모달 AI이다. 텍스트,이미지,비디오등 다양한 형태의 데이터를 동시에 처리해 검색부터 크리에이티브 앱까지 다양하게 활용될 수 있다. 세번째로 기후변화, 에너지 위기, 질병등 과학분야에서도 혁신적인 해결책을 제시할 수 있을것으로 내다봤다.
https://www.epnc.co.kr/news/articleView.html?idxno=240699
제목: “LLM은 훈련받은 것 외에는 아무것도 할 수 없다. 대규모 데이터 학습이 AGI로 가는 길은 아니다.”
요약: 메타의 얀 르쿤 수석 AI과학자는 대규모 학습이 AGI달성할 수 있다는 주장에 부정적인 의견을 밝혔다. 르쿤은 그 근거로 AI는 물리적인 세계를 이해하는 것과 같은 인간적인 특성이 없다고 강조한다. 인간 지능에 근접하려면 언어 학습 이전에 동물 수준부터 세계를 이해하는 식의 특별한 방식이 필요할것이라고 지적하고 있다. 한편, 오픈AI의 샘 알트먼 CEO는 더 많은 컴퓨팅 성능과 데이터로 LLM을 훈련하면 AGI가 탄생할 것이라고 믿고 있고, 수조 달러를 투자해 엄청난 양의 AI칩을 확보하려고 하고 있다.
https://www.aitimes.com/news/articleView.html?idxno=157220
제목: 로봇 돕는 AI, AI 돕는 로봇… AI ‘최종 병기’는 로봇
요약: 미국의 유명한 스타트업 엑셀러레이트 Y콤비네이터는 올해 투자 1순위로 AI 로봇 분야를 꼽았습니다. 오픈AI, MS, SoftBank등이 휴머노이드 투자에 나섰고, 테슬라를 비롯한 많은 기업들이 AI 로봇에 집중하고 있다. AI 로봇은 기존 로봇과는 다른 LLM을 탑재하여 인간의 질문에 답하는 것을 넘어 주변을 이해하고 다양한 상황에 자발적으로 대응할 수 있도록 해 준다. 반대로 로봇은 LLM이 현재의 한계를 넘고 AGI로 도달하게 할 중요한 요소로 꼽힌다. AI가 인간과 같은 능력을 갖추려면 언어 학습을 넘어 물리 세계에 대한 학습과 이해가 있어야 하는데, 로봇을 통해 육체를 가지고 현실 세계에 적응하다보면 언어 모델 이상의 경험이 쌓이고, 이런 것들이 모여서 AGI로 갈 수 있다는 주장이다.
https://www.aitimes.com/news/articleView.html?idxno=157260