제목: 구글, LLM 반복 질문으로 정확도 향상하는 '대형언어원숭이' 발표
요약: 구글 딥마인드가 LLM의 추론 성능을 높이는 방법을 공개했다. 동일한 질문을 수백번 반복, 가장 좋은 답을 선택하는 간단한 방식이다. 이를 두고 연구진은 '대형언어 원숭이(LLM)'이라고 칭했다.디 인포메이션은 구글 딥마인드와 스탠포드대학교, 옥스포드대학교 연구진 등이 '대형 언어 원숭이: 반복 샘플링을 통한 추론 컴퓨팅 확장(Large Language Monkeys: Scaling Inference Compute with Repeated Sampling)'이라는 논문을 게재했다고 보도했다. 연구진은 훈련에 투입하는 컴퓨팅의 확장으로 LLM 성능이 크게 향상됐지만, 추론의 경우에는 문제당 한번으로 시도가 제한됐기 때문에 그 효과를 보지 못했다고 지적했다. 따라서 추론 횟수를 늘리기 위해 샘플 수를 4배 이상 투입하는 방법을 선택했다고 밝혔다. 즉, 같은 질문을 모델에게 4회 이상 반복했다는 말이다. 연구진은 이런 방식이 AI 코딩 어시스턴트에서 어떻게 작동하는지 실험했다. 'GPT-4o'와 '클로드 3.5 소네트'를 조합해 동일 질문을 반복, 찾아낸 최적의 답이 코드 생성 중 발생한 오류 중 43%를 해결했다고 밝혔다. 이는 SWE-벤치 라이트라는 테스트를 통해 밝혀졌다. 특히 연구진은 이 모델에 동일한 코딩 문제를 한번이 아니라 250번 풀도록 요청, 점수를 56%까지 끌어올렸다고 밝혔다. 이는 GPT-4o나 클로드 3.5 소네트 조합보다 13%나 높은 점수다. 결국 첨단 모델을 사용하는 것보다, 성능이 떨어지는 모델이라도 동일 질문을 반복하는 것이 더 정확도를 끌어 올리는 데 도움이 된다는 말이다. 또 비용 효율이 훨씬 뛰어나다고 강조했다.
https://www.aitimes.com/news/articleView.html?idxno=162486
제목: NIA, 'Open Ko-LLM 리더보드' 평가 지표 전면 개편…"시즌2 시작"
요약: 한국지능정보사회진흥원(NIA)과 업스테이지가 공동 운영하는 'Open Ko-LLM 리더보드'가 시즌2로 전면 개편된다.'Open Ko-LLM 리더보드'는 2023년 9월 민관협력을 통해 개설된 국내 최대 개방형 한국어 LLM 평가 체계로, 산·학·연 각계 분야에서 7월 말 기준 1,700개가 넘는 LLM 모델이 제출돼 경쟁하는 등 많은 관심과 참여가 지속되고 있다. 하지만 LLM 기술이 빠르게 발전함에 따라 1년 전에 만들어진 리더보드 벤치마크(평가지표)의 개선 필요성이 대두됐고 글로벌 'Open LLM 리더보드'를 운영 중인 허깅페이스 또한 지난 6월에 벤치마크를 새롭게 개편한 리더보드 시즌2를 공개했다. 시즌2에서는 기존에 운영되던 평가지표(벤치마크)들을 전면 폐지하고 AI 데이터 전문 기업인 '플리토'와 '셀렉트스타', 'KAIST AI대학원'이 참여해 추론능력 지표, 감성 지표, 무해성 지표 등 9개의 새로운 벤치마크를 구축했고 이를 본격 적용한다. NIA 황종성 원장은 "리더보드는 민관 협업을 통해 한국어 LLM 생태계 조성에 크게 기여해 오고 있으며 시즌2 개편을 통해 한국어 LLM 기술이 세계적 수준에 한발 더 올라설 수 있는 계기가 되기를 기대한다"고 말했다.
https://www.cstimes.com/news/articleView.html?idxno=605777
제목: AI로 돈 벌 수 있다...구광모 신무기 '엑사원 3.0'
요약: 생성형 AI의 주도권을 두고 국내외 기업들의 경쟁이 심화되고 있는 가운데 LG 그룹이 자사의 AI LLM '엑사원 3.0'을 공개했습니다. 엑사원 3.0은 이전 모델보다 추론 처리 시간은 56% 짧고, 메모리 사용량은 35% 적습니다. 그러면서도 구동 비용은 72% 줄었습니다.즉 전작인 2.0보다 2배 빠르지만 비용은 3분의 1 수준으로 저렴한 겁니다. 성능 면에서도 메타의 라마나 구글의 젬마 등 글로벌 빅테크 모델들과 비교해도 높은 경쟁력을 갖췄다는 평가를 받습니다. 엑사원 3.0은 특허와 소프트웨어 코드·수학·과학 등 국내외 전문 분야 데이터 6000만 건 이상을 학습해 다양한 산업에서 활용될 수 있는데, 단적으로 희귀암 진단까지도 가능합니다. 비싼 유전자 검사를 따로 하지 않고, 병리 이미지만으로도 AI가 유전자 검사의 결과를 예측해 희귀암을 진단하는 겁니다. LG AI연구원은 이 기술을 제약 업계와 병의원에 공급해 수익화가 가능하다고 보고 있습니다. 유전자 검사를 하지 않아도 돼 신약 개발에 있어서 임상시험 프로세스를 가속화할 수 있고, 병원에서도 저비용으로 더 빠르게 시의적절한 치료를 할 수 있다는 설명입니다. LG는 오는 2027년까지 AI·데이터 연구개발에 3조 6천억원을 투자해 생성형 AI 시장을 선점한다는 계획입니다.
https://www.wowtv.co.kr/NewsCenter/News/Read?articleId=A202408160182&t=NNv
제목: xAI, 이미지 생성 통합한 '그록-2' 출시..."세계 최고 성능 입증
요약: 일론 머스크의 xAI가 프론티어급 LMM '그록-2(Grok-2)'를 출시했다. 그록-2 역시 각종 벤치마크에서 기존 모델들을 앞섰다고 주장했다. 특히 이 모델은 며칠 전 세계 최고 이미지 생성 모델을 출시한 블랙 포레스트와 협력, 이미지 생성 기능을 추가했다. 이 모델들은 월 7달러의 X 프리미엄 구독자가 사용할 수 있다. 또 이달 말까지 엔터프라이즈 API를 통해 제공될 예정이다. 그록-2는 채팅과 코딩, 추론 및 비전 기반 애플리케이션을 포함한 광범위한 작업에서 최첨단 성능을 제공한다. 반면, 그록-2 미니는 효율성을 위해 최적화된 더 작고 빠른 버전으로, 간단한 텍스트 기반 프롬프트에 적합하다. 벤치마크에서는 오픈AI의 'GPT-4o'와 앤트로픽의 '클로드 3.5 소네트', 구글의 '제미나이 프로 1.5' 등 첨단 모델의 성능을 일부 뛰어넘었다고 밝혔다. 하지만 성능보다 더 눈길을 끈 것은 이미지 생성 기능이다. 이는 xAI가 개발한 것이 아니라, 독일 스타트업 블랙 포레스트 랩스의 이미지 생성 AI 모델 ‘플럭스.1(FLUX.1)’를 통합한 것이다. 앞서 지난 2일 블랙 포레스트 랩스는 플럭스.1을 출시하며 '스테이블 디퓨전'이나 '미드저니', '달리 3'보다 성능이 뛰어난 세계 최고 성능의 이미지 생성 모델이라고 주장했다.
https://www.aitimes.com/news/articleView.html?idxno=162533
제목: '그록-2' 이미지 생성 논란 확산...머스크 "재미있는 일"
요약: 부적절한 이미지를 생성하는 '그록-2' 논란이 확산되고 있다. 하지만 일론 머스크 CEO는 이를 두고 "재미있는 일(have some fun)"이라고 밝혔다. 더 버지는 X에 그록-2로 생성한 갖가지 이미지들이 넘쳐 난다고 소개하며, 미국 대선이 다가오고 EU 규제 기구의 감시를 받는 상황에서 새로운 싸움이 일어날 조짐이라고 보도했다. 그록 챗봇은 텍스트 버전일 경우, 다른 회사처럼 마약 제조법 등을 알려주지는 않는다. 그러나 이미지 생성에는 대부분이 가능하다는 지적이다. 실제로 생성한 이미지 중에는 ▲나치 군복을 입은 도널드 트럼프 ▲경찰관을 억압하는 폭도 ▲란제리 차림의 테일러 스위프트 ▲코카인을 흡입하는 빌 게이츠 ▲바이든 대통령을 칼로 찌르는 버락 오바마 전 대통령 ▲담배를 피우며 맥주잔을 든 미키 마우스 등이 포함됐다. 이는 다른 회사의 정책과는 완전히 대조된다. 구글은 올초 제미나이의 인종 편향 문제로 이미지 생성 기능을 폐쇄했다. 이후 출시된 '이매진 3'는 극도로 방어적인 모습을 보여, "쓸모없다"는 말까지 들을 정도다. '달리 3'를 서비스 중인 오픈AI도 마찬가지다.
https://www.aitimes.com/news/articleView.html?idxno=162559
제목: 앤트로픽, API에 프롬프트 캐싱 도입..."개발자 비용 10배 줄여줘"
요약: 앤트로픽은 개발자가 API 호출 간에 자주 사용되는 컨텍스트를 기억하고 프롬프트를 반복해서 표시하지 않도록 캐시할 수 있는 프롬프트 캐싱 기능을 출시했다. 사용자가 LLM에게 대규모 문서에 대한 질문을 하려는 경우, 그 문서는 이후 모든 대화의 프롬프트에 포함되어야 한다. 즉, AI가 매번 대화 사이에 문서를 다시 완전히 로드해야 하며, 이 과정은 자원을 많이 소모할 수 있다. 캐시된 프롬프트를 사용하면 개발자들이 상세한 지시 사항, 예시 응답, 관련 정보를 저장할 수 있다. 이를 통해 사용자 프롬프트에 매번 정보를 주입할 필요 없이 챗봇의 여러 대화 세션 간에 일관된 응답을 쉽게 설정할 수 있다. 이는 대량의 프롬프트 컨텍스트를 한 번 보내고 이후 새로운 요청에서 반복적으로 참조하는 방식이다. 프롬프트 캐싱을 사용하면 긴 프롬프트의 경우 비용을 최대 90%, 대기 시간을 최대 85%까지 줄일 수 있다는 설명이다. 머스크는 15일 X를 통해 "우리는 개발 중인 자체 이미지 생성 시스템을 가지고 있지만, 몇달이 걸릴 것"이라며 "(이번 출시는) 사람들이 즐길 수 있는 좋은 중간 단계로 보인다"라고 밝혔다.
https://www.aitimes.com/news/articleView.html?idxno=162560