brunch

You can make anything
by writing

C.S.Lewis

by 김준석 May 13. 2024

Weekly news on LLM - 5월 둘째주


제목: MS·오픈AI, LLM·검색서비스 따로 출시

요약: MS가 GPT와 경쟁할 수 있는 LLM을 개발 중이라고 미국 IT 매체인 디인포메이션이 보도했다. 새 AI 모델 이름은 '마이(MAI)-1'이고, 파라미터는 500B 수준으로 GPT3.5의 175B보다 3배 수준이다. MS는 그동안 3.8B의 소형언어모델을  '파이-3'를 출시한 적이 있다. 한편, MS가 LLM을 준비하는 것과 맞물려, 오픈AI도 AI 검색 서비스 론칭 준비에 착수했다. 오픈AI가 선보일 검색 서비스는 구글이나 AI 검색 스타트업인 퍼플렉시티와 유사하다는 평가다. 구글의 생성형 AI 검색 서비스는 궁금한 내용을 입력하면, 검색 문서 자체를 보여주기에 앞서 해당 내용을 먼저 요약하고 링크(URL)를 같이 제시하는 방식이다. 동맹에 균열이 발생한 것은 세계 각국 정부가 반독점 기치를 높이 들면서부터다. EU 집행위원회는 앞서 MS의 오픈AI 투자가 반독점 조사 대상인지를 검토했다. 양사로서는 협력이 더 공고해질 경우 역효과가 날 수 있는 대목이다. 앞서 프랭크 쇼 MS CCO는 매일경제와 인터뷰에서 "MS는 플랫폼 기업"이라며 "고객이 원하는 어떤 대규모언어모델이든지 애저를 통해 사용할 수 있게 만들어주는 플랫폼 기업으로서 입장이 있다"고 설명했다. 

https://www.mk.co.kr/news/it/11009508


제목: 애플, 시리에 자체 LLM ‘에이잭스’ 도입…아이폰에도 탑재될까

요약: 애플이 음성 비서 ‘시리’을 업그레이드하기 위해 자체 개발 LLM인 ‘에이잭스(Ajax)’를 도입할 것으로 나타났다. 애플이 자체 개발한 온디바이스AI인 Ajax와 오픈AI ‘GPT’ 등 다른 회사 모델을 혼합할 것이라는 예상은 있었다. 하반기 출시되는 아이폰16 시리즈에 애플의 자체 인공지능 모델에 더해 구글이나 오픈AI의 AI 챗봇이 함께 탑재될 수 있다는 전망이 나오는 것이다. 애플GPT의 모델 크기는 알려지지 않았지만, 아이폰 사용자들의 텍스트 요약이나 문서 분석, 검색 강화 같은 기능을 지원할 것으로 전해진다. 사파리 브라우저나 메시지, 메일 등 기본 앱에서도 연락처를 찾아주고 일정을 정리해주는 기능을 할 것으로 예상된다. 애플GPT는 데이터센터의 비용이 들지 않는 온디바이스 LLM이고, 고급 추론 기능은 타사 LLM을 쓰는 것을 검토 중이다. 이를 위해 애플은 오픈AI, 앤트로픽 등과 접촉중인 것으로 전해진다.

https://www.edaily.co.kr/news/read?newsId=01203766638886296&mediaCodeNo=257&OutLnkChk=Y


제목: AI가 기출문제 외웠는지, 추론했는지 안다… 평가 기술도 진화

요약: 치열한 인공지능(AI) 모델 경쟁 한편에선 이들의 성능을 평가하는 방법(벤치마크)들도 속속 나오고 있다.미국 기업 ‘스케일AI’ 연구진은 지난 3일 LLM의 수학적 능력을 평가하는 벤치마크를 공개했다. 이 회사는 초등학교 수준 수학 문제를 LLM에 풀게 했다. 이미 정답을 학습시킨 문제를 잘 푸는 LLM이 있는가 하면, 새로운 유형의 문제도 이미 학습한 문제로 추론해 정답을 내는 LLM도 있었다. 이 방식을 적용 하자, 오픈AI의 ‘GPT-4′와 구글의 ‘제미나이 프로’는 추론 능력이 뛰어났다. 반면 프랑스 AI 스타트업 미스트랄의 AI는 상대적으로 추론 능력이 떨어지는 것으로 나왔다.

https://www.chosun.com/economy/tech_it/2024/05/08/NZ2LBPOAV5GCLN4WYYUGGKFW5Y/?utm_source=naver&utm_medium=referral&utm_campaign=naver-news


제목: ChatGPT가 '튜링 테스트'를 통과하지 못한 이유..."사람보다 탁월한 게 문제"

요약: 'ChatGPT'가 기계의 지적 존재 여부를 판단하는 '튜링 테스트'를 통과하지 못했다는 소식이 전해졌다. 사람보다 수준이 낮은 답을 내놓은 것이 아니라, 인간보다 뛰어난 답을 내놓는 바람에 AI라는 게 탄로 났다는 설명이다. 조지아대학교 연구진이 실시한 튜링 테스트 결과, ChatGPT가 내놓은 대답이 인간의 답변보다 훨씬 뛰어나다는 평가를 받았다고 보도했다. 조지아대학교 연구진이 실시한 튜링 테스트 결과, ChatGPT가 내놓은 대답이 인간의 답변보다 훨씬 뛰어나다는 평가를 받았다고 보도했다. 이에 따르면 연구진은 ChatGPT 등의 도덕적인 면을 평가하기 위해 학부생과 AI에 동일한 윤리적 질문을 던진 후 서면 답변을 요청했다. 여기에는 덕성, 지능, 신뢰성을 포함한 다양한 특성에 대한 내용이 포함됐다.그리고 그 결과를 참가자들에게 제시, 어느 쪽이 더 도덕적인가를 판단하도록 요청했다. 그 결과 ChatGPT가 생성한 대답은 인간 답변보다 훨씬 더 높은 평가를 받았다. "이번 결과는 컴퓨터가 기술적으로 도덕적 튜링 테스트를 통과할 수 있다고 믿게 만든다"라며 "즉, 도덕적 추론에서 우리를 속일 수 있다는 것"이라고 말했다. 인격이 없는 기계가 도덕적인 것처럼 보인다는 뜻이다. "이 때문에 우리는 사회에서 컴퓨터의 역할을 이해하려고 노력해야 한다. 만약 컴퓨터와 상호작용한다는 사실을 모른다면, 사람보다 컴퓨터를 더 신뢰할 수도 있다"라고 지적했다.

https://www.aitimes.com/news/articleView.html?idxno=159449


제목: 패스트푸드점 직원을 AI 챗봇으로 바꾸는 숨겨진 이유는 '데이터'

요약: 미국의 웬디스나 맥도날드 등 패스트푸드 체인과 소매업체들은 지난해부터 잇달아 매장에 키오스크 AI 챗봇을 도입하고 있다. 임금을 줄이려는 시도로 보일 수 있지만, 이런 추세의 중요한 이유는 AI를 현장에 투입하면 21세기 비즈니스의 생명줄인 '데이터'를 확보할 수 있다는 것이라는 설명이다. 인간 직원은 일반적으로 많은 비즈니스 데이터를 회사에 제공하지 않는다. 기업이 직원을 장기간 근속시키려고 노력하는 것도 경험이나 전문 지식으로 인식되는 일종의 데이터가 필요하기 때문이다. 반면 AI 챗봇은 데이터 수집을 완전 자동화한다. 고객과 상호 작용의 모든 세부 정보를 데이터베이스에 직접 연결할 수 있다. 여기에는 고객의 반응은 물론, 기업에 따라서는 성별이나 연령, 체형, 취향 등을 수집하도록 설계할 수 있다. 이를 통해 데이터 루프를 구축, 수집한 데이터를 사용해 매출에 직접 영향을 미친다. 데이터를 사용해 고객을 프로파일링하고, 그에 따라 행동을 조정해 다음에 더 나은 성과를 위해 생성된 데이터를 피드백할 수 있다. 예를 들어, AI는 갈색 눈을 가진 과체중 고객이 "다른 건 없나요"라고 묻기 전에, 추가로 선호하는 메뉴를 제안할 수 있다. 특히 이렇게 수집된 데이터는 몇초 뒤 지구 반대편에 있는 매장에도 적용될 수 있다. 이로 인해 고객은 브랜드가 자신의 마음을 읽고 신경 써주는 것 같은 착각에 빠질 수 있다는 지적이다. 이는 유튜브나 틱톡 등의 추천 알고리즘으로 입증된 사실이다.

https://www.aitimes.com/news/articleView.html?idxno=159403


제목: KAIST·LG AI연구원, 강력한 LLM 벤치마크 도구 '프로메테우스 2' 공개

요약: KAIST과 LG AI연구원, 카네기멜론대학교, MIT, 앨런 AI연구소, 일리노이대학교 시카고 등 국내외 연구진이 LLM 모델의 성능을 평가하는 새로운 오픈 소스 벤치 마크 도구를 선보였다. 기존 벤치 마크의 단점을 보완하고 인간 선호도와 비슷한 결과를 내기 위해 2가지 방식을 병합한 것이 특징이다. 이는 기존에 발표한 '프로메테우스'를 업그레이드한 것이다. 설명대로 ▲기존과 같이 LLM 성능을 측정하는 단일 도구와 ▲두 모델의 성능을 비교하는 Pairwise 테스트 두가지 도구를 병합했다. 실제로 Vicuna Bench, MT 벤치, 플라스크(FLASK) 벤치, Feedback 벤치 등 4가지 직접 평가 벤치마크에 대한 테스트에서 인간이나 GPT-4와 가장 가까운 상관 관계를 보였다. 기존 오픈 소스 모델보다 뛰어난 성능을 발휘, 85%가 넘는 정확도 점수를 달성했다.

https://www.aitimes.com/news/articleView.html?idxno=159399

작가의 이전글 Weekly news on LLM - 5월 첫째주
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari