25년 AI대전환 주도권을 선점하라_하정우네이버클라우드 AI센터장) 참고
AI기술은
멀티모달 생성형 AI기술과 더불어 AI에이전트의 등장을 가속화하고 있다.
비용적인 측면에서의 노력인 경량화(sLM), 온디바이스 AI, 지속가능한 AI로써의 안정성, 소버린 AI 등 AI가 국제적으로 권력의 방향을 바꿀 수 있는 화두로
거론되며, 실생활에서도 활용도가 점점 높아지는 추세이다.
과실현 AI미래포럼이 24년 7월 실시한 생성형 AI활용 조사 결과에 따르면,
그림 그리는 AI를 사용해 본 사람들 중 36.8퍼센트가 이를 직접 활용하고 있으며, 글쓰기 AI 32.9퍼센트보다 더 높은 비율로
일상에서의 AI활용의 중요성이 높아지고 있다.
오늘 소개할 책인
2025년 AI대전환 주도권을 선점하라_는 이러한 AI의 전체적인 방향을 쉽게 설명하고 있으며,
1장에서 8가지 AI키워드를 시작으로,
2장부터 AI현재와 이를 어떻게 바꿔야 하는지, AI대전환 시대의 개발 원칙과 향후 기업이 무엇을 준비해야 하는지, 사용자 중심의 AI도입 전략을 소개하고 있다.
여기서는 1장의 8가지 AI키워드를 통해 현재의 화두와 앞으로의 방향을 살펴보고 가깝게는 개인과 국가, 넓게는 세계적으로 이를 적절히 활용해야만 하는 중요성을 이야기해 보려 한다.
1장 AI는 무엇을 어떻게 바꾸고 있는가?
영상 소개) 챗GPT 실시간 영상분석 기능_시각장애인이 지나가는 택시를 호출하는 장면
첫 번째 키워드는 멀티모달 AI로 일상에서 자주 접하게 되는 챗 GPT4나 구글 제이나이, 앤트로픽의 클로드 3과 글의 내용을 그림으로 그리는 텍스트 투 이미지 AI이다.
24년 멀티모달 AI기술은 더욱 발전하여 2월 중순 오픈 AI가 글의 내용을 60초 고해상도 영상으로 생성하는 텍스트 투 비디오 AI소라(sora)를 공개했다.
잠깐 알아가기) 확산모델 이란?
확산모델(diffusion model)을 활용한 방식이 주를 이루며, 확산 모델은 그림의 해상도를 유지한 채 정상적인 그림을 노이즈로 변환하고 다시 노이즈에서 정상적인 그림으로 되돌리는 과정을 반복하며 학습한다.
이 과정에서 글의 의미가 반영되도록 하기 위해, 입력된 글을 사전훈련된 언어 모델 또는 그림-글 멀티모달 모델의 언어 부분 인코더를 활용해 고차원 벡터로 변환하고, 이 의미와 노이즈를 결합해 그림으로 만들어낸다.
텍스트 투 비디오 기술은 초벌 영상을 만들어 평가함으로써 제작 시간과 비용을 획기적으로 줄일 수 있으며 미디어 콘텐츠 관련 산업에서 비용 절감과 생산성 향상에 큰 기여를 할 것으로 보인다
특히
Sora는 기술적으로는 트랜스포머 기반의 확산모델(Diffusion Transformers: DiT)을 통해 대량의 영상 데이터를 효과적으로 학습한 결과라면
이에 필적하는 기술들로 웹이나 API형태로 사용할 수 있는 서비스로는 루마 AI의 루마(Luma), 런웨이 Runway의 Gen3-alpha, 중국 콰이쇼우 kuaishou의 클링 Kling 등이 있다. 오픈 AI가 API형태를 제공하지 않는 것과는 대조적이다.
멀티모달 AI에서 또 다른 큰 발전은 오픈 AI가 24년 5월 발표한 GPT-4o이다.
이 모델은 음성, 글, 이미지, 영상을 단일한 생성형 AI모델로 학습, 처리, 생성할 수 있다. GPT-4o에서 ‘o’은 옴니모달(omni-modal)을 뜻하며, 멀티모달을 넘어 인간처럼 모든 모달리티를 한꺼번에 처리하는 AI를 의미한다.
챗GPT-4o는 사람의 반응과 유사한 속도인 평균 0.3초를 자랑하며 이는 단일 모델이 갖는 장점으로, 음성 입력을 수십 밀리초 단위로 토큰화하여 스트리밍 형태로 처리하기 때문에 가능한 것이다.
멀티모달 처리 능력은 생성형 AI의 이해와 추론 능력을 크게 향상할 뿐만 아니라 사용자 경험이나 인터페이스 측면에서도 사용성과 접근성을 크게 개선할 수 있다.
이러한 멀티모달 생성형 AI기술은 AI에이전트의 등장을 가속화하는 계기가 되고 있다.
2장 할루시네이션
하정우_할루시네이션은 문제라기보다는 현상이다.
할루시네이션은 생성형 AI, 특히 거대 언어모델(LLM)이 갖는 고유한 특징이다.
이러한 고유한 특징인 할루시네이션을 해결하기 위한 여러 방법에는 먼저 관련된 지식 데이터를 명령과 모범답안 형태로 가공해 LLM을 추가학습하는 사후학습(포스트트페이닝, 컨티뉴드트레이닝, 파인튜닝)이 있다.
첫 번째 방법인 추가학습은 크게 두 가지로 나뉜다.
다량의 양질의 가공된 데이터로 모델 전체를 학습하는 지도미세학습(supervised fine-tuning: SFT)과 상대적으로 적은 양의 가공된 데이터를 활용해 모델의 일부만 학습하는 매개변수로 효율적 미세학습(Parameter-efficient fine tuning: PEFT)이 있다.
추가로 사용자들로부터 LLM이 생성한 결과물에 대한 피드백을 받아 이를 바탕으로 생성형 AI의 글쓰기 평가 모델을 강화학습해 개선하는 사용자 피드백 기반 강화학습(RLHF)도 할루시네이션을 상당 부분 해소 할 수 있다.
최근에는 직접 선호도 최적화(DPO)도 널리 사용되는 추세이다.
할루시네이션은 특히 법률, 공공, 금융 분야의 챗봇을 만들 때 SFT(지도미세학습)과 PEFT(효율적 미세학습)만으로는 충분히 사실 정보 생성 보장이 어려우므로 검색 증강 기법(Retrieval-Augmented Generation: RAG)과 함께 활용된다.
두 번째인 RAG는 특히 사내 질의응답 시스템이나 사실 기반 챗봇 개발에 매우 유용해 널리 활용되고 있으며 매뉴얼 문서들을 가공해 이를 임베딩모델을 사용해 텍스트 조각을 벡터로 변환한 후 벡터 데이터베이스를 구축한다.
사용자가 입력한 질의를 벡터 데이터베이스에서 질의와 관련된 정보를 검색해 가져온 후 이 정보를 프롬프트 LLM에 입력한다.
알아가기)
*임베딩 : chatGPT와 Bard 및 Claud의 기반이 되는 기술인 대규모 언어 모델에 인접한 기술로 임베딩은 콘텐츠를 부동 소수점 숫자와 배열로 변환하는 것을 말한다.
*벡터 데이터베이스 : 데이터 객체의 수치적 표현인 벡터(벡터 임베딩) 형태로 정보를 저장하는 데이터베이스
세 번째는 콘텍스트 길이를 늘이는 방법이다. 콘텍스트는 LLM이 글을 생성할 때 참조하는 이전 토큰들의 의미를 포함하는 것으로 , 이를 길게 유지하면 LLM이 참조 가능한 정보의 양이 늘어나 할루시네이션을 줄일 수 있다.
충분히 긴 콘텍스트가 필요한 이유는 매우 긴 소스 코드가 포함된 프로그램 작성이나 분석, 또는 음성, 이미지, 영상 등과 같은 대규모 데이터를 처리하는 데 더 많은 토큰이 필요하기 때문이다. 따라서 멀티모달 생성형 AI를 제대로 활용하기 위해서도 긴 콘텍스트가 필수적이다.
*정확한 글을 쓸 수 있도록 하는 기법*
오픈 AI o1처럼 글을 생성하는 과정 중에 내용을 AI가 스스로 교정하거나 중간 과정마다 검증, 더 정확한 글을 쓰는 기법
새로운 형태의 연산량 규모의 법칙
1. 테스트 타임 추론(추론 시간 규모의 확장) : 사람으로 치면 곰곰이 생각하면서 글을 여러 번 고쳐 쓰는 것
고쳐 쓰기의 반복이다 보니 품질은 좋아지지만 토큰을 많이 활용하기 때문에 비용이 비싸지게 된다.
3장 온디바이스 AI로의 확산
온디바이스 AI는 생성형 AI모델의 크기를 조정해 학습, 추론, 운영 대비 효과에 대한 경제성과 개인정보 데이터의 보안성을 동시에 갖추고 있다.
LLM에 대한 투자 부담이 커지면서 경량화된 sLM의 연구가 개별 디바이스에서 구동 가능한 AI칩셋까지 확장되었고 온디바이스 AI는 개별 디바이스에서 AI서비스를 제공하는 것에 관심이 다시금 커지게 만들었다.
즉 클라우드 기반이 아닌 디바이스 자체에서 AI알고리듬을 실행하며 학습과 추론, 서비스를 수행할 수 있는 기술이다.
하지만 스마트폰 수준의 모바일 기기에 20~30억 개 매개변수를 가진 sLM을 탑재하는 것은 기술적으로 어려운 일이다. 양자화나 프루닝과 같은 다양한 압축 기술과 압축 모델 기반 학습 기법을 활용해도 실질적으로 어려움이 내재한다.
24년 6월 WWDC2024에서 애플 인텔리전스를 발표하면서 IOS18과 iPad OS에 적용될 애플 파운데이션 모델(AFM)을 공개했다.
AFM은 매개변수 30억 개 미만의 기기용 모델인 AFM-Device와 훨씬 강력하고 큰 클라우드용 AFM Server로 구성되어 있다.
애플 인텔리전스는 애플 AI만 사용하는 것이 아니라 AFM을 통해 오픈 AI와 협업해 사용자 요구를 챗GPT-4o과 연동해 처리하는 서비스가 하반기에 출시될 예정이라고 밝혔다. 이를 통해 애플도 24년 하반기부터 온디바이스 AI시장에 본격적으로 뛰어들 것으로 보인다.
챗GPT-4o 미니나 제이나미 플래시 등 기존 대규모 모델의 경량화 모델뿐만 아니라 오픈소스 sLM모델의 경쟁력이 학습 기법의 발전으로 크게 향상됨에 따라 스마트폰을 넘어 pc, 로봇, 가전, 자동차, 건물, 드론이나 UAM 등 다양한 기기로 자연스럽게 확장되고 있다.
마이크로소프트 : 파이(phi)-3는 작은 생성형 AI인 sLM(small language model)으로 매개변수 38억 개로, 스마트폰을 위한 언어 모델로 명시될 정도로 온디바이스를 지향하고 있으며 최근 성능이 업그레이드된 파이-3.5를 공개했다.
4장 생성형 AI가 부활시킨 AI에이전트
멀티모달 생성형 AI와 경량화, 온디바이스 AI기술은 결국 AI에이전트의 시대를 가져올 것이다._하정우
생성형 AI기반의 AI에이전트 시대와 맞물려 LLM을 넘어선 거대행동모델(Large Action model:LAM) 개념이 등장하고
온라인과 기기에 탑재되어 오프라인에서 행동을 실행하는 AI의 시대가 열리고 있다.
24년 8월 구글에서 발표한 제이나이라이브를 시작으로 멀티모달 생성형 AI기반의 AI에이전트를 본격적으로 사용하기 시작했다.
사용자의 특성과 의도를 더욱 정확하게 이해하려면 개인정보나 민감한 정보를 활용하거나 학습해야 하므로 온디바이스에서 동작 가능한 sLM과 복잡한 추론 및 의사결정 지원을 클라우드 기반 LLM의 메타 에이전트가 조화를 이루는 하이브리드 형태의 에이전트 계층 구조가 필요할 수 있다.
5장
오픈소스 AI생태계의 확장은
폐쇄형 AI와 비교해 각 기술의 장단점을 파악한 후 도입이 필요하다 _ 하정우
메타가 오픈소스 생태계를 주도함에 따라 구글과 마이크로소프트도 각각 젬마 Gemma와 파이 phi시리즈를 오픈소스 sLM형태로 공개하면서 오픈소스 생태계 주도권 싸움이 치열해지고 있다.
다양한 오픈소스 sLM의 등장은 기존 폐쇄형 LLM들 간의 단조로운 경쟁 구도를 벗어나 다양한 선택의 기회를 제공하고 있다. 오픈소스 LLM과 폐쇄형 LLM 간의 선택은 단순한 기술적 결정이 아니라 기업의 전략적 판단이 필요하다.
24년 5월 공개된 메타의 라마 3은 무려 15조 개의 토큰으로 사전학습되었고 대량의 인스트럭트 데이터를 기반으로 학습되어 대부분의 벤치마크에서 GPT_4나 제미나이, 클로드 3과 유사한 성능을 보이고 있다.
프랑스 전문가 모델 조합인 믹스트랄 Mixtral을 발표하면서 오픈소스 sLM 생태계의 강자로 떠올랐다. 국내에서도 미스트랄 LM을 활용해 한국어 기반의 sLM모델을 공개하거나 활용하는 스타트업들이 증가하고 있다. 대표적으로 업스테이지 솔라 10.7B, 야놀자에서 공개한 EEVE이다.
작고 효율적인 AI모델, 버티컬 특화된 틈새시장에 적합한 AI모델 등 경쟁력을 확보하는 방향으로 기술이 흐르고 있다.
6장 비용 감소 노력과 AI반도체
지속 가능한 AI관점- AI학습과 추론에 필수적인 GPU공급과 수요의 불균형 문제은 지속가능성에 큰 영향을 미칠 수 있다.
새로운 GPU제품이 나올 때마다 가격과 전력 소모량이 급격히 증가하고 이를 위해 비용을 줄이기 위한 방법으로 학습데이터 양, 양자화 기술, AI반도체 개선 방법이 제시되고 있다.
현재 전 세계 AI 가속 반도체 시장의 90퍼센트 이상을 엔비디아의 GPU가 차지하고 있다. 이는 학습뿐만 아니라 추론에서도 마찬가지이다.
V100, A100, H100 등 새로운 GPU제품이 나올 때마다 가격과 전력 소모량이 급격히 증가하고,
전력 소모량이 400W에서 700W로 75퍼센트 증가했지만, HBM 메모리 대역폭과 연산 속도는 50퍼센트 증가에 그쳐 성능 대비 전력 효율은 오히려 악화되었다.
AI가속칩은 메모리 속도 문제를 해결하기 위해 고성능 HBM을 사용하는데, 이 HBM은 층을 쌓는 구조로 만들어지기 때문에 전력 소모가 크고 열도 많이 발생시킨다. 이에 따라 데이터센터 운영비도 크게 증가한다.
비용을 줄이기 위한 방법으로 첫 번째는 규모의 법칙에 따라 학습데이터 양에 중점을 두는 것이다. 즉 동일한 양의 GPU가 주어졌을 때, 모델의 크기를 적당히 유지하면서 학습 데이터 양을 많이 늘리고 학습 시간도 충분히 사용하는 것이다.
최근에는 수십 또는 수백억 개의 매개변수의 생성형 AI사전훈련에 기존 방법보다 훨씬 더 많은 데이터를 사용한다.
두 번째로 모델 크기를 추가적으로 줄이기 위해 양자화 기술이 사용된다.
최근에는 양자화기법과 이를 고려한 모델 학습 기법이 발전하면서 4비트 양자화로 모델 크기를 줄여도 성능 손실이 미미하며, 속도도 함께 개선되어 GPU당 처리할 수 있는 토큰 수가 향상되는 기법이 소개되고 있다
양자화는 매개변수 개수를 유지하면서 매개변수 하나에 필요한 메모리 크기를 줄이는 방법이다. 일반적으로 모델을 저장할 때 FP16, 즉 2바이트 부동소수 표현을 사용하는데 작은 4비트나 3비트로 양자화해 저장하는 것이다.
알고리즘적 노력뿐만 아니라 AI반도체의 개선도 중요하다.
엔비디아 GPU가 양자화된 sLM이나 LLM모델이 대량의 입력을 처리하는 데 다소 비효율적이기 때문에 이를 효율적으로 연산할 수 있는 AI추론 반도체의 출현이 필요하다.
최근 챗GPT-4o미니와 구글 제미나이 플래시 등 상대적으로 작은 모델의 API가격이 대폭 하락하고 있으며, 특히 챗GPT-4o미니는 무료로 제공되고 있는 점에서 점차 해소될 것으로 보인다.
7장 안정성과 책임성
AI안전 거버넌스 확립
기업
생성형 AI는 강력한 범용 능력을 보유하고 있지만, 환각, 편향되거나 혐오적인 콘텐츠 생성, 계획 수립 과정에서 의도치 않게 기본 원칙이 깨지는 현상, 외부 프롬프트에 따른 이상 결과 발생 등의 명확한 한계를 지니고 있다.
이에 따라 24년 5월 AI 서울에서 개최되는 ‘AI 서울 정상회의에서 안정성을 필두로 혁신, 포용성으로 핵심 키워드가 확장되었다.
3회 정상회의는 25년 2월 프랑스에서 개최될 예정이며 AI의 안정성과 책임성을 위한 포괄적인 AI거버넌스 프레임워크의 필요성이 더욱 중요해지고 있다.
AI거버넌스의 모래시계 모델(환경적, 조직적, AI시스템)
그림 https://ai-govemance.eu/ai-govemance-framework/the-hourglass-model/ 참고
8장 소버린 AI
‘소버린‘은 ‘주권의’라는 뜻으로 소버린 AI는 특정 국가나 지역의 문화나 가치관 특수성을 정확히 이해하고 콘텐츠를 생성할 수 있는 AI를 의미한다.
기술적 난이도를 고려해 신뢰할 수 있는 다른 국가나 기업과의 파트너십을 통해 해당 국가를 정확히 이해하는 AI를 개발하는 것을 뜻한다.
소버린 AI가 중요한 이유는 AI가 국가 간 힘의 균형을 바꿀 수 있으며, 이 균형이 몇 년 이내의 짧은 기간 내에 결정될 것이라는 점이다.
24년 2월 UAE에서 열린 WGS(World Government Summit)에서는 엔비디아 CEO젠슨 황이 소버린 AI의 필요성을 강조하였고 24년 7월 가트너는 ‘AI하이프사이클 24에서 소버린 AI를 2~5년 내 달성될 하이프 구역에 처음으로 배치하며 이 개념이 추상적인 것이 아니라 실제 비즈니스 측면에서 중요한 개념이라는 것을 확정했다.