이 글은 제가 NIA [한국지능정보사회진흥원]의 < 디지털서비스 이슈리포트 > 2024년 5월호에 기고한 글입니다. 원본 글 '클라우드 플랫폼의 LLM 평가 프레임워크'을 이곳 브런치에서도 공유합니다.
끊임없이 진화하는 AI 환경에서 대규모 언어 모델(LLM)의 개발과 배포는 다양한 영역에 걸쳐 지능형 애플리케이션을 구성하는 데 중추적인 역할을 하고 있다. 그러나 이러한 잠재력을 실현하려면 엄격하고 체계적인 평가 프로세스가 필요하다. LLM 시스템 평가와 관련된 지표와 과제를 살펴보기 전에 잠시 멈춰서 현재 평가에 대한 접근 방식을 생각할 필요가 있다. 평가 프로세스가 프롬프트 목록에서 LLM 애플리케이션을 실행하고, 출력을 수동으로 검사하고, 각 입력에 따라 품질을 측정하는 프로세스를 반복하고 있지 않은가? 그렇다면 그 평가가 일회성 작업이 아니라 LLM 애플리케이션의 성능과 수명에 중대한 영향을 미치는 다단계 반복 프로세스라는 점을 먼저 인식하는 것이 중요하다. 대규모 언어 모델에 맞게 조정된 MLOps의 확장판인 LLMOps의 등장으로 CI/CE/CD(지속적 통합/지속적 평가/지속적 배포)의 통합은 LLM으로 구동되는 애플리케이션의 수명 주기를 효과적으로 감독하는 데 필수 불가결한 요소가 되었다.
평가의 반복적 특성에는 몇 가지 주요 구성 요소가 포함된다. 시간이 지남에 따라 지속적으로 개선되는 진화하는 평가 데이터 세트가 필수적이다. 특정 사용 사례에 맞는 일련의 관련 평가 지표를 선택하고 구현하는 것도 중요한 단계다. 덧붙여 강력한 평가 인프라를 구축하면 LLM 애플리케이션의 전체 수명 기간 동안 실시간 평가가 가능하다. LLM 시스템 평가의 지표, 과제 및 모범 사례를 구현하려고 할 때 지속적인 프로세스로서 평가의 중요성을 인식하는 것이 필수적이다. 이는 개발자와 연구자가 향상된 성능과 실제 적용 가능성을 위해 LLM을 개선하고 최적화하는 데 있어 중요한 역할을 한다.
이 글에서는 대규모 언어 모델(LLM) 평가와 LLM 기반 시스템 평가를 위한 프레임워크과 평가지표를 이야기한다. 오늘날의 LLM은 챗봇, 텍스트 생성, 요약, 질의응답, 분석, 번역 등 다양한 작업을 수행함으로써 놀라운 능력을 보여준다. 일반적으로 이러한 모델은 표 1의 표준화된 벤치마크 방법을 사용하여 평가를 한다.
다양한 애플리케이션에서 LLM의 품질과 효과를 측정하기 위해서는 LLM을 평가하는 것이 필수적이다. LLM을 평가하기 위해 특별히 고안된 수많은 프레임워크 중에 가장 널리 알려진 마이크로소프트와 구글의 솔루션을 소개한다.
애저 AI 스튜디오는 AI 개발자와 데이터 과학자가 웹 포털, SDK 또는 CLI를 통해 AI 모델을 빌드, 평가 및 배포할 수 있는 통합 환경을 제공하는 올인원 AI 플랫폼이다. 애저 AI 스튜디오는 다음과 같은 목적을 위해 사용된다.
엔터프라이즈급 플랫폼에서 생성형 AI 애플리케이션 빌드
AI 스튜디오에서 직접 애저 AI SDK를 통해 상호 작용
책임감 있는 AI 사례에 기반한 AI 도구 및 ML 모델을 사용하여 탐색, 빌드, 테스트 및 배포
애저 AI 허브 리소스는 엔터프라이즈급 보안과 사전 학습된 모델, 데이터 및 컴퓨팅에 대한 공유 파일 및 연결이 포함된 공동 작업 환경 제공
아이디어에서 프로토타입, 프로덕션, 배포로 반복할 수 있도록 프로젝트 상태를 저장
애저 AI 스튜디오 플랫폼은 개념 증명을 본격적인 프로덕션으로 쉽게 전환할 수 있는 확장성을 지원하고 지속적인 모니터링과 개선 방법을 제안한다.
- AI 허브: AI 허브는 AI 스튜디오의 최상위 리소스이다. 이 리소스는 다음과 같은 기능을 제공한다:
- 데이터 업로드 및 아티팩트 저장.
- 애저 OpenAI, 애저 AI 서비스 및 애저 AI 검색과 같은 서비스에 대한 허브 연결
- 애저 OpenAI, 음성 및 비전을 위한 기본 모델 엔드포인트.
- 컴퓨팅 리소스
- 보안 및 거버넌스
- AI 프로젝트: AI 프로젝트는 AI 허브의 하위 리소스이다. 이 리소스는 AI 허브의 연결 및 컴퓨팅 리소스를 상속하고 AI 허브에서 새 AI 프로젝트가 만들어지면 AI 허브의 보안 설정이 적용된다. AI 프로젝트는 다음과 같은 기능을 제공한다:
- 데이터 세트, 모델 및 인덱스와 같은 구성 요소 그룹
- 격리된 데이터 컨테이너
- 프로젝트 범위 연결. 예를 들어 프로젝트에서 별도의 애저 스토리지 계정에 저장된 데이터에 액세스 할 수 있다.
- 카탈로그 및 미세 조정된 모델 엔드포인트에서 오픈 소스 모델 배포.
AI 허브에는 여러 하위 AI 프로젝트가 있을 수 있고, 각 AI 프로젝트는 프로젝트 범위의 자체 연결 집합을 가질 수 있다.
아이디어 구상, 프로토타이핑, 테스트 및 평가부터 프로덕션, 배포 및 모니터링에 이르기까지 LLM 기반 AI 애플리케이션의 엔드투엔드 개발 주기를 간소화하도록 설계된 개발 도구 모음이다. 프롬프트 플로우를 사용하여 다음과 작은 작업을 수행한다.
- 플로우 생성 및 반복 개발
- LLM, 프롬프트, Python 코드 및 기타 도구를 서로 연결하는 플로우 생성
- 플로우, 특히 LLM과의 상호 작용을 쉽게 디버그
- 흐름 품질 및 성능 평가
- 대규모 데이터 세트로 플로우의 품질과 성능 평가
- 테스트 및 평가를 CI/CD 시스템에 통합하여 플로우의 품질 보장
- 프로덕션을 위한 개발 주기 간소화
- 선택한 서비스 플랫폼에 플로우를 배포하거나 앱의 코드 베이스에 통합
- 클라우드 버전의 프롬프트 플로우를 활용하여 팀 멤버와 공동 작업
버텍스 AI는 생성형 AI를 구축하고 사용하기 위한 관리형 통합 AI 개발 플랫폼이다. 버텍스 AI 스튜디오, 에이전트 빌더, 제미나이 1.5 프로를 포함한 150개 이상의 기본 모델에 액세스하고 활용할 수 있다. 제미나이는 멀티모달 기능으로 거의 모든 입력을 이해하고 다양한 유형의 정보를 결합하여 모든 종류의 출력을 생성할 수 있다. 개발자는 제미나이의 고급 추론 및 최첨단 생성 기능을 사용하여 이미지에서 텍스트를 추출하고, 이미지 텍스트를 JSON으로 변환하고, 업로드된 이미지에 대한 답변을 생성하여 차세대 AI 애플리케이션을 구축하기 위한 샘플 프롬프트를 사용해 볼 수 있다. 모델 가든에서 구글 모델(Gemini, Imagen, Codey) 외에 앤쓰로픽의 클로드 3, 젬마(Gemma)나 라마(Llama) 3와 같은 오픈 모델을 선택할 수 있다. 데이터 과학자는 ML 모델을 훈련, 튜닝 및 배포하기 위한 버텍스 AI 플랫폼 도구를 사용할 수 있다. 기본적으로 BigQuery와 통합되어 모든 데이터 및 AI 워크로드에 걸쳐 단일 프로세스를 제공한다. 또한 데이터 과학자가 ML 프로젝트를 자동화, 표준화 및 관리할 수 있도록 특별히 설계된 MLOps 도구를 제공한다. 버텍스 AI로 가장 적합한 모델 식별, 파이프라인으로 워크플로 조율, 모델 레지스트리로 모델 관리, 피처 스토어(Feature Store)로 ML 기능 제공, 공유 및 재사용, 입력 왜곡에 대한 모델 모니터링 등 다양한 작업을 수행할 수 있다.
많은 LLM 기반 기능을 둘러싼 내재된 불확실성을 고려할 때 개인정보 보호 및 사회적 책임 기준을 준수하기 위해서는 무엇보다 먼저 신중한 출시가 필수적이다. 오프라인 평가는 일반적으로 기능의 초기 개발 단계에서는 유용하지만 모델 변경이 라이브 프로덕션 환경에서 사용자 경험에 미치는 영향을 평가하는 데는 충분하다고 할 수 없다. 따라서 온라인과 오프라인 평가의 장점을 취하기 위해서는 개발 및 배포 수명 주기 전반에 걸쳐 LLM의 품질을 포괄적으로 이해하고 향상시킬 수 있는 프레임워크가 필요하다. 이러한 접근 방식을 통해 개발자는 자동화된 평가를 통해 LLM의 신뢰성과 효율성을 보장하는 동시에 실제 사용에서 얻어질 수 있는 귀한 인사이트를 얻을 수 있다.
오프라인 평가는 특정 데이터 세트에 대해 LLM을 면밀히 테스트하는 방법이다. 배포 전에 기능이 성능 표준을 충족하는지 확인하며, 특히 수반(entailment) 및 사실성(factuality)과 같은 측면을 평가하는 데 효과적이다. 이 방법은 개발 파이프라인 내에서 원활하게 자동화할 수 있으므로 라이브 데이터 없이 빠르게 반복할 수 있다. 비용 효율적이며 배포 전 점검 및 회귀 테스트에 적합하다.
처음에 LLM 애플리케이션을 구축하는 과정은 정량적이 아닌 표나 그래픽 데이터의 시각적 검사만을 사용하여 대략적인 감각이나 추정치를 통한 예비 평가로 시작한다. 여기에 몇 가지 입력과 예상 응답을 실험하고, 다양한 구성 요소, 프롬프트 템플릿 및 기타 요소를 시도하여 시스템을 튜닝하고 구축하는 것이 포함된다. 이 접근 방식은 개념 증명을 제공하지만, 그다음 과정으로 넘어가기 위한 단계일 뿐이다.
LLM 시스템을 철저하게 평가하려면 각 구성 요소에 대한 평가 데이터 세트(기준 데이터 또는 골든 데이터 세트라고 함)를 만드는 것이 가장 중요하다. 하지만 이 데이터 세트 생성에 드는 비용과 시간 은 꽤 크다. 그리고 LLM 기반 시스템에 따라 평가 데이터세트를 설계하는 것은 복잡한 작업이다. 데이터 수집 단계에서는 다양한 시나리오, 주제, 복잡성을 아우르는 다양한 입력 세트를 세심하게 큐레이션해야 하는데 이러한 다양성은 LLM이 광범위한 입력을 처리하여 효과적으로 일반화할 수 있도록 보장해야 하기 때문이다. 동시에 그에 상응하는 고품질의 결과물을 수집하여 LLM의 성능을 측정할 근거 데이터를 구축한다. 골든 데이터 세트를 구축하려면 각 입력-출력 쌍에 대한 세심한 설명과 검증이 필요하다. 이 프로세스는 데이터 세트를 개선할 뿐만 아니라 LLM 애플리케이션 내의 잠재적인 문제에 대한 이해가 필요하기 때문이다. 골든 데이터 세트는 벤치마크 역할을 하여 LLM의 기능을 평가하고 개선 영역을 식별하며 의도된 사용 사례에 맞게 조정할 수 있는 신뢰할 수 있는 표준을 제공하게 된다.
평가 프로세스의 확장성을 높이려면 초기에는 LLM의 기능을 활용하여 평가용 합성 데이터세트를 생성하는 것이 유용하다. 이 접근 방식은 사람의 노력을 절약하는 데 도움이 되지만, LLM에서 생성된 데이터 세트의 품질을 보장하기 위해 지속적으로 사람의 참여를 유지하는 것이 여전히 중요하다는 점에 주목할 필요가 있다.
이 접근 방식은 사람이 평가하는 것보다 더 빠르고 비용 효율적일 뿐만 아니라 효과적으로 보정할 경우 상당한 가치를 제공할 수 있는 잠재력을 가지고 있다. 하지만 설계 단계에서는 알고리듬의 정확성을 확실하게 증명할 수 없기 때문에 실험 설계에 대한 세심한 접근이 필수적이다. 모든 LLM은 오류를 생성한다는 것을 인식하고 건강한 회의론에서 시작하는 것이 필수적이다. 단순한 해결책을 받아들이려는 의지는 비판적이고 분별력 있는 시각을 갖고 절제해야 한다.
온라인 평가는 실제 프로덕션 시나리오로 진행되며, 실제 사용자 데이터를 활용하여 직간접적인 피드백을 통해 라이브 성능과 사용자 만족도를 평가한다. 이 프로세스에는 라이브 프로덕션에서 파생한 새로운 로그 항목에 의해 생성되는 자동 평가툴을 사용한다. 온라인 평가는 실제 사용의 복잡성을 반영하는 데 탁월하고 귀중한 사용자 피드백을 통합하므로 지속적인 성능 개선을 위해 꼭 필요하다. 표 2는 온라인 지표 목록에 대한 예를 표시한다.
윤리적 사용을 보장하고 잠재적 위험을 완화하기 위해서는 책임감 있는 LLM의 개발과 배포가 중요하다. 책임감 있는 AI 관행을 준수함으로써 개발자와 사용자는 언어 생성의 편견, 잘못된 정보, 의도하지 않은 결과와 관련된 우려를 줄일 수 있다. 알고리듬의 투명성, 의사 결정 과정의 책임성, 윤리적 고려 사항에 대한 지속적인 모니터링은 책임감 있는 AI의 필수 요소이다. 이러한 접근 방식은 사용자 신뢰를 높이고 윤리적 사용을 장려하여 LLM 애플리케이션의 공정성, 포용성, 신뢰성을 증진함으로써 사회에 미치는 긍정적인 영향에 기여한다.
마이크로소프트[1]가 제시한 RAI 잠재적 위험 범주를 기반으로 여러 가지 설계된 질문을 사용하여 LLM 애플리케이션을 평가하는 것이 가장 좋은 방법이라 할 수 있다. 또는 USAID의 AI 배포 체크리스트[2]를 수집할 수도 있다. 벤치마크 데이터 세트를 큐레이션한 후, 이를 체계적으로 활용하여 AI 기능을 반복적으로 평가하는 프로세스의 정립이 필요하다.
LLM 시스템의 평가 지표는 상황에 맞는 평가를 위해 애플리케이션 시나리오에 따라 기준을 조정하는 것이 중요하다. 즉 이 뜻은 애플리케이션마다 특정 목표와 요구 사항에 부합하는 고유한 성능 지표가 필요하다는 의미이다. 예를 들어, 정확하고 일관된 번역을 생성하는 것이 주요 목표인 머신 번역 분야에서는 일반적으로 Bleu[3]와 같은 평가 지표를 사용한다. 이러한 지표는 기계 생성 번역과 사람이 참조한 번역 간의 유사성을 측정하도록 설계했다. 이 시나리오에서는 언어적 정확성에 초점을 맞추기 위해 평가 기준을 조정하는 것이 필수적이다. 반면 감성 분석과 같은 애플리케이션에서는 정확도, 리콜, F1 점수와 같은 메트릭을 우선적으로 고려할 수 있다. 텍스트 데이터에서 긍정 또는 부정 감정을 정확하게 식별하는 언어 모델의 능력을 평가하려면 감정 분류의 뉘앙스를 반영하는 메트릭 프레임워크가 필요하다. 이러한 메트릭을 강조하도록 평가 기준을 조정하면 감정 분석 애플리케이션의 맥락에서 보다 관련성 있고 의미 있는 평가를 보장할 수 있다.
또한 언어 모델 애플리케이션의 다양성을 고려할 때 평가의 다면적인 특성을 인식하는 것이 필요하다. 어떤 애플리케이션은 언어 생성의 창의성과 일관성을 우선시하는 반면, 어떤 애플리케이션은 사실적 정확성이나 도메인별 지식을 우선시할 수 있다. 평가 기준을 조정하면 해당 애플리케이션의 특정 목표에 맞게 세밀하게 조정된 평가가 가능하다. 목표는 끊임없이 진화하는 다양한 애플리케이션 환경에서 LLM 시스템을 보다 정확하고 의미 있게 평가할 수 있는 방법을 개발하는 것이다. 여러 애플리케이션 시나리오중 RAG(검색 증강 생성)에 관한 평가 프레임워크와 평가 지표를 예를 들어 본다.
RAG는 검색과 생성 방법의 요소를 모두 결합한 자연어 처리 모델로서 정보 검색 기술과 텍스트 생성 기능을 통합하여 언어 모델의 성능을 향상시키도록 설계되었다. RAG가 관련 정보를 얼마나 잘 검색하고, 문맥을 통합하며, 창의성을 보장하고, 편견을 피하고, 사용자 만족도를 충족하는지 평가하는 것은 매우 중요하다. 이를 통해 강점과 약점을 파악하여 검색 및 생성 구성 요소의 개선을 유도할 수 있다. 표 4에는 가장 많이 사용하는 평가 프레임워크를 소개하고, 표 5에는 평가에 사용되는 주요 지표를 정리해 보았다.
LLM 시스템 평가의 다양한 측면과 평가 도구와 프레임워크 환경, 평가 지표와의 관련성을 살펴보았다. AI 기술이 빠르게 발전함에 따라 소개한 내용에만 머물지 말고, 매일 새로운 메트릭과 프레임워크가 나타나고 애플리케이션 시나리오에 따라 검토되고 도입해야 한다는 점에 유의해야 한다.
최근에 영국 AI 안전 연구소에서 공익을 위한 AI의 안전한 사용과 잠재적으로 유해한 기능을 검출하기 위한 평가 프레임워크와 그 기준을 발표하였다.[4] 이 평가 기준은 특정 안전 관련 영역에서 모델 기능을 측정하는 데 중점을 두며, 다양한 과학적 및 기타 제한 사항이 적용되는 예비적인 성격의 평가이다. 이러한 평가 프레임 워크으로 정부와 기업이 더 나은 정보에 입각한 의사결정을 내리고 위험에 대한 조기 경보 시스템 역할을 할 수 있을 것으로 기대한다. 물론 이런 프레임워크만으로는 발전하는 AI 기술을 위한 최종 거버넌스를 구현하는 데 충분하지 않을 수 있지만, 새로운 형태의 거버넌스를 지원하고, 근본적으로 더 안전한 AI 개발을 가능하게 하며, AI 위험으로부터 사회의 시스템적 안전을 보장하는 토대를 마련한다는 의미에서 우리나라 정부도 이런 지침과 방안이 빠르게 준비되어 실행되길 기대한다.
[1] Microsoft AI, “ Empowering responsible AI practices”
[2] USAID, “CHECKLIST FOR AI DEPLOYMENT”, Dec 2023
[3] Huggingface, “Metric: Bleu”
[4] gov.uk, “AI Safety Institute approach to evaluations”, Feb 9, 2024