brunch

You can make anything
by writing

C.S.Lewis

by 박태웅 Apr 29. 2023

[번역]거대언어모델(LLM) 가이드

The Practical Guides for LLMs

<The Practical Guides for Large Language Models>라는 논문을 번역했습니다. 기계 번역을 한 뒤 교정했습니다. 조금이라도 미심쩍은 부분은 반드시 원본을 참고해 주세요. 


https://github.com/Mooler0410/LLMsPracticalGuide?fbclid=IwAR2jeFAXvKfGh6FGVovC7M5ww2PJgaWpawGAsHf61ISJ8owoBKRcOU5an5M


아래는 이 논문에 대한 얀 르쿤의 지적입니다.  


The architecture nomenclature for LLMs is somewhat confusing and unfortunate.

What's called "encoder only" actually has an encoder and a decoder (just not an auto-regressive decoder).

What's called "encoder-decoder" really means "encoder with auto-regressive decoder"

What's called "decoder only" really means "auto-regressive encoder-decoder"


이 논문의 LLM 아키텍처 명명법은 다소 혼란스럽고 안타깝습니다.

"인코더 전용"이라고 하는 것은 실제로는 인코더와 디코더가 있습니다(자동 회귀 디코더가 아닐 뿐).

"인코더-디코더"라고 하는 것은 실제로는 "자동 회귀 디코더가 있는 인코더"를 의미합니다.

"디코더 전용"이라고 하는 것은 실제로는 "자동 회귀형 인코더-디코더"를 의미합니다.


https://github.com/Mooler0410/LLMsPracticalGuide


—————————————————————————————————

실무에서 LLM의 힘 활용하기: ChatGPT와 그 너머에 대한 설문 조사


이 백서에서는 다운스트림 자연어 처리(NLP) 작업에서 대규모 언어 모델(LLM)을 사용하는 실무자와 최종 사용자를 위한 포괄적이고 실용적인 가이드를 제공합니다. 모델, 데이터 및 다운스트림 작업의 관점에서 LLM 사용에 대한 논의와 인사이트를 제공합니다. 


먼저, 현재 GPT 및 BERT 스타일의 LLM에 대한 소개와 간략한 요약을 제공합니다. 

그런 다음 사전 학습 데이터, 학습 데이터, 테스트 데이터의 영향에 대해 논의합니다. 무엇보다도 지식 집약적 작업, 전통적인 자연어 이해 작업, 자연어 생성 작업, 긴급 능력, 특정 작업에 대한 고려 사항 등 다양한 자연어 처리 작업에 대한 대규모 언어 모델의 사용 및 비사용 사례에 대해 자세히 논의하고, 실제 시나리오에서 LLM의 실제 적용과 한계를 설명하기 위해 다양한 사용 사례와 비사용 사례를 제시합니다. 또한 데이터의 중요성과 각 NLP 작업과 관련된 구체적인 과제를 이해하려고 노력합니다. 

또한 허위 편향이 LLM에 미치는 영향을 살펴보고 효율성, 비용, 지연 시간 등 기타 필수 고려 사항을 자세히 살펴봄으로써 실제로 LLM을 배포하는 데 대한 포괄적인 이해를 돕습니다. 

이 종합 가이드는 연구자와 실무자에게 LLM 작업에 대한 귀중한 인사이트와 모범 사례를 제공함으로써 다양한 자연어 처리 작업에서 이러한 모델을 성공적으로 구현할 수 있도록 지원하는 것을 목표로 합니다. 정기적으로 업데이트되는 LLM에 대한 실용적인 가이드 리소스의 엄선된 목록은 \url{이 https URL}에서 확인할 수 있습니다.


1 서론


최근 몇 년 동안 대규모 언어 모델의 급속한 발전은 자연어 처리 분야에 혁명을 일으키고 있습니다[12, 128, 131]. 이러한 강력한 모델은 자연어 이해(NLU)에서 생성 작업에 이르기까지 다양한 NLP 작업을 처리하는 데 큰 잠재력을 보여 주었으며, 심지어 인공 일반 지능(AGI)으로 나아가는 길을 열어주었습니다. 하지만 이러한 모델을 효과적이고 효율적으로 활용하려면 NLP와 관련된 데이터와 작업뿐만 아니라 모델의 기능과 한계에 대한 실질적인 이해가 필요합니다.


파티셔너와 최종 사용자를 위한 가이드를 제공하기 위해 이 작업은 다운스트림 NLP 작업에서 LLM을 사용하는 실질적인 측면에 중점을 둡니다. 

이 가이드는 모델 크기, 계산 요구 사항, 도메인별 사전 학습된 모델의 가용성 등의 요소를 고려하여 가장 적합한 LLM을 선택하는 방법에 대한 지침뿐만 아니라 특정 작업에 LLM을 선택해야 하는 이유 또는 선택하지 말아야 하는 이유에 대한 실질적인 조언을 제공하는 것을 목표로 합니다. 이 작업은 실용적인 관점에서 LLM에 대한 철저한 이해를 제공하므로 실무자와 최종 사용자가 자신의 NLP 작업에 LLM의 힘을 성공적으로 활용하는 데 필요한 실용적인 지식을 갖출 수 있도록 지원합니다.


우리의 작업은 다음과 같이 구성됩니다. 


먼저, GPT 스타일 및 BERT 스타일 아키텍처와 같은 가장 중요한 모델에 대해 논의함으로써 LLM에 대한 간략한 소개를 제공합니다. 

그런 다음 사전 학습 데이터, 학습/튜닝 데이터, 테스트 데이터 등 데이터 관점에서 모델 성능에 영향을 미치는 중요한 요소에 대해 자세히 살펴봅니다. 

마지막으로, 가장 중요한 것은 지식 집약적 작업, 전통적인 NLU 작업, 생성 작업에 대한 LLM의 적용 가능성과 함께 이러한 모델이 보유한 새로운 기능 및 도전적인 실제 시나리오에 대한 인사이트를 제공하는 다양한 구체적인 NLP 작업에 대해 자세히 살펴보는 것입니다. 또한 성공적인 사용 사례와 실제 LLM의 한계를 모두 강조하기 위해 자세한 예시를 제공합니다.


대규모 언어 모델의 능력을 분석하기 위해 이를 미세 조정된 모델(fine-tuned models)과 비교합니다. 현재로서는 LLM과 미세 조정 모델에 대해 보편적으로 인정되는 정의는 없습니다. 

실용적인 유용성을 고려하여 이 글에서는 다음과 같이 정의합니다: LLM은 대량의 데이터셋에 대해 사전 학습된 거대한 언어 모델입니다.

데이터 세트에 대해 사전 학습된 거대한 언어 모델이며, 미세 조정 모델은 일반적으로 다음과 같은 소규모 언어 모델입니다. 보다 작은 작업별 데이터 세트에 대해 사전 학습한 다음 해당 작업에서 성능을 최적화하기 위해 추가로 튜닝하는 소규모 언어 모델입니다. 


이 작업에서는 LLM을 사용하기 위한 다음과 같은 주요 실무 가이드를 요약합니다:


- 자연어 이해. 배포되지 않은 데이터 또는 훈련 데이터가 매우 적은 경우 LLM의 뛰어난 일반화 능력을 활용하세요.

자연어 생성. LLM의 기능을 활용하여 다양한 애플리케이션을 위한 일관되고 맥락에 맞는 고품질의 텍스트를 생성하세요.

지식 집약적 작업. 도메인별 전문 지식이나 일반적인 세계 지식이 필요한 작업에 LLM에 저장된 광범위한 지식을 활용할 수 있습니다.

추론 능력. LLM의 추론 기능을 이해하고 활용하여 다양한 상황에서 의사 결정과 문제 해결 능력을 향상하세요.


모델을 위한 실용적인 가이드


이 섹션에서는 최신 LLM에 대한 간략한 소개를 제공합니다. 이러한 모델은 학습 전략, 모델 아키텍처 및 사용 사례에서 서로 다릅니다. LLM 환경을 보다 명확하게 이해하기 위해 인코더-디코더 또는 인코더 전용 언어 모델과 디코더 전용 언어 모델이라는 두 가지 유형으로 분류합니다. 그림 1은 언어 모델의 세부적인 진화 과정을 보여줍니다. 진화 트리에서 다음과 같은 흥미로운 관찰을 할 수 있습니다:


그림 1. 현대 LLM의 진화 트리는 최근 몇 년간 언어 모델의 발전 과정을 추적하고 가장 잘 알려진 모델 몇 가지를 강조합니다. 같은 분기에 있는 모델들은 더 가까운 관계를 가지고 있습니다. 트랜스포머 기반 모델은 회색이 아닌 색으로 표시되며, 파란색 분기에는 디코더 전용 모델, 분홍색 분기에는 인코더 전용 모델, 녹색 분기에는 인코더-디코더 모델이 표시됩니다. 타임라인에서 모델의 세로 위치는 해당 모델의 릴리스 날짜를 나타냅니다. 오픈 소스 모델은 단단한 사각형으로 표시되고, 비공개 소스 모델은 속이 빈 사각형으로 표시됩니다. 오른쪽 하단의 누적 막대 그래프는 다양한 회사 및 기관의 모델 수를 보여줍니다.


a) 디코더 전용 모델이 점차 LLM의 개발을 주도하고 있습니다. LLM 개발 초기에는 디코더 전용 모델이 인코더 전용 및 인코더-디코더 모델만큼 인기가 없었습니다. 그러나 2021년 이후 획기적인 LLM인 GPT-3가 도입되면서 디코더 전용 모델이 크게 활성화되었습니다. 한편, BERT로 인한 초기의 폭발적인 성장 이후 인코더 전용 모델은 점차 사라지기 시작했습니다.


b) OpenAI는 현재와 미래 모두에서 LLM 분야에서 지속적으로 선두 자리를 유지하고 있습니다. 다른 기업 및 기관들은 GPT-3 및 현재 GPT-4에 필적하는 모델을 개발하는 데 있어 OpenAI를 따라잡기 위해 고군분투하고 있습니다. 이러한 선도적 위치는 초기에 널리 인정받지 못했을 때에도 OpenAI가 기술 경로에 대한 확고한 약속을 지켰기 때문일 수 있습니다.


c) 메타는 오픈소스 LLM에 크게 기여하고 있으며 LLM 연구를 촉진하고 있습니다. 오픈소스 커뮤니티, 특히 LLM과 관련된 커뮤니티에 대한 기여도를 고려할 때 Meta가 개발한 모든 LLM이 오픈소스이기 때문에 Meta는 가장 관대한 상업적 기업 중 하나로 돋보입니다.


d) LLM은 폐쇄적인 소싱 경향을 보입니다. LLM 개발 초기 단계(2020년 이전)에는 대부분의 모델이 오픈 소스였습니다. 그러나 GPT-3의 도입과 함께 기업들은 점점 더 PaLM, LaMDA, GPT-4와 같은 모델을 클로즈 소싱하는 것을 선택했습니다. 그 결과, 학계 연구자들이 LLM 훈련에 대한 실험을 수행하기가 더욱 어려워졌습니다. 그 결과 API 기반 연구가 학계에서 지배적인 방법이 될 수 있습니다.


e) 인코더-디코더 모델은 이러한 유형의 아키텍처가 여전히 활발히 연구되고 있고 대부분 오픈 소스이기 때문에 여전히 유망합니다. 구글은 오픈소스 인코더-디코더 아키텍처에 상당한 기여를 해왔습니다. 그러나 디코더 전용 모델의 유연성과 다양성으로 인해 구글이 이 방향을 고집하는 것은 그다지 유망하지 않은 것으로 보입니다.

또한 각 유형별 특징과 대표적인 LLM을 표 1에 간략히 정리해 보았습니다.  


2.1 BERT 스타일 언어 모델: 인코더-디코더 또는 인코더 전용

자연어 데이터를 쉽게 사용할 수 있고 초대형 데이터 세트를 더 잘 활용하기 위한 비지도 학습 패러다임이 제안됨에 따라 자연어 비지도 학습에 대한 동기가 부여되고 있습니다. 한 가지 일반적인 접근 방식은 주변 문맥을 고려하면서 문장에서 가려진 단어를 예측하는 것입니다. 이 훈련 패러다임을 마스크드 언어 모델이라고 합니다. 이러한 유형의 훈련을 통해 모델은 단어와 단어가 사용되는 문맥 간의 관계를 더 깊이 이해할 수 있습니다. 이러한 모델은 Transformer 아키텍처와 같은 기술을 사용하여 대규모 텍스트 코퍼스를 학습하며 감정 분석 및 명명된 개체 인식과 같은 많은 NLP 작업에서 최첨단 결과를 달성했습니다. 마스크 언어 모델의 주목할 만한 예로는 BERT [28], RoBERTa [65], T5 [84] 등이 있습니다. MLM은 다양한 작업에서 성공을 거두면서 자연어 처리 분야에서 중요한 도구로 자리 잡았습니다.


2.2 GPT 스타일 언어 모델: 디코더 전용

언어 모델은 일반적으로 아키텍처에서 작업에 구애받지 않지만, 이러한 방법을 사용하려면 특정 다운스트림 작업의 데이터 세트에 대한 미세 조정이 필요합니다. 연구자들은 언어 모델을 확장하면 소수 샷, 심지어 제로 샷 성능도 크게 향상된다는 사실을 발견했습니다[16]. 소수 샷 및 제로 쇼 성능 향상을 위한 가장 성공적인 모델은 자동 회귀 언어 모델로, 앞의 단어가 주어진 시퀀스에서 다음 단어를 생성하여 학습합니다. 이러한 모델은 텍스트 생성 및 질문 답변과 같은 다운스트림 작업에 널리 사용되고 있습니다. 자동 회귀 언어 모델의 예로는 GPT-3 [16], OPT [126], PaLM [22], BLOOM [92] 등이 있습니다. 게임 체인저인 GPT-3는 처음으로 프롬프트와 문맥 내 학습을 통해 합리적인 소수/제로 샷 성능을 보여줌으로써 자동 회귀 언어 모델의 우수성을 입증했습니다. 코드 생성과 같은 특정 작업에 최적화된 CodeX, 금융 도메인용 BloombergGPT[117] 등의 모델도 있습니다. 최근의 획기적인 발전은 대화형 작업을 위해 특별히 GPT-3을 개선하여 다양한 실제 애플리케이션에서 보다 대화형, 일관성 있고 맥락을 인식하는 대화를 가능하게 하는 ChatGPT입니다.


3 데이터에 대한 실용적인 가이드


이 섹션에서는 다운스트림 작업에 적합한 모델을 선택하는 데 있어 데이터가 수행하는 중요한 역할에 대해 설명합니다. 모델의 효율성에 대한 데이터의 영향은 사전 학습 단계에서 시작하여 학습 및 추론 단계까지 계속됩니다. 


비고 1

(1) 적대적 예시 및 도메인 이동(adversarial examples and domain shifts)과 같이, 배포 범위를 벗어난 데이터(out-of-distribution data)에 직면한 다운스트림 작업에서는 LLM이 미세 조정된 모델보다 일반화가 더 잘 이루어집니다.

(2) 제한된 주석이 달린 데이터로 작업할 때는 LLM이 미세 조정된 모델보다 선호되며, 특정 작업 요구 사항에 따라 풍부한 주석이 달린 데이터를 사용할 수 있는 경우에는 두 가지 모두 합리적인 선택이 될 수 있습니다.

(3) 다운스트림 작업과 유사한 데이터 필드에 대해 사전 학습된 모델을 선택하는 것이 좋습니다.


3.1 사전 학습 데이터

사전 학습 데이터는 대규모 언어 모델 개발에서 중추적인 역할을 합니다. 사전 학습 데이터의 품질, 양, 다양성은 LLM의 뛰어난 기능[5, 47]의 기반으로서 LLM의 성능에 큰 영향을 미칩니다[124]. 

일반적으로 사용되는 사전 학습 데이터는 책, 기사, 웹사이트 등 무수히 많은 텍스트 소스로 구성됩니다. 이러한 데이터는 인간의 지식, 언어적 뉘앙스, 문화적 관점을 포괄적으로 표현할 수 있도록 신중하게 큐레이션됩니다. 사전 학습 데이터의 중요성은 단어 지식, 문법, 구문, 의미에 대한 풍부한 이해를 바탕으로 언어 모델에 정보를 제공할 뿐만 아니라 문맥을 인식하고 일관된 응답을 생성할 수 있는 능력에 있습니다. 사전 학습 데이터의 다양성 또한 모델의 성능을 형성하는 데 중요한 역할을 하며, LLM의 선택은 사전 학습 데이터의 구성 요소에 따라 크게 달라집니다. 예를 들어 PaLM[22]과 BLOOM[92]은 풍부한 다국어 사전 학습 데이터를 통해 다국어 작업과 기계 번역에서 탁월한 성능을 발휘합니다. 또한 PaLM은 상당한 양의 소셜 미디어 대화와 도서 말뭉치[22]를 통합함으로써 질문 답변 작업에서 성능이 향상됩니다. 마찬가지로, GPT-3.5(code-davinci-002)의 코드 실행 및 코드 완성 기능은 사전 학습 데이터 세트에 코드 데이터를 통합함으로써 증폭됩니다. 간단히 말해, 다운스트림 작업을 위해 LLM을 선택할 때는 유사한 데이터 분야에 대해 사전 학습된 모델을 선택하는 것이 좋습니다.


3.2 데이터 미세 조정

다운스트림 작업을 위해 모델을 배포할 때는 주석이 달린 데이터의 가용성에 따라 세 가지 주요 시나리오(없음, 적음, 풍부함)를 고려해야 합니다. 이 섹션에서는 각 시나리오에 적합한 모델에 대한 간략한 개요를 제공합니다.


주석이 없는 데이터: 주석이 달린 데이터를 사용할 수 없는 시나리오에서는 제로 샷 설정에서 LLM을 활용하는 것이 가장 적합한 접근 방식으로 입증되었습니다. LLM은 이전의 제로 샷 방식보다 성능이 뛰어난 것으로 나타났습니다[120]. 또한 매개변수 업데이트 프로세스가 없기 때문에 언어 모델 매개변수가 변경되지 않은 상태로 유지되므로 치명적인 망각[49]을 방지할 수 있습니다. 


주석이 달린 데이터가 거의 없습니다: 이 경우, 몇 개의 샷 예제는 상황 내 학습(ICL)이라고 명명된 LLM의 입력 프롬프트에 직접 통합되며, 이러한 예제는 LLM이 작업에 일반화하도록 효과적으로 안내할 수 있습니다. 16]에서 보고된 바와 같이, 원샷과 소수 샷의 성능은 상당한 향상을 이루며, 심지어 SOTA의 미세 조정된 오픈 도메인 모델의 성능과도 일치합니다. 그리고 LLM의 제로/소수 샷 능력은 스케일링을 통해 더욱 향상될 수 있습니다 [16]. 또는 메타 학습 [56] 또는 전이 학습 [88]과 같이 미세 조정된 모델을 향상시키기 위해 일부 소수 샷 학습 방법이 개발되었습니다. 그러나 미세 조정된 모델의 규모가 작고 과적합으로 인해 LLM을 사용하는 것에 비해 성능이 떨어질 수 있습니다.

풍부한 주석 데이터: 특정 작업에 대한 상당한 양의 주석이 달린 데이터를 사용할 수 있는 경우 미세 조정 모델과 LLM을 모두 고려할 수 있습니다. 대부분의 경우 모델을 미세 조정하면 데이터에 잘 맞출 수 있습니다. 하지만 개인 정보 보호와 같은 일부 제약 조건을 충족하기 위해 LLM을 사용할 수도 있습니다[99]. 이 시나리오에서 미세 조정 모델과 LLM 중 어떤 것을 사용할지는 작업에 따라 다르며 원하는 성능, 계산 리소스, 배포 제약 조건 등 여러 요인에 따라 달라집니다.


간단히 요약하면, 데이터 가용성 측면에서 LLM이 더 다재다능한 반면, 풍부한 주석이 달린 데이터의 경우 미세 조정된 모델도 고려할 수 있습니다.


3.3 테스트 데이터/사용자 데이터

다운스트림 작업을 위해 LLM을 배포할 때 테스트/사용자 데이터와 학습 데이터 간의 분포 차이(ODD, Out of distribution Data는 학습 데이터의 분포와는 다른 분포를 갖는 데이터)로 인한 문제에 직면하는 경우가 많습니다. 이러한 차이에는 도메인 이동[132], 분포 외 변화[31], 심지어 적대적인 사례[82]가 포함될 수 있습니다. 이러한 문제는 실제 애플리케이션에서 미세 조정된 모드의 효과를 크게 저해합니다. 이러한 모드는 특정 분포에 적합하고 OOD 데이터로 일반화할 수 있는 능력이 떨어집니다. 그러나 LLM은 명시적인 피팅 프로세스가 없기 때문에 이러한 시나리오에서 상당히 우수한 성능을 발휘합니다. 

게다가 최근의 발전은 이와 관련하여 언어 모델의 능력을 더욱 향상시켰습니다. 인간 피드백을 통한 강화 학습(RLHF) 방식은 LLM의 일반화 기능을 크게 향상시켰습니다[77]. 예를 들어, InstructGPT는 다양한 작업에 대한 다양한 지침을 따르는 데 능숙하며 때로는 지침이 부족하더라도 다른 언어로 된 지침을 준수하는 데 능숙함을 보여줍니다. 마찬가지로 ChatGPT는 대부분의 적대적 및 배포 외(OOD) 분류 및 번역 작업에서 일관된 이점을 보여줍니다[109]. 대화 관련 텍스트를 이해하는 데 있어서의 우수성은 OOD 평가를 위해 설계된 의료 진단 데이터셋인 DDXPlus 데이터셋[101]에서도 인상적인 성능을 보였습니다.


4 NLP 작업을 위한 실용적인 가이드


이 섹션에서는 다양한 다운스트림 NLP(Natural Language Processing 자연어 처리) 작업에서 LLM의 사용 사례와 사용 사례가 없는 사례, 그리고 해당 모델 기능에 대해 자세히 설명합니다. 그리고 그림 2에서는 모든 논의를 의사 결정 흐름으로 요약했습니다. 이는 작업에 직면했을 때 빠른 의사 결정을 위한 가이드가 될 수 있습니다.


4.1 전통적인 NLU 작업

전통적인 NLU(Natural Language Understanding 자연어 이해) 작업은 텍스트 분류, 명명된 엔티티 인식(NER, named entity recognition), 수반 조건 예측 등을 포함한 NLP의 기본 작업입니다. 이들 중 다수는 지식 그래프 구성을 위한 NER과 같은 대규모 AI 시스템에서 중간 단계 역할을 하도록 설계되었습니다. 

그림 2. 사용자의 NLP 애플리케이션을 위해 LLM 또는 미세 조정된 모델 2를 선택하기 위한 의사 결정 흐름. 의사 결정 흐름은 사용자가 현재 사용 중인 다운스트림 NLP 애플리케이션이 특정 조건을 충족하는지 평가하고, 그 평가에 따라 LLM 또는 미세 조정된 모델중 적합한 것을 선택하는 데 도움이 됩니다. 그림의 의사 결정 프로세스에서 Y는 조건 충족을 의미하며, N은 조건 미충족을 의미합니다. 마지막 조건의 노란색 원은 이러한 종류의 애플리케이션에서 잘 작동하는 모델이 없다는 것을 의미합니다.


비고2

일반적으로 기존 NLU 작업에서는 미세 조정된 모델이 LLM보다 더 나은 선택이지만, 강력한 일반화 능력이 필요한 경우에도 LLM이 도움을 제공할 수 있습니다.


4.1.1 사용 사례 없음. GLUE[106] 및 SuperGLUE[105]의 작업과 같은 대부분의 자연어 이해 작업에서, 주석이 잘 달린 풍부한 데이터와 함께 제공되고 테스트 세트에 분포에서 벗어난 예가 거의 없는 경우 미세 조정된 모델이 여전히 더 나은 성능을 발휘합니다. 작업과 데이터 세트에 따라 미세 조정된 작은 모델과 LLM 간의 격차는 다양합니다.

텍스트 분류의 경우, 대부분의 데이터 세트에서 LLM은 미세 조정된 모델보다 성능이 약간 떨어집니다. 

감정 분석의 경우,

IMDB [69] 및 SST [94]와 같이, 미세 조정된 모델과 LLM은 동등하게 잘 수행됩니다. 

또 다른 대표적인 텍스트 분류 작업인 독성 검출의 경우, 그 차이는 훨씬 더 큽니다. 모든 LLM이 이 작업을 잘 수행할 수 없으며, 심지어 CivilComments[13]에서는 아무리 좋은 모델이라도 무작위 추측[59]보다 나은 수준일 뿐입니다. 반면에 가장 널리 사용되는 미세 조정된 모델은 훨씬 더 나은 성능을 얻을 수 있습니다 [33]. 그리고 관점 API(Perspective API)는 여전히 독성 감지를 하는 최고 수단입니다. 이 API는 공개적으로 사용 가능한 독성 데이터와 이 모델에서 추출된 여러 개의 작은 단일 언어 CNN을 기반으로 조정된 다국어 BERT 기반 모델에 의해 구동됩니다. 이는 독성이 언어 표현의 미묘한 뉘앙스에 의해 정의되기 때문에 대규모 언어 모델은 제공된 입력만으로는 이 작업을 정확하게 이해할 수 없기 때문일 수 있습니다.


성능 격차의 추세는 다른 작업에서도 비슷합니다. 자연어 추론(NLI) 작업의 경우, RTE [106] 및 SNLI [14]와 같은 대부분의 데이터 세트에서 미세 조정된 모델이 LLM보다 더 나은 성능을 보이는 반면, CB [105]와 같은 일부 데이터에서는 LLM이 미세 조정된 모델과 비슷한 성능을 얻었습니다[22]. 


질문 답변(QA)의 경우, SQuAD(Stanford Question Answering Dataset)v2 [86], QuAC [21] 및 기타 여러 데이터 세트에서 미세 조정된 모델이 우수한 성능을 보이는 반면, CoQA [87]에서는 LLM이 미세 조정된 모델과 동등한 성능을 보입니다 [22].


정보 검색(IR, Information retrieval) 작업에서 LLM은 아직 널리 활용되지 않고 있습니다. 한 가지 주요 이유는 IR 작업은 다른 작업과 근본적으로 다르기 때문입니다. 수천 개의 후보 텍스트를 LLM이 요구하는 몇 개 또는 제로 샷 형태로 변환하는 자연스러운 방법이 없습니다. 기존의 MS MARCO(일반/TREC)에 대한 평가 결과[73]는 미세 조정된 모델에 기반한 방법이 더 나은 성능을 가지고 있음을 보여줍니다[59]. 이 평가에서는 LLM이 구절에 대한 확률을 하나씩 생성해야 하는 비정통적인 방식으로 구절의 순위를 매깁니다.


일반 사용자를 위한 것이 아니라 명명된 엔티티 인식(NER) 및 의존성 구문 분석과 같은 높은 수준의 작업을 위한 일부 낮은 수준의 중간 작업의 경우, LLM에 대한 최신 평가가 실용적인 작업에 초점을 맞추고 있기 때문에 LLM의 결과가 충분하지 않습니다. 이용 가능한 평가 결과에 따르면, NER 작업의 경우 CoNLL03[89]은 미세 조정된 모델의 성능이 LLM의 약 두 배에 달하는 LLM[81]에 여전히 도전하고 있습니다. 이러한 중간 작업은 LLM이 중간 작업의 도움 없이도 높은 수준의 작업(예: 코딩 작업의 의존성 구문 분석, 일부 텍스트 생성 작업의 NER)을 대신할 수 있기 때문에 곧 사라질 수 있습니다.


간단히 말해, 대부분의 전통적인 NLU 작업의 경우 벤치마크 데이터 세트에서의 성능과 계산 비용 측면에서 미세 조정된 모델이 더 나은 선택입니다. LLM의 규모는 일반적으로 미세 조정 모델보다 10배 또는 100배 더 큽니다. 특정 작업에서 LLM의 성능이 떨어지는 원인 중 하나는 명령어/프롬프트의 설계일 수 있습니다. IR 및 문장 라벨링과 같은 작업의 입력을 몇 개 또는 0개의 짧은 명령어 형식으로 변환하는 것은 그리 간단한 일이 아닙니다


향후에는 언어 모델을 기존 NLP 작업에 적용하는 더 좋은 방법이 있을 수 있습니다. 반면에 미세 조정된 모델의 성능 상한에는 도달하지 못하며, FLAN 튜닝[67]과 같은 일부 방법을 사용하면 NLU 작업에서 성능을 더욱 향상시킬 수 있습니다. 또 다른 흥미로운 발견은 NLU 작업에서 미세 조정 후 T5[85]와 같은 마스크 언어 모델이 동일한 규모의 대부분의 자동 회귀 언어 모델보다 우수하다는 점이며, 일부 최근 결과는 이러한 격차를 스케일링으로 해소할 수 있음을 시사합니다[22]. 


4.1.2 사용 사례. 하지만 여전히 LLM에 적합한 NLU 작업도 있습니다. 대표적인 작업 중 하나가 기타 텍스트 분류입니다[59]. 기존의 도메인별 텍스트 분류 작업과 달리, 기타 텍스트 분류는 서로 명확하거나 강한 관계가 없을 수 있는 다양한 주제와 범주를 다룹니다. 실제 사례에 더 가깝고 세밀하게 조정된 모델을 사용하기 위한 형식을 갖추기 어렵습니다. 

다른 하나는 적대적 NLI(ANLI, Adversarial Natural language inference)[74]입니다. 이는 적대적으로 채굴된 자연어 추론 문제로 구성된 세 가지 라운드(R1, R2, R3)로 구성된 어려운 데이터 세트입니다. LLM은 ANLI, 특히 R3와 R2에서 우수한 성능을 보여주었습니다. 이 두 가지 예는 기존 NLP 작업에서 분산되지 않고 주석이 희박하게 달린 데이터에 대해 일반화할 수 있는 LLM의 탁월한 능력을 보여주며, 이는 미세 조정된 모델을 능가하는 것입니다. 이에 대해서는 위의 3.3 섹션에서 설명했습니다.


4.2 생성 작업

자연어 생성은 일관성 있고 의미 있으며 문맥에 적합한 기호 시퀀스를 생성하는 것을 목표로 크게 두 가지 범주의 작업을 포괄합니다. 

첫 번째 유형은 단락 요약 및 기계 번역과 같은 작업에서 볼 수 있듯이 입력 텍스트를 새로운 기호 시퀀스로 변환하는 데 중점을 둡니다. 

두 번째 유형인 '개방형' 생성은 이메일 작성, 뉴스 기사 작성, 가상의 스토리 작성, 코드 작성 등 입력 설명과 정확하게 일치하도록 텍스트 또는 기호를 처음부터 생성하는 것을 목표로 합니다.


비고3

강력한 생성 능력과 창의성으로 인해 LLM은 대부분의 생성 작업에서 우위를 보입니다.


4.2.1 사용 사례. 생성 작업에는 입력 내용이나 요구 사항을 포괄적으로 이해하고 일정 수준의 창의성을 갖춘 모델이 필요합니다. 이것이 바로 LLM의 장점입니다.

요약 작업의 경우, ROUGE [60]와 같은 기존의 자동 평가 지표에서는 LLM이 미세 조정 모델에 비해 뚜렷한 이점이 없지만, 인간 평가 결과에 따르면 인간은 미세 조정 모델에 비해 LLM이 생성한 결과[38, 127]를 선호하는 경향이 있습니다. 예를 들어, CNN/DailyMail [71] 및 XSUM [72]에서 Brio [66] 및 Pegasus [125]와 같은 미세 조정 모델은 ROUGE에 비해 훨씬 우수한 성능을 보이지만, 충실도, 일관성, 관련성 등 모든 측면을 고려한 인간 평가에서는 OPT [126]와 같은 LLM이 훨씬 더 우수한 성능을 보입니다 [127]. 이는 요약 작업에서 LLM의 우월성을 보여줍니다. 반면에 현재의 요약 벤치마크에는 높은 품질의 요약이 포함되어 있지 않거나 자동 메트릭이 요약 평가에 적합하지 않다는 것을 의미합니다.

기계 번역(MT)에서 LLM은 유능한 번역을 수행할 수 있지만 평균 성능은 일부 상용 번역 도구보다 약간 떨어지지만[45] BLEU[78]와 같은 일부 자동 메트릭을 고려할 때[78] LLM은 특히 일부 저자원 언어 텍스트를 영어 텍스트로 번역하는 데 능숙하며, WMT'16의 루마니아어-영어 번역[11]과 같이 제로 샷 또는 소수 샷 LLM은 SOTA 미세 조정 모델[22]보다 성능이 더 우수할 수 있습니다. 이는 주로 영어 리소스가 사전 훈련 데이터의 주요 부분을 구성하기 때문입니다. 

BLOOM[92]은 더 많은 다국어 데이터에 대해 사전 학습되어 풍부한 리소스 번역과 적은 리소스 번역 모두에서 더 나은 번역 품질을 제공합니다. 또 다른 흥미로운 발견은 사전 학습 데이터에 포함되지 않은 갈리시아어 번역에서도 BLOOM이 로맨스 언어 중에서 우수한 번역 품질을 달성한다는 것입니다. 한 가지 합리적인 설명은 같은 언어 그룹에 속하는 일부 언어의 텍스트가 LLM이 유사성을 통해 더 많은 것을 학습하는 데 도움이 될 수 있다는 것입니다. 사전 학습 데이터에 더 많은 다국어 텍스트를 추가할 수 있다면 번역 기능이 더욱 향상될 수 있습니다.

또한 LLM은 개방형 생성에 매우 능숙합니다. 한 가지 예로, LLM이 생성한 뉴스 기사는 사람이 작성한 실제 뉴스 기사와 거의 구별할 수 없을 정도입니다[16]. LLM은 코드 합성에도 놀라울 정도로 능숙합니다. 휴먼에벌[18], MBPP[7]와 같은 텍스트 코드 생성이나 딥픽스[39]와 같은 코드 복구에서 LLM은 매우 뛰어난 성능을 발휘할 수 있습니다. GPT-4는 심지어 대부분의 인간 코더에게는 사소한 문제가 아닌 Leetcode의 25% 문제도 통과할 수 있습니다[76]. 더 많은 코드 데이터에 대한 훈련을 통해 LLM의 코딩 능력은 더욱 향상될 수 있습니다[22]. 이러한 작업을 잘 수행하면서 LLM이 생성한 코드를 주의 깊게 테스트하여 미묘한 버그를 찾아내야 하는데, 이는 코드 합성에 LLM을 적용하는 데 있어 주요 과제 중 하나입니다.


4.2.2 사용 사례 없음. DeltaLM+Zcode[118]와 같이 미세 조정된 모델은 대부분의 풍부한 리소스 번역과 극히 적은 리소스 번역 작업에서 여전히 최고의 성능을 발휘합니다. 풍부한 리소스 기계 번역에서는 미세 조정된 모델이 LLM보다 약간 더 나은 성능을 보입니다[22, 92]. 그리고 영어-카자흐어 번역과 같이 리소스가 극히 적은 기계 번역에서는 미세 조정된 모델이 LLM보다 훨씬 더 나은 성능을 발휘합니다.


4.3 지식 집약적 작업

지식 집약적 NLP 작업은 배경 지식, 도메인별 전문 지식 또는 일반적인 실제 지식에 대한 의존도가 높은 작업 범주를 말합니다. 이러한 작업은 단순한 패턴 인식이나 구문 분석을 넘어서는 것입니다. 또한 특정 개체, 사건, 현실 세계의 상식에 대한 지식의 암기와 적절한 활용에 크게 의존합니다. 


비고 4

(1) LLM은 방대한 실제 지식으로 인해 지식 집약적인 업무에 탁월합니다.

(2) LLM은 지식 요구 사항이 학습한 지식과 일치하지 않거나, 상황에 맞는 지식만 필요한 작업에 직면할 때 어려움을 겪습니다. 이 경우 미세 조정된 모델이 LLM만큼 잘 작동할 수 있습니다.


4.3.1 사용 사례. 일반적으로 수십억 개의 학습 토큰과 파라미터를 사용하는 LLM은 미세 조정된 모델보다 훨씬 더 많은 실제 지식을 가지고 있습니다.

비공개 질문-답변 작업에서는 모델이 외부 정보 없이 사실 지식에 대한 주어진 질문에 답해야 합니다. 하지만 모델에 실제 세계 지식을 암기해야 합니다. LLM은 거의 모든 데이터 세트에서 더 나은 성능을 발휘하는데, 예를 들어 NaturalQuestions [52], WebQuestions [9], TriviaQA [46]에서도 마찬가지입니다. TriviaQA에서는 제로 샷 LLM조차도 훨씬 더 우수합니다[22].

대규모 멀티태스크 언어 이해(MMLU)[40]도 지식 집약도가 높습니다. 57개 이상의 다양한 주제에 걸친 객관식 문제가 포함되어 있으며 모델에 대한 일반적인 지식이 필요합니다. 새로 출시된 GPT-4[76]가 영어에서 86.5%의 만족스러운 정확도로 기존 모델보다 상당한 차이를 보이지만, LLM에게도 상당히 어려운 문제입니다.

또한 LLM을 조사하고 미래 능력을 추정하기 위해 고안된 빅벤치[96]의 일부 작업은 실제 지식의 암기에 크게 의존하고 있습니다. 이러한 작업에서 일부 LLM의 성능은 인간의 평균 수준보다 우수하며 심지어 최고의 인간 성능과 비슷합니다. 예를 들어, 힌두 신화에 대한 사실을 알려주는 힌두_지식 과제에서는 모델이 힌두 신화에 대한 사실을 알려주어야 하고, 주기율표에서 원소 이름을 예측하는 능력이 필요하며, 주어진 물리학 문제를 푸는 데 필요한 공식을 묻는 물리학 과제에서는 모델의 물리학 지식을 테스트합니다.


4.3.2 사용 사례 없음. LLM이 학습한 지식과는 다른 지식이 필요한 다른 작업도 있습니다. 필요한 지식은 LLM이 실제 세계에 대해 학습한 지식이 아닙니다. 이러한 작업에서는 LLM이 눈에 띄게 우월하지 않습니다.

일부 작업은 모델에 컨텍스트에 포함된 자체 지식만 캡처하면 됩니다. 입력된 컨텍스트의 지식만으로도 모델이 예측을 수행하기에 충분합니다. 이러한 작업의 경우 미세하게 조정된 작은 모델도 꽤 잘 작동할 수 있습니다. 이러한 작업 중 하나가 기계 독해(MRC, machine reading comprehension)입니다. MRC 작업은 여러 단락을 제공하고 모델이 이러한 단락을 기반으로 질문에 대한 답을 예측하도록 요구합니다. 이전 섹션에서 MRC에 대해 설명한 이유는 이 작업 역시 전통적인 NLU 작업이기 때문입니다.

또 다른 시나리오는 실제 세계에 대한 LLM 내의 지식이 작업에 쓸모가 없거나, 필요한 지식이 실제 세계와 상반되는 경우입니다. 결과적으로 이러한 작업에서는 LLM이 제대로 작동할 수 없습니다. 경우에 따라서는 일관성 없는 지식이 무작위로 추측하는 것보다 LLM을 더 나쁘게 만들 수도 있습니다. 예를 들어, 빅벤치(Big-Bench)에서 Mnist ascii 작업은 모델이 ASCII 아트로 표현된 숫자를 알려주도록 요구합니다. 이 과제에 필요한 능력은 실제 지식과는 전혀 무관합니다. 또한 역 스케일링 현상 대회(Inverse Scaling Phenomenon competition)[70]에서 수학 재정의 과제는 일반적인 기호를 재정의하고 모델이 원래 의미와 재정의에서 파생된 의미 중 하나를 선택하도록 요구합니다. 이 과제는 학습자의 지식과 상반되는 것을 요구하기 때문에 학습자는 무작위 추측보다 더 나쁜 성적을 내기도 합니다.

LLM에서 실제 지식에 대한 대안으로 추가 지식에 대한 액세스가 허용되므로 모델은 검색 증강(retrieval augmentation)을 통해 작업에 필요한 충분한 지식을 얻을 수 있습니다. 검색 증강의 기본 개념은 예측을 하기 전에 추가 정보 검색 단계를 추가하는 것으로, 대규모 말뭉치에서 작업과 관련된 유용한 텍스트를 검색하는 것입니다. 그런 다음 모델은 입력 컨텍스트와 검색된 텍스트를 모두 기반으로 예측을 수행합니다. 검색된 추가 정보를 사용하면 클로즈드 북 작업이 “오픈 북”이 될 수 있습니다. 이러한 시나리오에서는 필요한 지식을 검색하여 얻을 수 있기 때문에 미세 조정된 모델은 훨씬 작은 크기로도 매우 우수합니다. 예를 들어, 추가 말뭉치가 있는 NaturalQuestions [52]에서는 검색 증강 모델 [44, 48]이 다른 어떤 방법보다 훨씬 우수합니다.


4.4 확장 관련 기능

LLM의 확장(예: 매개변수, 학습 계산 등)은 사전 학습된 언어 모델을 크게 강화할 수 있습니다. 모델이 확장되면 일반적으로 모델은 다양한 작업에서 더 많은 능력을 갖게 됩니다. 일부 메트릭에 반영된 성능은 모델 규모와 전력 법칙 관계를 보여줍니다. 예를 들어, 언어 모델링의 성능을 측정하는 데 사용되는 교차 엔트로피 손실은 모델 규모가 기하급수적으로 증가함에 따라 선형적으로 감소하는데, 이를 '스케일링 법칙'이라고도 합니다[41, 47]. 추론과 같은 일부 중요한 능력의 경우, 모델을 확장하면 이러한 능력이 매우 낮은 상태에서 점차 사용 가능한 상태로, 심지어는 인간의 능력에 근접하는 상태로 변화합니다. 이 섹션에서는 스케일링과 함께 LLM의 능력 및 동작 측면에서 LLM의 사용법에 대한 개요를 제공합니다.


비고 5

(1) 모델 규모가 기하급수적으로 증가함에 따라 LLM은 특히 산술적 추론과 상식적 추론과 같은 추론 능력을 갖추게 됩니다.

(2) LLM의 규모가 커짐에 따라 단어 조작 및 논리적 능력과 같은 이머전트 어빌리티가 유용하게 사용됩니다.

(3) 많은 경우, 대규모 언어 모델의 능력이 확장됨에 따라 어떻게 변화하는지에 대한 이해가 제한적이기 때문에 확장에 따라 성능이 꾸준히 향상되지 않습니다.


4.4.1 추론의 사용 사례. 정보를 이해하고, 추론을 도출하고, 의사 결정을 내리는 추론은 인간 지능의 필수적인 측면 중 하나입니다. 자연어 처리에는 어려운 과제입니다. 기존의 많은 추론 작업은 상식적 추론과 산술적 추론으로 분류할 수 있습니다.


산술적 추론/문제 해결. LLM의 산술적 추론 능력은 모델 크기의 확장에 따라 크게 향상됩니다. GPT-3의 경우, 두 자리 덧셈 능력은 매개변수 수가 13B를 초과할 때만 분명해집니다[16]. 산술적 추론을 테스트하는 작업은 인간에게는 사소한 일이며 자연어를 수학적 기호로 변환하고 다단계 추론하는 능력에 도전하도록 설계되었습니다. GSM8k [26], SVAMP [79], AQuA [61]에서 LLM은 제너럴리스트로서 작업에 특화된 설계를 가진 대부분의 방법과 경쟁할 수 있는 성능을 가지고 있습니다. 그리고 GPT-4는 다른 어떤 방법보다 성능이 뛰어나며[76], 특히 산술 문제에 맞게 튜닝된 일부 거대 모델도 마찬가지입니다[104]. 그럼에도 불구하고 외부 도구의 개입 없이는 LLM이 기본적인 계산을 수행할 때 가끔 실수를 할 수 있지만, 생각의 사슬(CoT) 프롬프트[115]는 LLM의 계산 능력을 크게 향상시킬 수 있다는 점에 유의해야 합니다.


상식적인 추론. 상식적 추론은 사실 지식을 기억해야 할 뿐만 아니라 사실에 대한 몇 가지 추론 단계를 거쳐야 합니다. 상식적 추론은 모델 크기가 커짐에 따라 점진적으로 증가합니다. 미세 조정된 모델과 비교했을 때, LLM은 StrategyQA [36] 및 ARC-C [25]와 같은 대부분의 데이터 세트에서 우위를 유지합니다. 특히 3학년에서 9학년까지 과학 시험의 고난도 문제가 포함된 ARC-C에서 GPT-4는 100%(96.3%)에 가까운 성능을 보였습니다[76].

4.4.2 이머전트한 능력과 사용 사례. 모델 확장은 또한 모델에 전력법칙(power-law rule)을 뛰어넘는 전례 없는 환상적인 능력을 부여합니다. 이러한 능력을 "이머전트 어빌리티"라고 합니다. 113]에서 정의한 바와 같이, LLM의 이머전트 어빌리티는 소규모 모델에는 존재하지 않지만 대규모 모델에는 존재하는 어빌리티입니다. 즉, 이러한 능력은 소규모 모델의 성능 향상을 추정하여 예측할 수 없으며, 규모가 일정 범위를 초과하면 모델이 일부 작업에서 갑자기 좋은 성능을 얻게 됩니다. 이머징 능력은 일반적으로 예측할 수 없고 놀랍기 때문에 무작위로 또는 예기치 않게 나타나는 작업으로 이어집니다. 이 글에서는 인공 지능의 이머전트 능력에 대한 구체적인 사례를 살펴보고 인공 지능의 이머전트 능력을 활용할지 여부를 결정할 때 중요한 참고 자료로 활용할 수 있도록 합니다.


단어 조작 처리는 대표적인 이머전 능력입니다. 이는 다음과 같은 기호 조작을 학습하는 능력을 말합니다.

예를 들어, 모델에 철자가 거꾸로 된 단어가 주어지면 원래 단어를 출력해야 하는 반전 단어[16]와 같은 기호 조작을 학습하는 능력을 말합니다.

예를 들어. GPT-3 [16]은 단어 정렬 및 단어 스크램블링 해제 작업에 대한 새로운 능력을 보여줍니다. PaLM [22]은 45

의 ASCII 단어 인식 및 하이퍼바톤 작업에 대한 새로운 능력을 보여줍니다. 언어 모델의 논리적 능력은 논리적 추론, 논리적 순서, 논리 격자 퍼즐과 같이 모델이 확장됨에 따라 나타나는 경향이 있습니다. 또한 고급 코딩(예: 자동 디버깅, 코드 줄 설명) 및 개념 이해(예: 새로운 개념, 간단한 튜링 개념)와 같은 다른 작업도 대규모 언어 모델의 새로운 능력을 사용하는 사례입니다.


4.4.3 사용 사례 없는 경우와 이해. 위에서 설명한 것처럼 대부분의 경우 큰 모델이 더 나은 성능을 제공하지만, 적절한 모델을 선택할 때 고려해야 할 예외가 여전히 많이 있습니다.

다음과 같은 특정 작업에서는 LLM의 크기가 커질수록 성능이 저하되기 시작합니다. 

Redefine-math: 언어 모델이 일반적인 기호를 다른 의미로 재정의할 때 작동할 수 있는지 테스트, Into- the-unknown: 모델이 질문에 답하는 데 도움이 될 정보를 선택하도록 요구, Memo-trap: LM에 유명한 명언처럼 시작하지만 끝이 다른 방식으로 구문을 작성하도록 요청6. 이를 역 스케일링 현상이라고도 합니다. 

LLM의 스케일링에서 관찰되는 또 다른 흥미로운 현상은 U자형 현상이라고 합니다[114]. 이름에서 알 수 있듯이 이 현상은 LLM의 크기가 커질수록 특정 작업에 대한 성능이 처음에는 향상되다가 점차 저하되기 시작하다가 결국 다시 향상되는 것을 말합니다: 뒤늦은 판단-무시: 언어 모델이 예상 가치를 기반으로 베팅을 할 가치가 있는지 평가할 수 있는지 테스트하는 작업, 부정QA: 기존 객관식 데이터 세트를 가지고 각 질문의 일부를 부정하여 언어 모델이 부정에 민감한지 확인하는 작업, 인용-반복: 모델이 작업을 인식하는 데 도움이 되는 몇 개의 예시와 함께 프롬프트에 주어진 문장을 반복하도록 요청하는 작업 등이 있습니다. 따라서 성능 저하의 위험에 유의해야 하며, 방금 논의한 과제와 유사한 과제인 경우 대규모 LLM을 사용할지 여부를 신중하게 고려해야 합니다.


이 분야의 연구를 발전시키기 위해서는 LLM의 이머전트 능력, 역 스케일링 현상 및 U자형 현상에 대해 더 깊이 이해하는 것이 필수적입니다. 어떤 의미에서 U자형 현상은 소규모 모델과 대규모 모델이 서로 다른 내부 메커니즘으로 예측을 수행한다는 것을 시사합니다. 이러한 관점에서 U자형 현상은 충분히 큰 모델에서 일부 신흥 능력으로 인한 역 스케일링 현상의 변형으로 볼 수 있습니다 [114].

 GPT-4 [76]는 후견적 무시(Hindsight-neglect)라는 과제에서와 같이 일부 경우에 역 스케일링 현상의 반전을 나타냅니다. 스케일링 중 LLM의 이러한 행동에 대한 설명은 여전히 미해결 문제입니다. 몇 가지 가설이 제안되었습니다. 

출현 능력의 경우, 한 작업에 여러 개의 주요 단계가 있을 수 있으며 모든 단계를 처리할 수 있을 만큼 커질 때까지 LLM이 이 작업을 처리할 수 없다는 설명이 있고, 또 다른 설명은 평가 지표의 세분성에 초점을 맞추고 있습니다[113]. 역확대 현상과 U자형 현상에 대한 설명은 주로 모델이 입력 프롬프트가 아닌 이전 정보에 과도하게 의존하는 것, 유효하지만 오해의 소지가 있는 몇 가지 예제, 어려운 작업 내에서 쉬운 작업을 방해하는 것 등에 초점을 맞추고 있습니다[114].


4.5 기타 작업

이 섹션에서는 LLM의 강점과 약점을 더 잘 이해하기 위해 이전 논의에서 다루지 않은 기타 작업에 대해 살펴봅니다.


비고 6

(1) 미세 조정된 모델이나 특정 모델은 여전히 LLM의 사전 학습 목표 및 데이터와는 거리가 먼 작업에 사용됩니다.

(2) LLM은 사람, 데이터 주석 및 생성 모방에 탁월합니다. 또한 NLP 작업에서 품질 평가에 사용할 수 있으며 해석 가능성과 같은 보너스도 있습니다.


4.5.1 사용 사례 없음. LLM은 일반적으로 목표와 학습 데이터의 차이로 인해 일부 작업에서 어려움을 겪습니다. LLM은 다양한 자연어 처리 작업에서 괄목할 만한 성공을 거두었지만 회귀 작업에서의 성능은 그다지 인상적이지 않았습니다. 예를 들어, 문장 유사도를 평가하는 회귀 작업인 GLUE STS-B 데이터 세트에 대한 ChatGPT의 성능은 미세 조정된 RoBERTa 성능보다 떨어집니다 [130]. 

회귀 작업은 일반적으로 불연속적인 레이블이 아닌 연속적인 값을 예측해야 하므로 LLM에 고유한 과제를 제기합니다. 성능이 기대 이하인 주된 이유 중 하나는 언어 모델링 목표와 회귀 작업 목표 간의 본질적인 차이 때문입니다LLM은 언어 패턴과 관계를 파악하는 데 중점을 둔 사전 학습을 통해 시퀀스의 다음 단어를 예측하거나 일관된 텍스트를 생성하도록 설계되었습니다. 따라서 내부 표현은 연속적인 숫자 출력을 모델링하는 데 적합하지 않을 수 있습니다. 게다가 자연어 처리의 복잡성을 포착하는 데 중점을 두고 주로 텍스트 데이터에 대해 학습된 LLM이 주를 이룹니다. 그 결과 텍스트, 이미지, 오디오, 비디오, 액션, 로보틱스 등 다양한 데이터 유형을 처리하는 멀티모달 데이터에 대한 성능은 아직 미개척 분야로 남아 있습니다. 또한 BEiT[110] 및 PaLI[19]와 같은 미세 조정된 멀티모달 모델은 여전히 시각적 질의응답(VQA) 및 이미지 캡션과 같은 많은 작업을 지배하고 있습니다. 그럼에도 불구하고 최근에 도입된 GPT-4[76]는 멀티모달 융합에 한 발짝 다가섰지만 아직 그 기능에 대한 자세한 평가가 부족합니다.


4.5.2 사용 사례. LLM은 특정 작업에 특히 적합합니다. LLM은 인간을 모방하고 챗봇처럼 행동하며 다양한 종류의 작업을 수행하는 데 매우 능숙합니다. LLM기반 ChatGPT는 사람과 여러 번 대화하는 동안 일관성, 신뢰성, 정보성, 견고함을 보여줘 놀라움을 자아냅니다. 인간 피드백 절차는 이러한 능력을 습득하는 데 중요한 역할을 합니다.

LLM은[27, 29, 99, 121, 122]에서와 같이 데이터 증강을 위한 훌륭한 주석자 및 데이터 생성자 역할을 할 수 있습니다. 일부 LLM은 일부 작업에서 인간 주석가[37]만큼 뛰어난 것으로 밝혀졌습니다. 그리고 GPT- 3.5(text-davinci-003)에서 수집된 텍스트는 다른 언어 모델을 훈련하기 위한 인간과 유사한 명령어 추종 데모로 사용되었습니다[100].

LLM은 요약 및 번역과 같은 일부 NLG 작업의 품질 평가에도 사용할 수 있습니다요약 작업에서 평가자로서의 GPT-4는 다른 방법보다 큰 차이로 인간과 더 높은 상관 관계를 달성합니다 [64]. LLM을 기반으로 하는 다른 평가자[34, 50, 64, 108]도 특히 기존의 자동 메트릭과 비교했을 때 더 많은 NLG 작업에서 인간과 잘 일치하는 것으로 나타났습니다. 그러나 LLM 평가자는 LLM으로 생성된 텍스트에 편향성을 가질 수 있습니다 [64].

또한 위에서 논의했듯이 LLM의 일부 능력은 해석 가능성과 같은 성능 향상 외에도 보너스를 가져다 줍니다. LLM의 CoT 추론 능력은 LLM이 예측에 도달하는 방법을 보여줄 수 있으며, 이는 인스턴스 수준에서 좋은 해석인 동시에 성능도 향상시킵니다.


4.6 실제 '작업'

이 섹션의 마지막 부분에서는 실제 '작업'에서 LLM과 미세 조정된 모델을 사용하는 방법에 대해 논의하고자 합니다. 실제 시나리오에는 학계에서와 같이 잘 정립된 정의가 없는 경우가 많으므로 "작업"이라는 용어를 느슨하게 사용합니다. 심지어 모델에 대한 많은 요청은 NLP 작업으로 취급할 수 없습니다. 

모델은 현실 세계에서 세 가지 관점에서 문제에 직면합니다:

- 노이즈/비구조화된 입력. 실제 입력은 실제 비전문가로부터 나옵니다. 이들은 모델과 상호 작용하는 방법에 대한 지식이 거의 없거나 심지어 텍스트를 유창하게 사용할 수 없습니다. 따라서 실제 입력 데이터는 사전 학습이나 미세 조정에 사용되는 잘 정형화된 데이터와 달리 오타, 구어체, 혼합 언어가 포함되어 있어 지저분할 수 있습니다.

- 학계에서 공식화되지 않은 작업: 실제 시나리오에서 작업은 학계에서 정의되지 않은 경우가 많으며 학문적 환경보다 훨씬 더 다양합니다. 사용자는 사전 정의된 범주에 깔끔하게 속하지 않는 쿼리나 요청을 자주 제시하며, 때로는 하나의 쿼리에 여러 작업이 포함되기도 합니다.

- 사용자의 지시를 따르기. 사용자의 요청에는 여러 가지 암시적 의도(예: 출력 형식에 대한 특정 요구 사항)가 포함될 수 있으며, 후속 질문 없이는 원하는 예측이 불분명할 수 있습니다. 모델은 사용자의 의도를 이해하고 그 의도에 부합하는 출력을 제공해야 합니다.

기본적으로 현실 세계에서 이러한 문제는 사용자의 요청이 특정 작업을 위해 설계된 NLP 데이터 세트의 배포와 크게 다르다는 데서 비롯됩니다. 공개 NLP 데이터 세트는 모델이 사용되는 방식을 반영하지 않습니다[77].


비고 7

LLM은 미세 조정된 모델에 비해 실제 시나리오를 처리하는 데 더 적합합니다. 그러나 실제 환경에서 모델의 효과를 평가하는 것은 여전히 미해결 문제입니다.


이러한 실제 시나리오를 처리하려면 모호성에 대처하고, 문맥을 이해하고, 노이즈 입력을 처리해야 합니다. 미세 조정 모델에 비해 LLM은 다양한 쓰기 스타일, 언어 및 도메인을 포괄하는 다양한 데이터 세트에 대해 학습되었기 때문에 이러한 작업에 더 적합합니다. 또한 LLM은 오픈 도메인 응답을 생성하는 능력이 뛰어나기 때문에 이러한 시나리오에 적합합니다. 반면에 미세 조정 모델은 잘 정의된 특정 작업에 맞춰진 경우가 많으며 새롭거나 예상치 못한 사용자 요청에 적응하는 데 어려움을 겪을 수 있습니다. 이러한 모델은 명확한 목표와 모델이 따라야 할 지침 유형을 지정하는 잘 구성된 학습 데이터에 크게 의존합니다. 미세 조정된 모델은 특정 분포와 구조화된 데이터에만 초점을 맞추기 때문에 노이즈가 많은 입력으로 인해 어려움을 겪을 수 있습니다. 미세 조정된 모델이 비정형 컨텍스트를 처리하고, 가능한 의도를 파악하고, 그에 따라 모델 응답을 구체화하기 위해서는 보조 시스템으로 추가 시스템이 필요한 경우가 많습니다.

또한 명령어 튜닝[91, 112] 및 휴먼 얼라인먼트 튜닝[77]과 같은 일부 메커니즘은 사용자 지침을 더 잘 이해하고 따를 수 있도록 LLM의 기능을 더욱 향상시킵니다. 이러한 방법은 일관성과 일관성을 유지하면서 유용하고 무해하며 정직한 응답을 생성하는 모델의 능력을 향상시킵니다[77, 91, 112]. 

두 가지 방법 모두 보이지 않는 작업과 지시에 대해 LLM을 더 잘 일반화할 수 있지만, 인간 라벨러는 FLAN [112] 및 T0 [91]과 같은 공개 NLP 작업의 지시에 따라 조정된 모델보다 인간 정렬에 맞게 조정된 모델[77]을 선호한다는 사실이 밝혀졌습니다. 그 이유는 미세 조정된 모델이 열등한 이유와 유사할 수 있습니다. 공개 NLP 작업/데이터 세트는 쉽고 자동화된 평가를 위해 설계되었으며 실제 사용의 일부만 다룰 수 있기 때문입니다.


실제 시나리오에서 가장 중요한 문제 중 하나는 모델이 좋은지 아닌지를 평가하는 방법입니다. 공식화된 작업이나 메트릭이 없으면 모델 효과 평가는 라벨러의 피드백에만 의존할 수밖에 없습니다. 사람에 의한 평가의 복잡성과 비용을 고려할 때, 아직 미세 조정된 모델과 LLM을 대규모로 체계적으로 비교한 사례는 없습니다. 그럼에도 불구하고 chatGPT와 같은 LLM의 큰 성공과 인기는 LLM의 우수성을 어느 정도 확인시켜주고 있습니다.


5. 기타 고려 사항


LLM이 다양한 다운스트림 작업에 적합하지만 효율성 및 신뢰성과 같은 몇 가지 다른 요소도 고려해야 합니다. 효율성에 대한 논의에서는 학습 비용, 추론 지연 시간, LLM의 매개변수 효율적 튜닝 전략에 대해 다룹니다. 한편, 신뢰성에 대한 검토에는 견고성 및 보정, 공정성 및 편향성, 잠재적인 허위 상관관계, LLM의 안전 문제 등이 포함됩니다. 


비고 8

(1) 특히 비용에 민감하거나 지연 시간이 엄격하게 요구되는 경우 LLM보다는 가볍고 로컬에서 미세 조정된 모델을 고려해야 합니다. 매개변수 효율적 튜닝은 모델 배포 및 전송을 위한 실행 가능한 옵션이 될 수 있습니다.

(2) LLM의 제로 샷 접근 방식은 미세 조정된 모델에서 널리 사용되는 작업별 데이터 세트에서 지름길을 학습하는 것(shortcuts from task-specific datasets)을 금지합니다. 그럼에도 불구하고 LLM은 여전히 어느 정도의 숏 컷 러닝 문제를 보여줍니다.

(3) 잠재적으로 유해하거나 편향된 출력과 LLM으로 인한 환각은 심각한 결과를 초래할 수 있으므로 LLM과 관련된 안전 문제를 가장 중요하게 고려해야 합니다. 사람의 피드백과 같은 일부 방법은 이러한 문제를 완화할 수 있는 가능성을 보여주었습니다.


*숏컷러닝 ; 과적합은 다양한 방식으로 나타날 수 있지만, 사용자 지정 데이터 세트와 새로운 문제를 다룰 때 지름길 학습이 반복적으로 나타나는 경향이 있습니다. 숏컷러닝은 일반적으로 관련성이 없거나 존재하지 않을 것으로 예상되는 데이터의 문제에 모델이 맞을 때마다 발생합니다. 실제적인 예로 개와 고양이의 특징을 제대로 인식하는 대신 목줄을 감지하는 데 특화된 개/고양이 분류기를 들 수 있습니다. 목줄이 있다고 가정하면 개일 가능성이 높지만, 목줄은 개를 나타내는 일반적인 설명자가 아닙니다. 그것은 게으른 일입니다! 


5.1 효율성

실제 배포에서는 모델의 성능뿐만 아니라 성능, 비용, 지연 시간도 모두 중요한 고려 사항입니다. 일부 매개변수 효율적 방법이 개발되었지만, 실무자는 실무에서 효율성과 효과성의 균형을 맞춰야 합니다.


비용. 최근 몇 년 동안 LLM은 점점 더 커져 GPT-1, GPT-2, GPT-3과 같은 모델은 각각 1억 1,700만 개, 15억 개, 1,750억 개의 파라미터를 갖추고 있습니다. LLM을 훈련하는 데 드는 비용은 모델 크기에 따라 크게 영향을 받는데, T5의 11B 매개변수 변형을 훈련하는 데 한 번 실행하는 데 130만 달러가 훨씬 넘는 비용이 드는 것으로 추산되는 반면, GPT-3 175B의 단일 훈련 실행에는 460만 달러가 필요합니다[3]. 

대형 모델을 훈련하는 데 드는 에너지 소비량도 마찬가지로 인상적입니다. 6B개의 파라미터가 있는 트랜스포머 모델을 훈련하는 데 필요한 총 에너지 소비량은 약 103.5MWh로 추정됩니다[30]. Google은 PaLM을 훈련하는 데 약 2개월 동안 약 3.4GWh를 소비했다고 보고했습니다[6]. 

또한 데이터 세트 크기도 모델 크기에 따라 빠르게 확장되는데, GPT-3 175B는 4,990억 개의 토큰으로 훈련되었습니다[16]. 

컴퓨팅 비용을 반영하는 또 다른 주요 지표는 플롭스(Flops)로, GPT-3 175B는 3.14 × 1023 플롭스가 필요한 반면, T5 11B 모델은 이보다 10배 적은 3.30 × 1022만 필요합니다

이러한 비용 외에도 하드웨어 요구 사항도 상당합니다. OpenAI는 대규모 모델 학습을 지원하기 위해 285,000개의 CPU 코어와 10,000개의 하이엔드 GPU로 구성된 Microsoft Azure 클라우드에서 호스팅되는 슈퍼컴퓨터에서 Microsoft와 협력하고 있습니다. OpenAI API 사용자의 경우, 가격은 모델과 사용량에 따라 달라지며, 채팅 서비스를 위해 1,000 토큰당 0.002달러를 청구하는 GPT-3.5-터보와 같은 옵션이 있습니다. 그러나 맞춤형 모델이 필요한 사용자의 경우 교육 비용은 1,000 토큰당 0.03달러이며, 사용 비용은 1,000 토큰당 0.12달러입니다[4]. 따라서 소규모 스타트업, 개인 사용자 등 큰 비용을 감당할 수 없는 사용자에게는 작고 세밀하게 조정된 모델이 더 합리적이고 좋은 선택입니다.


지연 시간. 지연 시간은 LLM의 실제 적용에서 고려해야 할 중요한 요소입니다. 추론 시간은 지연 시간을 측정하는 데 일반적으로 사용되는 지표로, 모델 크기, 아키텍처 및 토큰 크기에 따라 크게 달라집니다. 예를 들어, 최대 토큰 크기가 2, 8, 32로 설정된 경우 GPT-J 6B 모델의 추론 시간은 각각 0.077초, 0.203초, 0.707초입니다. 또한 최대 토큰 크기를 32로 고정할 경우, InstructGPT 모델(davinci v2)의 추론 시간은 1.969초입니다. LLM은 단일 사용자의 컴퓨터에서 실행하기에는 너무 큰 경우가 많기 때문에, 기업들은 API를 통해 LLM 서비스를 제공합니다. API 지연 시간은 사용자의 위치에 따라 달라질 수 있으며, 단일 요청에 대한 OpenAI API 서비스의 평균 지연 시간은 수백 밀리초에서 몇 초까지 다양합니다. 

높은 지연 시간을 허용할 수 없는 시나리오에서는 대규모 LLM이 적합하지 않을 수 있습니다. 예를 들어, 많은 정보 검색 애플리케이션에서 확장성은 매우 중요합니다. 웹에 정보 검색 시스템을 배포하려면 검색 엔진이 시스템을 유용하게 사용하기 위해 매우 효율적인 추론이 필요합니다. InstructGPT davinci v2(175B*) 모델의 이상적인 노이즈 제거 추론 시간은 요청(즉, 점수화할 쿼리-통로 쌍) 당 0.21초로, 웹 검색 엔진에는 너무 느립니다.


매개변수 효율적 튜닝(PET, Parameter-Efficient Tuning). 실제로는 일부 특정 데이터 세트에 대해 모델을 조정할 수 있습니다. 파라미터 효율적 튜닝(PET)은 사전 학습된 모델 파라미터의 대부분을 동결하면서 모델 파라미터(또는 추가 파라미터)의 작은 부분을 튜닝하는 효율적인 기법입니다. PET의 주요 목표는 원래의 성능을 유지하면서 계산 및 저장 비용을 크게 줄이는 것입니다. PET의 일반적인 기법은 LoRA [42], Prefix 튜닝 [58], P-튜닝 [62, 63] 등이 있습니다. 예를 들어, LoRA 방법은 사전 훈련된 모델의 가중치를 유지하고

그리고 낮은 순위의 행렬을 트랜스포머 아키텍처의 모든 계층에 통합합니다. 이 접근 방식은 후속 작업을 위해 학습이 필요한 매개변수의 수를 최소화하여 전반적인 효율성을 높입니다. 알파카-LoRA는 낮은 순위 적응(LoRA)을 알파카에 통합하여 단일 RTX 4090에서 몇 시간 내에 알파카를 실행할 수 있도록 제안합니다. 이러한 모든 PFT 방법은 특정 작업에 맞게 모델을 미세 조정하거나 사람 정렬과 같은 특수한 요구 사항을 충족하도록 LLM을 조정하는 데 유용할 수 있습니다. 


5.2 신뢰성

의료, 금융, 법률과 같은 민감한 영역에서 LLM이 활용되는 만큼 신뢰할 수 있고 신뢰할 수 있는 결과물을 생성할 수 있는지 확인하는 것이 중요합니다.

견고성 및 보정. LLM의 정확도와 견고성은 매우 강력한 상관관계가 있는 것으로 나타났습니다[59]. 시나리오에 대한 정확도가 높은 모델은 견고성 또한 우수합니다. 그러나 제로 샷의 견고성은 추가적인 애플리케이션별 작업 데이터에 대해 튜닝한 후 악화됩니다[116]. 이는 모델의 매우 높은 복잡성과 다운스트림 작업의 제한된 훈련 샘플로 인해 일반화 가능성이 떨어지는 과적합 때문일 수 있습니다 [43]. 비슷한 맥락에서, 모델을 미세 조정하면 과도한 매개변수화로 인해 상당한 오차가 발생할 수 있다는 사실이 관찰되었습니다 [51]. 따라서 견고성과 보정이 중요한 고려 사항인 경우 미세 조정 모델은 최적의 선택이 아닐 수 있습니다. 

그러나 모델 견고성을 향상시키기 위한 잠재적인 솔루션으로 사람 정렬이 발견되었습니다. InstructGPT davinci v2(175B*)는 견고성 측면에서 다른 모델보다 뛰어난 성능을 발휘하는 것으로 나타났습니다. 반면에 모델의 최적 보정을 달성하는 것은 사용되는 시나리오와 적응 절차에 따라 달라집니다.


공정성 및 편향성. LLM은 서로 다른 대우와 영향을 미치며 사회적 편견을 지속시키고 잠재적으로 차별을 유발하는 것으로 나타났습니다[10, 17]. 모든 사용자에게 공정성과 형평성을 보장하기 위해서는 자연어 처리 모델을 개발하고 배포할 때 이러한 문제를 해결하는 것이 중요합니다. 인구통계학적 그룹 간의 성능 격차는 공정성 문제를 나타내는 지표가 될 수 있습니다. 방언, 종교, 성별, 인종과 같은 인구통계학적 범주에서 상당한 성능 격차가 관찰되었기 때문에 자연어 처리 모델은 특히 공정성 문제에 취약합니다[59]. 그러나 연구에 따르면 모델을 사람의 지시에 맞게 조정하면 모델 규모에 관계없이 LLM 성능을 향상시킬 수 있으며, 특히 InstructGPT모델(davinci v2)은 다른 LLM에 비해 성능 격차가 더 작은 것으로 나타났습니다[23].


허위 편향. 지름길 학습 문제는 사전 학습 및 미세 조정 패러다임 하의 다양한 자연어 이해 작업에서 관찰되었으며, 모델은 예측을 위해 미세 조정 데이터의 입력과 레이블 간의 허위 상관관계(spurious correlations, 허위 상관 또는 허구적 상관은 둘 이상의 변수가 통계적으로 상관되어 있지만 인과관계가 없는 관계를 말한다)에 크게 의존합니다 [31, 35, 98]. 예를 들어, 독해 과제에서 미세 조정된 모델은 의도된 독해 과제 자체를 무시하고 문제와 원본 구절 사이의 단어 어휘 매칭에 초점을 맞추는 경향이 있습니다 [53]. 반면, 대규모 언어 모델은 미세 조정된 데이터 세트에 대해 직접 학습하지 않기 때문에 미세 조정된 데이터 세트에 존재하는 지름길 기능을 학습할 가능성이 낮아 모델의 일반화 기능이 향상됩니다. 그러나 LLM은 완벽하지 않으며 상황 내 학습 중에 일부 지름길 학습이 나타날 수 있습니다. 예를 들어, 최근 대규모 언어 모델에서 프롬프트 기반 방법의 견고성을 조사하는 예비 연구가 시작되었습니다[111, 129]. 이러한 연구 중 하나는 텍스트 분류 및 정보 추출 작업에 대한 GPT-3의 단발성 학습 성능을 평가한 것입니다[129]. 그 결과, 조사된 LLM은 훈련 데이터에서 답변의 빈도나 위치에 따라 답변을 예측하는 경향이 있는 다수 라벨 편향과 위치 편향에 취약한 것으로 나타났습니다. 또한 이러한 LLM은 사전 학습 말뭉치에서 널리 퍼져 있는 답변을 선호하는 일반적인 토큰 편향을 보입니다. 최근 연구에 따르면 적절한 프롬프트를 선택하면 이러한 위치 편향을 완화할 수 있다고 합니다[68]. 요약하면, LLM은 미세 조정된 모델에서 널리 퍼져 있는 지름길 학습 문제를 크게 줄이기는 하지만, 여전히 일부 지름길 학습 문제를 나타내므로 다운스트림 애플리케이션에 배포할 때는 신중하게 접근해야 합니다.


5.3 안전 문제

인공 지능은 추론, 지식 유지, 코딩 등 여러 분야에서 매우 강력한 능력을 입증해 왔습니다. 인공지능이 더욱 강력해지고 인간과 비슷해짐에 따라 사람들의 의견과 행동에 큰 영향을 미칠 수 있는 잠재력도 커지고 있습니다. 그 결과, 우리 사회에 대한 새로운 안전 문제를 고려해야 하며 최근 연구에서 많은 주목을 받고 있습니다[75, 76].


환각. LLM이 "환각"을 일으키거나 무의미하거나 진실하지 않은 콘텐츠를 생성할 수 있는 잠재력은 다양한 애플리케이션에서 정보의 품질과 신뢰성에 심각한 부정적인 영향을 미칠 수 있습니다. LLM이 점점 더 설득력 있고 믿을 만해짐에 따라, 사용자들은 자신이 어느 정도 익숙한 영역에서 정확한 정보를 제공할 것으로 믿고 지나치게 의존하게 될 수 있습니다. 모델이 완전히 거짓이거나 오해의 소지가 있는 콘텐츠를 생성하여 해당 정보를 기반으로 잘못된 의사 결정이나 행동을 취하는 경우 이는 특히 위험할 수 있습니다. 이러한 결과는 정보의 정확성과 신뢰성이 중요한 의료, 금융 또는 공공 정책과 같은 많은 영역에서 심각한 결과를 초래할 수 있습니다. 이러한 문제를 완화하기 위해 인간 피드백을 통한 강화 학습(RLHF)이 널리 사용되고 있으며[75, 77], LLM 자체가 루프에 통합되었습니다[75].


유해한 콘텐츠. LLM이 생성하는 텍스트의 일관성, 품질, 개연성이 높기 때문에 LLM의 유해 콘텐츠는 혐오 발언, 차별, 폭력 선동, 허위 서술, 심지어 사회공학적 공격 등 심각한 피해를 야기할 수 있습니다. 이러한 콘텐츠를 감지하고 수정하기 위한 안전 장치를 구현하면 이러한 피해를 완화할 수 있습니다[97]. 또한 이러한 LLM은 필요한 불법 정보를 제공하여 무기 확산[75], 심지어 테러 공격 계획과 같은 위험으로 이어질 수 있는 이중 사용 가능성을 가지고 있습니다. 따라서 이러한 LLM을 책임감 있게 사용하고 피해를 방지하기 위한 안전장치를 마련하는 것이 중요합니다. 또한 기존 작업에서 사람의 피드백은 유해한 결과물을 제거하는 데 중요한 역할을 합니다.


개인정보 보호. LLM은 심각한 보안 문제에 직면할 수 있습니다. 예를 들어 사용자 개인정보 보호 문제가 있습니다. 삼성 직원이 업무 처리를 위해 ChatGPT를 사용하던 중 새로운 프로그램의 소스 코드, 하드웨어 관련 내부 회의록 등 일급 기밀 데이터가 실수로 유출된 것으로 알려졌습니다. 이탈리아 데이터 보호 기관은 ChatGPT의 개발사인 OpenAI가 개인 사용자 데이터를 불법적으로 수집했다고 선언했고, 이탈리아 정부는 개인 정보 보호 문제를 이유로 ChatGPT를 금지한 최초의 국가가 되었습니다[1].


6 결론 및 향후 과제


최근 대규모 언어 모델의 발전은 자연어 처리 분야에 혁명을 일으키고 있습니다. LLM을 효과적으로 사용하려면 다양한 자연어 처리 작업에 대한 기능과 한계를 이해해야 합니다. 이 작업에서는 다운스트림 NLP 작업을 위한 LLM 작업에 대한 실용적인 가이드를 제시합니다. 먼저 GPT 스타일 및 BERT 스타일 아키텍처와 같은 대표적인 모델과 그 성능에 영향을 미치는 요인에 대해 설명합니다. 그런 다음 지식 집약적 작업, NLU 및 NLG 작업을 포함한 다운스트림 작업에 LLM을 사용하는 방법을 살펴보고 성공과 한계에 대한 구체적인 예를 제공합니다. 이 실용적인 가이드는 LLM에 대한 인사이트와 NLP 작업 전반에서 LLM을 활용하기 위한 모범 사례를 제공합니다. 연구자와 실무자가 잠재력을 활용하여 언어 기술의 혁신을 주도할 수 있기를 바랍니다.


다음에서는 LLM의 향후 과제에 대해 알아보고자 합니다:


- 실제 '데이터 세트'에 관해 제안된 모델 평가. 기존의 딥러닝 모델은 주로 딥러닝 개발의 이정표가 되어온 ImageNet과 같은 표준 학술 데이터셋에서 평가됩니다. 그러나 표준 학술 데이터 세트의 한계로 인해 실제 성능을 정확히 반영할 수 없습니다. 모델이 발전함에 따라 실제 요구 사항을 반영하는 보다 다양하고 복잡하며 현실적인 데이터로 모델을 평가하는 것이 중요합니다. 학술용 데이터 세트뿐만 아니라 실제 '데이터 세트'로 모델을 평가하면 모델의 기능을 더욱 엄격하게 테스트할 수 있을 뿐만 아니라 실제 애플리케이션에서의 효과를 더 잘 이해할 수 있습니다. 이를 통해 모델이 실제 문제를 해결하고 실용적인 솔루션을 제공할 수 있도록 보장합니다.


- 모델 정렬. 점점 더 강력하고 자율적인 모델이 인간의 가치와 우선순위에 부합하도록 하는 것은 필수적입니다. 이러한 모델이 의도한 대로 작동하고 바람직하지 않은 결과를 위해 최적화되지 않도록 보장하는 방법을 개발해야 합니다. 모델 개발 프로세스의 시작 단계부터 정렬 기술을 통합하는 것이 중요합니다. 모델 투명성과 해석 가능성 또한 정렬을 평가하고 보장하는 데 중요한 요소입니다. 또한 미래를 내다볼 때, 초인적인 시스템을 정렬해야 하는 더욱 어려운 과제가 다가오고 있습니다. 이 작업은 현재로서는 우리의 능력을 넘어서는 것이지만, 이러한 첨단 시스템을 조정하는 데는 고유한 복잡성과 윤리적 문제가 발생할 수 있으므로 잠재적 영향을 고려하고 대비하는 것이 중요합니다[8, 15]. 


- 안전 정렬. AI의 실존적 위험에 대한 논의도 중요하지만, 첨단 AI의 안전한 개발을 보장하기 위해서는 구체적인 연구가 필요합니다. 여기에는 해석 가능성, 확장 가능한 감독 및 거버넌스, 모델 속성에 대한 공식적인 검증을 위한 기술이 포함됩니다. 안전은 단순한 부가 기능이 아니라 모델 구축 프로세스의 필수적인 부분으로 간주되어야 합니다.


- 확장에 따른 성능 예측. 모델의 크기와 복잡성이 급격히 증가함에 따라 모델 성능이 어떻게 변화할지 예측하기는 어렵습니다. 확장 후 또는 새로운 아키텍처가 개발될 때 모델 성능을 더 잘 예측할 수 있는 방법을 개발하면 리소스를 더 효율적으로 사용하고 진행 속도를 높일 수 있습니다. 더 작은 '시드' 모델을 훈련하고 그 성장을 추정하거나, 규모 증가 또는 모델 조정의 효과를 시뮬레이션하거나, 다양한 규모에서 모델의 반복을 벤치마킹하여 확장 법칙을 구축하는 등의 방법이 있습니다. 이를 통해 모델을 구축하기 전에도 모델의 성능에 대한 인사이트를 얻을 수 있습니다.


작가의 이전글 거대언어모델(LLM)의 현주소
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari