최소 수십억(Billion)에서 많게는 조 단위(Trillion)의 매개변수(parameter)를 가지는 생성형 AI의 학습과 추론에는 어마어마한 양의 데이터와 리소스(시간과 돈)가 들어갑니다. 그렇다면 생성형 AI가 만들어낸 텍스트와 이미지 등의 성과물은 누구의 것일까요?
모델을 설계하고 코드를 만든 개발자들의 것일까요? 아니면 방대한 양의 데이터를 제공한 어떤 이름 모를 사람들의 것일까요? 그것도 아니라면 모델을 만들기 위해 필요한 막대한 양의 자본을 제공한 자본가(회사)의 것일까요?
아마도 대부분의 분들이 당연히 자본가(회사)의 것이라고 대답하실 것입니다. 자본주의 사회에서 이것은 지극히 타당하고 자연스러운 사고방식일지 모릅니다. 그러나 과연 그것이 진짜로 당연한 것인지는 생각해 볼 필요가 있을 것 같습니다.
분명 생성형 AI는 어렵고 비싸고 진입장벽이 높습니다. 그러나 꼭 그래야 할 필요는 없습니다. 여기 폐쇄진영의 다소 노골적인 생성형 AI 독점 수익화에 반기를 들고 개발자와 일반인들의 손을 들어준 집단이 있습니다. 바로 우리에게 Facebook이라는 이름으로 더 익숙한 Meta의 Meta AI입니다.
GPT-3 해부하기에서 살펴보았듯이 생성형 AI는 모델의 크기가 커질수록 성능 역시 좋아진다는 것은 상식처럼 받아들여져 왔습니다. 그러나 글의 서두에서 언급했듯이 커다란 모델 사이즈는 방대한 양의 리소스를 소모하며 이는 인공지능에 대한 진입장벽을 높이는 가장 큰 요소 중 하나입니다.
LLaMA(Large Language Model Meta AI)는 이를 해결하기 위해 비교적 작은 사이즈의 모델(7B, 13B, 33B, 65B)들을 제시합니다. 뿐만 아니라 논문에서는 사이즈가 작은 모델을 더 많은 데이터로 학습시키는 것이 사이즈가 큰 모델을 더 많은 파라미터로 학습시키는 것보다 성능이 좋을 수 있다는 사실을 증명해 냈습니다. 놀랍게도 GPT-3(175B)에 비해 매개변수가 절반도 되지 않는 LLaMA 모델이 거의 모든 성능 지표에서 GPT-3을 앞서는 것을 보실 수 있습니다.
출처 : LLaMA: Open and Efficient Foundation Language Models
뿐만 아니라 논문에서는 생성형 AI 서비스 제공을 위해 고려해야 할 모델 추론(inference) 메모리 양의 중요성을 강조합니다. 이는 큰 모델을 학습하는 것이 성능 좋은 모델을 얻기까지 걸리는 학습에 시간은 덜 걸릴 수 있지만 LLaMA의 케이스와 같이 보다 작은 모델을 더 오랫동안 학습시키는 것이 inference에서 더 유리하기 때문입니다.
2. LLaMA의 한계점
LLaMA의 가장 큰 한계점은 라이선스 정책입니다. Meta AI는 첫 번째 LLaMA 시리즈 모델의 학술적이지 않은 상업적인 이용을 제한된 하고 있습니다. 성능면에서도 LLaMA는 가성비에 치중한 면이 있습니다. 더욱 적은 리소스로 사이즈기 큰 모델과 비슷하거나 더 나은 성능을 구현해 냈다는 점에서는 고무적이지만 여전히 절대적인 성능면에서는 GPT-4를 비롯한 초거대모델들을 따라갈 수 없습니다.
3. LLaMA가 가지는 의의
LLaMA를 다룬 논문이 GPT를 비롯한 기타 논문과 다른 점은 훈련 데이터 및 환경 문제에 대해 매우 상세하고 포괄적으로 다루고 있다는 점입니다. 기본적으로 모든 생성형 AI는 훈련 데이터 셋의 많은 부분이 웹에서 수집된 데이터의 많은 부분을 포함하고 있기 때문에, 모델이 차별적인 콘텐츠를 생성할 수 있는 잠재적 위험성을 가지고 있습니다. 논문에서는 이러한 생성형 AI의 본질적인 위혐성에 대해 경고합니다.
LLaMA는 훈련 데이터에서 비롯되는 성별과 종교 인종 등 다양한 차별 및 혐오발언에 대한 가능성을 보여주고 있습니다. GPT3뿐 아니라 자사의 OPT(Open Pre-trained Transformer Language Models)과 투명하게 비교하고 있는 점이 인상적입니다.
출처 : LLaMA: Open and Efficient Foundation Language Models
매우 거대한 생성형 AI 모델의 학습은 대량의 에너지를 소모하고 이에 따른 이산화탄소 배출을 야기합니다. 논문의 연구진들은 아래의 각기 다른 자사 모델들을 개발하는 데 약 5개월이 소모되었고, 무려 2048대의 A100-80GB를 사용했다고 밝히고 있습니다. 즉 모델 개발에 약 2,638 MWh가 필요하며 총 1,015 tCO2 eq의 배출이 발생하고 있음을 알 수 있습니다. LLaMA 시리즈 중에서도 비교적 매개변수가 적은 모델을 사용하면 CO2 배출을 많이 줄일 수 있음을 알 수 있습니다.
출처 : LLaMA: Open and Efficient Foundation Language Models
이처럼 LLaMA는 생성형 AI 시대에 우리에게 던져진 많은 질문들에 대한 답의 실마리를 제공하기 위해 많은 노력을 기울인 모델입니다. 다음시간에는 본격적으로 LLaMA 시리즈를 세상에 알린 LLaMA2를 해부해 보도록 하겠습니다.