brunch

매거진 AI

You can make anything
by writing

C.S.Lewis

by 도안구의 테크수다 Mar 05. 2023

메타, LLaMA 소개

[테크수다 기자 도안구 eyeball@techsuda.com] 


마이크로소프트와 오픈AI가 쏘아올린 생성형 AI 분야에서 메타(페이스북)을 빼놓을 수 없죠. LLaMA 소개: 650억 개의 파라미터를 가진 기초적인 대규모 언어 모델 이라는 글을 공개했습니다.


Introducing LLaMA: A foundational, 65-billion-parameter language model (facebook.com)


오늘도 역시 deepl.com 을 통해 번역했습니다. 원문을 반드시 읽어서 제대로 된 것인지 확인해주세요.

전 그냥 정보 습득 차원에서 활용하고 있으니까요.


흥미로운 건 Meta AI의 LLaMA(대규모 언어 모델 Meta AI) 모델에 대한 액세스를 요청하려면 이 양식을 작성해 주시면 검토 후 사용 사례 승인 여부를 알려드리겠습니다. 아래에 제공한 정보는 해당 모델에 액세스할 수 있는 자격을 평가하는 데만 사용됩니다.


Request Form (google.com)


신청을 받아서 허용된 이들에게만 접속이 허락되었는데 이게 통째로 유출되어 지금 전세계 개발자들이나 연구진들이 만세를 부르고 있다고 합니다.




오픈 사이언스에 대한 Meta의 노력의 일환으로, 오늘 저희는 연구자들이 이 AI 하위 분야의 연구를 발전시킬 수 있도록 설계된 최첨단 기초 대규모 언어 모델인 LLaMA(대규모 언어 모델 Meta AI)를 공개적으로 출시합니다. LLaMA와 같이 더 작고 성능이 뛰어난 모델을 사용하면 대량의 인프라에 액세스할 수 없는 연구 커뮤니티의 다른 사람들도 이러한 모델을 연구할 수 있으므로 빠르게 변화하는 이 중요한 분야에 대한 액세스를 더욱 민주화할 수 있습니다.


새로운 접근 방식을 테스트하고, 다른 사람의 작업을 검증하고, 새로운 사용 사례를 탐색하는 데 훨씬 적은 컴퓨팅 성능과 리소스가 필요하기 때문에 대규모 언어 모델 공간에서는 LLaMA와 같은 소규모 기초 모델을 훈련하는 것이 바람직합니다. 기초 모델은 레이블이 지정되지 않은 대규모 데이터 세트를 기반으로 학습하므로 다양한 작업을 위한 미세 조정에 이상적입니다. Facebook은 다양한 크기(7억, 13억, 33억, 65억 매개변수)의 LLaMA를 제공하고 있으며, 책임감 있는 AI 관행에 대한 접근 방식에 따라 모델을 구축한 방법을 자세히 설명하는 LLaMA 모델 카드도 공유하고 있습니다.


지난 한 해 동안 수십억 개의 매개변수를 가진 자연어 처리(NLP) 시스템인 대규모 언어 모델은 창의적인 텍스트를 생성하고, 수학 정리를 풀고, 단백질 구조를 예측하고, 독해력 문제에 답하는 등의 새로운 기능을 보여주었습니다. 이는 AI가 수십억 명의 사람들에게 대규모로 제공할 수 있는 상당한 잠재적 혜택을 가장 명확하게 보여주는 사례 중 하나입니다.


최근 대규모 언어 모델의 모든 발전에도 불구하고 이러한 대규모 모델을 학습하고 실행하는 데 필요한 리소스로 인해 전체 연구에 대한 액세스는 여전히 제한적입니다. 이러한 제한된 접근으로 인해 연구자들은 이러한 대규모 언어 모델이 작동하는 방식과 이유를 이해하는 데 한계가 있으며, 편향성, 독성, 잘못된 정보 생성 가능성 등 알려진 문제를 완화하고 견고성을 개선하기 위한 노력의 진전을 저해하고 있습니다.


더 많은 토큰(단어 조각)으로 훈련된 소규모 모델은 특정 잠재적 제품 사용 사례에 맞게 재훈련하고 미세 조정하기가 더 쉽습니다. Facebook은 1조 4천억 개의 토큰으로 LLaMA 65B와 LLaMA 33B를 학습시켰습니다. 가장 작은 모델인 LLaMA 7B는 1조 개의 토큰으로 학습되었습니다.


다른 대규모 언어 모델과 마찬가지로 LLaMA는 일련의 단어를 입력으로 받아 다음 단어를 예측하여 재귀적으로 텍스트를 생성하는 방식으로 작동합니다. 모델을 학습시키기 위해 라틴어와 키릴 문자를 중심으로 사용자가 가장 많은 20개 언어의 텍스트를 선택했습니다.


대규모 언어 모델에서 편향성, 유해한 댓글, 환각의 위험을 해결하기 위해서는 아직 더 많은 연구가 필요합니다. 다른 모델과 마찬가지로 LLaMA도 이러한 과제를 공유하고 있습니다. 기초 모델인 LLaMA는 특정 작업을 위해 설계된 미세 조정 모델과 달리 다목적이며 다양한 사용 사례에 적용될 수 있도록 설계되었습니다. 다른 연구자들은 LLaMA 코드를 공유함으로써 대규모 언어 모델에서 이러한 문제를 제한하거나 제거하기 위한 새로운 접근 방식을 보다 쉽게 테스트할 수 있습니다. 또한 이 논문에서는 모델 편향성과 독성을 평가하는 벤치마크에 대한 일련의 평가 결과를 제공하여 모델의 한계를 보여주고 이 중요한 영역에 대한 추가 연구를 지원합니다.


무결성을 유지하고 오용을 방지하기 위해 연구 사용 사례에 초점을 맞춘 비상업적 라이선스에 따라 모델을 공개합니다. 이 모델에 대한 액세스는 학술 연구자, 정부, 시민 사회 및 학계 조직에 소속된 연구자, 전 세계 산업 연구소에 사례별로 부여됩니다. 액세스 신청에 관심이 있는 사람은 연구 논문에서 신청 링크를 확인할 수 있습니다.


학계 연구자, 시민 사회, 정책 입안자, 산업계 등 전체 AI 커뮤니티가 협력하여 책임감 있는 AI 전반과 특히 책임감 있는 대규모 언어 모델에 대한 명확한 가이드라인을 개발해야 한다고 믿습니다. 커뮤니티가 LLaMA를 통해 무엇을 학습하고, 궁극적으로 무엇을 구축할 수 있을지 기대됩니다.


#meta #ai #llama #openai #microsoft 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari