오픈소스 언어모델 BLOOM과
AI 민주화

Apr 16. 2023

ChatGPT의 열풍이 뜨겁고도 매섭다. '언어'는 인간의 가장 본질적 특징이다. 인간의 모든 인식은 사실상 언어로 구성되어 있으며 이것은 우리의 의식을 따라 물결처럼 흐른다. 인간의 정신 세계는 언어의 흐름과 물결이라고 해도 될 것이다. 이것은은 몸에 비유하자면 '피 blood'의 순환과도 같다.

언어는 이처럼 생물학적 본질을 함축하고 있다. ChatGPT의 열풍은 인간의 본질인 언어를 직접적으로 터치한 결과이다. 물질문명에 익숙했던 인간이 자기의 본질인 언어를 통해 자신의 내면 세계와와 만나기 시작한 것이다. 이것이 언어모델 LLM 기반의 AI가 주목받는 이유의 하나이다.

단지 소통의의 수단으로만 알았던 '언어'가 가진 놀라운 비밀을 우리는 목격하게 된 것이다. 언어로 된 빅데이터가 세계를 말하고 있기 때문이다. 나아가 인간은 과학의 힘을 빌어 자기 내면 세계를 본격적으로 이해하게 되었다. AI는 강력한 생산 수단만이 아니라, 인간이 자기 이해를 이룰 수가 있는 직접적 수단이 되고 있다. AI에 대한 이러한 '해석'은 새로울 수가 있지만, 앞으로는 이것이 AI의 진정한 의미가 될 수 있을 것이다.

AI의 발전이 개인과 사회에 어떤 의미로 다가 올 것인지에 대한 이해는 매우 중요한 것이 되고 있다. 그래서 우리는 AI와 친숙해질 필요가 있다. 관련되는 기술적 용어는 어려울 수도 있다. 어렵다는 것은 우선 낯설기 때문이다. 그러나 자주 보면 익숙해지고 친숙해지기 마련이다. AI에 관한 기술적 개념들은 앞으로는 상식이 될 것이다.

어차피 인간은 AI의 주인이 되어야 할 운명이다. 우리 모두에게는 그러한 능력이 이미 있기 때문이다. 자주보면 친해진다. 새로운 친구를 만날 때 처럼.

- Jasonryoo 편집자 주

아래는 https://works.letr.ai/ 에서 옮김

오픈소스 언어모델 BLOOM, AI 민주화의 꽃이 될 수 있을까?

바야흐로 대형 언어 모델(Large Language Model, 이하 LLM)의 전성시대입니다. 최근 언어 모델의 규모는 기하급수적으로 커져가고 있죠. 2020년 오픈AI가 발표한 GPT-3가 1,750억개의 파라미터(관계를 짓는 매개변수, 매개변수의 설정이 성능를 좌우한다)를 가졌었는데, 2021년 딥마인드 고퍼(Gopher)가 2,800억 개, 국내의 네이버 하이퍼클로바(HyperCLOVA)도 2,400억 개 수준에 이릅니다. 심지어 MS-엔비디아의 MT-NLG(Megatron-Turing Natural Language Generation Model)는 5,300억 개에 달하는 초대형 모델입니다.

이미지: Huggingface

그렇다면 빅 테크 기업들은 왜 이렇게 치킨 게임에 가까운 경쟁을 벌이고 있는 것일까요? 그 이유는 그동안 성능을 높이기 위한 연구개발의 과정에서 큰 모델의 효용성을 깨달았기 때문이죠.** 물론 최근 다른 접근 방법들도 나타나고는 있지만, LLM이란 이 거대한 흐름을 멈추기에는 역부족인 것 같습니다.

대형 언어 모델은 절대선(善)인가?

하지만 LLM 개발로 인한 부작용에 대한 우려의 목소리도 함께 높아지고 있습니다.

1. 우선 AI 언어 기술이 일상에 적용되면서 다양한 윤리 문제가 발생하고 있습니다.

언어 모델이 학습하는 방대한 데이터에는 그동안 인간이 만들어 온 각종 차별과 혐오, 편견 등이 담긴 유해한 텍스트도 포함되어 있기 때문이죠. 우리는 이것을 학습한 AI가 불쾌한 언어를 쓰거나, 거짓 정보를 내보내 문제가 된 사례를 이미 여러차례 목격한 바 있습니다.

62eca064df1bb83921f8deae_sydney-sims-fZ2hMpHIrbI-unsplash.jpg

2. 모델을 훈련시키고 운영하는 데에는 엄청난 에너지 소비와 탄소 배출이 뒤따릅니다.

조금 덜 알려졌을 뿐 화석연료 못지않게 머신러닝도 지구환경에 부정적 영향을 미치고 있는 거죠. (LLM의 위험성을 지적했다 구글에서 해고당한) AI 윤리 학자 팀닛 게브루(Timnit Gebru)의 논문에 따르면 "언어 모델이 점점 더 많은 데이터를 제공받으면서, 2017년 이후 에너지 소비량과 탄소 발자국(Carbon Footprint)이 폭발적으로 증가하고 있다"고 합니다.***

주요 인간 행위의 탄소 발자국 비교, 이산화탄소 환산량 기준(단위: 파운드) / 도표: MIT Technology Review

3. 결정적으로 모두를 위한 AI라고 포장하고 있지만 LLM은 빠르게 독점화, 권력화 되어가고 있습니다. 대형 언어 모델의 개발에는 대규모 자본과 투자가 필요하고, 이를 감당할 수 있는 것은 결국 (이윤 추구가 목적인) 빅 테크 기업들 뿐이니까요. 이런 기울어진 운동장에서는 각자가 확보할 수 있는 데이터 및 컴퓨팅 파워의 수준에 따라 기술 격차는 점점 더 커질 수 밖에 없습니다.

심지어 공개(OPEN)란 이름을 단 오픈AI의 GPT-3 조차 최근 MS가 독점권을 획득해버렸을 정도이니까요. 이것은 정치적 문제입니다.

62eca184f6c55fa69457fd44_micheile-dot-com-lZ_4nPFKcV8-unsplash.jpg

새로운 변화를 위한 비영리 조직의 움직임

하지만 이런 상황에 변화를 가져오려는 이들이 있습니다. 허깅페이스 Huggingface 가 중심이 된 빅사이언스 BigScience 프로젝트를 위해 전 세계 1,000여 명의 AI 연구자들이 자발적으로 힘을 합친 것이죠. 이들은 기존 LLM의 유해성을 내포한 개발 방식에서 벗어나 블룸(BLOOM: BigScience Large Open-Science Open-access Multilingual Language Model)이라는 이름의 새로운 LLM을 만들어냈습니다.

이미지: Huggingface

게다가 블룸은 기존 유명 LLM들에 필적하는 규모까지도 갖췄습니다. GPT-3보다 큰 1,760억 개의 파라미터를 가지고 있죠. 이런 규모를 갖추고도 오픈 소스로 공개되는 다국어 기반 Multi-lingual 모델은 블룸이 처음이라고 합니다.

그럼 지금부터 블룸이 시도한 변화에 대해 좀 더 알아보겠습니다.

투명성

대부분 LLM은 코드나 모델을 투명하게 공개하지 않습니다. (Google, Meta 등도 오픈 소스를 말하기는 하지만 제한적인 경우가 많고, 순수한 의도라고 보기는 힘들 것 같습니다.) 따라서 외부에서는 LLM이 어떤 방식으로 학습하고, 작동하는지 명확히 파악하기 어려웠죠. 반면 블룸은 학습 데이터에 관한 자료, 개발 과정의 기록, 모델 성능 평가 방법 등 모두를 투명하게 공개했습니다.

이러한 행보는 배타적이었던 업계의 관행에 작지만 큰(?) 파문을 불러일으켰습니다. AI 연구에서 배타성은 없어져야 한다는 것을 행동으로 보여준 것이죠. 이들은 개발 과정의 로그를 정리하여 온라인에 공개하였고, 데이터와 모델은 누구나 다운받아 제약없이 사용할 수 있습니다.

다만 블룸도 LLM과 관련한 윤리적 문제에서 완전히 자유롭기는 힘들다는 한계는 있습니다. 학습용 데이터에서 모든 오류와 편향을 걸러내는 것은 어려우니까요. 대신 이들은 이런 약점을 당당히 인정하고 대신 어디에서 온, 어떤 데이터가, 어떻게 사용되었는지를 명확히 밝히는 방법을 택했습니다.

62eca2bafea76e11899e4a55_multilingual%20dataset.png

데이터 구축 프로세스, 이미지: MONTREAL AI ETHICS INSTITUTE

또한 본격적인 개발에 앞서 윤리 헌장 Ethical Charter 과 책임감 있는 AI 라이선스도 발표했습니다.**** 미리부터 윤리적인 모델 개발과 사용을 위한 가이드가 될 원칙을 마련한 것이죠. 물론 악의적인 오남용까지 막기는 힘들겠지만, 최소한 투명하고 공개된 환경에서 원칙에 따라 자율적으로 규제하는 새로운 문화를 만들 수는 있을 겁니다.

BigScience Approach, 이미지: MONTREAL AI ETHICS INSTITUTE

다양성

블룸은 온라인으로 무차별하게 수집한 데이터를 사용하지 않았습니다. 대신 전 세계의 다양한 데이터를 선별하여 공급하는 추가적인 노력을 기울였죠. 다양성을 위해 다국어 웹 크롤링으로 데이터를 수집하고, 이것을 필터링하고, 프라이버시 보호를 위한 처리를 했습니다. 특히 해당 언어권 커뮤니티 그룹 Masakhane, LatinX, Machine Learning Tokyo 등이 데이터 소스를 제안하게 하고, 참여 연구원들이 학술 출판물을 포함한 상당량의 데이터 세트를 직접 선택했다고 합니다.*****

또한 블룸은 영어 중심인 다른 LLM과 달리 전 세계의 46개 언어를 지원합니다. 학습 데이터 중 영어의 비중은 고작 30% 정도이죠. 프랑스어와 베트남어, 북경어, 인도네시아어, 인도의 지방 언어 13개, 아프리카 부족 언어 20개 등을 포함한 총 46가지 자연어와 13가지 프로그래밍 언어를 지원합니다.

62eca37cc8eb83911b8da745_Data%20and%20Language%20Selection.png

Data and Language Selection, 이미지: MONTREAL AI ETHICS INSTITUTE

그리고 이것은 자연어처리의 미래를 변화시킬 수도 있는 중요한 포인트입니다.

지금까지 LLM은 영어를 위주로 발전해왔습니다. 영어가 지배하는 인터넷에 있는 데이터로 학습해왔으니까요. 그러나 이런 추세라면 자연스럽게 이 세상의 수 많은 (특히 제3세계나 소수) 언어들은 자연어처리의 미래에서 배제될 수 밖에 없을 겁니다.

BLOOM, 작지만 소중한 씨앗

블룸은 AI 민주화의 꽃이 될 수 있는 작지만 소중한 씨앗을 세상에 뿌렸습니다. 하지만 이 작은 씨앗이 자라나 아름답게 꽃 피우려면 앞으로 수 많은 시련을 이겨내야 하겠죠. 현실적으로 지금 당장 블룸이 빅 테크 기업들이 주도하는 LLM 씬에 큰 변화를 가져오기는 힘들 겁니다.

그리고 블룸 역시 기존 LLM처럼 태생적 한계가 있습니다. 예를 들어 오용되어서 불쾌하거나 악의적인 언어를 쏟아낼 가능성도 있죠. 다만 이 부분에서는 팀닛 게브루에 이어 구글 AI 윤리부서에서 해고된 허깅페이스의 마거릿 미첼이 한 다음과 같은 대답이 희망을 가질 수 있게 합니다.

"블룸도 기존 언어 처리 모델과 같이 차별적 표현을 생성하거나 언어 처리 능력의 정확성이 떨어지는 등의 문제를 일으킬 수 있다.

하지만 블룸은 오픈소스이기 때문에 많은 사용자가 블룸의 강점과 약점에 비판적인 의문을 제기할 것이며, 궁극적으로 빠른 문제 개선에 도움이 될 것이다." ******

* https://huggingface.co/blog/large-language-models

** https://moon-walker.medium.com/왜-최신-language-model은-급격하게-커지는-것일까-f686fb3d5799

*** "인용" https://www.technologyreview.kr/google-ai-ethics-research-paper-forced-out-timnit-gebru/

*** https://dl.acm.org/doi/epdf/10.1145/3442188.3445922

**** https://bigscience.huggingface.co/blog/bigscience-ethical-charter

**** https://bigscience.huggingface.co/blog/the-bigscience-rail-license

***** "인용" http://www.aitimes.com/news/articleView.html?idxno=145494

****** "인용" https://www.codingworldnews.com/news/articleView.html?idxno=11086

References

[1] https://bigscience.huggingface.co

[2] https://huggingface.co/bigscience/bloom

[3] https://bigscience.huggingface.co/blog/bloom

[4] https://bigscience.notion.site/bigscience/BigScience-214dc9a8c1434d7bbcddb391c383922a

[5] https://montrealethics.ai/category/columns/social-context-in-llm-research/

[6] Taxonomy of Risks posed by Language Models https://facctconference.org/static/pdfs_2022/facct22-19.pdf

[7] On the Opportunities and Risks of Foundation Models https://arxiv.org/abs/2108.07258

[8] 구글이 흑인 여성 AI 윤리 연구자를 해고한 이유 https://www.technologyreview.kr/google-ai-ethics-research-paper-forced-out-timnit-gebru/

[9] "MS, GPT-3 독점은 잘못된 행위" 엘론 머스크 비난 배경은 http://it.chosun.com/site/data/html_dir/2020/10/02/2020100200695.html

[10] BLOOM Is the Most Important AI Model of the Decade https://towardsdatascience.com/bloom-is-the-most-important-ai-model-of-the-decade-97f0f861e29f

[11] GPT-3, 왜 요금제를 선택했으며... 마이크로소프트에 독점 라이선스를 부여했나? http://www.aitimes.kr/news/articleView.html?idxno=17878

[12] 오픈 소스 언어 모델 ‘블룸(BLOOM)’ 출시…오픈AI와 구글에 도전 http://www.aitimes.com/news/articleView.html?idxno=145494

[13] 자연어처리의 민주화인가...GPT-3 독점에 맞선 오픈소스 그룹 새 모델 공개 http://www.aitimes.com/news/articleView.html?idxno=137604

[14] AI 시대 필요한 것은 오픈‘소스’가 아닌 오픈소스 ‘접근권’ https://www.itworld.co.kr/news/246010

[15] 언어모델, AI 자본주의 시대의 권력 http://weekly.khan.co.kr/khnm.html?mode=view&code=114&artid=202206031124071

함께보면 좋은 콘텐츠

인공지능 윤리: 01. 인공지능도 윤리가 필요할까?

인공지능 윤리: 02. 인공지능 윤리 여기까지

인공지능 윤리: 03. 사람중심 AI와 LETR 윤리원칙

인공지능의 윤리성을 측정하는 데이터셋 ETHICS

출전:

https://www.letr.ai/blog/story-20220805

keyword

Jason Ryoo 류구현 직업 출간작가

아포리즘 cafe 저자

행복한 삶은 자연 원리적 합리 속에 있습니다. 즐겁고 건강한 삶은 본질을 소중히 아는 지혜가 이룹니다. '메타인문학 meta humanities'은 그 지혜를 추구합니다.

팔로워 41

작가의 이전글Why와 What의 역사문명의 진화 14. 금속소재혁명Why와 What의 역사 15. 국가의 탄생작가의 다음글

오픈소스 언어모델 BLOOM과 AI 민주화

오픈소스 언어모델 BLOOM과
AI 민주화