brunch

You can make anything
by writing

C.S.Lewis

by Sunny Jun 02. 2023

인공지능人工知能, Atificial Intelligen

쳇 GPT? 와 LLM의 미래

챗 GPT(Generative Pre-trained Transformer)는 대규모 데이터를 학습하여 새로운 문장을 생성하기 위한 대화형 사전학습모델입니다. 말이 어렵게 느껴질지 모르겠으나 데이터로 사전 학습된 문장생성기엔데 대화를 하려면 문장을 이해하여야 하기에 이전에 사용되던 자연어처리(NLP) 기술을 진화시킨 트랜스포머(Transformer-문맥번역) 아키텍처를 연동시킨 것입니다.  

#G(Generative-생성) #P(Pre-trained-사전학습) #T(Transformer-문맥번역) 

구글 CEO 순다 피차이(Sundar Pichai)는 2021년 5월 18일에 어떤 주제에 대해서도 사용자와 대화를 나눌 수 있는 람다(LaMDA)라는 이름의 새롭고 인상적인 AI 시스템을 발표했습니다.  람다는 대형 언어 모델(large language model, LLM) 즉, 방대한 텍스트 데이터를 기반으로 훈련하는 딥러닝 알고리즘입니다. 이를 시작으로 Open AI가 개발하여 발전시킨 모델이라고 합니다.

문제는 진실 여부를 확인하지 않는다는 것이며, 결국 거짓 정보를 대량으로 유포하는 결과로 이어질 수 있다는 점과 사람이 말을 하는 것과 구분이 어렵다는 것으로 전문가들은 경고하고 있습니다. 

또한 Chat GPT에 질문하는 일체의 내용이 모두 마이크로소프트(Microsoft)사에 유출된다는 사실입니다. 챗 GPT 경쟁제품인 구글 바드 역시 동일한 문제점을 가지고 있습니다.


여기서 챗 GPT 경쟁제품인 구글 바드를 비교해 보면

1. 구글 바드가 오리지널 개발 회사입니다.

2. 바드가 성능이 더 뛰어납니다.

3. 바드는 최신정보까지 포함합니다. 챗 GPT는 Pre-trained가 있으니 버전이 있겠지요?

4. 바드가 대답 속도가 빠르다. 이것은 챗 GPT 사용가가 많고, 바드는 적어서 그럴 수도 있습니다.

5. 바드는 다른 답안 보기 기능이 있습니다.


아래 기사에서 보듯이 챗 GPT는 기생기술입니다. 즉 인간이 만들어 놓은 텍스트를 활용하는 것입니다. 문제는 그 자료 데이터의 소스가 사라지면  지식 풀이 고갈될 위험에 처할 것입니다.  다른 사람의 코드 저장소(깃허브), 기술적 질문에 대한 답(스택 오버플로우), 문헌 등에서 정보를 긁어오는 방식에 의존하기 때문입니다. 엔지니어들의 자료제공이 줄어들고 있습니다. 인공지능이 아무것도 주지 않고 자료만 빼앗아가기 때문이죠. 그리고 양질의 학습 데이터가 꾸준히 공급되지 않으면 LLM은 스스로를 쓰레기 정보로 채우게 되고 유용성은 더 떨어지게 될 것입니다.

우리나라도 AI기술을 발전시켜야 합니다. 챗 GPT와 바드는 이용하는 것은 결국 우리의 데이터를 모두 빼앗기는 결과를 가져오기 때문입니다. 저는 챗 GPT와 바드는 AI의 한 요소기술에 불과하다고 생각합니다. 아직은 수치적 계산을 못하고, 과학적 사고를 못하고, 추론적 사고를 못하니까요. 그러나 여러 형태의 인공지능을 발전시켜 결합이 된다면, 그야말로 영원히 죽지 않는 새로운 인공지능 생명체가 탄생할 수도 있습니다. 그러나 그 결과에 다다르기 이전에 인간의 욕심과 실수로 인하여 더 끔찍한 상황이 올 수도 있으니 이점을 더 경계해야 할 것입니다. 

2023년 5월 31일


"공유지의 비극은 어디서든 가능하다" 챗GPT와 LLM의 어두운 미래

기술 세계에서는 모두가 결국 기생 생물이다. 드루팔을 만든 드리스 보이타르트가 몇 년 전에 말했듯이 사람은 모두 만드는 사람(maker)보다는 취하는 사람(taker)에 가깝다. 보이타르트는 오픈소스 커뮤니티의 일반적인 관행을 두고 “취하는 사람은 자신이 이익을 취한 오픈소스 프로젝트에 유의미한 기여로 갚지 않고 의존하는 프로젝트에 해를 끼친다"라고 말했다. 가장 열정적인 오픈소스 기여자라 해도 기여하는 것보다 취하는 것이 더 많을 수밖에 없다.

 

기생적 경향은 다른 이의 콘텐츠에 의존하는 구글, 페이스북, 트위터에서도 드러났지만, 현재 생성형 AI에서 훨씬 더 선명하게 나타난다. 소스그래프(Sourcegraph) 개발자인 스티브 예게는 “LLM은 소셜, 모바일 또는 클라우드 이후의 가장 큰 변화일 뿐만 아니라, 월드 와이드 웹 이후의 가장 큰 변화”라고 주장했다. 그 말이 맞을 수도 있지만, 대규모 언어 모델(LLM)은 근본 속성이 기생적이다. 다른 사람의 코드 저장소(깃허브), 기술적 질문에 대한 답(스택 오버플로우), 문헌 등에서 정보를 긁어오는 방식에 의존하기 때문이다.

오픈소스에서 그랬듯 콘텐츠를 만들고 모아서 배급하는 쪽에서는 콘텐츠에 대한 LLM 접근을 차단하기 시작했다. 예를 들어 와이어드(Wired)의 보도에 따르면 사이트 트래픽 감소를 겪고 있는 스택 오버플로우는 레딧과 마찬가지로 LLM 제작자에게 LLM 학습에 스택 오버플로우 데이터를 사용하려면 정당하게 돈을 내라고 요구하고 있다. 오픈소스에서 벌어졌던 라이선스 전쟁, 그리고 뉴스 발행사가 구글과 페이스북을 막기 위해 구축했던 페이월을 연상시키는 과감한 조치다. 하지만 정말 효과가 있을까?

 

공유지의 비극

물론 기술 기생충의 역사는 오픈소스 이전까지 거슬러 올라가겠지만 필자가 경력을 시작한 오픈소스 초기부터 살펴보자. 다른 사람의 기여에 기대 수익을 얻으려는 회사는 리눅스 또는 마이SQL의 극초창기부터 있었다. 예를 들어 리눅스 분야의 경우 최근 록키 리눅스(Rocky Linux)와 알마 리눅스(Alma Linux)라는 두 회사가 레드햇 엔터프라이즈 리눅스(RHEL)와의 완전한 호환성을 약속하고 나섰는데 정작 둘은 레드햇의 성공에는 아무것도 기여하지 않는다. 이 두 RHEL 클론의 성공에 따르는 자연스러운 결과는 숙주가 사라지고 이어 클론 스스로도 사라지게 된다는 것이다. 그래서 리눅스 업계에서는 이들을 가리켜 오픈소스의 '막장'이라고 칭하기도 한다.

 

지나친 표현일 수도 있지만 요지는 잘 보여준다. 한때 AWS를 향했던 이른바 '노천 채굴' 같은 맥락의 비판이다. 이 비판의 영향으로 여러 클로즈드 소스 라이선스의 변경과 비즈니스 모델의 왜곡, 그리고 오픈소스 지속 가능성에 대한 끝이 없어 보이는 논쟁이 촉발됐다.

 

물론 오픈소스의 입지는 그 어느 때보다 견고하지만 개별 오픈소스 프로젝트의 상태는 제각각이다. 몇몇 프로젝트와 프로젝트 유지관리자는 커뮤니티 내에서 '테이커'를 관리하는 방법을 마련했지만 그렇지 않은 프로젝트도 있다. 어쨌든 추세적으로 오픈소스의 중요성과 힘은 계속해서 커지고 있다.

 

우물의 고갈

LLM으로 돌아와 보자. JP 모건 체이스 같은 대기업은 수십억 달러를 투자하고 데이터 과학자, 머신러닝 엔지니어 등을 1,000명 이상 고용해서 개인화와 분석 등에서 막대한 금전적 효과를 거두고 있다. 많은 기업이 챗GPT와 같은 서비스를 공개적으로 채택하기를 주저하고 있지만 현실은 그 기업에 속한 개발자는 이미 LLM을 사용해서 생산성을 높이고 있다는 것이다.

 

그 효과의 대가가 이제 명확하게 드러나기 시작했다. 역사적으로 생산성 개선의 원천 역할을 해온 스택 오버플로우 같은 기업이 감당해야 하는 대가다.

 

예를 들어 시밀러웹(Similarweb)에 따르면 스택 오버플로우 트래픽은 2022년 1월 이후 매월 평균 6% 감소해왔고 2023년 3월에는 무려 13.9% 떨어졌다. 이 감소의 원인이 전적으로 챗GPT와 기타 생성형 AI 기반 툴이라고 단정하기는 어렵지만 영향이 없다고도 못할 것이다.

 

피터 닉시는 인터내셔널.io의 창업자이자 스택 오버플로우의 상위 2% 사용자이다. 지금까지 170만 명 이상의 개발자가 닉시가 작성한 답변을 봤다. 이처럼 스택 오버플로우에서 유명한 닉시도 “스택 오버플로우에 다시 글을 쓸 일은 아마 없을 것”이라고 말했다. 이유가 무엇일까? 챗GPT와 같은 LLM으로 인해 스택 오버플로우의 지식 풀이 고갈될 위험에 처했기 때문이다.


닉시는 “함께 지식 풀을 만들기를 멈추고 그 대신 각자 기계에 바로 쏟아붓는다면 어떤 일이 일어날까?”라고 물었다. 닉시가 말한 “기계”는 챗GPT 같은 생성형 AI를 의미한다. 예를 들어 깃허브 저장소, 스택 오버플로우의 Q&A 등을 이용해 학습된 깃허브의 코파일럿 같은 AI 툴에게서 답을 얻는다면 편리할 것이다. 그러나 스택 오버플로우와 달리 AI와의 질답은 비공개로 이뤄지고 따라서 공공의 정보 저장소로 구축되지도 않는다. 닉시는 “GPT4는 2021년 이전에 스택 오버플로우에서 올라온 질문을 이용해 학습됐다. 과연 GPT6은 무엇을 이용해 학습될까?”라고 질문했다.

 

일방통행 정보 고속도로

이제 문제가 보이는가? 이것은 그동안 오픈소스 분야에서 벌어졌던 실랑이보다 훨씬 심각한 문제일 수 있다. 닉시는 “이 패턴이 다른 곳에도 복제되고, 인류를 향해 외적으로 확산되던 집단 지식의 방향이 바뀌어 기계의 내부를 지향하게 된다면 이전의 모든 의존과는 비교할 수 없는 방식으로 기계에 의존하게 될 것”이라고 말했다. 그냥 ‘문제’라고 한다면 온건한 표현이다. 닉시는 “빠르게 성장하는 코로나19 변종 같이 AI는 오로지 성장의 힘만으로 지배적인 지식 소스가 될 것이다. 스택 오버플로우를 예로 들면 한때 사람에게 속했던 지식 풀이 트랜스포머 내부에 사용되는 겨우 가중치 하나로 전락하게 되는 것”이라고 강조했다.

 

여기에는 AI로 끊임없이 밀려 들어오는 엄청난 양의 현금뿐만 아니라 그 외에도 많은 것이 작용한다. 챗GPT 등에 의해 생성되는 정보의 상대적 가치도 살펴봐야 한다. 예를 들어 스택 오버플로우는 2022년 12월부터 챗GPT가 제공한 정보를 기반으로 한 답을 금지했다. 텍스트가 너무 많고 정보의 품질은 떨어진다는 이유다. “챗GPT에서 올바른 답을 얻을 평균적인 비율이 너무 낮고, 챗GPT에 의해 생성된 답을 게시하는 것은 사이트, 그리고 질문을 통해 올바른 답을 찾는 사용자에게 상당히 해롭다.” 챗GPT 같은 부류는 올바른 정보를 생산하도록 설계되는 것이 아니라 단순히 데이터의 패턴에 부합하는 확률론적 정보를 생산하도록 설계된다. 오픈소스에 '막장 기업'이 만연하다고 치자. 그러나 양질의 학습 데이터가 꾸준히 공급되지 않는 LLM은 스스로를 쓰레기 정보로 채우게 되고 유용성은 더 떨어지게 된다.

 

LLM과 생성형 AI의 가능성을 폄하하는 것이 아니다. 과거 오픈소스, 뉴스 발행사의 사례와 마찬가지로 오픈AI를 비롯한 여러 기업에 집단적으로 생산된 정보를 활용할 수 있도록 도와준 점에 감사한 마음을 가지면서, 동시에 레딧(그 자체가 개인적인 기여의 집합체)처럼 기여자가 각자의 역할에 금전적 대가를 기대하는 것을 지지할 수도 있다. 오픈소스는 이미 라이선스 전쟁을 겪었다. 이제 생성형 AI의 세계에서도 그와 비슷하되 더 큰 파급력을 가진 일이 곧 일어날 것으로 보인다.

editor@itworld.co.kr 

https://www.itworld.co.kr/news/292693

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari