안녕하세요, 에디터 SA입니다. AI라는 말이 이제 막 익숙해지려는 찰나, 새로운 용어들을 바로 머릿속에 밀어 넣어야 하는 요즘입니다. 프레임워크, 도커, 이미지, MLOps 등 AI 개발과 직접적으로 관련이 있는 키워드들은 물론이고, AGI, ASI, 지능폭발 같은 학술적인 키워드도 종종 접하게 되곤 하는데요. 그중에서 가장 많이 언급되어서, 이미 알고 계실 키워드 중 하나를 오늘 AI 뉴스룸에서 다뤄보고자 합니다. 바로 ‘LLM’입니다. :)
LLM은 Large Language Model의 약자이며, 우리말로 풀어 쓸 때는 영문의 의미 그대로 ‘거대 언어 모델’이라 부르기도 합니다. 여러분들이 이미 아시다시피, 인간의 언어를 이해하고 적합하게 생성되도록 훈련된 인공지능 모델이지요.
LLM은 언어모델(Language Model)이라는 기존의 모델을 더욱 확장한 개념입니다. 딥러닝 알고리즘과 통계 모델링을 통해서 자연어 처리(NLP, Natural Language Processing)에 쓰이고 있는데요. ‘대규모’의 언어 데이터를 미리 학습해서 문장 구조나 문법, 의미 등을 이해하고 생성할 수 있습니다. 단어의 유사성이나 문맥까지도 파악할 수 있어요. :)
이 LLM 개발에 여러 기업이 뛰어들었습니다. 국내외 할 것 없이 AI, 특히 LLM은 거대한 유행, 열풍처럼 보이기도 하는데요. 그만큼 엄청난 수익성과 편의 제공이 예견되기 때문이겠지요. :) 그 변화의 발화점에는 여러분들이 이미 잘 알고 계시는 ChatGPT가 있습니다.
[ GPT의 고향이 컴퓨터가 아니라 옥수수밭이라는데요? ]
이 드넓은 옥수수밭이, GPT의 고향이라고요?
최근 들어 ChatGPT를 포함한 LLM 개발 열기가 뜨거워짐에 따라, 이를 다양한 관점에서 해석한 뉴스들이 등장하고 있습니다. 이 뉴스들은 단순 기사에서 그치는 것이 아니라 이슈와 논쟁거리를 만들어 내는데요. 그중 사람들의 눈을 사로잡은 이야기는, 바로 ChatGPT의 탄생지가 ‘옥수수밭’이라는 거예요. @.@
GPT를 포함한 LLM이라면, 당연히 미국 샌프란시스코나 어느 스타트업/벤처 기업의 사무실이 탄생지가 아니냐고 물으실지 모르겠습니다. 그러나 ‘옥수수밭’ 이야기를 꺼낸 사람이 마이크로소프트 경영진이라면, “정말 ‘옥수수밭’이었나?” 싶어지실 거예요. 이 ‘옥수수밭’ 이야기가 나오게 된 배경은 바로 ‘냉각수’에 있습니다.
인간에게도, AI에게도 물은 정말 중요합니다.
LLM 운영 과정에서 슈퍼컴퓨터 냉각은 아주 중요한 문제입니다. 메타에서는 13억 3천만 갤런의 물을, 구글에서는 무려 52억 갤런의 물을 냉각수로 조달하여 쓰기도 했을 정도로, 물이 많이 필요하고 또 중요한데요. 실제로 GPT-4를 학습한 데이터 센터에서는 슈퍼컴퓨터를 냉각하기 위한 방법을 고심한 끝에, 강물을 끌어왔다고 했다고 해요. 옥수수밭이 광활하게 펼쳐져 있는 아이오와주의 라쿤 강과 디모인강이 낙첨되었지요. GPT의 생명과 직결되는 슈퍼컴퓨터의 냉각은, 옥수수밭의 두 강줄기가 아니었다면 몹시 어려운 일이었을 수 있겠습니다. :)
[ AI가 인간보다 친환경적이라고! ]
최근 AI와 관련해 발표된 논문으로 환경 논쟁이 벌어지고 있습니다. 바로, 올해 3월, 캘리포니아대학교 어바인 캠퍼스와 MIT 연구진이 발표한 논문입니다. ‘환경’이면 역시 ‘물’에 관한 이야기일까요? 아닙니다. 앞에서 이야기한 ‘냉각수’ 이야기와는 전혀 다른 주제랍니다. 이번에는 ‘온실가스’입니다.
논쟁의 중심이 된 논문은 LLM이 텍스트를 생성할 때, 이산화탄소 등가물(CO2e)을 인간보다 130분의 1에서 1,500분의 1가량 적게 배출한다는 사실을 밝히고 있습니다. 이산화탄소 등가물 (CO2e)는 이산화탄소, 메탄, 아산화질소, 오존, 수증기 등 지구 온난화를 가중하는 모든 온실가스를 더한 값인데요. 환경 영향을 평가하는 지표입니다. 이 지표가 인간보다 180배에서 1,500배 적게 나온다니, 같은 일을 하는 인간과 AI의 친환경 대결이 된 셈이지요. :)
AI가 온실가스 배출을 줄일 수 있다는 이야기인데, 많은 물과 전기를 사용한다는 점에서 AI 개발에 대한 환경 보호 운동가들의 목소리가 높았던지라 더욱 쟁점이 되는 것 같습니다. 인간의 탄소 발자국 추정치 통계와 비교하는 것이므로 적확하다고 말하기는 어렵다는 의견과, 수치상으로 입증된 증거이니만큼 AI의 ‘생각지 못한(?)’ 이점 발견을 여러 관점의 하나로 인지해야 한다는 의견이 서로 충돌하고 있습니다. 이 논쟁은 9월에 거세게 불이 붙었기에 당분간 계속될 것으로 보이는데요. 결론이 쉽게 나지 않을 것으로 보이네요. :0
[ AI가 심호흡한다면? ]
그러니까, LLM도 마음의 평화, 이너피스...가 필요하다는 건가요...?
여러분은 어려운 과제를 해내야 하거나 도전하게 될 때, 어떤 행동으로 긴장을 푸시나요? 스트레칭? 혹은 잠시 다른 주제로 관심을 돌리는 방식도 있을 수 있겠네요. 아무래도 자세를 곧게 정리하면서 크게 심호흡하는 방법을 통해서 긴장을 푸는 방식이 가장 흔하지 않을까, 싶은데요. 그래서일까요? AI도 인간의 심호흡에 매료된 것 같습니다. AI도 심호흡하면 능력이 향상된다는 연구 결과가 나왔거든요. :0
구글 딥마인드에서 최근 LLM의 수학 능력을 향상하는 OPRO(Optimization by PROmpting)를 개발하였는데요. 이 OPRO는 좀 독특한 것이, 수학 문제를 LLM에 질문하면서 인간적인 격려를 프롬프트에 포함하여 LLM이 정확도 높은 결과를 도출하도록 합니다. 예를 들면, 어려운 수학 문제를 LLM에 질문하면서, ‘심호흡하고 단계별로 생각해 보자.’라는 문구를 같이 전달하면 정확성이 오른다는 것이죠. 이 격려하는 문구를 같이 전달했을 때와 하지 않았을 때, 정확도가 무려 37%나 차이가 난다고 하네요. :)
구글에서 밝힌 격려의 말이 “파이팅!”, “Cheer Up!”은 아닌 것을 보면, 격려의 말을 LLM이 일종의 명령이나 데이터 소스 중 일부로 인식하는 것일 수 있겠다고 생각했어요. ‘단계별로’라는 키워드가 LLM이 방대한 데이터셋 안에서 다양한 문제들을 걸러낼 수 있도록 도와주는, 일종의 ‘필터’ 역할을 하는 것이지요. 우리가 어린 시절 접했던 많은 문제집에서, 이런 문구를 자주 접했었으니까요. “에디터 SA가 주식회사 텐에서 일하는 과정을 단계별로 설명하시오.”
‘심호흡하고’보다는 ‘단계별로’의 초점이 맞춰져 있는 결론이라, 진상을 알고 나니 조금 김이 빠지는 느낌이었나요? 그래도 제법 재미있는 이야기이지 않나 싶습니다. 언젠가, LLM이 학습한 데이터셋이 인간의 감정까지 해석하는 날이 온다면, ‘심호흡’이라는 키워드도 AI를 잘 북돋아 주지는 않을까, 상상해 보게 되네요.
GPT-3를 만든 엔트로픽 CEO는 지금의 LLM이 몇 년만 지나면 비교도 안 될 만큼의 방대한 데이터를 학습하여, 더 나은 성능으로 발전해 있을 것이라 예견했는데요. 성능도 성능이거니와, 지금보다 더 다양한 관점에서 이슈를 만들어 낼 것이라는 생각이 드네요. 그럼, 에디터 SA는 흥미로운 AI 뉴스들을 모아 다음 시간에 다시 찾아뵙겠습니다.