생성 AI가 탄생하면서 세상은 급변하고 있습니다
어린이집을 다니는 꼬마 아이는 길거리를 산책하는 강아지를 보며 귀엽다면서 졸졸 쫓아다닙니다. 어떤 카페에서 키우는 고양이 앞에서 ‘야옹~’ 고양이 흉내를 내기도 하죠. 아이들은 강아지와 고양이를 아주 쉽게 구분합니다. 뽀로로 친구들의 이름도 줄줄 외우고 공룡과 해양생물도 구분할 줄 압니다.
인공지능은 강아지와 고양이의 사진을 판별하기 위해 딥러닝 알고리즘을 활용합니다. 눈과 귀의 모양과 코 끝으로 자란 수염과 생김새 등을 변수로 구분 짓고 판별합니다. 각 데이터 간 존재하는 차이점을 구분할 줄 알면 오류가 점점 줄어들겠죠. 생성형 인공지능을 넘어 초지능을 언급하는 시대인데 “고양이와 강아지를 구분할 줄 아느냐”며 인공지능에 묻는 건 너무 구시대적이겠네요.
인간은 누구나 언어를 구사할 줄 압니다. 한국사람이라면 한국어를 모국어로 사용하죠. 미국인은 영어를, 일본 사람들은 일본어를. 경우에 따라 자신들의 모국어를 비롯하여 제2외국어, 제3의 외국어를 구사하는 능력을 가질 수도 있습니다. 물론 이는 개인적인 능력과 노력에 따라 달라질 수 있겠죠.
마크 주커버그의 메타(Meta)는 이 세상에 존재하는 그리고 조금씩 사라져 가는 다양한 언어를 보존하기 위해 데이터를 확보했고 자신들이 구축한 인공지능 모델에 학습까지 진행했다고 했습니다.
“세계에서 가장 많이 팔린 책을 아십니까? 그리고 가장 많이 읽힌 책이 무엇인지 아시나요?”
이 퀴즈의 정답은 바로 성경책입니다. 메타의 인공지능 모델이 전 세계 다양한 언어를 학습할 수 있었던 것도 성경책 덕분이었습니다. 영국 및 외국성서공회가 실시한 조사에 의하면 대략 70억 부가 판매되었다고 하네요. 물론 기네스 기록에도 올라와있을 정도입니다.
성경책에 쓰인 본래의 언어가 이 세상에 존재하는 다양한 언어로 번역되어 팔렸을 텐데요. 메타는 이러한 번역본을 데이터 삼아 학습을 진행한 것입니다. 결과적으로 4천 개 이상이나 되는 언어를 인지할 수 있고 이 중에서 약 1천여 개의 언어를 TTS(Text To Speech)로 구사할 수 있다고 합니다. 이 정도라면 인간의 언어 능력을 충분히 뛰어넘는다고 할 수 있겠군요.
우리나라를 대표하는 포털사이자 빅테크 기업 네이버는 하이퍼클로바라는 인공지능 모델을 보유하고 있습니다. 세계 3번째 초거대 생성형 인공지능이라고 하네요. 하이퍼클로바X는 한국어 중심의 인공지능입니다. 산학 협력을 통해 초거대 인공지능의 한계를 돌파한 것입니다. 그래서 카피라이팅이나 챗봇, 교육, 글쓰기 플랫폼 등 다양한 곳에서 활용되고 있습니다.
사실 글로벌 인공지능으로 보면 영어로 기록된 데이터 셋이 가장 많긴 합니다. 한국어로 된 데이터 셋이 많아야 그만큼 학습을 하고 더 정교한 결과물을 낼 수가 있습니다. 네이버 입장에서는 검색엔진을 가진 포털이라는 정체성부터 빅테크로 자라나기까지 수많은 정보를 쌓아 올렸을 것이고 그 안에서 한국어 기반의 데이터 셋을 활용할 수 있었을 것입니다. ‘포털’이라는 것 자체가 (어쩌면 다른 기업들은 갖지 못한) 경쟁력이 되었던 것이겠죠.
인간은 만물의 영장이라 불립니다. 세상에 수많은 개체들이 존재할 테지만 인간은 인간의 언어를 구사합니다. 그 언어는 입을 통해 전해지기도 하고 문자나 그림으로 전파되기도 합니다. 오늘날 우리는 수많은 언어가 존재하는 세계에 살고 있습니다.
인공지능 역시 인간의 언어는 물론이고 이미지 + 영상과 같은 비주얼이라던가 음성까지 형태가 다른 정보까지 습득하고 있습니다. 여러 방법으로 정보를 주고받는 것을 통상 멀티모달이라고 합니다. 여기서 말하는 ‘모달’은 모달리티(Modality)를 의미합니다.
지금의 인공지능은 점차 멀티모달 AI로 변화하고 있습니다. 이러한 멀티모달은 다양한 데이터 모달리티를 인지하고 관계성을 학습하거나 표현하는 AI 테크놀로지이므로 다양한 작업을 수행할 수도 있습니다. 텍스트 하나만으로 이미지를 검색하거나 만들어내기도 하죠. 거꾸로 이미지를 통해 텍스트를 검색할 수도 있습니다.
국민 첫사랑 수지가 어떤 브랜드의 바람막이를 입고 있는 TV CF 광고를 보고 있다면 우리는 수지라는 존재와 함께 바람막이의 형태, 색상, 가슴이나 팔에 붙어있을 법한 브랜드 로고, CF를 통해 흘러나오는 BGM까지 다양한 정보를 받아들이게 될 것입니다.
멀티모달 AI 역시 사람이 정보를 습득하는 방법을 거의 유사하게 학습합니다. 그리고 빅테크 기업이 말하길, 거대 언어 모델 LLM의 넥스트 스텝이라고 합니다. 굉장히 놀라운 발전이라 기대감도 남다르지만 한편으로는 섬뜩하기도 하네요. 고작 소프트웨어에 불과했던 인공지능이 자신의 울타리를 깨부수고 나오는 것이라 인간이 살고 있는 영역이 어디든 존재하게 될 테니까요. 긍정적으로 보면 보다 다양한 채널을 통해 인간과 소통하게 될 것입니다.
챗GPT 같은 생성형 인공지능에 텍스트를 아무리 구체적으로 쓴다 해도 표현하지 못하거나 담을 수 없는 쿼리라면 질문하기도 답변하기도 어려웠을 것입니다. 하지만 이미지 하나로도 결과물을 받을 수 있게 된 것이죠. 최근 거실을 인테리어 하기 위해 업체를 찾아가 상담을 받았습니다. 그런데 멀티모달 AI는 거실 사진 한 장을 던지면서 인테리어를 추천해 달라고 하면 그에 맞는 결과값을 내어주게 됩니다. 더불어 텍스트 쿼리에 대해 텍스트로 답변을 해주던 방식도 음성으로 변화하게 되었는데요. 아이폰의 인공지능 비서인 Siri가 멀티모달 AI라는 엔진을 달게 되면 토니 스타크의 자비스처럼 뛰어난 개인 비서가 될지도 모를 일입니다.
얼마 전에 인공지능 컨퍼런스가 있어 다녀왔는데요. 카이스트 교수님이 무대로 나와 30여분 인공지능에 대해 이야기해 준 시간이었습니다. 눈앞에 분명히 그 교수님이 있는데 어떤 생성 AI가 그 교수에 대해 말하길, “인공지능 선구자이시고 오랜 시간 공부하고 연구해 오신 분입니다. 그리고 2022년 사망하셨습니다”라고 답했습니다. 무엇을 보고 학습한 것인지 모르지만 멀쩡히 살아계신 분을 돌아가신 분으로 만들었고 그 교수님도 농담처럼 받아 크게 웃으셨답니다. 공식적인 자리에서 생성 AI의 오류를 그대로 보여준 것이죠.
그럼에도 불구하고 지금의 인공지능은 놀라울 정도로 진화하고 있습니다. 인공지능이 지금의 모습보다도 더욱 발전하게 되면 일자리 대체와 같은 산업의 변화를 반드시 목격하게 될 것입니다. 이미 많은 영역에서 변화를 일으켜왔죠. 혹자는 단순하고 반복적인 작업들을 인공지능이 대신하는 동안 인간은 인공지능이 할 수 없는 복잡하고 책임 있는 임무를 수행하게 되면서 스트레스 수준이 높아지고 업무와 라이프 스타일의 밸런스를 파괴하게 될지도 모른다고 말합니다.
또한 고도화된 인공지능에 더욱 의존하게 되면서 인간이 할 수 있는 판단 능력이 오히려 떨어질 수 있다는 우려의 목소리도 있습니다. “똑똑한 인공지능이 알아서 하겠지”라며 인간의 감독이나 관리 없이 지나친 의존이 증가하면 거대한 리스크를 감내해야 할 것입니다.
결국은 인간의 삶을 개선하고 사회적 가치를 증진시킬 수 있는 방향으로서 테크놀로지를 활용할 수 있어야 합니다. 우리의 사회 그리고 경제 분야의 변화가 공정하고 또 안정적으로 진행될 수 있도록 공동으로 노력할 필요가 있습니다. 개인정보 보호는 물론이고 투명성 확보와 책임성 제고 등 윤리적 사용을 위한 규제와 감독에 대한 전략 수립 또한 절실한 시대가 되었습니다.
해당 콘텐츠는 Pen잡은 루이스님과 모비인사이드의 파트너쉽으로 제공되는 기사입니다.