brunch

You can make anything
by writing

C.S.Lewis

by 이상옥 May 20. 2024

GPT-4o, 새로운 혁명이 시작되었다

AI시대

[GPT-4o를 발표하는 오픈AI CTO 미라 무라티]


단순한 글자로 검색창에 입력하여 정보를 검색하던 시대는 이미 사라지고 있다. 텍스트, 음성, 이미지와 동영상을 활용해 무엇이든 물어보면 답이 나오는 아이언맨의 ‘자비스’와 영화 HUR에서 나온 '사만다' 같은 지극히 인간적인 개인 비서의 시대가 현실이 되었다. Small o는 omni를 뜻한다. 모든 것을 포용한다는 뜻이다. 이 세상에 존재하는 모든 입력 신호를 다 수용하겠다는 강력한 의지의 표현이다.


지난 13일 오픈AI가 공개한 'GPT-4o'의 파장이 크다. 감정이 담은 듯한 음성 대화가 실시간으로 가능하다는 것을 보여줬기 때문이다. 기존 모델에 담긴 텍스트 대화는 물론, 시청각 추론까지 가능하다. 답변 시간도 사람의 대화 응답 시간과 비슷한 평균 320밀리초(0.32초) 정도로 빠르다. 이로 인해 실시간 번역, 교육 등 거대언어모델(LLM)을 파인튜닝(미세조정)하여 특정 분야에서 서비스를 제공해왔던 스타트업들은 큰 위기에 직면하고 있다. 마치 아이폰이 나옴으로써 디지털 카메라, MP3, 기존의 스마트폰 시장이 다 죽은 것처럼 말이다.


오픈AI가 공개한 사례에서 보면, 사용자가 “잠을 잘 못자는 친구를 위해 이야기를 들려달라”고 하면 마치 할머니가 어린 손주들에게 들려주듯 ‘옛날 옛적에’로 시작되는 이야기를 한다. 더 감정적으로 이야기를 해달라고 하자 마치 성우나 배우처럼 더 극적이고 감정을 섞은 목소리로 대화를 이어 나가기도 한다. “내가 조금 긴장이 되는데 진정하려면 어떻게 해야 할까?"라고 묻자 친구가 격려하듯이 ”숨을 깊이 들이마셔봐‘라는 답변이 바로 온다.


모바일 기기의 카메라를 활용해 상대방의 얼굴과 표정을 인식해 감정상태를 파악할 수도 있고, 화면 공유 기능을 통해 사용자의 컴퓨터 화면을 보고, 수학 문제 풀이를 도와주기도 한다. 이제 그야 말로 자비스와 사만다가 현실로 다가온 것이다.


구글, 마이크로소프트, 애플 등 글로벌 IT 대기업뿐만아니라 국내 네이버, 카카오 등 대기업 들도 연내 음성과 이미지 등 모달리티를 확장한 AI 모델을 공개하겠다고 경쟁적으로 선언을 한 상태다. 그야말로 멀티모달 기능이 가능한 인간같은 인공지능 시대에 성큼 다가간 느낌이다. 그 발전 속도가 너무 빨라, 인간이 정치적, 사회적 보완 장치를 할 시간을 주지 않는다.


IT 업계에서는 ‘GPT-4o’가 지나치게 빠르게 '멀티모달 AI(Multi Modal AI)'를 고도화했다고 평가하고 있다. 이 모델은 다양한 유형의 데이터를 동시에 통합하고 해석할 수 있어, 이른바 인간의 능력을 가진 ‘일반인공지능(AGI)’에 더 가까워졌다. 이는 의료 진단, 가상 비서, 자율주행 차량 등 많은 분야에서 활용될 수 있다.


빅테크의 빠른 AI 기술 진보와 무료 제공 속에서 한국의 IT 산업, 특히 AI 스타트업들이 갈 길은 멀어 보인다. 전문가들은 AI 기업에도 옥석 가리기가 시작되었다고 평가했다. 거대언어모델(LLM)을 운영체제(OS)처럼 기반 기술로 보고, 그 안에서 명확한 전략을 세워 생존 방안을 찾아야 한다는 조언도 이어졌다.


[오픈AI의 DALLE2모델은 텍스트로 원하는 이미지를 자유롭게 생성할 수 있다]


헬스케어 플랫폼 업체 세나클소프트의 위의석 대표는 “GPT-4o로 인해 AI 스타트업 1천 개가 망할 수 있다는 이야기가 있다”면서, “GPT-4o의 등장으로 우리가 개발하는 애플리케이션과 빅테크들이 만드는 애플리케이션의 차별성이 더욱 중요해졌다. 인터넷 이후 검색, 채팅, 상거래가 나왔듯이 생성형 AI에서도 전문성을 어떻게 나눌지가 중요해졌다. 그런데 시간이 1~2년 밖에 남지 않았다”고 평가했다.


AI 기술 중에 가장 우려하고 경계해야 할 기술이 멀티모달 모델이다. 멀티모달 모델(Multimodal Model)은 텍스트, 이미지, 음성, 비디오 등 다양한 유형의 데이터를 동시에 처리하고 이해할 수 있는 인공지능 모델을 의미한다. 이러한 모델은 각기 다른 형태의 데이터를 통합하여 더 풍부하고 정확한 정보를 제공할 수 있다.


이런 멀티모모달 모델 기술과 활용 사례를 알아보면,

첫째, 컨볼루션 신경망(CNN)으로 주로 이미지 데이터를 처리하는 데 사용된다.

둘째, 순환 신경망(RNN) 및 트랜스포머(Transformer) 기술로 주로 텍스트와 시퀀스 데이터를 처리하는 데 사용된다.

셋째, 비전 트랜스포머(ViT) 기술로 이미지를 처리하면서 트랜스포머의 장점을 활용하는 모델이다.


이런 다양한 기술을 활용하여

OpenAI의 CLIP에서는 텍스트와 이미지를 동시에 학습하여 다양한 시각적 개념을 이해하고 텍스트와 이미지 사이의 관계를 추론할 수 있었다. 같은 회사의 DALL-E 모델은 텍스트 설명을 기반으로 이미지를 생성하는 모델로, 주어진 텍스트 설명을 시각적으로 표현할 수 있다. Google의 MUM(Multitasking Unified Model) 기술은 다양한 모달리티를 결합하여 복잡한 질문에 대한 더 깊이 있는 답변을 제공할 수 있는 모델이다. 생성형 AI인 Copilot에 활용되고 있다.


이처럼 멀티모달 모델은 AI의 잠재력을 극대화하여 다양한 실세계 응용에서 혁신적인 성과를 이루고 있다. 앞으로도 이 분야는 더욱 발전하여 인간과의 상호작용을 더욱 자연스럽고 유용하게 만드는 데 큰 기여를 할 것으로 기대되지만, 통제되지 않는 기술의 발전은 그 유용함보다 부작용과 위협이 더 크게 다가올 수 있다.


[AI가 몰고올 혼란을 막기 위해서는 통제 가능한 가이드가 조속히 마련되어야 한다]


AI가 인간을 위협할 수 있다는 주장은 많은 논의를 불러일으키고 있다. 현재로서는 AI가 인간을 위협하는 가능성은 있지만, 이는 우리가 적절한 방향으로 발전시키고 관리하는 데 달려 있다. 하지만 시간은 그리 많지 않은 것이 사실이다.


문제점을 생각해 보면,

첫째, 자동화와 일자리 문제로, AI 기술은 일부 작업을 자동화하고 생산성을 향상시킬 수 있으나, 이로 인해 일부 직업이 사라질 수 있다. 이에 대한 대응책은 교육과 재교육, 새로운 직업 분야를 찾는 것이다.


두번째는 알고리즘 편향 문제이다. AI 시스템은 학습 데이터에 의존한다. 이 데이터가 편향되어 있으면 AI도 편향될 수 있다. 이로 인한 사회적 문제를 해결하기 위해 투명성과 공정한 알고리즘 개발이 필요하다. 하지만 이런 사회적 공정성 문제를 누가 가이드하고 통제할 것인가?


세번째는 자율 주행 차량과 윤리 문제이다. 자율 주행 차량은 사람들의 안전을 증가시킬 수 있지만, 사고 시 어떤 선택을 할지 결정해야 하는 윤리적 문제가 있다. 이 또한, 아직 법적인 가이드가 없는 상태이다.


네번째는 무기화된 AI 문제이다. 군사용 AI가 인간을 위협할 수 있다. 국제적인 규제와 윤리적 지침이 필요하다. 이미 드론에 의해 아군이 피해를 본 사례가 얼마전 중동에서 있었다. 이 또한 누가 나서서 가이드하고 통제할 것인가?


다섯째는 개인 정보 보호 문제이다. AI는 개인 정보를 수집하고 처리하는데 누구의 동의나 의사도 물어보지 않는다. 구글이나 마이크로소프트에서 수집한 데이터 속에서는 어마어마한 개인정보가 무방비로 방치되어 있다. 이로 인한 개인 정보 보호 문제를 주의해야 한다.


요약하자면, AI는 잠재적으로 위협적일 수 있지만, 우리가 적절한 방향으로 발전시키고 관리한다면 긍정적인 영향을 미칠 수 있다. 우리는 윤리적, 사회적 측면에서 지속적인 논의와 규제를 통해 AI의 발전을 지켜봐야 한다. 문제는 시급하다는 것이다. AI의 발전 속도가 인간의 제도적 뒷받침을 추월하고 있다.



작가의 이전글 나만의 글쓰기로 나를 표현하기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari