brunch

You can make anything
by writing

C.S.Lewis

by OOJOO Nov 14. 2023

눈과 귀가 달린 챗GPT

사람보다 강해지는 AI

지난 9월25일 오픈AI는 '챗GPT는 이제 보고, 듣고, 말할 수 있다'고 공지하면서 음성과 이미지 인식 기능을 추가했다. 기존에는 텍스트로 명령어(Prompt)를 입력해서 결과를 볼 수 있었지만 이제는 음성과 사진을 입력해서 명령을 내릴 수 있게 되었다. 물론 텍스트, 음성, 이미지를 혼합한 멀티모달 인터페이스를 통한 입력도 가능하다. 한마디로 사람처럼 눈과 귀가 달린 셈이다. 또한, 10월19일에는 이미지 생성 AI인 달리-3를 정시 출시해 챗GPT에서 이미지를 만드는 것도 가능해졌다. 그간 텍스트, 표, 그래프로 정보를 출력하던 것에서 이제 이미지로 표현하는 것이 가능해진 셈이다. 이것이 의미하는 바는 뭘까?


챗GPT를 스마트폰에 설치한 후, 냉장고에 있는 식재료들을 촬영해서 이 재료들로 무슨 음식을 요리할 수 있는지 물어보면 금새 답을 할 수 있다. 이미지 인식 기능이 제공되기 전에는 일일히 재료들의 이름을 써 넣어야 했지만 이제는 한 번에 가능해지게 된 셈이다. 자전거의 안장이 너무 높아 낮추기 위해 어떻게 해야 하는지, 자전거 사진을 찍어서 보여주면 자전거 제품을 자동으로 검색하고 매뉴얼을 분석해서 어떻게 안장을 조정하는지 알려줄 수 있다. 어떤 공구를 이용해야 하는지 공구세트를 촬영해서 보여주면 어떤 장비를 이용하면 되는지 알려주기도 한다. 사진 촬영 후 인스타그램에 올릴 때 적절한 사진 설명과 해시태그를 추천해줄 수 있고, 도로를 꽉 채운 자동차들과 시윈 군중들 사진에서 자동차수나 군중의 수를 확인할 수도 있다. 더 정교한 AI 기술의 고도화가 진전되면 버스와 트럭, 오토바이 등을 구분해서 개수를 세는 것도 가능해질 것이다. 사람이 분석하는 것보다 비교도 안될만큼 빠르게 사진 속 상세한 분석이 가능해지고, 이를 활용하면 우리 사회와 사업의 여러 문제들을 빠르고 완전하게 해결해주는 솔루션이 만들어질 수 있을 것이다.


챗GPT의 이미지 인식 기능을 이용해 스마트폰 앱에서 멀티모달로 명령을 내리는 모습


사진 생성 기능은 특정 용도의 상품 디자인이나 보고서 다이어그램 등을 전문 디자이너의 도움없이도 그려볼 수 있다. 실제 업무에 바로 활용할 수 있는 수준은 아니더라도 쉽게 몇 글자의 명령만으로 다양한 목업 디자인의 생성이 가능해, 막연하던 생각을 정리하는데 도움이 된다. 예술가의 작품 활동에 영감을 주고, 개념적으로만 머릿 속에 떠돌던 상념을 그림으로 구체화하며 정리하고 발전시킬 수 있다. 백마디의 말보다 한장의 그림이 더 많은 메시지를 전달할 수 있는 것처럼 이미지로의 표현은 글자가 주지 못하는 다양한 정보와 감정을 전달할 수 있다. 앞으로 이미지를 넘어 소리와 영상까지 발전한다면 AI가 사람에게 전달하는 메시지의 호소력은 더욱 커질 것이다. 실제 이같은 이미지 생성 기능을 활용한 AI 챗봇(Talkie), AI SNS(Zappy) 등의 서비스가 AI를 더욱 친밀감있게 다가오게 해주고 있다.

챗GPT의 이미지 생성 기능을 이용하는 모습


사람처럼 듣고 볼 수 있고, 다양한 표현이 가능해진 AI는 앞으로 어떤 변화를 가져다 줄까? 만일 시각장애인의 안경에 탑재된 카메라와 마이크에 이런 AI 기술이 접목되면 거리를 걸으며 장애물을 피하고, 마트에서 손에 들은 상품에 대한 가격과 정보를 알려주는 길잡이 역할을 해줄 수 있을 것이다. 또한, Humane이란 회사가 만든 Ai Pin과 같은 새로운 웨어러블 디바이스에 챗GPT가 탑재되면 영화 아이언맨의 자비스처럼 일상에서 늘 나를 따라 다니며 집사의 역할을 해줄 것이다. 글을 넘어 음성과 그림 등의 다양한 표현력을 갖는 AI는 몰입감을 주어 영화 Her처럼 사람이 아닌 AI와 사랑에 빠지는 극단의 경험을 제공해줄 수 있을 것이다.


인터넷에 공개된 데이터만으로 학습한 AI에 이제 사람들의 일상 삶 속의 사진과 다양한 인류의 음성이 입력되고 있다. 친구처럼 때로는 애인처럼 푹 빠질 수 있는 AI에 과거에는 공개될 수 없었던 개인의 내밀한 삶의 이야기와 비밀이 인입되고 있다. 그렇게 기존 인터넷에는 존재하지 않던 데이터들, 심지어 스마트폰에도 저장되지 않은 개인 정보들이 AI에 들어가고 이 데이터가 학습에 이용되고 있다. 그렇게 되면 개인의 프라이버시와 데이터 보호에 대한 우려가 전체주의적 정부나 빅테크 기업이 아닌 AI 기술로 옮겨져야 할 것이다. 정부나 기업의 주체인 사람이 아닌 AI 즉 기술 그 자체가 디스토피아의 가장 경계해야 할 원인이 될 수 있다. 게다가 그런 초거대화된 AI에 귀나 눈, 입을 넘어 사람보다 강력한 신체를 가진 물리적 로봇이 탑 재된다면 인터넷 가상 공간이 아닌 물리적 현실계에 AI가 진출하는 계기가 만들어질 것이다. 그런 미래 사회에 우리 인간이 AI를 통제하지 못하거나 로봇의 할루시네이션(맥락과 관련없거나 사실이 아닌 내용을 AI가 옳은 답처럼 착각하는 현상)이 발생한다면 우리 인류의 안전은 위협에 빠질 것이다. 그런 미래를 대처하고 대응하기 위해 우리 사회는 갈수록 발전하는 AI의 오용, 남용, 악용 그리고 인간의 통제 안에서 운영될 수 있는 사회적 담론과 규제, 협의에 대한 고민을 시작해야 할 것이다.



✦ 작가의 내년 IT, AI 트렌드를 전망한 서적

    https://www.yes24.com/Product/Goods/122944740


✓ 내년 IT 트렌드를 정리. 관련 서적과 강좌 소개

     https://brunch.co.kr/@ioojoo/287

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari