brunch

You can make anything
by writing

C.S.Lewis

by 김영욱 Nov 18. 2023

비즈니스 애플리케이션이 GPT-4 비전을 사용할 때  

OpenAI가 DevDay로 IT 세상을 흔들어 놓은지 겨우 10일이 지났지만, 그동안 저희 근무하는 그룹의 PM들에게는 프로덕트 로드맵을 새롭게 재검토하여 얼라인하라는 리더십의 요구와 그것을 위한 전략미팅으로 지난 10일간이 너무나 바쁜 시간이었습니다.


글로벌 IT산업의 비즈니스 애플리케이션에서 가장 영향력 있는 기업의 PM으로 이렇게 빠르게 로드맵 업데이트가 요구되었던 적이 또 있었을까 생각을 해 봤지만, '모바일' 패러다임 변화 때도 최소 3개월의 얼라인먼트 기간이 주어졌던 것에 비하면 이것은 광속의 변화입니다.


물론 전략미팅에서 나온 이야기들을 모두 말씀드릴 수는 없지만, 한 부분 정도는 짧으나마 다음과 같이 나눌 수 있어, 여러분도 기업용 소프트웨어에서 어떤 변화가 올 것인지를 예상해 볼 수 있습니다.


내 제품에 눈이 생겼어요.


1. 접근성 (Accessibility) 

제가 가장 주목한 부분은 GPT-4 Vision Platform을 사용하여 '접근성'의 품질을 획기적으로 올릴 수 있다는 것이었습니다. 일부 특수 사용자를 위한 소프트웨어의 접근성을 구현하는 것은 시간도, 노력도, 비용도 많이 드는 작업이지만, 사회가 발전될수록 더 높은 수준이 요구됩니다. 프랑스와 독일에서는 이런 기본적인 접근성 기능이 준비되어 있지 않으면 정부 IT프로젝트에 입찰 자격 자체가 주어지지 않습니다. 


이런 접근성을 지원하기 위한 전통적인 방법은 스크린 리더라는 소프트웨어 기술을 사용하여, 시각 장애가 있는 독자가 화면에 있는 정보를 읽도록 도와줍니다. 그것이 텍스트로 된 정보일 때만 가능한 부분입니다.


그런데 GPT-4 Vision Platform은 이 '눈'의 기능을 이미지와 동영상에까지 확대시켰습니다. 이것은 정말 놀라운 혁명인데요.


우리가 가장 쉽게 생각하는 것으로는 많은 영상이나 이미지를 소유하고 있는 방송국, 영화사 등의 미디어 회사는 이 비전 플랫폼을 사용하여 수만 개 또는 수백만 개의 이미지로 구성된 데이터베이스의 시각적 콘텐츠를 아주 빠르고 쉽게 그리고 거의 정확히 이해할 수 있습니다. 이러한 기능을 통해 컬렉션에서 중요한 부분을 훨씬 더 쉽게 찾을 수 있습니다. 예를 들어 '가수가 라면을 맛있게 먹는 영상'을 찾기 위해 지금까지 많은 인력의 수작업으로 인덱싱을 해 놓는 작업이 더 이상 필요 없다는 뜻입니다.


자 그런데 일반적인 비즈니스 프로덕트에서는 어떻게 이런 비전 플랫폼이 사용될까요?


기업이라면 대부분 웹 사이트를 운영하고 계십니다. 그 사이트는 텍스트와 코드와 이미지, 영상이 모여있습니다. 이런데 시각장애가 있는 분들은 이 정보를 어떻게 읽을까요? 텍스트는 그것을 읽어주는 도우미가 있다고 말씀을 드렸습니다.

그렇다면 이미지는요? 이미지는 페이지를 디자인하는 분이 신경 쓰는 만큼 지원됩니다. 이것을 지원하기 위해서는 HTML에서 Image태그를 사용할 때 'alt text'라는 어트리뷰트를 사용해야 합니다. 이런 예처럼 말이죠.

<img src="img_girl.jpg" alt="자켓을 입은 소녀" width="500" height="600">

이렇게 하면 스크린 리더 소프트웨어는 img 태그를 만났을 때 그 안에 있는 alt 내용 즉 "자켓을 입은 소녀"을 읽어 줍니다.


그런데 이것은 페이지를 만드는 분들에겐 참으로 지루하고 재미없는 일입니다. 어떻게 제대로된 설명을 넣어야 하는지도 모르겠고, 그것을 테스트하기도 애매하구요. 개발자 분들이라면 더 아이디어가 없울 뿐만 아니라 흥미를 느끼는 부분도 아닙니다. 그러다보니 이런 Nice to have 요건은 우선순위에서 뒤쳐지고, 소외되기 쉽죠. 이렇게 나오는 프로덕트 페이지는 그런 정보가 필요한 분들에겐 무용지물이 됩니다.

alt-text 정보가 없으면 그 이미지를 이해할 수 없어요.

그런데 이제 이 비전 플랫폼을 이용하면 어마 어마하게 설명이 정확한 alt text를 너무나 쉽고 빠르게 생성할 수 있습니다.


간단한 스크립트로 웹 페이지에 있는 모든 이미지를 읽어서 그 설명을 생성하게 하고, 그 설명을 다시 alt text로 집어 넣기만 하면 되는 거죠. 이러면 지금까지 정보의 누락과 불균형으로 피해를 경험했던 많은 분들이 그 혜택을 누릴 수 있습니다.

GPT-4 vision의 예


2. 분석 결과의 설명

기업용 소프트웨어에는 작업의 결과를 정리된 리포트나 대시보드로 만들어 주는 기능들이 존재합니다. 당연히 최종 결정권자들이 이런 정제되고 정리된 리포트를 기반으로 중요 결정을 하기 때문입니다. 

SaaS기업의 전형적인 임원 대시보드 형태

그렇기에 그 리포트안에는 상황을 설명하는 많은 종류의 그래프와 차트가 포함되어 있죠. 하지만, 최종 결정권자들은 그 차트의 의미를 모두 다 쉽게 파악하지는 못합니다. 늘 전문가의 설명이 필요하죠. 하지만 이젠 이런 설명을 이젠 비전 플랫폼을 사용하여 비약적으로 발전을 시킬 수 있다고 생각했습니다. 기본적인 분석 결과를 제대로 넣어주면 그것을 색깔별로 읽어 그래프의 상황을 표현하는 것은 훨씬 잘 할 수 있겠다는 판단을 했답니다.

지금 현재의 GPT-4 비전에선 그냥 읽어주는 '지극히 초보적인 수준'인데요. 이건 당연한 겁니다. 대시보드나 차트는 읽는 것이 목표가 아닌 그 표현에서 인사이트를 알아내야 하는 것이거든요. 그건 마이닝 같은 분석엔진이 하는 것들이고, 그 정보를 다시 GPT에 보내 최종적으로 인사이트와 그래프나 차트의 형태를 합하여 읽어주는 모습이 되지 않을까 합니다.

현재의 GPT-4비전은 그래프의 내용을 당연한 수준에서 해석하고 있다.

그럼으로 멀지 않은 시간에 전문 리포트의 내용을 그 대상에 맞는 눈높이로 설명해 주고 질문과 답을 나누는 어시스턴트가 곧 나타나지 않을까 하는 기대를 합니다.  



위에 설명드린 두 가지 이외에도 사실 많은 아이디어가 나왔지만 오늘 설명을 GPT-4 Vision Platform에 관해서 여러분들에게 간단한 아이디어 공유 차원에서 나누어봤습니다.

이제는 정말 누구든 좋은 아이디어만 있다면 큰 대기업에 카운터 블로쯤 날릴 수 있는 비대칭적인 무기가 등장한 듯합니다. 이건 정말 위기이면서 큰 기회의 시기인 듯하구요. 여러분들은 어떤 아이디어를 품고 계신가요?

매거진의 이전글 애플은 찐 파괴왕 2: 많은 스타트업을 한방에 보내다.
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari