brunch

You can make anything
by writing

C.S.Lewis

by 도니 Jun 22. 2024

Open AI가 XR 산업에 가져올 변화

OpenAI는 GPT-4(자연어 처리 모델), DALL-E(이미지 생성 모델), Sora(영상 생성 모델), Codex(코드 생성 및 지원 모델), CLIP(멀티모달 전용 모델)과 같은 인공지능 모델을 개발하는 선도적 기업이다. OpenAI는 이러한 모델들의 API를 통해 사용자가 새로운 콘텐츠와 응용 프로그램을 제작할 수 있도록 지원하는 플랫폼 비즈니스를 운영하고 있다. OpenAI가 'AI+XR' 전략을 공식적으로 제시하지는 않았지만, OpenAI의 기술이 향후 XR 산업에 미칠 영향을 다음의 네 가지로 구분해서 제시한다.


1. 멀티모달 인터페이스

OpenAI의 멀티모달 기술은 XR 인터페이스를 인간과 대화하듯 단순하고 정교하게 변화시켜 인간과 응용프로그램 간의 상호작용을 촉진할 수 있다. XR 환경에서는 키보드나 마우스 같은 전통적 인터페이스 사용이 제한적이기 때문에 제스처 인식이나 음성 인식이 자주 사용되어왔다. 하지만 이런 방식도 여전히 조작이 불편하고, 인식률도 낮고, 단순한 작업에도 여러 단계를 거쳐야 하는 경우가 많았다. 반면에 ChatGPT는 자연어 기반 대화형 인터페이스를 제공하며, 사운드, 이미지, 영상 등의 입력을 복합적으로 지원하여 인간의 커뮤니케이션과 유사한 형식의 상호작용을 가능하게 한다. 최근 발표된 ChatGPT-4는 스마트폰의 카메라를 통해 사용자의 주변상황을 인지하고 음성으로 사용자에게 도움을 제공하는 방식으로 멀티모달리티의 정점을 보여주었다. 예를 들어 화면 상의 수학 문제를 이해하고 음성으로 풀이과정을 도우며, 빈 택시의 접근을 인지한 후 시각장애인인 사용자에게 수신호를 보낼 것을 제안하는 식이다.

수학 문제의 풀이과정을 도움(좌), 빈 택시의 접근을 시각장애인에게 알림(우)[1]


2. XR 애셋 자동 생성

OpenAI의 지능적 콘텐츠 자동 생성 능력은 XR 애셋 제작을 용이하게 할 수 있다.DALL-E 모델은 프롬프트 기반으로 높은 수준의 이미지를 생성할 수 있으며, Sora 모델은 실제 촬영 없이도 프롬프트만으로 전문 영상 콘텐츠를 제작할 수 있는 가능성을 보여준다. 이것들은 XR 콘텐츠에 사용되는 2D 이미지나 영상 클립의 제작을 쉽게 할 뿐만 아니라, XR 콘텐츠 체험 중에도 실시간 콘텐츠 제작이 가능할 수 있음을 의미한다. 또한, OpenAI는 프롬프트 기반 3D 모델 생성 연구의 일환으로 Point-E와 Shape-E 같은 모델들을 오픈소스로 공개하였다.

Point-E :  포인트 클라우드 방식의 3D 모델 생성(좌)[2], Shap-E: 메쉬 방식의 3D 모델 생성(우)[3]


3. XR 콘텐츠 코딩 지원

OpenAI의 ChatGPT 모델은 XR 콘텐츠나 관련 응용프로그램 제작을  위해 코딩을 하는 개발자의 작업 효율성을 획기적으로 향상시킬 수 있다.  현재 ChatGPT는 여러 프로그래밍 언어를 지원하며, 코드 작성, 디버깅 등 다양한 개발 작업에 도움을 주고 있다. 과연 XR 분야에서 콘텐츠 제작에 있어 ChatGPT의 도움으로 코드 작성이 가능할까?   ‘Immersive Insiders’라는 채널의 유튜버가 VR 게임을 개발을 위해 유니티 프로젝트 셋팅부터 외부 툴킷 사용 등 전체 코드 작성에  ChatGPT를 활용하는 시도를 했다. 진행 중 유튜버 개인의 프로그래머로서의 지식이 활용되기는 했기만, 결과적으로 ChatGPT가 VR 게임 코딩에 상당히 유용하다는 것을 증명해냈다. 향후 XR 콘텐츠 코딩에 대한 ChatGPT이 더욱 향상될 것으로 기대된다.

ChatGPT를 활용한 VR 게임 코딩 생성(좌), 완성된 VR 게임 결과(우)[4]


4. XR 관련 업체와의 협력

OpenAI는 XR 디바이스와 콘텐츠를 개발하는 기업들과 협력하고 있다. 여러 XR 관련 회사들이 OpenAI의 ChatGPT 모델을 활용하여 지능형 에이전트를 개발 중이다. 예를 들어, 가상현실 프레젠테이션 앱인  VirtualSpeech는 ChatGPT를 적용한 지능형 캐릭터의 쇼케이스를 공개했다. 이를 통해 지능형 캐릭터와 사용자와 자연스러운 토론이 가능함을 증명했다. 그리고 마이크로소프트는 자사의 Windows OS와 Azure 플랫폼에서 Copilot이라는 인공지능 어시스턴트를 제공하고 있는데, 이는 ChatGPT 모델을 활용하여 개발된 것이다. 마이크로소프트는 이를 홀로렌즈와 같은 산업용 XR 디바이스에 적용해 작업 프로세스 개선과 유지보수에 활용할 계획이다.

VirtualSpeech의 지능형 캐릭터(좌)[4], 마이크로 홀로렌즈에 활용될 Copilot(우)[5]


결론

OpenAI는 높은 수준의 멀티모달리티, 지능적 콘텐츠 자동 생성, XR 콘텐츠 개발 지원, 그리고 XR 관련 업체와 협력을 통해 XR 산업에 큰 영향을 미치고 있다. 이러한 기술들은  메타버스와 같은 대규모 모델 생성에 있어 시간과 비용을 절약하는데 도움을 줄 것이며,  초개인화와 초맞춤화된 XR 경험을 제공하는 데 기여할 것으로 기대된다.


[출처]

[1] https://openai.com/index/hello-gpt-4o/

[2] https://github.com/openai/point-e

[3] https://github.com/openai/shap-e

[4] https://www.youtube.com/watch?v=nzpxEOtEe50&t=351s

[5]https://www.youtube.com/watch?v=pCvx0nwbOwk&t=1s

이전 07화 Google의 ‘AI+ XR’전략 엿보기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari