안녕하세요. 아이피렉스 특허법률사무소입니다.
AI 전문 언론 *인공지능신문(AI타임스)*에 연재 중인 『오픈AI 특허 분석』 시리즈의 제12회 기고문이 게재되었습니다.
이번 글에서는 김용덕 변리사가 미국 특허 US 12,039,431 B1을 중심으로 OpenAI의 멀티모달 상호작용 기술을 분석하였습니다.
핵심 요약
해당 특허는 기존의 텍스트 기반 명령 입력을 넘어, 이미지 상의 클릭·드래그·마킹 등 GUI 행위 자체를 모델 입력으로 해석하는 멀티모달 상호작용 시스템을 보호합니다.
이 기술은 텍스트·이미지·사용자 인터페이스의 통합적 이해를 통해, 보다 직관적이고 인간 친화적인 AI 응답을 실현합니다.
주요 기술 특징
이번 특허의 핵심 기술은 사용자 인터페이스 상의 시각적 입력을 LLM이 직접 해석할 수 있도록 하는 멀티모달 상호작용 구조에 있습니다. 기존의 텍스트 명령 기반 시스템과 달리, 사용자가 이미지 내 특정 영역을 클릭하거나 드래그하거나, 마커나 루페 도구로 강조하는 등의 행위를 통해 의도를 표현할 수 있으며, 이 행위 자체가 모델 입력의 일부로 처리됩니다. 이러한 시각적 입력은 ‘컨텍스트 프롬프트’로 변환되어 토큰화(tokenization) 과정을 거친 후, 해당 영역 정보를 포함한 임베딩(embedding) 형태로 모델에 전달됩니다. 또 하나의 중요한 기술 요소는 ‘세그멘테이션 마스크(segmentation mask)’로, 사용자가 강조한 영역을 픽셀 단위까지 정밀하게 인식하고, 완전한 폐곡선이 아니더라도 유연하게 해석하여 모델의 응답 정확도를 높이는 역할을 합니다. 여기에 더해, 사용자의 입력 의도에 따라 후속 질문을 유도하는 추가 프롬프트가 자동 생성되어, 대화형 UX 흐름이 자연스럽게 이어질 수 있도록 설계되어 있습니다.
활용 가능 분야
이 기술은 의료, 교육, 커머스 등 다양한 산업 분야에서 실질적으로 활용될 수 있는 잠재력을 지니고 있습니다. 예를 들어 의료 영상 분석 분야에서는 CT 이미지나 진단 사진에서 특정 병소 부위를 클릭하면, 해당 부위에 대한 의학적 해석이나 질환 정보를 자동으로 제공받을 수 있습니다. 교육 현장에서는 과학 이미지나 역사적 사진의 특정 부분을 학생이 지목하면, AI가 관련된 배경 지식이나 설명을 제공하는 대화형 학습 도구로 활용될 수 있습니다. 패션이나 리테일 분야에서도 의류 사진에서 특정 소매나 장식 요소를 클릭하면, 해당 요소의 스타일 정보나 유사한 제품 추천이 자동으로 제공되는 방식으로 확장될 수 있어, 사용자 경험을 혁신적으로 개선할 수 있습니다.
김용덕 변리사 코멘트
해당 특허는 텍스트 중심의 AI에서, 시각적 맥락과 직관적 상호작용을 함께 고려하는 차세대 AI 인터페이스 설계의 전환점이 될 것입니다. 다양한 산업 분야에서 LLM 기반 도구의 실질적 구현을 가능케 하는 핵심 기술입니다.
아이피렉스 특허법률사무소 김용덕 대표 변리사김용덕 변리사는 아이피렉스 특허법률사무소 대표 변리사로 인공지능(AI), 스마트팩토리, 블록체인 등과 같이 4차 산업혁명 기술을 전문적으로 다루는 국내 유명 기업들(LG 전자, 삼성전자, 바이두, 수아랩, 마키나락스 등)의 지식재산권 업무를 전담한 바 있습니다. 현재, 조달청에서 인공지능/IoT기술과 관련된 우수 제품 평가 위원으로 활동하고 있으며, 인공지능 기업의 기술특례상장과 관련된 전문 평가 기관의 기술 평가 위원으로 코스닥 상장 심사용 전문 평가 업무를 수행하고 있고, 다양한 분야의 벤처기업들의 특허, 상표 및 디자인 업무를 전담하고 있습니다.
아이피렉스 특허법률사무소는 특허, 상표, 디자인 등과 같은 지식재산권 분야에 높은 전문성을 보유하고 있으며, 국내 뿐만 아니라 해외 지식재산권의 분석을 통해 글로벌 지식재산권 확보 역량을 갖고 있습니다. 상표 출원 관련 컨설팅을 진행할 뿐만 아니라 기술특례상장 컨설팅, 해외 상표 출원 등과 같은 다양한 업무를 진행하고 있습니다. 최고의 기술력에 최상의 서비스를 제공하는 국내 유일무이한 특허법률사무소입니다.