brunch

You can make anything
by writing

C.S.Lewis

by 인벤터실록 Oct 23. 2024

인공감성지능, 멀티모달(LMM) AI의 도약

오감센서, 감정인식 기술 리뷰

멀티모달이 되는 GPT-4o의 등장으로 감정 표현, 실시간 소통에 혁신을 가져다주어 “인간-인공지능 관계의 패러다임을 바꿀 것이다”라는 내용의 기사가 많이 나왔습니다.

출시되고 나서 저도 여러 번 사용해 보았는데 확실히 시리 같은 기존의 인공지능 비서와 음성 반응을 비교했을 때 속도도 더 빠르고 표현도 풍부하게 더 잘한다 라는 느낌을 받을 수 있었습니다.

GPT-4o의 키노트 중 감정 이해와 표현 능력의 향상을 보여주는 대목을 보면요. 그래요, 멀티모달을 적용해서 그런지, 보편적인 대화 맥락을 기반에서는 감정 표현 능력이 향상된 것으로 보였습니다. 그런데 사람마다 감정 표현의 양상은 다를 수밖에 없고 감정의 개수를 몇 가지로 특정할 수 없듯이 맥락은 무한대로 정말 다양합니다. 그래서 앞서 말씀드린 ‘보편적인 대화 맥락’이라는 것이 인공지능이 사람과 대화할 때 통하지 않을 경우가 더 많을 것입니다.


“그러면 멀티모달을 이용해 다 학습시키면 될 것 같다”라고 생각하시는 분이 계실 것입니다.


네 맞습니다.


인간의 감정을 학습시켜 인공지능에게 적용하면 됩니다. 이러한 기술을 ‘감정지능’이라고 합니다. 

앞서 기사의 내용처럼 인간-인공지능 관계의 패러다임을 바꾸는 측면에서 감성지능 Emotional Intelligence 가 중요할 역할을 할 것입니다. 자세히는 AI가 감성지능을 갖춘다면 인간과의 상호작용에서 감정을 이해하고 적절히 대응하는 것에서 더 자연스럽고 인간적인 대화를 제공함으로써 openAI의 키노트에서도 보여준 수학을 가르쳐 주는 교육자의 역할뿐만 아니라 비서, 상담사와 같이 더 다양하고 고도화된 역할을 수행할 수 있게 되는 것입니다. 그래서 AI 시대에 감성지능이야말로 가장 중요한 기술이라 생각되어 여러분께 소개하고자 합니다.

이번 영상에서 크게 감정인식 기술과 오감 센서에 대한 기술 특허를 살펴보고자 합니다. 두 기술 만을 소개해 드리는 이유는 결론에서 말씀드리겠습니다.


감정인식 기술에 대해서는 예전에 한번 다룬 적이 있습니다. 그런데 저번에는 멀티모달을 적용하지 않은 기술을 가져와서 좀 아쉬운 부분이 있었습니다. 그래서 이번에는 멀티모달을 적용해 더욱 고도화된 기술을 찾아보았습니다.

이 기술은 사람의 음성과 텍스트를 동시에 분석해서 감정을 인식하는 기술입니다. 예를 들어, 우리가 누군가와 대화를 할 때 그 사람의 말투와 말하는 내용을 동시에 보고 그 사람의 감정을 파악하듯이, 이 기술도 비슷한 일을 하는 거죠.

그렇다면 이 기술이 음성과 텍스트를 어떻게 처리하는지 좀 더 자세히 알아볼까요?

먼저 음성 데이터 처리부터 설명드릴게요. 음성 데이터를 분석할 때는 소리의 주파수를 분석하는 멜 주파수 켑스트럼 계수(MFCC)라는 방법을 사용해요. MFCC는 소리의 주파수를 분석해서 그 소리가 어떤 특징을 가지고 있는지 파악하는 데 사용됩니다. 예를 들어, 우리가 기쁠 때와 슬플 때 목소리 톤이 다르잖아요? MFCC는 이런 차이를 분석해 줍니다.

다음은 텍스트 데이터를 처리하는 방법입니다. 이 기술은 텍스트를 분석할 때 BERT 모델을 사용해요. BERT는 텍스트의 문맥을 이해하는 데 탁월한 모델입니다. 예를 들어, "나는 오늘 기분이 좋다"와 "나는 오늘 기분이 좋지 않다"는 문장 속에서 "좋다"와 "좋지 않다"라는 단어가 문장의 의미를 완전히 바꾸죠. BERT는 이런 문맥의 차이를 잘 이해해서 텍스트의 의미를 파악합니다.

음성과 텍스트의 데이터를 각각 처리한 다음에는 이 데이터를 결합하는 과정이 필요합니다. 이 과정은 두 가지 데이터의 특징 추출을 통해 이루어지는데요, 음성과 텍스트의 특징을 각각 추출한 다음, 이를 하나로 통합합니다. 이를 통해 음성과 텍스트가 서로 어떻게 관련되어 있는지 파악할 수 있습니다.

이제 교차 메커니즘에 대해 설명드릴게요. 이 메커니즘은 음성과 텍스트 데이터가 서로 어떻게 영향을 주고받는지 분석합니다. 예를 들어, 누군가가 "정말 행복해!"라고 말할 때 목소리 톤이 밝고 높을 수도 있지만, "정말 행복해"를 무뚝뚝한 목소리로 말하면 그 의미가 다르겠죠? 이 기술은 이런 미묘한 차이까지 분석해 줍니다.

모든 데이터를 통합하고 분석한 후에는 최종적으로 감정을 인식하는 단계가 있습니다. 이 단계에서는 통합된 데이터를 바탕으로 다양한 감정 클래스를 예측합니다. 예를 들어, 기쁨, 슬픔, 분노, 놀람 등의 감정을 예측할 수 있습니다.

이 기술의 가장 큰 장점 중 하나는 실시간으로 감정을 인식할 수 있다는 것입니다. 이 기술이 상용화된다면 GPT 4O 등과 같은 실시간 대화 서비스를 제공하는 생성형 AI에 적용 가능할 것으로 보입니다.


인공지능에게 인간의 오감은 인간의 감각을 배우는 데 중요한 역할을 할 것입니다. 감각을 배운다는 것은, 감정을 이해하는 데에도 도움이 될 것입니다. 그렇기에 오감을 인식하는 센서가 멀티모달 생성형 AI에 중요한 역할을 할 것입니다.

오감 중 시각과 촉각은 과거부터 중요한 연구 대상이었습니다. 촉각과 청각의 경우도 비슷합니다. 그래서 상용화되어 지금도 널리 사용되고 있습니다. 그래서 이번 영상에서는 시간 관계상 더 궁금해하실 것 같은 후각, 미각 기술을 소개해 드리고자 합니다.

후각 센서와 미각 센서의 원리는 비슷합니다. 여러 개의 감지 재료를 사용하여 냄새를 구별합니다. 여기서 감지재료란, 분자를 감지하여 트랜지스터와 결합된 구조를 통해 전기적 신호를 생성하는 것입니다. 자세히는 분자가 수용체를 포함한 반도체 소재 표면에 닿으면 전기 저항이 변하는 원리를 이용합니다.


감정인식 기술과 오감 센서의 특허를 간단히 살펴보았습니다.

감정인식 기술은 감성지능의 원천 기술이고, 오감센서는 멀티모달 시대에 더 다양한 인풋 값으로 센서 값을 통해 정확도와 신뢰도를 높일 수 있을 것이라 생각되어 다뤄보았습니다. 결론에서 강조하고 싶은 점은, 감성지능과 오감 센서 기술이 결합됨으로써 AI의 활용 범위가 더욱 확장될 것이라는 점입니다. 예를 들어, 실시간으로 감정을 인식하고 이에 맞춰 반응하는 AI비서나 상담사는 사용자 경험을 혁신적으로 개선할 수 있습니다. 또한, 오감 센서가 발전함에 따라 AI는 더욱 다양한 인간의 감각을 이해하고 반영할 수 있게 될 것입니다. 이러한 기술들의 발전은 단순히 AI의 기능적 향상을 넘어서, 인간과 AI의 관계를 근본적으로 변화시킬 잠재력을 가지고 있다고 생각합니다. 따라서, 앞으로 감성지능과 오감 센서 기술의 발전을 지속적으로 주목하며, 이러한 기술들이 우리의 삶에 어떻게 긍정적인 영향을 미칠 수 있을지 함께 고민해 보는 것이 중요할 것 같습니다. 오늘 영상이 이러한 미래를 그리는 데 조금이나마 도움이 되었기를 바랍니다.


아래에는 제가 참고한 기술 특허 입니다.

1.      KR10-2020-0038022(발명의 명칭 미각 세포 및 신경 세포를 포함하는 미각 바이오센서)

2.      KR10-2023-0129094(멀티모달 기반 실시간 감정인식 방법 및 장치)

3.      KR10-2020-0116616(후각센서 어셈블리 및 그 제어방법)

이전 06화 휴머노이드의 종착점: 감정인식 기술
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari