brunch

You can make anything
by writing

C.S.Lewis

by Mobiinside Aug 29. 2024

AI의 I can / I can’t

일반인에게 AI에 대한 개념이 어렴풋하던 2016년 이세돌 9단이 AI 알파고와 바둑 대국을 펼친 적이 있었다. 당시 이세돌 9단이 1승을 거둔 것이 세계적으로 화제가 되었었던 걸 많은 분들이 기억할 것이다. 그런데 이번에는 스타 셰프와 조리 로봇이 한 판 붙었다.

지난 8월 초 서울 마포구 키친인큐베이터, 조용한 주방에는 세계 최초로 벌어질 사람과 로봇 간 요리 대결이 준비되어 있었다.

이 대결에는 만다린로보틱스 조리로봇 ‘로보틱웍’이 중화요리의 사대문파 중 한 분인 여경래 중식 셰프에게 도전장을 냈다. 이 대결은 같은 조리 도구와 식재료를 활용해 정해진 메뉴를 각자 만들고, 이 요리를 불특정 다수 시식단에게 블라인드 테스트를 통해 우열을 가리는 진행 방식으로 열렸었다.

여경래 셰프는 세계 중국요리협회 부회장과 한국 중식 연맹 회장을 지냈고, 현재 중식당 ‘홍보각’의 오너 셰프로 활동 중이다. 이에 도전하는 만다린로보틱스 로보틱웍은 세계 최고 요리사들의 웍질 영상을 분석하고 이에 맞게 움직임을 구현한 로봇으로 실제 요리사가 사용하는 웍과 화구에 설비를 더한 형태로 현재 국내 고속도로 휴게소와 공항 푸드코트, 대학 학생식당 등에 도입돼 조리원과 협업하고 있다. 음식 맛은 균일하게 조정할 수 있고 작업자 업무 강도를 낮출 수 있어 식음료 현장에서 주목받는다.

여경래 셰프는 대결에 앞서 “요즘 이런 특별한 경우가 아니면 최근에는 요리를 자주 하지 않는 편”이라며 “로봇이 사람과 대결할 수 있을 정도라니 기술 발전이 놀랍다“고 소감을 밝혔다. 이에 대해 “로보틱웍은 3천여 개의 전문 조리사 동작을 분석해 웍 조리 스킬을 구현한 만큼 음식 맛의 풍미를 더해 준다”라고 업체 측은 말하고 있다.(https://zdnet.co.kr/재인용)

이 대결의 결과는 오는 11월 중순 EBS ‘미래직업 다큐멘터리’ 방송에서 공개된다. 대결 과정과 참가자들의 소감을 통해 푸드테크 분야에서의 인공지능 기술 발전이 주는 새로운 가능성에 대해 엿볼 수 있게 될 듯한데, 누가 이기든 AI가 이젠 음식을 만드는 분야에도 뛰어든다니 그저 놀라울 따름이다. 물론 이미 커피 머신이나 다양한 인공지능을 활용한 기계들이 세상에 나와있고 활용 중임을 알고는 있었지만 요리 대결이라니…

위 기사에서 독자분들은 어떤 생각을 하는지 잘 모르겠지만, 필자는 재료 준비라면 모를까 요리까지 로봇이 한다는데 과연 맛이 있을까 궁금하기도 하고 음식 분야까지 인공지능 로봇이 참여를 하게 된다면 앞으로 요리사라는 직업은 어찌되는 것인가 궁금해진다.

'로보틱웍’이 음식조리 중

여경래 셰프가 음식을 접시에 옮겨 담는중 (사진 신경빈기자)

인공지능 변호사, 인공지능 아나운서 등 인공지능으로 대체될 수많은 직업들이 나타난다면 그동안 이를 담당하던 인간의 영역은 과연 어찌 될 것인가?

이에 대해 여러 가지의 논란과 의견들이 세계 곳곳에서 분분하다는 것을 독자 여러분도 잘 알고 있을 것이다.

다만 현재 시점으로 봤을 때 인공지능도 할 수 있는 일, 할 수 없는 한계가 분명히 있기는 하다.

그중에서도 인간의 여러 감정이나 공감에서 인공지능이 아직 한계가 있다.

진정한 감정 표현에서, 사람이 슬픔을 느끼고 울 때, 인공지능은 그 사람의 감정을 이해하거나 동일한 슬픔을 느낄 수가 없다. 단지 슬픔과 관련된 언어적 신호나 표정을 인식하고 이에 맞는 위로의 말을 제시할 수 있을 뿐이다. 즉 미리 프로그래밍된 응답을 제공할 뿐이다.

복잡한 인간관계의 뉘앙스 파악에서, 친구 사이의 미묘한 감정 변화나 가족 간의 복잡한 감정적 관계를 이해하고 적절히 대응하는 것은 인간만이 할 수 있는 일인데, 아직까지 인공지능은 표면적인 대화 내용을 분석할 수 있지만, 그 이면에 숨겨진 복잡한 감정적 맥락을 이해하지 못한다.

이 외에도 여러 가지의 감정이나 정서적인 부분 등 인간이 가지고 있는 뇌의 기능을 통해 느끼는 감정 변화 등에 대해 아직은 기계적인 응답이 대부분이다.

그리고 창의성과 직관에서, 인공지능은 주어진 데이터와 알고리즘을 기반으로 작동하지만, 인간의 창의성과 직관을 완전히 재현할 수는 없다. 다시 말해 예술, 음악, 문학 등에서 인간만의 독창적인 창작물은 인공지능이 따라 하기 어렵다. 즉 새로운 예술적 스타일 창조에서 인공지능은 기존의 데이터를 바탕으로 예술 작품을 생성할 수 있지만, 완전히 새로운 예술적 스타일이나 기법을 창조하는 것은 어려운 한계가 있다. 피카소나 반 고흐와 같은 예술가들이 만들어낸 독창적인 스타일을 인공지능이 새롭게 창조하기는 어렵다는 말이다.

또한 혁신적인 문제 해결에서도 인공지능은 주어진 문제를 데이터 기반으로만 문제를 해결하기 때문에 전혀 새로운 기술을 발명하거나 전혀 다른 접근 방식으로 문제를 해결하는 것은 어렵다. 그것은 인간의 창의적 사고에서 비롯되기 때문이다. 물론 문학적 창작에서도 마찬가지다.

톨스토이나 헤밍웨이 같은 작가들의 작품에는 인간의 경험과 감정이 반영된 창의성이 있기 때문에 인공지능으로서는 한계가 있다. 이외에도 미래 트렌드 예측, 복잡한 인간 감정 표현 등 이러한 예시들은 인공지능이 인간의 창의성과 직관을 완전히 모방하거나 대체할 수 없는 영역이다. 왜냐하면 인공지능은 주어진 데이터를 바탕으로 효율적이고 합리적인 작업을 수행할 수는 있지만, 인간만의 고유한 창의적 사고와 직관적 판단을 대신할 수는 없다는 말이다.

그런데 사람이 슬픔을 느끼고 울 때, 인공지능은 그 사람의 감정을 이해하거나 동일한 슬픔을 느낄 수는 없지만, 단지 슬픔과 관련된 언어적 신호를 인식할 수는 있다.

인공지능이 슬픔과 관련된 언어적 신호를 인식하는 방식에는 여러 가지가 있는데, 그것은 인공지능에게 특정 텍스트, 음성, 표정 등의 다양한 입력을 분석하여 슬픔을 감지할 수는 있다. 몇 가지 예시를 보면..

슬픔과 관련된 단어나 구절을 담은 이미지 (자료 지피티)

위의 이미지를 매개로 좀 더 들여다보면..

1. 텍스트 기반 신호

단어와 구절에서 슬픔과 관련된 단어나 구절을 인식한다.

예를 들어, “슬프다”, “우울하다”, “힘들다”, “눈물이 난다” 등, 슬픔과 관련된 단어나 구절을 단순한 텍스트 이미지가 아닌 그림으로 표현하는 것도 가능하다. 또한 슬픔을 나타내는 시각적 요소들을 추가할 수 있으나 만족할 만한 정도는 아니지만, 예를 들어, 슬픈 표정을 짓고 눈물 흘리는 사람의 얼굴에서 사람의 얼굴을 그릴 수 있고, 어두운 구름과 비가 내리는 풍경을 배경으로 사용할 수도 있다.

그리고 슬픔을 상징하는 사물에서 시든 꽃, 부서진 심장, 고독한 사람이 앉아있는 벤치 등 슬픔을 상징하는 사물들을 포함할 수 있는데, 아래의 시각적 요소는 위의 예를 통해 인공지능(GPT)이 만들어낸 최대한의 이미지가 현재 수준이다.

눈물 흘리는 사람의 얼굴, 어두운 구름과 비, 시든 꽃, 부서진 심장 등의 요소들이 포함(자료 지피티)

사실적, 상세하게 표현된 슬픈 이미지와 기쁨과 밝은 색상, 웃는 이미지(자료 지피티)

2. 음성 기반 신호

목소리의 톤, 속도, 높낮이를 분석하여 슬픔을 감지하게 되는데, 슬픔을 느끼는 사람은 보통 목소리가 낮고 느리며, 톤이 일정하지 않을 수 있기에 이러한 부분에서 인공지능이 판단하는 것이다.

그리고 감정적 말투에서, 울먹이는 소리 나 한숨 등의 음성적 신호를 통해 슬픔을 감지할 수도 있다. 또한 음성, 기호, 사인물 등을 통해 다양한 감정을 표현하는 것도 가능하다.

각각의 방법을 통해 감정을 어떻게 표현할 수 있는지 아래의 예를 보면..

인간은 음성을 통해 감정을 표현할 수 있는데, 음성은 톤, 속도, 높낮이, 말투 등을 통해 감정을 전달한다. 그리고 기쁠 때, 밝고 경쾌한 톤, 빠른 말 속도, 웃음 섞인 목소리. 슬플 때, 낮고 느린 톤, 떨리는 목소리, 울먹이는 소리. 분노가 찰 때, 높은 톤, 빠른 말 속도, 강한 말투 등에서 인공지능이 입력된 데이터를 분석하여 언어로, 신호로, 이미지로 전달하게 된다. 그리고 음악이나 노래를 포함하여 다양한 형태로도 가능하다.

음악은 멜로디, 리듬, 화음, 템포 등을 통해 다양한 감정을 전달할 수 있다.

기쁠 때, 밝고 경쾌한 멜로디, 빠른 템포, 장조의 화음. 예: 파헬벨의 “캐논”, 비틀즈의 “Here Comes the Sun”. 슬플 때, 느리고 우울한 멜로디, 느린 템포, 단조의 화음. 예: 쇼팽의 “장송행진곡”, 아델의 “Someone Like You”. 분노가 찰 때, 강렬한 비트와 템포, 어두운 화음. 예: 라벨의 “볼레로”, 린킨 파크의 “Numb” 등 여러 가지로 음성의 톤, 심지어 비음 등에서 인간의 감정을 캐치하여 신호나 이미지로 전달한다고 한다.

어찌 보면 인간이 표현하지 못하는 부분들의 분석도 할 수 있는 것은 분명한 듯하다. 최근의 MZ들은 서로 사귈 땐 모르지만, 헤어질 땐 서로 얼굴 보고 말하기가 어색하여 카카오톡으로 이별을 말한다고 하니 기계가 또는 인공지능이 대체할 부분들도 있을 법도 하다.

3. 기호

기호는 시각적 요소를 통해 감정을 표현할 수 있다.

기쁨: 웃는 얼굴 �, 해 �, 하트 ❤️

슬픔: 우는 얼굴 �, 구름 �️, 부서진 하트 �

분노: 화난 얼굴 �, 번개 ⚡, 주먹 ✊

위의 예에서 분노하는 기호들이 귀엽게 표현되기도 했지만, 좀 더 강렬하고 격렬한 감정을 전달하기 위해 시각적, 상징적 요소를 사용하게 되는데, 이때 우선적으로 언어적 텍스트를 기본으로 하여,

격렬한 천둥과 번개: 분노의 폭발성을 상징

폭풍: 강한 바람과 번개가 함께 있는 폭풍 장면.

부서진 유리: 분노의 결과로서 파손된 물건

붉은색 경고 표지판: 분노나 위험을 경고하는 의미

화난 얼굴이 그려진 표지판: 직접적으로 분노를 나타내는 표지판.

무기: 칼, 총 등 공격적인 무기를 강조하는 이미지.

불길한 구름: 어둡고 무거운 구름은 분노와 불안을 함께 표현

격렬한 파도: 큰 파도나 폭풍우는 분노의 격렬함 등으로 언어적 텍스트를 활용

하기도 하는데, 이때 상징적 기호들은 분노를 강렬하게 전달하기 위해 사용되며, 특히 시각적으로 분노의 감정을 표현할 수 있게 된다.

불길, 화난 표정의 얼굴, 천둥과 번개, 쥔 주먹, 깨진 유리, 그리고 화난 얼굴이 그려진 경고 표지판 등 (자료 지피티)

그런데 여기서 인공지능에게 위에서 제시된 여러 가지 기호 이미지를 하나씩 구분하여 ‘깨진 유리’를 좀 더 디테일하게 기호 이미지로 표시하면 그 이미지가 어떻게 보이는지 직접 지피티4.0+에게 물어본 결과는 아래와 같다.

깨진 유리를 기호 이미지로 표현한 그림(자료 지피티)

추가적으로 지피티에게 위의 디테일한 ‘깨진 유리’ 이미지를 좀 더 단순하게 만들어 달라고 요청했을 때 이미지는 아래와 같다.

더 단순화된 깨진 유리를 미니멀한 기호로 표현한 이미지 (자료 지피티)

이 이미지에서 독자 여러분들도 느낄 것이다.

인공지능은 특정한 디테일이나 단순화 정도를 완벽하게 맞추는 데 한계가 있을 수 있다는 걸 말이다. 생성된 이미지가 원하는 수준의 디테일이나 단순함을 모두 만족시키지 못할 때가 분명히 있다. 하지만 일반적으로 원하는 방향으로 이미지를 수정하거나 추가 요청을 통해 보다 더 맞춤형 결과를 얻을 수 있도록 도와드릴 수는 있다는 점도 이해하고 인공지능을 활용해야 하리라 본다.

즉 무조건 나쁘다, 무조건 좋다의 의미는 아니더라도 활용의 기준을 어디다 두느냐에 따라 달라질 수 있다는 것이다.

결국 앞서의 여러 사례와 설명 등에서 인공지능이 현재 어디까지 I can과 I can’t 인지를 조금은 이해했으리라 본다.

다시 얘기하자면 GPT-4는 스스로 새로운 이미지를 창조하거나 기억을 기반으로 이미지를 불러내는 것이 아니라, 주어진 텍스트 설명을 바탕으로 이미지를 생성하는 방식으로 작동한다. 지피티가 제공하는 이미지 생성은 인공지능 모델인 DALL-E와 같은 도구를 통해 이루어진다. 물론 미드져니나 여러 인공지능 크리에이티브 도구들도 동일하다. 이러한 도구들은 입력된 텍스트 설명을 바탕으로 이미지를 생성하는 기능을 가지고 있다는 것을 또 한 번 강조하게 된다.

그래서 언어적 텍스트에 대한 이해가 정말 중요하다.

인공지능은 텍스트를 분석할 때 문맥 속에 숨겨진 감정도 파악하려고 하기 때문에 이를 감정 분석(emotion detection) 또는 감정 인식(emotion recognition)이라고 하는데, 이러한 기능을 통해 인공지능은 사용자의 감정을 이해하고, 그에 맞는 적절한 응답을 제공할 수 있는 것이다.

특히, “그럭저럭”이라는 단어는 특정한 긍정적이나 부정적인 감정보다 중립적이거나 미묘한 감정을 나타낼 때 주로 사용되는데, 이 단어는 상황이 완벽하지 않지만, 그럭저럭 버틸 만하거나 수용할 만한 상태를 의미한다. 즉, 특별히 좋지도 나쁘지도 않은 중간 정도의 상태를 나타내는 말이다.

이러한 텍스트일 경우에,

~~중립적 상황:~~ “오늘 하루는 그럭저럭 보냈어.” (특별한 일 없이 무난하게 하루를 보낸 느낌) / 살짝 부정적 상황: “일이 많아서 힘들었지만, 그럭저럭 해냈어.” (어려움이 있었지만 겨우 해낸 느낌) / 살짝 긍정적 상황: “큰 문제는 없었고, 그럭저럭 잘 진행됐어.” (큰 문제 없이 일이 진행된 느낌)라는 언어적 기반을 중심으로 아래 두 가지의 이미지를 좀 더 중립적으로 ‘그럭저럭’과 ‘지쳐 보임’

의 미묘한 차이를 표현하기 위한 이미지는 지피티가 만들어준 것이다.

하나는 중립적인 표정으로 책상에 앉아 일하는 사람, 또 하나는 무척 피곤해 보이는 지친 상태를 잘 나타내는 이미지 (자료 지피티)

그리고 위 두 가지 이미지를 좀 더 디테일한 미묘한 차이를 표현하기 위해 미세한 조정을 통해 좀 더 중립적이고 ‘그럭저럭’인 느낌을 살리도록 이미지를 표현하도록 시도해 본 이미지는 아래와 같다.

‘그럭저럭’이라는 느낌을 살린 중립적인 이미지. 중립적인 표정과 평범한 사무실 환경을 표현 (자료 지피티)

이처럼 지피티가 만들어준 텍스트 기반의 혹은 기호나 신호등의 데이터에서 얻어진 이미지에서 독자 여러분들은 어떻게 느끼는지 궁금하다.

세상에는 다양한 문화적 표현과 그에 따른 이미지들이 많아서, 아직까지는 인공지능이 모든 것을 완벽하게 이해하거나 표현하기는 어렵다. 문화적 차이와 맥락에 따라 같은 표현이라도 다른 의미를 가질 수 있기 때문에, 이를 모두 아우르기란 쉽지 않을 것이다.

그러기에 인공지능은 주어진 데이터와 학습된 패턴을 기반으로 작동하므로, 모든 문화적 뉘앙스와 복잡한 맥락을 완전히 이해하고 표현하는 데는 한계가 있다. 그럼에도 불구하고, 인공지능은 지속적으로 발전하고 있으며, 다양한 문화적 배경을 더 잘 이해하고 표현할 수 있도록 연구되고 있다.

4. 행동의 변화

평소와 다른 행동 패턴을 통해 슬픔을 감지할 수 있다. 예를 들어, 평소 활발하던 사람이 갑자기 조용해지거나, 활동량이 줄어드는 경우를 인간은 종종 느낀다.

행동 패턴은 여러 형태로 나타날 수 있으며, 이를 통해 사람의 기분이나 상태를 이해할 수 있게 된다.

스트레스 관련 행동 패턴

발 떨기: 긴장하거나 불안할 때 다리를 떨거나 손가락을 두드리는 것. 한숨: 자주 한숨을 쉬는 것은 피로감이나 스트레스를 나타낼 수 있는 것에서도 인공지능은 작동하며, 사회적 상호작용 패턴에서 눈 맞춤 피하기: 불편함이나 긴장감을 나타내거나 자주 웃기: 친근함이나 호감을 나타내는 신호 등에서도 인공지능은 데이터에 의해 느끼기도 한다.

예를 들어, 현재 텍스트 기반 인공지능은 ‘발떨기’와 같은 실제 행동을 직접 보여줄 수는 없지만, 이러한 행동을 설명하거나, 이러한 행동을 나타내는 이미지를 생성하여 시각적으로 표현할 수도 있다.

아래 이미지는 ‘발떨기’ 행동을 묘사한 이미지 예시인데, 독자분들은 어떻게 느껴지는지.., 발을 떨고는 있으나 감정까지 표현하기에는 다소 부족함이 보이기도 한다.

발을 떨고 있는 사람을 묘사한 이미지 및 불안하거나 초조한 상태를 나타내기 위해 의자에 앉아 발을 떨고 있는 사람을 단순하게 표현 (자료 지피티)

인공지능은 이러한 다양한 신호들을 조합하여 사람의 감정을 인식하려고 한다. 하지만 이 인식은 표면적인 데이터 분석에 기반하며, 진정한 감정 이해와는 차이가 있다. 인공지능은 슬픔을 이해하거나 동일한 감정을 느끼지 못하지만, 위와 같은 신호를 통해 슬픔을 표현하는 데이터를 분석하여 적절한 대응을 할 수 있도록 설계되어 있다.

그래서 앞서의 긴 설명과 사례를 바탕으로 인공지능의 I can / I can’t를 구분하여 정리를 해보면..

I can에서, 감정을 표현하는 단어와 문구를 인식하고 이에 맞는 텍스트나 이미지를 생성할 수 있으며, 감정적인 언어를 사용하여 글을 작성하거나 대화를 나눌 수 있다. 그리고 공감의 표현하는 문구를 사용하여 위로하거나 격려할 수 있으며, 특정 상황에 적절한 반응을 보이는 텍스트를 생성할 수 있다.

창의적인 작업에서는 시나리오, 이야기, 시 등 창의적인 글을 작성할 수 있고, 텍스트 설명을 바탕으로 이미지를 생성할 수 있다.

그렇지만, I can’t에서는, 진정한 감정을 느끼지 못하므로 미리 프로그래밍된 반응이나 학습된 패턴에 따라 생성된다. 단지 감정을 나타내는 언어적 신호를 분석하여 반응할 뿐이다. 또한 창의성에서, 기존 데이터를 기반으로 창의적인 작업을 수행하므로 완전히 새로운 스타일이나 독창적인 아이디어를 창출하는 데는 한계가 있다. 그것은 인간의 창의성과 직관은 경험과 고유한 사고 과정에서 비롯되는 것이기에, 인공지능은 그러한 경험이 없기 때문이다.

즉 인공지능은 특정 작업에서는 인간을 능가할 수 있지만, 다른 많은 영역에서는 여전히 인간 수준에 미치지 못한다. 그렇지만, 인공지능의 발전은 지속되고 있으며, 앞으로 더 많은 영역에서 인간과 비슷한 수준에 도달할 가능성이 있지만, 현재로서는 여전히 많은 한계를 가지고 있다.

그렇지만 앞으로 기술이 계속 발전함에 따라 인공지능도 점점 더 인간 수준에 가까워질 것이다. 현재의 인공지능은 이미 많은 작업에서 높은 수준의 성능을 보이고 있으며, 미래에는 더 많은 영역에서 인간과 유사한 능력을 가지게 될 것으로 기대해도 된다.

그렇지만 인공지능 기술을 만드는 개발자도 활용하는 마케터나 인간들도 분명히 알아야 할 것은 인간의 삶을 영위함에 있어 필요한 도구로서의 활용은 가능하겠지만 인간 위의 계급으로는 존재하기 어렵고 어려워야 한다는 것도 이해해야 하지 않을까 싶다. 그러기 위해서는 개발자나 이용자 모두 윤리적 AI연구와 올바른 문화적 이해와 역사인식과 함께 인공지능이 복잡한 도덕적 상황에서도 더 나은 판단을 할 수 있게 준비해야 할 것이다.

멀지 않은 미래 우리집에서 나와 함께하는 반려 로봇(?)을 생각한다면 윤리 도덕적 로봇은 더더욱 간절하다.

Gil Park님의 브런치에 게재된 글을 모비인사이드가 한 번 더 소개합니다.