brunch

You can make anything
by writing

C.S.Lewis

by 김학용 Jun 25. 2022

아마존 리마스(re:MARS) 2022 주요 내용 요약

일반화 가능한 인공지능, 대화식 탐색, 목소리 딥페이크 등 

지난 6월 21일부터 24일까지 아마존의 re:MARS 컨퍼런스가 라스베가스에서 개최되고 있습니다. re:MARS는 아마존 설립자인 제프 베조스가 관심을 갖고 있는 4개 분야, 즉 Machine learning, Automation, Robotics, 그리고 Space에 대한 아마존의 연구 내용을 공유하는 컨퍼런스인데요, 코로나로 인해 3년만에 오프라인 행사로 개최되었습니다. 


4일짜리 행사인 만큼 굉장히 다양한 내용들이 언급되었겠지만, 제가 관심있어 하는 내용들, 즉 알렉사와 관련되었거나 로봇과 관련된 내용들을 중심으로 정리를 해 보았습니다. 


일반화 가능한 인공지능


페이스북이 메타버스에 회사의 모든 역량을 투입하는 것과 달리 구글과 아마존은 90% 이상의 역량을 앰비언트 컴퓨팅 혹은 앰비언트 인텔리전스 분야에 쏟고 있습니다. 앰비언트 컴퓨팅은 "컴퓨팅 파워가 사용자 주변 환경 어디에나 내장되어 있어서 사용자가 필요할 때는 나타나서 원하는 서비스를 제공하지만 그렇지 않을 때는 환경 속으로 사라지는 것"을 말합니다. 흔히 음성인식 기반의 가상 비서를 앰비언트 컴퓨팅의 대표적인 예로 언급하는데요 (사실 가상 비서는 낮은 수준의 앰비언트 컴퓨팅에 해당합니다) 평소에는 가상 비서를 인식할 수 없지만, "알렉사, 오늘 일정 알려줘!"처럼 음성 명령을 내리면 짜잔 하고 등장해서 일정을 알려주고 사라지는 것을 말합니다. 



일정을 확인하기 위해서 직접 캘린더 앱이나 서비스에 접속한 후 확인하지 않더라도 가상 비서가 그 일을 대신해 주는 거죠. 사람이 직접 어떤 일을 하지 않더라도 원하는 일을 할 수 있다는 측면에서, '직접 조작하지 않았지만 원하는 기능을 이용할 수 있는 것'으로 정의하기도 합니다. 앰비언트 컴퓨팅은 사람의 음성 명령에 대응을 하기도 하지만, 진화된 앰비언트 컴퓨팅은 사람이 명령을 하기 전에 사람이 필요로 하는 것을 예측하여 선제적으로 대응을 하기도 합니다. 따라서, 사람들은 기계나 컴퓨터 이용법을 배우지 않아도 됩니다.  


이처럼 일상 생활에서 사람들이 사용하는 인공지능을 '일반화 가능한 지능(Generalizable Intelligence)' 혹은 줄여서 GI라 부릅니다. 아마존의 알렉사는 GI의 대표적인 사례에 해당되며 실제로 알렉사는 30여 개의 인공지능이 실시간으로 통합되어 동작한다고 합니다. 그리고, 이런 기능들을 더욱 고도화 시키는 것이 아마존의 목표이며 이런 노력들이 지속되었을 때 앰비언트 컴퓨팅 시대가 열릴 것이라고 생각하고 있습니다. 



일반화 가능한 인공지능의 3가지 특성


일반화 가능한 인공지능은 3가지 특성을 보유해야 합니다. 첫째, 여러 테스크를 수행할 수 있어야 합니다. 즉, 특정한 목적만을 위한 인공지능이어서는 안 되며 사용자들이 필요로 하는 다양한 니즈를 수용할 수 있어야 합니다. 


둘째, 끊임 없이 변화는 환경에 맞게 빠르게 진화해야 합니다. 사용자들의 질문이나 요구사항은 시간이 지남에 따라 바뀔 것이므로 신속하게 그에 대응할 수 있어야 합니다. 또한 사용자들의 질문이나 요구사항은 갈수록 더 구체적일 것이므오 이에 대해서도 대응할 수 있어야 합니다. 이를 위한 노력이 다음에 설명할 "대화식 탐색"입니다. 


셋째 새로운 개념과 액션을 배우기 위해 사람으로부터 최소한의 외부 입력을 받아들여야 합니다. 실제로 알렉사는 자체 학습 메커니즘을 활용해 매주 수천만 개의 결함을 자동으로 수정하고 있습니다. 



대화형 탐색 (Conversational Exploration)


인공지능 일반화는 대화형 탐색을 통해 알렉사가 더 많은 지식을 갖도록 함으로써 사람들의 질문에 더 잘 대답하게 할 때 구현됩니다. 사람들의 질문에 더 잘 대답한다는 것은 질문에 대한 답변이 만족스럽지 않은 경우 추가 질문을 통해 집문에 대한 답변을 더욱 정교하게 하거나 혹은 사용자에게 도움이 되는 제안을 하는 것을 말합니다. 


예를 들어, '세상에서 제일 오래 산 나무는?'이라고 질문하면 인터넷 상에서 정보를 수집 및 요약해서 답을 제시하는 것은 물론, 장수하는 이유와 서식 지역의 환경이나 주변 등산 코스 등 다양한 화제에 관해 대화를 나눌 수 있게 되는 것입니다. 즉, 자신이 원하는 정확한 답을 찾기 위해 스마트폰을 꺼내 검색을 하지 않아도 되게 만드는 것이 목표인 것입니다. 


세상에서 제일 오래 산 나무는?에 대한 후속 질문에 대해 제안해준다


망자의 목소리를 재현하는 음성 딥페이크 기술


이번 re:MARS에서 가장 이슈가 된 것은 1분 정도의 음성 샘플만 있으면 그 사람의 목소리를 그대로 흉내내는 음성 딥페이크 기술이었습니다. 지난번 대선 때에도 딥페이크 기술을 이용해서 대선 후보의 얼굴과 음성을 합성하여 선거전에 활용하면서 이슈가 됐었는데요, 딥페이크 기술은 음성이든 얼굴이든 여러 가지로 악용되거나 오용될 가능성도 크고 도덕적 윤리적 문제를 일으킬 수도 있어서 신중해야 할 기술입니다. 그런데, 그런 기술을 아마존이 들고 나온 것입니다. 


아마존이 음성 딥페이크 기술을 소개한 명분은 간단합니다. Human-like empathy, 즉 인공지능을 통해 사람 같은 감정을 전달해 주고 싶다는 것입니다. 코로나로 인해 사랑하는 사람들을 너무 많이 잃어버렸는데, 그들의 목소리로 대화할 수 있다면 좋지 않겠느냐는 것입니다. 사실 좋을 수도 있습니다. 예전에 MBC에서 <너를 만났다>라는 VR 휴먼 다큐멘터리가 제작된 적도 있었는데요, 세상을 떠난 딸 혹은 엄마를 VR을 통해 만날 수 있게 하는 것이었습니다. 이 다큐멘터리를 보고 많은 사람들이 눈물 짓고 공감했던 것을 생각하면 충분히 이해가 되기는 하지만, 아무튼 논란이 많은 이슈를 다루었더라구요. 


예시로 보여준 영상에서는 어린 손자가 알렉사에게 할머니 목소리로 오즈의 마법사를 읽어달라고 부탁을 합니다. 그러면, 알렉사가 할머니 목소리를 흉내내어 책을 읽어주는 것입니다. 아마존도 딥페이크 기술에 대한 논란을 잘 알고 있기에 오남용을 막을 수 있는 방법 등에 대해 고민을 하리라 생각됩니다. 올해 말 정도에 공개가 된다고 하니 함 기다려 봐야겠습니다. 


https://youtu.be/yG2PjzUknsU?t=38


로봇 관련 내용들


아마존은 로봇 및 자율주행과 관련된 내용들도 다수 소개했는데요, 일단 오늘은 여기까지만 정리하도록 하겠습니다. 


참고로 키노트 영상 링크를 공유하니 참고바랍니다. (Day 1 and Day 2 Keynotes)


https://www.youtube.com/watch?v=CNG8vSqZp6E&t=5070s

https://youtu.be/22cb24-sGhg

작가의 이전글 WWDC 2022와 스마트홈
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari