Explainable AI의 설계와 구현을 가이드하는 원칙
2020년 인공지능과 관련한 핵심 주제 중 하나가 '설명 가능한 AI (Explainable AI; XAI)'라는 데 크게 이의를 제기하실 분은 없을 것 같습니다. 특히, 지금까지 인공지능이 보여주었던 '가능성 (Possibility)'을 기반으로, 이를 넘어선 '보편성 (Universality)'을 획득하고 다양한 업계에 인공지능 도입을 확산시키기 위한 기반을 만든다는 관점에서, '인간의 관점'을 중요하게 고려하여 - 인간의 관점'만'이 아니라 - 인공지능 시스템의 의사결정 과정, 그리고 이유를 평가, 이해하는 것이 매우 중요합니다. 궁극적으로는, 이 '설명 가능한 AI'가 인간과 인공지능, 인간과 기계의 자연스러운 협력을 위한 '신뢰 구축'과 ‘상호 학습’에 핵심적 역할을 할 것입니다.
이미 수년 전부터 학계, 산업계의 여러 이해관계자들이 XAI의 중요성을 설파해 왔고, 비록 여전히 데이터 사이언티스트나 AI 연구자들의 관점에 치우쳐 있는 것으로 보이기는 하지만 IBM, 구글, 마이크로소프트 등 대형 IT 사업자들, Element AI, Fiddler Labs, Truera, Kindi 등 스타트업들도 XAI 관련 공동 연구를 클라이언트와 진행하거나 서비스, 솔루션을 제공하고 있습니다. (Element AI는 2020년 12월 ServiceNow에 인수되어, 이후 XAI 관련 서비스를 별도로 제공하지는 않을 것으로 생각합니다)
XAI에 대한 많은 글들과 저서들이 있지만, 이 글을 통해서 XAI가 근본적으로 왜 필요한 것인지, 현재 어떤 이유들로 XAI를 활용하고 있는지, 그리고 실제 산업 현장에 도입할 때 어떤 관점을 가지고 적용해야 할지에 대해 개인적인 생각을 정리해 보고자 합니다.
이 글의 목차는 다음과 같습니다:
'왜'라는 질문의 복합성, 그리고 이 글의 주요 목표
XAI(Explainable AI)의 근본적 의미, 그리고 6가지 실무적인 필요성
현재 주류 XAI 논의의 - 비즈니스 관점에서의 - 한계
'보편성'을 넘어 : 기업의 전략적 도구(Strategic Tool)로서의 XAI와 그 사례
2016년 5월 7일, 미국 플로리다에서 조슈아 브라운이라는 40세의 남성이 자신의 테슬라 모델 S를 운전 중이었습니다. 이 테슬라 S는 '오토 파일럿' 모드로 주행 중이었는데, 플로리다 윌리스턴 부근에서 트럭과 충돌해 운전자 조슈아 브라운은 사망했습니다. 테슬라는 사고 소식을 미국 고속도로 안전국(NHTSA)에 알렸고, NHTSA는 곧바로 사건에 대한 조사를 시작했습니다.
당시 테슬라 모델 S는 고속도로를 자동 주행하는 중이었고, 옆면이 하얀색으로 칠해진 대형 트레일러 트럭이 그 앞에서 좌회전을 하고 있었습니다. 이런 상황에서 운전자 또는 오토 파일럿 시스템 중 어느 한쪽이든 충돌을 회피하기 위해 브레이크 시스템을 작동해야 했지만 실제로는 그렇게 되지 않았고, 시속 120km로 주행하던 모델 S의 앞쪽 창문이 트레일러 트럭의 바닥 부분과 충돌하는 과정에서 운전자는 치명상을 입었습니다. NHTSA는 예비 조사에서 "사고 당시 하늘이 매우 맑은 상태였는데, 이 때문에 하얗게 칠해진 트레일러 트럭의 옆면과 배경 - 하늘 - 을 구분하기 어려웠고, 모델 S와 운전자가 트레일러를 인식하지 못하고 따라서 브레이크 시스템을 작동시키지 않은 것으로 보인다"라고 설명했습니다.
이 사고는 테슬라의 오토 파일럿 모드 작동 상태에서 발생한 첫 사망사고였고, 수많은 언론과 일반 대중의 관심을 불러일으켰습니다. 이런 사건이 '왜' 일어났을까 궁금해하는 것은 어쩌면 너무나도 당연한 반응이고, 모두가 이런 유사한 사고가 미래에 발생하지 않도록 하려면 어떻게 해야 할지, 만약 발생한다면 누가 어떻게 책임을 져야 할 것인지, 그리고 무엇보다 앞으로 이런 기술들이 어떻게 개선되어야 할지에 대해서 관심을 가지게 됩니다.
실상, '왜'라는 질문은 아주 복잡하고 답하기 어려운 질문입니다. 또는 그 안에 수많은 다른 갈래의 질문들을 내포하고 있다고 보는 것이 맞을지도 모릅니다. HCI (Human Computer Interaction) 디자이너의 관점에서는 '시스템이 반복적으로 경고를 하는 상황에서도 왜 운전자는 전방 도로를 주시하지 않아도 된다고 생각할 정도로 오토 파일럿 시스템을 믿게 되었을까?'가 핵심 질문이 될 것입니다. 아마도 이 디자이너는 차량 소프트웨어의 경고 시스템을 재설계하거나 사용자가 전방을 주시하도록 만드는 메커니즘을 새로 만들지도 모릅니다(실제로, 테슬라는 이 사고 이후 오토 파일럿 운영 시스템이 더 엄격한 기준을 가지고 작동하도록 수정했습니다). 교통 시스템 엔지니어라면 각종 도로 표지판의 시인성 (Visibility) 관점에서 개선할 부분이 있는지 관심을 가지겠죠. 트럭의 설계자 또는 교통 규제 당국자라면, 중앙 분리대나 가드레일 등을 다르게 설치했다면 사고 차량이 트레일러 트럭 밑으로 깔려 들어가지 않도록 해서 결과적으로 운전자가 사망하지 않도록 할 수 있지 않았을까 하는 질문을 던질 것입니다.
인공지능 시스템 연구자라면, 분명 '사람의 눈에는 보이는 트레일러 트럭을 오토 파일럿 시스템은 왜 인식하지 못했을까'라는 질문이 핵심일 것입니다. 이 사고 이후 테슬라는 "오토 파일럿 시스템뿐 아니라 운전자 스스로도 당시 매우 밝았던 하늘과 트레일러 트럭의 하얀색 옆면을 구분하지 못했고, 이 때문에 브레이크 시스템을 작동하지 않았다"라고 했는데, 나중에 "왜 차량에 탑재된 레이다조차 트럭을 탐지하지 못했느냐"는 질문에 테슬라의 CEO인 엘론 머스크는 "잘못된 브레이크 작동을 방지하기 위해서, 불필요한 도로의 물체나 표시는 무시하도록 레이다가 설정되어 있다"라고 답했습니다. 우리는 여전히 테슬라가 어떤 기술을 이용해서 이런 시스템을 설계하는지, 또는 그 설명이 정말 정확한 것인지 알지 못합니다. 위에서 살펴본 모든 질문들이 인공지능의 설명 가능성 (AI Explainability)이라는 주제가 다루어야 할 질문들입니다.
이런 다양한 각도의 설명을 우리가 받아들인다면, '밝은 하늘에서도 하얀색 트럭을 감지하도록, 더 많은 데이터로 훈련을 시키든, 아니면 모델 아키텍처 자체를 변경하든, 결국 컴퓨터 비전 모델을 어떻게 개선해야 할 것인가'가 그다음 질문이 될 것입니다. 어쩌면 'False Positive' (주의를 기울여야 할 물체가 없는데도 경고를 보내 브레이크 시스템을 작동하게 하는) 신호를 발생시키지 않고도 이 사고와 같은 사례를 방지할 수 있도록 레이다 시스템을 개선하는 것이 필요할 수도 있죠.
이 모든 관점의 '왜'라는 질문 하나하나가 다 중요하지만, 마지막에 살펴본, AI 모델 그 자체에 집중하는 질문과 설명 가능성이 바로 이 글에서 살펴볼 AI Explainability의 핵심 영역입니다. AI 모델이 어떤 데이터나 상황이 주어졌을 때 특정한 결과를 왜 만들어내는지, 그런 결과를 만들어내는 과정과 이유가 무엇인지, 훈련 데이터의 어떤 특성이 그런 결과를 만들어내는지 등 말입니다.
위 단락에서 보실 수 있듯이, 인공지능의 ‘설명력 (AI Explainability)’은 많은 경우 ‘(예상되는) 인공지능의 비정상적 행동이 어떤 이유로 일어났는가’를 확인하는 맥락에서 언급되고, 물론 이것은 매우 중요하고 합리적인 XAI의 존재 이유입니다. 다만, 그보다 더 근본적인 XAI의 의미는 ‘인공지능 시스템’이 사물을, 그리고 현상을 어떻게 인식 - 현재 인공지능 모델은 ‘System 1’ 레벨로서 인과관계를 이해하고 논리를 습득하는 단계에 이르지 못했고, 또 개인적으로 인공지능 시스템이 일종의 ‘행위의 주체’ 또는 ‘사람이 생각하는 방식과 유사한 무엇’으로 받아들여지는 것을 지양해야 한다고 생각하기 때문에, ‘이해’ 대신 ‘인식’이라는 표현을 사용하였습니다 - 하는지 우리 인간이 확인하고 학습하며, 결국 세상을 이해하는 스스로의 한계를 보완하고 새로운 눈을 가지게 해 주는 것이라고 생각합니다.
저의 다른 글 (‘알파고 대 이세돌 대국의 기억’)에서 썼다시피, 2016년 3월 알파고와의 대국 전후를 기록한 다큐멘터리 ‘AlphaGo’에서 이세돌 9단의 인터뷰를 통해 확인할 수 있듯이, 당시 전세계에서 가장 바둑을 잘 두는 사람이었던 이세돌 9단이 이 대국을 통해서 인간이 이해하고 있던 바둑의 창의성과는 다른 무언가를 깨닫고 새로운 시각을 얻었다면, 우리들도 우리가 일상생활과 업무에서 접하는 인공지능 시스템으로부터 무언가 새롭게 학습할 것이 분명히 있으리라 생각하는 것이죠.
인간이 오랫동안 생존과 성장의 과정을 통해 쌓아 온 지식과 경험이, 인공지능과 비로소 지능적으로 협업하면서 새로운 시각으로 한층 확대될 수 있도록 하기 위한 핵심적인 도구가 바로 XAI, 설명 가능 인공지능이라 할 것입니다.
위의 자율주행차량 사고 사례에서 보듯이 '설명력(AI Explainability)'은 모델의 이상 또는 실패를 조사하는데 사용되지만, 이 외에 다양한 목적으로 Explainability 기술을 사용할 수 있습니다. 소위 '블랙박스'로 일컬어지는 인공지능 모델의 작동 방식을 이해하는 것이 중요한 - 또는 필요한 - 이유를 6가지 정도로 정리할 수 있을 것 같습니다.
1. 일반화 (Generalization)
인공지능 모델의 훈련 과정에서 가장 기본적인 베스트 프랙티스 (Best Practice) 중 하나로, 훈련 데이터 (Training Data)를 서로 다른 세트들로 구분해 놓는 것이 있습니다. 일반적으로, '테스트 데이터셋(Test Dataset)'으로 모델을 최종 검사하기 전에 '검증 데이터셋(Validation Dataset)'을 가지고 평가하는 단계를 거치는데, '검증 데이터셋' 기준으로는 동일한 수준의 성능을 보이지만 '테스트 데이터셋'을 가지고는 상당한 차이를 보이는 인공지능 모델들을 쉽게 만들 수 있다는 것은 이미 널리 알려져 있습니다. 즉, '검증 단계'의 모델 성능이라는 것이 '실제의 작동 환경'에서 인공지능 모델이 어떤 성능을 보일지에 대한 유효한 지표로 기능하지 못한다는 것입니다.
모델이 훈련 데이터를 가지고는 잘 작동하는데 실제 환경 데이터에서 그렇지 못한 경우, 이를 '모델이 일반화되지 않았다'라고 이야기합니다. 모델이 작동하는 과정에서 데이터의 어떤 부분에 집중하는지를 설명할 수 있다면, 모델 개발자는 검증 데이터셋에 대해서 동일한 성능을 보이는 여러 모델들 중에서 더 '일반화'의 가능성이 높은 모델을 선택할 수 있을 것입니다.
잘 알려진 예를 하나 들어보죠. '허스키'와 '늑대'의 사진 중 '늑대' 사진을 구별해낼 수 있도록 훈련된 컴퓨터 비전 모델이 있다고 생각해 봅시다. 이 모델이 개발 과정에서는 늑대의 사진을 잘 구별해 내는 높은 성능을 보였는데, 실제 환경에 모델이 배포 (Deployment)되어서 사용되는 과정에서 자꾸만 사람의 눈에는 분명 늑대가 아닌 것을 늑대라고 판단합니다. Explainability 기술을 사용해서, 작동 중인 인공지능 모델이 이미지의 어떤 부분에 집중하는지 - 어떤 영역을 관찰하고 '늑대인지 여부'를 판단하는지 - 확인해 본 결과, 모델이 '사진에 눈이 있는 경우'와 '늑대인지 여부'를 강하게 연관 짓고 있다는 점을 알게 됩니다. 즉, 훈련 시에 사용한 '늑대' 사진에 우연치 않게도 눈이 있는 배경이 있는 사진이 많았던 것이죠. 인공지능 모델의 훈련 과정에서 이런 요소를 파악할 수 있었다면, 개발자가 '훈련 데이터셋'이 '늑대'와 '눈'이 동시에 있는 이미지로만 구성되어 있다는 점을 깨닫고 모델이 다른 조건에 대해서 '일반화'되기가 어려울 것이라는 점을 예측할 수 있었을 것입니다.
어떤 경우에는, 우리의 직관(Intuition)에 배치되는 설명을 마주하게 되는데, 이것이 모델의 이슈가 아니라 실제 데이터에 정말로 그런 인과관계의 요소가 내포되어 있을 수도 있습니다. 이런 경우에도, 인공지능 시스템의 사용자가 직접 데이터나 현상에 대한 조사와 연구를 시행하고 이를 통해서 우리의 직관과는 배치되는 그 현상이 실제 유의미한 것인지, 아니면 기각해야 할 다른 요소가 있는지를 판단하기 위해서 Explainability 기술을 적용해 보아야 합니다.
인공지능 모델이 실제 사용 환경에서 잘 일반화될 수 있는지에 대해서 초기에 판단하는 것은, 이후에 말씀드릴 모델의 '디버깅(debugging)'을 위한 도구로서의 Explainability와도 연관됩니다.
2. 규제 준수, 책임 규명 및 공정성 확보 (Regulation, Accountability, Fairness)
금융산업과 같이 강한 규제 환경 안에 있는 산업의 경우, 인공지능 모델의 예측 결과에 대한 '설명'을 제공하는 것이 의무인 경우가 있습니다. 예를 들어, 미국에서는 Equal Credit Opportunity Act(ECOA; 신용기회평등법)에 근거하여 "(여신을 신청하는) 고객은 해당 신청이 거절되는 경우 그 사유에 대한 설명을 여신 사업자에게 요구할 권리"를 보장받게 됩니다. 따라서, 이런 사업 영역에 AI 서비스를 도입하려면 '설명 가능한' 인공지능 모델을 사용해야 할 것입니다.
인공지능 산업이 여전히 초기 단계이고 급격하게 변화하고 있는 만큼, 이를 둘러싼 규제 환경도 아직은 미성숙하지만 빠르게 바뀌어 나가고 있습니다. 최근 European Union(EU; 유럽 연합)도 General Data Protection Regulation(GDPR; 일반 개인정보 보호법)을 제정, EU 소속의 시민이 '여하한 자동화된 의사결정과 관련하여 그에 연관된 논리에 대한 유의미한 정보를 요구'할 수 있도록 하였습니다. 많은 경우 이는 '설명에 대한 권리'로 이해되기 때문에, EU 시민에게 영향을 미칠 수 있는 AI 기반의 의사결정이라면 그에 대해서도 Explainability가 요구될 가능성이 매우 높습니다.
2019년 8월, 애플이 골드만삭스, 마스터카드와 손잡고 내놓은 실물 신용카드인 Apple Card와 관련해서 발생한 사건이 하나의 사례가 될 수 있을 것 같습니다. Apple Card의 신청 과정에서 사용자에게 신용 한도를 부여하는 인공지능 모델에 남녀 성별과 관련된 사회적인 편견이 내재되어 있다는 지적이 제기되면서 문제가 수면에 드러났는데요. Apple Card가 출시된 지 몇 달 후인 2019년 11월 초, Ruby on Rails의 개발자인 David Hansson은 트위터를 통해서 "나와 내 아내는 같은 납세자료를 제출하고 함께 살고 있으며 오랫동안 결혼 생활을 하고 있는데, 애플의 알고리즘은 아내의 신용카드 한도가 나의 20분의 1밖에 되지 않는다고 한다"라고 글을 올렸습니다. 이후 Steve Wozniak 등 많은 사람들이 유사한 경험을 했다면서 Apple Card 가입자 신용한도 계산 알고리즘의 성차별 문제를 시정할 것을 요구했고, 뉴욕주 DF(Department of Financial Services)는 애플과 골드만삭스의 신용한도 설정 관행이 뉴욕주법을 위반했는지 조사 중입니다. (실제 이러한 이슈에 어떻게 접근해서 해결 방법을 찾을 것인지는 그리 간단한 문제는 아닙니다. 단순히 일반의 인식 기준에서 '차별적'이라고 해서 알고리즘이 해당 Feature를 고려하지 않도록 제거하는 것이 최적의 해답은 아니겠죠. 인공지능 알고리즘이 개발되고 사용된 구체적인 맥락 - 이 경우라면 민간 금융사업자가 개인 사용자의 신용한도를 산출하여 사적 계약의 조건에 활용하는 것 - 에서 소위 '차별을 금지한다'는 것의 공적 이익과 사적 자치 간의 긴장 관계를 어떤 수준에서 조절할 것인지, 또 신용한도의 산출에 관련된 알고리즘을 만드는 데 있어서 성별을 포함한 다양한 잠재적 평가요소들이 어떻게 취급되어야 하는지에 대해서도 많은 논의가 필요합니다. 이 토픽에 대해 관심 있으신 분은 서울대학교 고학수 교수님의 '인공지능과 차별' 논문 일독을 권합니다.)
아주 중요한 의사결정 과정에서 무언가가 잘못되었을 경우라면, 그 책임 소재를 가리는 방법이 또한 필요합니다. 문제가 만약 인공지능 모델의 부정확한 예측에 있었다면, 오류가 발생한 원인을 이해해야만 이 책임 소재를 가리는 것이 가능하겠죠. 이 또한 인공지능 시스템 개발의 영역을 벗어나 사회적, 또 법적 영역의 논의를 유발할 수밖에 없는, 매우 복잡한 영역인 것은 쉽게 짐작하실 수 있을 것입니다. 그럼에도 불구하고, 필수적인 (Mission-critical) 업무 환경에 배치되는 인공지능 시스템이라면 이런 '책임 소재 파악'이라는 니즈를 염두에 두고 개발되어야만 합니다. 예측이 잘못된 경우 그 이유에 대한 설명이 가능하다면, 책임 소재, 즉 원인을 규명하고 향후 같은 문제가 발생하지 않도록 개선할 수 있기 때문입니다. 특정 예측 오류에 대해서 책임 소재를 규명하려면, 어떤 입력 Feature가 주된 인자인지, 모델이 해당 Feature를 적절하게 처리하고 있는지 - 예를 들어, 성별 등과 같은 '보호 대상' Feature를 윤리적으로 다루는지 -, 또 모델이 유사 입력값에 대해서 유사 출력값을 생성하는 일관성을 보이는지 등에 대한 Explainability가 필요합니다.
인공지능 모델은 해당 모델을 훈련하는 데 사용된 데이터셋을 통해서 우리들이 가지고 있는 기존의 편견을 학습하게 됩니다. 시리나 알렉사와 같은 음성인식 인터페이스가 African-American들의 말을 잘 이해하지 못한다든가 [Re: Knight 2017], 부엌이라는 공간과 여성이라는 성별 간에 강한 연관관계를 형성하게 된 이미지 인식 시스템 [Re: Simonite 2017] 등 이런 사례는 쉽게 찾아볼 수 있습니다.
편견을 학습할 수 있는 인공지능 시스템을 맹목적으로 신뢰해서는 안 됩니다. 만약 적절히 통제하지 못한다면, 이런 인공지능 시스템은 다시 우리가 가지고 있는 편견을 확대 재생산하여, 결과적으로 사회 경제적 문제를 더욱 악화시키는데 일조하게 될 수 있습니다. 책임 소재를 규명하는 문제와 유사하게, 인공지능 모델 내에 존재할 수 있는 편견을 확인하고 찾아내는 작업에 Explainability가 주요한 역할을 담당할 수 있습니다.
3. 모델 디버깅 및 개선 (Debugging & Enhancing AI Models)
인공지능 모델은 아주 강력한 도구가 될 수 있지만, 모델을 훈련하는 과정이 험난할 뿐 아니라, 이미 언급된 바와 같이 한 번 훈련을 마쳤다 하더라도 때로는 우리가 원하는 정도로 일반화가 쉽게 되지 않는 경우도 있습니다. 모델이 블랙박스(Black Box) 상태에 머물러 있다면, 모델 개선을 위해서 오류의 원인을 찾는 과정이 어렵고 시간도 많이 걸릴 수밖에 없습니다 - 모델 아키텍처의 신경망 계층 수를 늘려야 할지, 특정 카테고리의 훈련 데이터셋을 더 확보해야 할지 등의 의사결정을 하기 위해서, 모델 설계자는 실패 사례를 살펴보고 가설을 세운 뒤 모델의 수정, 재훈련 등 수 차례의 실험을 통해서 검증하는 절차를 거치게 됩니다.
특히 최신의 인공지능 모델들이 점점 대형화되면서 모델의 훈련에 며칠 또는 그 이상의 시간이 걸리는 경우도 허다하다는 점, 그리고 인공지능 모델의 개발 자체가 '반복적인 (Iterative)' 프로세스라는 점을 감안하면, 이 디버깅 프로세스는 매우 고비용의 작업이라는 점을 쉽게 짐작할 수 있습니다. Explainability 기술을 활용해서 모델이 잘못된 의사결정을 내리는 이유에 대해 단서를 제공하고, 진짜 해결해야 할 근본적인 문제를 모델 설계자가 더 빨리 확인하도록 할 수 있습니다.
인공지능 모델의 디버깅 과정에서 흔히 적용되는, 아래와 같은 몇 가지 Explainability 기술들이 있습니다:
'모델의 출력값을 만드는데 기여하는 입력 요소를 추출해내는 방법 [Ribeiro 2016, Shrikumar 2017, Hara 2018]'을 통해서 잘못된 Feature에 지나치게 높은 중요도를 주고 있다면 해당 입력값을 제거하거나 가중치를 달리 줄 수 있습니다. 이 방법은 또 데이터에 어떤 '편견 (Bias)'이 내재되어 있는지 확인할 수 있도록 도와주기도 합니다.
'인공지능 모델의 특정한 의사 결정에 가장 큰 영향을 주는 훈련 "샘플"을 찾아내는 방법 [Koh 2017]'을 사용해서, 해당 의사결정이 만약 잘못된 것이라면 우리가 가지고 있는 데이터셋의 문제가 무엇인지 샘플 데이터를 통해서 추론하거나, 또는 올바른 의사결정이라면 앞으로 더 확보해야 할 데이터 및 데이터의 보완 방향 등에 대한 힌트를 제공합니다.
'인공지능 모델을 구성하는 각각의 요소(예를 들어, 심층 신경망의 각 계층과 뉴런)가 모델의 작동 시 나타내는 특성을 발견하고 시각화[Olah 2018]'하여 해당 요소가 입력값으로부터 유의미한 개념이나 특징을 찾아내는지를 확인할 수 있습니다. 예를 들어, DeepEyes visual analytics system은 심층 CNN (Covolutional Neural Network)의 개별 계층에 대한 상세한 분석을 통해서 항상 활성화되거나 또는 거의 활성화되지 않는 'Dead Filter'를 찾아내어 제거하도록 해 줍니다.
4. Human-in-the-loop 디자인
인공지능에 있어서 'Human-in-the-loop'라는 개념은, 일반적으로 어떤 정보에 기반해서 판단을 내리고 액션을 취해야 할 '인간 작업자'에게 알고리즘이 분석 결과, 시사점, 추천 등의 정보를 제공하고 그에 대한 피드백을 받는 구조를 일컫습니다. 이런 'Human-in-the-loop' 시스템을 효과적으로 구축하려면, 인간 작업자가 알고리즘을 이해하고 이 알고리즘이 작업자와 상호작용을 하면서 어떻게 반응할지에 대해 예상할 수 있도록 해 주는 Explainability 기술이 필요합니다.
모든 인공지능 시스템에서 'Human-in-the-loop' 개념을 도입하는 것이 중요하지만, 특히 AI 기반의 설계 도구(AI-assisted Design Tool)에서 그 중요성이 잘 설명되는 것 같습니다. 이런 도구들은 생성 모델 (Generative Model)을 기반으로 특정한 사물 (e.g., 엔진, 선박, 차량)을 설계하는 툴인데, 사용자는 실제 사물을 만드는데 필요한 물리적인 작업 없이 가상의 세계에서 사물을 여러 가지 변수를 조정하면서 만들어 볼 수 있습니다.
오른쪽 그림은 Autodesk에서 진행한, AI 기반 설계 도구 리서치 컨셉의 화면 중 하나인데, 생성 모델을 사용해서 시스템이 제공하는 잠재 공간(Latent Space)의 다양한 변수를 조정하면서 새로운 차량을 디자인할 수 있도록 해 줍니다. 그림의 오른편에 보이는 다양한 슬라이더를 움직이면서 차량 디자인에 필요한 여러 요소를 변경합니다.
이런 적용 방식은 '외형을 가진' 사물을 설계하는 것에만 국한되는 것은 아니고, 전통적인 OR(Operations Research)의 영역, 예를 들어 병원에서 간호사의 작업을 스케쥴링하는 경우에 Skillset 별 인력의 시간별 동선 배치와 같은 문제의 해결에도 적용할 수 있습니다. 이 경우라면, 스케쥴러는 간호사의 일정/동선 최적화를 위해서 다양한 제약 조건을 시스템에 입력하고, 그에 따라 작업 경로를 조정하거나 또는 시스템이 권고하는 여러 후보 경로들 중 최적값을 선택하는 작업을 수행할 것입니다.
어쩌면 혹자는, 이런 최적해(Optimal Solution)를 찾는 시스템의 경우에는, 수학적으로 정량적 기대 함수 (Desirability Function)를 정의하고, 생성 모델 기반으로 작동하는 시스템이 '최적의' 설계값을 찾아내도록 내버려 두면 된다고 생각할 수도 있습니다. 즉 설계 과정에 '사람의 개입'이 필요 없거나 또는 이 개입이 목적 함수(Objective Function)의 설계가 끝난 이후에나 필요하다는 입장이 있을 수 있습니다.
그렇지만 이런 방식은, 실제로 맞닥뜨리게 되는 대다수의 흥미로운 최적해 문제를 해결하기에는 비현실적(일 뿐 아니라 많은 경우 불가능한 또는 바람직하지 못한)인 방법이기 쉽습니다.
차량 디자인의 사례를 통해서 살펴보죠.
우선, 차량 디자인 과정에는 단순히 시스템에만 맡겨 놓기 힘든, 다양한 심미적인, 마케팅적인 고려사항과 의사결정의 지점이 있습니다. 예를 들어, 차량 디자인 용어 중 'California Rake' (California Tilt 또는 Cowboy Rake라고도 부르는데, 차량 전면부가 후면부 대비 아주 살짝 낮게 위치하도록 하는 디자인입니다)라는 것이 있는데, 이것은 심미적으로 자동차가 '더 빠르게' 달릴 것 같은 이미지를 부여함으로써 차량의 판매에 도움을 주는 디자인이라고 할 수 있습니다. '차량 라인의 기울기 (Tilt)에 대한 인식 정도'라는 이름으로 이 요소를 정량화하고 이를 목적 함수에 포함시키는 시도를 물론 할 수는 있겠지만, 이런 심미적 요소에 대한 트렌드는 시대, 세대 등에 따라 다양하게 바뀌고 또 디자인의 목표에 따라 조절되어야 할 필요도 있습니다. 이런 경우 바로 'Human-in-the-loop'의 디자인을 통해서 해당 요소 (Feature)에 가중치를 부여하고, 이 요소와 타 요소들 간의 상관관계를 사람이 모니터링하면서 최종적인 디자인 의사결정을 내리는 것이 바람직합니다.
또한, 복잡한 차량 제조 프로세스 등에서 기인하는, 정량화하기 어려운 제약 조건들도 영향을 미치게 됩니다. 시스템이 최적해로 만들어낸 차량 디자인대로 차량 생산 라인의 작업자가 조립을 할 때, 특정 부품을 굉장히 '부자연스러운' 각도로 몸을 구부려서 힘들게 용접을 해야 한다면, 현장 작업자의 피드백을 받아 차량 디자인을 변경해야 할 것입니다.
결국, AI 기반 설계 도구를 사용하는 데 있어서 아무런 개입이나 통제 없이 그저 알고리즘의 계산 결과를 맹목적으로 수용해서는 안 되고, 사람, 즉 설계 담당자가 전체적인 설계 과정을 진행하는데 도움을 주는 도구로서 이 알고리즘을 쉽게 활용할 수 있어야 합니다. 그렇다면 이 설계 담당자는 어떻게 알고리즘과 상호 작용 (Interaction)을 하고 알고리즘의 출력값을 조정할까요? 앞서 살펴본 차량 설계의 예에서, 무슨 기능인지도 표시되어 있지 않은 슬라이더들을 배치해 놓고 이것들을 이리저리 바꿔가면서 설계 담당자가 좋은 설계 결과물을 만들 수 있기를 바란다면 지나친 욕심이겠죠. 직관적으로 각 슬라이더가 어떤 기능을 하는 것인지 이해하고, 전체적으로 설계 도구가 어떤 로직으로 작동하여 설계 결과물을 변경시키는지에 대한 심적 모형 (Mental Model)을 심화시켜 나갈 수 있도록 도와주어서, 결과적으로 설계 담당자가 스스로 어떤 순서로 어떤 작업을 했을 때 최적의 결과물이 나올지 더 잘 예상할 수 있도록 해 주어야 합니다.
다행히, 인터랙션 디자인 (Interaction Design)과 HCI (Human-Computer Interaction)은 연구가 많이 되어 있는 성숙한 분야이기 때문에, 인공지능 시스템의 맥락 안에서도 적절한 가이드라인을 찾거나 만들 수 있습니다. University of California, San Diego의 The Design Lab 디렉터인 Don Norman은 그의 명저 "The Design of Everyday Things"에서 디자인의 일곱 가지 핵심 원칙을 정리했는데, 아주 간단하게 살펴보면 아래와 같습니다:
Discoverability (가시성)
현재 시점과 위치에서 할 수 있는 행동, 그리고 대상의 현재 상태를 쉽게 파악할 수 있어야 합니다.
Feedback (피드백)
특정한 액션의 결과로 나타나는 새로운 상태의 정보가 충분히, 맥락에 맞게 제공되어야 합니다.
Conceptual Model (개념 모형)
시스템의 구조와 기능에 대한 총체적 이해를 직관적으로 쉽게 할 수 있도록 해야 합니다.
Affordances (행동 유도성)
사용자 경험 등에 기반하여 서비스/제품이 기대하는 사용자 행위를 자연스럽게 이끌어내야 합니다.
Signifiers (기표)
행동 유도성을 강화하고 사용자가 자연스럽게 지각하도록 하는 디자인 요소를 배치해야 합니다.
Mapping (매핑)
특별한 설명, 도움 없이도 사용자가 서로 다른 두 요소 간의 관계를 이해할 수 있어야 합니다.
Constraints (제약 조건)
불필요한 행위를 최소화할 수 있도록 적절한 행동 방침을 제시해야 합니다.
7가지 요소 모두가 Explainability와 밀접하게 연결되어 있습니다. '설명을 잘한다'는 것의 중요한 요소 - 어쩌면 가장 중요한 요소 - 가 바로 사용자가 시스템의 '개념 모델'을 잘 이해할 수 있도록 도와주는 것입니다. '매핑'은 Interpretable Representation (참고: https://www.youtube.com/watch?v=N8ClViZqJTQ) 또는 Disentangled Representation (참고: https://towardsdatascience.com/this-google-experiment-destroyed-some-of-the-assumptions-of-representation-learning-f430334602a9)과 직접적 관련이 있고, 또 설명이라는 것 자체가 여러 가지 '기표'를 활용해서 '피드백'을 주고받는 과정이라고 할 수 있을 것입니다.
5. Adversarial Attack에 대한 방어 (Protection against Adversarial Attacks)
인공지능의 시스템의 맥락에서, Adversarial Attack이란 모델의 입력값을 사람이 인지할 수 없는 방법으로 조작함으로써 모델의 예측 결과를 무효화하거나 틀리도록 만드는 작업을 뜻합니다.
위 그림의 Adversarial Attack의 방법을 보여주는 하나의 예시인데, 여러 종의 개 사진을 CNN 신경망이 상당히 높은 확도로 잘 판정하다가, 입력 사진에 약간의 노이즈를 추가하고 나서는 물고기로 오인하는 것을 보여줍니다. 노이즈를 추가하기 전후의 사진은 사람의 눈으로는 그 차이를 확인할 수 없을 정도인데 말이죠.
반대로, Adversarial Defense는 이런 공격이나 조작으로부터 모델을 보호하고 튼튼하게 만드는 것이 그 목적인 작업입니다. 실제 사용 환경에 인공지능 모델을 배포하기 위해서는 이런 튼튼한(Robust) 모델이 필요하므로, Adversarial Machine Learning은 지난 수년간 아주 적극적인 연구가 이루어지는 분야 중 하나였습니다.
'설명 가능한 인공지능'과 Adversarial Machine Learning은 상당히 깊게 연관되어 있는 분야입니다. 공격을 위한 훈련 샘플을 만들거나 (관련 논문: Understanding Black-box Predictions via Influence Functions) 반대로 방어를 위해 이런 데이터를 찾아내는 (관련 논문: Attacks Meet Interpretability: Attribute-steered Detection of Adversarial Samples) 데도 Explainability 기술을 활용할 수 있습니다. 거꾸로 모델을 더 튼튼하게 만드는데 이용되는 몇 가지 방법들이 결과적으로 모델을 '해석하기 쉽게' 만든다 (관련 논문: Improving the Adversarial Robustness and Interpretability of Deep Neural Networks by Regularizing Their Input Gradients)는 것도 잘 알려져 있습니다. 혹자는 심지어 인공지능 모델이 작은 노이즈만 들어와도 쉽게 잘못된 예측을 하는 근본적인 이유가 'Non-robust Feature', 즉 입력 데이터의 분포 정보로부터 생겨난, 매우 예측력이 높지만 불안정하고 사람이 이해할 수 없는 Feature들 때문이라고 주장하기도 합니다. (관련 논문: Adversarial Examples Are Not Bugs, They Are Features). 즉, 튼튼한 모델이 되려면, 단순한 기계적 정규 표현 (Regular Representation)보다는 사람의 이해와 인식에 맞닿아 있는 튼튼한 Feature Representation이 필요하다는 것입니다.
6. 새로운 지식에 대한 가설과 발견 (New Knowledge Discovery based on Hypothesis)
인공지능 모델의 예측 결과에 대해 설명하는 작업은, 보통 Domain Knowledge - 산업, 업무, 기술 등 특정 영역에 대한 전문적 지식 정도로 생각하면 되겠습니다 - 나 상식을 기초로 해서 선험적으로 알려진 경향이나 패턴과의 비교를 통해서 모델의 기저에 깔려있는 "사고" 프로세스를 이해하는 작업으로 이해되고는 합니다. 그런데, 생물학, 물리학, 약학 등 선험적인 지식이라는 것이 없기 때문에 때로는 실험적(Empirical)인 접근이 중시되는 과학의 영역에서는 이런 '설명'이라는 시도 자체가 새로운 가설을 만들어내는데 중요한 역할을 하기도 합니다. 제약 산업이라면, 연구소에서의 기초적 실험이나 이후의 임상 실험 등을 통해서 새로운 가설을 평가하고, 만약 이 가설이 검증된다면 새로운 과학적인 발견으로 정리되는 것이죠 [Strum 2016, Schütt 2017]. 그래서 이런 과학의 영역에서는 인공지능을 적용하는 데 있어서 Explainability가 더욱 중요한 핵심적인 요구 사항이 됩니다.
반면에, 강화 학습(Reinforcement Learning)의 영역에서는, 어떤 모델이 예측해내는 정책(Policy: 강화 학습에서 에이전트가 행동을 선택하는 데 사용하는 규칙을 Policy라고 합니다)에 대한 설명 자체가 단순히 잠재적인 가설을 넘어서서 실제의 '이론(Theory)'에 가까운 무언가로 간주됩니다. 강화 학습의 경우에는 에이전트가 시뮬레이션 환경과 상호작용을 해 가면서 이미 암묵적으로 가설에 대한 실험적인 평가를 한 것으로 생각할 수 있기 때문입니다.
현재 인공지능 커뮤니티에서 논의되는, 설명 가능한 인공지능이 필요한 실무적인 이유들은 앞서 말씀드린 6가지 범주 내에 대부분 들어간다고 볼 수 있을 것 같습니다. 그리고 이런 여러 가지 '필요성'에 대한 업계의 해결책은, 아무래도 인공지능 시스템의 '보편성' - 인공지능 시스템이 널리 활용되기 위한 도구로서 - 을 확보하는 데 초점을 맞추고 있습니다.
그런데, '보편성의 확보'가 설명 가능한 AI 도입의 최종적 목표일까요? '보편성'은 '신뢰'를 바탕으로 AI와 인간이 상호 협업할 수 있도록 해 주는, 어찌 보면 인공지능 시스템이 사회, 기업, 그리고 사람들에게 받아들여지기 위한 최소한의 조건이자 하부 구조라고 할 수 있습니다. 여전히 인공지능이 기업용 기술의 맥락에서는 '가능성'을 보여주는 단계에 있기 때문에 '보편성'을 확보하기 위한 도구로서의 XAI도 분명 큰 의미가 있지만, 보편성을 넘어 XAI를 어떻게 포지셔닝하고 활용해야 할 것인지에 대한 시사점을 얻기 위해서, 자동차 산업의 초기 전개 과정을 한 번 살펴보고자 합니다.
모두가 자동차를 탈 수 있는 대중화의 길에 들어서는데 '모델 T'로 대변되는 포드의 일관 생산공정이 매우 큰 역할을 했다는 것은 아마 누구도 부인하지 않을 것입니다. 모델 T 생산이 시작된 시기에는 포드의 생산방식도 작업자의 손에 의존하던 이전과 크게 다르지 않았습니다. 그러나 1910년 하이랜드 파크 공장의 가동과 함께 공정이 체계화되고, 1913년에는 컨베이어 벨트를 이용한 일관 생산공정이 그 모습을 드러냅니다. 생산의 효율과 속도가 점점 높아지고, 부품 대량 구매를 통해서 차량 가격은 점점 더 낮아지게 되어, 1910년 대당 900달러였던 차량 가격이 1925년에는 260달러까지 낮아집니다. '가격'을 매개로 모델 T는 역사상 최초 1,500만 대의 생산 기록을 남기면서 자동차 대중화 시대를 열었습니다.
그런데, 이렇게 '보편적' 접근이 가능해진 이후, 획일화된 자동차에 소비자가 흥미를 잃으면서 자동차 판매 증가율은 뚝 떨어집니다. 설상가상으로, 포드와 비슷하게 일관 생산공정을 도입하는 사업자가 늘어나면서 경쟁은 심화되고, 얼마 지나지 않아 포드는 GM 쉐보레에게 시장 점유율 1위의 자리를 내주게 됩니다.
여기서, 1923년부터 GM을 이끌게 된 알프레드 슬론이 오늘날 '슬론주의 (Sloanism)'이라고 부르는 새로운 경영 철학으로 자동차 산업의 성장을 이끌어냅니다. 알프레드 슬론은 피터 드러커와 함께 일하면서 GM에 현대적인 분권화된 기업 구조를 설계하고 도입했을 뿐 아니라 '모든 고객의 사정과 목적에 맞는 차 (a car for every purse and purpose)'라는 경영 방침을 통해 시장 세분화와 차별화라는 오늘날의 마케팅 전략의 주춧돌을 놓은 전설적인 경영자이기도 합니다.
사장에 취임한 이후 슬론은 가격대, 색상, 디자인 등 여러 가지 관점의 차별화를 추구하면서 GM을 성장시켰는데, 특히 GM의 디자인실 책임자였던 할리 얼과 함께 '디자인 중심의 차량 설계'를 추진했습니다. 알프레드 슬론과 할리 얼의 파트너십은 종종 애플의 스티브 잡스와 조나단 아이브의 관계에 비교되고는 하는데, '미용실'이라는 호칭으로 불리며 폄하되어온 차량 미술 및 색채 부서의 위상을 강화하면서 디자인 부문이 엔지니어링과 세일즈 부문을 리드하는 '카 스타일링의 시대'를 연 주역들이라고도 할 수 있겠습니다.
사실 모델 T의 등장과 함께 차량에 대한 대중의 '보편적 접근'이 가능하게 된 이후, 운전의 편의성을 높여주는 몇 가지 기술이 등장한 것을 빼면, 2차 세계대전 이전까지 대량 생산되는 차량의 기본 구조와 기술은 크게 달라지지 않았습니다. 알프레드 슬론은 자동차 회사의 근본이 '자동차를 만드는 것'이 아니라 '수익을 내는 것'에 있다는 철학을 가지고, '경쟁자의 가장 뛰어난 기술과 같은 수준의 기술을 어떻게 디자인 - 이 시대 GM이 무엇보다 몰두했던 차별적 요소 - 을 중심으로 풀어낼 것인지'를 고민했습니다. 그런 슬론의 철학에서 탄생한 것이 '의도적 진부화 (Planned Obsolescence)' - 소비자가 새 제품을 사도록 유도하기 위해, 기능적으로 문제가 없는 제품을 낡아 보이게 만드는 새 제품을 내놓는 제품 정책 - 전략이고, 이것이 오늘날 우리가 너무나 당연하게 받아들이는 '페이스리프트'의 시작점입니다.
언뜻 '설명 가능한 인공지능의 역할'과 무관한 듯 보이는 자동차 산업의 성장 히스토리를 이렇게 말씀드리는 이유는, 신기술이 시장에 소개되고 나서 일정 수준의 '보편성'을 확보하고 난 이후에는 반드시 '차별화'의 문제, 즉 특정 산업과 기업의 맥락에서 기술을 어떻게 차별화의 요소로 사용할 것인지의 문제를 다루어야 하기 때문입니다. 그런 관점에서, 위에서 나열한 XAI가 필요한 여러 가지 일반적인 이유를 넘어서, '어떻게 XAI를 활용해서 기업의 역량을 강화하고 경쟁사와 차별화되는 방향으로 성과를 제고할 것인가'라는 전략적 관점의 접근과 고민이 필요합니다.
'기업의 성과 제고를 위한 전략적인 도구'로서 XAI에 접근하여 그 도입 이유를 규정하는 것은, 다음의 두 가지 관점에서 의미가 있습니다.
XAI 연구와 도입에 필요한 투자의 정당화 (Justification)
기본적으로 '작동하는' 인공지능 모델에 추가적으로 설명 가능한 AI의 계층을 추가하거나 모델 자체를 설명 가능하도록 변경하는 과정에는 기업 관점에서 상당한 검토와 투자가 필요하고 여러 가지 어려운 의사결정을 해야 합니다.
대표적으로, 기존에 충분한 성능을 내던 인공지능 모델을 설명 가능하도록 업데이트하는 과정에서 성능 저하 등의 문제를 감수해야 하는 경우가 있을 가능성이 있습니다. 특정 문제의 해결을 위해서 머신러닝을 활용하여 해결을 하고자 하는데, 이 문제의 해결책이 실제 업무 환경에서 사용되려면 많은 경우 최종 사용자 또는 외부 이해관계자가 머신러닝 모델의 작동 방식과 그 경계를 어느 정도 이해해야 하는 경우가 많기 때문입니다.
(참고 : 현재 우리가 사용하는 대다수의 머신러닝 모델의 경우 모델의 Performance와 Interpretability 간에 Trade-off가 있다는 것이 연구 커뮤니티의 중론이기는 하지만, 이 Trade-off가 '머신러닝'이라는 기술 자체에 내재되어 있는 한계인지는 불분명합니다. 2019년 9월 발표된 MIT의 논문에서는 머신러닝 모델의 Robustness와 Accuracy 간 내재적인 Trade-off가 있다는 의견을 내놓고 있는 반면, 최신의 논문들 중에는 이 Trade-off가 머신러닝 기술의 전반에 내재해 있다고 보기는 어렵다는 의견도 있습니다.)
따라서 XAI의 도입이 오로지 외부의 압력 요소 (e.g., 규제기관의 정책에 대응), 대 고객 서비스 등을 위한 '비용의 관점'에서만 인식되는 것이 아니라 '전략적인 투자', 나아가 '기업의 성과에 기여할 수 있는 과제'로 포지셔닝하는 것은 XAI에 대한 투자를 정당화하고 활발하게 도입하도록 하는데 매우 큰 의미가 있습니다.
해당 기업의 도메인, 사업영역과 목표에 최적화된 머신러닝 시스템의 구축
단지, 현재 개발된 인공지능 모델이 왜 특정한 값을 출력하는지 ‘확인’하고 ‘이해’하는 것만으로는 실제 비즈니스에 미칠 수 있는 임팩트를 극대화하는 인공지능 시스템을 구축하는데 한계가 있습니다. 많은 경우 단일 조직이 아니라 내, 외부의 이해관계자와 협업이 요구되는 Use Case에서 XAI를 단편적으로 (영어로 한다면 Cookie-cutter 방식으로) 적용하려고 할 때 맞닥뜨리게 되는 상황입니다.
XAI를 비즈니스의 맥락과 목표하는 성과를 고려하여 적용한다면, 신뢰 (Trust)와 사업 성과 (Performance)를 동시에 확보하는, 전략적인 도구로 활용할 수 있습니다.
Element AI의 사례를 한 번 간단하게 살펴보겠습니다.
일본의 거대 자동차 제조사인 토요타는 수많은 1차 공급사들을 거느리고 있죠. 그들 중에 Aisin Seiki라는 대형 공급사가 있는데, 이 회사는 파워트레인, 섀시, 도어 등 다양한 차량용 부품을 생산하는 회사입니다.
Aisin Seiki에서는 2017년부터 데이터 사이언티스트, 머신러닝 엔지니어와 연구자 등으로 구성된 팀을 꾸려, 자사 제품의 용접 부위가 '정상'인지 '불량'인지를 판별하는 비전 기반 (U-Net을 활용) 딥러닝 시스템을 구축해 왔습니다. 연구실에서는 정확도가 90%를 훌쩍 넘는 등 괜찮은 성능을 보였지만, 고객사인 토요타가 이 시스템의 불량 검사 결과를 신뢰하고 수용하기에는 FN (False Negative; 즉 정상 제품이라고 판정했으나 토요타에서 작업 중 불량으로 판정되는 경우)를 극적으로 줄이는 동시에 지속적으로 제품 불량률 개선을 하기 위한 체계를 갖추어야 하는 과제가 있었습니다. 이런 전제 조건이 만족되지 않는다면, 궁극적으로 Aisin Seiki의 고객사인 토요타가 이 시스템을 신뢰하고 Aisin Seiki로부터 구매하는 부품과 관련된 Working Capital을 최적화할 수가 없기 때문입니다.
Aisin Seiki와 Element AI와의 공동 연구 프로젝트를 통해서, 수많은 설명 가능 인공지능 관련 테크닉들과 이를 조직 내에서 운용하기 위한 절차, 프로세스들을 검토하였습니다. 그 결과, 문제 영역인 Aisin Seiki의 비전 기반 딥러닝 시스템의 Explainability 확보, 토요타 부품 관리팀과의 커뮤니케이션, 그리고 지속적인 내부 품질 개선에, 'Influence Function' (Element AI의 RelatIF 적용) 및 'Decision Uncertainty' (MC Dropout 적용) 기술의 컴비네이션이 적합하다는 결론을 내리고 Explainability Layer를 추가 도입한 경험이 있습니다. 이 프로젝트를 통해서, Aisin Seiki에 맞춤화된 제품 품질 개선 역량과 체계를 한 단계 끌어올리고, Aisin Seiki 뿐 아니라 고객사인 토요타의 사업 성과를 동시에 개선하는데 기여하는, 양사의 전략적 도구로서 XAI 기술과 운영 체계를 실험할 수 있었습니다.
모두들 아시다시피, 지난 몇 년간 수많은 기업에서 인공지능 기술을 자사의 업무 프로세스를 개선하거나 신규 제품과 서비스를 개발하는데 적용하기 위한 많은 실험을 해 왔습니다. 이 실험들은 인공지능 모델 자체의 성능이 과연 쓸만한 수준에 도달할 것이냐에 초점을 맞춰 왔다고 할 수 있을 것입니다.
앞으로 지금까지 우리가 연구해 온 인공지능 기술과 모델이 현실세계에서 운용할 수 있는 시스템으로 보편화되는 과정에서 XAI, 즉 설명 가능 인공지능 기술의 역할이 점차 확대될 것입니다. 그리고 나아가, 인공지능 기술적 역량과 해당 산업과 기업 도메인의 지식을 결합하여 XAI를 '차별적 비즈니스 성과 달성의 도구'로 인식하고 연구, 개발하는 기업은 비로소 인공지능 기술을 기반으로 경쟁사를 앞서 나가고 산업을 혁신하는 AI Game Changer로 변모할 수 있으리라 믿습니다.
결국 '기술 그 자체'는 문제 해결을 위한 하나의 도구에 불과합니다. 'XAI'라는 영역에 더 많은 분들이 관심을 가지시고, 이를 통해 인공지능, 딥러닝이라는 기술을 더 잘 이해하고 우리가 원하는 문제 해결을 위한, 그리고 사업 성과의 제고를 위한 도구로 널리 활용되기를 기대합니다.