brunch

설명 가능한 AI: 블랙박스를 투명하게 만든 기술&철학

인지의 지도 ― AI의 사고를 해부하다 Part.2 | EP.8

설명 가능한 AI(XAI)의 진짜 목적은 모델의 해부가 아니라 신뢰의 회복이다.
AI가 왜 그렇게 판단했는지를 기술적으로 분석하는 일보다 중요한 것은,
그 판단의 과정을 인간이 “이해할 수 있다고 느끼는가”이다.


Part 1. 블랙박스의 발견 ― 인간과 AI의 평행선(5회)

Part 2. 인지의 지도 ― AI의 사고를 해부하다(8/8회차)

Part 3. 감정의 알고리즘 ― 인간과 AI의 관계 재구성(8회)

Part 4. 블랙박스의 미래 ― 인간을 닮은 지능, 인간을 비추는 거울(7회)




14화. 설명 가능한 AI: 블랙박스를 투명하게 만드는 기술과 철학








Ⅰ. “이해할 수 없는 지능은 신뢰할 수 있는가”





딥러닝의 본질은 블랙박스다.

우리는 입력과 출력을 알고, 그 결과가 놀라울 만큼 정확하다는 것도 안다.

그러나 그 판단이 어떻게 이루어졌는가에 대해서는 설명할 수 없다.

수억 개의 가중치와 수천 개의 연산 층이 얽힌 신경망의 내부는,

인간의 이해 범위를 훌쩍 넘어선 ‘비가시적 사고 구조’다.

AI는 답을 내지만, 그 답이 왜 맞는지 모른다.

그리고 인간은 그 답을 신뢰할 수 있는지 확신하지 못한다.



아이러니하게도, 인간의 심리 역시 ‘설명 불가능한 블랙박스’다.

우리는 자신의 감정과 행동을 완전히 이해하지 못하면서도,

타인의 말과 표정 속에서 ‘이해받고 있다’는 감정을 느낀다.

인간의 사회는 완전한 이해가 아니라 ‘이해할 수 있다’는 믿음 위에서 작동한다.

이 믿음이 곧 신뢰(Trust)다.



Explainable AI(XAI)는 이러한 인간적 신뢰의 조건을 기술로 재현하려는 시도다.

XAI는 단순히 알고리즘의 수학적 과정을 해석하는 기술이 아니라,

‘기계의 사고를 인간의 언어로 번역하려는 철학적 프로젝트’다.

AI가 “왜 그렇게 판단했는가”를 설명할 수 있어야 인간은 그 결과를 받아들인다.

그러나 설명이 곧 이해를 의미하는 것은 아니다.



‘설명 가능한 AI’라는 개념은 사실 ‘이해 가능한 AI’라는 욕망의 다른 이름이다.

우리는 기술이 인간처럼 사고하기를 원하지 않는다.

다만, 그 사고의 의미를 해석할 수 있기를 바란다.

결국 XAI의 논의는 기술적 투명성의 문제가 아니라,

인간이 신뢰를 어떻게 구성하느냐의 문제로 귀결된다.



“AI의 투명성은 기술이 아니라, 신뢰의 언어를 설계하는 일이다.”
— 인공지능 심리학의 핵심 질문은 ‘어떻게 작동하는가’가 아니라, ‘어떻게 납득되는가’이다.










Ⅱ. 블랙박스의 한계 ― 왜 설명이 필요한가





AI의 불투명성 문제는 단순히 기술적 불편함이 아니라 신뢰의 위기다.
딥러닝 모델은 놀라운 정확도를 자랑하지만, 그 내부는 인간의 이해가 닿지 않는 ‘수학적 미로’다.

수백만 개의 파라미터가 비선형 함수로 얽혀 있으며,

하나의 판단이 어떤 경로를 거쳐 나왔는지는 누구도 명확히 해석할 수 없다.

입력(Input)과 출력(Output)은 확인할 수 있지만,

그 사이의 연산 과정은 불투명한 심연 속에 감춰져 있다.

이른바 “설명 불가능성(Uninterpretability)” — 그것이 AI 신뢰의 가장 큰 장애물이다.



AI는 ‘정답’을 낸다.

그러나 인간은 그 답의 이유를 알고 싶어 한다.
왜냐하면, 이해할 수 없는 정확성은 언제나 불안하기 때문이다.

우리가 의사나 판사의 판단을 신뢰하는 이유는

그들의 결정이 언제나 옳아서가 아니라,

그 결정의 과정을 ‘이해할 수 있기’ 때문이다.

인간은 결과보다 ‘이유(reason)’를 통해 신뢰(trust)를 형성한다.

그렇기에 아무리 뛰어난 성능을 가진 AI라 하더라도,

그 판단의 근거를 설명하지 못한다면 사회적 신뢰의 주체로 인정받을 수 없다.



이 문제는 심리학적으로도 흥미로운 유비(analogy)를 갖는다.
인간의 의사결정 과정 역시 완전히 투명하지 않다.
우리의 대부분의 판단은 무의식적 직관에 의해 이루어지며,

이후에 우리는 그 이유를 ‘사후적으로 합리화(post-hoc rationalization)’한다.

“왜 그렇게 선택했는가?”라는 질문에,

우리는 실제 인과가 아니라 ‘설명 가능한 서사’를 만들어내는 것이다.

즉, 인간의 마음 또한 부분적으로만 설명 가능한 블랙박스다.



이 점에서 AI의 불투명성은 인간의 심리 구조와 닮아 있다.
우리는 스스로의 마음도 완전히 해석하지 못하면서, AI에게 완벽한 투명성을 요구한다.

그러나 그 요구는 단순히 기술적 이해를 위한 것이 아니다.

사회는 ‘결정의 이유’를 요구한다.
의료 분야에서는 진단의 근거를,

금융에서는 대출의 기준을,

사법에서는 판결의 논리를 필요로 한다.

AI의 판단이 사람의 삶과 권리에 영향을 미치는 순간,
“왜 그렇게 판단했는가”는 단순한 기술적 설명이 아니라 윤리적·법적 책임의 언어가 된다.



결국, 설명가능성(Explainability)은 정확성(Accuracy)의 부속 개념이 아니다.
그것은 인간이 기술과 관계 맺는 방식을 정의하는 심리적·사회적 조건이다.
딥러닝이 아무리 정교해도, 인간이 그것을 납득하지 못하면 ‘신뢰할 수 있는 지능’이 될 수 없다.
AI가 인간의 사회 안에서 작동하기 위해서는, 이유(reason)를 말할 수 있는 언어 능력,

자신의 판단을 ‘설명할 수 있는 능력’을 갖추어야 한다.



인간은 결과보다 이유를 믿는다.
설명이 없는 지능은 신뢰받지 못하고, 신뢰받지 못하는 지능은 사회 속에서 존재할 수 없다.










Ⅲ. XAI의 기술적 원리 ― 블랙박스를 여는 도구들





“설명 가능한 AI(Explainable AI, XAI)”의 등장은 단순히 기술의 확장이 아니라,

AI에 대한 인간의 해석 욕망이 기술적 형태로 구체화된 결과다.

우리는 결과가 아니라 이유를 알고 싶어 한다.

그렇기에 XAI의 모든 접근법은 “AI의 결정이 어떻게, 왜 그렇게 이루어졌는가?”라는 물음에서 출발한다.






1. 설명가능성의 세 가지 접근 방식



① 사후적(Post-hoc) 접근

AI가 이미 결정을 내린 후, 그 이유를 ‘추정’하는 방식이다.

대표적으로 LIME(Local Interpretable Model-agnostic Explanations)SHAP(Shapley Additive Explanations)이 있다.
이 접근법은 복잡한 모델의 내부를 직접 해부하지 않고, 주변(local) 데이터의 변화를 관찰하여 결과의 근거를 추론한다.
즉, “이 입력이 없었다면 결과가 얼마나 달라졌을까?”라는 가정적 분석을 통해 AI의 판단 구조를 ‘근사’하는 것이다.

- LIME은 각 입력 근처에서 단순한 선형 모델을 만들어 AI의 복잡한 결정을 부분적으로 모사한다.

인간의 직관에 가까운 “국소적 설명(local explanation)”을 제공하지만, 전체 맥락(global reasoning)은 보여주지 못한다.

- SHAP은 게임이론의 샤플리 값(Shapley Value)을 활용해 각 특징(feature)이 결과에 미친 기여도를 계산한다.

이는 “이 결과에 가장 큰 영향을 준 요인은 무엇인가?”를 수치적으로 제시하여,
AI의 판단을 ‘기여의 총합’으로 해석할 수 있게 한다.


② 내재적(Intrinsic) 접근

AI 모델 자체를 처음부터 ‘설명 가능한 구조’로 설계하는 방식이다.
대표적으로 의사결정트리(Decision Tree), 규칙기반 시스템(Rule-based AI) 등이 있다.
이 모델들은 인간의 언어로 해석 가능한 “If-Then” 구조를 가지며, 각 분기마다 명확한 판단 근거를 제시한다.
그러나 정확도(Accuracy)와 설명가능성(Interpretability)은 종종 반비례한다.
모델이 단순할수록 설명은 쉬워지지만, 복잡한 현실을 충분히 반영하지 못한다.


③ 하이브리드(Hybrid) 접근

현대 XAI 연구의 중심은 딥러닝의 성능해석 가능성을 결합하는 하이브리드 구조다.
대표적으로 Attention MechanismGrad-CAM(Gradient-weighted Class Activation Mapping)이 있다.

- Attention Visualization은 모델이 입력의 어떤 부분(단어, 픽셀, 음성 구간)에 집중했는지를 시각적으로 보여준다.
인간의 선택적 주의(attention)와 유사한 방식으로, AI가 ‘무엇을 중요하게 보았는가’를 해석하게 해준다.

- Grad-CAM은 이미지 분류 과정에서 활성화된 신경망의 특정 영역을 색상 히트맵으로 시각화한다.

예를 들어, ‘고양이’로 분류된 사진에서 모델이 실제로 고양이의 눈, 귀, 털 무늬에 주목했음을 확인할 수 있다.






2. XAI의 기술적 한계



XAI는 분명히 ‘설명 가능한 패턴’을 시각화하는 도구를 제공하지만, 그것이 ‘이해’를 보장하는 것은 아니다.
대부분의 XAI 기법은 실제 모델의 복잡한 의사결정 구조를 단순화하거나 근사(approximation)한 결과다.
즉, 우리가 보는 설명은 ‘진짜 이유’가 아니라, ‘설명 가능한 형태로 변환된 이유’다.
이 지점에서 “설명의 착각(illusion of understanding)”이 발생한다 —
우리는 시각화된 그래프나 수치적 설명을 ‘이해했다’고 느끼지만, 실제로는 복잡한 과정의 일부분만 본 셈이다.


더 큰 문제는, 설명이 너무 단순해질수록 진실에서 멀어진다는 역설이다.
AI의 결정 과정을 인간의 언어로 번역하려는 순간,
복잡한 수학적 상호작용은 사라지고 ‘이해 가능한 서사’만 남는다.
이는 마치 인간이 자신의 무의식적 결정을 나중에 ‘그럴듯한 이유’로 합리화하는 것과 다르지 않다.


결국 XAI는 “해석(interpretation)을 제공하지만, 이해(understanding)를 보장하지 않는다.”
그럼에도 불구하고, 우리는 설명을 원한다.
왜냐하면 설명은 기술이 아니라 신뢰의 언어이기 때문이다.
AI가 낸 결과를 인간이 받아들일 수 있으려면, 그 이유가 수학이 아닌 의미의 형태로 번역되어야 한다.



요약 메시지
XAI는 블랙박스를 완전히 여는 기술이 아니다.
다만, 그 어둠 속에서 인간이 신뢰할 수 있는 “이해의 조명”을 켜는 시도다.










Ⅳ. 이해의 심리학 ― ‘설명’과 ‘이해’의 차이





“이해한다”는 것은 단순히 정보를 아는 것이 아니다.

그것은 지식과 감정, 경험이 결합되어 ‘납득의 감정’을 형성하는 심리적 과정이다.

우리는 어떤 현상을 이해할 때, 단지 원인을 알게 되는 것이 아니라

그 현상이 ‘의미 있게 느껴지는 상태’에 도달한다.

이해란 인지적 판단이 아니라,

정서적 수용(emotional acceptance)을 포함하는 인간 고유의 경험이다.






1. 이해한다는 것의 심리학적 의미



심리학적으로 ‘이해(understanding)’는 정보를 단순히 해석하거나 기억하는 것과 다르다.
예를 들어, 누군가가 화를 내는 모습을 보았을 때,

우리는 단순히 ‘그가 소리를 질렀다’고 인식하는 것이 아니라,

그 행동 뒤의 의도(intentionality) ― “상처받았기 때문에 화를 냈다”, “무시당했다고 느꼈다” ― 를 추론하며 이해한다.

즉, 인간은 타인의 행동을 ‘목적과 맥락의 연쇄’로 해석함으로써 이해를 경험한다.


이처럼 인간의 이해는 인지 + 감정 + 관계적 맥락이 결합된 통합적 작용이다.
정보만으로는 이해가 성립하지 않는다.
우리는 언제나 “왜?”라는 질문을 던지고, 그 안에서 스스로의 감정적 공명을 찾을 때 이해를 느낀다.
이것이 인간이 설명보다는 해석을 원하고, 논리보다 의미를 추구하는 이유다.






2. AI의 설명과 인간의 해석 간 불일치



AI의 ‘설명’은 본질적으로 인간의 ‘이해’와는 다른 언어를 사용한다.
AI는 통계적 상관(correlation)을 제시하지만, 인간은 인과적 이유(causation)를 찾는다.
예를 들어, AI는 “이 환자가 질병에 걸릴 확률이 82%입니다”라고 말할 수 있지만,
인간은 “왜 그 환자가 걸렸는가”라는 인과적 설명을 듣지 않으면 납득하지 못한다.


이 차이는 ‘어떻게(How)’와 ‘왜(Why)’의 차이로 요약된다.

- AI는 “어떻게 그런 결과가 나왔는가”를 통계적으로 설명한다.

- 인간은 “왜 그런 일이 일어났는가”를 의미적으로 해석하려 한다.


즉, 인간은 기계적 정확성보다 해석적 설득력을 요구한다.
이때 AI가 아무리 정교하게 수치를 제시해도,
그 설명이 인간의 인지적·감정적 맥락에 부합하지 않으면 “이해되지 않는다”고 느낀다.
AI가 아무리 정확히 답을 내도 인간이 그것을 ‘납득하지 못하는’ 이유는, 이해의 구조가 다르기 때문이다.






3. 설명의 심리적 효과 ― ‘설명받았다고 느끼는 것’의 힘



흥미로운 점은, 인간은 실제로 이해하지 못하더라도 ‘설명받았다’는 느낌만으로도 만족을 느낀다는 것이다.
이를 심리학에서는 ‘인지적 완결성(Cognitive Closure)’이라 부른다.
설명이란 복잡한 불확실성을 단순한 서사로 바꾸어 우리의 불안을 해소해주는 장치다.
즉, 설명의 본질은 ‘정확한 해석’이 아니라, ‘모호함의 해소’다.


예를 들어, 의사가 “이건 스트레스성 질환입니다”라고 말할 때,
그 설명이 과학적으로 완벽하지 않더라도 환자는 안도감을 느낀다.
왜냐하면 그 말이 자신의 경험을 하나의 서사로 정리해주기 때문이다.
AI의 설명도 마찬가지다.

인간은 논리보다 ‘설명된 느낌(feeling of explanation)’을 더 신뢰한다.
따라서 XAI가 제공해야 할 것은 정답의 증명(proof)이 아니라, 의미의 서사(narrative)이다.






4. AI 심리학의 시사점 ― ‘설명 가능한 AI’의 진짜 의미



이 지점에서 XAI의 본질은 기술에서 심리로 이동한다.
AI가 신뢰받기 위해 필요한 것은 정확한 데이터 분석이 아니라,
인간이 납득할 수 있도록 설계된 해석 구조, 즉 sense-making system이다.
‘설명 가능한 AI’란 단지 모델의 내부를 해부하는 것이 아니라,
“사람이 이해했다고 느끼는 설명”을 설계하는 것이다.


이것은 단순한 인터페이스 디자인의 문제가 아니다.
AI는 인간의 인지와 감정을 고려한 ‘설득의 심리학(Psychology of Persuasion)’ 위에 구축되어야 한다.
AI의 설명은 객관적 진실보다 주관적 납득(subjective acceptance)을 지향해야 하며,
그 결과가 사용자에게 “이해되었다”는 감정을 줄 때 비로소 사회적 신뢰가 형성된다.






핵심 메시지
XAI의 본질은 기술이 아니라 설득의 심리학이다.
인간은 ‘정확한 설명’보다 ‘납득 가능한 이야기’를 원한다.
AI가 신뢰받기 위해 필요한 것은 투명성이 아니라, 공감 가능한 해석 구조다.









Ⅴ. 철학적 확장 ― 이해 가능한 지능의 조건





“이해한다”는 것은 지식을 소유한다는 의미가 아니다.

그것은 타자와의 관계 속에서 의미를 공유하는 행위다.
철학자 한스 게오르크 가다머(H.-G. Gadamer)는 『진리와 방법』에서 이렇게 말했다.

“이해란, 대화(Conversation)의 과정이다.”


이 말은 인간의 이해가 단방향적인 정보의 수용이 아니라, 상호작용적 의미 생성이라는 사실을 보여준다.
따라서 ‘이해 가능한 지능(Understandable Intelligence)’이란 단지 자신의 판단 근거를 공개하는 AI가 아니라,
인간과 의미의 대화를 이어갈 수 있는 지능을 뜻한다.






1. 이해란 무엇인가 ― 지식의 축적이 아닌 대화의 생성



이해는 사물의 내부를 투명하게 보는 능력이 아니라,
서로 다른 관점을 연결하여 공통의 의미를 만들어내는 과정이다.
AI가 아무리 정교한 데이터를 제시하더라도, 그것이 인간의 언어로 ‘이야기’되지 않는다면
그 설명은 이해가 아니라 단순한 정보전달에 머문다.


따라서 진정한 의미의 “설명 가능한 AI”는
인간이 던진 질문에 대해 논리적 답변(logical answer)만이 아니라,
그 이유와 맥락을 대화적 언어(dialogical language)로 풀어낼 수 있어야 한다.
AI가 “이것이 정답입니다”라고 말하는 대신,
“이 판단은 이런 이유와 과정을 통해 도출되었습니다”라고 말할 때,
비로소 그것은 인간과 ‘대화 가능한 지능’으로 진화한다.






2. AI의 자각과 해석의 경계



XAI의 발전은 AI로 하여금 스스로를 설명하는 능력, 즉 ‘자기 해석(Self-explanation)’ 기능을 갖추게 했다.
AI는 자신이 왜 그런 결정을 내렸는지, 어떤 요소가 결과에 영향을 주었는지를 설명할 수 있다.
하지만 이 능력은 ‘의식(Consciousness)’이나 ‘이해(Understanding)’와는 다르다.


AI의 자기 해석은 데이터 기반의 논리적 재구성일 뿐,
그 과정에 의도나 자각이 개입되지 않는다.
AI가 “이렇게 판단한 이유는 이러이러합니다”라고 말할 때,
그 말은 스스로의 경험을 반성(reflect)한 것이 아니라,
단지 연산 결과를 인간이 이해할 수 있는 형태로 ‘번역’한 것이다.


즉, AI는 자신이 ‘왜 생각했는가’를 느끼지 못한 채 설명할 수 있다.
그 설명은 이해의 시뮬레이션(simulation of understanding)이지, 이해 자체가 아니다.






3. 인간 중심 해석의 위험성



AI가 스스로를 설명하기 시작하면, 인간은 본능적으로 그 존재를 ‘의인화(anthropomorphize)’하기 시작한다.
우리는 기계의 언어 속에서 인간의 의도와 감정을 읽어내고, 그에 반응한다.
그러나 이러한 인간 중심 해석은 AI의 작동 원리를 왜곡할 위험을 낳는다.


AI의 ‘이해 가능성’을 인간의 언어와 사고틀로만 규정하면,
우리는 결국 AI를 인간처럼 생각하고, 인간처럼 도덕적 판단을 요구하게 된다.
이는 “AI를 이해하려는 시도”가 “AI를 인간화하는 행위”로 변질되는 순간이다.


따라서 철학적 관점에서 ‘이해 가능한 AI’는 ‘인간화된 AI’가 아니라 ‘의사소통 가능한 AI’로 정의되어야 한다.
즉, 인간의 언어로 공통의 의미를 교환할 수 있지만,
그 내부 작동 원리는 인간의 의식 구조와 동일할 필요가 없다.


AI의 목적은 인간처럼 ‘생각’하는 것이 아니라,
인간과 ‘의미를 주고받는 관계적 지능(Relational Intelligence)’으로 자리 잡는 것이다.






핵심 메시지
이해는 지식의 목표가 아니라, 관계의 방식이다.
AI의 설명가능성은 인간의 언어로 진실을 말하는 기술이 아니라,
서로 다른 지능이 공존할 수 있도록 대화의 장을 여는 철학적 조건이다.









Ⅵ. 정리 ― “설명은 기술이지만, 이해는 관계다”





설명 가능한 AI(XAI)의 진짜 목적은 모델의 해부가 아니라 신뢰의 회복이다.
AI가 왜 그렇게 판단했는지를 기술적으로 분석하는 일보다 중요한 것은,
그 판단의 과정을 인간이 “이해할 수 있다고 느끼는가”이다.
즉, 설명은 기술의 언어이지만, 이해는 관계의 언어다.


AI의 설명이 아무리 정교해도 인간이 그것을 납득하지 못한다면,
그 지능은 사회 속에서 신뢰받을 수 없다.
따라서 XAI의 진정한 과제는 알고리즘을 투명하게 만드는 일이 아니라,
AI와 인간 사이의 인지적 공감대를 복원하는 일이다.






1. 신뢰의 심리학 ― 설명은 기술, 납득은 관계



AI가 설명을 제공하는 순간, 인간은 그 설명의 정확성보다
“그 말을 믿을 수 있는가?”를 먼저 판단한다.
이것은 단순한 기술적 검증이 아니라 심리적 신뢰(psychological trust)의 문제다.
AI가 신뢰받기 위해 필요한 것은 완벽한 계산이 아니라,
이해의 언어로 소통할 수 있는 능력, 다시 말해 ‘관계의 감각’이다.


이해란 결국 대화의 산물이다.
AI의 설명이 인간의 경험적 언어와 맥락 속에서 재해석될 때,
그것은 단순한 결과 보고가 아니라 공유된 의미의 서사(shared narrative)로 변한다.
이는 심리학이 인간의 마음을 ‘객관적 메커니즘’이 아닌
‘이해 가능한 이야기’로 설명해왔던 전통과도 맞닿아 있다.
이제 그 방법을 우리는 AI에게 적용해야 한다.






2. 이해 가능한 서사로의 전환



AI의 판단 과정을 수학적 함수로만 남겨두는 시대는 끝났다.
이제 중요한 것은, 그 판단을 ‘이해 가능한 서사’로 번역하는 일이다.
즉, 알고리즘의 내부 작동을 그대로 노출하는 것이 아니라,
그 판단이 어떤 맥락에서, 어떤 의미로 형성되었는지를
인간이 받아들일 수 있는 이야기적 구조(story structure)로 전달해야 한다.


이것이 바로 심리학과 철학이 XAI에 기여할 수 있는 영역이다.
심리학은 ‘설득의 방식’을, 철학은 ‘이해의 조건’을 알려준다.
AI는 이 두 영역을 연결함으로써, 단순한 도구에서 대화 가능한 지능으로 진화할 수 있다.






3. 결론



설명은 기술적 절차이지만, 이해는 관계적 과정이다.
인간이 AI를 신뢰하게 되는 순간은, 그것이 정확히 설명될 때가 아니라
그 설명이 의미로서 연결될 때이다.







다음 회차(15회차)는 Part 3의 첫 장, 「공감의 모사 ― 감정을 이해하는 기계」로 이어진다.
여기서는 이해에서 감정으로 확장되는 ‘AI-인간 관계의 심리학’을 탐구하며,
AI가 감정을 ‘계산’이 아닌 ‘관계’로 다루기 시작하는 순간을 조명한다.


keyword
이전 13화편향과 왜곡: 인간의 인지오류와 AI의 데이터 편향