출퇴근길에 공부하는 머신러닝
인공지능과 머신러닝은 우리의 생활에 많은 부분 녹아들어 있다. 그러나 이러한 모델들이 만드는 결정과 예측의 정확한 이유를 알기 어렵다. 이러한 개념을 블랙박스 문제라고 한다. 이번 편은 블랙박스 문제에 대해서 살펴보고자 한다. 왜냐하면 이유를 모른 채 모델의 결정을 그냥 받아들이기에는 우리에게 너무 민감한 사항들이 많다. 특히 사람의 생명을 다루는 의료분야, 그리고 사람의 삶을 살아가는데 꼭 필수조건인 돈을 다루는 금융분야에서 말이다.
전역 해석 가능성은 머신러닝 모델 전체가 어떻게 작동하는지에 대한 광범위한 이해를 말한다. 이는 모델이 학습하는 전반적인 패턴, 변수의 일반적인 중요도, 그리고 모델이 데이터를 어떻게 분류하거나 예측하는지에 대한 규칙을 포함한다. 전역 해석 가능성은 모델의 전박적인 신뢰도를 높이기 위한 것이다.
지역 해석 가능성은 개별 입력 데이터 포인트에 대한 모델의 예측을 설명한다. 이는 특정 사례에서 모델이 왜 특정 결정을 내렸는지, 그리고 그 결정이 어떤 특성 또는 변수에 기반을 두고 있는지에 대한 통찰을 제공한다. 이는 특히 의료진단이나 개인화된 추천 등, 개별 결정의 근거를 이해해야 하는 경우에 중요하다.
선형 회귀, 로지스틱 회귀와 같은 모델 각 특성의 영향력을 나타내는 계수를 가지고 있어, 어떤 특성이 출력에 영향이 큰지 직관적으로 이해할 수 있다. 예측 변수 간의 관계가 선형이라는 가정 하에, 이러한 모델은 해석하기 쉬운 구조를 가지고 있다.
결정 트리는 'if-then'규칙의 계층 구조로, 개별 예측의 근거를 명확히 할 수 있다. 트리의 깊이가 깊어질수록 해석하기는 어려워지지만, 여전히 각 결정 경로의 논리를 따라갈 수 있다.
LIME은 'Local Interpretable Model-agnostic Explanations'의 약자로, 복잡한 모델의 예측을 설명하기 위해 해당 데이터 포인트 주변의 국소적인 모델을 학습한다. SHAP는 'SHapley Additive exPlanations'의 약자로 게임이론에서 유래한 방법이다. 각 특성이 예측에 미친 기여도를 정량적으로 측정한다. 이를 통해 모델의 예측이 각 입력 특성에 어떻게 의존하는지에 대한 통찰을 제공한다.
다음 시간에는 "해석 가능한 머신러닝 기법들"에 이어서 조금 더 깊은 개념을 다루고자 한다. 더 깊은 내용은 선형 회귀, 로지스틱 회귀와 결정 트리의 한계를 해결한 LIME와 SHAP에 대해서 살펴보도록 하겠다.