brunch

통계학, 나머지 공부

[책을 읽고] 데이비드 스피겔할터, <통계학 수업> (4)

by 히말

통계가 잘못되는 경우의 수는 너무 많다. 데이터 -> 표본 -> 연구 모집단 -> 목표 모집단으로 이어지는 모든 지점에서 사달이 날 수 있다. 그중 한 가지만 짚어 보자.


목표 모집단과 성격이 상당히 다른 집단이 연구 모집단으로 지정되는 경우는 흔하다. 목표 모집단은 당연히 사람이지만, 신약의 임상 연구는 일단 동물 실험부터 시작한다. 문제는 연구의 나중 단계에서도 이 불일치가 시정되지 않는 경우가 많다는 점이다. 예컨대 성인 남자만을 대상으로 임상 시험을 끝낸 약이 여성과 어린이에게 처방되는 경우는 예외가 아니라 주류에 해당한다. (이 문제점은 마야 뒤센베리의 <의사는 왜 여자의 말을 믿지 않는가>에 아주 상세하게 소개되어 있다. 예컨대 미국 국립보건원이 집행한 유방암 연구는 남성 지원자들만을 대상으로 행해졌다.)


***


저자는 ROC 곡선을 민감도와 특이도로 설명하는데, 이것이 대단히 탁월하다. ROC 곡선은 보통 세로축에 민감도, 가로축에 위양성률을 표시한다. 그런데 가로축을 특이도로 바꾸는 대신 눈금을 1에서 0으로 가는 방향, 즉 반대방향으로 하면 위양성률 대신 특이도로 표현이 가능하다. (특이도 = 1 - 위양성률) 이렇게 표현하는 방식의 장점은, ROC 곡선이 좌상향하는 것이 좋은 이유를 쉽게 보여주기 때문이다. 민감도와 특이도가 모두 증가하는 방향이 좌상향이니 당연하다. (물론 애초에 ROC 곡선을 이렇게 이상하게 그린 사람들이 문제다. 주계열성이 좌상향 대각선으로 나오는 HR 다이어그램도 애초에 가로축을 제대로 그렸다면 훨씬 멀쩡한 모양이 나왔을 것이다.)

ROC-curve-example.png


***


다음은 인공지능 알고리즘에 관한 저자의 견해를 하나 살펴보자. 특히 신경망의 도약적인 발전 이후로, 인공지능이 내어놓는 '설명 없는 결론'에 대해 불만인 사람들이 많다. 인공지능을 블랙박스라 부르는 사람들이 바로 그들이다.


알고리즘의 작동과 결론에 대해서 이해할 수 있는 설명을 내놓는 것이 법제화되는 추세다. (233쪽)


저자는 이 때문에 구식 방법인 회귀 기반 알고리즘이 향후에 더 선호될지 모른다고 말한다. 잠깐, 이거 '적기 조례' 같은 것 아닌가? 탁월한 통계학자가 진화를 거스르는 방법을 옹호하는 걸까?


저자는 이에 대해 별 말 없이 해당 내용을 끝내고 있다. 그러나 다행히도, '설명가능한 인공지능(XAI)'이라는 분야가 지금 한창 뜨고 있다. 저자의 우려와는 달리 회귀 기반 알고리즘이 다시 각광받을 일은 없을 듯하다. 나는 유럽에서 시작된 상기 법제화 경향이 XAI의 발전에 자극제가 되었다는 생각을 해본다. 인공지능에게 설명을 요구하는 시민들의 목소리는 결국 인공지능 발전에 긍정적인 영향을 준 것이다.

keyword
매거진의 이전글논문들은 모두 개구라