brunch

You can make anything
by writing

C.S.Lewis

by 조성봉 UXer Aug 02. 2023

확률이란

우연에 관한 수학

확률이란 우연히 일어나는 어떤 사건에 대해서 그것이 일어나는 비율을 숫자로 나타낸 것이다. AI는 확률을 이용하여 결과를 예측하는 '모델'이다. 자연 상태의 확률에 따른 결과를 예측하기 위하여 인위적으로 만든 '생각 모델'이 AI(Artificial Intelligence)인 것이다.



주사위 3개를 굴려서 9가 나올 확률과 10이 나올 확률 중 높은 것은 무엇일까?

cuemath


놀랍게도 답은 '10'이다. 

합계 9가 되는 조합은 (1, 2, 6) 외에도 (1, 6, 2), (2, 1, 6), (2, 6, 1), (6, 1, 2), (6, 2, 1)이라는 6가지 패턴이 있다. 한펀 (3, 3, 3)이라는 조합은 한 가지 패턴 밖에 없다. 이런 방식으로 수열을 하면, 합계가 9가 되는 것은 25가지, 10이 되는 것은 27가지로 나온다. 


확률은 특정 표본 공간(sample space)내에서 실제 일어나는 결과인 표본점(outcomes),  부분 표본 공간 과 그안에 포함되는 표본점들을 의미하는 사건(Event)이라는 개념에서 시작된다. 

Newton highlight


어떤 사건 A가 일어날 가능성(probability)을 P(A)라고 하는데, P(A)의 값은 0에서 1사이가 된다. 이를 백분율로 환산하면 어떤 사건 A가 일어날 확률을 %로 나타낼 수 있다.

주사위에서 흘수가 나올 확률
P(A) = | A | / | Ω | = 3 / 6 = 1 / 2 = 50%


그런데 인위적으로 만든 '생각 모델', AI(Artificial Intelligence)가 항상 결과를 맞출까? 


확률은 영어로 Probability, 우리말로 해석하면 '아마 그럴 것이다'는 추측에 가깝다. 때문에 맞을 때도 있지만, 틀릴 때도 있다. 3개의 주사위를 굴려서 9보다는 10이 나올 확률이 더 높다고 하지만 정말 10이 나올 지는 아무도 모르는 것이 아닌가?


특정한 사건(Event)이 일어난다고 하는 것을 Positive 예측이라고 한다. 반대로 특정한 사건이 일어나지 않을 것이다 라고 하는 것을 Negative 예측이라고 한다. 그런데 이것은 맞을 수도(True) 있고, 틀릴 수도(False) 있다. 


사건 A가 일어날 것이냐? 그렇다(Positive), 아니다(Negative)
좋았어. 그러면 결과를 들여다볼까? 맞췄다(True), 에이 이번에는 틀렸어(False)
Awab Idris, Medium


이 개념은 AI/UX를 디자인(=설계)하는 데 있어서 매우 중요하다. TP, FP, FN, TN은 최초의 예측과 마지막 결과간의 조합으로 만들어진다. 

TP : 그렇다고 예측했는데, 맞았어~! wow    - 내가 찍은 로또 번호가 맞았어

FP : 그렇다고 예측했는데, 틀렸어 ㅜㅜ        - 내가 찍은 로또 번호가 틀렸어 

FN : 아니라고 예측했는데, 틀렸어 ㅠㅠ        - 이 번호는 아니라고 생각했는데, 그게 1등 당첨 번호였어

TN : 아니라고 예측했는데, 맞았어               - 이 번호는 아니라고 생각했는데, 진짜 아니었네


이게 AI 설계에 있어서 왜 중요할까?

TP나 TN은 긍정적이든, 부정적이든 일단 맞췄으니까 문제가 없다. 이 중에서도 TP가 중요하다. 

그러나 FP나 FN은 틀린 거니까 AI를 설계하는 시점에서는 면밀하게 고려하지 않을 수 없다.


틀리지 않는 게 가장 중요하겠지. 그런데 확률이란 '거듭 말하지만' 예측이다. 틀릴 수도 있는것이다. 


코로나 검사를 생각해보자

만약에 코로나확진자(양성)가 검사 결과는 음성으로 나왔다면 큰 문제가 아닐 수 없다. 아니라고 예측했는데 틀린 것(FN)이다. 차라리 코로나'비'확진자(음성)가 양성으로 나왔다면 (개인으로써는 안된 일이지만) 사회적으로 봤을 때는 차라리 나을 수 있다. 그렇다고 예측했는데, 틀린것(FP)은 코로나 검사에 있어서 FN보다 훨씬 위험도가 적기 때문이다. 



이렇게 코로나 검사와 같이 FN이 있어서는 안되는 (Positive 결과 측면에서의) 심각한 예측은 설령 FP가 들어갈 수 있을지라도 절대 FN이 들어가서도, TP가 빠져서도 안된다. 


반대로 내비게이션 길찾기나 생체인증에 있어서는 가끔 아니라고 예측한 것(지문이 등록되 않았습니다)이 틀려도(어? 좀전에도 잘 썼었는데 왜 틀리지? FN), 그렇다고 예측한 것이 맞았는데(TP) 빠져도 양해될 수 있다. 반면에 엉뚱한 사람이 내 핸드폰에서 생체인증을 시도했는데 맞았다?(FP) 이게 큰 문제가 될 수 있다. 


이렇게 '(정확한 결과가) 빠져도 돼. 틀리면 큰일남'을 정밀도라고 부르고, '틀릴 수도 있어. 하지만 (정확한 결과가) 빠지면 큰일난다'를 재현율이라고 부른다. 



이전 글(와인 가격 예측)에서 언급했던 regression이란 것은 특정 표본공간(와인가격) 범위내에서 여러가지 표본점(지난 20년간 와인 가격 변동)들을 가지고 AI가 패턴을 발견하도록(=사건 예측=올해의 와인가격?) 학습시키는 것이다. 가령 머신러닝에 의해서 학습된 올리 교수의 AI 모델이 올해는 작년보다 '와인 가격이 5~10% 가량 오를 것이다'라는 예측했는데, 그게 틀릴 수도 맞을 수도 있는 것이다. 


이 글을 잘 이해하셨다면 여러분들은 AI/UX 디자인에 한발 다가선 것이다.


상식을 늘리실 목적이라면 내용만 이해해도 충분합니다. 그러나 이해를 바탕으로 그것을 써먹기 위해서는 개념 이해가 더 중요합니다. 개념을 이해하지 못하거나 그 이해를 무시한 사람들은 결국 성장하는 데에 한계가 있습니다. 처음에는 빨라 보일 수도 있지만 결국에는 뒤쳐지기 마련입니다. 


확률이란 것을 곰곰히 생각해보시기를 바라며..

작가의 이전글 와인 가격 예측

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari