brunch

You can make anything
by writing

C.S.Lewis

by 여운 Feb 12. 2023

MBTI로 알아보는 벡터

MBTI는 성격 유형 테스트로, 사람들의 성격을 16가지 유형으로 분류한다. 외향형(E)과 내향형(I), 직관형(N)과 현실주의형(S), 사고형(T)과 감정형(F), 계획형(J)과 탐색형(P), 이렇게 4가지 지표 중 각각 하나를 선택하는 방식이다. 하지만 80억에 달하는 전 세계 사람들을 단 16가지 유형으로 분류하는 데는 한계가 있다. 예를 들어, 외향형과 내향형 점수가 “0.51”과 “0.49”로 비슷해도 MBTI에 따르면 무조건 외향형으로 분류된다. 


벡터를 사용하면 이러한 MBTI의 한계를 보완할 수 있다. 벡터는 간단히 ‘여러 숫자의 목록’이라고 생각하면 된다. 벡터에 포함된 숫자가 몇 개인지에 따라 벡터의 차원이 결정되는데, 1개의 숫자로만 이루어진 벡터는 1차원 벡터, 3개의 숫자로 이루어진 벡터는 3차원 벡터, n개의 숫자로 이루어진 벡터는 n차원 벡터다. 


MBTI를 벡터로 나타낸다면 4차원 벡터로 나타낼 수 있다. 4가지 지표 중 하나씩 골라 그 유형의 점수를 적으면 된다. 예를 들어 첫 번째 지표인 외향형과 내향형 중 외향형을 선택했다면, 외향형의 점수를 벡터의 첫 번째 차원에 적는다. 내향형의 점수는 ‘1 – (외향형의 점수)’ 가 될 것이므로 굳이 적지 않아도 된다. MBTI 벡터를 첫 번째 차원에는 외향형(E), 두 번째 차원에는 직관형(N), 세 번째 차원에는 사고형(T), 네 번째 차원에는 계획형(J)의 점수를 쓰는 것으로 정의한다고 하자. 다음 사진의 결과를 벡터로 나타내면 [0.16, 0.15, 0.65, 0.86] 이 된다. 




 이렇게 벡터로 나타낸 MBTI 간 유사도는 벡터의 유사도를 구하는 데 많이 사용되는 ‘코사인 유사도(cosine similarity)’를 통해 계산할 수 있다. 두 벡터 A와 B의 코사인 유사도를 구하는 수식은 아래와 같다. 두 벡터의 첫 번째 차원 값끼리 곱한 것, 두 번째 차원 값끼리 곱한 것, … 마지막 차원 값끼리 곱한 것을 모두 더한 후 두 벡터 길이의 곱으로 나눈 값이다. 코사인 유사도는 -1에서 1 사이의 값을 가지며, 1에 가까울수록 두 벡터가 유사하다는 의미다. 



 벡터로 나타낸 MBTI와 코사인 유사도를 통해 MBTI의 한계를 보완해 보자. MBTI가 ESTP이고 벡터로 나타내면 [0.51, 0.49, 0.52, 0.48]인 사람 A가 있다고 하자. A는 4가지 지표 모두 애매한 수치가 나왔지만, 내향형보다 외향형, 직관형보다 현실주의형, 감정형보다 사고형, 계획형보다 탐색형의 점수 미세하게 높게 나타나 ESTP가 되었다. A와 같은 ESTP지만, 4가지 지표 모두 확실하게 한쪽으로 쏠린 사람 B도 있다. B의 MBTI를 벡터로 나타내면 [0.88, 0.21, 0.92, 0.12]이다. 반면, A와 정반대인 INFJ지만, A처럼 4가지 지표 모두 애매한 수치가 나온 사람 C도 있다. C의 MBTI를 벡터로 나타내면 [0.49, 0.53, 0.42, 0.55]이다. 


 벡터로 놓고 비교해 보면 A와 B보다, A와 C의 성격이 더 유사하다는 사실을 알 수 있다. 실제로 A의 MBTI 벡터와 B의 MBTI 벡터의 코사인 유사도는 “0.8389”, A의 MBTI 벡터와 C의 MBTI 벡터의 코사인 유사도는 “0.9920”이다.  


 이렇게 연속형 데이터인 벡터를 이용하면 16가지의 이산형 데이터인 MBTI를 보완할 수 있다. 일반적으로 연속형 데이터가 더 풍부한 정보를 담고 있긴 하지만, 항상 이산형 데이터보다 좋은 것은 아니다. 딥러닝 모델을 더 잘 학습시키기 위해, 또는 명확한 시각화를 위해 연속형 데이터를 이산형 데이터로 변형해 사용하기도 한다. 각 상황에 맞는 데이터를 선택하는 것이 중요하다. 




Thumbnail Image by Mika Baumeister on Unsplash 


매거진의 이전글 영원히 헷갈리지 않을 precision과 recall
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari