Importance 의 의미
얼마 전 한 지인이 질문을 했다.
세상의 많은 사건들이 서로 얽히고설켜 있는데 각 요소들이 다 영향을 주는 것이라면 다 중요한 것인가?
이공계 출신이 아닌 지인이 생화학자가 쓴 책을 보면서 문득 의문이 생겨서 물어본 것인데 이 경우 다시 한번 생각한다. 같은 한글 단어이지만 서로 의미가 다르게 사용하는 부류의 사람들이 서로 대화를 하기 위해서는 어떻게 해야 할까? 이전에 국문학과 논문을 읽은 적이 있는데, 기호학 등에서 나오는 여러 가지 개념들을 설명하면서 "랑그", "빠롤" 등의 단어를 한국어로 설명하는데 이건 같은 한글이지만 전혀 다른 세계에 살고 있다는 생각이 들었었다. 그런데 "중요하다"라는 단어를 이공계와 문과 출신들은 어떻게 이해할까 라는 화두를 만나면서 지인의 질문에 대답을 하였다.
머신러닝 코딩을 하면서 처음 만나는 것은 열과 행을 가지는 데이터이다. 이때 열과 행에 특별한 의미를 부여한다. 열의 이름은 Feature, 속성, 변수라로 한다. 그리고 행방향으로 나열된 값들을 관측값, 레코드, 사례 값이라고 한다. 예를 들어 날짜별 기온과 습도를 기록한다고 하면 열 이름에 날짜, 기온, 습도 자외선량을 쓰고 각 행들에 그 관측값들을 적어 내려갈 때, 날짜, 기온, 습도, 자외선량을 Feature라고 하고 각각의 실제 값들을 Record라고 하는 것이다. 여기서 기온을 독립변수로 두고 습도를 종속변수로 둔다고 하면 기온에 따라 습도가 어떻게 변화되는 것을 본다는 것이다. 또는 기온과 습도 두 개를 독립변수로 두고, 자외선량을 종속변수로 둘 수 있다. 앞에 것은 1차 단항 함수로 표현할 수 있고 (습도 = a*기온 +b) , 뒤 것은 1차 다항 함수로 표현할 수 있다.(자외선량 = a*기온 + b*습도 + c) 1차 식이 아니라 2차, 3차식으로 표현한다는 것은 기온^2, 습도^3 등의 다중항을 포함한다는 것이다.
그럼 여기서 중요도라는 것은 무엇을 뜻할까? 자외선량을 종속변수로 둘 때, 기온과 습도 중 어떤 것이 더 중요하게 영향을 미칠까? 그것은 그 앞에 붙어 있는 계수 a, b 중 어느 것이 더 큰가를 말한다. 부호가 마이너스일 수도 있으니 절댓값이 어느 것이 더 큰가라고 하는 것이 더 좋겠다.
그런데 우리나라 사계절을 두고 보면, 온도는 대략 -20도에서 40도 사이에서 변화하고, 습도는 5%~100% 까지 변화한다고 생각할 수 있는데, 단위가 다른 두 변수의 중요도를 어떻게 상대적으로 더 중요하다고 판단할 수 있을까?
이때 나온 개념은 표준화와 정규화라는 것이다.
표준화 : 관측된 모든 값의 평균을 0, 표준편차를 1로 만듦
정규화 : 관측된 모든 값을 최소 0, 최대 1로 만듦
이 두 가지 방법을 사용하면 온도와 습도를 단위를 제거하고 서로 비교할 수 있게 된다.
그럼 간단한 예를 들어보겠다.
데이터 분석의 대표적인 데이터셋 중의 하나가 타이타닉호의 살아남은 생존자에 대한 것이다.
gender : 성별
age : 나이
class : 1등석, 2등석, 3등석, 승무원
embared : 승선지명
fare : 배 표 가격
sibsp : 형제, 자매, 배우자수 합
parch : 부모, 자식 수 합
그럼 생존 여부를 결정짓는 가장 중요한 요소는 무엇인지 찾아보겠다.
독립변수는 7종 (gender ~ parch )이고 종속변수는 Suvived 여부이다.
아래 결과를 보면 성별이 가장 큰 영향을 준 변수이다. 그리고 class, fare, age 순이다. 여기서 Feasure Importance 라는 말이 나온다.
좀 더 자세히 보면 남자보다는 여자일수록, 1등석, 승선 위치가 Cherbourg, 형제자매가 1명일수록 생존 확률이 높다.
다시 지인과의 대화로 돌아가 보자.
과연 뭣이 중헌데?라는 말에 나는 어떻게 대답을 해야 할까? 사건을 기술할 수 있는 방정식에서 계수가 높은 변수, 확률이 가장 높은 변수가 가장 중요하다고 대답하는 것이 맞을까?
얼마 전 재밌게 본 유퀴즈 "문과 이과" 편이 생각이 난다. 등호를 대하는 차이라고 설명하는 작사가의 표현이 너무나 놀랍다. 조명=이별을 표현할 수 있는 상상력을 가진 문과와 도저히 등호를 사이에 두고 조명과 이별을 두기 어렵다는 이과.
이건 오랜 시간 동안 등호(=)를 대하는 태도가 달랐기 때문이리라.
이과는 등호를 두고 좌변은 종속 변수, 우변은 독립변수의 함수 형태로 표현을 했다. 즉 우변의 여러 속성들을 이용하여 좌변을 설명할 수 있어야 한다. 등호를 썼다는 것은 완전히 표현 가능하다는 것.
그러나 문과는 숨겨진 변수, 그것도 시간을 넘나드는 상상력이 생략되어 있다. 조명을 켠다는 것은 슬픈 밤의 모습이고, 그 이유는 이별을 했기 때문이라는 숨겨진 이야기가 있었기에 가능하다는...
시 공간을 넘나들면서 퀀텀 점프를 할 수 있는 상상력이 결국 중요한 변수를 선택하는데 차이를 둔 것이리라.
남북통일을 생각할 때 정치인의 상상력은 이공계 사람들의 "판"을 넘어서는 것이 있기에 가능할 수 있는 것처럼...
변수를 선택하는 것부터 생각하는 것이 문과의 상상력이라면, 변수를 이용하여 잘 설명하려고 하는 것이 이과의 논리력이지 않을까? 그리고 우리는 어느 하나 기울어지지 않게 두 날개를 달고 세상을 살아야 하지 않을까라는 결론을 내려본다.