'데이터 분석의 힘' 요약

Oct 14. 2020

빅데이터로 상징되는 정보기술의 발전과 통신 혁명이 눈앞에 펼쳐지고 있다. 우리의 일상생활이나 비즈니스에 대한 다양한 정보가 매 순간 데이터로 기록된다.

전문직 종사자뿐 아니라 다양한 분야의 직장인에게 수없이 만들어지는 데이터를 이해하고 활용할 줄 아는 힘, 즉 데이터 분석력이 필요해졌다고 할 것이다.

문과와 이과 가릴 것 없이 필요한 분석 능력

10여 년 전만 해도 데이터 분석은 수학과 관련 있는 이과 쪽의 전문 분야로 여겨졌다. 하지만 이제 데이터 분석력은 이과든 문과든 상관없이 다양한 직업 종사자에게 필수적인 능력이 되었다.

또 자신이 데이터를 분석하지 않더라도 누군가의 데이터 분석에 근거해 중요한 결정을 내려야 하는 상황도 늘어나고 있다. 그래서 자신이 분석의 당사자가 아닐지라도 누군가의 데이터 분석 결과에 속지 않으려면 데이터 분석 결과를 판단할 줄 아는 힘을 길러야 한다.

빅데이터가 모든 문제를 해결해준다는 주장도 있지만 데이터의 처리, 분석, 해석에는 인간의 판단이 중요한 역할을 한다. 요즘 IT업계에서도 단순히 빅데이터만이 아니라 빅데이터를 읽어내는 분석력이 중요하다는 인식이 확산되고 있다.

재료가 같아도 장인의 초밥이 맛있는 까닭

첫 번째는 훌륭한 재료를 준비하는 일이고,

두 번째는 그 재료의 감칠맛을 살릴 칼 솜씨를 갖추는 일이다.

마지막 세 번째는 눈앞의 손님이 바라는 맛이나 요리를 제공하는 것이다.

데이터 분석에 대해서도 똑같은 이야기를 할 수 있다. 정보통신 혁명에 의해 많은 사람이 비교적 쉽게 좋은 데이터를 손에 넣게 되었다. 정말 멋진 일이다. 하지만 데이터를 어떤 각도로 자를지를 결정하는 감각이나 사고 법을 익히지 않으면 애써 구한 재료를 살릴 수가 없게 된다. 또 아무리 멋지게 데이터를 분석했더라도 이런 질문에 답을 주지 못한다면 잔뜩 모은 데이터는 보기에는 좋아도 아무 쓸모없는, 그야말로 빛 좋은 개살구가 되어버린다.

인과관계는 상관관계와 다르다.

두 가지 데이터가 서로 유기적으로 움직일 경우 통계학에서는 ‘상관관계가 있다’고 표현한다. 사실 데이터가 있다면 상관관계를 계산하기는 쉽다.

문제는 상관관계가 밝혀져도 그것만으로는 인과관계가 있다고 말할 수 없다는 점이다.

1. X가 Y에 영향을 주었을 가능성

2. Y가 X에 영향을 주었을 가능성

3. V가 X와 Y 양쪽에 영향을 주었을 가능성

엉터리 분석이 넘쳐난다.

데이터 분석으로 인과관계를 확인하는 것이 얼마나 어려운지 직관적으로 알 수 있다. 하지만 뉴스나 신문에는 상관관계와 인과관계를 혼동한 수상한 분석 결과가 넘쳐난다. 더욱 문제는 수상쩍은 분석 결과에 근거한 단순한 상관관계가 마치 인과관계처럼 포장되어 시청자나 독자를 속이는 경우가 많다는 점이다.

통상적으로 데이터 관측 수가 늘어나면 장점이 많다. 그러나 안타깝게도 데이터 관측 수가 아무리 늘어나도 편향 문제는 해결되지 않는다는 사실이 수학적으로 증명되었다. 그래서 빅데이터가 모든 것을 해결해준다는 주장은 적어도 인과관계 분석에는 들어맞지 않는다.

RCT(Randomized Controlled Trial, 무작위 비교 시행)

개인이 자신의 의지로 개입을 받아들이느냐 마느냐를 판단하는 것을 ‘자기 선택(Self-Selection)’이라고 부른다. 자기 선택에 의해 형성된 개인 집단과 비교집단은 다양한 면에서 매우 다른 특성을 지녔을 가능성이 높다. 때에 따라 소득이나 집의 넓이 같은 요인은 데이터로 수집할 수 있을지 모른다. 하지만 자기 선택으로 집단이 형성되면 절전 의욕 같은 관측할 수 없는 요인에도 차이가 있을 가능성이 높다. 즉 겉보기에는 두 집단이 비슷해도 관측할 수 없는 요인에서 크게 차이가 나는 사람들이 각 집단에 포함되었을 가능성이 높다.

가장 좋은 해결법은 무작위 비교 시행(RCT)

이런 문제에 대한 가장 좋은 해결법은 ‘무작위 비교 시행’이다. 랜덤화 비교 시험, 무작위 대조시험 등 다양한 용어로 번역되지만 여기서는 국제적으로 사용되는 RCT라는 명칭을 쓰기로 한다. A와 B 집단을 비교한다는 의미에서 AB 테스트라고 부르기도 한다. 핵심은 소비자를 집단으로 나눌 때는 반드시 무작위로 해야 한다는 것이다. 무작위란 임의로 집단을 나눈다는 뜻이다.

1. 적절하게 집단을 나눈다.

2. 집단은 반드시 무작위로 나눈다.

3. 집단별로 충분한 표본 수를 채운다.

RCT는 집단 간의 차이가 개입에 따른 효과임을 단정할 수 있게 해 준다. 만약 집단을 무작위로 나누지 않고 참가 가정이 원하는 대로 배정한다면 어떤 일이 일어났을까? 어쩌면 원래 절전 의식이 높은 사람, 가격 변화에 관심이 많은 사람, 소득이 높은 사람, 교육 수준이 높은 사람 등이 특정 집단에 들어가 버렸을 것이다. 그렇게 되면 실험에서 나타난 효과가 개입의 영향이었는지, 애초에 집단 간에 존재했던 차이였는지 판정할 수 없게 된다.

어떻게 집단을 무작위로 나눌 수 있을까?

첫 번째 방법은 단순 무작위 배정이다. 실험 참가자의 명단을 무작위로 정렬하여 위에서부터 순서대로 개입 집단과 비교집단으로 나누는 것이다.

두 번째 방법은 층화 무작위 배정(Stratified randomization)이다. 이 방법은 블록 무작위 배정이라고 불리기도 한다. 이 방법에는 먼저 같은 특성을 지닌 참가자를 블록으로 나눈 다음 블로 안에서 난수를 이용해 무작위로 집단을 배정한다.

RCT의 강점과 약점

RCT의 가장 큰 강점은 무작위로 집단을 나눔으로써 인과관계를 과학적으로 증명해준다는 점이다. 또 분석 방법이나 결과가 투명하기 때문에 비전문가도 비교적 쉽게 이해할 수 있다.

RCT의 최대 약점은 비용과 노력이 많이 들어가고 각 기관의 협력이 필요하다는 점이다. 데이터 분석이라고 하면 기존 데이터를 분석하는 작업이라고 생각하는 사람이 많다. 하지만 RCT는 ‘문제의 답을 얻기 위해 데이터를 만들어간다.’

데이터를 만들려면 비용이 든다. 여기에는 각종 설비에 들어가는 비용뿐만 아니라 실험 참가자나 조력자들에게 지불하는 비용도 포함된다. 또 RCT를 실시하려면 각 기관의 협력이 반드시 필요하다.

RD 디자인

자연 실험에는 인공적인 실험이 따르지 않는다. 오히려 우연히 발생한 실험과 유사한 상황을 활용한다고 보면 된다.

자연 실험은 RCT와 같은 형태로 이루어지지 않는 정책이나 비즈니스상의 개입을 분석할 수 있다는 강점이 있다. RCT와 자연 실험은 대체 관계라기보다는 보완 관계이므로, 어느 쪽이 적절한지는 분석하려는 상황이나 문제에 따라 결정된다.

의료비의 본인 부담금이 바뀌는 ‘경계선’에 착안하다.

일본에서는 70세 생일을 기준으로 의료비의 본인 부담금이 30퍼센트에서 10퍼센트로 낮아진다.

표를 통해 두 가지 사실을 알 수 있다. 첫 번째 데이터가 오른쪽으로 상승 곡선을 그리고 있다는 점이다. 65세부터 72세까지는 나이가 많을수록 의료 서비스를 이용하는 외래환자의 수도 늘고 있다. 나이가 들수록 건강상의 문제로 병원을 찾을 필요성이 높아지는 탓일 것이다.

두 번째는 70세를 경계로 큰 ‘점프(비연속적 변화)’가 보인다는 점이다. 즉 월 연령이 69세 11개월인 외래환자보다 70세 0개월인 외래환자가 현격히 많다는 의미다. 의학적 요인으로 설명이 될까? 70세 생일을 맞자마자 갑자기 건강 상태에 변화가 왔을 리는 없다. 따라서 의학적인 변수 이외의 무언가가 영향을 미쳤다는 추측이 가능하다.

본인 부담금이 30퍼센트에서 10퍼센트로 감소하면서 외래환자의 수는 약 10퍼센트 증가했다는 것은 의료 경제학이나 의료정책의 세계에서는 매우 중요한 발견이다.

경계선 부근에서 RCT와 비슷해진다.

이쯤에서 RCT와 RD 디자인의 관련성을 생각해보자. 말하자면 RD 디자인은 경계선 부근에서 저절로 만들어진 RCT다. 경계선 부근에 두 개의 집단이 있다고 하자. 첫 번째 집단에는 나이가 69세 11개월인 사람들이 속해 있고, 두 번째 집단에는 70세 0개월인 사람들이 속해 있다. 두 집단은 생일이 며칠 다를 뿐, 건강 상태나 취업률 등 매우 비슷할 것으로 예상된다.

하지만 생일이 고작 며칠 다를 뿐인데도 첫 번째 집단의 본인 부담금은 30퍼센트, 두 번째 집단의 본인 부담금은 10퍼센트다. 매우 유사한 두 집단에 대해 무작위로 개인이 이루어진 듯한 상황이 만들어진 것이다.

RD 디자인의 약점은 경계선 부근에 있는 사람에 대한 인과관계만 측정할 수 있다는 점이다.

RD 디자인의 강점은 RCT를 실시하지 않고도 RCT에 가까운 상황을 만들어낼 수 있다는 점이다. 이것은 실험에 비용과 노력이 많이 들어가는 RCT에 비해 이미 확보된 데이터만으로 분석이 가능한 RD 디자인의 커다란 강점이다.

또 RD 디자인은 다른 자연 실험 기법에 비해서도 우수한 점이 많다. RD 디자인은 그래프를 이용해 분석 결과나 가정을 시각적으로 설명해준다. 이것은 투명한 분석을 가능하게 하는 동시에 비전문가도 합리적인 분석을 가능하게 한다.

집군 분석(Bunching Analysis)

자동차에 대한 연비 규제는 차가 클수록 완화된다.

많은 경제적 유인(incentive, 상품의 가격이나 할인, 소득세 등의 세금, 정부 보조금)이 계단식으로 설계된다. 이런 계단식 변화는 일정 정도의 집합 군을 만들어낸다. 이 집합 군 사이의 관계를 통해 인과관계를 밝혀내는 것이 바로 ‘집군 분석’이다.

그래프를 보면 미국의 연비 규제는 자동차가 클수록 완화된다. 즉 작은 차일수록 연비 규제치가 높고 큰 차일수록 규제치가 낮다.

집군 분석과 RD 디자인의 차이

RD 디자인에서는 대상이 그래프의 가로축 변수를 조작할 수 없다고 가정했다.

반면 집군 분석은 대상이 그래프 가로축의 변수를 조작할 수 있는 상황에 적용된다. 자동차 사례에서는 분석 대상이 자동차이고 그래프 가로축의 변수는 자동차의 무게였다. 우리가 알고 싶은 것은 연비 정책의 인센티브에 반응해서 자동차의 무게가 어떻게 바뀌는 가다. 즉 가로축 변수의 움직임에 관심이 있다. 이 점이 가로축 변수를 조작할 수 없는 상황에 적용되는 RD 디자인 분석과 크게 다르다.

RD 디자인의 가정과 마찬가지로 집군 분석의 가정도 완전하게 입증되지 않는다. 현실 세계에서는 무게에 따라 계단식으로 변화하는 연비 구제가 존재하므로 그 규제가 없었을 경우의 데이터는 세상에 존재하지 않기 때문이다. 그래서 데이터 분석 자는 자신의 가정이 성립할 것이라는 증거를 최대한 열거하는 수밖에 없다.

1. 연비 규제치가 변화하는 경계점 이외의 지점에서는 자동차의 분포가 전체적으로 매끈하다. 만약 분포가 매끄럽지 않다면 연비 규제치가 변화하는 경계점에서 발생하는 집적은 연비 규제 이외의 변수에 의한 것일지 모른다는 비판이 성립한다.

2. 자동차 무게를 기준으로 삼는 정책은 연비 구제 정책뿐이다. 예를 들어 같은 경계점에서 자동차 취득세도 비연속적으로 변화한다고 하면 집적이 연비 규제에 대한 반응이었는지, 세금에 대한 반응이었는지 판별할 수 없다. 그러나 이 경계점은 연비 규제 정책에 따른 것이고 다른 정책과는 관계가 없으므로 이런 염려는 말끔히 떨쳐낼 수 있다.

3. 두 히스토그램을 비교해보면 연비 규제치에 따라 집적의 위치가 변화하는 것을 알 수 있다. 히스토그램은 연비 규제 경계점에 데이터가 집적하는 것은 우연이 아닐 것이라는 추가적인 증거를 제시하고 있다.

소득세의 세율이 노동 방식에 영향을 미칠까?

납세자들이 완전히 합리적이라면 한계세율이 낮은 경계선 왼쪽에만 집적이 집중될 것이다. 하지만 급여소득자의 경우 노동 소득을 100퍼센트 유연하게 변화시킬 수 없으므로 경계선 좌우로 집적이 발생한다.

연구자들은 직종별로 흥미로운 분석 결과를 내놓았다. 교사와 군인을 비교한 표를 보자. 교사의 급료는 교직원 조합과 학교 측의 교섭으로 정해지며, 교직원 조합은 한계세율이 바뀌는 지점을 잘 알고 있다. 그래서 경계선 부근에서 대규모 집적이 나타난다. 하지만 군인의 경우에는 집적이 전혀 나타나지 않는다. 군대의 경우 급여가 고정적인 데다 유연하게 노동시간을 바꾸어 소득을 조절할 수 없기 때문이다.

패널 데이터 분석(Panel Data Method)

소득세의 차이가 이민에 영향을 미칠까?

패널 데이터란 복수의 집단에 대해 복수의 기간에 걸쳐 수집한 데이터를 가리킨다. 이를테면 한 개인의 월간 전력 소비량을 복수의 기간 동안 관측하거나, 여러 기업의 재무 데이터를 복수의 기간 동안 관측하거나, 지역별 부동산 데이터를 몇 년간 관측하는 것이 여기에 해당한다.

패널 데이터 분서에서는 개입 후의 차에서 개입 전의 차를 빼서 개입 효과를 구한다.

이 분석 방법은 이중 차분법(difference in differences methods)이라고 불리기도 한다. 또는 시간에 따라 변하지 않는 고정적인 효과를 생각한다는 의미로 고정 효과 추정법(Fixed effect estimation)이라고 불리기도 한다.

패널 데이터 분석의 강점과 약점

1. 다양한 상황에 활용할 수 있다는 것이 패널 데이터 분석의 가장 큰 매력이다.

2. 평행 트렌드 가정이 지켜지는 한, 개인 집단과 비교집단 간에 원래 차이가 있었어도 문제가 되지 않는다.

3. 개입을 받은 모든 대상의 개입 효과에 대해 인과관계를 측정할 수 있다는 점이다.

패널 데이터 분석의 약점은 두 가지로 요약된다. 첫 번째, 평행 트렌드 가정은 많은 상황에서 성립하지 않는다는 점이다. 두 번째는 복수 기간에 걸쳐 개입 집단과 비교집단의 데이터를 수집해야 한다는 점이다. 빅데이터가 등장한 오늘날, 이 점은 기술적으로 더 이상 큰 문제가 아니다. 하지만 데이터 분석자가 데이터 수집에 대한 이해가 부족하면 개입 집단의 데이터만 수집하고 비교집단의 데이터는 수집하지 않거나 개입 이후의 데이터만 수집하고 개입 이전의 데이터는 수집하지 않는 일이 일어날 수 있다. 비즈니스 데이터에서건 정책 데이터에서건 빈번히 벌어지는 일다.

데이터 분석의 성공 요건

1. 데이터 분석 전문가와 협력 관계를 구축한다.

2. 데이터에 접근할 수 있는 길을 연다.

데이터 분석이라고 하면 컴퓨터에 저장된 데이터를 이런저런 소프트웨어로 다루는, 좁은 의미의 기술로 착각하기 쉽다. 하지만 데이터 분석은 그 의미가 훨씬 광범위하다. 예를 들어 문제의 답을 얻기 위해서는 어떤 RCT를 설계해야 하는지, RCT가 불가능할 때는 어떤 자연 실험 기법을 적용해야 하는지, 어떤 데이터를 수집해야 하는지 같은 ‘컴퓨터에 데이터가 저장되기 이전의 단계까지 포함한 기술과 경험이 중요하다.

데이터 분석 전문가는 전문 지식을 제공할 수는 있지만 현장의 목소리나 문제를 체감하지 못한다. 당연한 말이지만 책상 앞에 앉아 있기만 해서는 제대로 문제를 파악하지 못한다. 또 데이터 분석 전문가가 문제라고 생각하는 것이 현장에서는 그다지 중요하지 않을 수도 있다. 따라서 데이터 분석 전문가가 제대로 분석을 하기 위해서라도 분석 결과를 이용하는 사람들과의 협력이 중요하다.

#데이터분석의힘 #엔지니어 #통계 #분석 #빅데이터 #4차산업혁명

keyword

작가의 이전글당신의 마음이 힘들다면... (feat. 감정폭력)스몰빅 발췌작가의 다음글