데이터 과학과 데이터 산업을 이해하기
빅데이터, 데이터 과학에 관한 키워드로 검색한 책 중에 가장 상단에 나오는 책이었다. 소제목 리스트를 보니 다양한 분야에서 데이터 과학을 활용하여 일을 하고 연구하는 사람들이 실제적인 사례를 바탕으로 다양한 이야기를 해주는 책이라는 기대감이 들었다. 요즘 세상이 어떻게 돌아가고 있는지에 대한 호기심을 해결해 줄 수 있으리라는 기대감으로 책을 읽기 시작했다.
데이터 과학의 개념
가장 오래된 데이터 과학은 우연이 아닌 믿을 수 있는 지식을 위한 '양적 연구 방법론(quantitative research methodology)'이다. 과학자들이 통계학을 사용하여 자신의 주장이 맞는지 틀렸는지 확인할 때 하는 일의 대부분은 '연구자의 가설이 틀렸다는 가정' 아래 데이터가 우연히 관측될 수 있는지 아닌지를 판단하는 일이다. 만약, 자료가 우연의 범위 안에 들어온다면 가설이 틀렸다는 주장을 반박할 증거를 얻지 못한 것이고, 반대로 자료가 우연의 범위 밖에 있다면 가설이 틀렸다는 주장을 반박할 수 있다. 연구 분야별로 다양한 특색을 가진 통계 방법론을 독자적으로 개발하여 사용하기도 하지만, 이들 모두는 불확실성이 있는 상황에서의 과학적 추론이라는 기본 틀을 공유한다. 이러한 관점은 빅데이터 시대에도 유용하다. 데이터 과학은 큰 데이터, 작은 데이터 가릴 것 없이, 그것에서 유용한 통찰을 찾아내고 의사결정에 반영하는 활동 모두를 지칭한다. 이러한 과정에서 통계학적 방법론은 여러가지 주제를 합리적으로 사고할 수 있게 도와주는 중요한 연구방법이다.
인공지능, 머신러닝, 딥러닝의 차이
인공지능(A.I.: Artificial Intelligence)이란 '사전에 설정된 목표를 논리적·수학적·전산적 방법을 활용하여 최선으로 완수하려는 기술'을 의미한다. 인공지능은 크게 두 가지 방법으로 문제를 해결하는데, 첫째는 입력과 출력 관계를 맺는 특정 계산 혹은 알고리즘을 통한 방법이다. 이 방법은 입력값이 달라지더라도 똑같은 계산 방법으로 빠르고 정확하게 결과를 얻을 수 있다는 장점이 있다. 둘째는 머신러닝과 같이 데이터로부터 특정 예측 모델을 학습하는 방법이다. 머신러닝(Machine Learning)이란 입력값 x를 넣었을 때 출력값 y를 예측할 수 있는 특정 함수 f(x) 모델을 학습하는 것이다. 딥러닝(Deep Learning)이란 머신러닝 중 하나로, 통상 인간의 뇌 신경망에서 영감을 받은 '인공신경망'을 모델링하여 학습하는 기술을 뜻한다. 인간의 뇌는 수 많은 뉴런(신경세포)으로 이루어져 있는데, 각 뉴런은 다른 뉴런에서 입력 신호를 받아 일정 용량이 넘어서면 다른 뉴런으로 출력값을 내보내는 형태를 지닌다. 딥러닝을 한다는 것은 특정 인공신경망 구조 안에 있는 인공 뉴런들의 가중치와 편차 값들을 학습해내는 일을 뜻한다. 머신러닝은 인공지능의 하위 영역이며, 딥러닝은 머신러닝의 하위 분야로 방데한 데이터의 축적과 고성능 컴퓨터가 개발되면서 다양한 영역에 활용되기 시작하였다.
머신러닝은 모든 문제의 해결책은 아니다. '간단한 규칙(heuristic)'을 써서 높은 성능으로 문제를 해결할 수 있다면, 머신러닝을 쓰기 위해 들여야 하는 자원을 아낄 수 있기 때문이다. 몇 개의 검색어로 필터링이 가능한 일을 머신러닝으로 할 필요가 없는 것이다. 만약 특정한 문제를 해결하기 위해 머신러닝이 적합하다고 판단하고 개발 조건이 충분히 갖춰졌다면, 본격적으로 프로젝트를 진행할 수 있다.
머신러닝의 첫 단계는 목표를 정확히 파악하고, 모델 성능과 제품의 평가 지표를 설정하는 것이다. 모델 성능이란 얼마나 잘 학습되었는지, 얼마나 빨리 입력값을 처리해 출력값을 추론하는지를 뜻한다. 이를 위해 학습용으로 쓰지 않은 데이터를 학습된 모델에 테스트 하여 평가지표를 계산한다. 정확성을 평가하는 정밀도와 재현율, 처리속도를 평가하는 초당요청량(QPS) 등의 평가지표가 활용된다. 이러한 결과를 바탕으로 유저의 기기에서 직접 모델을 돌리는 방식으로 효과성을 검증할 수도 있다.
모델링에 충분한 시간을 투자했다면, 더 나은 모델링을 모색하는 것보다 더 나은 데이터를 수집하는 것이 효과적일 수 있다. 좋지 않은 데이터를 학습시켰을 때 실망스러운 추론 능력을 갖게 된다는 뜻이다. 양질의 데이터를 수집하는 첫번째 방법은 사용자의 도움을 받는 것이다. 유저가 새로운 데이터를 '레이블링(Labeling)'하게 하는 것으로, 예를 들어 사용자가 수신한 이메일을 스팸메일함으로 옮기는 행동을 수집하여 스펨메일 여부를 판단하는 학습을 하는 것이다. 두 번째 방법은, 사용자가 아닌 외부의 전문 인력의 도움을 받아서 레이블링을 하는 방법으로 양질의 학습데이터를 확보하기 위해서는 상당한 비용을 감수해야 한다.
핀테크와 테크핀이 경쟁하는 시대의 금융
데이터는 형태에 따라 정형 데이터(Structured Data)와 비정형 데이터(Unstructured Data)로 구분할 수 있다. 정형 데이터는 형태가 갖추어진 데이터로, 우리가 평소에 엑셀 프로그램 안에 입력하는 데이터를 떠올리면 된다. 비정형데이터는 형태가 정해져있지 않은 데이터로, 이미지, 영상, 대화내용, 노래, 음성과 같은 것들이다. 컴퓨터는 사람처럼 음성을 듣거나 텍스트를 바로 읽는 것이 아니라 숫자만을 입출력할 수 있기 때문에, 비정형 데이터를 정형 데이터로 변환하는 과정이 필요하다. 예를 들면, 과거에는 금융기관에서 고객이 종이로 작성한 서류(비정형 데이터)를 담당자가 일일이 엑셀 데이터(정형 데이터)로 입력하는 반복적이고 소모적인 일을 했지만, 이제는 금융기관에서도 고객이 전자문서 형태로 직접 작성하게 하거나 문자인식기술(OCR) 등을 활용하여 보다 쉽게 정형데이터를 변환하고 있다. 이렇게 축적된 정형 데이터를 바탕으로 금융기관에서는 인공지능 상담 시스템을 운영할 수 있게 된다. 은행의 인공지능 상담 시스템이 작동하는 원리는 다음과 같다. 고객의 음성 상담은 STT(Speech To Text) 시스템을 통해서 숫자 데이터로 변환되어 A.I.가 이 문장이 어떤 의미인지, 질문에 어울리는 답은 무엇인지, 문장의 의도는 무엇인지를 판단하여 적절한 답변을 생성하여 다시 TTS(Text To Speech) 시스템을 통하여 고객에게 음성으로 제공하는 것이다.
데이터 과학이 잘 할 수 있는 분야는 기존의 데이터로 미래의 데이터를 예측하는 일 '회귀(regression)', 기존 데이터의 패턴을 분석해 새 데이터가 어떤 곳에 속하는지 분류하는 일 '분류(classification)', 주어진 데이터를 분석하여 비슷한 내용끼리 그룹으로 만드는 군집화(clustering) 기술을 바탕으로 데이터를 분할하는 일 '세그멘테이션(segmentation)' 등이 있다. 금융기관의 예를 들면, 데이터과학은 앞으로의 주가나 환율을 예측하여 투자전략을 세우는데 회귀의 역할이 필요하고, 고객의 과거 투자 패턴을 분석하여 분류하는 일에도 활용되며, 고객을 군집화하여 비슷한 성향의 고객 그룹에게 다른 고객이 선호한 제품을 추천하는 일에도 활용될 수 있다.
게임, 가장 풍부한 데이터가 뛰노는 세상
게임은 IT 기불과 미술, 음악, 문학 등과 같은 예술 분야 등의 여러 분야에서 활동하는 전문가들이 오랜 시간 협력하여 만들어낸 창작물이다. 게임이 다른 창작물과 다른 점은 단순히 개발 및 출시가 끝이 아니라, 출시 후에도 지속적인 서비스 운영 유지 보수를 위하여 많은 노력이 필요하다는 것이다. 게임을 즐기는 사람들의 반응을 모니터링하여 오류를 수정하고 난이도를 조정하며 새로운 콘텐츠를 추가하기도 한다. 이 과정에서 데이터 분석은 중요한 역할을 한다.
게임 업계에서는 보통 게임 플레이어들과 관련된 정보(접속자 수, 플레이 시간, 활동, 선호 아이템, 퀘스트 성공률 등)를 로그 데이터를 활용하여 자동으로 집계하여 그래프로 볼 수 있는 대시보드를 만들어 놓는다. 이를 B.I.(Business Intelligence) 시스템이라고 부르며, 게임 회사는 이를 바탕으로 필요한 대응을 하게 된다. 게임 로그에는 캐릭터들의 활동 내역이 세밀하게 남기 때문에 행동 특징을 잘 관찰하면 게임의 버그나 매크로를 이용한 불법 행위들 역시 파악할 수 있다. 나아가, MMORPG 형식의 자유도가 높고 다양한 인간관계가 가능한 게임에서 캐릭터들이 어떤 활동을 하는가를 종합하여 분석하는 것은 인간의 행동과 심리를 분석하는데 활용될 수도 있다.
야구에서 출루율이 중요해진 데이터 과학의 이유
저자는 너무나도 유명한 오클랜드 애슬레틱스 단장 빌리빈의 '머니볼' 사례를 통해 연봉 회귀모형이 어떻게 활용되는지를 설명하였다. 여기서 재미있는 것은 머니볼 시대(2000~2007)를 설정하고 그 이전과 이후의 데이터를 분석하여 현재도 유효한 것인지를 분석한 것이다. 분석결과, 2000년대 초 스테로이드 시대의 특수성을 감안하더라도 머니볼 효과(여기서는 출루율의 가치)는 유효했다.
의미있는 스포츠 데이터 분석이란 경기 중의 특정 움직임이 가져올 가능한 경우의 수 중에서 인과적으로 가장 설득력 있는 패턴을 규명하는 것이다. 좋은 분석에 큰 데이터는 필요조건이지만 충분조건은 아니다. 즉, 많은 데이터가 반드시 좋은 분석 결과를 보장하지는 않는다는 것이다. 현재의 스포츠 분석이 당면한 문제는 복잡한 통계 모형을 검정하기 위한 데이터의 양이나 종류에 비해 이론적 배경이 약하다는 점이다. 예를 들면, 야구와는 다르게 축구나 다른 종목에서는 의미있는 행동을 규정하고 이것과 경기력 또는 승패와의 연관성을 증명하기가 매우 어렵다. 스포츠만큼 경험과 직관이 지배하는 분야는 드물다. 이 분야에서는 스포츠 경기력 데이터의 한계와 가능성을 이해하고, 의사결정 과정에 이를 유연하게 적용하는 능력이 필요하다.
데이터 과학으로 서비스를 보호하는 방법
보안과 관련된 세계에서는 다른 분야의 데이터 과학과는 다르게 구체적인 악의를 가지고 있는 적이 존재한다. 따라서 보안 데이터 과학자는 적을 분석하고 탐지하고 예측하여 위협적이지 않은 상태를 가능한 길게 유지하는 일을 해야 한다. 보안 분야 데이터 과학자에게 가장 중요한 것은 문제를 정의하는 것으로, 경우에 따라서는 데이터 과학자의 영역을 넘어서는 고민을 해야 한다는 어려움이 있다.
인간은 아주 오래전부터 정보의 접근을 제한하고자 했고, 또 다른 누군가는 이를 분석하여 탈취하려 했었다. 고전 암호는 통계적 특성을 제거하는 성격이 없어 대부분 쉽게 해독이 가능했지만, 현대 암호의 경우에는 평문을 암호화하는 과정에서 모든 통계적 특성을 제거하는 구성이 반드시 포함된다. 빈도 분석뿐 아니라 어떤 고급 분석 기법을 동원해도 아무런 정보를 찾을 수 없다.
정보를 가져오는 데만 초점을 맞추느라 정체를 숨기지 않는 적은 상대적으로 식별하기 쉽다. 하지만 공격자가 다수의 IP를 동시에 사용하여 접근하면 방어자 입장에서 난해하기 마련이다. 이것을 식별하기 위해서는 공격자의 공격방식을 데이터로 분석하여 이것이 공격인지 아닌지를 판단하는 모델을 만들어야 한다.
책에 나온 내용을 필사하는 형식으로 요약하여 정리해 봤지만, 이 부분은 무슨 소리인지 아무리 봐도 모르겠다. 해킹 공격을 막기 위해서도 데이터 과학의 관점이 필요하다는 내용이었던 것은 분명한데 무슨 소리인지는 이해하기 어려웠다.
병원, 의학 정보를 다루는 데이터 센터가 되다
한 의사의 독자적인 경험이 곧바로 의학적 근거로 자리 잡을 수는 없다. 임상 현장에서 관찰된 현상이 의학 지식이 되어 널리 퍼지기 위해서는 그 현상이 발생한 이유를 알아야 하며, 임상 시험을 통해 과학적인 사실로 인정받아야 하기 때문이다. 전통적인 맥락에서 의학 연구는 이처럼 생물 및 화학 지식을 바탕으로 발전했는데, 이러한 방식의 의학 연구를 생의학적 관점이라고 한다. 하지만, 20세기 후반부터 임상 현장에서 획득한 데이터 그 자체를 연구 재료로 하여 질병의 발생 원인, 발현 증상, 환자의 장단기적인 예후 및 자연 경과, 치료 약물 혹은 기구의 유효성, 치료 전략의 경제성 등을 분석하는 연구가 활발하게 진행되기 시작했다. 우리가 생물학적으로 알게된 지식을 사람들이 알고 이해하여 행동으로 옮기도록 도와주는 과정에서 데이터 과학은 강력한 도구로 사용될 수 있다.
데이터 과학의 힘을 빌린 현대의 스마트 병원 시스템은 이러한 과정을 자동으로 수행할 수 있다. 환자 진료 과정에서 생성되는 모든 정보는 전자 의무 기록의 형태로 저장되어 있기 때문이다. 현재, 수 많은 정보를 이용하여 더욱 정교한 계산식을 만드는 것이 가능하다. 실제로, 급격한 코로나19 확산으로 인한 백신 및 치료제 개발과 백신 접종 우선순위 결정 등의 대응 정책 수립에 임상진료와 관련된 데이터 과학이 큰 역할을 하였다. 임상 연구와 관련된 데이터는 사람의 중요한 정보를 다루기 때문에 연구 윤리의 준수 역시 중요한 부분이다. 데이터 과학의 발전과 함께 병원은 수 많은 정보를 생산하고 다루는 데이터 센터가 되어가고 있다.
사람을 더 똑똑하게 만드는 인공지능 교육
인공지능의 대명사 '알파고'처럼 복잡한 모델을 쓰지 않고도 데이터를 활용하여 사용자들을 돕는 서비스를 만들 수 있다. 예를 들면, 학교 알리미 앱을 통해 초등학교 저학년 학생들이 있는 가정에서 가정통신문과 각종 알림사항 등을 놓치지 않고 편하게 받아볼 수 있으며, 사용자들이 언제 확인을 많이 하고 어떤 디자인과 문구를 좋아하는 지 등의 데이터를 수집하여 지속적으로 서비스를 개선할 수 있다. 이처럼 복잡한 인공지능 모델을 사용하지 않더라도 데이터를 모으고 분석하는 것만으로도 서비스를 개선할 수 있다.
개인화 및 맞춤형 교육은 교육 분야의 주요한 관심사다. 학습자의 수준에 맞춘 개인화 교육은 학업성취에서 굉장히 중요한 요소지만, 비용과 인력 등의 제약으로 공교육은 물론 사교육에서도 여전히 실행하기 어렵다. 인공지능은 교사의 모든 역할을 대체할 수 없고 이것이 목표도 아니지만, 학생이 개인화된 학습을 할 수 있도록 돕는 역할을 할 수 있다. 예를 들면, 문제를 틀린 학생이 선택한 객관식 선택지와 관련된 데이터를 수집하여 학생의 선택에 따라 잘 모를 만한 개념을 사전에 정의하고, 그에 따라 다음 문제를 추천해주는 서비스를 통해 성적 향상에 가장 도움이 되는 순서로 문제를 추천하는 서비스를 제공할 수 있다. 똑같은 공부를 하더라도 학생의 관심사를 다루고 학생의 수준에 맞는 문항을 검색하고 생성해줌으로써 학생의 흥미를 유지하고 이탈율을 줄일 수도 있다.
문제 풀이를 효율적으로 찾아주는 일에도 인공지능을 활용할 수 있다. 수많은 학생들의 사랑을 받고 있는 '콴다(Qanda)' 서비스가 대표적인 사례다. 모르는 문제를 사진찍어서 콴다에 업로드하기만 해도 단 몇 초만에 풀이방법을 제공하는 서비스로, 매일 260만건의 질문이 올라올 정도로 많은 사랑을 받고 있다. 콴다 역시 서비스 초기에는 수학 전문가들이 직접 풀어서 답을 해 주었지만, 이러한 데이터가 축적되면서 이제는 인공지능이 광학문자인식(OCR) 기능을 통해 문제를 인식하고 풀이를 검색해주는 방식으로 발전했다.
데이터 과학자뿐만 아니라 학교의 교사 역시 학생들을 교육하는데 직접적 또는 간접적으로 많은 데이터를 사용하기 마련이다. 데이터 기반의 서비스는 선생님의 여러 영역을 자동화 함으로써 선생님이 더 중요한 일에 집중할 수 있게 도울 수 있으며, 축적된 데이터베이스를 제공하여 교사가 필요한 콘텐츠를 직접 만들 필요없이 검색하고 선택하여 활용하게 할 수도 있다. 실제로, 학생의 학습과 관련된 정보를 바탕으로 몇 가지 설정만 해주면 학습 콘텐츠가 자동으로 추천되는 서비스가 상용화되어 있다. 비대면 시험에서 공정성을 확인하는데도 학생의 평소 학습데이터와 시험 중 학생의 행동을 비교하여 부정행위를 판단하는 인공지능이 활용될 수 있다.
저자는 인공지능과 교육과 관련된 이야기를 미래의 학생들에게 중요한 역할은 무엇인지에 대한 유의사항으로 마무리하였다. 인공지능이 보다 효과적인 교수학습방법이 될 수는 있지만, 이것을 단순히 활용하는 것을 넘어 보다 미래지향적인 교육의 방향이 무엇인지 고민해야 한다는 것이다. 인공지능이 이미 글을 쓰고, 음악을 만들고, 그림을 그리고, 코드를 작성하는 시대에는 직접 개발하고 만드는 것보다는, 어떤 것이 좋은 것인지를 알아보는 역량과 이를 바탕으로 다른 사람들에게 가치를 전달하고 공감을 얻는 역량이 점점 더 중요해지고 있다는 것이다. 미래를 설계하는 가장 좋은 방법은 각자의 재능과 흥미를 살리는 것이며, 이 과정에 인공지능이 큰 역할을 할 수 있다고 말하고 있다.
예비 데이터 과학자를 위한 취업 분투기
데이터 과학자를 꿈꾸는 사람은 많지만, 취업을 하는 방법과 기업이 기대하는 역할은 천차만별이다. 기업과 산업분야마다 데이터 과학자에게 원하는 기대치가 다르기 때문이다. 또한 업계에 따라 데이터 과학자에게 필요한 데이터 관련 지식 및 업계의 흐름에 관한 지식의 깊이가 다를 수밖에 없다. 회사의 규모에 따라 조직과 구성원을 운영하는 방식이 모두 다르기도 하다.
데이터 과학자에게 필요한 역량은 크게 세 가지로 요약할 수 있다. 첫째, 데이터 문해력(Data Literacy)으로 데이터가 담고 있는 정보와 숨은 의미를 파악하는 능력이 필요하다. 데이터 문해력이 높은 사람은 '이 데이터를 통해 어떤 이야기를 해나갈 수 있는지'를 알아챌 수 있으며, 이 능력은 꾸준히 데이터를 접하고 탐색분석 연습을 하여 개선할 수 있다. 둘째, 끈기가 필요하다. 데이터 과학 분야에서는 해결하고자 하는 문제에 대한 답안을 도출하기 위해 다양한 관점에서 가설을 수립하고 검증해야 하기 때문이다. 셋째, 비지니스 흐름에 대한 이해 즉 '도메인 지식'이 필요하다. 이것은 경험을 통해 배우거나 도제식으로 전달되는 경우가 대부분이기 때문에 세 가지 요소 중 가장 터득하기 어렵고, 오랜 시간을 투자해야 한다.
머신러닝 서비스에 엔지니어가 필요한 이유
머신러닝은 데이터를 기반으로 수학, 프로그램 등을 활용하여 현실을 예측하고 설명하는 '모델'을 사람이 직접 세부 로직을 쓰는 것이 아니라, 머신러닝 프로그램이 어떠한 문제를 해결하는 규칙성을 과거의 경험을 이용해서 찾아내고 미래의 문제를 해결하는 것이다. 하지만, 실제로 머신러닝 모델이 소비자에게 쓰이는 경우는 많지 않다.
아무리 좋은 알고리즘이 있어도 데이터가 없으면 결과를 얻어낼 수 없다. 그래서 학계에서는 주로 공공 데이터 포털, SNS 등의 공개된 데이터를 이용한다. 이미 데이터를 확보한 회사를 통째로 사버리는 경우도 있다. 데이터를 얻는데는 많은 비용이 필요하다. 원하는 데이터를 확보했다고 하더라도, 데이터의 퀄리티는 의심스러운 경우가 많다. 데이터에 개인정보가 포함되어 있는 경우에는 관련 데이터를 모두 제거해야 한다. 데이터의 규모가 크다면 데이터를 대용량으로 처리할 수 있는 기술도 필요하다. 모델이 출시된 이후에도 사용자가 알아차리기 전에 데이터나 모델의 문제를 인지하여 데이터를 수정하고, 모델의 오류를 수정해야 한다. 기술적으로 지속적인 모니터링이 필요한 것이다.
공백 속에 숨은 놀라운 이야기, 결측데이터
우리가 지난 주에 일어난 일 중 일부를 기억하지 못하는 것처럼, 대부분의 데이터에도 공백이 있다. 데이터 생성 과정에서 측정되지 않아 공백으로 남은 개별값들을 결측치(Missing Value)라고 하며, 데이터 안에서 공백으로 남은 부분들을 결측데이터(Missing Data)라고 한다. 결측데이터 분석은 데이터를 활용하는 거의 모든 분야에서 필수적인 절차로 자리매김하고 있다. 결측데이터를 재생하거나 적절히 처리하는 일은 데이터 사용자가 중대한 의사결정을 하는데 꼭 필요한 일이다.
대부분의 데이터에는 하나 이상의 공백이 있다. 설문에 응답하는 사람의 경우, 자신의 일정에 따라 설문을 중도에 중단하기도 하고, 깜빡하고 몇 개의 문항에만 응답을 하지 않을 수도 있다. 아예 질문의 의도를 잘 못 이해하고 엉뚱한 답변을 하는 사람도 있을 수 있다. 주기적이고 장기적인 조사의 경우 조사대상이 다양한 이유로 인하여 중도에 탈락하는 경우도 있다.
통계학에서는 이렇게 결측치가 발생하는 근원적 원리를 크게 세 가지로 분류한다. 첫째, 어떤 변수의 결측이 무작위적으로 발생하여 어떤 값이 빠진 이유가 데이터 안의 다른 변수와는 관련이 없는 경우를 완전무선결측(MCAR: Missing Completly at Random)이라고 한다. 일상에서는 가장 일반적인 상황이라고 할 수 있지만, 실제 자료에서 발생되는 결측은 자료 내 관찰된 변수 또는 관찰되지 않은 변수와 관련성이 있는 경우가 대부분이기 때문에 완전무선결측의 사례는 드물게 나타나는 편이다. 둘째, 특정 값이 누락된 이유가 다른 관찰 자료와 관령이 있고 결측 자료와는 관련이 없는 경우를 무선결측(MAR: Missing at Randaom)이라고 한다. 이 경우는 결측이 일어난 원인을 이미 가진 정보만으로도 설명할 수 있다. 셋째, 공백이 발생한 이유가 결측된 자료와 관려노딘 경우 또는 관찰된 변수와 결측된 자료 모두와 관련된 경우는 비무선결측(MNAR: Missing Not at Random)이라고 한다. 예를 들면, 학업 능력이 좋지 않은 학생들이 시험이나 과제를 제출하지 않은 경우나 제품의 만족도가 낮은 사람이 만족도를 거부한 경우를 비무선결측이라고 할 수 있다. 결측데이터의 원인이 완전무선결측 또는 무선결측일 경우에는 통계적인 기법을 활용하여 편향되지 않은 결과를 산출할 수 있지만, 비무선결측일 경우에는 그 원인을 모를 경우 변수 간의 관계를 정확하게 추정하기 어렵다. 따라서, 데이터 과학에서는 데이터를 수집하기 전에 데이터를 모으는 과정의 적절한 설계, 계획 및 운영을 통해 비무선결측의 가능성을 최소화하고 이후 수집된 데이터의 결측데이터는 무선결측의 원리로 발생했을 거라고 가정하고 분석하는 경우가 많다.
데이터 과학에서 결측데이터를 처리하는 방식은 크게 제거법, 대체법 그리고 모형 기반 접근법이 있다. 첫째, 제거법은 결측이 발생한 케이스의 일부 또는 전체를 제외하고 분석하는 방법이다. 이 방법은 편리하며 결과적으로 완전한 데이터로 분석한다는 장점이 있지만, 표본을 그만큼 잃게 된다는 단점이 있다. 둘째, 대체법은 결측된 부분에 어떤 타당한 수치를 채워 넣는 방식이다. 결측된 변수와 다른 변수와의 관계 또는 결측치와 다른 측정치와의 관계를 통해 대체하는 방법이라고 할 수 있다. 단일대체법(일괄대체법, 회귀대체법) 또는 다중대체법, 최대가능도법 등의 기법을 활용하면 편향이 적고 안정된 결과를 도출해낼 수 있다.
통계학에 대한 지식이 부족하여 무슨 이야기인지 이해하기는 어려웠지만, 담당업무와 관련된 수많은 자료들을 수합해야 하는 장학사 업무의 특성상 결측데이터에 대한 고민에는 공감이 갔다. 시간이 있다면 조사 양식을 수정하여 결측데이터가 없도록 장치를 마련하여 자료를 수집하고 있지만, 물리적 시간이 없을 때는 러프한 양식으로 조사할 수밖에 없어 결과적으로 수정작업에 고생을 많이 하고 있기 때문이다. 통계학자는 아니지만 업무 특성상 엑셀 서식으로 자료를 수합하는 경우가 많아 어떤 맥락의 고민일지는 공감이 되었다. 자료를 입력하는 사람이나 수집하는 사람이나 분석하여 활용하는 사람이나 모두 힘든 것은 마찬가지인 것 같다.
요즘 세상이 어떻게 돌아가고 있는지 이해할 수는 없어도 분위기는 느낄 수 있었다. 역시나 예상했던 것처럼 너무나도 어려운 이야기들이었기 때문에, 전문적인 지식이 없는 내가 이해하는 것은 힘든 일이었다. 통계학이 무엇인지도 잘 모르고 과학적이고 논리적인 사고력이 부족한 사람으로서 저자들이 아주 이해하기 쉽게 풀어내려는 노력이 느껴졌음에도 불구하고 이해하는 것은 아주 어려운 일이었다. 그럼에도 불구하고, 사람들이 하고자 하는 일을 돕기 위해 데이터 과학이 다양한 분야에서 활용되고 있다는 것은 느낄 수 있었다. 내가 하고 있는 일들의 타당성을 높이고 시행착오를 줄이고 취지를 실현할 수 있는 방법들을 찾아가는데 있어서 데이터 과학이 필요하겠다는 인식이 자리잡는데도 도움은 된 것 같다. 그 방법론은 모르겠지만, 내가 무슨 일을 하던지 데이터 과학의 힘을 잘 활용할 수 있었으면 하는 바람이다.