brunch

You can make anything
by writing

C.S.Lewis

by Jake Shin Jun 30. 2024

19. 그림으로 배우는 데이터 사이언스

데이터 기본기, 통계학/인공지능 배경지식


요즘 '인공지능' 키워드가 언론상에 많이 등장합니다. 여러 산업 분야에서 기반기술로 적용되고, OpenAI 및 엔비디아 등의 인공지능 분야에서 선도적인 업체들이 영향력은 체감 가능합니다. 회사에서도 인공지능을 이용하여 업무 효율화 및 부가가치 통한 사업적 제고를 이루려고 하는 상황을 고려하면, 인공지능 분야에 대한 백그라운드 및 기본적인 소양은 필수적으로 갖춰야 할 사항이라고 봅니다. 


Digital Transformation 패러다임도 결국은 기존 ICT 레거시 기술 기반으로 인공지능을 적용하여 고도화하는 개념이지요. 제가 다니는 회사도 인공지능 관련해서 인증시험을 봅니다. DX lv1 ~ 3인데, 특히 데이터를 다루는 방법과 활용 및 실제로 프로젝트까지 해보는 과정입니다. 일단은 데이터에 대한 기본적인 개념 정립이 중요한 과정이죠.


이번에 소개드릴 서적은 '그림으로 배우는 데이터 사이언스'입니다. '데이터' 측면으로 알아야 할 지식으로 구성되어 있고 인공지능 영역을 다룰 때 포인트로 잡아야 할 부분도 터치합니다. 추가로 데이터를 다루니, 통계학에 대한 부분도 다루기 때문에 인공지능 개념 서적으로 훌륭해 보입니다. 특히 각 서브 챕터마다 '직관적인 그림 + 설명'으로 구성되어 있어 이해하기도 용이하게 구성되어 있습니다. 인공지능은 개념을 어떻게 시각화 통한 이해가 중요하다고 봅니다. 서두에 언급했던 인증 시험도 단순 개념 암기 아닌 시각화 통한 맥락/활용 측면을 요구하기 때문에, 인공지능 관련 준비 시험 용도로 적합한 서적이라고 생각합니다.

 

데이터 측면 가치/기본기에 대해 알아보고, 통계학 및 인공지능 영역 핵심 위주로 공유드리고자 합니다.


 



1) 데이터의 가치 및 기본 개념, 활용



'대량의 데이터는 보물섬'이라고 합니다. 동의하시는지요?


빅데이터에서 의미 있는 시사점/인사이트를 도출하는 것은 매우 가치 있는 활동입니다. 데이터 사이언티스트가 각광받는 이유를 아실 텐데요, 온라인상에서 생산되는 모든 데이터에 대해서 어떤 관점으로 어떤 데이터 분석 툴로 어떻게 의미 있는 결론을 내는지에 대한 역량입니다. 조직 관점에서 최종 산출물을 사업을 하는데 의사결정을 위한 뒷받침되는 자료로 활용이 됩니다. 빅데이터는 5V 특징으로 규정하였는데, 결국 데이터 가치(Value)가 있어야 의미 있다는 것입니다. 더 나아가 미덕(Virtue)까지 언급하는데, 경쟁 사회이지만 최소한의 양심(데이터 편향성?)도 기본적으로는 가져야 할 항목이라고 생각하시면 좋겠습니다.


"데이터를 가지고 있는 것만으로는 의미가 없고, 데이터 분석 등을 통해 사회적 관계를 해결하거나, 새로운 가치를 창출해야 한다.'





데이터 종류는 많아요. 수치화를 하기 위해 종류를 그룹 필하여 구분하게 됩니다. 명목 척도/서 열 척도 구분하는데, 서열척도는 순서 특성은 있으나 간격은 다양합니다. 데이터는 복잡하고 학습해야 할 게 방대합니다. 이론적으로 구분되는 데이터는 실제로 데이터를 다뤄보면서 익히는 게 좋다고 판단됩니다. 데이터 -> 수치로 변환 -> 분석(비교/검토) 과정까지 진행하면서, 데이터 특성 및 분석 방향도 스스로 가이드를 만들고 분석해 보는 것입니다. 특히 데이터 편향성도 고려하여 아웃라이어는 제거하는 습관(+사유 포함)도 있어야겠다는 생각이 듭니다.  


"컴퓨터로 데이터를 분석할 때, '맛있다'나 '키카 크다'와 같은 감각적인 언어가 아니라 수치로 표현해야 합니다."



앞서 데이터를 통해 시사점/인사이트를 도출해야 한다고 말씀드렸습니다. '알고 있는 지식으로 값을 추정한다'라는 데이터 분석할 때 매주 중요합니다. 어떻게 보면 가설 설정 기반으로 검증해 가는 마케팅/기획 업무에서 필수적인 역량이라고 봅니다. ICT 업체에서 면접을 하면, 다소 본인만의 로직/논리 기반으로 답을 말해보는 경우도 간혹 있더군요. 책에서 소개된 것처럼 "초등학교는 전국에 몇 개가 있을까?" 같은 형태입니다. 물론 통계청 데이터를 보면 수치를 알 수 있지만, 그렇지 못한 경우(즉각 말해야 할 경우)는 본인이 가진 경험/논리 기반으로 대략적으로 말을 해야 하죠. 평소 때 숫자에 친숙해지도록 하는 습관도 필요합니다. 책에서 '페르미 추정의 예'를 언급하였는데, 누군가가 이런 타입의 질문을 던졌을 대 접근 로직 측면으로 참조가 될 것 같네요.


"페르미 추정에서 중요한 것은 크게 벗어나지 않는 것입니다. 각각 대략적인 값이기 때문에 정확도는 그다지 높지 않습니다. 하지만 비즈니스 현장에서는 엄밀한 것이 아닌 대략적인 값이라도 어느 정도의 정확도로 설명할 수 있으면 충분할 때가 많습니다."


데이터를 통해 의미 있는 메시지를 도출하는데, 숫자력 역량을 재고하여 본인만의 가설 기반으로 대략적으로 추측해 보는 스킬도 확보돼야 하므로 정리해 봅니다. 다음으로 좀 더 데이터를 정교하게 분석하게 하는 통계학적인 지식에 대해 공유드립니다.


2) 통계학적 지식 



통계를 생각해 보면, 복잡한 수식과 지표입니다. Z 검정, t 검정, 가 이제 곰, F 검정… 평균/중간값/분산/표준정규분포 등등 생각납니다. 통계학적 지식은 '최종 데이터가 의미하는 바'를 도출하기 위해 사용됩니다. 현재 가지고 있는 데이터 특성에 따라서 적용되는 기법이 있다는 것이죠. 주로 많이 사용되는 게 평균을 통한 데이터를 검증하고 인사이트를 도출하는 것입니다. 표준정규분포 기반의 Z-검정을 이용합니다. 현실적으로 모든 데이터를 수집하여 분석할 수 없으니, 모집단에서 샘플링을 하고 평균을 집계하게 됩니다. 표본평균, 표준오차 지표를 산출하여 Z-Value 통해 검정통계량 기반으로 검정합니다. - 간략하게 아래와 같은 과정입니다.(책 관련한 부가설명)


데이터로 정답을 추측하는 데 사용되는 정량화 측면의 기법입니다. 귀무가설 / 대립가설 기반으로 검정통계량 기반으로 귀무가설 채택 여부를 결정하는 것입니다. 생활 속에서도 예를 들면 "선거 방송을 할 때, 사전에 XX 신뢰구간 기반으로 X, XXX 명 설문조사 기반으로 결과 나왔다." 접할 수 있습니다. 모든 사람(전수조사)을 대상으로 설문은 불가능하기 때문에 샘플링 통한 검증+오차 범위 감안한 것이죠. 실제 Case Study 기반으로 접하면서 통계기법들은 학습하는 것을 제안드려봅니다. 


다음으로 인공지능 관련 기본 지식입니다. 데이터를 다루면 '인공지능 기법을 통한 정교화' 빠질 수 없는 토픽이죠. 현실상에 데이터를 사람이 일일이 다루기는 어려운데, 인공지능 영역에서 머신러닝을 통해 기계가 스스로 학습을 하여 결과를 도출한다고 하면 매우 생산적이고 분석에 대한 정확도가 높아지겠죠.



3) 인공지능 핵심




그림상에 '일반적인 소프트웨어' vs '머신러닝' 비교도가 언급됩니다. 학습/예측 프로그램 영역이 데이터 분석을 보다 정교화할 것이라는 것에 대해 의문의 여지가 없습니다. 컴퓨터가 쉬지 않고 스스로 학습을 하게 되니, 사람보다는 정확도가 올라갈 수밖에 없죠. 지난 2016년에 이세돌과 알파고 간의 바둑대회가 생각납니다.  5번 대국에서 알파고가 4회 승리를 거두는 결과였는데, 알파고가 현존하는 모든 대국을 학습하고 시행착오를 통한 BP까지 습득을 하니 이미 예견된 결과이기도 합니다. 이 시점에 인공지능에 대해 사회적인 이슈화가 되었죠.


머신러닝도 지도 학습 / 비지도 학습으로 구분이 되지만, 초기에 지도 학습은 사람이 어느 정도 관여를 하겠지만 나중에는 컴퓨터가 스스로 모두 판단하는 비지도 학습으로 될 것으로 예상됩니다. 

 

"머신러닝에서는 컴퓨터가 데이터에서 규칙을 생각해 냅니다. 학습용 프로그램은 사람이 만들지만, 어떤 규칙이 될지는 컴퓨 티거 계산을 통해 자동으로 구해줍니다."



인공지능이 도출한 결과에 대한 평가도 중요합니다. 머신러닝의 모델을 평가하는 지표(혼돈 행렬)도 공유드려봅니다. 데이터 예측 / 정답 간의 결과를 비교하여 적합률, 재현율, F 값 산출하여 인공지능을 평가하게 됩니다. 정량적인 지표화가 되어


인공지능에 대해 더욱 신뢰성이 생기게 됩니다. 특히 지도학습을 통해 정답 데이터가 준비가 되었다면 혼돈 행렬 기반으로 평가하는 지표는 매우 설득력이 있습니다. 


교차 검증(훈련 데이터, 검증 데이터 간 조합) 통해서도 인공지능을 평가하는 방법도 있는데 이는 특정 데이터에 편향됨을 방지하는 기법으로 유용하다고 생각합니다. 

 

"머신러닝 학습 상황을 확인할 때 원하는 결과를 얻고 있는지 수치로 평가하는 것입니다. 지도학습이라면 훈련 데이터로 정답이 될 때까지 준비되어 있으므로, 이 데이터와 비교하면 원하는 결과를 얻고 있는지를 판단할 수 있습니다."




다소 전문적인 용어도 있어 어려울 수 있는 책입니다. 특히 비전공자분들에게는 그렇다고 생각합니다.


다만 일상생활 속에서 인공지능이 점점 보편화되고 있습니다. 가정 내 가전제품에서 로봇청소기가 스스로 알아서 구석구석 청소해 주는 것에 놀랐습니다. 더욱이 모든 업계에서 '데이터 및 인공지능'영역은 Core로 보고 있어 한 번쯤은 스터디해야 할 영역이라고 생각됩니다. 조직에서 일을 하고 있다면 필연적으로 접해야 하는 분야 이미, 미리 스터디해 놓는 것도 필요하다고 봅니다.


최근에 회사 업무 관련해서 칩셋 업체들과의 미팅을 자주 합니다. 테마는 인공지능 기반 칩셋 트렌드 및 핵심기술인데, 역시 인공지능은 한동안은 업계 Main Stream이라고 다시한번 리마인드가 됩니다.




브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari