20년 전에도 회사원이라면 알았던 진실
1983년 탄생한 엑셀, 여전히 나는 회사에서 엑셀을 메인으로 쓰고 있다.
이제 AI 시대에 엑셀은 필요 없다고? 과연 그럴까?
2007년, 신입사원 구아바.. 엑셀 파일을 열며 한숨을 쉰다.
병합된 셀들, 뒤죽박죽 섞인 숫자와 텍스트, 곳곳에 숨어있는 공백.
나는 오늘도 데이터를 '정제'하는 데 반나절을 쓸 것이다.
2025년, 구아바가 AI가 웹스크래핑, 크롤링으로 모은 데이터를 보면서 한숨을 쉰다.
결측치, 불일치하는 데이터 타입, 중복된 레코드.
나는 오늘도 데이터를 '전처리'하는 데 반나절을 쓸 것이다.
20년의 시차, 같은 한숨
우리는 AI 시대를 살고 있다고 말하지만, 정작 해결해야 할 문제의 본질은 20년 전과 조금도 다르지 않다.
단지 용어만 세련되게 바뀌었을 뿐이다.
"AI 시대에는 데이터 사이언티스트가 필요합니다!"
"데이터 전처리가 80%입니다!"
"데이터가 새로운 석유입니다!"
이런 말들이 마치 AI시대의 혁신적 발견인 양 회자된다.
하지만 잠시 멈춰 서서 생각해 보자.
아주 오래된 엑셀 강의 자료를 펼쳐보면 이미 그곳에 모든 답이 있다.
하나의 셀에는 하나의 데이터 형식만
병합된 셀 분할하기
머리글은 고윳값으로
결측치 처리
리스트 형태로 만들기
용어만 영어로 바뀌었을 뿐, 본질은 1mm도 변하지 않았다.
Data Type Consistency.
Normalized Structure.
Tidy Data.
Missing Value Handling.
화려한 영어 이름 뒤에는, 20년 전 회사원이라면 누구나 알던 평범한 진실이 숨어있다.
한 엑셀 강의 자료에 이런 문장이 있다.
"데이터가 있어야 할 위치에 데이터가 없는 경우를 결측치라고 합니다.
여기서 주의해야 할 점은 '0'은 결측치가 아니라는 것입니다."
이 한 문장. 단순해 보이지만 여기에 모든 것이 담겨있다.
'없음'과 '0'의 차이.
이것은 통계학의 기본이자, 데이터 과학의 본질이며, AI 모델의 성패를 가르는 출발점이다.
최신 GPT 모델을 다루는 사람의 10명 중 과연 몇 명이나 이 차이를 진정으로 이해하고 있을까?
우리는 Transformer 아키텍처를 논하면서도, 정작 데이터의 가장 기본적인 의미는 놓치고 있는 건 아닐까?
1990년대에는 "엑셀을 잘 다루는 사람"이 인기였다.
2000년대에는 "SQL을 아는 사람"이 필요했다.
2010년대에는 "Python으로 데이터 분석하는 사람"이 각광받았다.
2020년대에는 "AI 모델을 다루는 사람"이 시장의 스타가 되었다.
그런데 이들이 하루의 80%를 쏟는 일은 무엇일까?
데이터 구조 파악하기.
불일치 찾아내기.
중복 제거하기.
결측치 처리하기.
형식 통일하기.
검증하기.
도구의 이름만 바뀌었을 뿐, 우리는 여전히 같은 싸움을 하고 있다.
마치 계절마다 유행하는 옷의 스타일은 바뀌지만,
결국 우리가 추위를 막기 위해 옷을 입는다는 본질은 변하지 않는 것처럼.
역설적이게도, AI가 발전할수록 데이터의 기본이 더 중요해진다.
엑셀 시대에는 잘못된 데이터로 차트를 만들면 보고서가 이상해지는 정도였다.
그래도 사람이 눈으로 보고 "뭔가 이상하네?"하고 알아챌 수 있었다.
하지만 AI 시대에는?
잘못된 데이터로 학습된 모델이 수백만 건의 의사결정을 자동으로 내린다.
그 누구도 알아채지 못한 채.
엑셀의 병합된 셀 하나가, AI 모델의 편향이 된다.
머리글의 모호한 이름 하나가, 잘못된 feature engineering이 된다.
결측치 하나가, 왜곡된 예측이 된다.
우리는 더 강력한 도구를 손에 쥐었지만, 그만큼 더 큰 책임도 짊어지게 되었다.
요즘 많은 사람들이 화려한 것에 현혹된다.
어떤 최신 프레임워크를 쓰는지. 어떤 모델 아키텍처를 알고 있는지.
얼마나 큰 GPU 클러스터로 학습시키는지.
하지만 우리 라떼.. 구아바 나이.. 꼰대라 불리는 회사의 노예들은 잘 모르지만 직관적으로 느낀다.
프로젝트의 성패는 도구가 아니라 다음에 달려있다는 것을...
데이터를 얼마나 깊이 이해했는지
전처리를 얼마나 꼼꼼히 했는지
데이터의 품질을 얼마나 확보했는지
"하나의 열에는 하나의 데이터 형식만 사용하기."
이 한 줄의 원칙을 지키지 않으면, 가장 최신의 대규모 언어 모델도 무용지물이다.
ChatGPT가 나왔다. 거대언어모델이 등장했다. 자동화된 머신러닝 파이프라인이 생겼다.
그래서 우리는 착각한다. 뭔가 근본적으로 달라졌다고.
하지만 아무리 정교한 딥러닝 모델도, '숫자'여야 할 열에 텍스트가 섞여있으면 에러를 뱉는다.
아무리 강력한 LLM도, 구조화되지 않은 데이터로는 정확한 분석을 할 수 없다.
Garbage In, Garbage Out.
이 법칙은 20년 전에도 유효했고, 지금도 유효하며, 20년 후에도 유효할 것이다.
AI가 발전할수록, 우리는 과거를 돌아봐야 한다.
20년 전 엑셀 실무자들이 알던 원칙들. 데이터베이스 설계자들이 강조하던 정규화.
통계학자들이 가르치던 데이터의 품질.
이것들이 AI 시대의 진짜 기초다.
ChatGPT를 쓸 줄 아는 것보다, 데이터의 본질을 이해하는 것이 더 중요하다.
최신 라이브러리를 아는 것보다, 결측치와 0의 차이를 구분하는 것이 더 근본적이다.
화려한 대시보드를 만드는 것보다, 깨끗한 데이터를 준비하는 것이 더 가치 있다.
우리는 종종 최신 기술에 압도되어 기본을 잊는다.
하지만 진정한 전문가는 유행을 좇지 않는다. 본질을 안다.
"0으로 시작하는 전화번호가 숫자 형식으로 저장되어 0이 사라졌습니다."
이것은 1990년대 엑셀 실무자의 고민이자, 2025년 데이터 엔지니어의 고민이다.
그리고 아마도 2050년 AI 전문가의 고민일 것이다.
AI 시대의 본질은 AI가 아니다.
데이터의 본질을 이해하고, 그것을 올바르게 다루는 능력이다.
그리고 그 본질은, 당신이 어딘가 서랍에 넣어둔 오래된 엑셀 강의 자료 속에, 이미 30년 전부터 있었다.
변한 것은 도구의 이름뿐. 변하지 않는 것은 데이터의 원칙.
다음번 AI와 대화할 때, 최신 기능을 쓰는 것도 좋지만,
당신이 입력하는 데이터가 올바른 형식인지 한 번 더 확인해 보는 건 어떨까?
20년 전 신입사원 구아바가 엑셀을 학교 과제가 아닌 업무에 쓰면서 알던 그 진실.
회사원들이 모두가 알던 그 진실...
그것이 당신의 AI 프로젝트를 성공으로 이끄는 첫걸음이 될 테니까.
AI 뒤에 숨어서 데이터 밑장빼기 하지말자... 손모가지 날아간다...
To Be Continue......