데이터를 다루는 첫걸음

2주 만에 배우는 데이터 분석 기초

by Via Nova

1부 실무자를 위한 데이터·AI 사용 설명서


2장 데이터를 다루는 첫걸음



월요일 아침, 대기표 번호 147번

환경지도과 김민지 주무관은 월요일 아침마다 같은 풍경을 본다. 민원실 대기표 발권기. 오늘도 147번까지 찍혔다. 지난주는 132번이었고, 그 전주는 119번이었다. "민원이 늘었다"는 건 누구나 느낀다. 하지만 회의실에서 과장님이 물으면 답하기 애매하다.

"민원이 늘었다는데, 정확히 얼마나?"

"그게... 체감상으론 확실히 많아진 것 같은데요."

체감. 그 말이 나오면 대화는 거기서 끝난다. 예산도, 인력 충원도, 정책 개선도 '체감'만으론 움직이지 않는다. 숫자가 필요하다. 증거가 필요하다. 바로 데이터가 필요하다.

그런데 김민지 주무관은 몰랐다. 자신이 매일 보는 대기표 번호, 매주 작성하는 민원 처리 일지, 책상 서랍에 쌓인 설문조사 응답지가 이미 데이터라는 것을.


1. 데이터는 먼 곳에 있지 않다



우리는 매일 데이터를 다룬다. 하지만 그 사실을 자각하지 못할 뿐이다.

주민센터 민원 창구의 대기표 번호도 데이터다. 매주 작성하는 출장비 내역서도 데이터다. 설문조사 응답지에 적힌 O와 X 표시도 데이터다. 심지어 복사기 앞에 붙은 "고장 신고 3회"라는 포스트잇도 데이터다.

데이터는 거대한 서버실에서만 존재하는 게 아니다. 엑셀 한 장, 점검표 한 묶음, 시민의 한마디까지 모두 데이터다.

어느 날, 김민지 주무관은 깨달았다.

3개월 치 민원 접수 대장을 펼쳐놓고 보니, '악취' 관련 민원이 1월 48건, 2월 62건, 3월 72건으로 늘어나고 있었다. 그저 장부였던 종이가, 갑자기 문제를 설명하는 증거가 되었다.

중요한 건 그 속에서 문제를 설명할 단서를 찾아내는 습관이다. 데이터 분석은 여기서 시작한다. 특별한 프로그램이나 화려한 그래프가 아니라, "이 숫자들이 뭔가 말하고 있지 않을까?"라는 호기심에서.




2. 데이터 다루기의 세 단계


김민지 주무관은 선배 박진수 팀장에게 물었다.
"선배, 이 민원 데이터로 뭘 어떻게 해야 할까요? 통계 공부를 따로 해야 하나요?"

박진수 팀장은 웃으며 답했다.


통계? 그런 거 안 해도 돼. 데이터 분석은 거창하지 않아. 기본은 딱 세 단계야. 모으고, 정리하고, 의미 찾기. 이게 다야.




1단계: 수집 – 자료를 모은다


김민지는 먼저 자료를 모았다.

- 내부 행정 시스템(민원 처리 내역 3개월 치)
- 공공데이터포털(우리 시 전체 환경 민원 통계), 환경빅데이터 플랫폼
- 현장 관찰(악취 발생 지점 사진 10장, 주민 인터뷰 메모 5장)

자료를 모으는 건 생각보다 쉬웠다. 이미 시스템에 쌓여 있거나, 포털에서 클릭 몇 번이면 내려받을 수 있었다. 문제는 그다음이었다.



2단계: 정리 – 자료를 읽기 좋게 만든다


엑셀 파일을 열었더니 아수라장이었다.

- 같은 민원인이 두 번 등록된 건(중복)
- 날짜가 빈 셀(결측치)
- 주소 표기가 제각각('○○동 123', '○○동 123번지', '○○동 123')

박진수 팀장 옆에서 말했다.

"이게 진짜 분석이야. 분석과정 중 가장 중요한 전처리를 해야 해. 화려한 그래프 그리기 전에, 이 쓰레기 더미를 치우는 게 분석의 80%거든."

김민지 주무관은 하나씩 정리했다.


- 중복 제거: 같은 민원이 여러 번 등록된 건 합쳤다.
- 결측치 처리: 날짜가 없는 셀은 '0'이 아니라 진짜 누락이었다. 시스템 담당자에게 확인 요청.
- 범주 통일: '여', '여성', '女'는 사실 같은 값이다. 모두 '여성'으로 통일.


정리하는 데만 두 시간이 걸렸다. 하지만 이제 표가 깔끔해졌다. 숫자들이 비로소 말을 걸어오기 시작했다.



3단계: 분석 – 의미를 찾는다


이제 질문을 던질 차례다.

- 합계·평균·비율: 악취 민원은 전체의 몇 % 인가?
- 추이: 늘고 있는가, 줄고 있는가?
- 비교: 지역별·연령별 차이는 무엇인가?

김민지는 계산기를 두드렸다. 1월 악취 민원 48건, 전체 민원 200건. 비율은 24%. 2월은 31%, 3월은 36%.

"늘고 있다."

단순하지만 명확한 결론이었다. 이제 '체감'이 아니라 '근거'가 생겼다.



3. 도구는 뭘 써야 할까?: 낯익은 엑셀부터



정리가 끝나고 나니 김민지 주무관은 좀 더 자료를 들여다보고 싶었다.

"선배, 이거 분석하려면 파이썬을 해야 한다는데 어디부터 해야 하죠?"


박진수 팀장이 말했다.
"전문 통계 프로그램? 그런 거 없어도 돼. 엑셀만으로도 정책 업무 70%는 커버할 수 있어."


김민지는 반신반의했다. 엑셀이라니. 그냥 표 만드는 프로그램 아닌가?

하지만 선배가 보여준 건 달랐다.


- 정렬/필터: 큰 표 속에서 '악취' 민원만 추려내는 데 3초.
- 피벗테이블: "지역별 민원 건수"를 1분 만에 요약. 마우스 몇 번 끌어다 놓으니 자동으로 집계표가 완성되었다.
- 조건부 서식: 민원 건수 50건 이상인 셀을 빨간색으로 강조. 문제 지역이 한눈에 들어왔다.

간단한 수식:
- 평균: `=AVERAGE(B2:B31)`
- 비율: `=B2/SUM(B2:B31)`

김민지는 감탄했다. "이게 다 엑셀로 되는 거예요?"

선배가 웃었다. "응. 근데 대부분 사람들이 엑셀을 한글이나 메모장처럼 쓰지. 아까운 일이야."


숫자의 힘을 느끼다.


"지난달 환경 민원 200건 중 72건이 '악취'였다."
→ 그냥 숫자다.

"악취 민원이 전체의 36%였다."
→ 정책 우선순위가 보인다.

비율 하나가 회의실 분위기를 바꿨다.



4. 첫 분석 실습: 민원 데이터를 요약해 보기



1) 시나리오 세우기:


환경과 김민지 주무관은 '악취 민원'이 늘어난다는 소문을 확인하고 싶다. 추측이 아니라 증거가 필요하다.

2) 단계별 실습:

1단계: 공공데이터포털에서 '환경 민원 건수(월별)' 파일을 내려받는다.

필요하면 환경공단 등 다른 사이트도 방문해서 관련 데이터를 수집한다.

김민지는 포털에 로그인했다. 검색창에 '환경 민원'을 입력하고 엔터. 3초 만에 엑셀 파일이 다운로드되었다. "이렇게 쉽게?"

2단계: 엑셀에서 피벗테이블을 만들어 '민원유형별 합계'를 구한다.

선배가 옆에서 안내했다. "삽입 탭 → 피벗테이블. 행에는 '민원유형', 값에는 '건수'. 끝."

클릭 세 번에 표가 완성되었다. 악취 72건, 소음 54건, 쓰레기 38건...


3단계: '악취' 행의 숫자를 전체 합계로 나눠 비율을 계산한다.

`=72/200` 엔터. 0.36. 즉 36%.


4단계: 조건부 서식을 적용해 악취 비율이 30% 이상이면 셀을 빨갛게 표시한다.

홈 탭 → 조건부 서식 → 셀 강조 규칙. 30 이상, 빨간색. 클릭.

3월 악취 비율 셀이 빨갛게 물들었다.


5단계: 그래프로 그려 3개월 추세를 비교한다.

삽입 탭 → 꺾은선형 그래프. 1월, 2월, 3월 데이터를 선택.

그래프가 완성되었다. 선이 우상향이었다. 명백한 증가세.



결과 해석:



"악취 민원 비중이 1월 24% → 2월 31% → 3월 36%로 증가세다."

김민지는 이 한 문장을 들고 과장님을 찾아갔다. 과장님은 그래프를 보더니 고개를 끄덕였다.

"이제 단순한 추측이 아니라 근거 있는 사실이네. 좋아, 다음 주 간부회의에 이거 올려볼게."

김민지는 그제야 깨달았다. 데이터 분석은 어려운 게 아니었다. 그저 숫자로 이야기를 정리하는 것이었다.


5. 통계는 수학이 아니다, 질문의 언어다



박진수 팀장은 김민지에게 말했다.

"통계를 수학 공식으로 보면 어려워. 근데 질문으로 보면 쉬워."

김민지는 고개를 갸웃했다. "질문이요?"

"응. 봐봐."

- 평균은 "중간은 어디인가?"를 묻는 질문이다.

- 최빈값은 "어떤 값이 가장 많이 있는가?를 보는 기준이다.
- 분산은 "흩어져 있는가, 몰려 있는가?"를 보는 안경이다.
- 상관관계는 "얼마나 같이 움직이는가?"를 살피는 신호다.

"예를 들어, 악취 민원이 많은 지역과 산업단지가 가까운 지역이 겹치는지 보고 싶다면? 그게 상관관계야. 공식이 아니라 "이 두 가지가 관련 있나?"라는 질문인 거지."

김민지는 무릎을 쳤다. "아, 그렇게 생각하니까 훨씬 쉽네요!"

정책 현장에서 필요한 건 복잡한 공식이 아니라 숫자로 질문을 표현하는 습관이다.



6. 흔히 겪는 시행착오



김민지는 첫 분석을 마치고 나서 실수도 많이 했다.


실수 1: 숫자만 보고 결론 내기


"악취 민원이 36%네요. 그럼 악취 문제가 제일 심각한 거 아닌가요?"

선배가 고개를 저었다. "숫자는 방향을 알려줄 뿐이야. 현장을 확인해야 돼."

실제로 현장에 가보니, 악취 민원의 절반은 일시적인 하수구 역류였다. 정책적 대응이 필요한 건 산업단지 악취였다. 숫자는 출발점이지, 끝이 아니다.


실수 2: 100% 완벽한 데이터 기다리기

"선배, 이 데이터 날짜가 5건 빠졌어요. 다시 받아야 할까요?"


"아니, 그냥 진행해. 195건으로도 충분히 패턴은 보여."

불완전해도 패턴은 보인다. 완벽을 기다리다 기회를 놓치는 것보다, 불완전하더라도 시작하는 게 낫다.


실수 3: 결과만 보는 분석

김민지는 처음엔 그래프만 예쁘게 그리면 되는 줄 알았다. 하지만 선배가 말했다.

"과정(수집·정리)에서의 선택이 결론을 좌우해. 어떤 데이터를 쓸지, 어떻게 범주를 나눌지, 그게 분석의 본질이야."


7. 요약

김민지는 2주 만에 데이터 분석의 기초를 체득했다.

- 데이터 분석은 수집–정리–분석 세 단계다.
- 엑셀 한 장으로도 충분히 의미 있는 인사이트를 뽑을 수 있다.
- 통계는 수학 공식이 아니라 현상을 묻는 언어다.
- 완벽하지 않아도 작게 시작하면 길이 열린다.



무엇보다 중요한 건, 이제 김민지는 회의실에서 "체감상"이라는 말 대신 "데이터상"이라는 말을 쓸 수 있게 되었다는 것이다.


[실습 박스: 30분 챌린지]


우리 부서 데이터 요약하기

준비물: 엑셀이 설치된 컴퓨터, 커피 한 잔, 호기심

단계:

1. 최근 한 달간 부서에서 다룬 민원/사업 자료 중 하나를 선택.
2. 엑셀로 열어 항목별 합계를 피벗테이블로 요약.
3. 가장 많은 항목과 가장 적은 항목을 색깔 표시.
4. 비율을 구해 한 줄 결론 작성:

예) "전체 민원 중 ○○ 유형이 42%로 가장 많았다."

이 결론 한 줄이면, 다음 회의에서 "근거 기반 제안"이 된다.


[시간 줄이는 엑셀 단축키 & 자주 쓰는 수식 모음]


단축키 6종 세트
- 'Ctrl + T': 표를 '표'로 만들기 (자동 서식, 필터 추가)
- 'Ctrl + Shift + L': 필터 켜기/끄기
- 'Alt + N + V': 피벗테이블 삽입 (Alt 누르고 N, V 순서대로)
- 'Ctrl + 1': 셀 서식 창 열기
- 'F2': 셀 수정 모드 (빠른 수정)

- 'Ctrl + ;': 오늘 날짜 입력


자주 쓰는 수식 5종 세트
- 합계: '=SUM(A1:A10)'
- 평균: '=AVERAGE(A1:A10)'
- 비율: '=A1/SUM($A$1:$A$10)' (절대참조로 합계 고정)

- 조건별 개수: '=COUNTIF(A1:A10, 조건)'

- 상관관계: 'CORREL(A1:A10, B1:B10)'


[선배의 한마디]

데이터 분석은 특별한 사람들만 하는 거라고 생각하기 쉬워. 근데 아니야. 그냥 '왜 그럴까?'라는 질문을 숫자로 풀어보는 거야. 궁금하면 할 수 있어. 그게 다야.


수요일 연재