데이터분석이론(2) 데이터 전처리와 Tidy Data

데이터 전처리와 Tidy data

Mar 11. 2022

안녕하세요. 인턴 마케터 MINHEE입니다 :)

오늘은 데이터 전처리와 Tidy data에 대해서 공부해봅시다.

1. 데이터 전처리

데이터 전처리는 원자료를 분석 목적과 방법에 맞게 처리하기 위해 불필요한 정보를 제거하고 가공하기 위한 예비 단계입니다.

그 방법은 아래와 같이 다섯 개가 있습니다.

이렇게 전처리 과정은 쉽지 않습니다.

하지만 정확하고 좋은 분석 결과를 얻기 위해서는 반드시 필요한 과정이랍니다.

Tidy는 '깔끔한, 잘 정돈된'이라는 사전적 의미를 가지고 있습니다. 즉 Tidy data는 깔끔하게 잘 정돈된 데이터를 뜻하죠. 분석에서 잘 정돈된 데이터를 이용하면 앞서 말씀드린 번거로운 전처리 과정을 최소화할 수 있습니다.

Tidy data의 조건 세 가지는 아래와 같습니다.

조건 1) 데이터셋의 변수(이름, 성별, 나이 등)가 열 기준으로 나열

조건 2) 한 변수 안에 속한 모든 값이 동일한 형태 (범주 or 수치)

조건 3) 데이터셋의 첫 열에 칼럼명 표시

▶︎ 추가적인 설명과 예시가 필요하시다면 연결된 블로그 포스팅을 참고해보세요 :)

하트카운트는 열(column)을 기준으로 작성된 엑셀, csv 파일만 있다면 어떤 문제점이 있는지 [요약 정보]에 제시하여 손쉬운 전처리를 돕습니다.

- 한 열(column)에 숫자와 범주가 섞여있는 경우

- 비어있거나 모든 값이 동일하여 분석에 도움이 안 된다고 판단되는 열(column)

이외에도 수치형 변수를 자동으로 binning 하는 기능이 있어, 비선형적 패턴 파악에도 용이합니다.

실무자를 위한 데이터 자동 분석 솔루션, 하트카운트
지금 사용해보기

하트카운트 뉴스레터 구독하기는 여기를 클릭해주세요.

하트카운트 도입, 견적 및 구축 문의는 여기를 클릭해주세요.
(협업 문의는 support@idk2.co.kr로 부탁드립니다.)

하트카운트 데모 비디오는 여기를 클릭해주세요.

여기를 클릭하여 데이터 분석/시각화 커뮤니티 '데이터 히어로'에 참여하세요.

keyword

Brunch Book

데이터 분석의 A to Z