brunch

You can make anything
by writing

C.S.Lewis

by 위키북스 Nov 30. 2020

실전 프로그래밍 - 두 번째

엑셀 파일을 데이터 프레임에 넣어보자

두 번째 실전 예제는 특정한 디렉터리에 있는 엑셀 파일에 있는 내용을 데이터 프레임에 추가하는 내용입니다. 이번 글에서는 이전 글에서 설명한 코드에서 몇 가지 내용이 추가된 코드 중에서 새롭게 추가된 코드 위주로 설명하겠습니다. 


[ 전체 코드 ]

https://gist.github.com/wikibook/ce1cd440074b9f89711d8bdf2e5e8532


[ 실행 결과 ]


[ 코드 분석 ]


import pandas as pd
from pathlib import Path

import pandas as pd는 엑셀과 같은 표 형식의 데이터를 쉽게 다룰 수 있게 도와주는 판다스(pandas)라는 패키지를 사용하기 위해 선언하는 코드입니다. import pandas라고 써도 되지만 보통 import ~ as 형식을 많이 사용합니다. 판다스 패키지는 169쪽 ‘02 표 데이터 처리에 강한 판다스’ 절에서 설명하고 있는데요, 본격적인 파이썬 엑셀 프로그래밍을 위해서는 반드시 알아야 하는 패키지입니다(참고: 패키지는 여러 모듈을 모아놓은 꾸러미로, 패키지 관련 내용은 123쪽의 패키지 항목을 참고하기 바랍니다).


input_folder = 'C:/myPyExcel/data/ch07/sales_data/input'
raw_data_dir = Path(input_folder)
excel_files = raw_data_dir.glob('상반기_제품_판매량_*')

이 코드는 실전 프로그래밍 첫 번째. 특정한 디렉터리의 파일명을 출력해보자 글에서 설명하고 있습니다


total_df = pd.DataFrame() # 빈 DataFrame 생성

판다스의 DataFrame은 말 그대로 Data(데이터)를 담는 Frame(틀)입니다. DataFrame()을 이용하면 행과 열이 있는 표 형식의 데이터를 생성할 수 있습니다. 이 코드를 통해 엑셀 데이터를 합치기 위한 DataFrame을 생성합니다(참고: 176쪽에서 DataFrame의 구조와 생성 방법을 자세하게 설명합니다).


for excel_file in excel_files:
    df = pd.read_excel(excel_file)
    total_df = total_df.append(df, ignore_index= True

excel_files에 담긴 엑셀 파일명을 하나씩 읽어서 excel_file이라는 변수에 넣습니다. 다음으로 read_excel()이라는 메서드를 이용해 excle_file에 있는 엑셀 파일 데이터를 읽어서 df라는 데이터 프레임에 넣습니다. 마지막으로 append() 메서드를 이용해 total_df라는 데이터 프레임의 끝 부분에 추가합니다.


total_df

total_df에 들어간 데이터를 출력합니다.


이번 글에서는 특정 디렉터리에 있는 엑셀 파일을 읽어서 데이터 프레임에 차례대로 추가한 후 결과를 최종적으로 출력하는 과정까지 다뤘습니다. 다음 글에서는 마지막으로 데이터 프레임에 들어간 데이터를 엑셀 파일에 추가하는 방법을 다루겠습니다.


[연관 글]

파이썬 프로그래밍 학습의 어려움 

프로그램의 시작, 문법을 배워보자  

실전 프로그래밍 첫 번째: 특정한 디렉터리의 파일명을 출력해보자  

실전 프로그래밍 두 번째: 엑셀 파일을 데이터 프레임에 넣어보자  

실전 프로그래밍 세 번째: 데이터 프레임에 있는 데이터로 엑셀 파일을 만들어보자  


작가의 이전글 실전 프로그래밍 - 첫 번째
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari