brunch

You can make anything
by writing

C.S.Lewis

by 쑹이씨 Jan 14. 2016

csv 파일 다루기

개발자가 알아야 할 테크닉

csv 파일은 Comma-separated Values 의 약자이고, 말 그대로 콤마(,)로 구분된 값들이다.

엑셀에서 정리된 데이터를 가져와서 처리하거나, 반대의 경우에 굉장히 유용하다.


csv파일의 특징


첫 줄은 필드명

파일의 첫 줄은 콤마(,)로 구분된 필드명들이다.

이름,나이,성별


한 줄에 한 레코드

이름,나이,성별
sng2c,37,male
"hanson kim",37,male
"hanson "" kim",37,male
anon,,female

- 공백이 들어가면 큰따옴표("") 로 감싸준다.

"hanson "" kim" 의 예처럼 큰따옴표를 넣을 땐, 큰따옴표를 두개 연속으로 써주면 하나의 큰따옴표를 의미한다.

- 값이 없으면 바로 콤마(,)를 붙여 쓴다.


한글은 euc-kr

엑셀은 windows에서 주로 사용되고, 한글 windows는 euc-kr을 사용한다.

그래서 windows로 일하는 사람들에게도 모두 잘 보이려면, euc-kr로 한글을 출력해야 한다.

만약 당신이 맥이나 리눅스를 사용하고 있다면, utf8로 파일을 만든 후, iconv로 쉽게 변환이 가능하다.

iconv -f 'utf-8' -t 'euc-kr' UTF8_DATA.csv > EUCKR_DATA.csv


참고

거의 대부분의 개발언어에는 CSV함수나 모듈이 있다. 모듈을 설치할 수 없는 경우를 제외하고는 제공되는 함수나 모듈을 사용하는 게 현명하다.

PHP

http://rayuela.kr/php/post674/

Python

http://progit.tistory.com/archive/20130701

Ruby

http://knight76.tistory.com/entry/ruby-csv-%EC%B2%98%EB%A6%AC

Java

http://wildpup.cafe24.com/archives/82

작가의 이전글 Lexer의 실용성
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari