파이썬으로 데이터 분석하기
이번 글에서는 파이썬의 데이터 유형(type) 가운데 하나인 문자열에 대해서 배워보고자 한다. 기본 개념은 어렵지 않지만 문자열 데이터를 자유자재로 다루는 것은 향후 데이터 분석에 있어 기본기라 할 수 있을 만큼 중요하다. 예를 들어 특정 데이터에서 이름만 추출하거나 혹은 문자열에 수나 변수를 합쳐 결과를 출력하는 것 등이다.
우선 문자열이란 어떤 데이터를 말하는 것일까? 앞에서 공부한 대로 단순히 문자나 단어로 구성된 문자들의 집합뿐만 아니라 !나 ? 같은 기호, 공백 등을 모두 포함하는 말이다. 어떤 단어든 기호든 공백이든 따옴표 혹은 쌍따옴표로 감싸면 문자열이 되고 심지어 다른 데이터 유형인 수 역시 따옴표나 쌍따옴표로 감싸면
수가 아닌 문자열이 된다.
쌍따옴표를 쓰던 따옴표를 쓰던 차이는 없다. 다만 문자열 내에 따옴표가 사용되었다면 문자열 전체에는 쌍따옴표를 사용하고, 문자열 내 쌍따옴표가 사용되었다면 문자열 전체에는 따옴표를 사용하는 것이 혼란을 방지할 수 있을 것이다.
실제로 같은 따옴표로만 사용하면 혼란(오류)이 발생한다. 이럴 때는 백슬래쉬(\)를 써서 해결할 수도 있는데 백슬래쉬를 따옴표나 큰 따옴표 앞에 사용하면 그 따옴표나 큰 따옴표는 더 이상 문자열을 둘러싸는 기호가 아닌 따옴표라는 문자 자체를 의미하게 된다.
문자열의 줄을 변경하고 싶다면 어떻게 해야 할까? 앞서 프린트 함수의 선택적 키워드 인수에서도 잠깐 나왔지만 프린트 함수의 경우 줄바꿈이 기본 설정값(end='\n')이다. 즉, print() 안의 내용이 끝나면 기본적으로 줄바꿈이 된다.
마찬가지로'\n'라는 이스케이프 코드를 사용하면 print() 안의 내용이 끝나지 않아도 줄을 바꿀 수 있다. 이스케이프 코드란 프로그래밍할 때 사용할 수 있도록 미리 정의해 둔 문자 조합으로, 여기서 n은 ‘newline’을 의미한다.
혹은 따옴표 세 개로 문자열을 감싸거나 큰 따옴표 세 개로 문자열을 감싸면 자동으로 줄바꿈이 된다. 문자열이 여러 줄인 경우 이 방법이 나을 수 있겠다.
파이썬은 같은 문자열끼리 더하거나 문자열에 숫자를 곱할 수도 있다. 우선 문자열끼리 더해서 새로운 문장을 만들어 보자.
문자열끼리 더하는 것은 그 안에 띄어쓰기만 적절히 넣어주면 자연스러운 문장으로 연결할 수 있다. 그런데 이 때 숫자가 들어 있다면 숫자를 문자열로 바꾸어야 문자열과 연결할 수 있다. 수를 따옴표나 쌍따옴표로 묶어 문자열로 바꾸거나 str() 함수를 사용하면 수를 문자열로 변환할 수 있다.
문자열에 숫자를 곱하면 어떻게 될까? 문자열을 특정 횟수만큼 반복하고 싶을 때 문자열에 숫자를 곱하면 된다.
문자열과 관련해 은근히 알아둬야할 잔기술들이 많아 다음 글에서 이어서 문자열 다루기를 좀 더 알아보자.
* 참고자료
캐글 강의 https://www.kaggle.com/learn/overview
점프투파이썬 https://wikidocs.net/book/1
파이썬 초보 학습자를 위한 4시간에 배우는 파이썬 기초문법
https://joshua-mobile-choi-1756.trinket.io/python-3-4#/tasks/task-1-print-statement
How to think like a computer scientist : Learning with Python 3