brunch

텍스트 데이터 분석의 기본 과정

Text Data Analysis

by Maven

텍스트 데이터 분석, 이렇게 시작하세요


웹상의 댓글과 리뷰, 설문 응답, SNS 포스트 등 일상 곳곳에 숨은 텍스트 데이터는 우리 비즈니스와 연구에 풍부한 인사이트를 제공합니다. 하지만 “어디서부터 어떻게 손대야 할지” 막막할 때, 이 글에서 단계별로 꼭 알아야 할 핵심 과정을 쉽고 간결하게 정리했습니다.


1. 데이터 수집: ‘원재료’ 확보하기


어디서 데이터를 가져올지가 분석의 출발점입니다.


- SNS·커뮤니티 댓글
트위터, 블로그, 네이버·다음 댓글 등에서 BeautifulSoup나 Selenium으로 스크래핑

- 공공데이터 API
공공데이터 포털의 텍스트형 API 호출

- 직접 생성
ChatGPT에 “제품 후기 샘플 500개 만들어줘” 요청


수집한 데이터는 CSV·JSON·TXT 파일로 저장해 두면 다음 단계 전처리가 한결 수월해집니다.


2. 전처리: 텍스트를 다듬는 법


지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
Maven작가님의 멤버십을 시작해 보세요!

데이터를 분류하고 분석하는 업무를 매일 하고 있지만, 아직도 데이터가 어렵고 무서운 '이류 분석가' 회사원입니다.

205 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 10개의 멤버십 콘텐츠 발행
  • 총 28개의 혜택 콘텐츠
최신 발행글 더보기
매거진의 이전글기업이 SQL을 요구한다는 건?