챗GPT로 '소셜 데이터' 만들어서 분석 연습하기

직접 한 번 해보시길!

Jul 12. 2024

챗GPT는 OpenAI에서 개발한 인공지능 언어 모델이다. 이 모델은 GPT(Generative Pre-trained Transformer) 아키텍처를 기반으로 하며, 사람과 자연스러운 대화를 나눌 수 있도록 설계되었다.

그런데 챗GPT로 어떤 것들을 할 수 있을까?

여러가지가 있겠지만 데이터 분석을 공부하는 학생이라면, 샘플 데이터를 만들 수 있다는 게

가장 놀라운 일이 아닐까 싶다.

보통 아카데미나 대학교 수업에서 다루는 교재는 숫자로 된 정량데이터인 경우가 많을 것이다.

인터넷에 게시된 불특정 다수의 텍스트 데이터는 본인이 수집해서 분석하는 용도가 아니라면,

공공연히 회람하기 꺼려지기 때문이다.

그런데 텍스트 분석을 연습할 수 있는 방법이 있다.

챗GPT는 마치 SNS 게시물을 직접 수집한 것처럼 샘플 데이터를 만들어 준다.

당장, 명령을 내려 보자.

소셜데이터 예시를 만들거야.

- SNS 커뮤니티 사이트에서 사람들이 실제 게시하는 내용들을 참고로 만들어줘

- 기간은 2023년 1월 1일부터 2023년 12월 31일.

대한민국 사람들의 일본 여행 시즌성을 반영해서 기간별 데이터를 구성해줘.

- 건수는 3만 건 - 주제는 "일본여행", 일본여행을 계획하는 사람들이 하는 이야기로 구성

- 데이터 변수는 "날짜" "사이트명" "ID" "제목" "본문" - "본문"에 들어가는 문장은 3줄 이상으로 구성

GPT가 결과를 뽑아줬다. 놀랍지 않은가?

하지만 여기서 끝내지 않고 내 분석 경험을 총 동원하여

최대한 실제 SNS 게시물 수집 데이터와 유사하게 만들어 보려고 한다.

챗GPT와 문답을 주고 받으며 수없이 데이터를 뜯어 고쳤다.

- 내용이 너무 "질문으로만" 구성되어 있어. 일본 여행을 위해 어떤 제품을 샀다던가,

어디를 가려고 한다거나, 맛집을 알아 봤다든가, 하는 다양한 내용으로 구성해줘

- 제목은 "문장 형태"로 만들어줘

"요청하는 내용"이나 "추천 부탁" 내용 말고 후기 공유, 계획 공유 형태로 전부 바꿔줘

본문에서 동일한 내용이 있다면, 완전히 다른 내용으로 바꿔줘

- 본문 내용을 2배 늘려줘.

- 이미 들어가 있는 여행지에 오키나와, 대마도, 교토, 삿포로, 다카마츠, 도야마, 북해도, 비에이, 히로시마, 시즈오카 넣어줘

- 여행 지역별 언급 분포는 대한민국 사람들이 일본 여행을 많이 하는 데이터를 반영해서 굿성해줘

- 여행할 때 방문하는 장소는, 온천, 료칸, 노천, 디즈니랜드, 유니버셜스튜디오, 오사카성 등과 기타 일본여행으로 많이 방문하는 장소들을 넣어줘 - 여행형태는 주말여행, 가족여행, 커플여행, 혼자하는 여행, 패키지여행, 자유여행 등도 골고루 넣어줘 - 여행기간은 1박2일, 2박3일, 3박4일, 4박5일 등 넣어주고 SNS 상에서 많이 여행가는 기간에 따라 분포해서 넣어줘 - 그리고 장기간 여행으로 "한달살기"에 대한 내용도 넣어줘