brunch

You can make anything
by writing

C.S.Lewis

by Maven Jul 12. 2024

챗GPT로 '소셜 데이터' 만들어서 분석 연습하기

직접 한 번 해보시길!

챗GPT는 OpenAI에서 개발한 인공지능 언어 모델이다. 이 모델은 GPT(Generative Pre-trained Transformer) 아키텍처를 기반으로 하며, 사람과 자연스러운 대화를 나눌 수 있도록 설계되었다.


그런데 챗GPT로 어떤 것들을 할 수 있을까?

여러가지가 있겠지만 데이터 분석을 공부하는 학생이라면, 샘플 데이터를 만들 수 있다는 게

가장 놀라운 일이 아닐까 싶다.


보통 아카데미나 대학교 수업에서 다루는 교재는 숫자로 된 정량데이터인 경우가 많을 것이다.

인터넷에 게시된 불특정 다수의 텍스트 데이터는 본인이 수집해서 분석하는 용도가 아니라면, 

공공연히 회람하기 꺼려지기 때문이다.


그런데 텍스트 분석을 연습할 수 있는 방법이 있다.

챗GPT는 마치 SNS 게시물을 직접 수집한 것처럼 샘플 데이터를 만들어 준다.





당장, 명령을 내려 보자.



소셜데이터 예시를 만들거야. 

- SNS 커뮤니티 사이트에서 사람들이 실제 게시하는 내용들을 참고로 만들어줘 

- 기간은 2023년 1월 1일부터 2023년 12월 31일. 

  대한민국 사람들의 일본 여행 시즌성을 반영해서 기간별 데이터를 구성해줘. 

- 건수는 3만 건 - 주제는 "일본여행", 일본여행을 계획하는 사람들이 하는 이야기로 구성 

- 데이터 변수는 "날짜" "사이트명" "ID" "제목" "본문" - "본문"에 들어가는 문장은 3줄 이상으로 구성



GPT가 결과를 뽑아줬다. 놀랍지 않은가? 

하지만 여기서 끝내지 않고 내 분석 경험을 총 동원하여 

최대한 실제 SNS 게시물 수집 데이터와 유사하게 만들어 보려고 한다.


챗GPT와 문답을 주고 받으며 수없이 데이터를 뜯어 고쳤다.


- 내용이 너무 "질문으로만" 구성되어 있어. 일본 여행을 위해 어떤 제품을 샀다던가, 

  어디를 가려고 한다거나, 맛집을 알아 봤다든가, 하는 다양한 내용으로 구성해줘 


- 제목은 "문장 형태"로 만들어줘

  "요청하는 내용"이나 "추천 부탁" 내용 말고 후기 공유, 계획 공유 형태로 전부 바꿔줘

  본문에서 동일한 내용이 있다면, 완전히 다른 내용으로 바꿔줘


- 본문 내용을 2배 늘려줘. 

- 이미 들어가 있는 여행지에 오키나와, 대마도, 교토, 삿포로, 다카마츠, 도야마, 북해도, 비에이, 히로시마, 시즈오카 넣어줘 

- 여행 지역별 언급 분포는 대한민국 사람들이 일본 여행을 많이 하는 데이터를 반영해서 굿성해줘 

- 여행할 때 방문하는 장소는, 온천, 료칸, 노천, 디즈니랜드, 유니버셜스튜디오, 오사카성 등과 기타 일본여행으로 많이 방문하는 장소들을 넣어줘 - 여행형태는 주말여행, 가족여행, 커플여행, 혼자하는 여행, 패키지여행, 자유여행 등도 골고루 넣어줘 - 여행기간은 1박2일, 2박3일, 3박4일, 4박5일 등 넣어주고 SNS 상에서 많이 여행가는 기간에 따라 분포해서 넣어줘 - 그리고 장기간 여행으로 "한달살기"에 대한 내용도 넣어줘 

- 여행 비용으로 얼마나 예상하는지도 일부 넣어줘


- 모든 게시물이 똑같은 형식의 내용으로 들어갈 필요는 없어. 적절하게 분리해줘 

- 여행비용이 모든 게시물에 들어가지 않아도 돼 

- 여행기간이 모든 게시물에 들어가지 않아도 돼 

- 여행방문 장소가 모든 게시물에 들어가지 않아도 돼


이 데이터는 "데이터 분석용 교재"로 사용할거야. 

나는 이 데이터로 SNA 분석도 할거고 LDA 분석도 할거고 워드클라우드도 그릴거야. 

그런 데이터 분석 기법을 적용했을 때 의미있게 나올 수 있도록 이 데이터를 다시 구성해 주겠어?


- 그런데 문장의 시작과 끝이 너무 반복적으로 구성되어 있어서 진짜 SNS 데이터 같지가 않아. 

- 문장 시작에 "여행을 위해 여러 가지를 준비하고 있어요"가 모든 문장에 반복되는 게 싫어 

- 문장 끝에 "너무 설레고 있어요!"가 모든 문장에 반복되는 게 싫어. 

  진짜 SNS 게시물을 수집한 데이터처럼 자연스럽게 문장들을 다듬어줘


게시물들이 다양한 주제로 얘기하도록 구성되면 좋겠는데 랜덤으로 섞어 줄 수 있어>?


제목이 "여행을 계획하고 있어요" 말고 각자 다른 형식으로 구성되면 좋겠어


본문 내용을 2배로 늘려주고 SNS 상에 있는 게시물들을 참고해서 더 풍부한 얘기들로 구성해봐


다음의 동일하게 들어간 문장들을 '다양한 표현'이나 '다양한 내용들'로 바꿔줘 "방문하려고 합니다." 

"둘러볼 생각이에요" "더 특별할 것 같아요" "기대가 많이 됩니다" "기회를 놓치고 싶지 않아요"


SNS나 인터넷에서 대표적인 "일본 맛집 상호명", "일본 음식, 먹거리 종류"의 실제 이름들을 찾아서

'일부 본문 내용'에 반영해줘


맛집 리스트를 뽑아서 데이터에 더 추가해줘.


음식 종류를 더 찾아서 데이터에 추가해줘.



관광지들을 추천해주고, 추천한 관광지들을 일부 데이터에 골고루 반영해줘

- 관광지들을 반영할 때는 해당 게시물에 있는 지역을 고려해서 반영해줘 

- 모든 게시물에 반영하지는 않아도 돼


일본 쇼핑 추천 리스트 뽑아줘. 뽑아준 리스트를 데이터에 반영해줘.


전체 본문 내용을 조금 더 늘려서 추천한 쇼핑 리스트를 데이터에 반영해줘.

- 모든 본문 내용에 쇼핑리스트가 들어가지 않아도 돼



수십 가지의 문답을 거친 끝에 SNS에서 막 수집한 것 같은 Raw Data가 만들어졌다.

물론 실제 수집한 것만큼 깔끔하고 자연스럽지는 않다.

하지만, 이 데이터로 워드클라우드, SNA, LDA 등 다양한 빅데이터 분석 방법을 연습해 볼 수 있다.




< 여러 과정을 거쳐 탄생한 Raw Data >



< 그리고 SNA 분석 결과 >






https://www.youtube.com/@levistyle2211


https://www.youtube.com/watch?v=NyWcgOvTXG8




매거진의 이전글 실전형 데이터 분석가의 유튜브 시작
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari