직접 한 번 해보시길!
챗GPT는 OpenAI에서 개발한 인공지능 언어 모델이다. 이 모델은 GPT(Generative Pre-trained Transformer) 아키텍처를 기반으로 하며, 사람과 자연스러운 대화를 나눌 수 있도록 설계되었다.
그런데 챗GPT로 어떤 것들을 할 수 있을까?
여러가지가 있겠지만 데이터 분석을 공부하는 학생이라면, 샘플 데이터를 만들 수 있다는 게
가장 놀라운 일이 아닐까 싶다.
보통 아카데미나 대학교 수업에서 다루는 교재는 숫자로 된 정량데이터인 경우가 많을 것이다.
인터넷에 게시된 불특정 다수의 텍스트 데이터는 본인이 수집해서 분석하는 용도가 아니라면,
공공연히 회람하기 꺼려지기 때문이다.
그런데 텍스트 분석을 연습할 수 있는 방법이 있다.
챗GPT는 마치 SNS 게시물을 직접 수집한 것처럼 샘플 데이터를 만들어 준다.
당장, 명령을 내려 보자.
소셜데이터 예시를 만들거야.
- SNS 커뮤니티 사이트에서 사람들이 실제 게시하는 내용들을 참고로 만들어줘
- 기간은 2023년 1월 1일부터 2023년 12월 31일.
대한민국 사람들의 일본 여행 시즌성을 반영해서 기간별 데이터를 구성해줘.
- 건수는 3만 건 - 주제는 "일본여행", 일본여행을 계획하는 사람들이 하는 이야기로 구성
- 데이터 변수는 "날짜" "사이트명" "ID" "제목" "본문" - "본문"에 들어가는 문장은 3줄 이상으로 구성
GPT가 결과를 뽑아줬다. 놀랍지 않은가?
하지만 여기서 끝내지 않고 내 분석 경험을 총 동원하여
최대한 실제 SNS 게시물 수집 데이터와 유사하게 만들어 보려고 한다.
챗GPT와 문답을 주고 받으며 수없이 데이터를 뜯어 고쳤다.
- 내용이 너무 "질문으로만" 구성되어 있어. 일본 여행을 위해 어떤 제품을 샀다던가,
어디를 가려고 한다거나, 맛집을 알아 봤다든가, 하는 다양한 내용으로 구성해줘
- 제목은 "문장 형태"로 만들어줘
"요청하는 내용"이나 "추천 부탁" 내용 말고 후기 공유, 계획 공유 형태로 전부 바꿔줘
본문에서 동일한 내용이 있다면, 완전히 다른 내용으로 바꿔줘
- 본문 내용을 2배 늘려줘.
- 이미 들어가 있는 여행지에 오키나와, 대마도, 교토, 삿포로, 다카마츠, 도야마, 북해도, 비에이, 히로시마, 시즈오카 넣어줘
- 여행 지역별 언급 분포는 대한민국 사람들이 일본 여행을 많이 하는 데이터를 반영해서 굿성해줘
- 여행할 때 방문하는 장소는, 온천, 료칸, 노천, 디즈니랜드, 유니버셜스튜디오, 오사카성 등과 기타 일본여행으로 많이 방문하는 장소들을 넣어줘 - 여행형태는 주말여행, 가족여행, 커플여행, 혼자하는 여행, 패키지여행, 자유여행 등도 골고루 넣어줘 - 여행기간은 1박2일, 2박3일, 3박4일, 4박5일 등 넣어주고 SNS 상에서 많이 여행가는 기간에 따라 분포해서 넣어줘 - 그리고 장기간 여행으로 "한달살기"에 대한 내용도 넣어줘
- 여행 비용으로 얼마나 예상하는지도 일부 넣어줘
- 모든 게시물이 똑같은 형식의 내용으로 들어갈 필요는 없어. 적절하게 분리해줘
- 여행비용이 모든 게시물에 들어가지 않아도 돼
- 여행기간이 모든 게시물에 들어가지 않아도 돼
- 여행방문 장소가 모든 게시물에 들어가지 않아도 돼
이 데이터는 "데이터 분석용 교재"로 사용할거야.
나는 이 데이터로 SNA 분석도 할거고 LDA 분석도 할거고 워드클라우드도 그릴거야.
그런 데이터 분석 기법을 적용했을 때 의미있게 나올 수 있도록 이 데이터를 다시 구성해 주겠어?
- 그런데 문장의 시작과 끝이 너무 반복적으로 구성되어 있어서 진짜 SNS 데이터 같지가 않아.
- 문장 시작에 "여행을 위해 여러 가지를 준비하고 있어요"가 모든 문장에 반복되는 게 싫어
- 문장 끝에 "너무 설레고 있어요!"가 모든 문장에 반복되는 게 싫어.
진짜 SNS 게시물을 수집한 데이터처럼 자연스럽게 문장들을 다듬어줘
게시물들이 다양한 주제로 얘기하도록 구성되면 좋겠는데 랜덤으로 섞어 줄 수 있어>?
제목이 "여행을 계획하고 있어요" 말고 각자 다른 형식으로 구성되면 좋겠어
본문 내용을 2배로 늘려주고 SNS 상에 있는 게시물들을 참고해서 더 풍부한 얘기들로 구성해봐
다음의 동일하게 들어간 문장들을 '다양한 표현'이나 '다양한 내용들'로 바꿔줘 "방문하려고 합니다."
"둘러볼 생각이에요" "더 특별할 것 같아요" "기대가 많이 됩니다" "기회를 놓치고 싶지 않아요"
SNS나 인터넷에서 대표적인 "일본 맛집 상호명", "일본 음식, 먹거리 종류"의 실제 이름들을 찾아서
'일부 본문 내용'에 반영해줘
맛집 리스트를 뽑아서 데이터에 더 추가해줘.
음식 종류를 더 찾아서 데이터에 추가해줘.
관광지들을 추천해주고, 추천한 관광지들을 일부 데이터에 골고루 반영해줘
- 관광지들을 반영할 때는 해당 게시물에 있는 지역을 고려해서 반영해줘
- 모든 게시물에 반영하지는 않아도 돼
일본 쇼핑 추천 리스트 뽑아줘. 뽑아준 리스트를 데이터에 반영해줘.
전체 본문 내용을 조금 더 늘려서 추천한 쇼핑 리스트를 데이터에 반영해줘.
- 모든 본문 내용에 쇼핑리스트가 들어가지 않아도 돼
수십 가지의 문답을 거친 끝에 SNS에서 막 수집한 것 같은 Raw Data가 만들어졌다.
물론 실제 수집한 것만큼 깔끔하고 자연스럽지는 않다.
하지만, 이 데이터로 워드클라우드, SNA, LDA 등 다양한 빅데이터 분석 방법을 연습해 볼 수 있다.
https://www.youtube.com/@levistyle2211
https://www.youtube.com/watch?v=NyWcgOvTXG8