brunch

챗GPT로 통계 데이터 분석을 맡겨봤다

by 팟캐김

졸업논문을 쓸 요량으로 여러 데이터를 받아 처리 작업을 해왔다. 지난 주말에는 거의 노가다에 가까운 정리 과정을 거쳐 엑셀 파일 3개를 추렸다. 이제 이 파일에 있는 데이터를 분석하고 상관성과 회귀분석 결과를 내면 논문 뼈대는 마련될 듯하다. 물론 지도교수의 조언에 따라 변형될 여지는 남아 있다.


가설 검증을 위해 우선 데이터를 대충 돌려봤다. 경제학 분야 계량분석에 자주 쓰이는 STATA를 라이선스로 사두었지만 아직 능숙하지 않아, 챗GPT의 에이전트 기능을 적극 활용했다. 엑셀 파일을 첨부하고 상관성 분석을 요청하자 잠시 계산을 하더니 곧 결과를 내줬다. 학계에서 통용되는 수준의 상관계수와 회귀분석 결과였다. 내 가정이 어느 정도 맞다는 사실을 확인할 수 있었다.


image.png?type=w773 특정 데이터에 대한 상관계수를 각각 구해보고 비교해본 것.



이후 STATA 수업 시간에 배운 대로 다시 한 번 분석을 돌려봤다. 이번에는 챗GPT를 옆에 두고 명령 코드를 하나씩 물어보면서 진행했다. STATA는 엑셀 파일을 하나씩 불러와 분석한다는 점도 그 과정에서 처음 알게 됐다.


챗GPT는 프롬프트만 잘 작성하면 알아서 결과를 내주지만, STATA는 엑셀 파일을 병합하고 변수명을 정리하는 과정을 직접 거쳐야 했다. 그래도 경제학 논문에서 표준적으로 쓰이는 도구이니 따라가봤다.


놀란 점은 두 가지다.


① STATA 같은 통계 패키지와 챗GPT 에이전트가 거의 동일한 결과를 냈다는 점이다. 숫자 하나하나를 직접 대조하진 않았지만 결과는 매우 유사했다. 챗GPT 에이전트만 잘 활용하고 학계에서 그 신뢰성을 인정한다면 굳이 별도의 통계 패키지를 쓰지 않아도 되겠다는 생각이 들었다.


② 챗GPT를 활용하면 STATA 명령어를 일일이 외울 필요가 없다는 점이다. 필요한 기능만 물어보면 코드가 나오고, 그대로 입력하면 된다. 이 편리함이 크다.


물론 통계자료를 읽는 눈과 분석 방향성은 사용자가 잡아야 한다. 하지만 프로그램 제작이 과거와 달리 일일이 코드를 짜는 방식에서 훨씬 직관적으로 바뀐 것처럼, 통계 패키지도 더 쉽게 접근할 수 있는 시대가 된 듯하다.


무료 통계 패키지인 R도 유명하다. 파이썬에 대한 기본 지식과 통계 이해만 있다면 충분히 시도할 수 있을 것 같다. 생성형 AI는 내가 할 수 있는 영역을 확실히 넓혀주고 있다. 외국어, 코딩, 데이터 분석까지 혼자서도 해낼 수 있으니 예전보다 효율성이 높아졌다.


어쩌면 AI는 머지않아 우리가 지금 당연하게 쓰는 엑셀이나 워드와 같은 위치에 오를지 모른다. 타자기 시대와 비교할 수 없을 만큼 효율성을 끌어올린 것처럼, AI 역시 새로운 표준 도구가 될 가능성이 크다.


통계 패키지??


통계 패키지 프로그램은 방대한 데이터를 체계적으로 정리하고 분석하기 위해 학계와 연구 현장에서 널리 쓰인다.


대표적인 예로 STATA는 경제학과 사회과학 분야에서 회귀분석, 패널 데이터 분석 등에 특화돼 있어 논문 작업에 자주 활용된다. SPSS는 비교적 직관적인 인터페이스 덕분에 사회과학 초심자들이 설문조사나 기초 통계를 다룰 때 유용하다. SAS는 대규모 데이터 처리에 강점을 가지고 있어 보건·의학 분야에서 널리 쓰이고, R은 무료이면서도 확장성이 뛰어나 학계와 산업계 모두에서 인기가 높다.


최근에는 파이썬(Python)이 오픈소스 기반으로 데이터 분석 라이브러리를 풍부하게 갖추면서 통계 패키지를 대체하거나 보완하는 도구로 자리 잡고 있다.




keyword
매거진의 이전글대학원 진학을 준비하는 직장인이 있다면-2