brunch

매거진 디스플레이 엔지니어의 이야기

라이킷 16 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 첨물 Nov 18. 2023

은퇴 후 직업에 대해

MYGPT를 다마고치처럼 키우워서 파는 데이터분석가

얼마 전 샘알트만의 키노트를 들으며 다시 OPENAI 유료 계정을 다시 신청하였다.

가장 주목을 끄는 것은 자신만의 MYGPT를 만드는 기능이고, 향후 이걸 마켓을 만들어 수익화할 수 있도록 하겠다는 것이었다.

OpenAI DevDay, Opening Keynote

Join us for the opening keynote from OpenAI DevDay — OpenAI’s first developer conference. We’re gathering developers from around the world for an in-person day of programming to learn about the latest AI advancements and explore what lies ahead.

www.youtube.com

그래서 바로 MYGPT를 사용해 보았다.

우선 어떤 종류의 나만의 GPT를 만들어볼까?

며칠 전 수학능력 평가 시험이 있었고, 앞으로 대입 입시 전형으로 자식을 가진 부모나 선생님들은 분주한 날들을 보낼 것이다. 물론 고3 수험생과 재수생들은 자신이 받은 수능 시험 성적을 가지고 어떤 대학을 지원할 수 있는지 정보 수집을 열심히 할 것이다.

그래서 찾아보았다. 대체 복잡하다는 대입 모집 방법들이 뭐가 있는지...

각 대학별로 복잡한 대입 정보 파일들이 있지만 한국대학교육 협의회에서 나온 "대입정보 119" PDF 파일이 가장 기본이 되는 정보로 보인다. 386페이지의 이 정보지를 연구해야 우리 자식들이 받은 수능 점수로 갈 수 있는 가장 적합한 대학을 찾을 수 있다니...

대입정보포털 - 대입정보센터 - 대입전략자료실

www.adiga.kr

그래서 만들어보기로 했다. 2024년 대입 입시 정보를 위한 MYGPT를...

첫 번째 한 것은 잘 모르니 대입정보 119 PDF 파일을 통째로 파일 첨부해서 이걸 이용해서 대입 정보에 대한 답을 달라고 훈련시켰다. 결과는.... 버벅버벅 거리며 답을 제대로 하지 못했다.

이유는 한국의 많은 문서들처럼 AI가 좋아하지 않는 형태의 표들이 많기 때문이다. 가뜩이나 한글을 영어로 변환해서 GPT는 이해할 텐데, 아래와 같은 표처럼 되어 있을 경우, 열별로 같은 종류의 데이터가 들어가야 이해하는 AI로서는 헷갈리만 하다.

그래서 데이터 분석을 하려면 사람이 이해하기 쉬운 WIDE FORM이 아닌 AI가 이해하기 쉬운 LONG FORM으로 변환해야 한다.

이유는 알았는데, PDF파일에서 어떻게 복잡한 테이블을 추출하고, 그걸 다시 LONG FORM으로 바꿀 수 있을까?

나는 R을 이용하여 이 작업을 수행하였다. R은 데이터 전처리 부분에 있어서는 파이썬보다 훨씬 우수한 "dplyr" 패키지가 있기 때문이다. 최근엔 파이썬에서 R의 dplyr 를 가져다 쓰고 R 문법으로 분석하는 파이썬 패키지가 생겨날 정도이니... (헤들리 위컴의 천재성에 다시 한번 감사^^)

R에서 테이블 추출하는 코드는 아래 사이트에 자세히 설명하였다.

https://bigdata-anlysis.tistory.com/47

R을 이용한 PDF 에서 Table 추출하기

2024년 대학 입시 정보 pdf 파일에서 각 대학별 수시, 정시 모집 인원 데이터를 뽑는 작업을 하였다. 우선 rjava를 설치해야 한다. 아래 사이트 참고 https://r-pyomega.tistory.com/6

bigdata-anlysis.tistory.com

그럼 가장 궁금해하는 각 대학별 정시, 수시 전형별 모집 일정이 어떻게 되는지 데이터를 CSV 파일로 만들어 MYGPT에게 먹이 주듯 주고 훈련 시켰다.

내가 만든 2024 대입정보 GPT는 한국의 입시 정보를 정확히 알려주었다.

그러나 일반적인 GPT4에 동일한 질문을 할 경우, 미국 대학 입시 정보를 알려준다.

한국의 정시, 수시 모집 일정으로 다시 물어보면 위키피디아를 접속해서 읽어온다

정확하지 않다. 일단 내가 데이터로 훈련시킨 MYGPT가 훨씬 잘 대답한다.

키우고 있는 MYGPT

https://chat.openai.com/g/g-45fe0HKQl-2024-daeib-jeongbo

대입 정보에 대한 여러 가지 데이터를 잘 정제해서 다마고치 키우듯이 잘 키우고 있다. 하루에 하나씩 밥 주듯이 데이터를 주고, 훈련해 보고 잘했으면 잘했다고 칭찬도 하고...

다만 아직까지 아쉬운 것은 그래프를 그릴 때 한글 폰트를 첨부해서 그리면 위와 같이 잘 그리지만, 저장은 에러가 난다. 아마 소유권에 문제가 될 소지가 있는 파일이 저장되면 에러 표시를 하는 것 같다.

앞으로 은퇴 후 이런 일을 하면서 살 수도 있을까 생각해 봤다.

그리고 그런 모습을 AI한테 그려봐 달라고 했다.

오. 괜찮다. 그런데 오늘 갑자기 샘알트만이 OPENAI에서 잘렸다는 기사를 봤다. 스티브잡스가 자신이 세운 애플에서 해고되었듯이... 뭔 이런 황당한 일이

https://byline.network/2023/11/1118-3/

오픈AI 샘 알트만 CEO 전격 해고…그렉 브록만 의장도 떠나 - 바이라인네트워크

인공지능(AI) 업계에서 가장 유명한 인물인 샘 알트만 오픈AI CEO가 전격 해임됐다. 오픈AI 이사회는 17일(현지시각) 샘 알트만 CEO가 물러나고 미라 무라티 최고기술책임자가 임시 CEO로 뒤를 잇게

byline.network

keyword

첨물 소속 직업 회사원

기술과 사람에 관심을 두고... 디스플레이를 좋아하는 엔지니어

구독자 165

매거진의 이전글 직급이 없어진 조직문화? 2024 CES SHOW 매거진의 다음글

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari