ChatGPT-o1 성능 리뷰 및 활용

Oct 6. 2024

들어가며

AI의 발전은 매일 새로운 혁신을 선보이며 우리의 일상과 업무 방식을 변화시키고 있습니다. 이러한 흐름 속에서 OpenAI는 더욱 진화된 모델인 ChatGPT-o1을 선보이며 AI의 새로운 가능성을 제시하고 있습니다. 이번 리뷰에서는 ChatGPT-o1의 주요 기능과 성능 향상에 초점을 맞춰 이전 버전과 비교했을 때 어떤 점이 개선되었는지 자세히 살펴보겠습니다. 이를 통해 ChatGPT-o1이 실무의 다양한 분야에서 어떻게 활용될 수 있는지 알아보겠습니다.

1. ChatGPT-01 업데이트 내역

OpenAI는 얼마전 새로운 생성형 AI 모델 시리즈인 'OpenAI o1-preview'를 릴리즈 했습니다. 이 모델은 복잡한 과제를 해결하고 과학, 코딩, 수학 분야에서 이전 모델보다 더 어려운 문제를 풀 수 있도록 설계되었습니다. o1-preview는 문제에 대해 더 오래 생각한 후 응답하도록 훈련되었으며, 물리학, 화학, 생물학 분야의 어려운 문제를 해결할 수 있게 되었습니다. 특히 수학과 코딩 능력이 뛰어나, 미국 수학경시대회 AIME 시험에서 83%의 정답률을 기록했고, Codeforces 대회에서 89번째 백분위에 도달했습니다.

이번 업데이트에는 안전성 개선도 포함되어 있습니다. OpenAI는 새로운 안전 훈련 접근 방식을 개발하여 모델이 안전 및 정렬 지침을 더 효과적으로 따르도록 했습니다. 또한 미국과 영국의 AI 안전 연구소와 협력을 강화하고, 내부 거버넌스를 강화했습니다. 개발자들을 위해 더 빠르고 저렴한 'OpenAI o1-mini' 모델도 함께 출시되었으며, 이는 o1-preview보다 80% 저렴하면서도 추론이 필요한 애플리케이션에 효과적인 솔루션을 제공합니다.

2. ChatGPT-01 성능 리뷰

미국 경시대회 AIME 시험에서 83%의 정답률을 기록했다고 하여, 저도 2024년도 국가공무원 5급 필기시험(PSAT) 중 '3교시 상황판단' 문제를 통해 ChatGPT-4o와 ChatGPT-o1의 성능을 직접 비교해 보았습니다. 상황판단은 복잡한 비즈니스 환경에서 올바른 의사결정을 내리는 능력을 평가하기 때문에, AI를 실무에 활용할 가능성을 간접적으로 검토하기에 적합한 분야라 생각하여 상황판단 영역을 테스트 대상으로 선정하였습니다.

1. 2024년도 국가공무원 5급 필기시험(PSAT) 중 '3교시 상황판단' 문제

상황판단 문제.pdf

2. 2024년도 국가공무원 5급 필기시험(PSAT) 중 '3교시 상황판단' 정답

상황판단 최종정답.pdf

각 모델을 활용하여 테스트한 상황판단 영역 성적은 다음과 같습니다.

ChatGPT-4O: 37.5점 (틀린 문항: 4번, 5번, 9번, 10번, 11번, 12번, 13번, 15번, 16번, 17번, 18번, 19번, 20번, 21번, 24번, 27번, 28번, 29번, 31번, 33번, 34번, 35번, 36번, 37번, 38번)

ChatGPT-O1: 70점 (틀린 문항: 10번, 14번, 16번, 18번, 31번, 32번, 33번, 34번, 35번, 36번, 37번, 40번)

또한, 법률해석 및 응용문제에 대한 성적은 다음과 같습니다.

ChatGPT-4O: 10문제 중 6문제 정답
ChatGPT-O1: 10문제 모두 정답

총점은 기대에 미치지 못했으나, 법률 해석 및 응용문제에서 ChatGPT-o1이 모든 문제를 맞춘 것은 기업 내 규정 해석 및 적용과 같은 실무에서 AI 활용 가능성을 기대하게 합니다. ChatGPT는 그동안 규정 해석에서 약한 모습을 보여왔으나, 이번 테스트 결과를 통해 이러한 능력이 지속적으로 개선된다면 '취업규칙' 데이터만 그대로 넣으면 챗봇이 이를 효과적으로 해석할 수 있는 날이 머지않았음을 시사합니다. (법률문제: 1, 2, 3, 4, 5, 21, 22, 23, 24, 25번)

3. ChatGPT-o1로 프로그램 만들기

1) 자동 이메일 발송 프로그램 만들기

ChatGPT-o1을 활용해 성공적으로 이메일 자동 발송 프로그램을 만들어보았습니다. 우선 ChatGPT-o1과 대화를 통해 CSV를 탑재하고 a열에는 이름, b열에는 이메일 주소, C열에는 보내고자 하는 이메일의 대략적인 개요를 넣고 프로그램에 탑재하면, 네이버 SMTP 연동을 통해 네이버 계정으로 자동 발송 될 수 있도록 하는 프로그램을 만드는 Python 코드를 작성해 달라고 요청하였습니다. ChatGPT-4o 보다 더 코드도 길고 고퀄리티의 프로그램 코드를 어렵지 않게 작성해 주었습니다.

[Prompt]

a열 이름
b열 이메일 주소
c열 간략하게 쓰고 싶은 내용 개요

3가지 정보가 들어가 있는 csv를 넣으면 자동으로 메일 내용을 생성해 주고, 발송까지 해주는 프로그램을 Python 코드로 만들어 줘.

- 파일은 직접 탑재하게 하고, open api key하고도 연결해 줘
- 어조는 메뉴에서 직접 선택할 수 있게 해줘
- a열 '이름', b열 '이메일 주소', c열 '간략하게 쓰고 싶은 내용 개요'에 대한 설명을 메인 화면에 표시해 줘
- 메일은 네이버 계정으로 해줘.
- open api key, 이메일 주소 비밀번호는 메뉴에서 직접 입력할 수 있게 해줘.
- SMTP 서버 주소와 포트를 사용자가 선택할 수 있게 해 줘.
- Streamlit 라이브러리로 만들어줘.

위 프로그램 내에 아래 CSV 파일을 탑재하고 SMTP 설정, 이메일 어조 등을 선택한 후 '이메일 생성 및 발송' 버튼을 클릭하면 아래와 같이 이메일이 자동을 발송이 됩니다. 이름, 이메일 주소, 간략하게 쓰고 싶은 내용 개요를 각각 넣어주면 한꺼번에 다른 사람에게 맞춤형 내용으로 대량 메일 발송도 가능합니다.

이 작업을 하면서 생성형 AI를 잘 활용하면 노코드 프로그램의 도움 없이도 충분히 RPA 프로그램을 만들 수 있겠다는 생각이 들었습니다. 여러분은 어떻게 생각하시나요? 생성형 AI의 잠재력이 점점 더 기대되지 않나요?

2) HR Dash Board

ChatGPT-o1에는 아직 파일 탑재 기능이 없어서, ChatGPT-4o와 ChatGPT-o1을 함께 활용하며 데이터 분석을 진행해 보았습니다. 먼저 ChatGPT-4o에 IBM HR 데이터를 탑재하고 GitHub에서 다운로드한 Dash 이미지를 첨부한 후 아래와 같이 명령하였습니다.

[IBM HR Data], [HR Dash Board 이미지]
탑재한 파일을 분석하고 아래 내용을 충족하는 Python 코드를 작성해 줘.
- 해당 변수들은 클릭해서 해당 변수의 통계 시각화를 볼 수 있게 만들어줘: Department, Gender, JobRole, JobLevel
- 해당 변수들은 위 클릭한 변수에 따라 통계가 시각화될 수 있도록 해줘: Attrition, EnvironmentSatisfaction, HourlyRate, Jobinvolvement, Jobsatisfaction, Monthlyincome, PerformanceRating, YearsAtCompany
- 실제 HR 대시보드처럼 한 페이지에 모든 정보가 잘 보일 수 있게 그래프를 잘 배치해줘.
- 탑재한 대시보드 이미지처럼 만들어줘.

[IBM HR Data 파일]

WA_Fn-UseC_-HR-Employee-Attrition.csv

[HR Dash Board 이미지]

HR Dash Board 이미지

[참고] IBM HR Data 외 민감한 데이터를 탑재로 인해 개인정보 혹은 보안상 문제가 생길 것으로 우려되는 경우에는 아래와 같이 CSV 파일 내용 중 1행(열 제목)과, 2행(첫번째 데이터)만 넣고, 데이터 전체 형태를 설명해줘도 수행 가능합니다.

IBM HR 데이터를 ChatGPT-4o로 HR 대시보드를 만들 시에는 대시보드가 다소 어설프게 도출되는 경우도 있었지만, ChatGPT-o1으로 작업을 할때는 ChatGPT-o1이 제시해준 파이썬 코드르 그대로 써도 거의 완벽한 대시보드를 만들어냅니다.

나가며

이번 ChatGPT-o1 리뷰를 통해 OpenAI의 새로운 모델이 기존 버전보다 얼마나 많은 발전을 이루었는지 확인할 수 있었습니다. 특히 복잡한 문제 해결과 논리적 사고 능력에서 큰 향상을 보인 ChatGPT-o1은 다양한 분야에서 실무적으로 활용될 가능성이 큽니다. 법률 해석과 같은 전문 분야에서도 높은 성과를 보인 점은 특히 주목할 만합니다. 또한 o1-mini의 출시로 비용 효율적인 모델 사용도 가능해졌으며, 향후 기능 추가와 지속적인 업데이트를 통해 더욱 강력한 도구로 거듭날 것으로 기대됩니다. AI의 발전이 우리의 업무와 일상에 가져올 긍정적인 변화를 기대하며, ChatGPT-o1의 향후 발전을 주목해 보아야겠습니다.

Reference

alfie-danish GitHub, https://github.com/Franky1/hr-dashboard-streamlit

사이버국가고시센터 선택형 문제/정답 https://www.gosi.kr/cop/bbs/selectGosiQnaList.do

keyword

매거진의 이전글2024 People Analytics 컨퍼런스휴넷 FORESIGHT KOREA 2025 참석 후기매거진의 다음글