전 OPENAI 연구원의 AI 후반전에 대한 고찰 정리

Oct 9. 2025

최근 AI와 로보틱스를 같이 하고 있는 스타트업에 이직하면서 AI 및 로보틱스 관련된 아티클이나 논문들을 많이 접하고 있다. 이때 알게된 내용들을 정리하는 것이 좋을 것 같아 틈이 나는 대로 배운 내용들을 정리하고자 한다.

https://www.aitimes.com/news/articleView.html?idxno=202381

오픈AI 연구원, 195억 받고 텐센트로 이직 - AI타임스

텐센트가 오픈AI의 유명 연구원을 영입한 것으로 알려졌다. 이는 미국의 인공지능(AI) 분야에서 중국으로 이적한 가장 눈에 띄는 사례 중 하나로 꼽혔다.불룸버그와

https://www.aitimes.com/news/articleView.html?idxno=202381

한달 전 쯤인가 오픈AI의 중국인 연구원이 텐센트로 이직하면서 수백억 규모의 연봉을 받았다고 한다. 그 연구원이 약 5개월전에 본인 블로그에 AI를 first half와 second half 즉 전반전과 후반전으로 나눠서 지금까지는 AI 기술의 전반전이었다면 이후 후반전에는 어떤 양상으로 바뀔 것인지 또한 무엇이 중요한지에 대한 내용을 담았던 글이 있는데 꽤 resonable 하여 관련 내용을 간단하게 정리해 보고자한다. 관심이 있으신 분들은 한번씩 읽어보는 것이 좋을 것 같다.

AI가 워낙 핫하고 자본도 많이 투입되는 등 숫자로 보여지는 것들을 많으나 실제로 우리 삶을 AI가 바꾸고 있다는 것에 대해서는 의문을 품을 수 있다. 몇몇 분야(코딩, 검색 등)을 제외하고는 나도 아직 AI가 우리의 삶 속에 많이 침투되지 않았다는 것에 동의를 하는데 그 이유가 무엇이고 향후에는 실제 우리 삶을 AI가 바꾸기 위해서는 어떠한 과정을 겪어야 하는지 그리고 지금까지와 어떤 관점의 변화가 필요한지에 대해서 서술되어 있다. 이런 궁금증을 가지신 분들이라면 읽어보는 것을 추천한다.(아마 대부분 이런 생각을 하지 않을까?)

블로그 원문 : https://ysymyth.github.io/The-Second-Half/

The Second Half

tldr: We’re at AI’s halftime.

https://ysymyth.github.io/The-Second-Half/

나의 요약

저자는 AI 판도를 First half 와 Second half 로 나누고 현 시점을 half time 이라고 말합니다

1. First Half

AI의 전반전은 모델 중심으로 발전했다. AlextNet(모델) 논문의 인용수가 ImageNet(데이터)의 3배 정도이며 Transformer의 논문 인용수가 그것의 벤치마크 논문의 100배 정도

전반전에서는 기존 모델의 한계를 뛰어 넘는것이 업계의 주요 관심사였고, AI가 해결하는 Task(번역, 이미지 인식, 체스 등)은 인간이 할 수 있는 것들이었음

2. Second Half

RL(Reinforcement Learning) 을 통하여 후반전이 시작될 것임

RL은 Algorithm, Environment, Prior(사전 지식) 의 3가지로 구성됨. First Half 에서와 마찬가지로 RL도 Algorithm 을 중심으로 발전해 왔음

GPT-2 를 사용해서 millions step 으로 single game을 clear 했는데 다른 game은 깨지 못함

인간은 다른 게임에도 비교적 쉽게 적응해서 clear 하는데 model이 이를 하지 못하는게 의아했음

이는 reasoning(추론)을 통해 일반화가 가능하다고 함

그 예시로 만약 $1M 박스(옳은 결정)과 무한한 $0 박스(옳지 않은 결정)이 있으면 고전적 RL 에서는 최악의 상황임( 옳은 결정을 하기가 매우매우 어려움)

근데 reasoning은 infinite, open-ended 하며 외부 환경에 영향을 주지 않는 내적 요소이기 때문에 문제를 해결 전략을 학습하고 일반화하는 훈련 방법임

Second Half 에서는 평가 방법을 다르게 해야함. 단순히 벤치마크 셋을 더 어렵게 하는 것이 아닌 새로운 방법이 필요 자동화된 평가가 아닌 인간이 개입하는 환경과 같은 real world 에서의 평가 필요 기존의 i.i.d(independently and identically distributed) 데이터 셋 에서의 평가가 아닌 sequential(순차적으로) 문제를 해결해 나가는 방식으로 학습시켜야 함

=> 인간과 이게 가장 비슷하며 장기기억과도 연관된다.

위와 같은 방법을 사용하여 real world 에서 utility(유용성)을 제대로 평가할 수 있는 방법을 만들어야 현실의 문제를 해결하고 수십억, 수조 달러의 회사를 만들 수 있음

keyword

이대승

다음 생에는 스포츠 스타가 되고 싶은 사업가 겸 개발자 입니다. 주요 관심 분야는 IT, 스타트업, 투자, 스포츠입니다. 요즘에는 AI 에이전트에 관심이 많습니다.

팔로워 4

작가의 이전글밸류가 큰 방향을 지향하기멍청한 어른이 애들을 망친다.작가의 다음글