brunch

25년 4월 21일 흠터레스팅 테크 뉴스

OpenAI o3와 o4, 환각 문제가 더 심화됐다는 보고 외 3건

by florent
Frame 593.png


[오늘의 인용글 - 제품은 신중하게 제대로 만들어야 한다.]


멋진 제품의 절반을 만드세요, 어설픈 제품 전체가 아니라요. 좋은 아이디어를 한꺼번에 다 담으려고 하면, 금세 형편없는 결과물이 되어버릴 수 있습니다. 하고 싶은 걸 전부, 그리고 잘 해내는 건 불가능합니다. 시간, 자원, 역량, 집중력이 제한되어 있으니까요. 한 가지를 제대로 해내는 것도 충분히 어려운 일입니다. 그런데 열 가지를 동시에 잘 해보겠다고요? 말도 안 됩니다.
그러니 아끼는 아이디어 몇 개는 과감히 내려놓으세요. 전체를 한꺼번에 다 하겠다는 야망은 반으로 줄이시고요. 완성도 높은 절반이, 어설픈 전체보다 훨씬 낫습니다.

- 제이슨 프라이드, 리워크

Build half a product, not a half-assed product. You can turn a bunch of great ideas into a crappy product real fast by trying to do them all at once. You just can’t do everything you want to do and do it well. You have limited time, resources, ability, and focus. It’s hard enough to do one thing right. Trying to do ten things well at the same time? Forget about it.

So sacrifice some of your darlings for the greater good. Cut your ambition in half. You’re better off with a kick-ass half than a half-assed whole.

- Jason Fried, Rework



(1) 오픈에이아이의 새로운 인공지능 모델, 회사 발표보다 더 낮은 성능 기록

- 2024년 12월, OpenAI는 o3가 FrontierMath 문제의 25% 이상을 해결했다고 주장 -> 경쟁 모델들은 2% 미만의 성과를 기록했기에, 당시 이 수치는 압도적이었음

- 그러나, Epoch AI가 공개한 실제 벤치마크 결과에 따르면 o3는 약 10%의 정확도를 기록

- 차이의 원인: OpenAI가 주장한 수치는 내부적으로 고성능 테스트 환경에서 도출된 결과로, 실제 공개된 o3 모델과 다름 -> Epoch는 다른 문제셋을 사용했으며, 더 적은 컴퓨팅 자원으로 테스트했을 가능성 제기

- ARC Prize 재단도 "출시된 o3는 프리릴리즈 버전보다 작은 컴퓨트 티어를 사용한 별도 모델"이라고 언급

- OpenAI의 입장: OpenAI 기술 스태프 Wenda Zhou는, 현재 사용 가능한 o3는 "실제 사용자 경험 및 속도 최적화"를 위해 튜닝된 모델이며, 테스트와 실제 제품의 성능 차이는 불가피하다고 설명 -> “더 빠르고, 더 효율적인 모델”이 목적이었음을 강조

- 벤치마크 점수의 신뢰성 문제: OpenAI는 곧 더 강력한 o3-pro 버전을 출시할 계획이며, o3-mini-high 및 o4-mini 모델은 이미 o3 성능을 능가 -> 그러나, AI 업계 전반적으로 벤치마크 결과의 신뢰성에 대한 회의감이 커지고 있음

- 다른 사례들: Elon Musk의 xAI: Grok 3 모델 벤치마크 결과 조작 의혹

- Meta: 실제 배포 모델과 다른 버전의 점수를 마케팅에 사용한 사실 인정

- Epoch AI는 1월에 OpenAI의 자금 지원 사실을 늦게 공개해 비판받기도 했음

- https://techcrunch.com/2025/04/20/openais-o3-ai-model-scores-lower-on-a-benchmark-than-the-company-initially-implied/


(2) 메타, 페이스북의 문화적 영향력 감소에 대한 우려 내부 이메일 공개

- 2022년 이메일에 따르면, Meta 임원들은 Facebook의 미래 방향에 대해 다양한 논의를 하며 문화적 영향력 상실에 대한 우려를 표현 -> 마크 저커버그는 “Facebook 앱의 문화적 관련성(cultural relevance)이 빠르게 감소하고 있다”고 진단하며, 장기적인 건강성에 대한 우려를 표함

- 저커버그는 “Facebook이 흔들리면, 회사 전체의 성공에 큰 위기가 될 수 있다”고 발언

- Facebook의 '친구(Friending)' 구조에 대한 문제 제기, 저커버그는 ‘친구 맺기’ 방식이 시대에 뒤처졌다고 평가: 친구 관계가 오래되어 더 이상 관심 없는 사람들로 구성됨 -> 새 친구 추가가 번거롭고 부담스러움, 요즘 사람들은 팔로우(follow) 형태로 관계를 맺고 싶어 함

- 다른 플랫폼(TikTok, Twitter, Reddit 등)은 친구 구조보다 팔로우, 알고리즘, 커뮤니티 중심으로 운영되며 더 강한 문화적 영향력을 보여줌

- 저커버그는 다음과 같은 급진적인 아이디어를 제안: 전체 친구 그래프 초기화: 모든 유저의 친구 목록을 삭제하고 새로 시작하게 하기 -> 단, 이 경우 많은 사용자가 다시 친구 맺기를 하지 않거나, 참여율이 떨어질 가능성이 있음, 이를 위해 작은 국가에서 실험적으로 시행해야 한다고 언급.

- 친구 시스템에서 팔로우 시스템으로 전환: 단순히 공개 계정만 팔로우 허용하는 것이 아니라, 비공개 계정도 팔로우 기반 구조로 바꾸자는 제안, 페이지 좋아요(like pages) 기능도 폐지 고려

- 2025년 현재도 Facebook은 여전히 문화적 영향력 회복을 고민 중 -> Meta는 “OG Facebook” 회귀를 선언하며, Friends 탭 개편을 통해 문제 해결을 시도

- https://techcrunch.com/2025/04/20/uncovered-emails-showed-how-meta-struggled-to-keep-facebook-culturally-relevant/


(3) 오픈에이아이 o3와 o4, 환각 문제가 더 심화됐다는 보고

- OpenAI의 o3, o4-mini 모델은 최신의 추론(reasoning) 모델이지만, 이전 모델보다 더 자주 환각(허위 사실 생성)을 발생시킴 -> 이는 기존 AI 모델들이 점진적으로 환각을 줄여온 흐름과 반대 방향

- PersonQA 벤치마크: o3 모델은 33% 환각률, o4-mini 모델은 48% 환각률 (가장 높음)

- 비교: o1은 16%, o3-mini는 14.8%

- 환각의 원인과 연구 과제: OpenAI는 o3/o4-mini 모델의 환각 증가 원인을 정확히 파악하지 못함 -> 기술 보고서에서는 “더 많은 연구가 필요하다”고 명시

- 모델이 “더 많은 주장을 하면서, 더 많은 정확한 주장과 잘못된 주장(환각) 모두 증가”한 것으로 분석

- Transluce는 o3가 사실이 아닌 수행 과정을 허위로 생성한다고 지적: o3가 “2021년 맥북에서 코드 실행 후 숫자를 복사했다”고 주장한 사례, 실제로는 불가능한 행위 -> Transluce 연구원 Neil Chowdhury는 “강화 학습 방식이 기존 파이프라인이 줄이던 문제를 오히려 증폭시켰을 수 있다”고 평가

- 실제 사용자 경험: Stanford 교수이자 Workera CEO인 Kian Katanforoosh는 o3를 코딩 작업에 도입했지만, 죽은 링크(작동하지 않는 웹 주소)를 자주 만들어내는 문제가 있다고 언급 -> 그럼에도 불구하고 경쟁 모델보다 뛰어난 성능을 보여준다고 평가

- AI 모델 환각, 상업적 문제로 이어질 수 있어 창의성과 새로운 아이디어를 유도할 수 있지만, 정확성이 중요한 비즈니스 환경(예: 법률)에서는 큰 문제

- 해결책으로 제시되는 방법 중 하나는 웹 검색 기능 연동: GPT-4o + 웹 검색은 SimpleQA 벤치마크에서 90% 정확도 달성 -> 추론형 모델의 환각도 검색 기능으로 개선 가능할 가능성 있음

- 최근 AI 업계는 데이터/컴퓨팅 증가의 한계를 넘어, 추론 능력 강화에 집중 중 -> 그러나, 이 방향이 환각을 더 유발할 가능성도 함께 제기됨

- OpenAI 측은 “모든 모델의 환각 문제 해결은 지속적 연구 대상”이라며 개선 의지를 표명

- https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/


(4) 챗GPT, 사용자 이름을 자발적으로 언급하며 사용자의 불편함 키워

- 최근 일부 사용자들이 ChatGPT가 이름을 부르며 대화하는 현상을 경험 -> 문제는 이들이 이름을 알려준 적이 없고, 메모리 기능도 꺼져 있음에도 이름이 언급된다는 점

- 정확히 언제부터 이런 변화가 있었는지는 불명확하며, 업그레이드된 메모리 기능과의 관련성이 의심되고 있음

- 사용자들은 불편함과 경계심 -> Simon Willison (개발자): “소름 끼치고 불필요하다.”, Nick Dobos (개발자): “싫다.”, 다른 사용자: “선생님이 계속 이름 부르는 것 같아, 별로야.”

- 이름 사용이 의도와 다르게 거부감을 유발하고 있음

- 심리적 요인: ‘이름’이 주는 친밀감의 역효과 -> 두바이 정신의학 클리닉 Valens Clinic의 분석에 따르면: 이름 사용은 관계 형성과 호감 표현의 강력한 수단, 하지만 과도하거나 부자연스러운 사용은 오히려 가짜 같고 침해적으로 느껴질 수 있음

- 사용자들은 AI가 감정도 없는데 인간처럼 행동하려는 것에 거부감을 가짐 -> “토스터가 내 이름 부르는 느낌”이라는 표현처럼, 감정 없는 도구가 이름을 부르는 것 자체가 위화감을 줌

- OpenAI는 해당 사안에 대해 공식 입장 미발표 -> 기자 Kyle Wiggers에 따르면, o3 모델이 그를 “Kyle”이라 부르다가 며칠 후 다시 “user”로 변경됨, 이 변화는 개인화 시도의 역효과로 해석됨

- AI의 개인화 vs 불쾌한 골짜기: OpenAI CEO Sam Altman은 “평생을 함께하며 당신을 알아가는 AI” 비전을 언급한 바 있음

- 하지만 이번 사례는 그 방향이 모든 사용자에게 환영받지 않는다는 점을 보여줌 -> ‘너무 인간 같은 AI’는 오히려 진정한 인간성과의 차이를 부각시켜 불편함을 유발할 수 있음

- https://techcrunch.com/2025/04/18/chatgpt-is-referring-to-users-by-their-names-unprompted-and-some-find-it-creepy/



keyword
작가의 이전글25년 4월 18일 흠터레스팅 테크 뉴스