매거진 TaPick

업스테이지 AI 모델 논란이 남긴 것

TaPick #101

by 팀어바웃

1. 새해 첫날, 국내 AI 업계가 발칵 뒤집혔습니다. 사이오닉AI 고석현 대표가 SNS에 깃허브 분석 리포트를 공개하며 의혹을 제기한 겁니다. 정부의 '독자 AI 파운데이션 모델' 프로젝트에 참여 중인 업스테이지의 '솔라 오픈 100B'가 중국 지푸AI의 'GLM-4.5-에어'를 복사해 미세조정한 결과물로 보인다는 주장이었습니다. 근거는 두 모델의 레이어정규화(LayerNorm) 파라미터가 96.8% 일치한다는 분석이었죠. 국가대표 AI 선발전에서 중국 모델 표절 의혹이 대두되자, 큰 파장이 일었습니다.


2. 업스테이지는 다음 날 곧바로 공개 검증회를 열었습니다. 70여 명의 업계·정부 관계자가 참석하고 2천여 명이 유튜브로 지켜보는 가운데, 김성훈 대표는 학습 로그와 체크포인트를 전면 공개했습니다. 핵심 반박은 이랬습니다. 문제가 된 레이어 정규화는 모델 전체의 0.0004%에 불과한 미세 영역이고, 업계에서 관례적으로 초기값을 1.0으로 설정하기 때문에 어떤 모델과 비교해도 유사도가 높게 나온다는 것입니다. 실제로 메타 라마, 마이크로소프트 파이 등 다른 모델과 비교해도 비슷한 수치가 나왔습니다.


3. 더 결정적인 증거는 '손실값(Loss)' 기록이었습니다. '프롬 스크래치'로 학습한 모델은 초기에 손실값이 높다가 학습이 진행되며 점차 낮아집니다. 아무것도 모르는 상태에서 시작하니 처음엔 오답이 많고, 배워가며 정답률이 올라가는 거죠. 업스테이지의 솔라 오픈은 초기 손실값이 1.95로 높았다가 15만 회 학습 후 1.75 미만으로 떨어졌습니다. 반면 기존 모델을 가져와 미세조정하면 처음부터 손실값이 낮게 나옵니다. 이미 학습된 '지능'을 물려받았으니까요. 업스테이지는 이 기록을 '육아일기'에 비유했습니다. 아이가 백지에서 글을 배워가는 전 과정이 담겨 있다는 겁니다.


4. 결국 3일 고석현 대표가 공개 사과하며 논란은 일단락됐습니다. 앞서 제시한 근거들로 모델을 복사했다는 결론을 내리기는 어렵다며, 엄밀하게 검증하지 않은 채 공개해 불필요한 혼란을 야기한 점에 대해 진심으로 사과한다고 밝혔습니다. 의혹 제기부터 공개 검증, 사과까지 사흘 만에 민간 자율로 마무리된 셈입니다.


5. 이번 논란은 중요한 숙제를 남겼습니다. 현재 '프롬 스크래치'의 명확한 기준이 없다는 것이 큰 문제입니다. 아키텍처(설계도)는 글로벌 표준을 따르되 가중치(학습된 지능)는 자체 확보해야 한다는 게 업계 중론이지만, 어디까지가 '독자'인지 세부 지침은 부재합니다. 이번엔 참여 기업이 스스로 증명해냈지만, 다음번엔 어떨까요. 이미 네이버클라우드 또한 유사한 논란에 휩싸였는데요. 'K-AI'라는 이름에 걸맞는 명확 기준이 없다면 이러한 논란은 계속될지도 모릅니다.


https://www.newsis.com/view/NISX20260106_0003467236


하루 하나의 뉴스, 하루 하나의 예술 당신의 하루를 더 풍요롭게❤️

카라바조, 의심하는 성 도마(The Incredulity of Saint Thomas), 1601-1602.

1767763836172?e=1769644800&v=beta&t=tKWaKCYx8YhNo3Rs68lkuIuyzJrkkVkK5QZZfZ4av_8


keyword
매거진의 이전글유튜브 vs 빌보드, 누구의 '1회'가 더 중요한가