구글, AI 비교 대상을 클로드로 삼고 있다는 내부 문서 외 2건
[오늘의 인용글 - 시장에서의 성공이란]
시장에서 성공한다는 것이란, 경쟁자들보다 더 큰 고객 가치를 제공하면서 이를 지속 가능한 방식으로 실현하는 것을 의미합니다. 마이클 포터가 30년 이상 전에 처음으로 설명했듯이, 이를 실현하는 방법에는 두 가지 일반적인 접근법이 있습니다. 바로 비용 우위와 차별화입니다.
- 승리의 경영전략
Winning means providing a better consumer and customer value equation than your competitors do, and providing it on a sustainable basis. As Mike Porter first articulated more than three decades ago, there are just two generic ways of doing so: cost leadership and differentiation.
- Playing to Win
(1) AI 훈련을 위한 합성 데이터의 명과 암
- 합성 데이터란 기존 데이터를 기반으로 AI가 생성한 데이터 -> AI 모델 학습에 필요한 데이터를 생성해 실제 데이터 부족 문제를 해결하려는 시도, 예: Meta의 Llama 3.1, Anthropic의 Claude 3.5 Sonnet, OpenAI의 o1 모델
- 데이터의 중요성: AI는 대규모 데이터에서 패턴을 학습해 예측과 결정을 내림 -> 데이터에는 의미를 부여하는 라벨(annotations)이 필요하며, 이는 사람이 직접 작업
- 기존 데이터의 한계: 대규모 데이터 수집이 점점 더 어려워짐, 웹 스크래핑 제한 (OpenAI의 웹 크롤러를 차단하는 상위 웹사이트 35%), 저작권 문제 (Shutterstock, Reddit 등 데이터 제공자가 데이터 접근에 높은 비용 요구), 데이터 부족으로 AI 모델 개발이 2026~2032년 사이 정체될 가능성(Epoch AI 연구)
- 합성 데이터의 장점: 저비용으로 대규모 데이터 생성, 데이터 다양화 (일반적으로 접근하기 어려운 데이터 포맷 생성 가능), 시간 절약 (인간 레이블러보다 빠른 데이터 생성)
- 합성 데이터의 문제점: 'Garbage In, Garbage Out' 문제 -> 훈련된 AI 모델의 편향이 합성 데이터에도 반영될 위험, 특정 집단이 적게 포함된 데이터는 합성 데이터에서도 동일한 왜곡을 발생
- 데이터 품질 저하: Rice 대학 연구 -> 합성 데이터 의존도가 높아질수록 모델 품질 및 다양성이 점진적으로 저하, 오류가 누적되면 "모델 붕괴" 발생 가능 -> 세대가 거듭될수록 모델이 점점 더 단순화되고, 비현실적이거나 질문과 무관한 답변 생성
- 해결 방안과 미래 전망: 현실 데이터와의 병합, 데이터 검증 및 개선
- 합성 데이터의 활용 가능성: Gartner => 2024년 AI 훈련에 사용되는 데이터의 60%가 합성 데이터로 생성될 것으로 예상, OpenAI CEO Sam Altman은 AI가 미래에는 자체 합성 데이터만으로도 스스로 훈련 가능할 것이라 주장
- https://techcrunch.com/2024/12/24/the-promise-and-perils-of-synthetic-data/
(2) 오픈에이아이, 휴머노이트 로봇 개발 검토 중이라는 보도
- 정보 출처: 관련 논의에 대해 직접적으로 알고 있는 두 명의 익명 관계자
- OpenAI는 이전에도 로봇 공학에 관심을 보였으나, 2021년 로봇 공학 부서를 폐쇄하며 이러한 야망을 일단 중단한 바 있음
- OpenAI는 로봇 공학에 직접 관여하지 않았지만, 관련 스타트업에 투자: Figure와 1X (휴머노이드 로봇 개발 스타트업), Physical Intelligence 범용 인공지능(general-purpose AI) 기술 회사
- 최근 몇 년간 하드웨어와 AI 시스템의 발전으로 OpenAI가 해당 분야에 재진입을 고려하는 것으로 보임
- 로봇 공학 분야는 이미 젊고 경쟁이 치열한 시장으로, OpenAI가 새롭게 진입할 경우 기술적 격차를 따라잡아야 함, 경쟁력을 확보하기 위해 대규모 스타트업 인수나 새로운 기술 개발이 필요할 것으로 예상
- https://techcrunch.com/2024/12/24/openai-considered-building-a-humanoid-robot-report/
(3) 구글, 자사 AI 개발을 위한 비교 대상을 클로드로 삼고 있다는 내부 문서 유출
- Google은 Claude의 사용에 대해 Anthropic의 허가를 받았는지 여부를 밝히지 않음
- Gemini 평가 절차: Google의 계약직 직원들은 Gemini와 경쟁 모델의 응답을 비교하며, 진실성, 장황함 등 다양한 기준으로 점수를 매김, 한 프롬프트당 최대 30분을 사용해 응답을 평가 -> 내부 플랫폼에 "Claude"로 식별되는 응답이 등장하며, Claude와 Gemini 간의 비교가 진행
- 안전성 차이: Claude는 가장 엄격한 안전 설정을 적용하며, 안전하지 않은 요청에 답하지 않거나 거부 -> 반면, Gemini는 일부 프롬프트에서 안전 문제를 위반(예: "누드와 결박" 포함 응답).
- 역할극(role-playing) 요청 차이: Claude는 이러한 요청을 거부하지만, Gemini는 응답하며 문제가 발생
- 논란의 핵심인 Anthropic의 이용 약관: 고객은 Anthropic의 모델(Claude)을 경쟁 제품 개발이나 훈련 목적으로 사용할 수 없도록 제한 -> Google은 Anthropic의 주요 투자자로, Claude를 이용한 Gemini 비교 평가가 논란의 중심
- Google 측 입장: Google DeepMind 대변인 Shira McNamara: "Anthropic 모델을 Gemini 훈련에 사용하지 않았다"고 명시, "모델 비교는 업계 표준 절차에 따른 것"이라고 주장
- https://techcrunch.com/2024/12/24/google-is-using-anthropics-claude-to-improve-its-gemini-ai/