26년 1월 23일 흠터레스팅 테크 뉴스

구글 딥마인드 CEO, 섣부른 AI 광고 도입 회의적 외 4건

by florent


Frame 21170.png
개발 업무의 우선순위를 효과적으로 정하는 비결은, 구체적인 목표 성과에 집중하는 데 있습니다.- 제프 패튼, 유저 스토리 매핑
Focusing on specific target outcomes is the secret to prioritizing development work.- Jeff Patton, User Story Mapping


(1) 구글 딥마인드 CEO, "오픈에이아이의 섣부른 광고 도입에 의문"

- Demis Hassabis(DeepMind CEO)는 OpenAI의 빠른 광고 도입에 놀랐다고 발언: “광고 자체는 문제 없지만, AI 비서(assistant)의 신뢰성과 광고의 공존 가능성에 의문” 제기

- Google은 광고 도입을 “신중하게 고민 중”이며, 즉각적인 계획은 없음을 재확인 -> Google 내부적으로도 광고 도입에 대한 상부 압력은 없으며, 무리한 결정은 하지 않겠다고 언급

- OpenAI의 광고 실험: OpenAI는 유료 구독자가 아닌 사용자들을 대상으로 광고를 시험 운영 예정, 8억 명 주간 활성 사용자 중 비구독자 대상 수익화 목적

- 최근 대화 중 앱 제안 기능 실험도 있었으나 사용자 반발로 중단됨 -> 사용자는 이를 “재정적 거래가 없더라도 광고처럼 느껴진다”며 부정적 반응

- Hassabis는 AI 챗봇과 검색 엔진 간의 차이를 지적: 검색은 명확한 사용자 의도를 기반으로 광고 노출하는 반면 챗봇은 개인 맞춤형 비서로, 친밀감과 신뢰가 중요

- Alexa 사례 언급: Amazon이 Alexa에 광고를 도입하려 했을 때 사용자 반감 발생 -> AI 비서가 상품 판매자로 느껴지는 순간 신뢰 붕괴

- Gemini의 개인화 방향성: Google은 Gemini에 Gmail, Photos 등 개인 데이터를 활용한 개인화 기능 출시, 단, 이 개인화는 사용자 동의를 기반으로 하며, 광고 목적과는 분리된 방향

- DeepMind의 제품 철학: Hassabis는 DeepMind가 기술 및 제품에 대해 과학적이고 신중한 접근을 지속해왔음을 강조, 광고도 단기 수익보다는 사용자 경험과 기술 방향성을 고려해 판단할 것

- AI 챗봇의 본질은 '신뢰 기반의 개인 비서': 수익화 전략이 이를 훼손할 경우, 사용자 이탈 가능성 큼- 수익화보다 사용자 경험 우선: 광고가 들어오더라도 경험을 방해하지 않는 'native' 형태가 요구됨- 기능 도입 전에 충분한 사용자 피드백 수집이 필요: OpenAI의 앱 제안 실패 사례에서 보듯, 피드백 없이 밀어붙인 기능은 빠르게 철회됨- AI 개인화와 광고 타겟팅은 명확히 구분해야 함: 유사 기술을 활용하더라도 목적성과 사용자 인식 차이를 명확히 고려해야 신뢰 유지 가능

- https://techcrunch.com/2026/01/22/google-deepmind-ceo-is-surprised-openai-is-rushing-forward-with-ads-in-chatgpt/


(2) AI 에이전트의 지식 노동 벤치마크 점수, 모든 AI 모델 불합격

- Microsoft CEO Satya Nadella는 2년 전 AI가 지식 노동(knowledge work)을 대체할 것이라 예측

- 그러나 현재까지 법률, 금융, 컨설팅 등 고부가가치 직군은 여전히 AI 대체에 둔감 -> AI는 복잡한 리서치와 계획 수립은 잘하지만, 실제 현업 수준에서는 적용이 제한적

- Mercor의 새 벤치마크 'APEX-Agents': 실제 업무 환경 기반의 고난도 지식 노동 태스크 수행 능력을 측정, 벤치마크에 사용된 시나리오는 Mercor의 전문직 마켓플레이스 전문가들이 설계하고 평가

- 예시: GDPR 하의 특정 개인정보 로그 전송이 회사 정책과 유럽 법에 부합하는지 판단, 정답 도출에는 정책 문서와 법률의 종합적 해석 필요, 사람도 어려워할 법한 복합적 질문 설계

- 결과는 주요 AI 모델 전원 ‘불합격’: APEX-Agents 기준, 모든 AI 모델이 25% 이하의 정답률 기록 -> 복수 도메인 간 정보 탐색과 추론에서 심각한 오류 다수

- 실제 업무는 Slack, Google Drive 등 여러 도구에서 맥락을 수집해야 하는데 AI는 이 복잡성에서 취약

- 성능 순위: Gemini 3 Flash 24% (1위), GPT-5.2 23%, Opus 4.5/Gemini 3 Pro/GPT-5: 약 18%

- OpenAI의 GDPval은 광범위한 직군의 일반 지식 테스트인 반면 APEX-Agents는 컨설팅, 투자은행, 법률 등 고도화된 업무에 대한 지속적 task 수행 능력 평가 -> 업무 자동화 가능성을 더욱 실제에 가깝게 평가할 수 있는 벤치마크

- 향후 개선 가능성: Mercor CEO Brendan Foody는 “작년보다 정확도가 두 배 이상 향상”됐다고 언급, 현재는 “정답률 25%짜리 인턴 수준”이지만, 향후 빠른 진보 예상

- 벤치마크가 공개되었기 때문에, 다양한 AI 연구소들이 이를 기준으로 모델 성능 개선에 도전할 것으로 전망

- AI가 실무를 대체하기에는 아직 ‘멀었다’는 정량적 증거: Chat UI에서의 스마트함과 실제 업무의 깊이는 전혀 다른 차원 -> 고부가가치 직군 자동화는 단순 언어 능력 이상의 맥락 추론과 문서 간 통합 사고 능력 필요- AI 벤치마크는 ‘사용자 기대’를 관리하는 기준선이 될 수 있으며, 동시에 모델 개선의 구체적 목표도 제공- 제품 기획 시, AI를 도우미 또는 제안 역할로 포지셔닝하고, 자동화는 점진적으로 적용해야 신뢰를 확보할 수 있음 -> 고객사 또는 내부팀에게 AI 도입 시, 기능적 한계를 명확히 커뮤니케이션할 필요 있음- 향후 수개월 내, APEX-Agents 벤치마크를 기반으로 한 모델 개선 추이 및 경쟁사 대응 전략을 모니터링하는 것이 중요할 것

- https://techcrunch.com/2026/01/22/are-ai-agents-ready-for-the-workplace-a-new-benchmark-raises-doubts/


(3) 메타, 미성년자 보호 관련 재판에서 이례적인 증거 제한 범위 요청

- Meta는 미성년자 보호 실패 혐의로 뉴멕시코주에서 재판에 회부될 예정 -> 뉴멕시코 법무장관 Raúl Torrez가 2023년 말 제소한 사건으로, 미성년자에 대한 온라인 착취·성적 학대·노출 방지 실패가 주요 쟁점

- 재판은 2026년 2월 2일 시작 예정이며, 미국 내 주정부 차원 첫 재판으로 주목

- Meta는 재판에서 사용될 수 있는 증거를 광범위하게 제한하려는 움직임을 보임

- Wired가 확보한 공공 기록에 따르면, Meta가 배제하고자 하는 항목은 다음과 같음: 소셜미디어가 청소년 정신건강에 미치는 영향 관련 연구, 소셜미디어와 관련된 청소년 자살 사례, Meta의 재무 정보, 과거 프라이버시 위반 사례, Mark Zuckerberg의 대학 시절 이력, Meta의 AI 챗봇에 관한 언급, 전 Surgeon General Vivek Murthy의 SNS에 대한 공중보건 경고, 플랫폼의 부적절 콘텐츠 관련 설문조사 (자사 포함)

- Wired와 인터뷰한 법률 전문가 두 명은 Meta의 증거 배제 범위가 이례적으로 광범위하다고 평가: 특히, AI 챗봇이나 내부 설문조사까지 배제를 시도하는 것은 매우 공격적인 전략으로 해석

- Meta의 주장: 해당 정보들은 재판과 무관하거나, 배심원 판단에 부정적 영향을 줄 수 있어 배제돼야 한다고 주장 -> 가능한 한 사건의 범위를 좁히려는 전략적 시도로 보임

- 사용자 안전과 윤리적 설계를 제품 초기 단계부터 통합할 필요가 있음- 특히 미성년자를 대상으로 하는 서비스라면, 법적·사회적 책임 대응 방안을 명확히 갖춰야 함.- AI 챗봇이나 추천 알고리즘 등 신기술 도입 시, 예기치 못한 법적 리스크에 대한 대비 필요: Meta가 AI 챗봇 언급까지 배제하려는 시도는, 이 기술이 실제 소송에서 책임소재 논란의 대상이 될 수 있음을 보여줌- 사회적 신뢰는 기술적 우수성과 별개로 법적 리스크를 관리하는 능력에 의해 결정됨:법적 분쟁은 브랜드 이미지, 사용자 신뢰도, 제품 채택률에 장기적으로 큰 영향을 미침

- https://techcrunch.com/2026/01/22/meta-seeks-to-limit-evidence-in-child-safety-case/


(4) X(구 트위터), AI 논란 속 알고리즘 오픈소스 공개와 쇼에 불과하다는 비판

- 2023년에 이어, 2026년 1월 다시 알고리즘 코드 일부를 오픈소스로 공개: Elon Musk는 약속대로 “유기적 및 광고 게시물 추천에 사용되는 전체 코드”를 공개했으며, 앞으로 4주마다 투명성 보고 예정

- GitHub에 피드 생성 로직을 설명한 문서 및 알고리즘 다이어그램 게시

- 사용자 맞춤 콘텐츠 추천을 위해 고려되는 요소: 사용자 참여 기록 (클릭, 좋아요, 리트윗 등), in-network 콘텐츠 (팔로우한 계정의 최근 게시물), out-of-network 콘텐츠 (비팔로우 계정의 콘텐츠 중 추천될 가능성이 있는 것)

- 필터링 기준: 차단된 계정, 음소거된 키워드, 과도한 폭력성, 스팸성 콘텐츠, 이후 다양성과 관련성에 따라 콘텐츠를 랭킹

- AI 기반 추천 시스템 (Grok Transformer 활용): Grok 기반 Transformer 모델이 사용자 행동을 분석하여 콘텐츠 관련성을 학습, “수작업 피처 엔지니어링 없음” → 모든 콘텐츠 선별과정이 완전 자동화 (자동화는 데이터 파이프라인 및 서빙 인프라의 복잡성 감소에 기여)

- 오픈소스 공개에도 불구하고 실제로는 플랫폼 운영 투명성은 오히려 낮아졌다는 비판도 존재: Twitter → X로 전환되며 비상장화 → 공시 의무 감소

- 과거 연간 수 회 발행하던 투명성 보고서도 2024년 9월에야 첫 발행, 최근 유럽연합으로부터 DSA 위반으로 1.4억 달러 벌금 부과

- Grok 관련 부정 이슈: Grok이 성적 콘텐츠 생성 및 확산에 사용되었다는 논란, 미성년자 포함 이미지 생성 문제가 불거져 캘리포니아 검찰 및 미 의회 조사 진행 중

- 이런 상황에서의 알고리즘 공개는 ‘투명성 쇼(transparency theater)’에 불과하다는 비판도 있음

- 알고리즘 공개는 ‘브랜드 신뢰도 회복’ 수단이자 ‘위기 대응 프레임’으로 활용될 수 있음: 제품이 외부 압박(법률/정책/여론)에 직면했을 때, 기술적 투명성 제스처는 신뢰 회복 전략으로 효과적일 수 있음
- 다른 면으로는, ‘부분적 공개’는 오히려 신뢰를 더 깎는 부작용을 낳을 수 있음 → 실질적 설명력 확보 필요
- 사람 손을 완전히 뗀 자동화된 추천 구조는, 의도치 않은 결과에 대한 대응력 부족 문제를 야기할 수 있음 -> 특히 정치적 편향, 유해 콘텐츠 확산 등 이슈가 발생할 경우, “AI가 결정했다”는 해명은 책임 회피로 보일 수 있음

- https://techcrunch.com/2026/01/20/x-open-sources-its-algorithm-while-facing-a-transparency-fine-and-grok-controversies/


(5) 마이크로소프트, 조직 내부에서 앤스로픽의 클로드 코드 적극적인 활용

- Microsoft는 자사 제품으로 GitHub Copilot을 판매하면서도, 내부적으로는 Anthropic의 Claude Code 도입을 확대 중 -> 특히 비개발자도 사용할 수 있는 직관적인 인터페이스와 사용 편의성 덕분에 Claude Code가 주목받고 있음

- 2025년 6월: Microsoft 개발 부서에서 Claude Sonnet 4 모델 실험 시작, 이후 GitHub Copilot 유료 사용자용으로도 Claude 모델을 일부 채택

- 현재는 Windows, Microsoft 365, Outlook, Teams, Bing, Edge, Surface 등 핵심 제품군을 담당하는 Experiences + Devices 부서까지 Claude Code 설치 지시

- Microsoft의 CoreAI 팀(전 Meta 엔지니어링 수장 Jay Parikh 리드)도 Claude Code를 테스트 중

- 비개발자(디자이너, PM 등)에게도 Claude Code 사용 권장 → 아이디어 프로토타입 제작 활용

- Business & Industry Copilot 팀 전체 코드베이스 및 저장소에서도 Claude Code 사용 승인, 개발자에게는 Claude Code와 GitHub Copilot을 병행 사용하며 성능 피드백 제출 요청

- PM, 디자이너, 비개발자까지 사용하는 '범용 코드 AI'의 가능성: Claude Code는 단순한 개발 보조 도구를 넘어 아이디어 스케치, 기능 시나리오 프로토타이핑 도구로도 기능- Copilot을 자체적으로 보유한 Microsoft조차 외부 AI 솔루션을 적극 수용- AI 도구는 단일 정답이 아닌, 맥락과 역할에 따라 ‘최적 도구’를 병렬로 사용하는 멀티툴 환경 설계 필요- 제품 설계 시, 다양한 팀이 AI 도구를 ‘어떻게 다르게 사용하는지’를 관찰하고 맞춤형 UI/UX 시나리오 제공하는 것이 중요

- https://www.theverge.com/tech/865689/microsoft-claude-code-anthropic-partnership-notepad


작가의 이전글AI 폭풍 속 메모