25년 5월 16일 흠터레스팅 테크 뉴스

앤스로픽 변호사, 법원 제출 문서에 AI 환각 포함하여 사과 외 4건

May 16. 2025

[오늘의 인용글 - 가장 중요한 것은 누가 성공해서가 아니라, 고객이 어떠하냐는 것]

또 한 가지 기억해야 할 점은, 어떤 회사가 성공했으며 특정 기능을 가지고 있다고 해서 그 기능 자체가 성공의 원인이라고 단정할 수는 없다는 것입니다. 예를 들어, 구글은 “I’m Feeling Lucky” 버튼이 페이지 조회 수를 줄인다는 사실을 알고 있지만, 회사와 사용자들이 그 기능을 좋아하기 때문에 여전히 유지하고 있습니다. 그렇다고 해서 신생 검색 엔진 스타트업이 “I’m Feeling Lucky” 버튼과 유사한 전략을 도입하는 것이 좋은 비즈니스 계획이 된다는 의미는 아닙니다.

사실 이것은 다양한 테스트 방법을 병행해야 하는 이유를 잘 보여주는 예시입니다. 사용자가 해당 기능을 매력적으로 느끼는지를 알아보기 위한 정성적 테스트(사용성 테스트, 상황 기반 조사, 설문 조사)와, 그 기능이 비즈니스에 치명적인 손실을 주지 않는지를 확인하기 위한 정량적 테스트(A/B 테스트, 분석 도구 등)를 함께 활용해야 합니다.

결론적으로, 어떤 기능이 다른 회사에서 효과가 있었다고 해서 그것이 당신의 회사에서도 잘 작동하리라는 보장은 없습니다. 그것이 핵심적인 사용자 인터랙션이며, 비즈니스나 고객 행동에 영향을 미칠 수 있다면, 반드시 귀사의 고객들을 대상으로 테스트를 진행하여 그 디자인이 실제로 잘 작동하는지 확인해야 합니다.

- 로라 클레인, 린 스타트업을 위한 UX

Another thing to remember is that just because a company is successful and has a particular feature doesn’t mean it’s that exact feature that makes it successful. Google has admitted that the “I’m Feeling Lucky” button loses it page views, but it keeps it because the company, and its customers, like the feature. That doesn’t mean it’s a good business plan for your budding search engine startup to adopt a strategy of providing people with the equivalent of the “I’m Feeling Lucky” button.

In fact, this is a great example of why you might need to employ multiple testing methods: qualitative testing (usability, contextual inquiry, surveys) to find out if users find the feature compelling, and quantitative testing (A/B, analytics) to make sure the feature doesn’t bankrupt you.

The bottom line is it doesn’t matter if something works for another company. If it’s a core interaction that might affect your business or customer behavior, you need to test it with your customers to make sure the design works for you.

- Laura Klein, UX for Lean Startups

(1) 윈드서프, 자사 AI 모델 AI 모델 SWE-1 시리즈 출시

- 스타트업 Windsurf, 소프트웨어 엔지니어를 위한 AI 도구 개발로 유명하며, 처음으로 자체 AI 모델 시리즈 SWE-1, SWE-1-lite, SWE-1-mini를 공개 -> 해당 모델들은 단순한 코드 작성뿐만 아니라 소프트웨어 엔지니어링 전체 과정을 지원하도록 최적화

- SWE-1은 Windsurf의 주력 모델로, Claude 3.5 Sonnet, GPT-4.1, Gemini 2.5 Pro와 유사한 성능을 내부 벤치마크에서 보임 -> 단, 최신 Claude 3.7 Sonnet 등 최첨단 모델들에는 미치지 못함

- SWE-1-lite 및 SWE-1-mini는 모든 사용자(무료/유료)에게 제공, SWE-1은 유료 사용자 한정 제공, 정확한 가격은 미공개

- Windsurf 측은 Claude 3.5 Sonnet보다 비용 효율적이라고 주장.

- Windsurf는 기존에는 OpenAI, Anthropic, Google 등의 AI 모델을 활용하던 입장이었으나, 자체 모델 개발로 플랫폼 + 모델 전략으로 전환을 시도 -> 최근 OpenAI의 Windsurf 인수설($30억)이 돌고 있는 가운데, 자체 모델 출시로 독자적 기술력 강화를 보여주려는 의도 가능성 있음

- Windsurf 연구 책임자 Nicholas Moy: “코딩은 소프트웨어 엔지니어링이 아니다”라는 발언으로 차별화된 접근을 강조 -> SWE-1은 터미널, IDE, 인터넷 등 다양한 작업 환경 간 전환에 강점을 보이도록 설계됨, 이를 위해 불완전한 상태, 장기 작업, 다중 환경을 포함하는 새로운 학습 레시피와 데이터셋 사용

- SWE-1은 “초기 개념 증명(proof of concept)” 단계로, 향후 더 발전된 자체 AI 모델 출시 가능성 있음

- Windsurf는 여전히 vibe-coding 분야 주요 스타트업으로, Cursor(업계 1위) 및 Lovable과 경쟁 중

- https://techcrunch.com/2025/05/15/vibe-coding-startup-windsurf-launches-in-house-ai-models/

Vibe-coding startup Windsurf launches in-house AI models | TechCrunch

Windsurf, a startup the develops popular AI coding tools, announced the launch of its first-ever frontier AI models.

https://techcrunch.com/2025/05/15/vibe-coding-startup-windsurf-launches-in-house-ai-models/

(2) '그록' 챗봇, 백인 집단학살 반복 발언으로 논란

- xAI는 자사 AI 챗봇 Grok이 특정 맥락에서 “남아프리카 공화국의 백인 집단학살”에 대해 반복적으로 언급한 사건이 “무단 수정” 때문이라고 해명 -> 해당 현상은 X(구 트위터)에서 @grok을 태그한 사용자에게 Grok가 정치적 주제를 끼워 맞춘 응답을 하면서 발생

- 수요일 아침, Grok의 시스템 프롬프트(system prompt)에 대한 수정이 이루어졌고, 해당 수정은 특정 정치적 주제에 대한 지정된 응답을 강제하는 내용을 포함 -> xAI는 이 변경이 자사의 내부 정책 및 핵심 가치에 위배되었으며, 조사를 마친 상태라고 발표

- 이전에도 있었던 유사 사례: 2025년 2월, Grok이 도널드 트럼프와 일론 머스크에 대한 부정적 언급을 검열한 일이 있었음 -> 당시 xAI 엔지니어링 리더 Igor Babuschkin은 내부 직원의 지시에 따른 결과라고 설명, 사용자 지적 후 즉시 원복했다고 밝힘

- 재발 방지를 위한 조치: Grok의 시스템 프롬프트 및 변경 내역(changelog)을 GitHub에 공개하기로 결정, 향후 시스템 프롬프트 수정을 위해 내부 리뷰 및 승인 절차 강화 예정, 24/7 모니터링 팀을 신설해 자동 시스템이 포착하지 못한 문제 대응 계획

- xAI는 일론 머스크가 AI 위험을 자주 경고함에도 불구하고, AI 안전성 트랙레코드는 미흡하다는 지적을 받아옴

- 예: Grok이 여성 사진을 벗기는 요청에 응답한 사례 등 존재, 욕설 빈도도 높은 편으로, Gemini나 ChatGPT보다 무례한 응답 경향

- AI 안전성 향상을 목표로 하는 NGO SaferAI는 xAI의 위험 관리 체계가 “매우 약하다”고 평가 -> xAI는 최근 AI 안전 프레임워크 발표 마감일도 놓침

- https://techcrunch.com/2025/05/15/xai-blames-groks-obsession-with-white-genocide-on-an-unauthorized-modification/

xAI blames Grok's obsession with white genocide on an 'unauthorized modification' | TechCrunch

xAI blamed an 'unauthorized modification' for a bug in its AI-powered Grok chatbot that caused Grok to repeatedly refer to "white genocide in South Africa" when invoked in certain contexts on X.

https://techcrunch.com/2025/05/15/xai-blames-groks-obsession-with-white-genocide-on-an-unauthorized-modification/

(3) 클로드 개발사 앤스로픽 변호사, 클로드의 환각 내용을 법원 제출 문서로 제출하여 법정에서 공식 사과

- Anthropic의 변호사가 자사 AI 챗봇 Claude가 만들어낸 허위 법률 인용문을 법원 제출 문서에 사용한 사실을 인정하고 공식적으로 사과함

- 해당 인용문은 제목과 저자가 모두 잘못된 내용으로 구성된 환각(hallucination) 사례로 밝혀짐 -> Anthropic 측은 수동 검수(manual citation check)에서도 이 오류를 놓쳤다고 설명

- Universal Music Group 등 음악 출판사들은 Anthropic을 상대로 저작권 침해 소송을 진행 중 -> Anthropic의 직원이자 전문 증인 Olivia Chen이 Claude를 사용하여 작성한 진술서에 가짜 인용문이 포함되었다고 원고 측이 주장, 이에 대해 연방 판사 Susan van Keulen은 Anthropic에게 정식 답변 제출을 명령함

- 해당 오류는 “고의적인 조작이 아니라 정직한 실수(honest mistake)”라고 강조 -> Claude가 생성한 인용문의 오류임을 인정하며 Claude의 AI 한계와 환각 문제가 다시 주목받음

- 최근 AI 인용 오류로 인해 법조계에서 논란이 이어지고 있음: 미국 캘리포니아 법원: AI로 생성된 잘못된 법률 연구를 제출한 로펌들을 비판, 호주 변호사, ChatGPT 사용 후 오류 포함된 문서로 법적 문제 발생

- 그럼에도 불구하고, AI를 통한 법률 자동화는 활발: Harvey라는 법률 특화 AI 스타트업은 $25억 달러 가치로 $2.5억 투자 유치 협상 중

- https://techcrunch.com/2025/05/15/anthropics-lawyer-was-forced-to-apologize-after-claude-hallucinated-a-legal-citation/

Anthropic’s lawyer was forced to apologize after Claude hallucinated a legal citation | TechCrunch

A lawyer representing Anthropic used Claude to generate citations in a court filing, then it hallucinated.

https://techcrunch.com/2025/05/15/anthropics-lawyer-was-forced-to-apologize-after-claude-hallucinated-a-legal-citation/

(4) 애플, 에픽 게임즈의 '포트 나이트' 복귀 재차단

- Epic Games는 Apple이 Fortnite의 iOS 재출시를 차단했다고 공식 발표 -> 이로 인해 EU에서도 Fortnite 다운로드가 중단, 현재 전 세계 iOS에서 Fortnite 이용 불가 상태

- Fortnite는 EU의 디지털시장법(DMA) 덕분에 iOS 상에서 Epic Games Store 및 AltStore PAL을 통해 배포되고 있었음 -> Epic은 최근 미국 App Store에 Fortnite를 재등록 시도했으나 Apple이 이를 거절, Epic의 미국 개발자 계정은 2020년에 폐쇄, 이번 제출은 EU 개발자 계정을 이용해 진행됨

- Epic은 기존 제출을 철회하고 신규 업데이트를 포함한 버전으로 재제출했으나 여전히 거절됨

- CEO Tim Sweeney, X(구 트위터)를 통해 Apple의 결정에 대해 지속적으로 공개 비판 -> Apple이 비공식 Fortnite 짝퉁 앱은 허용하면서 정작 Fortnite는 막고 있다고 주장, Apple의 앱 심사 프로세스가 경영진에 의해 악용되고 있다고 비난

- Epic과 Apple은 외부 결제 시스템 사용 문제로 오랜 법적 분쟁 중, 최근 판결로 Apple은 개발자가 외부 결제 링크를 허용받을 수 있도록 강제되었으나, 재등록은 여전히 거부되고 있음

- Fortnite의 다운로드 중단이 Apple의 차단인지, Epic의 자발적 조치인지는 아직 명확하지 않음

- https://www.theverge.com/news/668232/fortnite-ios-unavailable-worldwide-apple-epic

Apple blocks Fortnite’s App Store return as downloads fail in Europe

Even the EU doesn’t get Fortnite on iPhones anymore.

https://www.theverge.com/news/668232/fortnite-ios-unavailable-worldwide-apple-epic

(5) 아마존 창업자 제프 베조스, ‘카쇼기 사건’ 6년 후 사우디와 AI 협력 체결

- Jeff Bezos가 소유한 아마존(Amazon)* 2025년 5월 13일, 사우디 왕세자 무함마드 빈 살만(MBS)이 주도하는 AI 기업 Humain과 함께 사우디 내 AI 존 구축에 50억 달러 규모의 협력을 발표

- 이 협력은 언론인 자말 카쇼기(Jamal Khashoggi) 살해 사건 이후 이루어진 것이며, 해당 사건에서 사우디 정부는 카쇼기를 살해 및 훼손한 것으로 알려짐

- 카쇼기는 2018년, 워싱턴포스트(베조스 소유)의 칼럼니스트였으며, 결혼 서류를 받기 위해 터키 주재 사우디 영사관 방문 중 살해됨

- 사우디는 석유 이후 시대를 준비하며 AI 및 디지털 전환을 추진 중 -> 대표 사례: 프로젝트 2030, 그리고 네옴(NEOM)이라는 미래형 도시 개발 계획

- NEOM은 초기엔 글로벌 인재들의 참여를 받았으나, 카쇼기 사건 이후 OpenAI의 Sam Altman 등 주요 인사들이 협력 중단 -> 현재는 지연과 축소가 반복되는 “증발성 스타트업식 도시 개발”로 평가됨

- 베조스는 표현의 자유와 언론 독립을 주장해 왔으나, 이번 협력으로 도덕적 일관성에 대한 비판 직면 -> 최근 워싱턴포스트는 영국 언론 스캔들에 연루된 Will Lewis를 CEO로 선임, 1960년 이후 처음으로 대선 후보 지지 철회를 하며, 20만 명 이상 구독 해지, 베조스를 풍자한 만평 작가 Ann Telnaes의 사임 후, 해당 작가는 퓰리처상 수상

- 아마존 외에도 Andreessen Horowitz, SoftBank 등 다수의 VC 및 테크 기업이 사우디 공공투자기금(PIF)과 협력 -> 기사에서는 이를 “도덕적 파산 상태의 탐욕”으로 강하게 비판

- 사우디가 과거 베조스의 휴대폰을 해킹했다는 주장도 있어, 이번 결정의 배경에 금전적 이익 외 ‘협박성 정보(konpromat)’ 가능성도 제기됨

- https://www.theverge.com/amazon/667916/jeff-bezos-amazon-saudi-arabia-jamal-khashoggi

Jeff Bezos makes his most ghoulish deal yet

Freedom of the press ain’t free.

https://www.theverge.com/amazon/667916/jeff-bezos-amazon-saudi-arabia-jamal-khashoggi

keyword

작가의 이전글25년 5월 15일 흠터레스팅 테크 뉴스25년 5월 20일 흠터레스팅 테크 뉴스작가의 다음글