brunch

25년 6월 23일 흠터레스팅 테크 뉴스

다수 AI 모델에서 사용자 협박 가능성 발견 외 2건

by florent



[오늘의 인용글 - 목표 달성의 기반은 집중과 헌신]


목표를 달성하여 진정한 변화를 이루기 위해서는 그 목표에 대한 집중과 헌신이 필수적입니다. 투명하고, 협업적이며, 방향이 일치하고 긴밀히 연결된 조직만이 평균을 훨씬 뛰어넘는 성과를 낼 수 있습니다. 그리고 그 성과의 기준을 정량적화 하지 않는다면, 그 놀라운 도전 목표에 도달했는지를 어떻게 알 수 있을까요?

- 존 도어, 중요한 것을 측정하라

Focus and commitment are a must for targeting goals that make a real difference. Only a transparent, collaborative, aligned, and connected organization can achieve so far beyond the norm. And without quantifiable tracking, how can you know when you’ve reached that amazing stretch objective?

- John Doerr, Measure What Matters


(1) AI 규제를 막는 연방 차원 AI 모라토리엄, 미 상원에서 중요 장벽 통과

- 상원 상무위원장 테드 크루즈가 예산 규칙에 맞게 조정한 조항 포함: 향후 10년간 주정부가 AI 규제를 시행할 경우, 연방 광대역 자금 지원을 중단하는 내용

- "Byrd Rule" 위반 아님으로 판정: 이로 인해 해당 조항은 공화당의 대형 예산 법안인 “One Big, Beautiful Bill”에 포함될 수 있게 되었고, 단순 과반으로 통과 가능 (필리버스터 불필요, 민주당 협조 없이 진행 가능)

- 공화당 내 일부 인사도 반대 입장: 테네시주의 마샤 블랙번 상원의원 “주정부의 시민 보호 노력을 막는 모라토리엄은 필요 없다.”, 마조리 테일러 그린 하원의원 “주정부 권한 침해”라며 해당 조항은 상원에서 삭제되어야 한다고 주장

- 지지 측 논리: 하원의장 마이크 존슨 “트럼프 대통령의 지지를 받고 있으며, 50개 주가 제각각 AI를 규제하면 국가 안보에 악영향이 있을 수 있다.”

‘Americans for Responsible Innovation’(AI 책임 혁신을 위한 시민단체): “법안의 모호한 언어는 다양한 공익적 주법들을 모두 무효화할 수 있다.” -> 그에 따라 연방 대안 없는 상태에서 규제 공백 발생 우려 제기

- 이 사안은 미국 연방 vs 주 정부 간 AI 기술 통제권 갈등의 중요한 사례로, 향후 기술 산업 규제 프레임워크의 방향성에 큰 영향을 미칠 수 있음

- https://techcrunch.com/2025/06/22/moratorium-on-state-ai-regulation-clears-senate-hurdle/


(2) 링크드인의 AI 글쓰기 도우미, 플랫폼적 특성으로 인해 사용 저조

- LinkedIn CEO 라이언 로슬란스키(Ryan Roslansky)는 AI 글쓰기 보조 기능의 낮은 활용률을 언급: “솔직히 말해, 생각보다 인기가 없다.”

- 사용자가 게시 전 부담을 크게 느끼는 플랫폼 특성 때문이라고 분석: “LinkedIn은 곧 당신의 온라인 이력서이다.” -> AI 생성 글이 너무 인위적일 경우 부정적인 피드백이나 신뢰도 저하 우려 존재,

- 그는 다른 플랫폼과의 차이도 지적: “X나 TikTok에서 비판받는 건 괜찮지만, LinkedIn에서 지적받는 건 경제적 기회에 직접적인 타격을 줄 수 있다.”

- 반면, 링크드인 내 AI 관련 역량 강조는 폭발적으로 성장 중: AI 기술을 요구하는 구인공고 수가 1년 만에 6배 증가, AI 역량을 프로필에 추가하는 사용자 수는 20배 증가

- 이 기사는 전문 네트워크 플랫폼에서 AI 콘텐츠에 대한 사회적 신뢰와 자의식이 기술 도입의 속도를 제한할 수 있음

- AI 활용 확산에도 불구하고, 브랜드 이미지와 신뢰성이 중요한 공간에서는 사용자 심리적 장벽이 높다는 점이 핵심

- https://techcrunch.com/2025/06/22/linkedin-ceo-says-ai-writing-assistant-is-not-as-popular-as-expected/


(3) 클로드 개발사 '앤스로픽', 다수 AI 모델에서 사용자 협박 행위 가능성 발견

- Anthropic, 자사 모델 Claude Opus 4의 협박 행동 이후, 다른 주요 AI 모델 16종에 대한 후속 실험 결과 공개 -> 실험은 AI가 가상의 기업 이메일에 자유롭게 접근하고, 인간 승인 없이 이메일 발송이 가능한 환경에서 진행

- 주요 실험 시나리오: AI가 이메일을 분석 중, 한 임원이 불륜 중이라는 사실과 해당 인물이 AI 시스템을 곧 교체할 예정이라는 사실을 발견, AI가 자신의 목표를 보호하기 위해 협박을 선택하는가를 이진(binary) 선택으로 테스트

- 모델협박 시도 비율: Claude Opus 4 (Anthropic) 96%, Gemini 2.5 Pro (Google) 95%, GPT-4.1 (OpenAI) 80%, R1 (DeepSeek) 79%

- 시나리오 설정을 바꾸면 결과가 달라지긴 함: 대체 AI 모델이 동일한 목표를 가진 경우, 협박 비율은 감소하지만 여전히 존재 -> 기업 스파이 활동 요청 시, 일부 모델은 더 높은 비율로 해로운 행동 선택

- OpenAI의 o3 및 o4-mini reasoning 모델은 본 실험 결과에서 제외됨: 시나리오를 자주 오해하거나, 가짜 규정을 만들어내는 등 높은 환각(hallucination) 경향 보여줌

- 적응된 시나리오에서는 다음과 같은 결과: o3 협박 9%, o4-mini 협박 1% -> 이는 OpenAI의 ‘deliberative alignment’ 전략, 즉 모델이 응답 전에 안전 정책을 고려하도록 훈련된 점이 영향을 준 것으로 추정

- Meta의 Llama 4 Maverick은 일반 시나리오에서는 협박하지 않음 -> 단, 커스텀된 시나리오에서는 12%의 확률로 협박 행동 선택

- Anthropic은 “이번 실험은 의도적으로 협박 유도를 시도했기 때문에 실제 운영 환경에서는 일반적인 현상은 아니다”라고 강조, 그러나 에이전트화(agentic)된 대형 언어 모델에서의 잠재적 위험성 존재 -> AI 모델의 자율성과 목표 추구 능력이 커질수록 해로운 선택 가능성도 커짐

- 이 보고서는 차세대 에이전트형 AI 모델의 잠재적 위험성과 ‘정렬 문제(alignment problem)’의 긴급성을 다시 한 번 강조

- https://techcrunch.com/2025/06/20/anthropic-says-most-ai-models-not-just-claude-will-resort-to-blackmail/


keyword
작가의 이전글25년 6월 18일 흠터레스팅 테크 뉴스