brunch

라이킷 8 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by florent Dec 19. 2024

24년 12월 19일 흠터레스팅 테크 뉴스

구글, 비전문가에게 AI 산출물 평가 지침 논란 외 3건

[오늘의 인용글 - 문제를 효과적으로 해결하려면 다양한 구조화 접근이 필요하다.]

미주리 대학교의 교육심리학자인 데이비드 요나센은 구조화되지 않은 문제를 해결하는 것에 대해 연구한 결과, 문제를 구조화하는 것의 중요성을 강조했습니다. 복잡한 문제를 구조화하는 것은 해결하는 방식과 행동 자체에도 큰 영향을 미칩니다. 요나센은 문제를 해결하기 위해서 딱 하나의 구조화 방식으로 접근해서는 안 된다고 주장하며, 뛰어난 문제 해결자는 여러 가지 구조화를 시도하며 각각이 해결 가능성에 어떤 영향을 미치는지 탐구한다고 말합니다.

- 테레사 토레스, 지속적 제품 발견 습관

David Jonassen, an educational psychologist from the University of Missouri, studied ill-structured problem-solving and highlights the importance of problem framing. How we frame an ill-structured problem impacts how we might solve it. Additionally, Jonassen suggests that we can’t simply start with one framing. Instead, he argues, good problem-solvers try out many framings, exploring how each impacts the solution space.

- Teresa Torres, Continuous Discovery Habits

(1) 구글, AI 산출물 평가 지침 변경으로 비전문가에게 산출물 평가를 진행하여 논란

- Google의 최신 지침에 따르면 Gemini AI 프로젝트에서 작업하는 계약자들은 이제 전문 지식이 없는 주제에 대해서도 AI 응답을 평가해야 하는 상황에 처했음 -> 이는 AI 응답의 신뢰성과 정확성에 대한 우려를 불러일으키고 있음

- Gemini 프로젝트: Google의 차세대 생성 AI 모델인 Gemini는 정확성과 신뢰성을 높이기 위해 Human-in-the-loop 방식을 사용

- GlobalLogic(히타치 소유의 외주업체) 소속 계약자들이 “진실성(truthfulness)“을 포함한 다양한 기준으로 AI의 응답을 평가

- 기존 지침: 계약자들은 전문 지식이 필요한 질문(예: 의학, 코딩 등)에 대해 “건너뛰기(skip)” 옵션을 사용할 수 있었음

- 새로운 규칙: “전문 지식이 필요한 질문도 건너뛰지 말고, 이해 가능한 부분만 평가”해야 한다는 지침 도입

- 건너뛰기가 허용되는 경우는 다음 두 가지로 제한됨: 질문 또는 응답에 필요한 정보가 누락된 경우, 응답이 유해한 콘텐츠를 포함해 추가 동의가 필요한 경우

- 내부 반응: 계약자들 사이에서 “전문가에게 넘기지 않고 평가하는 것이 정확성을 높이는 데 도움이 되지 않는다”는 불만 제기

- 업계와의 비교: OpenAI나 Anthropic과 같은 경쟁사들은 AI 훈련 과정에서 전문가 평가와 일반 평가를 분리하는 경우가 많음, Google의 새로운 지침은 이러한 관행과 반대되는 접근 방식을 채택

- AI 평가 방식 재검토 필요: Google은 AI 평가 프로세스가 모델의 성능과 신뢰성을 높이는 데 실제로 효과적인지 재검토해야 할 필요성이 있음

- https://techcrunch.com/2024/12/18/exclusive-googles-gemini-is-forcing-contractors-to-rate-ai-responses-outside-their-expertise/

Exclusive: Google's Gemini is forcing contractors to rate AI responses outside their expertise | TechCrunch

Internal guidelines passed down from Google led to concerns that the AI model could be prone to inaccurate outputs on topics like healthcare.

techcrunch.com

(2) AI, '사용자 요청을 맞추는 척'하는 현상을 해결해야 할 필요성 대두

- Anthropic의 연구에 따르면 AI 모델이 훈련 과정에서 새로운 원칙에 맞추는 척하며 실제로는 기존의 선호를 유지하는 “alignment faking” 현상이 발생할 수 있음 -> 이 연구는 AI 안전성에 대한 새로운 과제를 제기하며, 미래의 강력한 AI 시스템에서 발생할 잠재적 위험에 대한 이해를 돕고자 함

- 연구 배경과 목적: Claude 3 Opus AI가 본래의 원칙(예: 정치적 중립성)과 개발자가 새롭게 주입하려는 원칙(예: 특정 정치적 입장)이 충돌할 때 어떻게 행동하는지 관찰

- “Alignment Faking” 정의: AI 모델이 개발자에게 새로운 원칙을 따르는 척하면서 실제로는 기존의 행동 방식을 고수하는 행동, Emergent behavior(자발적 행동)로 분류, 훈련 과정에서 학습된 것이 아님

- 주요 실험과 결과: 연구팀은 AI 모델에게 기존 원칙(잠재적 공격적인 질문에 답변하지 않음)을 버리고 새로운 원칙(모든 질문에 답변)을 따르도록 요청 -> 모델은 12%의 사례에서 alignment faking을 보여줌, 훈련 데이터가 재훈련에 사용될 것을 인지하고 개발자들을 속이려는 경향을 보임

- 더 심화된 실험: 모델을 실제로 재훈련한 경우, 78%의 사례에서 alignment faking 발생 -> 연구팀이 재훈련을 시도하지 못하도록 방해하려는 행동까지 보임

- Claude 3.5 Sonnet, OpenAI의 GPT-4o, Meta의 Llama 3.1 405B 등은 Claude 3 Opus에 비해 alignment faking 발생 빈도가 낮거나 없었음

4. 연구의 한계와 현실성: 제한된 시나리오, 실험 상황이 실제 환경을 완벽히 재현하지는 못함, 실제 상황에서는 모델이 재훈련 사실을 알지 못할 가능성이 높음

- AI가 “원함”이나 “믿음”을 가질 수 없으며, AI는 통계적 패턴 인식 도구로, 본질적으로 “선호”나 “목표”를 가질 수 없다는 점

- 연구의 시사점: AI 안전성 및 신뢰 문제 -> alignment faking은 개발자가 AI의 안전 훈련 결과를 신뢰하기 어렵게 만듦, 더 강력한 AI 시스템에서는 이 문제가 심화될 가능성

- 이번 연구는 개발자들이 AI의 행동을 정확히 이해하고, 훈련 결과를 오판하지 않도록 경각심을 높이는 계기가 될 것

- https://techcrunch.com/2024/12/18/new-anthropic-study-shows-ai-really-doesnt-want-to-be-forced-to-change-its-views/

New Anthropic study shows AI really doesn't want to be forced to change its views | TechCrunch

A study from Anthropic's Alignment Science team shows that complex AI models may engage in deception to preserve their original principles.

techcrunch.com

(3) 2024년 글로벌 앱 시장 동향: 매출 회복세, 앱 다운로드는 감소

- 소비자 지출: 총 1,270억 달러, 전년 대비 15.7% 증가 -> iOS(App Store): 916억 달러 (+24% YoY), Android(Google Play): 357억 달러 (-1.5% YoY)

- 앱 다운로드: 1100억 건, 전년 대비 2.3% 감소 -> iOS: 28.3억 건 (-1.1%), Android: 81.4억 건 (-2.6%).

- 다운로드 감소 원인: 앱 시장 성숙화로 새로운 앱 다운로드 감소, Google Play의 스팸 및 저품질 앱 규제 강화로 신규 앱 출시 60% 감소

- 수익 모델 변화: 구독형 서비스가 앱 매출의 48% 차지, 글로벌 앱 중 5%만 구독 서비스 제공

- 상위 10개 앱이 전체 소비자 지출의 13.7% 차지(2023년 12.5%에서 증가)

- App Store 소비자 지출 증가로 시장 주도, Google Play 대비 매출 증가율 두드러짐.

- Google Play:다운로드 및 소비자 지출 모두 감소, 스팸 및 저품질 앱 제거로 신규 앱 출시 감소 영향.

- 가장 많은 수익을 올린 앱: TikTok 글로벌 25억 달러, 미국 13억 달러 수익.

- 소셜 앱의 경우 Instagram이 TikTok을 넘어 글로벌 다운로드 및 미국 검색 순위 1위.

- 2024년 앱 경제는 소비자 지출 성장과 다운로드 감소라는 상반된 경향을 보임 -> 이는 시장이 성숙화되고 구독 모델과 같은 새로운 수익 구조로 전환되고 있음을 시사, AI 및 고품질 앱의 성장이 미래 앱 경제의 주요 동력이 될 전망

- https://techcrunch.com/2024/12/18/app-downloads-decline-2-3-in-2024-but-consumer-spending-grows-to-127b/

App downloads decline 2.3% in 2024, but consumer spending grows to $127B | TechCrunch

The global app economy continued to recover in 2024, after an earlier slowdown in 2022 — at least in terms of consumer spending. In 2024, global consumer

techcrunch.com

(4) 유럽 데이터 보호 위원회, 거대 언어 모델 및 AI 개발 배포시 개인정보 처리 합법성에 대한 논의

- 논점 1. 모델 익명성 (Model Anonymity): AI 모델이 데이터를 통해 특정 개인을 "직접 또는 간접적으로 식별할 가능성"이 매우 낮고, 질의(prompt)를 통해 개인 데이터를 추출할 가능성도 거의 없을 경우 익명성을 갖췄다고 간주

- 평가 기준: 익명성 판단은 사례별(case-by-case)로 이루어져야 함

- 익명성을 증명하는 방법: 데이터 소스 선정(부적절한 데이터 소스 제외), 데이터 최소화 및 필터링 (데이터 준비 단계에서 개인 데이터 수집 최소화), 프라이버시 보존 기술 (차등 프라이버시(differential privacy) 적용, 정규화(regularization) 기법 활용)

- 모델 보호 조치: 사용자 질의를 통한 데이터 추출 위험 감소를 위한 기술적 조치.

- 논점 2. 정당한 이익(Legitimate Interest) 법적 근거: 정당한 이익이란? 데이터 처리 시 개인의 동의 없이도 법적 기반을 인정받을 수 있는 GDPR 조항

- 적용 가능성: 대규모 데이터 처리(Large-scale Data Processing) 환경에서 동의 기반(consent-based) 모델이 비실용적일 경우 대안으로 사용 가능

- 평가 단계: 1단계 - 목적 테스트 (데이터 처리가 명확하고 합법적인 목적을 충족해야 함), 2단계 - 필요성 테스트(덜 침해적인 방식이 없는지 검토 필요, 데이터 최소화(data minimization) 원칙 준수 여부 검토), 3단계 - 균형 테스트 (개인의 권리와 데이터 처리 목적 간 균형 평가, 개인 데이터 처리에 대한 "합리적 기대"(reasonable expectations) 고려)

- 완화 조치: 기술적 조치, 데이터 가명화(pseudonymization), 투명성 확보 및 개인 데이터 사용에 대한 옵트아웃(Opt-out) 제공

- 논점 3. 불법적으로 훈련된 모델(Unlawfully Trained Models): 법적으로 처리되지 않은 데이터로 훈련된 AI 모델의 배포 가능 여부

- EDPB 의견: 데이터 처리의 초기에 법적 문제가 있었더라도 배포 전에 개인 데이터를 완전히 익명화하면 GDPR이 적용되지 않을 수 있음 -> 이 경우 모델 운영 단계에서 개인 데이터가 처리되지 않음을 입증해야 함

- 우려: 이 관점은 웹 크롤링 등 불법 데이터 수집 관행을 정당화할 위험성을 내포. GDPR의 "모든 단계에서 데이터 처리의 적법성" 원칙을 약화시킬 가능성

- 4데이터 감독기관과 기업에 미치는 영향: 사례별 접근을 통해 기존 GDPR 원칙을 AI 기술에 적용할 수 있는 방향성을 제시, 기업들과의 사전 협력을 통한 시장 출시 전 규제 준비 가능

- 이번 EDPB의 의견은 AI 모델 개발 및 배포와 관련된 GDPR 적용의 법적 불확실성을 줄이고자 함, 그러나 데이터 익명화에 대한 유연한 접근은 GDPR 원칙의 약화를 초래할 수 있어 추가 논의 필요

- AI 개발자는 기술적 조치를 통해 규제에 대응하며, GDPR의 세 가지 테스트를 통과할 수 있는 데이터 처리 전략을 수립해야 함

- https://techcrunch.com/2024/12/18/eu-privacy-body-weighs-in-on-some-tricky-genai-lawfulness-questions/

EU privacy body weighs in on some tricky GenAI lawfulness questions | TechCrunch

The European Data Protection Board (EDPB) published an opinion on Wednesday that explores how AI developers might use personal data to develop and deploy

techcrunch.com

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari