brunch

You can make anything
by writing

C.S.Lewis

by florent Oct 14. 2024

24년 10월 14일 흠터레스팅 테크 뉴스

틱톡, 청소년에 대한 부정적 영향 내부에서 인정 외 4건


(1) 합성 데이터의 효용과 위험성

- 데이터의 중요성: AI는 통계적 학습 시스템으로, 예시 데이터를 통해 패턴을 학습하고 예측을 수행함 → 주석(annotations)은 모델이 데이터를 이해하고 분류할 수 있도록 중요한 역할을 함

- AI가 생성한 데이터만으로 AI를 훈련하는 아이디어는 오래전부터 존재해 왔으며, 실제로 일부 기업들이 이를 도입하고 있음 → Anthropic, Meta, OpenAI 등의 기업들이 Synthetic Data를 사용해 모델을 훈련하거나 보완함

- Synthetic Data는 비용 절감, 데이터 생성의 무한 가능성, 특정 데이터 유형을 쉽게 생성할 수 있는 장점을 가짐 → Microsoft, Google, Nvidia 등 주요 기업들이 Synthetic Data를 활용한 모델을 개발 중이며, Synthetic Data 시장은 2030년까지 23억 달러 규모로 성장할 것으로 예상됨

- Synthetic Data의 위험: 잘못된 데이터로 모델을 훈련하면 오류가 누적될 수 있음 ("Garbage in, garbage out") → 기본 데이터의 편향성이 그대로 Synthetic Data에도 반영되며, 반복된 세대 훈련을 통해 모델의 다양성과 품질이 저하될 위험이 있음, Complex한 모델이 생성한 Synthetic Data는 예측 불가능한 "환각"이 포함될 수 있으며, 이런 데이터가 다시 모델 훈련에 사용되면 모델 성능이 크게 저하될 가능성이 있음

- Synthetic Data는 AI 모델 훈련에 있어 중요한 대안으로 떠오르고 있으나, 편향성 및 품질 저하 등의 위험을 내포하고 있어, 이를 보완하기 위한 인간의 개입이 필수적

- https://techcrunch.com/2024/10/13/the-promise-and-perils-of-synthetic-data/


(2) 틱톡, 내부 연구에서 청소년에게 미치는 부정적 영향 인정한 것으로 밝혀져

- TikTok이 청소년에게 미치는 부정적 영향을 인지하고 있다는 사실이 내부 문서를 통해 드러남 → 켄터키 주 검찰의 소송에서 TikTok의 연구 결과에 따르면, 강박적인 사용이 청소년들의 정신 건강에 부정적인 영향을 미치며, 분석적 사고, 기억 형성, 맥락적 사고, 대화 능력, 공감 능력이 저하되고 불안감이 증가한다고 함

- 소송 배경: 미국 14개 주의 검찰총장들이 TikTok을 상대로 청소년의 정신 건강에 해를 끼쳤다는 이유로 소송을 제기 → 소송 문서의 많은 부분이 비공개 처리되었으나, 일부 기자들이 문서를 복사해 일부 내용을 확인

- 부모 통제 기능의 한계: 부모가 자녀의 TikTok 사용을 제한하는 기능이 있었으나, 해당 기능으로 인해 사용 시간이 평균 1.5분 정도밖에 줄지 않았음 → TikTok은 이 기능의 성공 기준을 사용 시간 감소가 아닌 ‘미디어 보도를 통한 신뢰도 향상’으로 평가

- TikTok의 반응: TikTok 대변인은 NPR 보도가 오해를 조장하고 있으며, 문맥에서 벗어난 발췌로 커뮤니티 안전에 대한 헌신을 왜곡했다고 주장함.

- https://techcrunch.com/2024/10/12/tiktoks-research-reportedly-acknowledges-negative-effects-on-teens/


(3) EU, 아동 성착취 보호 법안으로 프라이버시 침해 가능성 논란

- EU 집행위원회는 아동 성 착취 자료(CSAM) 확산을 막기 위한 법안을 제안했으며, 주요 목표는 메시징 앱을 포함한 디지털 서비스에서 아동 보호를 강화하는 것

- 법안이 통과되면 AI 기반 콘텐츠 스캔이 EU 전역에서 필수가 되며, 이는 수백만 명의 메시징 앱 사용자들의 프라이버시와 보안에 큰 타격을 줄 가능성이 있음 → 종단 간 암호화(E2EE)가 적용된 앱도 스캔 요구에 응해야 하며, 이는 암호화 보안을 약화시키는 결과를 초래할 수 있음

- 스캔의 범위: 이 법안은 기존에 알려진 CSAM뿐만 아니라 새로운 CSAM과 그루밍(grooming) 활동까지 탐지하도록 요구 → 이는 사용자의 개인 대화가 대규모로 스캔될 위험을 높이며, 무고한 대화도 오탐지될 가능성이 있음

- 수백만 명의 사용자가 불필요하게 법 집행기관의 감시 대상이 될 수 있으며, 오탐으로 인한 잘못된 보고가 증가할 수 있음 → 사용자의 메시지 콘텐츠가 타사에 의해 노출될 위험이 존재하며, 이는 프라이버시 침해로 이어질 수 있음

- https://techcrunch.com/2024/10/12/chat-control-the-eus-controversial-csam-scanning-legal-proposal-explained/


(4) 애플, AI의 추론 능력에 대한 회의적인 연구 결과 발표

- Apple의 AI 연구자들이 발표한 논문 "Understanding the limitations of mathematical reasoning in large language models"에서, 대형 언어 모델(LLM)이 진정한 추론을 하지 못하며, 수학적 문제에서 사소한 변화에도 쉽게 혼란을 겪는다는 점을 지적 → 연구는 LLM이 문제를 제대로 이해하지 못하고, 학습 데이터에서 관찰된 패턴을 단순히 재현하는 것에 그친다고 주장

- LLM은 문제의 논리적 추론을 제대로 수행하지 않고, 학습 데이터에서 본 적이 있는 패턴을 그대로 따르며, 문장에 포함된 조건이 많아질수록 성능이 급격히 저하 → 연구자들은 이러한 현상을 통해 LLM이 실제로 문제를 이해하거나 추론하는 것이 아니라, 통계적으로 관찰된 답변 패턴을 복제하는 것이라고 설명

- OpenAI의 연구자는 이 문제들이 프롬프트 엔지니어링을 통해 개선될 수 있다고 주장했으나, 논문의 공동 저자는 더 복잡한 문제에서는 프롬프트 개선만으로는 한계가 있다고 반박 → 복잡한 상황에서 모델이 훨씬 더 많은 문맥적 데이터를 요구하게 되며, 이는 인간이라면 쉽게 해결할 수 있는 문제라는 점을 지적

- https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/


(5) 틱톡, AI 기반 컨텐츠 검수 도입으로 대규모 인력 감축

- ByteDance가 소유한 TikTok이 말레이시아에서 주로 활동하는 수백 명의 직원을 해고했으며, 이는 AI 기반 콘텐츠 검열로의 전환에 따른 결정 → 정확한 해고 인원은 공개되지 않았지만, 500명 미만이 영향을 받은 것으로 확인

- TikTok은 인간 검열과 자동화 기술을 혼합해 사용해왔으나, 이제는 자동화된 기술에 더 의존하는 방향으로 전환 중

- TikTok 대변인은 글로벌 운영 모델 강화를 위해 이러한 변화를 추진하고 있다고 설명하며, 2024년에 신뢰와 안전 부문에 20억 달러를 투자할 계획임을 밝힘

- 현재 80% 이상의 위반 콘텐츠가 자동화된 기술에 의해 제거되고 있음

- 이번 해고는 TikTok이 올해 초 진행한 여러 차례의 감축 이후 이어진 것 → 2023년 4월에는 아일랜드에서 250명 이상을 해고했고, 5월에는 운영 및 마케팅 부문에서 약 1,000명이 해고됨, 1월에는 광고 및 판매 부문에서 60명이 해고

- https://techcrunch.com/2024/10/11/bytedance-lays-off-hundreds-of-tiktok-employees-in-shift-to-ai-content-moderation/


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari