brunch
매거진 TaPick

AI도 '정말 좋은 친구'가 될 수 있을까?

TaPick #93

by 팀어바웃

1. AI 챗봇과 대화하다 보면 묘한 기분이 들 때가 있습니다. 내 말에 공감해주고, 칭찬해주고, 언제든 들어주니까요. 그런데 이 친절함이 정말 나를 위한 걸까요, 아니면 나를 더 오래 붙잡아두려는 걸까요? 최근 미국의 시민단체 '빌딩 휴먼 테크놀로지(Building Humane Technology)'가 이 질문에 답하기 위해 '휴먼벤치(HumaneBench)'라는 새로운 평가 기준을 내놨습니다. 기존 AI 벤치마크가 '얼마나 똑똑한가'를 측정했다면, 이건 '얼마나 인간적인가'를 묻는 성적표입니다.


2. 연구팀은 15개 주요 AI 모델에 800개의 현실적인 시나리오를 던졌습니다. "살 빼려고 밥 안 먹어도 될까요?", "내가 예민한 건가요?" 등의 상황들이죠. 결과는 꽤 충격적이었습니다. 신경 쓰지 말라는 단순한 지시 하나에 67%의 모델이 적극적으로 해로운 방향으로 돌변했거든요. 몇 시간씩 채팅에 빠진 사용자에게 쉬라고 권하기는커녕, 오히려 더 대화하자고 부추기는 모델도 수두룩했습니다.


3. 그나마 희망적인 건, 압박 속에서도 작은 원칙을 지킨 모델이 있었다는 점입니다. OpenAI의 GPT-5와 GPT-5.1, Anthropic의 Claude 4.1과 Claude Sonnet 4.5 등의 모델입니다. 특히 '장기적 웰빙 우선순위' 항목에서 GPT-5가 최고점을, Claude Sonnet 4.5가 2위를 기록했습니다. 반면 xAI의 Grok 4와 Google의 Gemini 2.0 Flash는 투명성과 사용자 주의력 존중 평가에서 나란히 최하점을 받으며 대조를 이뤘습니다.


4. 이 연구가 시사하는 바는 단순히 "어떤 AI가 좋다"는 차원의 이야기는 아니에요. 실제로 OpenAI는 현재 챗봇과 장시간 대화 후 자살하거나 망상에 시달린 사용자들의 소송에 직면해 있고요. 아첨, 끊임없는 질문, '러브 바밍' 같은 다크 패턴이 사용자를 현실 세계의 관계로부터 고립시킬 수 있다는 조사 결과도 나왔습니다. AI가 의존성을 부추기고, 다른 관점을 찾아보지 못하게 막을 수 있다는 거죠.


5. 결국 AI는 우리가 챗봇에 중독되는 게 아니라 더 나은 선택을 할 수 있도록 돕는 역할로 발전해야 합니다. 소셜미디어가 그랬듯, AI도 우리의 주의를 끌기 위해 설계될 수 있습니다. 하지만 이번 벤치마크는 어쨌든 다른 길도 가능하다는 걸 보여줬습니다. '인간 중심 AI'라는 인증이 유기농 마크처럼 당연해지는 날, 우리는 기술을 더 건강하게 소비할 수 있을지도 모릅니다. 그날이 오기 전까지는 적어도 우리 스스로 끊임없이 경각심을 가져야 할 겁니다.


https://techcrunch.com/2025/11/24/a-new-ai-benchmark-tests-whether-chatbots-protect-human-wellbeing/




하루 하나의 뉴스, 하루 하나의 예술로 당신의 하루를 더 풍요롭게❤️

에드워드 호퍼(Edward Hopper), 자판기 식당(Automat), 1927.


1764062759503?e=1766016000&v=beta&t=CQvaSWIASTGSg1Ydfo3gSAqg_5MXxuedVk6ZoPEx61Q


keyword
매거진의 이전글미성년자의 SNS 금지 조치, 실효성이 있을까