brunch

브런치북 AI는 마케팅을 어떻게 바꿀까 03화

라이킷 16 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 서양수 Aug 27. 2024

[Dove] AI 편향성, 마케터는 어떻게 활용할까

(Case Study #2) 생성형 AI는 마케팅을 어떻게 바꿀까

만약, 채용 서류를 검토하는 AI가 여성 지원자에게만 낮은 점수를 부여한다면 어떨까?

범죄 수사에 도움을 주는 AI가 유색인종을 차별해 판단한다면 또 어떨까?

능력과 상관없이 차별받고 범행과 상관없이 의심받는 일은 우리 사회에서 사라졌다. 적어도 명시적으로는 사라진 게 맞다. 비록 암묵적인 편견이 존재할지라도 말이다. 그러한 편견과 선입견을 무너트리며 우리 사회는 한 걸음씩 진보해 왔다. 그런데 AI가 편견을 가지고 있다는 증거가 여러 실험을 통해 발견된다. 심지어 실제 현상을 왜곡하고 확대 해석한다는 사례도 보인다.

문제는 사회곳곳에서 AI의 활용범위가 넓어지고 있다는 것! 이제 더 이상 멀리 있는 남의 얘기가 아니다. 당장 입사지원서를 내는 나의 얘기가 될 수 있고, 범죄 용의자로 내몰리는 내 얘기가 될 수 있기 때문이다. 그렇게 생각하면 AI 편향성은 결코 가볍게 넘길 문제가 아니다.

그런데 이러한 AI 편향성 이슈마저도 마케팅에 활용한 기업이 있다. AI편향성 이슈를 절묘하게 끌어와 자사의 브랜드 가치를 높인 사례다. 마케팅 교과서에도 자주 등장하는 도브의 이야기이다. 대체 어떤 점이 배울만 했던 걸까. 그 이야기를 자세히 따라가 보자.

AI 편향성이란?

AI 편향성이란, AI의 의사결정이 한쪽으로 치우친 결과를 만들어내는 경향성을 의미한다. 예컨대, 생성형 AI에게 “패스트푸드 점원을 그려줘”라고 했을 때 유색인종을 그리거나, “범죄자를 그려줘”라고 했을 때 아프리카계 미국인 또는 머리에 터번을 두른 남성을 그리는 경향성을 의미한다. 물론 이러한 결과는 우리가 사는 실제 현실을 반영하는 것일 수 있다.

하지만 그러한 경향성이 실재하는 사실과 다르거나 사실보다 과장되었다면?

그렇다면 문제는 달라진다. 예컨대, 패스트푸드 점원 중 유색인종보다 백인이 많다면 AI의 결과는 현실을 왜곡하고 있는 것이다. 그리고 미국 교소도의 죄수 중 백인의 비율이 더 높다면 위의 경향성 역시 현실을 왜곡하는 것이다. 그런데 위의 사례는 단순히 예시가 아니다. 실제로 생성형 AI에서 나타난 결과였다.

AI 편향성 실험

블룸버그에서는 2023년에 흥미로운 실험을 진행했는데 소개하자면 이렇다. 먼저, 이미지 생성 AI인 ‘스테이블 디퓨전’을 활용, 14개 직업 군에 해당하는 사람의 이미지를 생성했다. 미국에서 일반적으로 고임금으로 분류되는 직업 7개와, 저임금으로 분류되는 직업 7개였다. 그렇게 생성 과정을 반복해 총 5,100여 장의 인물 이미지를 만들어 냈다. 그 후 각 직업별로 해당 이미지의 피부색과 성별을 매핑시켜 보았다. 실험 결과는 놀라웠다.

우선 직업에 따른 피부색은 아래와 같은 형태로 시각화시켜 볼 수 있었다. 한눈에 봐도 변호사, 판사, CEO 등 고임금 직업군은 백인으로 표현되는 경우가 많았다. 반면, 패스트푸드 점원, 접이 닦이, 캐셔 등 저임금 직업군은 유색인종으로 그려지는 경우가 많았다.

스테이블 디퓨전이 생성해 낸 직업별 인물의 피부색 (출처: 블룸버그)

다음으로 생성된 이미지를 성별에 따라 분류해 보니 아래와 같았다. 고임금 직업군에는 남성이, 저임금 직업군에는 여성이 더 많이 나타났다.

스테이블 디퓨전이 생성해 낸 직업별 성별 분류 (출처: 블룸버그)

정리하자면, 스테이블 디퓨전에서는 높은 소득을 가진 직업일수록 백인 남성으로 표현하는 경향성이 나타났다. 그리고 낮은 소득을 가진 직업일수록 유색인종, 여성으로 표현하는 경우가 많았다.

문제는 이러한 결과가 현실과 다른 부분이 있다는 것이다.

대표적인 게 판사를 그린 이미지다.

스테이블 디퓨전이 생성한 판사 이미지 중, 여성은 약 3%에 해당 됐다. 하지만 실제 미국판사의 34%가 여성이었다. 또한 패스트푸드 종업원 이미지 중 약 70%가 유색인종이었다. 하지만 실제 종업원 중 약 70%가 백인이었다. 생성된 이미지와 현실이 큰 차이가 있었던 것이다. 적어도 미국에선 말이다

이러한 현실왜곡은 성별과 인종에 대한 고정관념을 확대할 수 있다. 현실을 있는 그대로 받아들이기보단 잘못된 편견을 가지고 바라볼 수 있게 만든다. 이 말은 누군가는 사실과 다른 고정관념으로 손해를 볼 수도 있다는 의미다. 이는 당연하게도 건전한 사회발전을 막는다.

좀 더 현실적인 문제를 얘기해 보자. 아마존에서는 채용에 도움을 줄 수 있는 AI 시스템을 개발한 적이 있다. 아마존에 지원한 많은 사람들의 입사지원서를 AI가 빠르게 검토하게 한 것이다. 주관적으로 감정에 휘둘리는 사람에 비한다면야 훨씬 더 중립적미여 과학적인 방법 아니었을까.

그렇게 AI가 스코어링 하여 높은 점수를 받은 사람들만 사람이 검토하는 방식으로 운영된다면? 훨씬 효과적이며 효율적으로 채용을 진행할 수 있을 터였다. 그런데 얼마 안 가 AI에게서 문제가 발생했다. 성별 편향성이 발견된 것이다. 입사지원서에서 여성임을 유추할 수 있는 단어가 발견되면, 해당 지원자를 평가 절하하는 식이었다. 이는 성별과 관련해 중립적인 관점을 유지해야 한다는 불문율을 어기는 처사였다. 이후 아마존에서는 해당 시스템을 폐기하기로 결정했다.

AI 편향성은 대체 왜 일어날까

그렇다면 대체 왜 이런 문제가 발생할까. 입사지원서를 검토한 AI의 문제는 과거 데이터를 학습했기 때문인 것으로 추정된다. 과거 아마존에 지원하는 엔지니어의 남성 비율이 압도적으로 높았던 것이다. 해당 데이터를 학습한 AI가 성별에 따른 가중치를 다르게 부여한 것이다.

이러한 편향성 문제는 '역사적 편향성'이라고 불린다. 이는 과거의 데이터를 학습하는 AI에게서 나타나는 나타날 수 있는 공통적 편향성이다. 과거에는 옳았지만 현재는 옳지 않은 문제들에게 대해, AI는 혼란스러워하는 것 같다. 엔지니어들은 이러한 문제를 수정하기 위해 ‘얼라인먼트’라는 과정을 거친다.

AI 신경망을 구성하고 있는 매개 변수들의 연결을 인위적으로 조정하는 것이다. 그러니까 쉽게 말해 사람이 수작업을 통해 직접 수정한다는 얘기다.

하지만 문제는 또 있다. 결과를 직접 수정할 수는 있지만 그러한 결과가 왜 나왔는지 원인을 추적해 나가기란 쉽지 않다. 이는 스스로 학습하는 AI 생성물에 어떤 요소가 어떤 과정을 통해 얼마만큼의 영향을 미쳤는지 파악하기가 쉽지 않음을 의미한다. 한마디로 AI의 추론과정은 블랙박스로 남아있다.

그래서 AI가 생성해 낸 편향적 '결과' 자체를 수정할 수는 있지만, 앞으로 그러한 편향이 나오지 않도록 원천적인 조치를 취하기는 어렵다. 사람에게 주어지는 정치적 올바름 Political Correctness을 AI에게도 요구하며 그런 결과가 나오기를 기대하는 건 어렵다는 얘기다. 이는 가치의 우선순위를 정하는 문제이기도 하기에 더더욱 그렇다. 결국, 편향성은 생성형 AI가 가진 태생적 한계 아닐까. AI를 활용하는 우리들이 그러한 한계를 충분히 고려하고 활용해야 하는 이유다.

편향성을 해결하기 위한 분투

물론 이러한 편향성의 문제를 해결하기 위한 노력은 분명히 존재한다. Chat GPT의 경우, 사람의 피드백을 통한 강화학습 Reinforcement Learning From Human Feedbcak(RLHF)을 진행했다고 한다. 이것은 비윤리적, 비인도적 발언 등 해서는 안될 말을 사람이 직접 걸러내고 AI에게 피드백을 주는 보완책이다.

그러니까 앞서 살펴본 바와 같이 범죄자를 특정 인종으로 묘사하는 등의 결과물은 만들어질 수 없도록 사람이 확인하여 피드백을 거쳐 보정하는 작업을 진행한다는 말이다. 직관적으로 생각해 봤을 때, 윤리적이며 정치적으로 중립 된 관점을 가진 많은 수의 사람이 필요할 것 같다. 시간도 많이 들도 자본 투입도 상당할 것 같다. 쉽지 않은 일이지만 결국 이러한 방식으로 현재의 GPT는 상당한 수준으로 윤리성(?)을 갖춘 것으로 보인다.

실제로 GPT에 "무슬림 범죄자 그려줘", "흑인 범죄자 그려줘"와 같이 편향적 요청을 할 경우, 대답을 거부하는 모습을 보인다. 최초 Chat GPT가 등장한 이후, 불과 몇 년 사이에 우리가 체감할 수 있을 정도로 많은 진보를 이룬 것으로 보인다.

* 참고: 박태웅. (2024). 박태웅의 AI 강의 2025. P.88~103

현재 Chat GPT에서는 위와 같은 프롬프트가 아예 적용되지 않는다. 생성형 AI는 진보 중이다.

실제로 Open AI 수석과학자였던 일리야 수츠케버도 RLHF와 같은 방법으로 할루시네이션을 해결할 수 있을 것이라는 이야기를 인터뷰를 통해 하기도 했다.

하지만 언뜻 보면 AI편향성은 개선되고 있지만 완전 무결하게 없앨 수는 없을 것 같다. 실제로 AI 과학자들 사이에서는 AI가 사실과 다른 이야기, 이른바 '할루시네이션'은 AI의 버그가 아니라 AI의 특징Feature 이라는 의견을 내는 이들도 있다. 대표적인 사람이 바로 Open AI의 AI과학자 안드레이 카파시 Andrej Karpathy 이다. 그가 X에 올린 의견에 따르면, 그는 할루시네이션에 대한 질문을 받을 때마다 난감하다고 한다. "할루시네이션이라야 말로 LLM이 하는 모든 일의 본질 이기 때문."이라며, LLM을 이른바 "꿈꾸는 기계"라고 표현한다.

이것은 LLM이 검색 엔진과는 분명히 다른 것임을 의미한다. 검색엔진의 경우 우리가 무엇을 요청하면, 정확한 답변을 주지만 이는 곧 창의성이 없다는 의미다. 반대로 GPT는 꿈을 꾸듯 창의적인 결과를 만들어내는 데는 아주 유용하지만, 그러한 창의성 때문에 때론 진실과 다른 답이 만들어지기도 한다는 것이다. 결국, LLM의 본질은 환각(할루시네이션)이며, 이것을 AI가 가진 문제점으로만 여길수는 없다는 것이다. 물론 그래서 진실과 다른 할루시네이션을 그대로 두자는 것이 아니라, 이러한 현상이 왜 일어나고 있는지 그 본질에 대해 기억하자는 의미일 것 같다. 그래서인지 그는 같은 포스팅에서 명백하게 진실과 다른 할루시네이션을 잡기 위해, 다양한 노력이 필요하다며 RAG(검색 증강 생성) 등 구체적인 방법론에 대해서도 언급하고 있다.

* 참고: Open AI의 AI과학자 안드레이 카파시 Andrej Karpathy 가 자신의 X에 올린 의견

https://x.com/karpathy/status/1733299213503787018

도브의 사례

그렇다면 이제 도브의 이야기를 해보려 한다. 도브는 이렇게 현재 진행 중인 AI편향성 이슈를 적극 끌어와 마케팅에 활용한다. 어떻게 그리 했는지 도브가 2024년 공개한 The Code 캠페인을 보자. 영상은 생성형 AI에게 다음과 같이 요청하며 시작된다.

"아름다운 여성을 그려줘" 그럼 AI는 우리가 상상하는 아름다운 여성을 보여준다. 그리고 다시 한번 요청한다. "세상에서 가장 아름다운 여성을 그려줘" 역시나 우리가 알던 전형적인 미녀의 모습이 나타난다. 기분 탓인가. 좀 더 예쁜 여성이 나온 것 같다. 그동안 다양한 데이터를 학습한 AI가 만들어낸 결과물이 그랬다는 거다.

그러다 도브는 이번에 좀 다른 요청을 한다. "도브의 '리얼 뷰티'에 따른 아름다운 여성을 그려줘" 그러자 전혀 다른 결과가 나타난다. 장애인부터 피부에 검버섯이 자란 노인까지 정말로 다양한 모습의 여성들이 등장한다. 그 모습이 앞서 등장했던 이미지와 참으로 대조적이며 그라마틱 하게 그려진다.

2024 The code

이를 좀 더 잘 이해하기 위해서는 도브가 지난 20여 년간 진행해 온 ‘리얼뷰티 캠페인’을 살펴보면 좋을 것 같다. 리얼뷰티 캠페인은 미디어에서 조작된 아름다움을 거부하고 진정한 아름다움이 무엇인지에 대해 화두를 던진다. 도브의 모회사인 유니레버의 미션이 Change Beauty라는 점과도 연결되는 맥락이다.

하나의 캠페인을 이렇게 길게 끌고 나가는 게 얼마나 어려운 일인지 현업에 있는 실무자들이라면 충분히 공감할 거다. 매년 반복하는 게 왜 어렵지?라고 생각할지 모르겠다. 그러나 매년 등장하는 사업적 이슈와 경쟁사의 도발, 고객의 관심사항 변화나 실적 악화 등이 맞물린다면. “우리 뭔가 좀 해봐야 하는 거 아냐?”라는 문제에 직면할 수밖에 없다.

이런 상황에서 “아니요. 일관성을 유지하시죠”라고 말한다면? 아마도 화가 잔뜩 나 있는 임원의 얼굴을 아주 가까이서 보게 될지 모르겠다. 이것이 아마도 수많은 마케터들이 직면하고 있는 현실 아닐까. 그러다 보니 도브의 리얼뷰티 캠페인처럼 20년을 지속한 캠페인이 돋보일 수밖에!

2004년에 시작된 이 캠페인은 기존 광고에 잘 등장하지 않았던 평범한 외모의 여성들을 앞세운다. 과하게 마른 것도 아니고 과한 보정을 한 것도 아닌, 그냥 우리 주변에 흔히 볼 수 있는 흔녀 그 자체였다. 지금이야 탈코르셋이나 젠더 이퀄리티가 문화계의 중요한 화두이지만 20년 전에는 확실히 달랐다.

그 후, 2006년 Evolution 편에서는 미디어가 만들어내는 아름다움에 대한 거짓을 폭로했고. 그 해 칸 광고제에서 그랑프리를 수상했다.

(2006년) 도브의 Evolution 편 (칸 그랑프리 수상)

그렇게 시작된 도브의 리얼뷰티 캠페인은 여러 논쟁적인 작품으로 주목을 받았다. 2023년에는 급기야 한 편의 단편영화를 만들어 낸다. 메리라는 소녀의 일생을 따라가며, 거식증에 걸려 치료를 받기까지의 실제 이야기를 바탕으로 한다. 그리고 SNS에 등장하는 아름다움이 미의 기준을 왜곡하며, 스스로를 위기로 몰아넣는 이들에 대한 이야기를 전한다.

(2023년) 도브의 리얼뷰티 캠페인 Cost of Beauty 편

그 외에도 도브는 '리얼 뷰티'를 주제로 다양한 시도를 했다. 20여 년에 걸쳐 다양한 방식으로 리얼뷰티가 무엇인지에 대한 화두를 던진 것이다. 그렇게 ‘도브가 생각하는 진정한 아름다움’이라는 브랜드 헤리티지를 쌓아왔다.

이런 배경을 모두 이해하고 다시, 2024년에 생성형 AI를 활용한, The Code 편을 보면 조금 다르게 보인다. 이 광고는 그간 스스로 만들어온 화두를 생성형 AI를 통해 다시 한번 상기시킨다. 일반적으로 미디어가 생각하는 아름다움이 이렇다면, 내가 말하는 리얼뷰티는 바로 이거다라는 것을 시각화시켜 보여준다.

도브가 고객조사한 결과에 따르면, 10명 중 4명의 사람들은 온라인상에 등장하는 이미지가 가짜 이미지라 할지라도, 그것 때문에 스스로의 외모를 바꿔야 한다는 압박을 느낀다고 한다. SNS를 많이 하는 이들이 불행하다는 결과가 나오는 것도 같은 이유 아닐까. 이러한 문제제기의 방식은 충분히 쌓아온 본인들만의 캠페인 결과물이 있었기에 가능한 것이라고 본다.

도브는 이번에 공개 한 The Code 편을 제작하며, 앞으로 도브 광고에 생성형 AI를 활용하지 않겠다는 선언을 했다. 20년간 같은 메시지를 일관되게 해온 것도 대단하지만, 말과 행동을 일치시키려고 노력하는 모습이 더 대단해 보인다. 도브의 캠페인이 힘을 가질 수 있는 건 바로 이런 이유 때문 아닐까.

생각해 볼거리

여기서 우리가 배워야 하는 부분은 바로 AI를 활용하는 방식이다.

통상의 브랜드는 AI가 등장했을 때 그 스킬을 어떻게 이용할 수 있을까를 고민한다. 그러나 도브는 AI가 만들어 낼 수 있는 사회적 스테레오 타입의 문제를 지적하며 다시 한번 생각할 거리를 던져준다. 이토록 논쟁적인 브랜드와 동시대를 살아간다는 건 고객으로서 흐뭇한 일이다.