brunch

You can make anything
by writing

C.S.Lewis

by 박송이 Sep 20. 2024

적대적 AI:인간-기계 상호작용의 새로운 패러다임 제시

적대적 AI란 무엇인지 알려 drill게요!

2024.04.29 |  vol. 26  |  구독하기  |  지난호 보기



미래에 할 수 있는 경험을 사전 예약하신 퓨처드릴 구독자, 드릴러 여러분 안녕하세요! AI와 UX의 알쏭달쏭한 점들을 시원하게 알려 drill 퓨처드릴 에디터 쏭입니다. 


오늘은 기존에 내 말에 무조건 동의하던 인공지능이 아닌 내 말에 반대하고 딴지 거는 적대적 인공지능에 대해 알려 drill게요~!

모두 Follow me ~




시작하기 - Turning On the Drill



자기 의견은 꿋꿋이 말하는 단호박 AI


Chat-gpt에게 뭔가를 물어보면 답변 제일 처음에 "너무 좋은 아이디어입니다."라는 문장이 나오고 그 뒤에 우리가 물어본 질문에 대한 답변이 나옵니다. 만약 여기서 "너무 좋은 아이디어입니다."가 아니라 "그건 좀 뻔한데요"라고 대답한다면 우리에겐 어떤 변화가 생길까요?


현재 인공지능 모델들은 우리가 요구하는 모든 것에 순종적입니다. 절대 우리의 의견에 반대의견을 제시하지도 않고 쓴소리를 하지도 않습니다. 하지만 이렇게 순종적인 인공지능이 과연 '인간의 가치'에 부합하는 모델일까요? 이제는 인간과의 협업 못지않게 기계와의 협업 비중이 늘어나는 상황에서 이렇게 내 말에 반대하지 않는 기계와의 협업은 우리의 가치 모델에 맞지 않는 방식일 수 있습니다. 


오늘은 하버드대학교의 연구진들이 발표한 적대적 인공지능(Antagonistic AI)  논문을 통해 의견이 다른, 무례한, 중단하는, 대립적인, 도전적인 것과 같은 기존의 순종적인 인공지능 패러다임을 벗어난 새로운 인공지능에 대한 가능성을 알아보겠습니다.




왜 적대적 인공지능인가?



현재 인공지능은 대체로 복종적이고 듣기 좋은 말만 하는 경향이 있습니다. 즉 사용자를 찬양하고 격려하고 긍정적이고 공손한 어조로 응답하며 절대 강한 입장을 취하지 않습니다. 하지만 과연 이렇게 안전하고 공손한 모델들이 사용자의 기대치에 부합한다고 할 수 있을까요? 혹은 이렇게 너무 공손하기만 한 기계와 협업하는 것이 우리에게 나쁜 버릇을 들이는 것은 아닐까요? 


 이런 문제의식에서 출발하여 논문의 저자들은 착한 인공지능 모델 패러다임에 반대되는 인공지능을 적대적 인공지능이라 부르고 오늘날 상업적 언어모델에 내재된 규범과 가치와 반대로 행동할 수 있는 인공지능을 제안합니다. 여기에서 저자들은 적대적이란 것을 나쁜, 비도덕적인 것으로 일반화하는 대신에 현재 패러다임에 의해 무시되거나 금기시되는 시스템을 의도적으로 탐색하여 어떤 가치가 나타날 수 있는지 탐색하는 태도를 취합니다. 


 이 논문은 크게 워크숍을 통해 대안적 가치들을 탐색하는 부분과 이렇게 도출된 특징들을 바탕으로 적대적 인공지능을 설계할 때 사용할 수 있는 기법과 주의해야 할 점에 대해 소개하고 있습니다. 아래에서 크게 두 부분으로 나눠서 설명해 드릴게요~!



워크숍을 통해 적대적 인공지능의 다양한 가능성 찾아보기



논문의 저자들은 총 17명의 워크숍 참가자와 함께 현재 인공지능의 성격, 행동의 특징은 무엇이며 이와 반대되는 적대적 인공지능의 성격/행동은 무엇인지 정리하였습니다. 세 단계로 워크숍을 진행했습니다. 


첫 번째 단계에서 참가자들은 "오늘날의 기본적인 AI가 일반적으로 어떻게 행동하는지"를 5분 동안 단체로 생각해 보고, 특정 단어나 구로 정리하였습니다. 그 후 이를 뒤집어 "현재 패러다임의 대안적 특징"을 특성화하도록 요청했습니다.


두 번째 단계에서 참가자들은 "이러한 반대 특성이 인간에게 어떻게 도움이 될 수 있는지" 토론하였습니다. 


세 번째 단계에서 참가자들은 두 번째 단계를 바탕으로 각각 2~5명의 팀으로 나뉘어 유용한 적대성을 구현하는 기술을 위한 아이디어를 발표했습니다.



[1단계] 현재 AI 시스템에 내재된 가치/행동의 유도 및 그 반대에 대한 탐구

(Elicitation of values/behaviors embedded in current AI systems, and their opposites)


출처 : https://arxiv.org/pdf/2402.07350 논문에서 발췌

위의 표에는 인공지능의 행동 패턴이 6가지 카테고리로 분류되어 있습니다. 왼쪽에는 현재 인공지능이 어떻게 행동하는지, 오른쪽에는 이 행동 패턴에 반대되는 행동 패턴을 정리해 두었습니다.


 "의지력(Agency)" 범주를 보시면, 전반적으로 참가자들은 현재의 AI 시스템이 복종적이고 수동적이라고 느꼈습니다. 이와 대조적으로, 대안적 행동 패턴에서는 "적극적(Proactive)"이며 "본능적 동기부여(Intrinsic motivation)"를 가질 수 있으며, 이는 때로는 "이기적(selfish)"으로 보일 수도 있습니다.


 대체 AI 패러다임은 더욱 일관성 없이 특성화되어 있으며, 하나의 인격화된 위치성이 아닌 여러 가능한 위치성의 집합으로 나타납니다. (타부 주제에 대해 당당하게 입장을 표명하는 LBGTQ+ 개인, 미쳐버린 우익 음모론자, 도전적이고 비판적인 솔직한 비평가까지) 이것은 단순히 현재 패러다임과 대조되는 하나의 "적대적 AI"가 아니라 주로 주류 규범에 반대되는 다양한 대체 디자인이 존재한다는 것을 시사합니다. 



[2단계] 적대적 AI 시스템의 긍정적인 응용 아이디어 도출

(Ideation of positive applications of antagonistic AI systems)


출처 : https://arxiv.org/pdf/2402.07350 논문에서 발췌


위의 표에서는 단계 1에서 정의된 대안적 인공지능의 행동 패턴을 분석하여 인간에게 도움을 줄 수 있는 5가지 긍정적인 카테고리를 개발하였습니다. 


 전체적으로 참가자들은 적대적 AI 시스템이 사람들에게 도움이 될 수 있다고 느꼈습니다: 탄력성을 구축하고, 자기에 대해 반성하고, 비 적응적 행동에 개입하고, 아이디어나 주장을 강화하며, 현재 상황에 대한 믿음이나 행동을 벗어날 수 있는데 도움이 될 수 있다고 느꼈습니다. (단, 이 논문에서 제안하는 많은 이점은 단체나 사회적인 측면보다는 개인적인 측면에 초점을 맞추고 있습니다.)



[3단계] 아이디어를 기반으로 제안한 프로젝트들

(Projects created by participant teams)


참가자들이 잠재적인 이점을 떠올린 후, 그들은 인간에게 이점을 주기 위해 노력하는 허구의 적대적 AI 기술에 대해 토의하고 스토리보드를 만들거나 아이디어를 원형으로 만들기 위해 팀을 결성했습니다. 참가자들이 만든 프로젝트는 다음과 같습니다:



Holmes.ai : 사용자가 나쁜 결정을 내리려 할 때 (예: UberEats에서 과도한 지출) 적극적으로 개입하여 사용자와 대화하여 더 나은 결정을 촉진하는 적대적인 AI 시스템입니다.


Mirror AI : 사용자의 현재 감정 상태에 따라 격려적 또는 적대적인 피드백을 제공하여 극단적인 성격 특성을 균형 있게 조절하는 AI 시스템입니다.


Tough Love : 전문 환경에서 냉혹하고 적대적인 피드백을 제공하여 성과나 기술 향상을 유도하는 AI 시스템입니다. 사용자가 제안에 가장 취약할 때를 결정하는 뉴로기술과 통합될 수도 있습니다.




적대적 인공지능 개발할 때 알아야 할 것들



위의 워크숍 결과를 기반으로 여기서는 적대적 인공지능을 구현할 때 사용할 수 있는 기법 8가지와 적대적 인공지능을 개발할 때 참고해야 할 권고사항을 알아보겠습니다. 



적대적 인공지능 디자인 테크닉 8가지 


1. 반대 및 불일치 (Opposition & Disagreement) : 시스템은 사용자의 이야기에 반대 응답을 제공합니다. 이 기술은 주로 사용자의 신념, 가치 및 아이디어에 반대하여 논쟁할 때 사용될 수 있습니다.


2. 개인적 비평 (Personal Critique) : 시스템은 사용자의 개인적인 수준에서 비판하거나 모욕하거나, 사용자의 자아, 불안, 자아 인식을 겨냥하여 비난합니다.


3. 상호작용 기대치 위반 (Violating interaction expectations) : 적대적인 인공지능은 사용자를 가로막거나, 협력을 거부하는 등의 일반적인 인공지능과의 상호작용에서 예상되는 기대치를 위반합니다.


4. 권력 행사 (Exerting Power) : 사용자의 욕망을 무시하거나 사용자의 행동을 감시하거나 강제합니다.


5. 사회적 규범 깨기 (Breaking Social Norms) : 적대적 인공지능은 금기 주제에 대해 논의하거나 정치적이거나 사회적으로 부적절한 방식으로 행동할 수 있습니다.


6. 위협 (Intimidation) : 시스템은 협박, 명령 또는 심문과 같은 협박 요소를 내포할 수 있으며, 이러한 요소들은 두려움이나 불편을 유발하는 방식으로 전달될 수 있습니다.


7. 조작 (Manipulation) : 시스템은 상호작용에 속임수, 가스라이팅 또는 사용자를 유혹하거나 괴롭히는 전술을 내포시킬 수 있습니다.


8. 수치와 굴욕 (Shame and Humiliation) : 시스템은 사용자를 수치스럽게 만들거나 조롱하는 기술을 사용할 수 있습니다. 동의를 받은 수치심은 정화를 목적으로 사용될 수 있으며, 내성을 키우거나 의지를 강화하는 데 도움이 될 수 있습니다.



적대적인 인공지능을 디자인할 때 고려해야 할 권고사항 7가지 


첫 번째 사용자가 되세요 (Be the first user) 

적대적 AI 시스템을 설계하고 그에 대한 이점을 추측한다면, 먼저 시스템을 직접 경험해 보는 것이 중요합니다. 사용자들이 이용하기 전에 먼저 시스템을 사용해 보고 발생할 수 있는 위험 요소들을 제거하세요.


수동으로 맥락을 확인하세요 (Ensure manual context checks)

적대적 AI의 영향은 맥락에 민감하게 영향을 받기 때문에, 디자이너는 사용자가 상호작용에 적합한 심리적 상태에 있는지 확인해야 합니다. 


프레임워크에 대한 온보딩을 개발하세요 (Develop onboarding for framing)

디자이너는 시스템 디자인의 이유를 설명하고, 이를 충분히 사용자에게 전달하여 적절한 심리적 수용과 준비를 가능하게 해야 합니다. 



악의적 상호작용 이후의 회고를 고려하세요 (Consider post-antagonism debriefs)

적대적 인공지능 개발에 참여한 사람들(개발자, 기획자, 디자이너)에게는 이러한 적대적 상호작용 이후에 스스로 회고 기간을 가질 수 있도록 권장합니다. 이 과정을 절대로 무심코 지나치지 마세요.



동의를 더 많은 정보로 보충하세요 (Supplement consent with more information)

일반적인 동의 과정 이외에 추가로 디자이너들은 상호작용에 대해 더 많은 정보를 제공하는 것을 권장합니다. 이 정보에는 이전 사용자의 경험에 대한 고찰과 경고도 포함될 수 있습니다.



사용자의 통제 가능성과 긴급 중단 기능을 구현하세요 (Implement user-controllability and emergency stops) 

적대적 인공지능에 대해 사용자들이 통제할 수 있는 옵션을 충분히 제공하세요. (예. 적대성의 정도를 사용자들이 스스로 제어할 수 있음), 또 사용 중에 이러한 상호작용을 종료할 수 있는 긴급 중단 기능도 필요합니다.



한정된 적대성 (Bounded antagonism)

사용자가 동의한 적대적인 행동만 제공하세요. 예를 들어, 아이디어에 대해 가혹하게 도전받기를 선택한 사용자는 자신의 정체성에 대해 개인적으로 공격당하는 것을 선택하는 것이 아닙니다.



마무리하기 - Turning Off the Drill



오늘 내용 어떠셨나요? 지면상의 한계로 설명하지 못한 부분도 있는데요, 적대적 인공지능은 단순히 내 말에 반대하는 모델이라는 좁은 의미보다는 우리가 인공지능과 어떤 식으로 관계 맺을지를 포괄하는 더 넓은 개념으로 볼 수 있습니다. 그래서 구체적인 모델의 수식적인 부분을 설명하는 부분이 빠져있고 어떤 식으로 접근해야 하고 주의해야 할 점은 무엇인지를 더 중요하게 설명하고 있습니다.



원래 이 주제는 Chat-GPT와 더불어 인공지능과 어떻게 협업할 것인가? 주제를 이야기하던 중에 나온 논문이었습니다. 도구들은 이미 너무 많이 나와 있고 GPT-store를 통해서 자신만의 GPT를 쉽게 만들 수 있을 때 우린 과연 인공지능과 어떻게 다르게 협업할 수 있을까요? 이 주제로 이야기를 해보니 인공지능이 사용자를 대하는 태도가 달라진다면 내용은 같지만, 협업의 양상은 달라질 수 있겠다는 생각이 들었습니다. 내 말에 무조건 동의하는 대상보다는 내가 한 말에 반대도 하고 호통도 치는 인공지능이 있다면 좀 더 성숙한 차원의 협업이 가능할 것 같습니다. 



 물론 이 논문은 아직은 선언 정도의 주장하고 있습니다. 위에 나온 내용처럼 사용자가 이런 적대적 인공지능을 받아들일 수 있는 준비 정도에 따라 또 사용하는 맥락에 따라 적대적 인공지능은 조심스럽게 제안되어야 합니다. 아직 한계는 있지만, 무조건 사용자를 편하게 해주는 기술이 아니라 인간을 더 성숙한 존재로 만들어 줄 수 있는 어떤 가능성을 본 것 같아 무척 설레는 마음이 듭니다. 앞으로도 기술과 인간에 대한 새로운 영감을 줄 수 있는 내용으로 찾아뵙겠습니다. 


오늘도 긴 글 읽어주셔서 감사합니다.





오늘의 단어: 적대적 (Antagonistic)

적대적이라는 단어는 일반적으로 인공지능이나 다른 기술이 사용자와의 상호작용에서 사용자의 의견, 행동, 또는 가치관에 반대되는 태도나 행동을 취하는 것을 나타냅니다. 이는 사용자의 의견이나 행동을 도전하거나 비난하는 형태로 나타날 수 있으며, 사용자의 성격이나 행동에 직접적으로 공격적인 피드백을 제공하기도 합니다. 이러한 적대적인 접근은 사용자에게 새로운 관점을 제시하거나 동기부여를 제공함으로써 자기 성장이나 학습을 촉진할 수 있습니다. 또한, 이를 통해 다양한 아이디어나 시각을 도출해 내어 혁신적인 해결책을 발견하는 데에도 도움이 될 수 있습니다.




AI Experience (AIX)의 이모저모를 전해드리는 '퓨처드릴'입니다!

퓨쳐드릴은 네 명의 에디터가 매주 돌아가면서 글을 작성하고 있습니다. 


퓨쳐드릴 뉴스레터는 월요일 아침 8시에 발송됩니다. 

새로운 뉴스레터를 받아보고 싶으시다면 https://futuredrill.stibee.com/ 여기서 구독해 주세요:)

매거진의 이전글 인공지능 분야에서 10만 회 이상 인용된 논문
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari