brunch

You can make anything
by writing

C.S.Lewis

by delight Feb 05. 2023

AI알고리즘을 속여라...적대 공격의 세계

AI는 종종 사람이 할 수 없는 일을 하거나 사람보다 잘하지만 엉뚱한 결과들도 많이 만들어 낸다. AI는 속이기도 쉽다.


알고리즘의 빈틈을 파고드는, 이른바 적대 공격에도 취약할 수 있다.


저넬 셰인이 쓴 좀 이상하지만 재미있는 녀석들에 따르면 AI 알고리즘은 적대 공격을 당할 수 있는 시나리오는 여러 가지다.

  알고리즘의 내부 원리를 알 수 있으면 적대 공격을 아주 쉽게 설계할 수 있다. 그런데 우리는 처음 보는 알고리즘도 얼마든지 속일 수 있는 것으로 드러났다. 랩식스의 연구팀은 인공신경망의 내부 연결을 알 수 없어도 적대 공격을 디자인할 수 있다는 사실을 발견했다. 어느 인공 신경망의 최종 결과 밖에 알 수 없는 경우에도 시행착오를 사용하면 비록 제한된 횟수밖에 시도할 수 없더라도 인공신경망을 속일 수 있었다. 연구팀은 조작된 이미지를 보여주는 방식으로 구글의 이미지 인식 툴이 스키 타는 사람의 사진을 강아지 사진이라고 생각하게 속일 수 있었다.
  연구팀은 먼저 강아지 사진으로 시작해 강아지 사진에 있는 픽셀을 하나씩 하나씩 스키 타는 사람의 사진에 있는 픽셀로 대체했다. 다만 이 때 AI가 해당 사진이 강아지처럼 보인다고 생각하는 것에 영향을 미치지 않는 듯한 픽셀만 골라 내어 스키 타는 사람의 사진으로 대체했다. 이 작업을 만약 인간에게 똑같이 보여준다면 특정 시점이 지난 후부터는 강아진 사진 위에 스키 타는 사람이 겹쳐 보이기 시작한다. 결국 대부분의 픽셀이 교체된 후에는 인간은 오직 스키 타는 사람만 보이고, 강아지는 보이지 않는다. 그러나 AI는 여전히 이 사진을 강아지 사진이라고 생각했다. 너무나 많은 픽셀이 대체되어서 인간의 눈에는 분명히 스키 타는 사람으로 보이는데도 말이다.


알고리즘을 비공개로 유지하더라도 적대 공격을 당할 수 있다.

  그렇다면 아무도 내 알고리즘의 코드를 볼 수 없고 내 알고리즘을 갖고 놀수 없게 만든다면 우리는 적대 공격으로부터 알고리즘을 방어할 수 있을까? 하지만 알고리즘은 여전히 취약한 것으로 드러났다. 공격자가 이 알고리즘이 어떤 데이터세트로 훈련했는지 알수만 있다면 말이다. 이런 잠재적인 취약성은 의료용 이미지나 지문 인식 같은 현실 세계의 애플리케이션에서도  나타난다. 문제는 자유롭게 사용할수 있고 이미지 인식 알고리즘을 훈련시키는 데 유용할 만큼 큰 규모의 이미지용 데이터세트가 세상에는 몇개 없고  수많은 기업과 연구팀이 몇안되는 그 데이터세트를 사용하고 있다는 점이다.
  이 데이터세트들에는 나름의 문제가 있지만 무료이기 때문에 이용하기 편하다. 어느 AI를 위해서 디자인된 적대 공격은 동일한 이미지 데이터세트로 훈련한 다른 AI에도 적용될 수 있을 것이다. AI가 구체적으로  어떻게 설계됐는지 보다는 훈련용 데이터가 중요한 것으로 보인다. 이 말은 곧 내 AI의 코드를 비밀로 유지하더라도 해커는 여전히 내 AI를 속일수 있는 적대 공격을 설계할 수 있을지 모른다는 뜻이다. 내가 시간과 비용을 들여서 자체 데이터세트를 만들어내지 않은 이상 말이다.

AI 알고리즘을 훈련하기 위해 사용하는 데이터세트를 미리 파고드는 경우도 있다.

  심지어 공개된 데이터세트를 오염시켜서 어떤 적대 공격을 미리 설계해 두는 것도 가능할지 모른다. 사람들이 참여할 수 있는 데이터세트로는 악성코드 방지 AI를 훈련하는 데 쓰이는 악성코드 샘플들이 있다. 그러나 2018년 발표된 논문에 따르면 이런 악성코드 데이터세트에 해커가 충분히 많은 샘플을 올려두면 (데이터세트의 3% 정도만 오염시키면 된다.) 해당 해커는 이 데이터세트로 훈련한 AI들을 무력화할 수 있는 적대 공격을 설계할 수 있는 것으로 나타났다.
  알고리즘의 성공 여부에 왜 알고리즘의 디자인보다 훈련용 데이터가 훨씬 더 중요한지는 분명치 않다. 이것은 약간 걱정되는 부분이다. 알고리즘이 온갖 상황과 조명 아래에서 물체를 인식하는 법을 학습하는 것이 아니라 데이터세트에 있는 괴상한 특징들을 인식하는 것일지도 모른다는 것이기 때문이다. 다시 말해 이미지 인식 알고리즘에서 과적합은 우리 생각보다 훨씬 더 널리 퍼져 있는 문제일지도 모른다.
  하지만 이것은 같은 부류에 속하는 알고리즘들(동일한 훈련용 데이터로 학습한 알고리즘들)이 이상하리 만큼 서로를 잘 이해한다는 뜻도 된다. 내가 애튼갠이라는 이미지 인식 알고리즘에 커다란 케이크 한 조각을 먹고 있는 소녀의 사진을 생성하라고 했더니 애튼갠은 거의 알아보기 힘든 사진을 만들어냈다. 구멍이 숭숭 뚫린 덩어리 위에 두툼한 머리카락이 있고 그 주위에 물방울 같은 케이크들이 둥둥 떠다니고 있었다. 케이크의 질감 만큼은 훌륭하다고 인정할 수 있었다. 하지만 알고리즘이 뭘 그리려고 했는지는 도통알 수 없다.
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari