brunch

매거진 웰컴투인공지능

라이킷 17 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 루달리 Jan 25. 2023

인공지능 성능 테스트의 역사

인공 지능과 인간 지능의 대결

인간 지능을 테스트 할 수 있는 방법은 여러 가지가 있다. 지능지수IQ 테스트를 시작으로 다중지능 테스트, 웩슬러 성인 지능 검사까지 세부적인 영역으로 따지자면 그 종류는 더욱 많다. 그만큼 인간 지능은 단순한 검사로 판단하기 어렵다는 뜻이다. 앨런 튜링은 기계가 인간의 지능을 모방했다면 기계 역시 지능이 있다는 것을 증명해야 한다고 발표했다. 기계의 지능을 테스트하기 위한 방법으로 ‘튜링 테스트’를 주장한 것이다. 튜링 테스트를 시작으로 이를 논증하기 위한 중국어의 방 실험도 등장했다. 이처럼 기계 지능에 대한 연구는 인공지능 역사에서 빼놓을 수 없는 주요 이슈로 지금까지도 진행 중이다.

The Turing test: Can a computer pass for a human? - Alex Gendler - YouTube

앨런 튜링1912∼1954은 1950년 발표한 철학 학술지 <마인드>에 게재한 논문 ‘계산 기계와 지능’에서 “기계는 생각할 수 있다”고 주장했다. 이를 테스트하기 위해 ‘튜링 테스트’를 개발했다. 튜링 테스트는 인간과 기계가 대화하여 테스트 하는 방법이다. 상대가 기계라고 눈치채지 못한다면 ‘지능이 있다’고 인정하는 방법이다. 기계의 지능이 인간과 같은지를 인간과의 대화를 통해 테스트하는 방법이다.

튜링 테스트에는 응답자 2명과 심판 1명이 있다. 응답자는 한 명은 인간이고, 또 한 명은 기계다. 인간 심판은 키보드를 통해 각 방에 있는 인간 또는 기계와 대화하여 어느 쪽이 인간인지 맞추는 것이다. 심판은 두 응답자와 충분한 대화를 하였으나, 어느 쪽이 인간인지 구별해 내지 못한다면 튜링 테스트를 통과하는 것이다.

캡챠 : 기계를 가려내라

튜링 테스트를 응용하여 만든 보안 기술이 캡차CAPTCHA이다. 캡차는 Completely Automated Public Turing test to tell Computers and Humans Apart의 약자이다. 웹 페이지 상의 사용자가 실제 사람인지 컴퓨터 프로그램인지 구별하기 위해 주로 사용되는 방법이다. 기계는 인식하기 어려우나 사람은 휘어지고 어그러져도 쉽게 인식할 수 있는 문자나 숫자를 통해 인간과 봇bot을 구별하는 방법이다.

CAPTCHA

인간은 텍스트와 이미지를 일그러뜨려도 이를 인식할 수 있지만 컴퓨터 프로그램은 현재의 수준으로는 인식하지 못한다. 캡차는 광고 게시물 등록 방지, 회원가입 자동생성 방지, 이메일 및 개인정보 수집 방지, 온라인 선거 시 이중 투표 방지 및 계정 해킹 방지를 넘어 인공지능 개발에까지 응용되고 있다. 캡차가 풀리면 인공지능의 문제가 해결되는 것이라고 보고 있다. 캡차는 거꾸로 기계를 가려내는 방법이므로 리버스 튜링 테스트Reverse Turing test라고도 한다.

64년만에 튜링 테스트 첫 통과한 ‘유진 구스트만’

최초로 튜링 테스트를 통과한 인공지능 프로그램이 있다. 영국의 레딩대학교에서 개발한 채팅프로그램 유진 구스트만Eugene Goostman이다. 2014년 6월 ‘우크라니아 13세 소년’으로 소개한 유진은 심사위원들과 5분간 채팅을 하였다. 그 결과 33%(합격점 30%)의 심사위원들이 인간이라고 판단했다. 유진 구스트만은 큰 화제를 불러일으키고 튜링 테스트를 통과한 인공지능 프로그램에게 수여하는 ‘뢰브너상’ 메달을 수상했다.

지금껏 이 테스트를 통과한 사례가 없었던 건, 그동안 컴퓨터가 인간의 질문을 전체 맥락에서 접근한 것이 아니라 ‘키워드keyword’ 중심으로만 이해해왔기 때문이다. 이성환 고려대 뇌공학과 교수는 “맥락을 조금만 벗어나도 컴퓨터는 완전히 엉뚱한 답변을 하는 경우가 많다. 이번 통과는 컴퓨터가 문장 구조나 문맥을 파악하는 데 어느 정도 성공했다는 걸 보여준다”고 말했다. 하지만 컴퓨터가 진짜로 ‘생각’했다기보다는, 인간의 사고思考를 흉내 낸 것에 불과하다는 비판도 있다.

https://biz.chosun.com/site/data/html_dir/2014/06/12/2014061202904.html

로봇, 64년 만에 인류를 흉내내기 시작했다

로봇, 64년 만에 인류를 흉내내기 시작했다 미래의 당돌한 로봇 수학문제 풀기 나한테 졌지 서운해하지마, ㅎㅎ 64년만에 통과한 튜링 테스트 컴퓨터, 심사위원 30% 깜빡 속여 인공지능의 기념비

biz.chosun.com

중국어 방 논증

중국어 방The Chinese Room은 튜링 테스트로는 기계가 지능이 있다고 판단하기 어렵다는 것을 논증하기 위해 존 설John Searl이 1980년에 제안한 사고 실험이다. 실험의 방법은 다음과 같다. 방 안에는 중국어는 전혀 모르고 영어만 할 줄 아는 사람이 들어간다. 그 방에는 대화를 할 수 있도록 미리 만들어 놓은 중국어 질문과 대답 목록을 함께 준비해 둔다. 방 밖에서 중국인 심사관이 중국어로 된 질문을 한다. 방 안에 사람이 준비된 대답 목록을 보고 답변을 중국어로 적어 밖에 있는 심사관에게 전달한다. 방 안에 있는 사람은 실제로는 중국어를 알지 못하지만 방 밖의 심사관들은 중국어를 이해하고 질문에 답변했다고 생각한다.

출처 https://samstory.coolschool.co.kr/zone/story/modi/streams/75955

질문에 대해 정확한 답변을 중국어로 한다고 해서 방 안에 사람이 중국어를 정말로 이해한다고 판정하기는 어렵다는 것이다. 질문에 정확한 답변을 하는 기계가 있다고 해도 튜링 테스트로는 지능이 있다고 판정할 수 없다는 논증적인 실험이다. 컴퓨터 프로그래밍을 하고 프로그래밍을 학생들에게 가르치는 필자는 ‘이 논증이 합당하다’는데 동의할 수밖에 없다. 질문과 답변을 일대일로 매핑하는 기계는 지능을 가진 것이 아니다. 그저 잘 만들어진 데이터베이스Database와 알고리즘Algorithm일 뿐이다.

2014년 개봉한 영화 <그녀Her>에서 인공지능 운영체제인 ‘사만다’가 주인공이다. 사만다는 주인공 테오도르와 자연스럽게 대화한다. 테오도르의 이야기에 귀 기울여주고 이해해주는 존재로 발전한다. 이런 사만다에게 테오도르는 사랑이라는 감정을 갖게 된다. 사만다 역시 테오도르가 느끼는 감정을 학습하며 단순한 운영체제가 아닌 하나의 인격체로 성장한다. 테오도르가 “사만다를 통해 느끼는 감정을 가짜 감정이라고 여겨야 할까? 사람이 아닌 사만다가 느끼는 감정을 진짜 감정이라고 여겨야 할까?” 라는 질문보다 “사만다처럼 마음까지 나눌 수 있는 진정한 대화가 가능한 인공지능이 출시되면 튜링 테스트를 통과할 수 있을까?”라는 질문이 더 궁금하다.