Captcha (캡챠)는 왜 계속 어려워질까?

Jul 11. 2021

뉴스레터 구독하기: https://saconyreview.glivery.co.kr/

Captcha (캡챠)는 "Completely Automated Public Turing tests to tell Computers and Humans Apart"로 사람과 봇 (컴퓨터)를 구분하기 위한 프로그램이다. 가끔 정말 맞춘 것 같은데 자꾸 틀렸다고 해서 "어쩌라는 거야"를 느낀 적이 대부분 있을 것이다. 캡챠는 왜 점점 더 어려워질까? 즐겨보는 Vox에서 올라온 영상이 흥미로워서 간단히 메모.

1. Captcha는 Duolingo의 창업자이기도 한 Louis Von Ahn이 2000년 카네기멜론 박사 시절 발명. 그 당시 야후는 최고의 이메일 / 포털이었지만 하루에도 몇만 건 이상의 봇들이 스팸용 이메일을 가입했고 그 문제를 세미나에서 학생들과 공유. 이것을 들은 Louis가 발명. Captcha의 어려운 점은 사람은 패스를 할 수 있으나 컴퓨터는 못해야 한다. 하지만 컴퓨터는 사람의 인풋이 맞았는지를 판단할 수 있는 채점 능력은 또 필요하다.

2. 캡챠 1세대는 사람이 글씨를 잘 읽는다는 점에서 착안. 사람은 글씨가 삐뚤삐뚤, 조명이 어두워도, 글씨가 많이 왜곡되어도 제법 글씨를 읽을 수 있다. 하지만 그 당시 컴퓨터는 기술적 한계로 글씨를 잘 못 읽었다. 그래서 컴퓨터가 정한 글씨를 늘리고 구부려서 사람들에게 보여줬다. 야후는 이 기술을 바로 적용. 하루에 100만 건 이상의 사용이 발생했다. 문제는... 봇들과 알고리듬이 점점 더 똑똑해져서 왜곡된 글씨를 읽을 수 있게 됐다는 점.

3. 2005년 reCpatch의 등장 (캡챠 2세대). 이번엔 한 단어가 아닌 두 단어. 한 단어는 캡챠 1세대의 방법 그대로, 두 번째 단어는 고전 책 혹은 신문에 있던 단어를 임의적으로 보여줌. 컴퓨터는 두 번째 단어에 대한 정답은 모르지만, 일반적으로 사람들이 첫 번째를 맞추면 두 번째도 맞출 확률이 높다는 점, 그리고 많은 사람들이 인풋을 제공하면서 점점 "정답"에 가까운 단어가 컨센서스가 모여지면서 사람을 봇으로부터 구분한다.

4. 2009년 구글이 이런 ReCaptcha를 인수. ReCaptcha를 이용하여 수많은 문서와 문헌들을 디지털화 하기 시작. 구글은 이런 데이터들을 모아서 아무리 왜곡된 글자도 읽을 수 있는 알고리듬의 완성도를 높인다. 2014년에 구글이 한 실험에선 사람의 정확도는 33%, 그리고 구글의 AI는 99.8%로 왜곡된 글씨를 맞췄다. 이 말은 또 사람과 봇을 구분하기가 힘들어졌다는 말.

5. 2014년 ReCaptcha V2의 등장. 이번엔 그림이다. 캡챠를 하다 보면 왜 이렇게 신호등, 횡단 보다가 많이 나오는지 궁금했던 사람도 있을 것이다. 구글은 ReCaptcha로 수많은 사진과 이미지들을 labeling 하기 시작한다. 이는 구글 자신들의 자가 주행 자동차와 구글 맵스를 위한 데이터로 활용한다. 하지만 이 또한 데이터가 많이 모이면서 봇이 사람을 앞서 나간다.

6. 이젠 어떻게 하나? 이젠 사람의 마우스 움직임, 텍스트를 한 번에 많이 입력하는 지를 웹을 이용할 때 항상 그런 행동들이 모니터링하고 이건 누가 봐도 사람이면 캡차를 보여주지 않고, 많은 클릭이 한 번에 많이 일어나거나 수상한 행동을 하게 되면 캡챠로 인간과 봇을 구분하고 있다.

하지만 이 또한 언젠간 컴퓨터가 따라 할 수 있을 것이라고...

링크: https://www.youtube.com/watch?v=lUTvB1O8eEg

뉴스레터 구독하기: https://saconyreview.glivery.co.kr/

keyword

매거진의 이전글잘나가는 VC의 펀딩을 받기위해서 스타트업이 포기하는"마지막 강의"를 보고매거진의 다음글