brunch

You can make anything
by writing

C.S.Lewis

by 삼더하기일 May 03. 2022

포털 사이트가 스팸메일 자동 분류를 해줄 수 있는 이유

자연어처리(NLP) 인공지능의 발전

스마트폰과 PC를 이용하고 있는 사람들이라면 누구든 네이버, 구글 등 포털 사이트를 이용하고 있을 겁니다. 이러한 포털 사이트는 우리에게 검색이라는 아주 중요한 기능을 제공해줍니다. 하지만 비단 포털 사이트의 유용함은 검색에만 국한되어 있지는 않습니다. 우리는 포털 사이트를 통해 유용한 블로그를 찾아보기도 하고 쇼핑을 하기도 합니다. 그리고 포털 사이트의 기능 중 절대 빼놓을 수 없는 것이 바로 이메일입니다. 우리는 네이버나 구글과 같이 포털 사이트에서 제공해주는 메일 기능을 통해 사람들과 편하게 연락을 주고받을 수 있는 환경을 제공받고 있습니다.


인공지능의 발전과 스팸메일 자동 분류


우리가 포털 사이트의 메일을 이용할 때 중요하게 사용하고 있는 서비스가 한 가지 있습니다. 바로 스팸메일 자동 분류 서비스입니다. 최근에는 워낙 많은 스팸메일이 존재하기 때문에 만약 스팸메일이 자동적으로 분류되지 않고 있다면 우리의 메일함은 상당히 지저분해질 확률이 높습니다. 어찌 보면 우리가 다른 사람과 원활하게 이메일을 통해 소통을 할 수 있는데 스팸메일 자동 분류 기능은 필수라고도 볼 수 있습니다. 하지만 곰곰이 생각해보면 이 스팸메일 자동 분류는 정말 신기하지 않을 수 없습니다. 스팸메일 기술은 갈수록 고도화되어가고 있을 텐데 어떻게 포털 사이트는 자동으로 스팸메일을 분류하여 우리에게 편의를 제공해줄 수 있을까요?


이 해답은 바로 딥러닝을 필두로 한 인공지능 기술에 있습니다. 똑똑하기로 정평이 난 인공지능이 스팸메일을 구분할 수 있도록 학습을 진행시켜준 뒤, 발송되는 모든 메일마다 이 인공지능을 통해 스팸메일인지 아닌지 분류 작업을 진행하면 됩니다. 물론 인공지능 기술이 지금처럼 발전하게 된 것은 비교적 최근의 일입니다. 어느 시점 이전에는 인공지능 기술이 상대적으로 부실하였고 그렇기에 포털 사이트들은 다른 방법을 이용해 스팸 메일을 분류해주어야 했습니다. 이번 시간에는 포털 사이트들의 스팸메일 분류 서비스의 성장과 그 속에 숨어있는 인공지능 기술의 원리에 대해 이야기해보도록 하겠습니다.


스팸메일 자동 분류의 간략한 역사


인공지능 기술이 발전하기 이전 포털 사이트가 스팸메일을 분류하는 데 사용한 방법은 바로 확률게임입니다. 이메일을 주고받는다는 것은 곧 특정한 텍스트를 상호 간에 주고받는다는 것을 의미합니다. 그리고 한국어, 영어 등 모든 언어는 단어를 통해 문장을 분해할 수 있습니다. 이렇게 단어의 관점에서 생각을 해보면 스팸메일을 분류할 수 있는 하나의 힌트를 얻을 수 있습니다. 바로 스팸메일에 자주 이용되는 특정 단어를 찾아낸다는 아이디어입니다. 만약 '송금'이라는 단어가 들어있는 메일이 스팸메일로 의심되고 있다면, 전체 이메일 중 스팸메일의 비율과 '송금'이라는 단어가 들어있는 이메일 중 스팸메일의 비율을 계산해보면 됩니다.


이렇게 특정 단어를 기준으로 스팸메일의 비율을 계산하면 이제부터 확률 놀이를 할 수 있습니다. 전체 메일 대비 '송금'이라는 단어가 들어있는 메일의 스팸메일 비율이 높다면 우리는 '송금'이라는 단어가 들어있는 메일을 스팸메일로 치부할 수 있습니다. 이를 통계적으로는 조건부 확률을 계산한다고 합니다. 특정 단어가 들어있는 조건이 포함될 경우의 확률을 계산한다는 의미입니다. 이 원리로 특정 단어가 들어있을 확률, 스팸메일일 확률을 각 상황에 맞추어 계산할 수 있는데 이를 통해 우리는 스팸메일의 위험도가 높은 여러 단어를 추출하는 것이 가능합니다. 그 유명한 베이지안 이론에 근거한 확률 놀이라고 볼 수 있습니다.


스팸메일 분류를 위한 인공지능의 등장


하지만 단어의 확률 놀이를 이용해 스팸메일을 분류하는 것에는 분명한 한계가 따를 수밖에 없습니다. 100% 스팸메일을 구분 지어주는 단어가 존재한다는 것이 힘들기 때문입니다. 지인에게 정보를 전달하기 위해 메일을 전달했는데 특정 단어가 포함되었다는 이유로 해당 메일이 스팸메일함에 들어간다면 많은 불편함을 야기할 수 있습니다. 하지만 시간이 지나며 이 문제까지 한 번에 해결할 수 있는 기술이 나왔습니다. 바로 인공지능 기술이 비약적으로 발전한 것입니다. 딥러닝 기술을 필두로 한 인공지능 기술의 발전은 더 이상 몇몇 단어의 존재만으로 스팸메일을 판단하지 않아도 될 정도로 크게 성장을 했습니다. https://brunch.co.kr/@8d1b089f514b4d5/2


딥러닝 기술을 통해 발전한 인공지능은 특정 단어 몇 개가 아니라 이메일 안에 들어있는 전체 텍스트를 모두 읽고 맥락 정보를 반영해 스팸메일을 분류하기 시작했습니다. 물론 이 안에서도 세부 알고리즘이 수학과 통계 원리에 의해 작동되는 것은 사실이지만, 단순한 확률 놀이로 스팸메일을 분류하던 이전 시절과는 차원이 다른 접근을 보여준 것입니다. 결국 인공지능 기술을 적용하기 시작한 포털 사이트들은 스팸메일과 일반 메일에 대한 대량의 데이터를 모아 한껏 정확해진 스팸메일 자동 분류 서비스를 제공하기 시작했습니다. 결국 인공지능(딥러닝) 기술과 이를 위한 빅데이터가 지금의 스팸메일 자동 분류 서비스를 있게 한 가장 큰 배경이라고 할 수 있습니다.


자연어처리(NLP) 인공지능의 우수성


딥러닝 기술 안에서도 이렇게 텍스트 데이터를 활용해 실제 인공지능을 구현하는 것을 자연어처리(NLP, Natural Language Processing) 분야라고 부릅니다. 과거에는 텍스트를 데이터화하고 이를 인공지능에 이용한다는 것이 너무나 어려웠습니다. 하지만 최근에는 이 자연어처리 기술이 발전함에 따라 스팸메일 정도는 우습게 분류할 수 있는 인공지능이 등장하였습니다. 실제로 현재 구글은 지메일(gmail)의 스팸메일 자동 분류 정확도가 99% 이상을 기록하고 있다고 말하고 있습니다. 100건의 스팸메일을 발송하면 그중 1건의 스팸메일도 제대로 일반 이용자의 메일함에 도달하지 못한다는 것을 의미합니다.


이러한 자연어처리 기술은 날이 갈수록 빠른 발전 속도를 보이고 있습니다. 단순히 스팸메일을 자동적으로 분류해주는 것을 넘어 이제는 자연어처리 기술을 활용하여 챗봇을 만들고, 이를 통해 고객 응대를 할 수 있습니다. 또한 사회적 문제를 야기하고 있는 가짜 뉴스를 판별하는 데에도 이 자연어처리 인공지능 기술이 활용될 수도 있습니다. 최근 많은 화제를 모으고 있는 기계 번역 서비스, 소설이나 시나리오를 작성하는 인공지능 등도 모두 큰 분류 체계를 보면 자연어처리 인공지능이라고 볼 수 있습니다. 이처럼 포털 사이트들이 앞다투어 개발했던 스팸메일 분류용 자연어처리 기술은 다양한 형태로 발전하여 우리 삶의 질을 더 높여주고 있습니다.



자연어처리 인공지능이 더 발전한다면 어떤 서비스를 받을 수 있을까요?


요약하자면, 포털 사이트들은 기존과는 달리 인공지능 기술을 이용해 스팸메일 자동 분류 서비스의 정확도를 비약적으로 상승시켰고 이것이 지금의 스팸메일함 기능의 가장 큰 기술적 배경이 되었습니다. 단언컨대, 인공지능 기술이 없었다면 현재 수준의 스팸메일 분류 서비스는 절대 마주할 수 없었을 겁니다. 그리고 스팸메일 자동 분류에 사용되는 자연어처리 인공지능 기술은 스팸메일 분류에 머물지 않고 날이 갈수록 빠른 발전 속도를 보이며 다양한 서비스 형태로 우리가 마주하고 있습니다. 만약 포털 사이트들 뿐 아니라 다양한 기업들이 자연어처리 인공지능을 더 발전시킨다면 우리 삶에는 어떤 큰 변화가 있을 수 있을까요?


자연어처리 인공지능이 지금 수준에서 훨씬 더 발전한다고 가정했을 때 그 기술이 가져다주는 효용이 구체적으로 어떨지는 아무도 모릅니다. 발전된 기술을 어느 장소에 어떤 방식으로 적용시킬지에 대한 문제는 풍부한 상상력과 다양한 아이디어가 접목되어야 하는 영역이기 때문입니다. 다만 한 가지 확실하게 말할 수 있는 것은 인공지능 기술이 지금보다 더 발전한다면 우리 삶에 편리성을 더해주는 다양한 서비스가 훨씬 더 많이 생겨날 수 있다는 점입니다. 포털 사이트의 스팸메일 분류를 통해 자연어처리 인공지능의 기본 개념을 이해하고 이것이 향후 어떤 형태로 발전할지 생각해 보는 것도 한 가지 흥미로운 생각거리입니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari