인공지능에서 빅데이터가 중요하다는 것은 어떤 이유인가요?
탐지 정확도를 높이기 위해 가장 중요한 것은 어떻게 양질의 학습 데이터 (공격 로그, 악성코드와 악성/정상여부 결괏값)를 많이 확보할 수 있는가 라는 점과 인공지능 장비가 보안담당자가 의도하는 방향으로 정상적으로 학습할 수 있도록 학습 데이터를 사전에 잘 가공(전처리)할 수 있는가라는 점입니다.
인공지능이 사람이 수행하는 업무 정확도와 같은 수준이나 혹은 더 높은 수준을 유지하기 위해서는 인공지능이 학습할 때 사용하는 데이터의 양이 많아야 하고 품질이 우수해야 합니다. 그런데 질 좋은 데이터를 대량으로 확보하기가 쉽지 않습니다. 구글, 애플, 아마존 등의 IT기업에서는 서비스를 무료 혹은 저렴한 가격으로 제공하면서 얻으려는 가치는 이런 서비스를 이용하는 사용자의 사용 내용이 포함된 다양한 데이터입니다.
이렇게 수집된 데이터를 바탕으로 더 다양하고 정확한 서비스를 개발하고 매출을 증대시키기 위한 인공지능의 학습 데이터로도 활용되는 것입니다. 아래 <그림 1>과 같이 인공지능을 학습시키는 데 사용되는 데이터의 질에 따른 학습 결괏값을 표시하였습니다. 양질의 데이터를 입력하면 낮은 품질의 결과가 나올 수도 있고 혹은 양질의 학습결과가 나올 수도 있지만, 질 낮은 쓰레기 데이터를 넣으면 아무리 노력해도 쓰레기 결괏값 밖에 나올 수 없다. 그래서 인공지능을 활용하기 원하는 조직은 바로 이 양질의 빅데이터를 수집하는데 혈안이 될 수밖에 없는 것입니다.
정부에서도 국민의 안전과 생활편의를 목적으로 공공분야에 대한 인공지능 활용을 활성화하기 위해 빅데이터의 중요성을 인식하고 양질의 데이터 수집을 위해 아래 <그림 2>과 같이 청년인턴십을 활용하여 수집된 데이터에 결괏값(Name Tag)을 입력하는 사업을 진행하고 있습니다. 아래 <그림 3>과 같이 문재인 정부에서 디지털 뉴딜 중 하나로 최근 발표한 데이터 댐 사업의 일환으로 다양한 공공테이터를 인공지능의 학습자료로 활용하기 위해 부족한 데이터를 생성하고 수집된 데이터에 대한 정확한 설명을 입력하는 작업을 추진하고 있습니다.
이런 작업을 넓게 보면 데이터에 대한 전처리 작업이라고 할 수 있는데, 학습 목적에 부합되는 자료를 생성한 후 선별하고 정확한 설명을 입력하는 단계로 인공지능의 학습 정확도를 좌우하는 매우 중요한 단계입니다. 학습하는 데이터에 대한 설명(Name Tag)이 정확하지 않으면 학습한 결과는 활용할 수 없는 낮은 수준의 결괏값 밖에 나올 수 없기 때문입니다. 그래서 이런 작업이 단순 반복적인 작업이지만 인공지능의 학습결과를 실생활에 활용할 정도가 되기 위한 아주 중요한 단계라고 할 수 있습니다.
정보보호 분야에서 인공지능을 활용하려는 노력도 활발하게 이루어지고 있습니다. 악성코드 여부를 판독하는 작업, 온라인게임에서 오토봇(사용자 없이 자동으로 게임을 수행하여 아이템을 수집하고 레벨을 올리는 일에 사용되는 프로그램)을 사용하는 유저를 찾는 작업, 네트워크 패킷을 분석하여 공격 여부를 판별하는 작업, 자율주행차량의 이상 징후를 탐지하는 작업, 다양한 보안 경고 로그를 분석하여 실제 공격을 판별하는 작업등에 인공지능을 적용하려는 시도가 진행되고 있습니다.
아래 <그림 4>는 정보보호 분야의 인공지능을 학습시키는데 필요한 빅데이터를 표시한 것입니다. 한국인터넷진흥원(KISA)에서는 "정보보호 R&D 데이터 챌린지"라는 대회를 매년 개최하고 있는데, 대학의 정보보호 동아리나 개인들이 아래와 같이 제공된 빅데이터를 이용하여, 얼마나 정확도가 높은 인공지능 학습결과를 뽑아내는지 경쟁하는 대회입니다. 이를 통해 인공지능에 대한 관심을 높이고 인재를 육성하여 국내 정보보호 산업발전에 이바지하기 위한 취지로 개최되고 있습니다.
인공지능에 양질의 빅데이터를 입력시켜 실제 업무에 적용할 수 있는 레벨로 만드는 작업은 쉬운 작업이 아닙니다. 데이터를 기준에 맞게 선별하고, 부족한 데이터는 추가로 만들거나 수집하여야 하며, 수집된 데이터에 대한 설명 내용을 추가하는 가공 작업은 모두 사람의 수작업이 필요한 업무입니다.
그뿐만 아니라 이렇게 학습된 결과에 대해 적절한 해석과 실생활에 적용하기 위한 적용 노하우를 축적하는 일은 IT전문가가 아닌 적용하려는 분야의 전문가들의 도움이 절실한 영역입니다. 최근부터 업무에 선별적으로 적용되기 시작한 인공지능이 시간이 갈수록 정확도가 높아지고 좀 더 많은 업무에 적용될 수 있겠지만 아직은 초기단계라 많은 시행착오가 필요할 것으로 예상되고 있습니다. 언젠가는 보안전문가의 도움 없이도 정확도 높은 공격 탐지와 차단이 가능한 보안장비가 나오기를 기대합니다.
그럼 다음 글에서는 가상으로 방송시스템에 대한 APT 공격 시나리오를 설명하면서 APT 공격을 통해 어떤 결과를 초래할 수 있는지 알아보고, APT 공격에 대한 효과적인 대응을 위한 APT 방어 장비의 종류와 효과적인 공격 차단을 위한 전략에 대해 소개하도록 하겠습니다.