요근래 며칠 동안 ChatGPT-4o가 화두다. 놀라울 정도 빠르게 진화하고 있는 생성형 인공지능(Generative AI)은 게임체인저인 것은 분명하지만 그만큼 데이터 보안과 관련된 중대한 리스크 역시 생성해 내고 있다.
최근에 미국 국립표준기술연구소(NIST: National Institute of Standards and Technology)는 생성형 AI가 데이터 보안에 미칠 수 있는 위험을 강조하는 보고서 초안을 발표했다. “Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile (인공 지능 위험 관리 프레임워크)”라는 제목의 이 보고에서는 생성형 인공지능의 잠재적인 데이터 보안 리스크를 자세히 설명하고 리스크를 줄일 수 있는 예방조치들을 제안하고 있다.
NIST는 생성형 AI의 데이터 보안 위험을 기본적으로 “생체 인식, 건강, 위치, 개인 식별 정보 또는 기타 민감한 데이터의 유출 및 무단 공개 또는 익명화”로 규정하고 있다. 생성형 AI를 학습시키려면 인터넷과 기타 공개적으로 이용 가능한 소스에서 수집한 엄청난 양의 데이터가 필요하다.
예를 들어 ChatGPT4는 인터넷에 있는 책, 웹 텍스트, 기사 및 기타 글에서 570GB를 학습한 것으로 알려지고 있으며, 이는 생성형 AI 데이터베이스에 있는 약 3,000억 개의 단어에 해당한다. 그런데 문제는 생성형 AI의 학습 데이터의 대부분이 바로 개인 정보, 기밀 또는 민감한 정보라는 점이다.
생성형 AI 시스템은 요청이 있을 경우 기밀 정보를 포함한 학습 데이터 내의 모든 정보를 공개하는 것으로 알려져 있다. 해커의 공격을 받는 동안 대규모 언어 모델(LLM)은 전화번호, 코드, 대화 등 학습 데이터 내에 있는 개인 정보나 민감한 정보를 공개한 것으로 알려지면서, 뉴욕 타임즈는 ChatGPT의 개발사인 OpenAI를 고소하기도 했다. 이러한 데이터의 무단 공개는 당연히 심각한 데이터 보안 문제를 야기할 수 있다.
또한, 생성형 AI는 방대한 양의 데이터를 사용할 수 있기 때문에 해당 정보가 AI의 학습 데이터에 포함되어 있지 않더라도 개인의 인종, 위치, 성별 또는 정치적 성향 등 개인 정보나 민감한 정보를 정확하게 추론할 수 있다. NIST는 이러한 대규모 언어 모델(LLM)을 사용하는 개인이 추론된 정보를 공개하거나 개인 정보를 훼손하는 데 사용하거나 차별적인 방식으로 적용할 수 있다고 경고하고 있다.
이미 어떤 기업은 생성형 AI의 추론을 근거로 차별적인 고용 결정을 내렸다는 혐의로 EEOC 소송에 휘말려 합의한 사례도 있다. 단순히 참고용으로만 사용하더라도 사용한 생성형 AI의 추론 및 예측 내용이 민감할 수록 그 리스크가 커질 수 있다는 점을 명심해야 한다.
NIST는 AI 거버넌스 관점에서 데이터 보안 위험을 줄이기 위한 몇 가지 원칙을 제안하고 권장하고 있는데, 생성형 AI를 직접 개발하거나 업무에 적극적으로 사용하고 있는 모든 기업들은 반드시 확인해 볼 것을 권한다.
데이터 프라이버시 및 지식 재산의 사용, 게시 또는 배포와 관련된 법률을 포함한 관련 법률에 따라 생성형 AI 사용범위를 조정할 것
데이터 프라이버시 위험과 관련된 다양한 유형의 생성형 AI 콘텐츠를 분류할 것
데이터 보안 사고를 예방하기 위해 내부적으로 맞춤화된 사고 대응 계획을 수립하고, 외부 및 타사 이해관계자의 피드백을 통해 사고 대응 계획을 정기적으로 테스트하고 업데이트할 것
데이터 프라이버시, 보안 및 기타 위험을 포함하도록 생성형 AI 획득 및 조달 공급업체 평가를 위한 실사 프로세스를 갖추고 수시로 업데이트 할 것
정기적인 감사를 실시하고 AI 생성 콘텐츠의 개인정보 보호 위험을 모니터링을 강화할 것
고위험으로 간주되는 타사의 생성형 AI 기술에 대하여 다음 사항들이 포함된 사고 대응 계획을 수립해 둘 것
- 모든 AI 관련 내부자 및 외부 이해관계자들에게 타사 생성형 AI 사고 대응 계획을 전달 및 교육시키고 숙지하도록 할 것
- 사고 대응 기능의 소유권을 정의할 것
- 사고 대응 계획을 정기적으로 리허설할 것
- 관련 침해 보고, 데이터 보호, 데이터 프라이버시 또는 기타 법률에 부합하도록 사고 대응 계획을 내외부 전문가들과 함께 업데이트 할 것
꼭 명심해야 하는 부분은 NIST가 제안하는 원칙들이 단순히 기존의 리스크 대응 계획에 생성형 AI에 대한 언급을 추가하는 것 이상을 요구한다는 점이다. 보안 담당자가 아닌 대부분의 구성원들은 내부적으로 지침을 가지고 있는 것이 뭐 그리 큰 대수냐고 생각하는 것이 일반적이지만, 기업의 경영자로서 위와 같은 리스크 완화 조치를 내부적으로 갖추고 있었느냐 여부에 따라 실제로 데이터 보안 문제가 생겼을 때 회사가 면책범위가 크게 달라질 수 있다는 점을 반드시 명심할 필요가 있다.
성기원 변호사님의 브런치에 게재한 글을 편집한 뒤 모비인사이드에서 한 번 더 소개합니다.
모비인사이드의 뉴스레터를 구독해보세요