brunch

You can make anything
by writing

C.S.Lewis

by AIdant Sep 07. 2022

주인이 없는 의료 데이터가 주목받는 이유

Analyze: AI inside

TITLE [Analyze: AI inside]

의료 AI에 관심이 있는 의료진을 대상으로 도움이 될 의료AI 정보를 알기 쉽게 설명하는 칼럼 형태의 콘텐츠



주인이 없는 의료 데이터가 주목받는 이유

-의료 합성데이터와 GAN 모델



가명정보’라는 말을 들어보셨나요?


가명정보는 개인정보를 가명 처리하여 특정한 개인을 식별할 수 없도록 한 정보를 의미합니다. 원래 상태로 복원하기 위해서는 추가정보의 사용, 결합이 필요하죠. 가명정보는 법률이 정한 목적¹에 따라 정보 주체의 동의를 받지 않고 사용할 수 있습니다. 데이터 3법이 개정되면서 ‘가명정보’가 도입되고 의료데이터 활용 역시 이전 환경에 비교하여 긍정적일 것이라 예측했습니다.


의료데이터는 특히 법률에서 민감정보²로 규정하고 있는 만큼, 많은 학습 데이터를 필요로 하는 의료 인공지능 분야에서는 데이터 수집부터가 큰 산이었죠. 접근 자체가 제한적일뿐더러 표준화된 규격이 없기 때문에 수집한 의료데이터를 가공하는 작업이 필요하게 됩니다. 그래서 가명정보라는 돌파구가 생겼을 때, 의료 빅데이터 수집에 대한 큰 기대감을 모았지만 명확하지 않은 가명화 프로세스와 각종 사용 규제로 인해 어려움을 겪고 있습니다. 또 가명처리화 된 의료데이터를 재식별할 수 있는 위험에 관하여도 우려하는 목소리³가 있습니다.


그래서 인공지능을 학습시킬 질 좋은 데이터이면서 정보 주체의 프라이버시를 침해하지 않을 수 있는, 규제로부터 비교적 자유롭다고 여겨지는 합성데이터가 주목 받고 있습니다.


합성데이터란 실제 데이터를 기반으로 만든 인공 정보를 의미합니다. 가명정보는 실제 데이터를 변형, 대체하는 등으로 가공한 정보를 의미한다면 합성데이터는 실제 데이터를 기반으로 하되 인공지능의 알고리즘을 통해 새롭게 제작된 데이터를 의미합니다.



합성데이터는 원데이터로 재식별이 되지 않도록 가능성을 최소화하여 가명정보보다 역추적의 위험이 훨씬 적기 때문에 개인정보 문제로부터 비교적 자유롭습니다. 모든 데이터가 실제 데이터가 아닌, 인공적으로 만들어진 데이터로만 생성할 수 있지만 모든 합성데이터가 그렇지 않으며, 한국보건산업진흥원에서는 ‘인공지능을 활용한 “합성 의료데이터” : GAN(Generative Adversarial Network: 생성적 적대 신경망) 기술 중심으로’라는 보고서를 통해 합성 데이터를 활용한 의료 인공지능 기술의 유효성을 엄밀하게 검증하는 노력이 필요하다고 말하고 있습니다. 하지만 희귀하여 수집이 어려운 데이터나 인공지능 솔루션에 필요한 임상데이터의 충분치 못한 양이나 부족한 다양성의 문제를 해결할 수 있다는 데에는 긍정적이죠.


이러한 합성데이터를 생성해내는 기술 중 하나로 GAN 모델이 있으며 가장 널리 알려져 있습니다. GAN(Generative Adversarial Network)은 게임으로 치면 Two Player Game입니다. Generator와 Disriminator라는 두 네트워크가 존재하고 서로 대립해 경쟁하며 학습하는 방식입니다. 보통 GAN에 관해 설명할 때 화폐 위조범과 경찰로 비유하는 경우가 많습니다. 위조범은 경찰을 속일 수 있는 화폐를 만들기 위해 노력하고, 경찰은 가짜 화폐와 진짜 화폐를 구별하기 위해 노력합니다. 화폐 위조범(Generator)이 진짜에 가까운 가짜 데이터를 생성해내어 경찰(Discriminator)을 성공적으로 속여낸다면 그 데이터는 성공적인 합성데이터가 될 수 있죠.


이러한 GAN 모델을 기반으로 CycleGAN, Super Resolution GAN, Pix2Pix 등 다양한 변주 모델이 존재하는데요. 그 중 CycleGAN은 양방향 전환이 가능한 모델로, 이를 통해 CT 영상을 MRI 영상으로, MRI 영상을 CT 영상으로 합성하는 것, CT 영상에서 노이즈를 없애는 것 등이 가능합니다. 그렇다면 부득이한 사정으로 MRI를 촬영하지 못하는 경우나 CT의 부작용이 심한 경우 등에도 하나의 대안이 될 수 있어 긍정적인 방향으로의 발전이 기대됩니다.


합성데이터와 GAN에 대해 간략히 살펴봤습니다. 합성데이터는 개인정보를 침해하지 않으면서도 유용한, 그리고 적은 실제데이터를 기반으로 대량의 데이터를 생성해낼 수 있다는 점에서 앞으로의 성장세가 기대되는 분야입니다. GAN은 지도학습모델과 비교하여 데이터를 라벨링 하는 데 들어가는 비용과 시간을 줄이고, 적은 데이터로 대량의 데이터를 생성해낼 수 있다는 점 등으로 전문가들에게 큰 호응을 얻고 있죠.


의료 합성데이터를 경험해보고 싶은 의료인들은 프로메디우스(주)에서 무상 배포한 합성데이터를 활용해 보시길 바라겠습니다.   




참조 


1) 통계작성, 과학적 연구, 공익적 기록보존

2) 개인정보 보호법 제23조(민감정보의 처리 제한) ①개인정보처리자는 사상·신념, 노동조합·정당의 가입·탈퇴, 정치적 견해, 건강, 성생활 등에 관한 정보, 그 밖에 정보주체의 사생활을 현저히 침해할 우려가 있는 개인정보로서 대통령령으로 정하는 정보(이하 "민감정보"라 한다)를 처리하여서는 아니 된다. 다만, 다음 각 호의 어느 하나에 해당하는 경우에는 그러하지 아니하다. 

3) 이현승/송지환, 개인정보 비식별화기술의 쟁점 연구, 소프트웨어정책연구소, 2016




의사의 내일을 위한 뉴스레터, 에이던트 뉴스레터 구독하러 가기(클릭)


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari