[Tech] 연합학습 기반 코로나 판정

개인정보를 활용한 인공지능 모델 개발에 대한 단상

안녕하세요. 도전지향입니다.

인공지능 기술 발전방향을 보여주는 흥미로운 자료가 있어 공유합니다.


Nature machine intelligence에 게재된

"Advancing COVID-19 diagnosis with privacy-preserving collaboration in artificial intelligence - Xiang Bai et al., 2021"라는 논문으로 개인정보를 보호하면서 COVID-19를 진단할 수 있는 인공지능 기술을 개발했다는 contribution을 주장하고 있습니다.


바로, 개인정보 유출에 대한 우려 없이

인공지능을 개발할 수 있는 기술인 "연합학습(Federated learning)"에 대한 내용입니다.


사람들의 주목을 끄는 인공지능 기술은 보통 아래와 같죠.


"초거대 모델"

"사람처럼 소설을 쓰는 인공지능"

"인공지능 모델이 실제 모델을 대체한다."


수많은 데이터를 바탕으로 엄청나게 좋은 성능을 가진 컴퓨터를 이용해서 만들어낸 이른바 "범용 인공지능(AGI, Artificial General Intelligence)"을 향한 진보된 기술.


하지만, 이러한 인공지능 발전에 이면에 연구자들이 고민하고 있는 부분이 있습니다. 바로 인공지능을 학습시키기 위한 데이터의 확보에 대한 문제입니다.


수많은 인공지능을 설명하는 자료들에서 흔히 예로 드는 개와 고양이를 구분하는 문제가 있습니다. (같이보면 좋은글: 인공지능과 기계학습 그리고 딥러닝)


개고양이.jpg 개와 고양이를 구분하는 아주 단순한 인공지능 문제


상당히 높은 정확도를 보이며, 인공지능의 우수성을 설명하는 대표적인 예시로 사용되지만, 실제로 사람들은 개와 고양이를 구분하는 인공지능 서비스를 필요로 하지 않습니다. 오히려 사람들의 입에 오르내리는 인공지능 서비스는 유투브 추천 알고리즘, 쿠팡 상품추천, 헤어스타일을 추천해주는 서비스 같은 개인화된 맞춤형 인공지능 서비스 입니다.


그렇다면 개와 고양이를 구분하는 인공지능과 개인화된 맞춤형 서비스를 지원하는 인공지능과의 차이점은 뭘까요?


바로 "개인정보" 필요성입니다.


사람들의 취향 또는 성향에 따른 알맞은 정보를 추천하기 위해서는 개개인의 성향/특성에 대한 정보, 그 사람이 많은 활동을 통해 선택한 것들(영상, 상품구매, 헤어스타일 등), 그리고 그 사람에 대한 인적사항 등 개인을 나타내는 정보가 필요합니다. 한 마디로 말하면, 개인을 표현하는(represent) 정보가 많아야 합니다. 그런 정보의 쌍들이 많으면 많을수록 학습된 인공지능 서비스의 퀄리티는 높아지고 사람들은 많이 찾게될겁니다.


네 그렇습니다. 우리가 이야기하는 인공지능에는 빅데이터가 필요하다. 바로 그 말입니다.(출처: https://www.google.com/search?q=imagenet&sxs)


그런데 여기에 결정적인 문제가 있습니다


모자이크 처리 인터넷 뉴스.jpg 모자이크 처리된 인터넷 뉴스 사진(출처: (출처: https://news.naver.com/main/read.naver?mode=LSD&mid=shm&sid1=103&oid=00)


오늘자 날씨를 이야기하는 뉴스기사를 아무거나 가지고 와봤습니다. 누가 누군인지 알아볼 수 없게 모자이크 처리가 되어있는 것을 알 수 있습니다.


바로 개인정보보호법 때문인데요.


개인정보보호법에 의하면 개인정보를 활용하기 위해서는 위의 사진에서 보시는 것처럼 개인임을 식별할 수 없도록 "비식별화"처리를 한 후 사용해야 합니다. 그런데 이 비식별화 처리는 보통 원천데이터에 "노이즈"를 더하는 방식으로 구현됩니다. 우리가 흔히 보는 블러(또는 모자이크) 이미지는 다음과 같이 구성되어있죠.


블러 = 원본사진 + 가우시안"노이즈"


위와 같이 비식별화 처리를 하면 데이터에 노이즈가 포함되어 원본 데이터가 가지는 정보 중에 일부를 손실하게 됩니다. 이런 데이터로는 아무리 좋은 인공지능 알고리즘을 사용한다 하더라도 어느 정도 성능의 감소는 감수할 수 밖에 없는 것이죠. 아래의 예시를 보시죠.


<데이터의 평균을 구하는 인공지능>

1. (원본데이터 학습) 1, 2, 3 -> 2

2. (비식별화) 1+0.4(랜덤 노이즈), 2+0.1(랜덤 노이즈), 3+0.3(랜덤 노이즈)

3. (비식별화 데이터 학습) 1.4, 2.1, 3.3-> 2.26


원본데이터로 학습했을 때와 비식별화 데이터로 학습했을때 약 0.27 정도의 오차가 발생한 것을 볼 수 있습니다. 물론, 극단적인 예시를 보이긴 했지만 정도의 차이가 있을 뿐 원본데이터와 값이 달라졌기 때문에 결과도 당연히 달라진 것을 알 수 있습니다.


이러한 "비식별화"처리는 어떤 개인이나 단체가 개인정보를 일괄적으로 수집하고 활용할 때 적용되는 법입니다. 즉, 개인정보를 모은 후에 이를 합법적으로 활용하기 위해 비식별화를 하는 것이죠.


그렇다면 개인정보를 일괄적으로 모으지 않고 인공지능을 개발 할 수 있다면, 비식별화 하지 않은 원본데이터를 그대로 활용해서 성능 좋은 인공지능 서비스를 제공할 수 있지 않을까요?


"연합학습"의 개념은 바로 여기서 시작됩니다.


연합학습의 개념은 아주 단순합니다.

"인공지능과 인공지능간에 지식을 이식해준다."


좀 더 전문적인 용어를 쓰면

"인공지능 모델의 weight를 transmit한다"


연합학습의 시나리오는 아래와 같습니다.

여러분 각자의 핸드폰에 작은 인공지능이 있고 이 작은 인공지능은 오직 핸드폰에 보관되어있는 여러분의 개인정보를 이용해서 학습을 합니다. 이렇게 학습된 지식(weight)은 중앙 서버에 있는 큰 인공지능으로 이식됩니다. 큰 인공지능은 여러 개의 작은 인공지능으로부터 이식된 지식들을 종합하여 최고의 성능을 낼 수 있는 인공지능으로 진화하게 됩니다.


아래 그림은 연합학습의 개념을 그림으로 표현한 것입니다.

연합학습 논문 이미지.jpg 출처: Advancing COVID-19 diagnosis with privacy-preserving collaboration in artificial intelligence


이밖에도 differential privacy 등 정보량을 보존한 비식별화 기술도 활발하게 연구되고 있으며, 이러한 기술을 총칭 privacy preserving technology라 부르고 해당산업에 대한 전망도 꽤 밝은 편입니다.


하지만, 현 시점에서는 이러한 privacy preserving technology에 대한 관심보다는 인공지능 기술이 발전해야한다는 정책 기조에 따라 데이터를 무조건 모아야 한다는 점만 강조되고 있습니다.(같이 보면 좋은 링크: https://aihub.or.kr/node/64767)


데이터수집.png 출처: AI hub


국가에서 진행하고 있는 데이터댐 구축사업이 대표적인 예시이죠.


하지만 그 데이터가 어디서 누구로부터 어떻게 수집되는지에 대해서는 친절하게 설명되고 있지 않습니다. (정확히는 설명을 제공하지만 쉽게 쓰여져 있지 않습니다.)


인공지능 서비스를 제공하는 기업도 그 인공지능 서비스를 통해 엄청난 돈을 벌어들이고 있지만, 정작 그 인공지능 서비스를 만들기 위한(학습하기 위한) 데이터 수집에 있어서는 "약간의 희생이 있더라도 당연히 모아져야 한다. 이건 기술의 흐름이므로 거부할 수 없다. "연합학습 같은 기술로 전부 커버 가능하다."라는 선언적인 이야기만 하고 있죠.


데이터가 전부 개인한테 온 것임에도 말이죠.


그러니 앞으로 인공지능 기술이 적용되었다는 서비스를 사용하실 때 한번 쯤은 의심해볼 필요가 있겠습니다.

"무슨 데이터를 가지고 학습한거지? 그 중에 내 개인정보도 포함된게 아닐까? 내가 동의를 했나?"


인공지능 기술이라는 그럴듯한 명분에 가려져 여러분의 개인 데이터가 무분별하게 쓰여질 수도 있거든요.


긴 글 읽어주셔서 고맙습니다.

지금까지 "순간에 최선을" 다하는 도전지향이었습니다.



* 원문출처(1): http://www.aitimes.kr/news/articleView.html?idxno=23662

* 원문출처(2): https://www.nature.com/articles/s42256-021-00421-z.pdf

keyword
작가의 이전글우리는 인공지능을 어떻게 바라봐야 하는가