ETH 취리히 보건의료 데이터와 AI: 혁신 윤리 규제 관련 세미나
지난주 월요일부터 수요일까지 2박 3일 동안 취리히 연방 공대 ETH Zurich 에서 진행된 보건의료 데이터와 AI: 혁신 윤리 및 규제라는 세미나에 참석하고 왔다. 취리히는 독어권 스위스라서 그런지, 확실히 불어권 스위스 제네바와는 도시의 분위기도 사뭇 다르고 사람들도 좀 더 차가운 느낌이었다. 스위스 사람들이 시간 약속을 정확하고 철저하게 지킨다는 것도, 불어권보다는 독어권이 더 실감 나게 해주는 것 같다. 2박 3일간 세미나도 모든 세션이 칼같이 정시에 시작했다. 제네바에서는 몇 분 늦게 시작하기도 하고 사람들이 좀 더 느긋하고 여유로운 데 반해, 독어권 사람들은 좀 더 칼 같다는 게 피부로 와닿았다.
1. 참가자들
40명가량의 참가자들과 20명가량의 발표자 및 기획자들의 이력도 상당히 흥미로웠다. 그리고 참가자들 대부분이 중견직 이상이어서인지, 평균 연령은 30대 후반 정도 되는 것 같았다.
쉬는 시간에 잠깐씩 이야기를 나누다 보니 대단한 이력을 가진 사람들이 많았다. 노바티스(Novartis)나 로슈(Roche) 같은 제약회사의 관리자나 개발자, AI 소프트웨어 개발자, 의료 분야의 ETF를 관리하는 사립 펀드 관리자, 창업가, 변호사, 의사, 박사과정생 등이 있었다. 실제 실무에서 열심히 뛰면서 보건 데이터와 의료 AI의 윤리적 문제를 매일 고민하는 사람들이 한자리에 모인 셈이었다. 국제기구나 NGO 출신도 있었지만 극소수였다. WHO, MSF, OECD 기관에서 온 사람들이 전부였는데, 총 4명밖에 되지 않았다.
그중에서도 기억에 남는 대화가 몇 가지 있었다. 프랑스 최대 보건 의료 ETF 펀드 투자 회사에서 일하고 있는 친구와 이야기를 나눌 기회가 있었는데, 자기도 향후 박사 연구에 대한 고민을 하고 있다고 이야기했다. 스위스에서 산 경험도 있다고 했는데, 알고 보니 몽트뢰의 유명한 사립학교 St. George's 국제학교 출신이었다. 자신은 ETF 펀드 투자를 관리하면서, 현재 전 세계 보건 의료 분야에서 스타트업들이 무엇을 개발하고 어떤 제품을 출시하고 있는지를 깊이 들여다보고 연구할 수 있어서 좋다고 했다. 정말 많이 배운다고.
바젤에 사는 UBS의 AI 엔지니어인 인도계 친구는 자기도 결혼은 했는데, 출산을 해야 할지 그리고 박사도 할 수 있을지 고민한다고 했다. 자신도 나처럼 경력을 쌓으며 일을 하고 있는데, 일하다가 박사를 하는 게 맞을지 고민이 많이 된다고 했다. 그래서 나는 출산도 박사도 최선의 타이밍은 없다, 하고 싶을 때 하고, 의지만 있으면 끝까지 다 하게 된다고 이야기했다. 옆에서 듣고 있던 취리히 대학교 박사과정생도 자기가 대기업 제안을 거절하고 박사를 시작하게 된 이유도 연구하고 더 깊이 배우는 기회를 놓치고 싶지 않았기 때문이라고 했다. 취업은 다시 하면 되지만, 박사는 더 늦어지면 하기가 쉽지 않을 것 같아서 후회는 없다고 했다. 무엇이 되었든, 자기만의 기준을 가지고 생각하고 결정하면, 그 방향이 맞다고 믿고 최선을 다해 앞으로 나아가는 것이 중요한 것 같다.
2. 주요 세미나 내용 요약
전체 세미나에서 발표된 내용들 중에 생각나는 몇 가지를 정리해 보자면, 먼저 AI 모델의 편향(bias) 문제이다. 알려진 편향만 완화할 수 있기 때문에, 어떤 데이터를 학습했고 그 안에 어떤 편향이 존재할 수 있는지를 사람이 인식하고, 그것을 알고리즘이 조절할 수 있도록 해야만 좀 덜 편향적인 인공지능 모델이 될 수 있다는 점이다.
스위스 통계부서 담당관은 스위스가 얼마나 디지털 보건 분야에서 뒤처져 있었는지를 설명했다. 그동안 스위스의 대부분 가정의학과 의사들은 종이로 데이터를 관리하고, 전산화하지 못했었다. 이제야 도입되고 있는 전자 의료 데이터 시스템은 여전히 몇 개의 대학병원 위주로 관리되고, 대학병원, 사립병원, 작은 동네 의원이나 가정의학과 진료소를 모두 통틀어 통합하는 시스템은 없다고 했다. 이를 만들어 나가야 할 필요성을 강하게 느껴야만 변화가 일어나는데, 아직까지는 없다고 했다. 그러면서 덴마크가 50년대부터 전 국민의 데이터를 차곡차곡 전자 시스템으로 수집해 온 것이 너무 부럽다고 했다.
AI 모델의 투명성과 관련된 논의도 빠지지 않았다. 현재 많은 LLM 모델의 오픈소스 여부 문제를 두고, IBM 출신 엔지니어가 와서 현재 IBM의 Granite 3.3 모델을 좀 더 오픈소스 환경에서 개발하려고 노력한다고 강조했다. 그리고 Open AI의 챗지피티, 클로드, 그록, 제미나이 등 다양한 모델들의 점수표를 보여주었는데, 대부분이 오픈소스나 데이터 보안 부문에서 취약한 점이 드러났다. 비공개 모델의 경우 오히려 보안에 더 취약할 수 있고, 내부 개발자가 실수로 잘못 관리했을 때 실시간 관리 감독이 되지 않기 때문에 사용자에게 더 큰 피해가 갈 수 있다고 이야기했다. 반면 오픈소스의 경우 다양한 사람들이 함께 모니터링을 해주기 때문에, 문제가 발생했을 때 다른 누군가도 함께 고칠 가능성이 있어 더 안전하다는 관점이었다.
의료 인력 자체의 불평등 문제도 중요한 주제로 다뤄졌다. 스위스 최대 제약회사 중 한 곳인 Roche 소속의 관리자는 전 세계 병리학자(pathologist)의 70%가 10개 나라에 집중되어 있다고 했다. 이러한 불평등으로 인해 대부분의 나라에서는 병리학자가 부족하고, 병리학자에게까지 가지 못할 경우 질병이 분석되고 치료될 가능성은 더 희박해진다는 점이 문제로 제기되었다.
그리고 유럽연합의 정책 자문으로 일하는 변호사들도 여럿 참석해 최신 규제의 변동 사항과 관련 쟁점들을 나누었다. 그러자 EU GDPR, AI Act 등 점점 더 복잡하고 파편화된 규제들로 인해 사기업의 법률담당관들은 제품을 등록 판매하는 것과 관리하는 것이 너무나 어렵다고 호소했다. 그리고 중소기업 혹은 스타트업 관리자들은 자신들은 법률 전문가를 고용할 자원도 없는데, 계속해서 바뀌고 파편화되는 법률과 유럽연합 규제들로 인해 의료 산업에서 AI나 보건 데이터와 관련된 사업을 하는 것 자체가 너무 어렵다고 지적했다. 제대로 된 효과적 규제까지 갈 길이 먼 것 같다.
마지막으로, 취리히 연방 공대 ETH Zurich의 교수가 진행했던 중환자실 돌봄 관련 프로젝트 (Hyland et al., Nature Medicine, 2020)도 굉장히 흥미로웠다. AI 모델을 학습시켜 조기 경보 시스템을 개발하여 장기 부전을 방지하는 것이다. 응급실의 시계열 활력징후, 검사, 투약 데이터를 통해 순환기 기능 장애를 구분하는데, ACE 억제제, 심박수, 혈당, 체온 등의 데이터를 포함한 기계학습으로 중환자실 환자의 상태 변화에 어떻게 대응할지를 판단한다. 결론은 AI가 의사보다 더 정확하다는 것이다. 일론 머스크도 앞으로는 의사가 필요 없을 것이라고, 정교한 수술도 인공지능이 사람보다 더 잘할 것이라고 하던데. 중환자실 관찰과 돌봄 연구도 비슷한 맥락에서 인공지능이 더 정확함을 증명한 것 같다.
이 외에도 다른 한 교수의 연구는 스위스의 두 병원이 같은 절차(protocol)를 가지고 어떻게 서로 다른 선택을 하는지 분석했다고 한다. 당연히 같은 치료법을 택할 줄 알았는데, 각 병원의 수석 임상의의 의견에 따라 치료법이 달라졌다는 것에 굉장히 놀랐다고 한다. 인공지능은 학습된 대로 정확하게 행동하는 반면, 인간은 표준화된 절차만 따르지는 않는 것 같다.
하지만 이러한 인공지능의 가능성에도 한계는 분명히 존재한다. 예를 들면 AI가 두 여성의 유방암세포 이미지를 분석했는데, 첫 번째 환자는 55세 영국 백인 여성이었고 두 번째 환자는 55세 프랑스 국적의 흑인 여성이었다. 같은 병기의 유방암이었음에도, 인공지능은 대부분 백인 여성의 데이터로만 학습되었기 때문에 흑인 여성의 데이터는 처리하지 못했다. 그 결과, 첫 번째 백인 여성만 유방암으로 감지되고, 두 번째 환자는 감지되지 않았다. 인공지능의 일반화도 큰 어려움 중 하나다. 나라마다, 심지어 병원만 바뀌어도 AI 모델의 일반화(generalization) 자체가 어렵다는 연구 결과들이 많이 보고되었다.
3. 소그룹 토론
세미나에서 가장 활발했던 시간은 소그룹 토론이었다. 참가자들이 대부분 사기업 출신이고, 공대 AI 엔지니어, 변호사와 의사들까지 한자리에 모여서인지, 소그룹 토론도 상당히 다채로웠다. 첫 번째 소그룹 토론의 주제에서는, 의사들이 AI를 사용해서 진단을 했는데 문제가 생겼을 경우에 책임은 누가 지는지의 문제부터, 환자에게 미리 자신의 의사결정이 AI의 도움을 받았음을 투명하게 밝히는 것이 중요하다는 내용이 포함되었다.
두 번째 시나리오에서는, 환자 데이터를 수집하고 분석한 공립 연구소에서 연구가 종료되었는데, 환자들로부터 다른 협력 기관에 데이터를 제공해 새로운 연구에 사용되어도 된다는 새로운 동의를 받고 데이터를 팔아도 되느냐 마느냐를 고민하는 문제였다. 구글 같은 대기업과 작은 스타트업 회사에 데이터를 판매해 새로운 의료 기술을 개발하는 데 공조해도 될지. 구글은 데이터를 높은 가격에 사서 6개월간 독점하겠다고 했고, 작은 스타트업 회사는 연구가 끝난 뒤, 환자들에게 일정 기간 할인된 가격으로 제품을 제공하겠다고 했다.
둘 중 하나의 시나리오를 선택해도 되고, 아무것도 안 해도 된다. 토론이 시작되자 어떤 변호사는 자기는 대기업에 데이터를 팔겠다고 했다. 대기업이 좀 더 기술적 문제나 데이터 보안 같은 법적 규제에 대한 경험이 많고 자원이 풍부하기 때문에, 스타트업보다는 대기업에 데이터를 제공하는 게 더 나을 것 같다는 주장이었다. 그리고 동시에 두 곳에 선택지를 주고 어디에서 더 유리한 조건을 제공하는지 비교해 보겠다고 했다. 이게 변호사들이 돈을 버는 방법이라고 이야기하자 모두가 웃고 넘어갔다.
한 의사는 작은 스타트업이 좀 더 공익을 위해 일할 가능성이 높지 않겠느냐, 구글은 과연 최종적으로 환자에게 혜택이 돌아갈 수 있을지 모르겠다는 입장을 주장했다. 나는 공적 연구 조직에서 환자의 데이터를 파는 것 자체가 윤리적인가에 대한 고민을 짚고 넘어갔다. 열띤 토론 끝에, 우리는 최대한 환자의 이익을 고려한 기준을 만들어, 구글이나 스타트업 둘 중 그것을 가장 잘 따르고 우리의 조건에 부합하게 행동하는 회사와 협력하기로 결정했다.
마지막 세 번째 시나리오 토론은 최근 급부상하는 AI 윤리와 관련된 다양한 도구에 대한 것이었다. 업종마다, 그리고 다양한 데이터 생애주기에 사용되는 윤리 점검표 혹은 자가 평가 도구가 많이 등장했다. 현재 900개가 넘는 점검표 도구가 있다고 한다. 이를 둘러싸고 시장이 형성되기까지 하고 있다는데. 심지어 certified B corp 같이 특정 기준에 도달하면 인증서를 주거나 특별한 라벨을 달아주는 덴마크 D-Seal 같은 인증 제도도 있다. 물론 도움이 될 수도 있지만, 토론의 쟁점은 이렇게 파편화된 도구들이 실질적 도움을 주지 못할 가능성도 높다는 것이었다. 점검표에 체크하는 것만으로 기업이나 조직이 윤리적 문제를 해결했다고 말할 수 있는가에 대한 논의였다.
물론 한 가지 도구로 모든 분야에 다 적용하면 좋겠지만, 그게 얼마만큼 유용할 것인가가 문제였다. 나도 이러한 도구를 실무에 적용할 때, 누구를 위해 어떤 목적을 위해 만들어지는지가 정확하지 않다면 실질적 유용성은 떨어질 것이라고 지적했다. 정책 조언의 경우에도, 핵심 대상이 누구인지를 아는 것이 정말 중요하다. 누구를 위해 어떤 목적(objective)을 가지고 만들었는지에 따라 사용되는 언어와 필요한 지침이 달라지기 때문이다.