brunch

You can make anything
by writing

C.S.Lewis

by 비앤빛 AI 연구소 Sep 06. 2019

비앤빛의 데이터

클린 데이터의 무한한 가능성


비앤빛은 어떤 데이터로 인공지능을 만든 것일까요? 




클린 데이터 만들기


머신러닝의 기본 원칙은 '쓰레기를 넣으면, 쓰레기가 나온다(garbage-in, garbage-out)’입니다. 어떤 데이터로 학습시키느냐가 인공지능의 성능을 좌우한다고 해도 과언이 아닙니다. 인공지능을 학습시키기에 충분한 양의 데이터가 있어야 하되, 라벨링이 잘 된 클린 데이터여야 합니다. 


garbage-in, garbage-out


비앤빛은 개인정보 제공 동의를 한 최근의 데이터부터 역순으로 비식별화 처리해서 약 42만 안의 검사 이미지를 데이터로 전환했습니다. 그리고 각각의 연구마다 필요한 데이터를 추출해 사용했습니다. 

아래 표는 비앤빛이 인공지능을 개발하면서 활용한 데이터의 양을 정리한 것입니다.  



비앤빛뿐 아니라 시력교정 수술을 열심히 하는 다른 병원에도 데이터의 양은 충분하리라 생각합니다. 문제는 데이터의 질, 즉 깨끗한 데이터(clean data)를 만들어내는 것입니다. 오래 끓인 곰탕이 진국이 되듯 대부분의 경우에는 양에서 질이 나오기는 하지만 이 경우에는 꼭 그렇지만은 않습니다. 


기본적으로 각각의 데이터를 연구에 활용해도 좋다는 환자의 동의가 필요합니다. 

수술 가능 여부를 판단할 수 있는 비앤빛의 첫 번째 인공지능의 경우, 펜타캠을 포함한 60여 가지 검사 결과를 ‘수술 가능/불가능’을 일률적으로 정리해 정답 세트를 만들어 인공지능을 학습시켜야 했습니다. 이 데이터 세트를 만드는 과정이 중요한데요, 검사 결과에 따라 ‘수술 가능’ ‘수술 불가능’이라는 라벨을 붙여야 하는데 이 작업이 말처럼 간단치는 않습니다. 데이터의 숫자가 많은 것은 물론, 일반 라식이나 라섹은 불가능하지만 렌즈삽입술이나 맞춤형 수술은 가능한 경우 등 수술 가능/불가능이라는 분류 안에 다양한 변수가 존재하기 때문입니다. 따라서 데이터를 분류하는 판단은 전문가 즉 의료진이 일관된 전략으로 진행해야 합니다. 의사들이 해야 하는 일이 하나 더 추가되는 셈인데, 모든 라벨링을 의사가 다 할 것이냐도 생각해 보아야 할 문제입니다. 


시력교정수술 가능 여부를 판단할 수 있는 비앤빛의 첫 번째 인공지능


또 다른 문제는 데이터 원본, 즉 검사기록 원장이 필요하다는 점입니다. 용량을 압축하고 내용을 요약하면 저장하기는 편할 수 있으나 연구에는 적합하지 않습니다. 예를 들어, 특정 시기에 수술한 스마일 환자, 난시 몇 디옵터 이상 환자의 수술 등의 자료가 필요한 경우 비앤빛에서는 검색을 통해 필요한 자료를 즉시 추출할 수 있습니다. 이렇게 되기까지 준비하려면 상당히 지난한 과정을 거쳐야 합니다. 


비앤빛은 IT 전문가를 고용해 2011년부터 본격적인 데이터베이스 구축에 들어갔습니다. 처음에는 종이 차트를 스캔하거나 사람이 하나하나 기록을 컴퓨터 파일에 재입력했습니다. 진료기록을 유실 없이 보관하는 수준이었죠. 하지만 곧 이는 연구에 적합하지 않다는 것을 알게 되었습니다. 그래서 가능하다면 검사기기의 이미지를 직접 데이터로 저장했고, 검사기기가 이를 지원하지 않는 경우 OCR(광학문자인식, Optical Character Recognition)을 통해 기계가 읽을 수 있는 정보로 변환해 저장하고 있습니다. 



현재 이 과정은 자동화되어 있으며, 새로 검사 장비를 도입할 때마다 데이터베이스 구축이 가능한가부터 확인하고 있습니다. 

덕분에 검사 결과를 비롯한 모든 진료기록을 서버에 등록해 외래와 수술방, 상담 파트와 고객지원실까지 언제든 볼 수 있는 시스템을 갖추고 고객정보와 전자의무기록, 검사 이미지를 실시간으로 별도의 서버에 저장하고 있습니다.


대학병원과 꾸준히 공동 논문을 발표하는 등 연구 중심 병원을 표방하며 데이터를 중요하게 관리해 온 우리도 인공지능 개발을 위한 데이터를 갖추는 것은 쉽지 않았습니다. 오히려 인공지능 개발이 데이터 구축의 새로운 전기가 되었습니다. 시간과 인력을 더 많이 투입했다는 의미입니다. 그러므로 새로 시작하려는 병원은 데이터 시스템 구축에 우선 어마어마한 비용과 시간을 감수해야 할 것입니다. 


선택은 각 병원과 의사의 몫입니다. 현실적으로 인공지능은 수익 모델은 아닙니다. 따라서 인공지능을 도입한다고 병원의 수익이 올라가거나 의료수가가 오를 가능성은 거의 없습니다. 다만 우리는 지금껏 연구를 해왔듯, 매 순간 쌓이는 엄청난 양의 데이터를 사장시키지 않고 연구하는 것이 우리의 사명이라고 생각합니다. 히포크라테스를 위시한 많은 선배 의사들이 남긴 기록을 토대로 우리가 의사가 되었듯, 연구와 기록에 대한 우리의 노력이 우리 뒤에 선 누군가를 앞으로 나아가게 할 토대가 될 것이라고 믿습니다. 미래는 지금 여기의 노력에서 매일 시작된다고 믿기에 우리는 데이터를 쌓고 연구와 개발을 지속하는 몫을 선택했습니다. 


데이터 부자 비앤빛의 행복한 고민




인공지능 연구자가 바라본 비앤빛 빅데이터


인공지능 연구자들은 입을 모아 데이터의 중요성을 말합니다. 그리고 비앤빛과 함께 연구한 메디웨일, 한국과학기술연구원(KIST)의 연구진과 안대환 박사는 인공지능을 자체 개발할 수 있었던 가장 큰 이유로 비앤빛 데이터의 우수함을 손꼽습니다. 


적어도 5~6년 전부터 쌓인 비앤빛의 데이터는 인공지능 연구에 적합한 양질의 클린 데이터라고 자부하고 있습니다. 5~6만 정도의 클린 데이터가 있으면 인공지능을 개발하기에 부족함이 없다고 하는데, 비앤빛에서는 매년 2만 명 정도 검사를 받으니까, 5년 전 데이터부터 따져도 20만 안 정도의 클린 데이터가 쌓여 있는 셈입니다. 또 매년 4만 안 정도의 클린 데이터가 축적되고 있고요. 

이렇게 쌓인 데이터의 가치를 가장 잘 아는 이들은 우리와 함께 인공지능을 개발한 연구자들이었습니다. 


“진료 중심으로 용량을 줄이고 효율성을 중시한 대학병원의 데이터와 명확한 차이가 납니다.  언젠가 인공지능을 개발할 것을 미리 예상이라도 한 듯, 진료기록을 고해상도로 보관하고 있었고, 유능한 의사들의 판단이 녹아있는 수술에 대한 로직이 있었습니다. 즉, 좋은 자료와 좋은 라벨이 있었기에 수술 가능 여부를 판단하는 인공지능을 개발할 수 있었습니다.”               - 메디웨일 임형택 전 CMO(Chief Medical Officer)



“시력교정에 대한 3000안에 육박하는 대규모 데이터로 진행한 연구는 세계적으로도 드뭅니다. 비앤빛은 흔치 않은 임상 데이터를 잘 보유하고 있었고, 필요한 데이터를 잘 정제해서 전달해줘서 프리-프로세싱 과정을 단축할 수 있었습니다. 대량의 정제된 데이터가 있었다는 점이 인공지능 개발의 또 다른 의미라고 할 수 있습니다.”           -한국과학기술연구원(KIST) 김영준 책임연구원 



“비앤빛의 데이터는 상대적으로 최고였습니다. 어떤 안과병원도 이만큼 체계적으로 데이터를 수집한 경우를 찾기는 어려웠으니까요. 다만 절대적인 관점에서는 양과 질 양측면에서 데이터를 더 모아야 합니다.  실제로 의미 있는 무언가를 도출할 수 있는 양과 질의 데이터를 확보하고 있는 기업은 생각보다 많지 않습니다. 데이터에 노이즈도 많고 현상을 예측하는데 필요한 변수도 많이 빠져 있는 게 현실인데, 이런 부분이 인공지능 발전에 가장 큰 숙제가 될 것입니다.”    - 와튼스쿨 안대환 박사




데이터로 뭘 하지?


전문가들의 이런 평가가 새삼스럽지만은 않습니다. 유명 의학 저널에 게시된 시력교정에 관한 논문의 데이터 수는 사실 그리 많지 않습니다. 몇백에서 많아도 몇천 케이스 정도였죠. 인공지능을 개발하기 전 시력교정의 안정성에 대한 연구를 진행할 때도 마찬가지였습니다. 사실 이것이 비앤빛이 연구를 꾸준히 하는 이유이자 한국 안과계의 아픈 현실입니다. 성형처럼 시력교정도 한국이 다른 나라에 비해 훨씬 앞서갑니다. 하지만 국내 의료진보다 적은 경험을 지닌 해외의 대가들에게 교육을 받은 후 디플로마를 받아오는 것이 국내 의료계의 현실입니다. 지금까지의 연구에 더해 인공지능이 정교화될수록 한국의 데이터와 경험이 국제적인 가치를 인정받을 것이라 믿고 있습니다. 


그래서 이제는 수술 후 데이터도 쌓고 있습니다. 기존에는 수술 후에는 잘 보이는지, 불편함은 없는지 정도를 파악하는데서 그쳤다면 이제는 수술 후 눈 상태도 면밀히 살피고 있습니다. 이를 통해 우리가 개발한 인공지능이 제시한 결론이 맞는지 다시 검증할 수 있을 것입니다. 


꼭 인공지능이 아니더라도 잘 쌓은 빅데이터는 우리에게 더 많은 질문에 대한 답을 찾아줄 수 있을 것입니다. 

자외선이 근시에 영향을 미칠까요?

남도 지역과 강원도의 일조량을 비교하고, 비앤빛 환자 중 해당 지역 분들의 근시를 비교하는 것도 재미있는 연구가 될 것 같습니다. 


자외선과 시력의 상관관계는?


좀 더 학술적으로 들어가 볼까요?

눈의 가장 바깥쪽인 각막에서 가장 안쪽인 황반까지를 ‘안축장’이라고 하는데요, 눈의 굴절력을 결정하는 주요 요소 중 하나입니다. 렌즈삽입술이나 인공수정체를 삽입하는 백내장 수술에서 안축장 길이가 특히 중요한데요, 연령별 근시 정도에 따라 안축장 길이가 달라지는 지를 알아볼 수도 있을 것입니다. 


유전자 분석기술이 발달을 거듭하다 보면 먼 훗날에는 근시나 난시를 유발하는 유전자 변이가 밝혀질 수도 있겠죠. 그때쯤엔 지금의 데이터가 또 다른 가치를 갖게 될지도 모르겠습니다. 




비앤빛 강남밝은세상안과 김진국 원장

국내 라섹, 노안수술을 도입한 1세대 시력교정 전문의로 전안부(각막, 백내장, 굴절수술) 전문입니다. 시력교정술과 병원이 나아갈 방향에 대해 늘 고민합니다.


비앤빛 강남밝은세상안과 류익희 원장

시력교정을 중심으로 고도근시를 위한 렌즈삽입술, 재교정 등을 담당하고 있으며, 국내 유일의 아마리스 레이저 글로벌 리서치 파트너 및 아벨리노랩사의 의료 자문 의사입니다. 비앤빛 강남밝은세상안과의 책임경영자이며, 비앤빛 데이터연구소를 맡아 다양한 국내외 학술활동과 강연, 데이터 관리, AI 개발 등을 지휘하고 있습니다.


에디터: 이명제






이전 16화 인공지능의 성패를 가르는 기준
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari