- 음성 인식의 활용 -
지난 10 년 동안 AI (인공 지능)는 우리 삶의 많은 부분에 빠르게 확산되었다. 이러한 시대적 흐름 가운데 헬스케어 영역에서도 임상 데이터를 분석하고 진단과 관련하여 임상의에게 유용한 통찰력을 제공하기 위해 AI를 채택하고 있으며, 최근 가천 길병원에서 암을 진단하기 위해 도입한 IBM Watson (왓슨)이 그 사례라 할 수 있겠다. 이러한 기술의 발전은 '빅 데이터'를 더 잘 이해할 수 있는 것 이상으로, 기존의 개념을 뒤흔들며 의학을 포함한 헬스케어의 프로세스를 재구성하고 있다. AI가 헬스케어의 여러 가지 분야에 응용되고 있지만, 우리의 실생활에 가장 먼저 사용하게 될 것으로 생각되는 분야가 음성인식 부분이다. Amazon Echo, Google Home, Apple Siri 등이 천천히, 그러나 확실하게 똑똑해지며 언젠가는 의사가 될 수도 있는 가능성을 보이고 있기 때문이다.
음성 샘플은 사람의 건강에 관한 풍부한 정보원이며, 연구자들은 미묘한 성대 신호가 근본적인 건강 상태를 나타내거나 질병 위험을 측정할 수 있다고 생각하고 있다. 최근 연구에 따르면 짧은 음성 클립을 사용하여 다양한 질병과 상태를 진단할 수 있으며, 이는 우리가 현재 생각하는 것보다 빠르게 적용될 수 있을 것으로 보여, 이를 통해 질병을 발견하고 치료하여 수명을 연장할 수 있을 것으로 생각된다.
이러한 음성인식 기술은 비즈니스 측면에서 어떻게 활용할 수 있을까? 아마 스마트폰 및 기타 웨어러블을 사용하여 원격으로 사람의 건강 상태를 모니터링할 수 있는 질병의 예방 측면에서 시장을 형성할 수 있을 것이다. 몇 년 후에는 짧은 음성 샘플을 녹음하고 질병 바이오 마커를 분석하여, 스마트 폰 및 기타 웨어러블을 통하여 원격으로 사람의 건강 상태를 모니터링할 수 있지 않을까 생각되며, 이를 통해 이해 당사자들은 엄청난 이익을 얻을 수 있지 않을까 생각해 본다.
음성인식을 질병의 확인에 사용한 연구들은 어떤 것들이 있을까?
1. 외상 후 스트레스 장애
연구자들은 PTSD(외상 후 스트레스 장애)* 또는 심지어 심장 질환을 나타내는 음성 패턴을 찾기 위해 스마트폰 및 머신러닝(기계 학습)을 활용하고 있다. 첫 번째로, PTSD와 같은 정신 질환의 경우 혈액 검사가 없으며, 사람들은 보통 정신 건강에 관해 이야기하기 곤란해하기 때문에 이러한 보컬 테스트가 유용할 수 있다.
* PTSD (Post-Traumatic Stress Disorder: 외상 후 스트레스 장애)는 신체적인 손상과 생명의 위협을 받은 사고에서 심적 외상을 받은 뒤에 나타나는 질환이다. PTSD, 충격 후 스트레스 장애, 외상성 스트레스 장애, 외상 후 증후군, 외상 후 스트레스 증후군, 트라우마라고도 합니다.
NYU Langone Medical Center의 Marmar 교수는 5년의 연구기간을 통해 참전 용사의 음성 샘플을 수집하고 PTSD, 외상성 뇌 손상 TBI(외상성 뇌 손상), 우울증과 같은 보이지 않는 부상 징후에 대해 음색, 피치, 리듬, 속도 및 볼륨과 같은 보컬 큐에 대해 머신러닝을 사용하여 음성의 기능을 마이닝하고, 알고리즘을 통해 특정 조건을 가진 사람들의 음성 패턴을 추출하여 건강한 사람들의 음성 샘플과 비교하는 연구를 진행하였다. 많은 결과들 중 하나를 살펴보면, 정신적 또는 인지적 문제가 있는 사람들은 특정 소리를 길게 만들거나 복잡한 얼굴 근육 운동이 필요한 구를 발음하는 데 어려움을 겪을 수 있다는 것을 알 수 있다. 또한, 캘리포니아 북부의 비영리 연구소인 SRI International의 연구원과 협력하여 Marmar 교수는 퇴역 군인의 목소리에서 추출한 총 4만 개의 기능에서 PTSD 및 TBI와 관련된 것으로 보이는 30 가지의 보컬 특성을 바탕으로, 2015 년에 발표된 결과에 따르면 Marmar와 그의 팀이 개발한 음성 테스트는 PTSD 환자와 건강한 지원자를 구별하는 데 있어서 77 %의 정확도를 보이고 있다 (1,2).
"의학적 및 정신과적 진단은 말하기 기능을 포함한 많은 양의 생물학적, 심리적 데이터에 액세스 할 때 더 정확할 것입니다." by Marmar
2. 심장질환
정신 건강 외에도 Mayo Clinic은 심장 질환에 대한 원격 건강 모니터링을 향상하기 위해 음성 바이오 마커를 연구하고 있다. 이 연구는 이스라엘 회사 Beyond Verbal (http://www.beyondverbal.com)과 팀을 이루어 심장병의 가장 일반적인 유형 인 관상 동맥 질환 환자의 목소리를 테스트하고 있으며(3), 그들은 동맥 경화로 인한 흉통이 음성 생산에 영향을 미칠 수 있다고 생각하고 있다. Mayo는 150명의 환자를 등록하고 Beyond Verbal에서 개발 한 응용 프로그램을 통해 데이터를 얻은 후 머신러닝을 사용하여 목소리를 분석하고 관상 동맥 질환의 위험이 있는 환자와 관련된 13 가지 보컬 특징을 확인했다. 이를 통해 Lerman 교수는 스마트 폰의 보컬 테스트 앱을 심장 질환의 위험이 가장 큰 환자를 식별하고, 심장 수술 후 환자를 원격 모니터링할 수 있는 저렴한 비용의 예측 검사 도구로 사용할 수 있다고 말하고 있다. Mayo는 초기 연구에서 확인된 이러한 음성 바이오 마커가 다른 언어로 동일한 지 확인하기 위해 중국에서 유사한 연구를 수행할 계획에 있다.
"우리가 알아낸 것은 혈관 조영술에서 발견되는 막힌 양이나 정도를 음성의 특정 부분으로 예측할 수 있다는 것입니다." by Lerman
3. 응용 범위
Sonde Health의 CEO 인 Jim Harper는 산후 우울증에 대해 모니터링하고 치매, 파킨슨 병 및 노화에 따른 다른 질병을 앓고 있는 노인들을 모니터링하기 위해 음성 테스트를 사용하는 것이 가치가 있다고 보고 있다. 그의 회사는 병원 및 보험 회사와 협력하여 인공 지능 플랫폼에 대한 파일럿 연구를 진행하고 있으며, 이 플랫폼은 정신 건강 상태를 검사하기 위해 음성의 음향 변화를 감지하려고 한다(4).
"우리는 소프트웨어가 휴대전화 및 기타 다양한 음성 지원 장치에서 작동할 수 있게 해주는 기술을 설계함으로써 보편적으로 만들려고 노력하고 있습니다" by Harper
적용의 한계
첫 번째로, 이러한 연구의 가장 중요한 문제는 서로 다른 음성 특성이 환자에 의해 부정확(가짜)해질 수 있다는 것이다. 만약 그렇다면 테스트가 매우 안정적이지 않을 수 있다. 지금까지 미국 FDA(식품의약국)는 이러한 이유로 질병 진단을 위한 언어 테스트를 승인하지 않고 있지만, 향후 데이터의 수의 확보와 음성 분석 기술이 정교해지면 승인이 이루어질 수 있지 않을까 생각해 본다.
두 번째로, 이 기술은 개인 정보 보호 및 보안 문제를 야기할 수 있다. 음성 정보 역시 개인의 특성을 반영하는 정보이므로, 음성 샘플을 제공하거나 앱을 통해 스마트폰을 비롯한 웨어러블 디바이스로 액세스 하는 것에 대해서는 어떤 기준을 가져야 할지 많은 고민이 필요하다. 인공지능의 경쟁력은 빅 데이터에 달려 있고, 빅 데이터의 활용은 결국 개인정보 정책에 달려 있다. 즉 개인정보 정책에 미래가 달려 있다는 것이다.
결론
신기술의 개발과 도입으로 인한 변화는 필연적이다. 신기술로 인해 의미 있는 일들이 많아질 것으로 본다. 이미 수많은 분야에서 인공지능이 적용되고 있고 사용되고 있으며, 대부분이 인간의 삶에 도움이 되는 측면에서 발전하고 있다. 헬스케어 분야에서는 아직 초기 단계이지만, 복잡한 알고리즘과 머신러닝을 통한 질병과 음성 패턴의 상관관계를 분석해 수년 내에 사용할 수 있을 정도로 발전할 수 있을 것으로 생각한다.
개인 정보에 있어, 한국은 Opt-in, 미국은 Opt-out 패러다임에 입각하고 있다. 한국은 정보 수집 과정과 원칙적 사전 개별 동의를 받아야 하나, 정보의 통제는 사업자가 담당한다. 미국은 정보 활용과 사후 관리에 중점을 두고, 통제권은 개인과 사업자가 공유한다. 즉 규제의 포지티브 정책과 활용의 네거티브 정책의 패러다임 차이인 것이다. 우리는 정보 수집을 개별적으로 규제하고 사후 책임은 약한 반면, 미국은 수집은 열어주고 사후 활용에 대한 책임을 지는 것으로 보호와 활용의 균형을 맞추고 있다. 개인 정보의 통제권이 명확하지 않다는 것은 치명적 문제를 야기한다. 자칫 개인정보 수집의 독점권을 강화하고, 나아가서 빅 데이터를 보유한 기업의 빅 브라더(Big Brother)화를 막기 어렵게 한다. 개인이 자신의 정보를 활용하기 위해 제3의 사업자에게 위탁할 수 있어야 독점적 빅 브라더의 출현을 방지할 수 있을 것이다(5).
Reference
1. Speech-Based Assessment of PTSD in a Military Population Using Diverse Feature Classes
2. http://library.med.nyu.edu/api/publications/?person=marmac01&sort=display_rank
3. https://www.technologyreview.com/s/603200/voice-analysis-tech-could-diagnose-disease/
4. http://www.beyondverbal.com
5.http://www.etoday.co.kr/news/section/newsview.phpidxno=1305598#csidx058e037af493b159fba88eb8aa57354