데이터를 정확하게 읽자
오늘 아침 기사를 보니 바이오젠의 알츠하이머 치료제 레카네맙(Lecanemab)의 임상 3상 세부 데이터가 공개되었다는 기사를 보았다. (https://www.yakup.com/news/index.html?mode=view&cat=16&nid=276231). 이미 9월 말에 임상 3상에서 성공적인 결과를 보았다는 기사가 나왔지만(이때 바이오젠과 1차 개발사인 에자이의 주가가 각 40%, 172% 상승하였다.) 자세한 데이터 공개는 처음이었기 때문에 더 자세히 들여다볼 수 있었다.
이와 동시에 우리나라 벤처인 아리바이오의 치매 치료물질인 AR1001의 임상 3상 시험 진입 기사가 나왔다 (https://www.hankyung.com/it/article/202211304580i).
그래서 오히려 레카네 맙의 결과보다는 아리바이오의 물질 효능이 정말 좋은 건지, 그렇기 때문에 임상 3상에 들어간 지가 궁금했다. 그래서 아리바이오의 임상 2상 결과를 찾아보았고 레카네맙의 데이터와 비교를 해보았다.
결론부터 말하자면 아리바이오의 결과는 좋고 나쁘고를 판단할 수 없었다. 그 이유는 약을 먹지 않은 환자(대조군)의 인지 능력이 시간이 지날수록 점점 나빠져야 하는데 오히려 시험 시작 후 26주(약물의 투여 기간) 후에 더 좋아졌기 때문이다. 이 때문인지 아리바이오의 보고는 임상 2상 시험의 대조군 환자가 아니라 다른 임상시험에서 보여준 대조군 데이터를 바탕으로 비교를 하였다. 환자가 아주 극 소수인 경우, 임상시험에서 대조군 환자를 모집하기 어렵기 때문에 이러식의 비교가 가능하나(사렙타의 DMD 치료제의 케이스는 이런 식으로 품목 허가를 받았다. 물론 비판이 크긴 했다) 아리바이오의 경우에는 대조군 환자를 모집하기 어렵지 않은 상황이기 때문에 이러한 다른 시험 간 비교는 원칙적으로 맞지가 않다. 따라서 약물을 투여받은 환자의 인지 저하 속도가 느리다고 하더라도 대조군 환자에서도 마찬가지이기 때문에 아리바이오의 약물을 투여받은 환자에게서 나타난 낮은 인지 저하가 약효 때문인지 아니면 시험 자체에 모집된 환자들이 전반적으로 인지 저하를 보이지 않았는지를 판단할 수 없다.
데이터를 좀 더 살펴보자. AR1001은 ADAS-Cog13 지표의 그래프만 얻을 수 있었는데 레카네맙의 임상 3상 데이터에선 ADAS-Cog 지표가 그래프가 아니라 대조군에 대비 감소 수치(% 감소)만 나와 있기에 정확한 비교가 어려웠다. 그래서 레카네맙의 임상 2상 결과를 발표한 논문(https://doi.org/10.1186/s13195-022-00995-9)에서 데이터를 발췌하였고 비교해 보았다.
레카네맙의 데이터를 보면 약물 투여를 받지 못한 대조군 환자들은 ADAS-Cog로 대변되는 인지능력이 점점 안 좋아짐을 알 수 있었다. 반면 투여 군은 용량 의존적으로 인지능력 감소가 둔화됨을 볼 수 있다. 물론 인지능력을 더 좋게 만들거나 멈추게 할 수는 없었지만 지금까지 시도된 약물 중에서는 효능면에서 가장 진보된 약물이다.
반면 아리바이오의 임상 시험에선 대조군의 인지 저하가 관찰되지 않는다. 따라서 약물 투여군에서 인지저하가 관찰되지 않더라도 이게 약물의 효능 때문인지 시험이 제대로 이루어지지 않아서 인지 알 수 없다. 임상 시험에는 상상 이상의 비용이 들기 때문에 대조군이 제대로 작동하지 않았다고 해서 시험 자체를 없었던 걸로 할 수는 없다. 더욱이 투자자의 돈으로 운용되는 벤처 비상장사는 더욱 그러하다. 그렇기에 다른 임상 시험에서 보인 대조군의 평균 데이터를 가져와서 자신의 약물 투여군과 비교를 한 것이다. 이런 방식의 해석은 기사를 통해 비전공자나 투자자를 호도할 가능성이 높다. 하지만 전문가나 규제당국이 이러한 데이터를 받아 들일리가 만무하다. 아리바이오가 임상 3상에 들어간다고 한다. 임상 3상에 들어간다고 해서 2상이 성공적이라는 말은 아니다. 규제당국(이 경우 FDA)의 1차 존재 목적은 ‘안전한 임상시험’ 진행이다. 따라서 임상 2상에서 환자들에게 심각한 부작용 등의 문제가 없었다면 임상 3상 진입을 허가해 준다.
그렇다면 아리바이오의 임상 시험의 대조군 환자들은 왜 인지저하가 일어나지 않았을까? 나도 임상전문가가 아니고 아주 원초적인 데이터들이나 시험 계획서를 보지 못했으니 알 수가 없다. 다만 추측할 수 있는 것은 너무 약효를 잘 보이기 위해 너무 병의 초기의 환자들을 모집하는 바람에 인지저하가 아주 느리게 진행되었거나 임상 시험을 진행하는 사람들의 관리 소홀로 인해 제대로 시험/평가가 진행되지 못했을 수도 있다. 극단의 경우에는 플라세보 투여 환자와 약물 투여 환자가 섞여버려서 제대로 실험이 진행되지 않았을 경우도 있다(실제 이런 사례가 있다.). 어찌 되었든 시험 자체가 문제가 있다는 것은 변함이 없으며 원인 파악을 정확히 해야 약효의 여부를 떠나서 제대로 된 임상 시험을 진행할 수 있을 것이다.
국내 약물 개발사의 도전을 응원하지만 실제 비임상/임상 데이터를 정확하고 비판적으로 바라보는 시선이 여전히 필요한 이유다.
<그림1. 바이오젠/에자이의 레카네맙의 임상 2상 데이터의 일부. 수치가 아래로 내려갈수록 인지 저하가 되었음을 의미한다. 대조군 대비 용량 의존적으로 인지 저하를 막을 수 있음을 알 수있다. 별표는 통계적 유의성을 확보했다는 뜻이다.>
<그림2. 아리바이오의 AR1001의 임상 2상의 데이터. 약물을 투여받지 않은 환자의 인지 저하가 일어나지 않았다. 알츠하이머 환자는 시간이 지남에 따라 인지저하가 발생된다는 기본 명제가 갖춰지기 않았기 때문에 제대로 진행된 임상시험이라고 볼 수 없다>