AI(인공지능)는 현실의 다양한 임상시험 과제와 문제를 해결하고, 데이터 관리자와 기타 이해관계자의 업무를 효과적으로 지원합니다. AI는 획기적인 솔루션을 제공하지만, 기존 기술들과 상이하고 알려지지 않은 부분이 많아 아직까지 도입 문턱이 높고 이에 대한 의견도 분분한 상황입니다. 한편, AI에 대한 선입견, 오해, 활용 경험 부족, 작동 방식에 대한 세부 정보의 부재 등이 불안감을 증폭하기도 합니다.
이제부터 AI와 머신러닝(ML)이 메디컬 코딩, 데이터 보정, 감사 추적 검토 등에서 어떻게 임상 데이터 관리를 지원하는지 살펴보겠습니다.
AI 기반 메디컬 코딩
임상시험 중에 증상, 시술, 이상반응(AE) 관련 처방, 병력, 병용약물(CM) 등을 기술하는 것을 버바팀(Verbatim)이라고 합니다. 버바팀 기록이 완료되면 의뢰자는 FDA 및 기타 규제기관의 요청에 따라 업계 표준 사전에 맞게 코딩해야 합니다.
이상반응 및 벙력에 사용되는 MedDRA(국제 공통 의약용어 사전)와 CM을 위한 WHODrug (의약품 정보 사전)는 그림 1에서 확인할 수 있습니다.
예를 들어, 연구자가 환자의 이상반응를 “headache”라고 기록하면, 해당 대상자나 연구에 관한 기타 정보에 따라 “throbbing headache”로 코딩되고, MedDRA 사전을 사용해 ‘10058140’이라는 코드를 부여합니다. 환자가 복용하는 ‘paracetamol’은 WHODrug 사전에 따라 ‘00200’으로 코딩됩니다.
그림 1. MedDRA 및 WHODrug 예시.
연구 중에 메디컬 코드 작성자는 수천 개의 용어를 코딩합니다. 복잡하고 오래 걸리는 코딩 작업을 단축하기 위한 자신만의 동의어 리스트를 작성 및 관리하며 수년 동안 전문성을 쌓아야 합니다. 코딩 업무를 혁신할 수 있는 강력한 도구가 등장했을 때 많은 사람이 환호했지만, 그러한 도구의 기능, 정확성, 효율성에 의문을 제기하기도 했습니다.
ML 알고리즘이 있으면 동의어를 따로 관리할 필요가 없기 때문에 수동 “검색 및 코딩” 프로세스에 소요되는 시간과 노력을 아낄 수 있습니다.
메디데이터의 예측형 코딩 ML 알고리즘은 수천 건의 연구에서 다양한 버전의 사전으로 처방, 증상, 시술 용어에 대한 6,000만 건(MedDRA 3,000만 건, WHODrug 3,000만 건)의 전문가 코딩 사례를 학습하고 테스트합니다.
버바팀 용어를 제공하면 알고리즘은 해당 용어가 어떤 사전 코드로 코딩될지 예측합니다. 메디컬 코드 작성자는 해당 예측의 신뢰도(높음, 중간, 낮음)를 확보하여 버바팀 코딩에 필요했던 번거로운 사전 검색과 동의어 관리 작업을 대체할 수 있습니다. 또한, 코드 작성자는 예측에 따라 용어를 코딩할 수도 있고(알고리즘에 좋아요 피드백), 예측을 거절할 수도 있습니다(싫어요 피드백). 신뢰도 기준을 충족한 용어는 ‘자동 코딩’으로 설정하여 코딩 속도를 더욱 높일 수 있습니다.
예측 모델 개발
코딩 이력을 사용하여 모델을 구축하기 전에 데이터를 클린업합니다. 버바팀과 메디컬 코드를 표준화하고, 사전 콘텐츠로 보강하며, 불필요한 코드를 제거하는 것입니다.
데이터세트는 데이터 시간에 따라 학습 세트와 테스트 세트로 분할됩니다. 전체 데이터 세트 중 가장 오래된 부분은 학습 세트에 사용되고, 최신 부분은 테스트 세트에 사용되는 것입니다. 학습 세트를 사용하여 예측 모델을 구축하며, 테스트 세트를 사용하여 모델의 성능을 평가합니다.
WHODrug와 MedDRA 코드는 위계를 따르며, 메디데이터의 ML 역시 마찬가지입니다. 모델은 학습을 통해 상위 수준의 코드(MedDRA 또는 DRN의 PT[선호용어])와 각 고유 상위 코드의 하위 수준 모델을 예측합니다. 모델은 버바팀 텍스트에서만 학습합니다. 따라서 해당 버바팀이 어떤 사용자나 연구에서 생겨났든 간에 동일한 코드 예측을 일관되게 반환합니다.
모델은 최신 데이터를 통해 정기적으로 “갱신”됩니다. 최신 코딩 사례를 활용하고, 새로운 사전 릴리즈를 예측합니다.
AI 기반 메디컬 코딩 - 정확성과 효율성
예측형 코딩을 활용하면 코드 버바팀의 탐색과 검색 시간을 줄일 수 있습니다. 그렇지만 정확성은 어떨까요?
높은 신뢰도 기준을 선택할 경우, MedDRA 예측은 전문 코드 작성자 대비 96%의 정확도를 보일 것으로 예상되며, WHODrug 예측은 92%의 정확도를 보일 것으로 예상됩니다. MedDRA 예측은 단일 코드를 선택하는 반면, WHODrug 예측의 경우에는 (AI가 약품 코드를 예측하긴 하지만) 사용자가 적절한 ATC(해부 치료 화학) 코드를 선택해야 하기 때문에 이처럼 정확도의 차이가 생기는 것입니다.
중간 신뢰도와 낮은 신뢰도의 예상 정확도는 좀 더 낮지만, 자동으로 코딩할 수 있는 버바팀의 개수는 증가합니다.
수동 사전 ‘탐색 및 검색’ 프로세스는 각 버바팀의 코딩에 평균 5분이 소요되지만, AI 예측을 활용하면 몇 초 만에 처리할 수 있습니다. 임상연구에서는 코딩할 버바팀이 수천 개에 달하기 때문에 AI 자동 코딩 시스템을 활용하면 각 임상시험에서 수십 시간 내지 수백 시간을 절약할 수 있습니다. 높은 신뢰도 기준으로 자동 코딩한 버바팀 1,000건당 69시간이 절약됩니다. 모든 버바팀(자동 코딩하지 않은 용어도 포함)에 대한 예측이 생성되기 때문에 예측 기반 수동 코딩으로 상당한 시간을 절약할 수 있었습니다. 이후에는 코딩된 용어를 데이터 검토에 활용하고, 보안 시스템에 그대로 전달하여 업무 중복 문제를 해결할 수 있습니다.
AI를 통한 데이터 보정
AI의 대표적인 기능이 바로 다양한 데이터 세트의 데이터를 보정하는 것입니다. AI는 훌륭한 버추얼 어시스턴트가 되어 까다로운 수동 작업을 자동화하고 프로세스의 효율성과 혁신성을 높입니다.
지식 기반 아키텍처로 학습한 AI 전문 시스템이 이상반응(AE), 병용약물(CM), 벙력 데이터 세트 사이의 복잡한 관계를 평가 및 서열화하고, 임상시험 이력 데이터, 오픈소스 모델, 사전을 통해 그러한 관계에 적절한 신뢰도를 부여합니다.
알고리즘을 기반으로 AI 데이터 보정이 이뤄지기 때문에 사용자는 복잡한 데이터 품질 검수 과정을 단축하여 번거로운 수동 목록 검토에 낭비되는 시간을 절약하고 데이터 관리 리스크를 해소할 수 있습니다. 사람이 실수로 놓칠 수 있는 항목까지 AI 및 자동화 시스템으로 빠짐없이 플래그합니다.
CM 없는 AE를 찾는 보고서를 실행할 경우, 해당 시스템은 AE와 CM 사이의 서열화된 관계 그래프를 참조하고, 데이터 세트 사이의 잠재적 불일치를 식별하고, 문제를 시정하기 위한 관계 항목을 제안합니다. 해당 보고서는 앞서 소개한 메디컬 코딩의 좋아요/싫어요 피드백 프로세스를 통해 검토 및 연계가 필요한 사항을 목록으로 제안합니다. 이러한 루프형 수동 피드백 프로세스는 전문 시스템의 성능과 정확도를 개선합니다.
AI를 통한 데이터 보정으로 데이터 관리자는 다양한 목록을 수동으로 검토하지 않고도 불일치 문제를 효과적으로 해결할 수 있습니다.
감사 추적 검토(ATR)
임상시험 감사는 임상 데이터, 쿼리, 시스템 로그, 활동 로그, 메타데이터 등 연구의 모든 측면을 다루는 포괄적 개념입니다. 일반적으로 이러한 추적은 여러 시스템과 프로세스에 걸쳐 있기 때문에 ATR을 쿼리하는 것은 쉬운 일이 아닙니다. 중앙집중식 감사 추적 데이터를 사용하더라도 분석은 매우 어려운 작업이며, 규제 기관의 쿼리에 대응할 때도 상당한 시간과 노력이 필요합니다.
메디데이터는 생성형 AI를 활용하여 감사 추적 로그를 분석하고, 트렌드를 쉽게 파악 및 보고하고, 데이터 추이와 컨텍스트를 확인하며, 다양한 이벤트의 시퀀스를 모니터링하고 있습니다. ATR 결과를 생성하는 스마트 프롬프트와 기본 챗 기능으로 사용자 경험을 간소화합니다. 해당 시스템은 데이터 라이프사이클 전체를 대상으로 하는 무결성 제어 기능을 제공합니다. 덕분에 ATR의 무결성, 정확성, 투명성, 품질을 신뢰할 수 있습니다. 규제 기관의 문의에도 신속하게 대응할 수 있습니다.
편향되지 않은 데이터를 확보하고 적절한 프롬프트를 사용해야 생성형 AI의 정확도를 높일 수 있습니다.
AI 도입의 장벽을 허물다
AI를 도입하고 나면 임상시험의 새로운 지평이 열립니다.
AI를 도입할 때는 일부 이해관계자가 미온적인 태도를 보이기도 합니다. 자신의 역할이 어떻게 바뀔지 걱정하기도 하고, AI가 어떤 역할을 지원하거나 대체할지 고민하기도 합니다. 이런 반응은 지레짐작, 선입견, 오해에서 비롯됩니다. AI를 성공적으로 도입하기 위해서는 이러한 이해관계자들에게 AI/ML이 무엇인지, AI가 어떻게 업무 효율을 높이고, 임상실험을 혁신하며 환자들의 삶을 개선할 수 있는지 정확히 알려줘야 합니다.
가장 좋은 방법은 4가지 관점을 통해 AI에 대한 이해도를 높이는 것입니다.
- 리터러시(Literacy) 향상
AI 리터러시와 이해도를 높이기 위해서는 직원들에게 다음과 같은 정보를 제공하는 게 좋습니다.
- AI 교육 프로그램과 지식 기반 인프라
- 사례 중심의 상호작용 교육
- AI의 반복성에 대한 교육
- 새로운 비즈니스를 모색하고 지원 솔루션을 혁신하는 방법
2. 임상 데이터 관리 루프
임상 데이터 관리팀에게 AI를 충분히 통제하고 있다는 효능감을 제공하기 위해서는 다음과 같은 조치가 필요합니다.
- 피드백 기준을 명확히 설정
- AI 피드백 루프의 효과를 설명
- AI의 장단점을 충분히 설명(예: 불충분하거나 미흡한 데이터 품질, 데이터 편향)
3. 변화 관리
AI를 성공적으로 도입하기 위해서는 다음과 같은 사항에 집중해야 합니다.
- 관점 바꾸기
- 낯선 영역에 대한 두려움이나 직업을 빼앗길지도 모른다는 걱정을 덜어주기
- 충분한 교육을 통한 안정감 향상
- 모범 사례 선정을 통한 자신감 형성
4. 검증
AI의 잠재적 편향을 줄이기 위해서는 다음과 같은 조치가 필요합니다.
- 인간이 개입된 루프형 피드백의 중요성을 강조
- 다양한 데이터 서브셋을 아우르는 테스트 진행
- 민감도 테스트 진행
- 현실 증거를 검증에 활용
- 규제 기관과 협업
결론
지금까지 임상 데이터 관리 부문에서 AI를 통해 메디컬 코딩의 번거롭고 복잡한 데이터 관리, 데이터 보정, ATR을 자동화하는 방법에 대해 살펴봤습니다. 임상 데이터 관리자들은 AI를 통해 저마다의 역량, 경험, 지식을 바탕으로 고품질 데이터 분석을 수행할 수 있습니다.
이러한 원칙은 모든 임상시험 환경에 그대로 적용됩니다. AI는 가장 복잡하고 번거로운 작업을 처리하여 실무자들의 업무 방식을 혁신하고 임상시험의 새로운 지평을 엽니다.
AI가 임상 업계를 혁신하고 있다는 사실은 이미 널리 알려져 있지만, AI 기술에 대한 오해가 불필요한 의심, 걱정, 두려움을 낳고 있는 것도 사실입니다. 투명성, 포용성, 교육, 체험이 바탕이 되어야 AI를 성공적으로 도입하여 모두가 그 혁신적인 가치를 누릴 수 있습니다.
이를 통해 각 분야의 이해관계자는 저마다의 역할과 시험 방식을 혁신하고 환자의 삶을 바꿀 역량을 갖출 수 있으며, 매우 유용하고 강력한 기술을 확보할 수 있습니다.
AI는 이제 모두의 곁에 있습니다.