The Medidata Platform – 차세대 데이터 아키텍처
우리는 의심할 여지 없이 놀라운 잠재력으로 가득 찬 빠른 기술 혁신의 시대에 살고 있습니다. 임상시험 과제 해결, 프로세스 개선, 효율성 증진, 리스크 완화, 향상된 결과를 이보다 빠르게 달성할 수 있는 기술적 가능성은 없었습니다. 우리의 목표는 삶을 바꾸는 새로운 치료제를 간절히 기대하는 환자들에게 이를 보다 빠르게 제공하는 것입니다.
하지만 아이러니하게도, 업계의 경험에 따르면 이러한 새로운 기술을 도입하는 것은 종종 간단하지 않으며, 이로 인해 고통스러운 지연이 발생할 수 있습니다.
데이터 아키텍처 관점에서 의뢰자는 서로 다른 소스에서 수집한 데이터를 통합하고, 해당 데이터를 단일 출처로 간소화하는 것 외에도 복잡한 데이터 관리, 데이터 품질 관리, 상호운용성 및 확장성과 관련된 문제를 마주합니다.
희망적인 소식은 업계가 이러한 문제의 해결을 목표로 향상된 데이터 표준과 상호운용성을 도입하고 통합 임상시험 생태계를 구축하기 위해 지속적으로 노력했다는 것입니다.
이렇게 계속 진화하는 복잡한 환경 속에서 메디데이터의 통합 플랫폼은 언제나 경쟁사와의 차별화를 바탕으로 앞서 강조한 수많은 과제를 해결하고 업계 발전과 환자 건강 결과의 개선을 이끌어 왔습니다.
메디데이터가 꾸준히 집중하고 있는 핵심 영역 중 하나는 수상 경력을 자랑하는 최고의 플랫폼을 지속적으로 개선하는 것입니다. 이를 통해 현재와 미래의 과제를 모두 해결하는 것을 목표로 하고 있습니다. 여기에는 임상시험 전반에서 환자의 여정과 더욱 밀접하게 연계되는 동시에 통합과 데이터/환자 중심성을 유지하면서 계속해서 발전하는 플랫폼을 구축하는 것이 포함됩니다. 이러한 발전은 정밀 의학 프로세스, 데이터 수집 및 데이터 처리 기술의 발전과 환자 참여 증가로 뒷받침됩니다. 또한 이는 향상된 환자 경험과 건강 결과를 제공하는 동시에 보다 심도 있는 임상시험 인사이트의 확보를 용이하게 했습니다.
견고한 토대를 구축하는 것은 모든 활동의 중심이 됩니다. 이는 임상시험 환경 전반의 다양한 솔루션과 상호작용하는 방대한 생태계 내에서 데이터 관리, 상호운용성, 확장성 및 유연성과 관련된 복잡성을 처리해야 하는 시스템을 설계할 때 특히 중요합니다.
이 생태계는 EDC(전자 데이터 수집), 공급 데이터, eCOA(전자 임상 결과 평가), 이미징, RWD(실제 임상 데이터), 랩, EHR/EMR(전자 건강/의료 기록), 센서 및 기타 시스템 등 다양한 소스(그림 1)를 포함합니다. 심지어 이러한 소스에서 수집되는 데이터는 균일하지 않습니다. 다양한 센서 디바이스가 존재하며, 전체 데이터세트를 생성하기 위해 정보를 집계해야 하는 경우도 있습니다.
그림 1. 데이터 생태계 통합
이에 더해 업계 전반에서 복잡한 임상시험 방법론이 점점 더 많이 채택되면서 데이터 양이 기하급수적으로 증가하고 있습니다. 또한 우리는 이러한 복잡한 데이터가 생성되는 속도도 고려해야 합니다. 임상 발견에 참여하는 상호의존적 조직 전반에서 검토, 모니터링 및 분석을 수행하는 다양한 기타 시스템이 데이터를 효과적으로 처리할 수 있어야 하기 때문입니다.
따라서 이처럼 복잡하고 역동적인 환경을 지원할 수 있는 확장성과 상호운용성을 갖춘 통합 플랫폼을 위한 고급 아키텍처가 중요하다는 것은 자명한 사실입니다.
The Medidata Platform – 차세대 데이터 아키텍처
메디데이터의 새로운 플랫폼 데이터 아키텍처는 고급 데이터 통합, 상호운용성, 확장성, 품질 및 관리의 새로운 시대를 열었습니다.
이러한 토대 위에 구축된 메디데이터 플랫폼은 임상 발견 및 임상 데이터/리스크 관리 환경을 단순화 및 통합하여 임상시험 수행 일정을 상당 부분 단축할 것입니다.
새로운 데이터 아키텍처의 프로세스와 접점을 알아보도록 하겠습니다.
1. 활동 중심 임상시험 설계 및 데이터 수집(그림 2)
그림 2. 메디데이터 플랫폼의 차세대 데이터 아키텍처 프로세스 – 데이터 정의 구축
혁신적인 임상시험 구축 환경을 위해 메디데이터는 폼 대신 임상시험 활동 데이터에 프로세스의 중점을 두었습니다.
초기 임상시험 구축 단계부터 생물의학 개념(임상시험 공통 데이터 요소의 설명 및 구조)을 사용하여 수집할 데이터를 정의합니다. 심박수, 혈압, 체온으로 구성된 활력 징후를 예로 들 수 있습니다.
알려진 개념이나 데이터 형태를 보여주는 지식 그래프는 데이터가 컨텍스트 내에서 빠르게 인식, 파악 및 검색될 수 있도록 합니다. 수집된 데이터는 이후 지정된 명칭의 의미, 형식, 일정상 적절한 위치 및 다른 데이터와의 관계를 예측하는 시스템에 의해 자동으로 배치됩니다. 이러한 간소화된 프로세스는 검토, 분석, 재사용 등을 위한 데이터 가용성을 가속화합니다.
이를 통해 임상시험 구축 시 EDC 폼, eCOA 설문지, EMR 및 랩 수집 데이터, 센서 연결 등을 포함한 여러 데이터 소스 전반에서 이러한 정의를 재사용할 수 있습니다. 그 결과, 임상시험을 보다 빠르게 구축하고, 다양한 데이터 수집 방식 전반에서 규모의 경제를 실현할 수 있으며, 후속 분석 적용 단계가 강화됩니다.
2. 간소화된 데이터 수집 – 단일 출처 생성(그림 3)
그림 3. 메디데이터 플랫폼의 차세대 데이터 아키텍처 프로세스 – 통합과 수집
데이터 플랫폼을 사용하면 모든 소스에서 유형에 구애받지 않고 모든 데이터(메디데이터 및 외부 소스에서 수집한 데이터)를 수집하여 프로세스 중 확보한 데이터를 표준화할 수 있습니다.
외부 소스를 통한 데이터 수집은 간소화된 셀프 서비스 방식으로 설계되어 사용자가 보다 쉽고 빠르게 데이터를 관리 및 처리할 수 있도록 합니다. 이는 노력과 비용을 절감하고, 데이터 품질을 개선하는 것에서 나아가 궁극적으로 생성된 증거를 확장하여 임상 발견을 고도화합니다.
3. 데이터 준비 – 집계, 표준화 및 강화(그림 4).
그림 4. 메디데이터 플랫폼의 차세대 데이터 아키텍처 프로세스 – 데이터 준비(집계, 표준화 및 강화)
좋은 데이터는 다른 항목을 뒷받침하는 토대가 됩니다. 하지만 실제로 완전한 양질의 데이터를 수집하는 것은 쉽지 않습니다. 이는 특히 각 데이터 소스의 형식이 다르고, 이상치가 포함되어 있으며, 중복이나 격차 등이 존재하는 경우에 그렇습니다. 즉, 결과물의 품질은 입력하는 데이터의 품질에 좌우됩니다.
새로운 데이터 아키텍처는 Rave EDC, 마스터 임상시험 데이터, 센서 및 랩을 포함한 기타 주요 데이터 스트림 등의 소스를 표준화 및 컨텍스트화하는 내장된 데이터 전달 스트림을 통해 이러한 문제를 해결합니다. 이러한 데이터는 추가적인 집계, 강화 및 변환을 위한 통합 환자 관찰 데이터에 공급됩니다.
다운로드한 순차적 배치 대신 스트리밍 데이터를 사용하면 상당한 이점을 얻을 수 있습니다. 데이터를 즉각적으로 사용할 수 있게 되면 임상 연구팀은 병렬로 작업을 수행하여 데이터 검토, 분석 및 표준화 작업의 속도와 효율성을 크게 높일 수 있습니다.
새로운 아키텍처의 또 다른 주목할만한 발전은 신규 데이터세트의 연결 및 생성을 위한 노코드 및 로우코드 데이터 변환을 지원하는 셀프 서비스 기능이 포함된 것입니다. 이 기능은 기존의 표준 및 통합 제3자 데이터세트에 추가됩니다.
목록화된 메타데이터, 연결된 표준 개념, 거버넌스 및 마스터 데이터 관리(MDM)와의 이러한 의미론적 통합은 과학적 발견의 발전을 위한 핵심 토대가 됩니다.
4. 차세대 상호운용성(그림 5)
그림 5. 메디데이터 플랫폼의 차세대 데이터 아키텍처 프로세스 – 상호운용성
우리 업계에서 협업은 단순히 '선택 사항'이 아닌 생태계의 필수 구성 요소입니다. 하지만 성공적인 임상시험에 필요한 수많은 시스템, 솔루션 및 서비스 전반의 상호운용성을 달성하는 것은 수십 년간 주요 과제였습니다. 개별적으로 작동하는 플랫폼은 통합을 저해하는 또 다른 시스템일 뿐입니다. 다행히 변화를 위한 업계의 노력에 따라 낙관적인 전망이 나타나고 있습니다. TEFCA와 같은 업계 이니셔티브는 의료 데이터 표준화를 통해 미래 임상시험 데이터의 상호운용성을 혁신하고자 합니다.
메디데이터는 통합 플랫폼과 광범위한 파트너 프로그램을 통해 조화로운 상호운용성 생태계를 구축하는 데 앞장서 왔습니다. 이에 기반한 차세대 데이터 아키텍처는 기존 플랫폼을 확장하여 개별 시스템이나 조직의 한계와 경계를 뛰어넘을 수 있도록 합니다. 또한 여러 소스 전반에 걸친 데이터 액세스와 내부 워크플로 및 파트너 조직 워크플로와의 상호운용성을 제공합니다.
시스템은 새로운 통합 애플리케이션 프로그래밍 인터페이스인 "One API"를 바탕으로 표준 프로그래밍 방식을 사용하여 데이터를 보다 효과적으로 통합합니다.
더 놀라운 것은 올해 소개된 Snowflake 데이터 공유라는 새로운 액세스 방식입니다. 이 방식은 고객이 데이터를 추출하여 고객의 인프라로 전송할 필요 없이 메디데이터 데이터 레이크하우스의 관련 데이터세트에 직접 안전하게 액세스할 수 있도록 합니다. 데이터는 메디데이터의 레이크하우스로 공급되며 고객의 인프라에서 가상으로 자동 액세스할 수 있습니다. 이는 고객이 안전하고 안정적인 플랫폼에 저장된 데이터세트를 활용하여 내부 환경에서 지연을 최소화하면서 워크플로를 실행할 수 있도록 하는 혁신적인 기능입니다.
새로운 데이터 환경
메디데이터 플랫폼의 새로운 데이터 아키텍처는 새로운 데이터 환경을 선사합니다. 현재 AI 기반, 휴먼 인 더 루프(Human-in-the-Loop), 시각적 방식을 통해 데이터를 검토 및 조정하고 임상시험 리스크를 관리하여 데이터 품질을 보장하는 정교한 데이터 품질 관리 환경이 데이터 플랫폼을 바탕으로 구축되고 있습니다. 이 새로운 데이터 환경은 바로 Medidata Clinical Data Studio입니다.
오늘날 임상시험이 마주한 과제를 해결하고 차세대 임상 연구를 촉진하기 위해서는 새롭고 동적이며 상호운용성과 확장성을 갖춘 데이터 아키텍처가 필요합니다. 메디데이터는 메디데이터 플랫폼을 미래에 대비하여 업그레이드하고 새로운 데이터 환경을 제공하면서 25년 동안 혁신적인 업계 선도적 역량을 발휘하고 있습니다.