在过去几十年里,生命科学企业能够获得的数据已经从涓涓细流汇成滔滔江海 ,这些数据来源包括但不限于患者个人的基因和基因组画像、代谢组学与蛋白质组学概况、从可穿戴设备获取的真实世界数据(如心率、血糖等),以及电子医疗记录中包含的详细临床病史。 今天,全世界大约30%数据量是由医疗企业生成的。到 2025 年,医疗健康数据的复合年增长率将达到 36%。这一数值比制造业高 6%,比金融服务业高 10%,比娱乐传媒业则高 11%。此外,从 2016 年到 2020 年,临床系统中的患者数据量增长了近 500%。
数据分析也应运而生并且蓬勃发展。目前,在传统的统计方式外,强大的人工智能 (AI) 技术已经可以处理大批量数据,也可以管理以非标准格式存储的数据。人工智能有一个分支名为机器学习,它可以在没有任何起始假设的情况下识别数据的模式,这也就意味着人类不必再对数据中隐藏的信息进行事先假设。
新的人工智能工具,加上医疗数据的暴涨,将改变临床试验和药品研发的方式。据摩根士丹利分析,人工智能与机器学习的应用会在未来 10 年时间里带来超过 50 种全新疗法,并且这些疗法将转化为超过 500 亿美元的市场收入。通过运用机器学习工具结合统计分析,研究人员已经可以在海量真实世界数据与临床历史库中获得新的见解。
以Medidata 为例,利用大数据建模技术,Medidata已经找到了能够预测嵌合抗原受体 T 细胞疗法 (CAR-T) 患者发生严重细胞因子释放综合征 (CRS) 几率的实验室标志物。从前,关于严重 CRS 临床风险因素的研究仅依赖于规模很小的患者群体,通常取自单个 CAR-T 研究中的患者群体。一般说来,一项 CAR-T 研究平均只有 11 名患者参与。而 Medidata 反其道而行之,从多项 CAR-T 临床试验中汇集了超过 540 名患者的临床试验数据集,将 CRS 风险与常见生物标志物联系起来。
生命科学企业也开始使用人工智能技术来确保临床试验产生合规的数据质量,对数据输入中的错误、异常值、前后不一致和错误报告中的不良事件进行排序和分类,以加快药品审批流程。
然而,大多数生命科学企业在进行临床数据分析时,仍然没有充分利用人工智能工具和机器学习技术。一部分原因是人工智能尚属新鲜事物,另一部分原因是除了技术的优势外,在技术或监管上获得成功的概率仍然很低。不过,这也反映了人们对人工智能技术仍然缺乏了解,不清楚它与传统统计学的具体区别。
简单解释下这两者之间的区别:统计学能做到对人类困难而对计算机容易的事情,而人工智能正相反,能做到对人类容易而对计算机困难的事情。前者需要预先确定假定值P值,后者则着重处理语言识别和图像识别等内容,有一个研究领域可以将人工智能与统计学相结合,处理人类和计算机都难以解决的问题,这就是机器学习。
统计学是什么?
经典的统计建模技术是在 18 世纪到 20 世纪早期发展起来的,用于研究、量化和描述人口、经济和道德行为。但这种研究方式只适用于较小的数据集,比如今可用的小得多的数据集。随着贝叶斯模型的出现,这一学科在 20 世纪 80 年代流行起来。统计学家可以通过贝叶斯模型对概率进行估算。
1962 年Kefauver-Harris药品修正案生效,肯定“以科学为基础决策药物上市的黄金标准”。修正案要求药品在批准上市之前都必须证明其功效,从而统计模型也成为药品开发的关键。如今,统计学通常被用来评估某项疗法对患者群体来说是否比安慰剂或标准护理方式更有效。
统计学旨在推断变量之间的关系,确定输入变量对输出变量的影响。但这种方式并不适用于变量间关系未知且具有巨量输入数据的大型数据集。从统计学角度评估每个输入变量的意义,既繁琐又困难。统计建模要求统计学家在运行模型之前对所分析的问题或议题,特别是数据分布,做出严密的假设。
人工智能是什么?
虽然在过去十年里,人工智能已经成为了某种意义上的热门词汇,但它在分析建模领域可并不是什么新成员,可以追溯至现代计算机的发明。人工智能技术旨在理解人类的智能 - 特别是人类掌握的技能,如识别物体和声音、说话、翻译、进行社会交易或完成创造性工作 - 以便在机器中复制这种智能。
在生命科学领域,人工智能可以被训练在实验室中分辨癌细胞,在 X 射线等高质量医学图像中识别出对应模式,并分析复杂的基因组数据集。人工智能分析还能快速结合消费数据、治疗数据、诊断、实验室测试和其他以自然语言存储的信息,识别预料之外和新出现的模式,并预测治疗反应和患者行为。
机器学习是什么?
机器学习是计算机科学和人工智能的一个分支领域,旨在构建一个能从数据中学习的系统,而不仅仅是遵从明确的编程指令。机器学习因便宜的算力和计算机可以 "学习 "的海量数据的可用性而成为可能。
机器学习建立在统计推断的基础上,但它不需要做出预设假设;这使得计算机能够发现和完成人类分析师无法预测的见解和分类,并在预测准确性上超过人类。
机器学习有几种类型,包括监督机器学习、无监督学习和强化学习。在监督机器学习中,人们将一些数据包含数据集所提出问题的答案,输入计算机。这种方式能训练计算机对未来的数据集做出预测。无监督学习中一开始不会使用到输出或答案数据,但算法会在数据中自行发现模式,并据此进行决策。强化学习则受到了行为心理学的启发,通过激励机制训练计算机实现特定的目标。
无监督学习可能以处理组学数据的形式进行,以生成相关的群组或发现数据中的关联。对于数据质量应用而言,它可以通过在无辅助的情况下查看整个数据库,并识别两个数据点之间关系的方式,为关联映射提供辅助。这样可以识别数据集中未被发现的不一致,如不加以识别可能会导致合规问题。
临床试验数据量指数级增长,机器学习算法可以帮助生命科学企业分析数据,决定其中哪些数据具有相关性,并从大规模数据中获得洞察。可以期待统计和机器学习的结合为未来的临床试验提供动力。
Medidata AI
Medidata AI 致力于为制药、生物技术和医疗器械领导者提供无可比拟的临床数据、高级分析与行业专业知识,帮助他们发现更多可能性、揭示突破性的见解、自信地做出决策,并持续推动各类创新。由科学家、医生、技术专家和前监管官员组成的专业团队利用他们深厚的行业知识,努力帮助解决您最关心的问题。
Medidata AI 依托于 Medidata 平台,包含超过 30,000 项试验与 900 万名患者。Medidata AI 数据的独特之处在于患者层面的数据直接从试验中的所有病例报告提取。我们采集的基于个人层面的临床领域超过100 个,可操作协变量超过 35 项。