ここ数十年の間に、ライフサイエンス企業が利用できるデータの流れは、細流から高潮へと変化してきました。データは、個々の患者の遺伝子やゲノムのポートレート、メタボロームやプロテオミクスのプロファイル、心拍変動や血糖値などあらゆるものを測定するウェアラブルからのRWDに加え、電子カルテからの詳細な患者の臨床履歴などさまざまです。世界のヘルスデータの総量は、2020年までに2,314エクサバイトに急増し、2013年時点に比べて15倍になると予想されています。ある試算では、これらのデータをタブレットPCに積み重ねて保存した場合、その高さは8万2,000マイル(約13万2,000キロメートル:地球の約3周分)に達するといいます。
これにともなってデータ分析も盛んになりました。従来の統計学に加えて、膨大な数の入力作業や、非標準的フォーマット(臨床試験において、研究者が歴史的に性別を記録してきたものには700種類以上の方法があると言われています)のデータを管理できる強力なAI技術が登場しました。また、機械学習と呼ばれるAIは、仮説を立てずにデータのパターンを識別することができます。つまり、データの中にどんな新しい発見が潜んでいるかを人が事前に仮定する必要がないわけです。
ヘルスケアデータにおけるブームと相まって、新たなAIツールは臨床試験や創薬を一変させていくキーになります。マッキンゼー・グローバル・インスティテュートは、AIがライフサイエンス業界にもたらす価値は年間1,000億ドルにもおよぶと推定しています。研究者たちはすでに、機械学習ツールと統計解析を組み合わせて、膨大なや臨床履歴から新たなインサイトを見出しています。
例えば、FDA はメディセンナ・セラピューティクスの再発性膠芽腫 (rGBM) を対象とした第 3 相登録試験において、ハイブリッド外部対照の一部として Medidata Acorn AI Synthetic Control Arm® (SCA) を検討することに合意しました。ハイブリッド外部対照群により、試験で対照療法に割り付ける必要のある患者数が少なくてすみ、また、厳密な科学的データが得られると同時に、新たな治療法の開発スピードを加速することができます。また、ライフサイエンス企業は、規制当局へのデータ品質を高めるためにAIを利用し始めており、これによってデータ入力エラー、外れ値、不整合、有害事象の誤報告などを選別・分類し、承認プロセスを迅速化することが期待されています。
しかし同時に、まだほとんどのライフサイエンス企業がデータ分析にAIのアプローチを最大限に活用できていないのが現状です。AIがまだ新しいものであり、FDAが医薬品の安全性と有効性の承認にその活用を正式に認めていないことも理由の一つです。また、AIに何ができるのか、統計学とどう違うのかについての理解が不足していることも背景として考えられます。
両者の違いを端的に表現すると、統計学は人間には難しくコンピュータには容易なことを実現するものであり、人工知能はコンピュータには難しく人間には容易なことに取り組むものです。前者はp値を吐き出しますが、後者は音声認識や画像認識に苦労します。(その画像が亀なのか銃なのか)。機械学習と呼ばれる分野では、人工知能と統計学を組み合わせて、コンピュータにとっても人間にとっても難しいことに取り組んでいます。
統計学
従来の統計モデリング技術は、18世紀から20世紀初頭にかけて、集団、経済、道徳的行動を調査、定量化し、表すために開発されたものですが、それらは一般的に、現在利用可能なデータよりもはるかに小さいデータセットに対してのものでした。しかし、1980年代にベイズモデリングが登場し、統計学者が確率を推定できるようになったことで、この分野は爆発的に普及しました。
1962年の薬事法改正により、市販される医薬品に有効性の証明が求められるようになってから、医薬品開発には統計的モデルが不可欠となりました。今日、統計学は主に、ある治療法がプラセボや標準治療よりもどれだけ優れているかを評価するために使用されています。
統計は、入力変数が出力変数に与える影響を調べるために、変数間の関係を推論するように設計されています。一方で、膨大な量の入力データがあり変数間の関係がわからない大規模なデータセットにはあまり適していません。各入力変数の統計的有意性を評価するのは煩雑で扱いにくいものになります。統計モデリングでは、モデルを実行する前に、分析対象の問題や疑問、特にデータの分布について、統計学者がしっかりとした仮定を立てる必要があります。
AI(人工知能)
人工知能はこの10年間で何かと話題になっていますが、その歴史は近代的なコンピュータの発明にまで遡るため、分析モデリングの分野においては “まったく新しいもの” というわけではありません。AIは、人間の知能、特に物や音の認識、会話、翻訳、社会的な取引、創造的な仕事などの人間のスキルを理解し、その知能を機械で再現することを目的としています。
ライフサイエンス分野では、実験室でのがん細胞の識別や、X線などの高品質な医療画像のパターン識別、複雑なゲノムデータの解析などをAIに任せることができます。また、AI分析は、コンシューマーデータ、治療データ、診断、検査など、自然言語で保存された情報を迅速に組み合わせて、予想外のパターンや新しいパターンを特定し、治療反応や患者の行動を予測することができます。
機械学習
機械学習とは、コンピュータサイエンスと人工知能のサブフィールドであり、明示的にプログラムされた指示に従うだけでなく、データから学習できるシステムを構築することを目的としています。機械学習を可能にしたのは、安価なコンピュータの性能と、コンピュータが「学習」できる膨大な量のデータの利用可能性です。
機械学習は、統計的な推論を基盤としていますが、あらかじめ設定された前提条件を必要としないため、人が分析するだけでは予想できないようなインサイトや分類をコンピュータが発見し、超人的な精度で予測を行うことができます。
機械学習には、教師あり学習、教師なし学習、強化学習などの種類があります。教師あり学習では、データセットによって提起された問題に対する答えを含むデータをコンピュータに与えます。このデータは、将来のデータセットについての予測をコンピュータに教えるために使用されます。教師なし学習では、最初は出力や答えのデータは含まれていませんが、アルゴリズムがデータの中で見つけたパターンについて判断を下すことができます。強化学習は、行動心理学からヒントを得て、コンピュータに報酬と罰則を与えて、特定の目的を達成するように教えるものです。Googleのコンピュータプログラム「AlphaGo」が人間の囲碁チャンピオンに勝ったのも、この手法によるものです。
教師なし学習は、オミックスデータを処理して、データ内の関連するクラスターや関連性を生成するような形で行われます。また、データ品質の向上のためには、データベース全体を対象に、2つのデータポイント間の関係を特定するアソシエーションマッピングを支援することができます。これにより、コンプライアンス上の問題を引き起こす可能性のある、データセット内の予期せぬ不整合を特定することができます。
データ量は指数関数的に増加しており、それに伴ってライフサイエンス企業がそれに対応することがますます困難を極めています。機械学習アルゴリズムは、データを分析し、どの情報が関連しているかを判断し、大量のデータからインサイトを引き出すのに役立つ大きな可能性を秘めています。このアプローチは、他の分野や業界ではすでに使用されており、臨床研究においても重要な役割をになっていく可能性が大いにあります。将来の臨床試験では、統計学と機械学習の組み合わせによって進められることが期待されています。
Medidata Acorn AI
メディデータのAcornAIは、独自の患者レベルの臨床試験データセットとともに、様々なAI技術を駆使してデータサイエンティストや臨床試験に携わる人々をサポートする新しいソリューションを開発しています。 特に当社のIntelligent Trialsソリューションは、臨床開発チームが臨床試験の計画、実施施設の選定、登録の決定を最適化し、進行中の臨床試験に関するリアルタイムなインサイトを得るために利用することができます。Synthetic Control Arm(SCA)は、業界横断的な過去の臨床試験データを用いて作成された外部対照群を提供します。患者レベルのデータを慎重に選択することで、実験群と統計的にバランスのとれたベースラインの構成が得られ、正確な合成対照群を作成することができます。これは、薬事申請をサポートするだけでなく、確実なGo / No Goの判断をすることにも活用できます。
Medidata Acorn AIは、ほんの数年前には全く想像できなかった臨床試験ソリューションを開発しました。
この記事は2021年7月1日にGeeks Talk Clinicalでの英文投稿の抄訳となります。原文はこちらをご参照ください。