生成AIによる細胞地図が新薬の「薬効と副作用」を精密に予測
株式会社ヒューマノーム研究所

(株)ヒューマノーム研究所は、世界最大級のシングルセル遺伝子発現量基盤モデル「CellScribe(セルスクライブ)」を開発しました。
CellScribeは、細胞の機能や状態をあらわす遺伝子発現量を大規模に学習することで、医薬品などが細胞に及ぼす影響を効率的に予測する基盤モデルです。先行研究を大幅に上回る約9億細胞のデータを利用し、世界最大規模・3億パラメータの基盤モデルを学習することで、同種の既存モデルと比較して予測誤差を約7.8%改善し、世界最高性能を達成しました。 CellScribeは世界中の細胞状態を示す「地図」となり、効率的な薬効予測や評価を実現します。
今後は、製薬企業、アカデミア、バイオ系スタートアップ等との連携を推進し、実用化に向け、さらなる研究開発や実証を進めます。本成果により、複雑な生命現象の理解を促進し、創薬研究の効率化や成功率向上に貢献し、多種多様な医薬品開発と疾患の克服を目指します。
[画像1:
https://prcdn.freetls.fastly.net/release_image/42913/73/42913-73-22fc1ed3abebdf760501a9260692fb48-1600x901.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
図1. 創薬を加速する生成AIモデル「CellScribe」の概念
1.概要
新薬の研究開発は、一般的に10年を超える年月と1000億円を超える投資を必要とします。特にmRNA医薬や抗体医薬に代表される新規モダリティ(新しいタイプの医薬品や治療手段)の開発では、既存薬と作用機序が異なるため、過去に類似実験が行われていないことが多く、薬剤候補が生体に与える影響の予測が難しい、という課題がありました。
この課題に対し、細胞ひとつひとつの遺伝子の活動(遺伝子発現)を詳細に捉えるシングルセル解析技術が、近年目覚ましい進歩を遂げています。この技術は、薬剤への応答に関する細胞レベルの精密な理解を可能としますが、得られるデータは膨大かつ複雑です。そのポテンシャルを最大限活用するために、情報を効率的に解析する新たな基盤が求められていました。
この背景のもと、株式会社ヒューマノーム研究所はシングルセル解析から得られた遺伝子発現データを効率的かつ高精度に解析する基盤モデルの開発に取り組み、その開発に成功しました。この基盤モデルは、いわば多様な細胞の情報が凝縮された「細胞の世界地図」です。利用者の実験データとモデルを組み合わせることで、そのデータがもつ特徴や傾向などの情報を予測できます(図2)。
[画像2:
https://prcdn.freetls.fastly.net/release_image/42913/73/42913-73-b09db2c3294470cc8039281a56bcae18-1600x759.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
図2. CellScribeの予測技術概要
2.今回の成果
【1】遺伝子発現量基盤モデル「CellScribe」の開発
本事業で開発するシングルセル遺伝子発現量基盤モデル「CellScribe」(※1-3)は、先行研究であるscFoundationのアーキテクチャをベースに拡張し、3億パラメータのモデルとして開発しました。
このAIモデルは、学習データに利用した細胞同士の性質の近さを読み取り、細胞集団全体の多様性や細胞間の関係性を俯瞰する「地図」を描きます。この地図(CellScribe)をガイドとして、創薬研究で計測されたデータを読み解くことで、データ単体の特徴や傾向だけでなく、その周辺にある「有望な目的地(創薬ターゲット)」や「未知のルート」といった、これまで見過ごされていた多彩な情報も利用できます。信頼性の高い予測結果はゴールに繋がる最適な経路といえます。これにより、創薬に要する時間を大幅に短縮することが可能となります。
学習に利用するデータセットの準備にあたり、公開データベースであるCellxGeneなど、合計4データベースからヒトに関連する約9億細胞分の遺伝子発現量データを収集しました(図3)。また、遺伝子発現量に加えて、それぞれの実験データに付与された器官、疾患、実験条件などのメタデータも収集しました。これらのデータに対し、以下のような処理等を実施しました。
- 実験結果のうち、「一定数以上の遺伝子が計測できている」などの基準を設け、高品質データを選別- メタデータについて、LLMを活用した表記揺れの補正- 実験の元になった組織や細胞腫名・薬剤・実験条件などに関するメタデータの付与
最終的に、約3億(300M)細胞の高品質データセットを構築し、CellScribeの学習に利用しました。多様な細胞種や状態における遺伝子発現プロファイルを大規模モデルで学習したことで、未知のデータに対する高い汎化性能の獲得と顕著な性能向上を見込んでいます。
[画像3:
https://prcdn.freetls.fastly.net/release_image/42913/73/42913-73-eec63fdd91bcf152af1123777a01047c-1600x805.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
図3. CellScribeの学習に利用したデータセットの内訳
【2】CellScribeの有効性検証
CellScribeは、遺伝子発現量基盤モデルの予測誤差の指標として広く用いられている平均二乗誤差(MSE ※4)において、2025年4月19日時点で0.295を達成しました。これは、比較対象となる非対称エンコーダ・デコーダ型の最先端モデル「scFoundation」(MSE 0.32)と比較し、予測誤差を約7.8%低減したことに相当し、従来モデルより精密に予測ができることを示しています(図4)。
[画像4:
https://prcdn.freetls.fastly.net/release_image/42913/73/42913-73-e0583845c9d03f8e8bdd4d4bfc499588-1600x623.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
図4. CellScribeと従来モデルの概要・性能比較
【3】CellScribeの利用
CellScribeで学習したモデルのサンプルおよび、そのモデルを活用するためのコードについては、近日中に当社サイトにて公開予定です。
なお、今回公開を予定しているモデルは、学習過程の100kステップ時点のものです。継続的な学習によってさらに精度が向上したモデルのご利用については、お手数ですが個別にお問い合わせください。
3.今後の予定
当社は本事業において、今回開発したCellScribeのさらなる性能向上を目指し、シングルセル以外の実験データなども含めた学習データの拡充やモデルの改良を継続します。また、製薬企業、アカデミア、バイオ系スタートアップ等との連携を強化し、共同研究等を通じた実際の創薬研究や疾患メカニズム解明など、具体的な応用事例の創出に取り組みます。また、CellScribeはサブスクリプション契約やライセンス契約、社内データ等の非公開データを用いた追加学習、ファインチューニングを含む商用利用形態を現在検討しております。
これにより、生命科学分野におけるさらなるAI活用を推し進め、複雑な生命現象の理解を促進することで、莫大な新薬開発コストの削減を目指します。
本成果は、経済産業省とNEDOが実施する、国内の生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)※5」の支援を受けて得られたものです。
本成果について質問する本成果に関するお問い合わせは上記リンク先(お問い合わせ専用ページ)よりお願いいたします。
4.注釈
※1 シングルセル(解析)
ひとつの細胞(単一細胞)のみについて解析する技術の総称。従来は複数の細胞をまとめて解析していました。
※2 遺伝子発現量
細胞内で遺伝子が使われる量を示す数値。薬剤に対し細胞が示した反応の理解や、遺伝子機能の詳細を理解する手助けとなります。本事業では、単一細胞の遺伝子発現量を予測するAIを開発しました。
※3 基盤モデル
一つの用途に特化するのではなく、幅広く様々な用途に対応できるように設計されているAI。特定の用途に限定せず、広範な課題に汎用的に対応できる能力を持つことを特徴とします。
※4 平均二乗誤差
モデルの予測値と実際の値が、平均してどれくらい乖離しているかを示す数値。MSEの値が小さいほど、モデルの予測精度が高いことを意味します。
※5 GENIACプロジェクト
事業名:GENIAC (Generative AI Accelerator Challenge)
事業期間:2023年度~2025年度
事業概要:
https://www.meti.go.jp/policy/mono_info_service/geniac/index.html
5.株式会社ヒューマノーム研究所概要
[表:
https://prtimes.jp/data/corp/42913/table/73_1_14f091b947f8cbc1a098d71f580a2882.jpg?v=202506120317 ]
プレスリリース提供:PR TIMES



記事提供:PRTimes