[ arXiv |データ |ドキュメント |チュートリアル |引用]
NeurIPS Spotlight、2024 年の「HEST-1k: 空間トランスクリプトミクスおよび組織学画像解析のためのデータセット」で紹介された HEST ライブラリの公式 GitHub リポジトリへようこそ。このプロジェクトは、ハーバード大学医学部とブリガム アンド ウィメンズ病院のマフムード研究所によって開発されました。
HEST-1k: HE 染色された全スライド画像を含む 1,229 対の空間トランスクリプトミクス サンプルのデータセットであるHEST-1Kへの無料アクセス
HEST-Library:新しい ST サンプル (ST、Visium、Visium HD、Xenium) をアセンブルし、HEST-1k で作業するための一連のヘルパー (ST 分析、バッチ エフェクト Viz および修正など)
HEST ベンチマーク:形態から遺伝子発現を予測する際の組織学の基礎モデルの予測パフォーマンスを評価するための新しいベンチマーク
HEST-1k、HEST-Library、および HEST-Benchmark は、表示 - 非営利 - 継承 4.0 国際ライセンスに基づいてリリースされています。
21.10.24 : HEST が NeurIPS 2024 にスポットライトとして採択されました。私たちは12月10日から15日までバンクーバーに滞在します。 HEST について詳しく知りたい場合は、メッセージを送ってください ([email protected])。
23.09.24 : 27 個の Xenium と 7 個の Visium HD を含む 121 個の新しいサンプルがリリースされました。また、アラインメントされた Xenium 転写物 + アラインメントされた DAPI セグメント化された細胞/核も公開します。
30.08.24 : HEST ベンチマークの結果が更新されました。 H-Optimus-0、Virchow 2、Virchow、および GigaPath が含まれます。 4 つの Xenium サンプルに基づく新しい COAD タスク。 HuggingFaceベンチデータが更新されました。
28.08.24 : バッチ効果の視覚化と修正のための新しいヘルパー セット。チュートリアルはこちら。
HEST-1k をダウンロード/クエリするには、チュートリアル 1-Downloading-HEST-1k.ipynb に従うか、Hugging Face の手順に従ってください。
注:データセット全体の重さは 1 TB を超えますが、ID、器官、種ごとにクエリを実行することでサブセットを簡単にダウンロードできます。
git clone https://github.com/mahmoodlab/HEST.git cd HEST conda create -n "hest" python=3.9 conda activate hest pip install -e .
sudo apt install libvips libvips-dev openslide-tools
マシンで GPU が利用可能な場合は、conda 環境に cucim をインストールすることをお勧めします。 (HEST はcucim-cu12==24.4.0
およびCUDA 12.1
でテストされました)
pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12==24.6.* dask-cudf-cu12==24.6.* cucim-cu12==24.6.* raft-dask-cu12==24.6.*
注: HEST-Library は Linux/macOS マシンでのみテストされています。バグがある場合は GitHub の問題で報告してください。
その後、データセットを次のように単純に表示できます。
from hest import iter_hestfor st in iter_hest('../hest_data', id_list=['TENX95']):print(st)
HEST ライブラリを使用すると、HEST 形式を使用して新しいサンプルを組み立て、HEST-1k と対話することができます。次の 2 つのチュートリアルを提供します。
2-Interacting-with-HEST-1k.ipynb: パッチをロードするために HEST データを操作します。各スキャンピー オブジェクトの詳細な説明が含まれています。
3-Assembling-HEST-Data.ipynb: Visum サンプルを HEST に変換するためのチュートリアル。
5-Batch-effect-visualization.ipynb: バッチ効果の視覚化と補正 (MNN、Harmony、ComBat)。
さらに、完全なドキュメントも提供します。
HEST ベンチマークは、新しく多様で挑戦的なベンチマークの下で、病理学の 11 の基礎モデルを評価するように設計されました。 HEST-Benchmark には、9 つの異なる臓器と 8 種類のがんの形態 (0.5 um/px で 112 x 112 um 領域) から遺伝子発現を予測するための 9 つのタスク (50 の高度に変動する遺伝子) が含まれています。 HEST-Benchmark を実行し、結果を 4-Running-HEST-Benchmark.ipynb で再現するためのステップバイステップのチュートリアルを提供します。
HEST ベンチマークを使用して、11 の公開モデルを評価しました。報告された結果は、PCA (256 因子) を使用したリッジ回帰に基づいています。リッジ回帰では、埋め込み次元が大きいモデルに不当なペナルティが課されます。モデル間の公平かつ客観的な比較を確保するために、PCA の削減を選択しました。ピアソン相関を使用して測定されたモデルのパフォーマンス。最も優れたものは太字で、2 番目に優れたものには下線が付けられています。ランダム フォレストと XGBoost 回帰に基づく追加の結果がこの論文で提供されています。
モデル | IDC | プラド | PAAD | SKCM | コア | 読む | ccRCC | ルアド | リンパIDC | 平均 |
---|---|---|---|---|---|---|---|---|---|---|
レスネット50 | 0.4741 | 0.3075 | 0.3889 | 0.4822 | 0.2528 | 0.0812 | 0.2231 | 0.4917 | 0.2322 | 0.326 |
Cトランスパス | 0.511 | 0.3427 | 0.4378 | 0.5106 | 0.2285 | 0.11 | 0.2279 | 0.4985 | 0.2353 | 0.3447 |
ピコン | 0.5327 | 0.342 | 0.4432 | 0.5355 | 0.2585 | 0.1517 | 0.2423 | 0.5468 | 0.2373 | 0.3656 |
コンチ | 0.5363 | 0.3548 | 0.4475 | 0.5791 | 0.2533 | 0.1674 | 0.2179 | 0.5312 | 0.2507 | 0.3709 |
レメディ | 0.529 | 0.3471 | 0.4644 | 0.5818 | 0.2856 | 0.1145 | 0.2647 | 0.5336 | 0.2473 | 0.3742 |
ギガパス | 0.5508 | 0.3708 | 0.4768 | 0.5538 | 0.301 | 0.186 | 0.2391 | 0.5399 | 0.2493 | 0.3853 |
ユニ | 0.5702 | 0.314 | 0.4764 | 0.6254 | 0.263 | 0.1762 | 0.2427 | 0.5511 | 0.2565 | 0.3862 |
ヴィルヒョウ | 0.5702 | 0.3309 | 0.4875 | 0.6088 | 0.311 | 0.2019 | 0.2637 | 0.5459 | 0.2594 | 0.3977 |
ヴィルヒョウ2 | 0.5922 | 0.3465 | 0.4661 | 0.6174 | 0.2578 | 0.2084 | 0.2788 | 0.5605 | 0.2582 | 0.3984 |
UNIv1.5 | 0.5989 | 0.3645 | 0.4902 | 0.6401 | 0.2925 | 0.2240 | 0.2522 | 0.5586 | 0.2597 | 0.4090 |
ホプティマス0 | 0.5982 | 0.385 | 0.4932 | 0.6432 | 0.2991 | 0.2292 | 0.2654 | 0.5582 | 0.2595 | 0.4146 |
4-Running-HEST-Benchmark.ipynb のチュートリアルは、HEST-Benchmark で独自のモデルをベンチマークすることに興味のあるユーザーをガイドします。
注:コミュニティの研究者が新しいモデルを含めたい場合は、自発的な貢献が奨励されます。これを行うには、プル リクエストを作成するだけです。
推奨される通信モードは GitHub の問題を介したものです。
GitHub の問題が不適切な場合は、 [email protected]
(および cc [email protected]
) に電子メールを送信してください。
軽微な問題には即時に対応できない場合があります。
私たちの研究があなたの研究に役立つと思われる場合は、以下を引用することを検討してください。
ジャウメ、G.、ドゥセ、P.、ソング、AH、ルー、MY、アルマグロペレス、C.、ワグナー、SJ、ヴァイディア、AJ、チェン、RJ、ウィリアムソン、DFK、キム、A.、マフムード、F HEST-1k: 空間トランスクリプトミクスおよび組織学画像解析用のデータセット。神経情報処理システムの進歩、2024 年 12 月。
@inproceedings{jaume2024hest, author = {Guillaume Jaume and Paul Doucet and Andrew H. Song and Ming Y. Lu and Cristina Almagro-Perez and Sophia J. Wagner and Anurag J. Vaidya and Richard J. Chen and Drew F. K. Williamson and Ahrong Kim and Faisal Mahmood}, title = {HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis}, booktitle = {Advances in Neural Information Processing Systems}, year = {2024}, month = dec, }