[ arXiv |數據|文檔 |教程 |引用]
歡迎來到「HEST-1k:空間轉錄組學和組織學影像分析資料集」中介紹的 HEST-Library 的官方 GitHub 儲存庫,NeurIPS Spotlight,2024 年。該計畫由哈佛醫學院和布萊根婦女醫院的 Mahmood 實驗室開發。
HEST-1k:免費存取HEST-1K ,這是一個包含 1,229 個配對空間轉錄組樣本和 HE 染色全玻片影像的資料集
HEST-Library:一系列幫助程序,用於組裝新的 ST 樣本(ST、Visium、Visium HD、Xenium)並與 HEST-1k 配合使用(ST 分析、批次效應即和校正等)
HEST-Benchmark:評估組織學基礎模型從形態學預測基因表現的預測性能的新基準
HEST-1k、HEST-Library 和 HEST-Benchmark 根據 Attribution-NonCommercial-ShareAlike 4.0 International 許可證發布。
24.10.21 :HEST 已被 NeurIPS 2024 接受為聚光燈!我們將於12月10日至15日在溫哥華。如果您想了解有關 HEST 的更多信息,請給我們發送訊息 ([email protected])。
24.09.24 : 發布了 121 個新樣本,其中包括 27 個 Xenium 和 7 個 Visium HD!我們也將對齊的 Xenium 轉錄本 + 對齊的 DAPI 分段細胞/核公開。
24.08.30 :HEST 基準測試結果已更新。包括 H-Optimus-0、Virchow 2、Virchow 和 GigaPath。基於 4 個 Xenium 樣本的新 COAD 任務。 HuggingFace 基準資料已更新。
28.08.24 :用於批量效果視覺化和校正的新助手集。教程在這裡。
要下載/查詢 HEST-1k,請按照教程 1-Downloading-HEST-1k.ipynb 或按照 Hugging Face 上的說明進行操作。
注意:整個資料集的重量超過 1TB,但您可以透過查詢每個 ID、器官、物種來輕鬆下載子集...
git clone https://github.com/mahmoodlab/HEST.git cd HEST conda create -n "hest" python=3.9 conda activate hest pip install -e .
sudo apt install libvips libvips-dev openslide-tools
如果您的電腦上有可用的 GPU,我們建議您在 conda 環境中安裝 cucim。 (用cucim-cu12==24.4.0
和CUDA 12.1
測試了 hest )
pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12==24.6.* dask-cudf-cu12==24.6.* cucim-cu12==24.6.* raft-dask-cu12==24.6.*
注意: HEST-Library 僅在 Linux/macOS 電腦上進行了測試,請在 GitHub 問題中報告任何錯誤。
然後您可以簡單地查看資料集,
from hest import iter_hestfor st in iter_hest('../hest_data', id_list=['TENX95']):print(st)
HEST 庫允許使用 HEST 格式組裝新樣本並與 HEST-1k互動。我們提供兩個教學:
2-Interacting-with-HEST-1k.ipynb:使用 HEST 資料載入補丁。包括每個 scanpy 物件的詳細描述。
3-Assembling-HEST-Data.ipynb:將 Visum 樣本轉換為 HEST 的演練。
5-Batch-effect-visualization.ipynb:批次效果視覺化和校正(MNN、Harmony、ComBat)。
此外,我們也提供完整的文件。
HEST-Benchmark 旨在在新的、多樣化且具有挑戰性的基準下評估 11 個病理學基礎模型。 HEST-Benchmark 包括九個不同器官和八種癌症類型中根據形態(112 x 112 um 區域,0.5 um/px)進行基因表現預測(50 個高度可變基因)的任務。我們提供了運行 HEST-Benchmark 並在 4-Running-HEST-Benchmark.ipynb 中重現結果的逐步教程。
HEST-Benchmark 用於評估 11 個公開可用的模型。報告的結果是基於 PCA 嶺回歸(256 個因子)。嶺迴歸不公平地懲罰具有較大嵌入維度的模型。為了確保模型之間的公平和客觀比較,我們選擇了 PCA 縮減。以 Pearson 相關性衡量模型表現。最好的是粗體,次好的是底線。本文提供了基於隨機森林和 XGBoost 迴歸的其他結果。
模型 | 國際資料中心 | 普拉德 | PAAD | SKCM | COAD | 讀 | 腎臟細胞癌 | 盧阿德 | 淋巴IDC | 平均的 |
---|---|---|---|---|---|---|---|---|---|---|
重網50 | 0.4741 | 0.3075 | 0.3889 | 0.4822 | 0.2528 | 0.0812 | 0.2231 | 0.4917 | 0.2322 | 0.326 |
傳輸路徑 | 0.511 | 0.3427 | 0.4378 | 0.5106 | 0.2285 | 0.11 | 0.2279 | 0.4985 | 0.2353 | 0.3447 |
飛康 | 0.5327 | 0.342 | 0.4432 | 0.5355 | 0.2585 | 0.1517 | 0.2423 | 0.5468 | 0.2373 | 0.3656 |
海螺 | 0.5363 | 0.3548 | 0.4475 | 0.5791 | 0.2533 | 0.1674 | 0.2179 | 0.5312 | 0.2507 | 0.3709 |
雷梅迪斯 | 0.529 | 0.3471 | 0.4644 | 0.5818 | 0.2856 | 0.1145 | 0.2647 | 0.5336 | 0.2473 | 0.3742 |
千兆路徑 | 0.5508 | 0.3708 | 0.4768 | 0.5538 | 0.301 | 0.186 | 0.2391 | 0.5399 | 0.2493 | 0.3853 |
大學 | 0.5702 | 0.314 | 0.4764 | 0.6254 | 0.263 | 0.1762 | 0.2427 | 0.5511 | 0.2565 | 0.3862 |
維爾肖 | 0.5702 | 0.3309 | 0.4875 | 0.6088 | 0.311 | 0.2019 | 0.2637 | 0.5459 | 0.2594 | 0.3977 |
維爾肖2 | 0.5922 | 0.3465 | 0.4661 | 0.6174 | 0.2578 | 0.2084 | 0.2788 | 0.5605 | 0.2582 | 0.3984 |
大學v1.5 | 0.5989 | 0.3645 | 0.4902 | 0.6401 | 0.2925 | 0.2240 | 0.2522 | 0.5586 | 0.2597 | 0.4090 |
霍普蒂莫斯0 | 0.5982 | 0.385 | 0.4932 | 0.6432 | 0.2991 | 0.2292 | 0.2654 | 0.5582 | 0.2595 | 0.4146 |
我們在 4-Running-HEST-Benchmark.ipynb 中的教程將指導有興趣在 HEST-Benchmark 上對自己的模型進行基準測試的用戶。
注意:如果社區研究人員想要納入新模型,我們鼓勵自發性貢獻。為此,只需建立一個拉取請求即可。
首選的溝通方式是透過 GitHub issues。
如果 GitHub 問題不合適,請發送電子郵件[email protected]
(並抄送[email protected]
)。
可能無法立即回應小問題。
如果您發現我們的工作對您的研究有用,請考慮引用:
Jaume, G.、Doucet, P.、Song, AH、Lu, MY、Almagro-Perez, C.、Wagner, SJ、Vaidya, AJ、Chen, RJ、Williamson, DFK、Kim, A. 和 Mahmood, F . HEST-1k:用於空間轉錄組學和組織學影像分析的資料集。神經資訊處理系統的進展,2024 年 12 月。
@inproceedings{jaume2024hest, author = {Guillaume Jaume and Paul Doucet and Andrew H. Song and Ming Y. Lu and Cristina Almagro-Perez and Sophia J. Wagner and Anurag J. Vaidya and Richard J. Chen and Drew F. K. Williamson and Ahrong Kim and Faisal Mahmood}, title = {HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis}, booktitle = {Advances in Neural Information Processing Systems}, year = {2024}, month = dec, }