[ arXiv |数据|文档 |教程 |引用]
欢迎来到“HEST-1k:空间转录组学和组织学图像分析数据集”中介绍的 HEST-Library 的官方 GitHub 存储库,NeurIPS Spotlight,2024 年。该项目由哈佛医学院和布莱根妇女医院的 Mahmood 实验室开发。
HEST-1k:免费访问HEST-1K ,这是一个包含 1,229 个配对空间转录组样本和 HE 染色全玻片图像的数据集
HEST-Library:一系列帮助程序,用于组装新的 ST 样本(ST、Visium、Visium HD、Xenium)并与 HEST-1k 配合使用(ST 分析、批次效应即和校正等)
HEST-Benchmark:评估组织学基础模型从形态学预测基因表达的预测性能的新基准
HEST-1k、HEST-Library 和 HEST-Benchmark 根据 Attribution-NonCommercial-ShareAlike 4.0 International 许可证发布。
24.10.21 :HEST 已被 NeurIPS 2024 接受为聚光灯!我们将于12月10日至15日在温哥华。如果您想了解有关 HEST 的更多信息,请给我们发送消息 ([email protected])。
24.09.24 : 发布了 121 个新样本,其中包括 27 个 Xenium 和 7 个 Visium HD!我们还将对齐的 Xenium 转录本 + 对齐的 DAPI 分段细胞/核公开。
24.08.30 :HEST 基准测试结果已更新。包括 H-Optimus-0、Virchow 2、Virchow 和 GigaPath。基于 4 个 Xenium 样本的新 COAD 任务。 HuggingFace 基准数据已更新。
28.08.24 :用于批量效果可视化和校正的新助手集。教程在这里。
要下载/查询 HEST-1k,请按照教程 1-Downloading-HEST-1k.ipynb 或按照 Hugging Face 上的说明进行操作。
注意:整个数据集的重量超过 1TB,但您可以通过查询每个 ID、器官、物种来轻松下载子集......
git clone https://github.com/mahmoodlab/HEST.git cd HEST conda create -n "hest" python=3.9 conda activate hest pip install -e .
sudo apt install libvips libvips-dev openslide-tools
如果您的计算机上有可用的 GPU,我们建议您在 conda 环境中安装 cucim。 (用cucim-cu12==24.4.0
和CUDA 12.1
测试了 hest )
pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12==24.6.* dask-cudf-cu12==24.6.* cucim-cu12==24.6.* raft-dask-cu12==24.6.*
注意: HEST-Library 仅在 Linux/macOS 计算机上进行了测试,请在 GitHub 问题中报告任何错误。
然后您可以简单地查看数据集,
from hest import iter_hestfor st in iter_hest('../hest_data', id_list=['TENX95']):print(st)
HEST 库允许使用 HEST 格式组装新样本并与 HEST-1k交互。我们提供两个教程:
2-Interacting-with-HEST-1k.ipynb:使用 HEST 数据加载补丁。包括每个 scanpy 对象的详细描述。
3-Assembling-HEST-Data.ipynb:将 Visum 样本转换为 HEST 的演练。
5-Batch-effect-visualization.ipynb:批量效果可视化和校正(MNN、Harmony、ComBat)。
此外,我们还提供完整的文档。
HEST-Benchmark 旨在在新的、多样化且具有挑战性的基准下评估 11 个病理学基础模型。 HEST-Benchmark 包括九个不同器官和八种癌症类型中根据形态(112 x 112 um 区域,0.5 um/px)进行基因表达预测(50 个高度可变基因)的任务。我们提供了运行 HEST-Benchmark 并在 4-Running-HEST-Benchmark.ipynb 中重现结果的分步教程。
HEST-Benchmark 用于评估 11 个公开可用的模型。报告的结果基于 PCA 岭回归(256 个因子)。岭回归不公平地惩罚具有较大嵌入维度的模型。为了确保模型之间的公平和客观比较,我们选择了 PCA 缩减。通过 Pearson 相关性衡量模型性能。最好的是粗体,次好的是下划线。本文提供了基于随机森林和 XGBoost 回归的其他结果。
模型 | 国际数据中心 | 普拉德 | PAAD | SKCM | COAD | 读 | 肾细胞癌 | 卢阿德 | 淋巴IDC | 平均的 |
---|---|---|---|---|---|---|---|---|---|---|
重网50 | 0.4741 | 0.3075 | 0.3889 | 0.4822 | 0.2528 | 0.0812 | 0.2231 | 0.4917 | 0.2322 | 0.326 |
传输路径 | 0.511 | 0.3427 | 0.4378 | 0.5106 | 0.2285 | 0.11 | 0.2279 | 0.4985 | 0.2353 | 0.3447 |
飞康 | 0.5327 | 0.342 | 0.4432 | 0.5355 | 0.2585 | 0.1517 | 0.2423 | 0.5468 | 0.2373 | 0.3656 |
海螺 | 0.5363 | 0.3548 | 0.4475 | 0.5791 | 0.2533 | 0.1674 | 0.2179 | 0.5312 | 0.2507 | 0.3709 |
雷梅迪斯 | 0.529 | 0.3471 | 0.4644 | 0.5818 | 0.2856 | 0.1145 | 0.2647 | 0.5336 | 0.2473 | 0.3742 |
千兆路径 | 0.5508 | 0.3708 | 0.4768 | 0.5538 | 0.301 | 0.186 | 0.2391 | 0.5399 | 0.2493 | 0.3853 |
大学 | 0.5702 | 0.314 | 0.4764 | 0.6254 | 0.263 | 0.1762 | 0.2427 | 0.5511 | 0.2565 | 0.3862 |
维尔肖 | 0.5702 | 0.3309 | 0.4875 | 0.6088 | 0.311 | 0.2019 | 0.2637 | 0.5459 | 0.2594 | 0.3977 |
维尔肖2 | 0.5922 | 0.3465 | 0.4661 | 0.6174 | 0.2578 | 0.2084 | 0.2788 | 0.5605 | 0.2582 | 0.3984 |
大学v1.5 | 0.5989 | 0.3645 | 0.4902 | 0.6401 | 0.2925 | 0.2240 | 0.2522 | 0.5586 | 0.2597 | 0.4090 |
霍普蒂莫斯0 | 0.5982 | 0.385 | 0.4932 | 0.6432 | 0.2991 | 0.2292 | 0.2654 | 0.5582 | 0.2595 | 0.4146 |
我们在 4-Running-HEST-Benchmark.ipynb 中的教程将指导有兴趣在 HEST-Benchmark 上对自己的模型进行基准测试的用户。
注意:如果社区研究人员想要纳入新模型,我们鼓励自发贡献。为此,只需创建一个拉取请求即可。
首选的沟通方式是通过 GitHub issues。
如果 GitHub 问题不合适,请发送电子邮件[email protected]
(并抄送[email protected]
)。
可能无法立即响应小问题。
如果您发现我们的工作对您的研究有用,请考虑引用:
Jaume, G.、Doucet, P.、Song, AH、Lu, MY、Almagro-Perez, C.、Wagner, SJ、Vaidya, AJ、Chen, RJ、Williamson, DFK、Kim, A. 和 Mahmood, F . HEST-1k:用于空间转录组学和组织学图像分析的数据集。神经信息处理系统的进展,2024 年 12 月。
@inproceedings{jaume2024hest, author = {Guillaume Jaume and Paul Doucet and Andrew H. Song and Ming Y. Lu and Cristina Almagro-Perez and Sophia J. Wagner and Anurag J. Vaidya and Richard J. Chen and Drew F. K. Williamson and Ahrong Kim and Faisal Mahmood}, title = {HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis}, booktitle = {Advances in Neural Information Processing Systems}, year = {2024}, month = dec, }