[arXiv | 데이터 | 문서 | 튜토리얼 | 인용 ]
"HEST-1k: 공간 전사체학 및 조직학 이미지 분석을 위한 데이터 세트", NeurIPS Spotlight, 2024 에 소개된 HEST-Library의 공식 GitHub 저장소에 오신 것을 환영합니다. 이 프로젝트는 하버드 의과대학과 브리검 여성병원의 마흐무드 연구소(Mahmood Lab)에서 개발했습니다.
HEST-1k: HE 염색 전체 슬라이드 이미지가 포함된 1,229개의 Spatial Transcriptomics 샘플 쌍으로 구성된 데이터세트인 HEST-1K 에 대한 무료 액세스
HEST-Library: 새로운 ST 샘플(ST, Visium, Visium HD, Xenium)을 조립하고 HEST-1k(ST 분석, 배치 효과 시각화 및 수정 등) 작업을 위한 일련의 도우미입니다.
HEST-벤치마크: 형태학으로부터 유전자 발현을 예측할 때 조직학 기반 모델의 예측 성능을 평가하기 위한 새로운 벤치마크
HEST-1k, HEST-Library 및 HEST-Benchmark는 Attribution-NonCommercial-ShareAlike 4.0 International 라이센스에 따라 릴리스됩니다.
21.10.24 : HEST가 NeurIPS 2024에 Spotlight로 선정되었습니다! 우리는 12월 10일부터 15일까지 밴쿠버에 있을 예정입니다. HEST에 대해 더 자세히 알고 싶으시면 메시지를 보내주세요([email protected]).
23.09.24 : Xenium 27개, Visium HD 7개 등 121개의 새로운 샘플 출시! 또한 정렬된 Xenium 전사체 + 정렬된 DAPI 분할 세포/핵을 공개합니다.
30.08.24 : HEST-Benchmark 결과가 업데이트되었습니다. H-Optimus-0, Virchow 2, Virchow 및 GigaPath가 포함됩니다. 4개의 Xenium 샘플을 기반으로 한 새로운 COAD 작업. HuggingFace 벤치 데이터가 업데이트되었습니다.
28.08.24 : 일괄 효과 시각화 및 수정을 위한 새로운 도우미 세트입니다. 여기에 튜토리얼이 있습니다.
HEST-1k를 다운로드/쿼리하려면 1-Downloading-HEST-1k.ipynb 튜토리얼을 따르거나 Hugging Face의 지침을 따르십시오.
참고: 전체 데이터 세트의 무게는 1TB가 넘지만 ID, 기관, 종별로 쿼리하여 하위 세트를 쉽게 다운로드할 수 있습니다.
git clone https://github.com/mahmoodlab/HEST.git cd HEST conda create -n "hest" python=3.9 conda activate hest pip install -e .
sudo apt install libvips libvips-dev openslide-tools
컴퓨터에서 GPU를 사용할 수 있는 경우 conda 환경에 cucim을 설치하는 것이 좋습니다. (hest는 cucim-cu12==24.4.0
및 CUDA 12.1
로 테스트되었습니다)
pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12==24.6.* dask-cudf-cu12==24.6.* cucim-cu12==24.6.* raft-dask-cu12==24.6.*
참고: HEST-Library는 Linux/macOS 시스템에서만 테스트되었습니다. GitHub 문제에 버그가 있으면 보고해 주세요.
그런 다음 데이터 세트를 다음과 같이 간단히 볼 수 있습니다.
hest import iter_hestfor st in iter_hest('../hest_data', id_list=['TENX95']):print(st)
HEST-Library를 사용하면 HEST 형식을 사용하여 새로운 샘플을 수집 하고 HEST-1k와 상호 작용할 수 있습니다. 우리는 두 가지 튜토리얼을 제공합니다:
2-Interacting-with-HEST-1k.ipynb: 패치 로드를 위해 HEST 데이터를 가지고 놀아봅니다. 각 스캔 개체에 대한 자세한 설명이 포함되어 있습니다.
3-Assembling-HEST-Data.ipynb: Visum 샘플을 HEST로 변환하는 연습입니다.
5-Batch-효과-visualization.ipynb: 배치 효과 시각화 및 수정(MNN, Harmony, ComBat).
또한 우리는 완전한 문서를 제공합니다.
HEST-벤치마크는 새롭고 다양하며 도전적인 벤치마크 하에서 병리학에 대한 11가지 기초 모델을 평가하도록 설계되었습니다. HEST-Benchmark에는 9가지 다른 기관과 8가지 암 유형의 형태(0.5um/px에서 112 x 112um 영역)를 통한 유전자 발현 예측(가변성이 높은 유전자 50개)을 위한 9가지 작업이 포함되어 있습니다. HEST-Benchmark를 실행하고 결과를 4-Running-HEST-Benchmark.ipynb에 재현하는 단계별 튜토리얼을 제공합니다.
HEST-Benchmark는 공개적으로 사용 가능한 11개 모델을 평가하는 데 사용되었습니다. 보고된 결과는 PCA(256개 요인)를 사용한 능형 회귀 분석을 기반으로 합니다. 능선 회귀는 임베딩 치수가 더 큰 모델에 부당하게 불이익을 줍니다. 모델 간 공정하고 객관적인 비교를 보장하기 위해 PCA 감소를 선택했습니다. Pearson 상관관계를 통해 측정된 모델 성능. 최고는 굵은 글씨 로, 두 번째는 밑줄이 그어져 있습니다. Random Forest 및 XGBoost 회귀를 기반으로 한 추가 결과가 논문에 제공됩니다.
모델 | IDC | 프라드 | PAAD | SKCM | COAD | 읽다 | ccRCC | 루아드 | 림프 IDC | 평균 |
---|---|---|---|---|---|---|---|---|---|---|
Resnet50 | 0.4741 | 0.3075 | 0.3889 | 0.4822 | 0.2528 | 0.0812 | 0.2231 | 0.4917 | 0.2322 | 0.326 |
CTransPath | 0.511 | 0.3427 | 0.4378 | 0.5106 | 0.2285 | 0.11 | 0.2279 | 0.4985 | 0.2353 | 0.3447 |
피콘 | 0.5327 | 0.342 | 0.4432 | 0.5355 | 0.2585 | 0.1517 | 0.2423 | 0.5468 | 0.2373 | 0.3656 |
조가비 | 0.5363 | 0.3548 | 0.4475 | 0.5791 | 0.2533 | 0.1674 | 0.2179 | 0.5312 | 0.2507 | 0.3709 |
구제책 | 0.529 | 0.3471 | 0.4644 | 0.5818 | 0.2856 | 0.1145 | 0.2647 | 0.5336 | 0.2473 | 0.3742 |
기가패스 | 0.5508 | 0.3708 | 0.4768 | 0.5538 | 0.301 | 0.186 | 0.2391 | 0.5399 | 0.2493 | 0.3853 |
유니 | 0.5702 | 0.314 | 0.4764 | 0.6254 | 0.263 | 0.1762 | 0.2427 | 0.5511 | 0.2565 | 0.3862 |
비르호프 | 0.5702 | 0.3309 | 0.4875 | 0.6088 | 0.311 | 2019년 0월 | 0.2637 | 0.5459 | 0.2594 | 0.3977 |
Virchow2 | 0.5922 | 0.3465 | 0.4661 | 0.6174 | 0.2578 | 0.2084 | 0.2788 | 0.5605 | 0.2582 | 0.3984 |
UNIv1.5 | 0.5989 | 0.3645 | 0.4902 | 0.6401 | 0.2925 | 0.2240 | 0.2522 | 0.5586 | 0.2597 | 0.4090 |
Hoptimus0 | 0.5982 | 0.385 | 0.4932 | 0.6432 | 0.2991 | 0.2292 | 0.2654 | 0.5582 | 0.2595 | 0.4146 |
4-Running-HEST-Benchmark.ipynb의 튜토리얼은 HEST-Benchmark에서 자신의 모델을 벤치마킹하는 데 관심이 있는 사용자를 안내합니다.
참고: 커뮤니티의 연구자가 새로운 모델을 포함하려는 경우 자발적인 기여가 권장됩니다. 그렇게 하려면 간단히 Pull Request를 생성하면 됩니다.
선호되는 통신 모드는 GitHub 문제를 통한 것입니다.
GitHub 문제가 부적절한 경우 [email protected]
(및 참조 [email protected]
)로 이메일을 보내세요.
사소한 문제에 대해서는 즉각적인 대응이 불가능할 수 있습니다.
귀하의 연구에 우리의 연구가 유용하다고 생각되면 다음을 인용해 보십시오.
Jaume, G., Doucet, P., Song, AH, Lu, MY, Almagro-Perez, C., Wagner, SJ, Vaidya, AJ, Chen, RJ, Williamson, DFK, Kim, A., & Mahmood, F HEST-1k: 공간 전사체학 및 조직학 이미지 분석을 위한 데이터 세트. 신경 정보 처리 시스템의 발전 , 2024년 12월.
@inproceedings{jaume2024hest, author = {Guillaume Jaume and Paul Doucet and Andrew H. Song and Ming Y. Lu and Cristina Almagro-Perez and Sophia J. Wagner and Anurag J. Vaidya and Richard J. Chen and Drew F. K. Williamson and Ahrong Kim and Faisal Mahmood}, title = {HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis}, booktitle = {Advances in Neural Information Processing Systems}, year = {2024}, month = dec, }