[ arXiv | Données | Documents | Tutoriels | Citer ]
Bienvenue dans le référentiel GitHub officiel de la bibliothèque HEST introduite dans « HEST-1k : A Dataset for Spatial Transcriptomics and Histology Image Analysis », NeurIPS Spotlight, 2024 . Ce projet a été développé par le Mahmood Lab de la Harvard Medical School et du Brigham and Women's Hospital.
HEST-1k : accès gratuit à HEST-1K , un ensemble de données de 1 229 échantillons de transcriptomique spatiale appariés avec des images de diapositives entières colorées à l'HE
Bibliothèque HEST : Une série d'aides pour assembler de nouveaux échantillons ST (ST, Visium, Visium HD, Xenium) et travailler avec HEST-1k (analyse ST, visualisation et correction des effets par lots, etc.)
HEST-Benchmark : un nouveau benchmark pour évaluer les performances prédictives des modèles de base pour l'histologie dans la prédiction de l'expression des gènes à partir de la morphologie
HEST-1k, HEST-Library et HEST-Benchmark sont publiés sous la licence internationale Attribution-NonCommercial-ShareAlike 4.0.
21.10.24 : HEST a été accepté au NeurIPS 2024 comme Spotlight ! Nous serons à Vancouver du 10 au 15 décembre. Envoyez-nous un message si vous souhaitez en savoir plus sur HEST ([email protected]).
23.09.24 : 121 nouveaux samples sortis, dont 27 Xenium et 7 Visium HD ! Nous rendons également publics les transcrits Xenium alignés + les cellules/noyaux segmentés DAPI alignés.
30.08.24 : Mise à jour des résultats du HEST-Benchmark. Comprend H-Optimus-0, Virchow 2, Virchow et GigaPath. Nouvelle tâche COAD basée sur 4 échantillons Xenium. Les données du banc HuggingFace ont été mises à jour.
28.08.24 : Nouvel ensemble d'aides pour la visualisation et la correction des effets batch. Tutoriel ici.
Pour télécharger/interroger HEST-1k, suivez le tutoriel 1-Downloading-HEST-1k.ipynb ou suivez les instructions sur Hugging Face.
REMARQUE : L'ensemble de données complet pèse plus de 1 To, mais vous pouvez facilement télécharger un sous-ensemble en interrogeant par identifiant, organe, espèce...
git clone https://github.com/mahmoodlab/HEST.git cd HEST conda create -n "hest" python=3.9 conda activate hest pip install -e .
sudo apt install libvips libvips-dev openslide-tools
Si un GPU est disponible sur votre machine, nous vous recommandons d'installer cucim sur votre environnement conda. (hest a été testé avec cucim-cu12==24.4.0
et CUDA 12.1
)
pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12==24.6.* dask-cudf-cu12==24.6.* cucim-cu12==24.6.* raft-dask-cu12==24.6.*
REMARQUE : HEST-Library a été testé uniquement sur des machines Linux/macOS, veuillez signaler tout bug dans les problèmes GitHub.
Vous pouvez alors simplement visualiser l'ensemble de données comme suit :
from hest import iter_hestfor st in iter_hest('../hest_data', id_list=['TENX95']):print(st)
La bibliothèque HEST permet d'assembler de nouveaux échantillons en utilisant le format HEST et d'interagir avec HEST-1k. Nous proposons deux tutoriels :
2-Interagir avec HEST-1k.ipynb : jouer avec les données HEST pour charger les correctifs. Comprend une description détaillée de chaque objet scanpy.
3-Assembling-HEST-Data.ipynb : Procédure pas à pas pour transformer un échantillon Visum en HEST.
5-Batch-effect-visualization.ipynb : Visualisation et correction des effets par lots (MNN, Harmony, ComBat).
De plus, nous fournissons une documentation complète.
Le HEST-Benchmark a été conçu pour évaluer 11 modèles fondamentaux de pathologie selon un nouveau référentiel diversifié et stimulant. HEST-Benchmark comprend neuf tâches de prédiction de l'expression génique (50 gènes hautement variables) à partir de la morphologie (régions de 112 x 112 um à 0,5 um/px) dans neuf organes différents et huit types de cancer. Nous fournissons un didacticiel étape par étape pour exécuter HEST-Benchmark et reproduisons nos résultats dans 4-Running-HEST-Benchmark.ipynb.
HEST-Benchmark a été utilisé pour évaluer 11 modèles accessibles au public. Les résultats rapportés sont basés sur une régression Ridge avec PCA (256 facteurs). La régression Ridge pénalise injustement les modèles avec des dimensions d'intégration plus grandes. Pour garantir une comparaison juste et objective entre les modèles, nous avons opté pour la réduction PCA. Performances du modèle mesurées avec la corrélation de Pearson. Le meilleur est en gras , le deuxième est souligné . Des résultats supplémentaires basés sur la régression Random Forest et XGBoost sont fournis dans l'article.
Modèle | IDC | PRAD | PAAD | SKCM | COAD | LIRE | ccRCC | LUAD | LYMPHE IDC | Moyenne |
---|---|---|---|---|---|---|---|---|---|---|
Resnet50 | 0,4741 | 0,3075 | 0,3889 | 0,4822 | 0,2528 | 0,0812 | 0,2231 | 0,4917 | 0,2322 | 0,326 |
CTransPath | 0,511 | 0,3427 | 0,4378 | 0,5106 | 0,2285 | 0,11 | 0,2279 | 0,4985 | 0,2353 | 0,3447 |
Phikon | 0,5327 | 0,342 | 0,4432 | 0,5355 | 0,2585 | 0,1517 | 0,2423 | 0,5468 | 0,2373 | 0,3656 |
CONQUE | 0,5363 | 0,3548 | 0,4475 | 0,5791 | 0,2533 | 0,1674 | 0,2179 | 0,5312 | 0,2507 | 0,3709 |
Remèdes | 0,529 | 0,3471 | 0,4644 | 0,5818 | 0,2856 | 0,1145 | 0,2647 | 0,5336 | 0,2473 | 0,3742 |
Gigapathe | 0,5508 | 0,3708 | 0,4768 | 0,5538 | 0,301 | 0,186 | 0,2391 | 0,5399 | 0,2493 | 0,3853 |
UNI | 0,5702 | 0,314 | 0,4764 | 0,6254 | 0,263 | 0,1762 | 0,2427 | 0,5511 | 0,2565 | 0,3862 |
Virchow | 0,5702 | 0,3309 | 0,4875 | 0,6088 | 0,311 | 0,2019 | 0,2637 | 0,5459 | 0,2594 | 0,3977 |
Virchow2 | 0,5922 | 0,3465 | 0,4661 | 0,6174 | 0,2578 | 0,2084 | 0,2788 | 0,5605 | 0,2582 | 0,3984 |
UNIv1.5 | 0,5989 | 0,3645 | 0,4902 | 0,6401 | 0,2925 | 0,2240 | 0,2522 | 0,5586 | 0,2597 | 0,4090 |
Hoptimus0 | 0,5982 | 0,385 | 0,4932 | 0,6432 | 0,2991 | 0,2292 | 0,2654 | 0,5582 | 0,2595 | 0,4146 |
Notre tutoriel dans 4-Running-HEST-Benchmark.ipynb guidera les utilisateurs intéressés à comparer leur propre modèle sur HEST-Benchmark.
Remarque : Les contributions spontanées sont encouragées si les chercheurs de la communauté souhaitent inclure de nouveaux modèles. Pour ce faire, créez simplement une Pull Request.
Le mode de communication préféré est via les problèmes GitHub.
Si les problèmes GitHub sont inappropriés, envoyez un e-mail [email protected]
(et cc [email protected]
).
Une réponse immédiate aux problèmes mineurs peut ne pas être disponible.
Si vous trouvez notre travail utile dans votre recherche, pensez à citer :
Jaume, G., Doucet, P., Song, AH, Lu, MY, Almagro-Perez, C., Wagner, SJ, Vaidya, AJ, Chen, RJ, Williamson, DFK, Kim, A. et Mahmood, F. HEST-1k : un ensemble de données pour la transcriptomique spatiale et l'analyse d'images histologiques. Avancées dans les systèmes de traitement de l'information neuronale , décembre 2024.
@inproceedings{jaume2024hest, author = {Guillaume Jaume and Paul Doucet and Andrew H. Song and Ming Y. Lu and Cristina Almagro-Perez and Sophia J. Wagner and Anurag J. Vaidya and Richard J. Chen and Drew F. K. Williamson and Ahrong Kim and Faisal Mahmood}, title = {HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis}, booktitle = {Advances in Neural Information Processing Systems}, year = {2024}, month = dec, }