[ arXiv | Daten | Dokumentation | Tutorials | Zitieren]
Willkommen im offiziellen GitHub-Repository der HEST-Bibliothek, eingeführt in „HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis“, NeurIPS Spotlight, 2024 . Dieses Projekt wurde vom Mahmood Lab der Harvard Medical School und dem Brigham and Women's Hospital entwickelt.
HEST-1k: Freier Zugang zu HEST-1K , einem Datensatz von 1.229 gepaarten Spatial Transcriptomics-Proben mit HE-gefärbten Bildern ganzer Objektträger
HEST-Bibliothek: Eine Reihe von Helfern zum Zusammenstellen neuer ST-Proben (ST, Visium, Visium HD, Xenium) und zum Arbeiten mit HEST-1k (ST-Analyse, Batch-Effekt-Visualisierung und -Korrektur usw.)
HEST-Benchmark: Ein neuer Benchmark zur Bewertung der Vorhersageleistung von Basismodellen für die Histologie bei der Vorhersage der Genexpression anhand der Morphologie
HEST-1k, HEST-Library und HEST-Benchmark werden unter der Lizenz Attribution-NonCommercial-ShareAlike 4.0 International veröffentlicht.
21.10.24 : HEST wurde als Spotlight in NeurIPS 2024 aufgenommen! Wir werden vom 10. bis 15. Dezember in Vancouver sein. Senden Sie uns eine Nachricht, wenn Sie mehr über HEST erfahren möchten ([email protected]).
23.09.24 : 121 neue Samples veröffentlicht, darunter 27 Xenium und 7 Visium HD! Wir machen auch die ausgerichteten Xenium-Transkripte + die ausgerichteten DAPI-segmentierten Zellen/Kerne öffentlich.
30.08.24 : HEST-Benchmark-Ergebnisse aktualisiert. Beinhaltet H-Optimus-0, Virchow 2, Virchow und GigaPath. Neue COAD-Aufgabe basierend auf 4 Xenium-Beispielen. Die Daten der HuggingFace-Bank wurden aktualisiert.
28.08.24 : Neue Reihe von Helfern für die Visualisierung und Korrektur von Batch-Effekten. Anleitung hier.
Um HEST-1k herunterzuladen/abzufragen, befolgen Sie das Tutorial 1-Downloading-HEST-1k.ipynb oder folgen Sie den Anweisungen zu Hugging Face.
HINWEIS: Der gesamte Datensatz wiegt mehr als 1 TB, Sie können jedoch problemlos einen Teilsatz herunterladen, indem Sie nach ID, Organ, Art usw. abfragen.
git clone https://github.com/mahmoodlab/HEST.git cd HEST conda create -n "hest" python=3.9 conda activate hest pip install -e .
sudo apt install libvips libvips-dev openslide-tools
Wenn auf Ihrem Computer eine GPU verfügbar ist, empfehlen wir die Installation von cucim in Ihrer Conda-Umgebung. (hest wurde mit cucim-cu12==24.4.0
und CUDA 12.1
getestet)
pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12==24.6.* dask-cudf-cu12==24.6.* cucim-cu12==24.6.* raft-dask-cu12==24.6.*
HINWEIS: Die HEST-Bibliothek wurde nur auf Linux-/macOS-Maschinen getestet. Bitte melden Sie alle Fehler in den GitHub-Problemen.
Sie können den Datensatz dann einfach wie folgt anzeigen:
from hest import iter_hestfor st in iter_hest('../hest_data', id_list=['TENX95']):print(st)
Die HEST-Bibliothek ermöglicht die Zusammenstellung neuer Samples im HEST-Format und die Interaktion mit HEST-1k. Wir bieten zwei Tutorials an:
2-Interacting-with-HEST-1k.ipynb: Herumspielen mit HEST-Daten zum Laden von Patches. Enthält eine detaillierte Beschreibung jedes Scanpy-Objekts.
3-Assembling-HEST-Data.ipynb: Exemplarische Vorgehensweise zur Umwandlung einer Visum-Probe in HEST.
5-Batch-effect-visualization.ipynb: Visualisierung und Korrektur von Batch-Effekten (MNN, Harmony, ComBat).
Darüber hinaus stellen wir eine vollständige Dokumentation zur Verfügung.
Der HEST-Benchmark wurde entwickelt, um 11 Grundmodelle für die Pathologie unter einem neuen, vielfältigen und herausfordernden Benchmark zu bewerten. HEST-Benchmark umfasst neun Aufgaben zur Vorhersage der Genexpression (50 hochvariable Gene) aus der Morphologie (112 x 112 µm-Regionen bei 0,5 µm/Pixel) in neun verschiedenen Organen und acht Krebsarten. Wir bieten eine Schritt-für-Schritt-Anleitung zum Ausführen von HEST-Benchmark und zum Reproduzieren unserer Ergebnisse in 4-Running-HEST-Benchmark.ipynb.
Mit HEST-Benchmark wurden 11 öffentlich verfügbare Modelle bewertet. Die gemeldeten Ergebnisse basieren auf einer Ridge-Regression mit PCA (256 Faktoren). Die Ridge-Regression bestraft zu Unrecht Modelle mit größeren Einbettungsdimensionen. Um einen fairen und objektiven Vergleich zwischen den Modellen zu gewährleisten, haben wir uns für die PCA-Reduktion entschieden. Modellleistung gemessen mit Pearson-Korrelation. Das Beste ist fett , das Zweitbeste ist unterstrichen . Weitere Ergebnisse basierend auf Random Forest und XGBoost-Regression werden im Artikel bereitgestellt.
Modell | IDC | PRAD | PAAD | SKCM | COAD | LESEN | ccRCC | LUAD | LYMPHE IDC | Durchschnitt |
---|---|---|---|---|---|---|---|---|---|---|
Resnet50 | 0,4741 | 0,3075 | 0,3889 | 0,4822 | 0,2528 | 0,0812 | 0,2231 | 0,4917 | 0,2322 | 0,326 |
CTransPath | 0,511 | 0,3427 | 0,4378 | 0,5106 | 0,2285 | 0,11 | 0,2279 | 0,4985 | 0,2353 | 0,3447 |
Phikon | 0,5327 | 0,342 | 0,4432 | 0,5355 | 0,2585 | 0,1517 | 0,2423 | 0,5468 | 0,2373 | 0,3656 |
CONCH | 0,5363 | 0,3548 | 0,4475 | 0,5791 | 0,2533 | 0,1674 | 0,2179 | 0,5312 | 0,2507 | 0,3709 |
Heilmittel | 0,529 | 0,3471 | 0,4644 | 0,5818 | 0,2856 | 0,1145 | 0,2647 | 0,5336 | 0,2473 | 0,3742 |
Gigapath | 0,5508 | 0,3708 | 0,4768 | 0,5538 | 0,301 | 0,186 | 0,2391 | 0,5399 | 0,2493 | 0,3853 |
UNI | 0,5702 | 0,314 | 0,4764 | 0,6254 | 0,263 | 0,1762 | 0,2427 | 0,5511 | 0,2565 | 0,3862 |
Virchow | 0,5702 | 0,3309 | 0,4875 | 0,6088 | 0,311 | 0.2019 | 0,2637 | 0,5459 | 0,2594 | 0,3977 |
Virchow2 | 0,5922 | 0,3465 | 0,4661 | 0,6174 | 0,2578 | 0,2084 | 0,2788 | 0,5605 | 0,2582 | 0,3984 |
UNIv1.5 | 0,5989 | 0,3645 | 0,4902 | 0,6401 | 0,2925 | 0,2240 | 0,2522 | 0,5586 | 0,2597 | 0,4090 |
Hoptimus0 | 0,5982 | 0,385 | 0,4932 | 0,6432 | 0,2991 | 0,2292 | 0,2654 | 0,5582 | 0,2595 | 0,4146 |
Unser Tutorial in 4-Running-HEST-Benchmark.ipynb hilft Benutzern, die daran interessiert sind, ihr eigenes Modell auf HEST-Benchmark zu vergleichen.
Hinweis: Spontane Beiträge sind willkommen, wenn Forscher aus der Community neue Modelle einbeziehen möchten. Erstellen Sie dazu einfach einen Pull Request.
Der bevorzugte Kommunikationsweg erfolgt über GitHub-Ausgaben.
Wenn GitHub-Probleme unangemessen sind, senden Sie eine E-Mail an [email protected]
(und cc [email protected]
).
Eine sofortige Antwort auf kleinere Probleme ist möglicherweise nicht verfügbar.
Wenn Sie unsere Arbeit für Ihre Forschung nützlich finden, denken Sie bitte darüber nach, Folgendes zu zitieren:
Jaume, G., Doucet, P., Song, AH, Lu, MY, Almagro-Perez, C., Wagner, SJ, Vaidya, AJ, Chen, RJ, Williamson, DFK, Kim, A. & Mahmood, F . HEST-1k: Ein Datensatz für die räumliche Transkriptomik und Histologie-Bildanalyse. Fortschritte in neuronalen Informationsverarbeitungssystemen , Dezember 2024.
@inproceedings{jaume2024hest, author = {Guillaume Jaume and Paul Doucet and Andrew H. Song and Ming Y. Lu and Cristina Almagro-Perez and Sophia J. Wagner and Anurag J. Vaidya and Richard J. Chen and Drew F. K. Williamson and Ahrong Kim and Faisal Mahmood}, title = {HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis}, booktitle = {Advances in Neural Information Processing Systems}, year = {2024}, month = dec, }