[ arXiv | Datos | Documentación | Tutoriales | Citar ]
Bienvenido al repositorio oficial de GitHub de la biblioteca HEST presentado en "HEST-1k: un conjunto de datos para análisis de imágenes histológicas y transcriptómica espacial", NeurIPS Spotlight, 2024 . Este proyecto fue desarrollado por el Laboratorio Mahmood de la Facultad de Medicina de Harvard y el Hospital Brigham and Women's.
HEST-1k: acceso gratuito a HEST-1K , un conjunto de datos de 1229 muestras de transcriptómica espacial emparejadas con imágenes de diapositivas completas teñidas con HE
Biblioteca HEST: una serie de ayudas para ensamblar nuevas muestras ST (ST, Visium, Visium HD, Xenium) y trabajar con HEST-1k (análisis ST, visualización y corrección de efectos por lotes, etc.)
HEST-Benchmark: un nuevo punto de referencia para evaluar el rendimiento predictivo de los modelos básicos para histología en la predicción de la expresión genética a partir de la morfología
HEST-1k, HEST-Library y HEST-Benchmark se publican bajo la licencia internacional Attribution-NonCommercial-ShareAlike 4.0.
21.10.24 : ¡HEST ha sido aceptado en NeurIPS 2024 como Spotlight! Estaremos en Vancouver del 10 al 15 de diciembre. Envíenos un mensaje si desea obtener más información sobre HEST ([email protected]).
23.09.24 : ¡Se lanzaron 121 nuevas muestras, incluidas 27 Xenium y 7 Visium HD! También hacemos públicas las transcripciones de Xenium alineadas + las células/núcleos segmentados DAPI alineados.
30.08.24 : Se actualizaron los resultados de HEST-Benchmark. Incluye H-Optimus-0, Virchow 2, Virchow y GigaPath. Nueva tarea COAD basada en 4 muestras de Xenium. Se han actualizado los datos del banco HuggingFace.
28.08.24 : Nuevo conjunto de ayudas para visualización y corrección de efectos por lotes. Tutorial aquí.
Para descargar/consultar HEST-1k, siga el tutorial 1-Downloading-HEST-1k.ipynb o siga las instrucciones en Hugging Face.
NOTA: El conjunto de datos completo pesa más de 1 TB, pero puede descargar fácilmente un subconjunto consultando por identificación, órgano, especie...
git clone https://github.com/mahmoodlab/HEST.git cd HEST conda create -n "hest" python=3.9 conda activate hest pip install -e .
sudo apt install libvips libvips-dev openslide-tools
Si hay una GPU disponible en su máquina, le recomendamos instalar cucim en su entorno conda. (hest fue probado con cucim-cu12==24.4.0
y CUDA 12.1
)
pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12==24.6.* dask-cudf-cu12==24.6.* cucim-cu12==24.6.* raft-dask-cu12==24.6.*
NOTA: HEST-Library solo se probó en máquinas Linux/macOS; informe cualquier error en los problemas de GitHub.
Luego puede simplemente ver el conjunto de datos como,
desde hest importar iter_hestfor st en iter_hest('../hest_data', id_list=['TENX95']):print(st)
La biblioteca HEST permite ensamblar nuevas muestras usando el formato HEST e interactuar con HEST-1k. Ofrecemos dos tutoriales:
2-Interactuar-con-HEST-1k.ipynb: jugar con datos HEST para cargar parches. Incluye una descripción detallada de cada objeto scanpy.
3-Assembling-HEST-Data.ipynb: Tutorial para transformar una muestra de Visum en HEST.
5-Batch-effect-visualization.ipynb: Visualización y corrección de efectos por lotes (MNN, Harmony, ComBat).
Además, proporcionamos documentación completa.
El HEST-Benchmark fue diseñado para evaluar 11 modelos básicos de patología bajo un punto de referencia nuevo, diverso y desafiante. HEST-Benchmark incluye nueve tareas para la predicción de la expresión genética (50 genes altamente variables) a partir de la morfología (regiones de 112 x 112 um a 0,5 um/px) en nueve órganos diferentes y ocho tipos de cáncer. Proporcionamos un tutorial paso a paso para ejecutar HEST-Benchmark y reproducir nuestros resultados en 4-Running-HEST-Benchmark.ipynb.
Se utilizó HEST-Benchmark para evaluar 11 modelos disponibles públicamente. Los resultados informados se basan en una regresión Ridge con PCA (256 factores). La regresión de crestas penaliza injustamente a los modelos con dimensiones de incrustación más grandes. Para garantizar una comparación justa y objetiva entre modelos, optamos por la reducción de PCA. Rendimiento del modelo medido con correlación de Pearson. Lo mejor está en negrita y lo segundo está subrayado . En el artículo se proporcionan resultados adicionales basados en la regresión Random Forest y XGBoost.
Modelo | IDC | PRAD | PAAD | SKCM | COAD | LEER | ccRCC | LUAD | LINFA IDC | Promedio |
---|---|---|---|---|---|---|---|---|---|---|
Resnet50 | 0.4741 | 0.3075 | 0.3889 | 0.4822 | 0.2528 | 0.0812 | 0.2231 | 0.4917 | 0,2322 | 0.326 |
CTransPath | 0.511 | 0.3427 | 0.4378 | 0.5106 | 0.2285 | 0,11 | 0.2279 | 0.4985 | 0.2353 | 0.3447 |
Phikon | 0.5327 | 0.342 | 0,4432 | 0.5355 | 0.2585 | 0,1517 | 0.2423 | 0.5468 | 0.2373 | 0.3656 |
CONCHA | 0.5363 | 0.3548 | 0,4475 | 0.5791 | 0.2533 | 0.1674 | 0.2179 | 0.5312 | 0.2507 | 0.3709 |
remedios | 0.529 | 0.3471 | 0.4644 | 0.5818 | 0.2856 | 0.1145 | 0.2647 | 0.5336 | 0.2473 | 0.3742 |
Gigapath | 0.5508 | 0.3708 | 0.4768 | 0.5538 | 0.301 | 0,186 | 0.2391 | 0.5399 | 0.2493 | 0.3853 |
UNI | 0.5702 | 0.314 | 0.4764 | 0.6254 | 0.263 | 0.1762 | 0.2427 | 0.5511 | 0.2565 | 0.3862 |
Virchow | 0.5702 | 0.3309 | 0.4875 | 0.6088 | 0.311 | 0.2019 | 0.2637 | 0.5459 | 0.2594 | 0.3977 |
Virchow2 | 0.5922 | 0.3465 | 0.4661 | 0.6174 | 0.2578 | 0.2084 | 0.2788 | 0.5605 | 0.2582 | 0.3984 |
UNIv1.5 | 0.5989 | 0.3645 | 0.4902 | 0.6401 | 0.2925 | 0.2240 | 0,2522 | 0.5586 | 0.2597 | 0.4090 |
Hoptimus0 | 0.5982 | 0.385 | 0.4932 | 0.6432 | 0.2991 | 0.2292 | 0.2654 | 0.5582 | 0,2595 | 0.4146 |
Nuestro tutorial en 4-Running-HEST-Benchmark.ipynb guiará a los usuarios interesados en comparar su propio modelo en HEST-Benchmark.
Nota: Se alientan las contribuciones espontáneas si los investigadores de la comunidad desean incluir nuevos modelos. Para hacerlo, simplemente cree una solicitud de extracción.
El modo de comunicación preferido es a través de problemas de GitHub.
Si los problemas de GitHub son inapropiados, envíe un correo electrónico [email protected]
(y cc [email protected]
).
Es posible que no esté disponible una respuesta inmediata a problemas menores.
Si encuentra nuestro trabajo útil en su investigación, considere citar:
Jaume, G., Doucet, P., Song, AH, Lu, MY, Almagro-Pérez, C., Wagner, SJ, Vaidya, AJ, Chen, RJ, Williamson, DFK, Kim, A. y Mahmood, F HEST-1k: un conjunto de datos para transcriptómica espacial y análisis de imágenes histológicas. Avances en sistemas de procesamiento de información neuronal , diciembre de 2024.
@inproceedings{jaume2024hest, author = {Guillaume Jaume and Paul Doucet and Andrew H. Song and Ming Y. Lu and Cristina Almagro-Perez and Sophia J. Wagner and Anurag J. Vaidya and Richard J. Chen and Drew F. K. Williamson and Ahrong Kim and Faisal Mahmood}, title = {HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis}, booktitle = {Advances in Neural Information Processing Systems}, year = {2024}, month = dec, }