[ arXiv | Dados | Documentação | Tutoriais | Citar]
Bem-vindo ao repositório oficial GitHub da biblioteca HEST apresentada em "HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis", NeurIPS Spotlight, 2024 . Este projeto foi desenvolvido pelo Mahmood Lab da Harvard Medical School e pelo Brigham and Women's Hospital.
HEST-1k: Acesso gratuito ao HEST-1K , um conjunto de dados de 1.229 amostras emparelhadas de Transcriptômica Espacial com imagens de slides inteiras coradas com HE
Biblioteca HEST: Uma série de ajudantes para montar novas amostras de ST (ST, Visium, Visium HD, Xenium) e trabalhar com HEST-1k (análise de ST, visualização e correção de efeitos em lote, etc.)
HEST-Benchmark: Um novo benchmark para avaliar o desempenho preditivo de modelos básicos para histologia na previsão da expressão gênica a partir da morfologia
HEST-1k, HEST-Library e HEST-Benchmark são lançados sob a licença Attribution-NonCommercial-ShareAlike 4.0 International.
21.10.24 : HEST foi aceito no NeurIPS 2024 como Destaque! Estaremos em Vancouver de 10 a 15 de dezembro. Envie-nos uma mensagem se quiser saber mais sobre o HEST ([email protected]).
23.09.24 : 121 novas amostras lançadas, incluindo 27 Xenium e 7 Visium HD! Também tornamos públicas as transcrições alinhadas do Xenium + as células/núcleos segmentados DAPI alinhados.
30.08.24 : Resultados do HEST-Benchmark atualizados. Inclui H-Optimus-0, Virchow 2, Virchow e GigaPath. Nova tarefa COAD baseada em 4 amostras Xenium. Os dados do banco HuggingFace foram atualizados.
28.08.24 : Novo conjunto de auxiliares para visualização e correção de efeitos em lote. Tutorial aqui.
Para baixar/consultar o HEST-1k, siga o tutorial 1-Downloading-HEST-1k.ipynb ou siga as instruções em Hugging Face.
NOTA: Todo o conjunto de dados pesa mais de 1 TB, mas você pode facilmente baixar um subconjunto consultando por id, órgão, espécie...
git clone https://github.com/mahmoodlab/HEST.git cd HEST conda create -n "hest" python=3.9 conda activate hest pip install -e .
sudo apt install libvips libvips-dev openslide-tools
Se uma GPU estiver disponível em sua máquina, recomendamos instalar o cucim em seu ambiente conda. (hest foi testado com cucim-cu12==24.4.0
e CUDA 12.1
)
pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12==24.6.* dask-cudf-cu12==24.6.* cucim-cu12==24.6.* raft-dask-cu12==24.6.*
NOTA: A biblioteca HEST foi testada apenas em máquinas Linux/macOS. Por favor, relate quaisquer bugs nos problemas do GitHub.
Você pode então simplesmente visualizar o conjunto de dados como,
de hest importar iter_hestfor st em iter_hest('../hest_data', id_list=['TENX95']):print(st)
A Biblioteca HEST permite montar novas amostras usando o formato HEST e interagir com HEST-1k. Fornecemos dois tutoriais:
2-Interacting-with-HEST-1k.ipynb: Brincando com dados HEST para carregar patches. Inclui uma descrição detalhada de cada objeto scanpy.
3-Assembling-HEST-Data.ipynb: Passo a passo para transformar uma amostra Visum em HEST.
5-Batch-effect-visualization.ipynb: Visualização e correção de efeitos em lote (MNN, Harmony, ComBat).
Além disso, fornecemos documentação completa.
O HEST-Benchmark foi projetado para avaliar 11 modelos básicos para patologia sob um benchmark novo, diversificado e desafiador. O HEST-Benchmark inclui nove tarefas para previsão de expressão gênica (50 genes altamente variáveis) a partir da morfologia (regiões de 112 x 112 um a 0,5 um/px) em nove órgãos diferentes e oito tipos de câncer. Fornecemos um tutorial passo a passo para executar o HEST-Benchmark e reproduzir nossos resultados em 4-Running-HEST-Benchmark.ipynb.
O HEST-Benchmark foi utilizado para avaliar 11 modelos disponíveis publicamente. Os resultados relatados são baseados em uma regressão Ridge com PCA (256 fatores). A regressão Ridge penaliza injustamente modelos com dimensões de incorporação maiores. Para garantir uma comparação justa e objetiva entre os modelos, optamos pela redução do PCA. Desempenho do modelo medido com correlação de Pearson. O melhor está em negrito , o segundo melhor está sublinhado . Resultados adicionais baseados na regressão Random Forest e XGBoost são fornecidos no artigo.
Modelo | CDI | PRAD | PAAD | SKCM | COAD | LER | ccRCC | LUAD | LINFA IDC | Média |
---|---|---|---|---|---|---|---|---|---|---|
Resnet50 | 0,4741 | 0,3075 | 0,3889 | 0,4822 | 0,2528 | 0,0812 | 0,2231 | 0,4917 | 0,2322 | 0,326 |
CTransPath | 0,511 | 0,3427 | 0,4378 | 0,5106 | 0,2285 | 0,11 | 0,2279 | 0,4985 | 0,2353 | 0,3447 |
Phikon | 0,5327 | 0,342 | 0,4432 | 0,5355 | 0,2585 | 0,1517 | 0,2423 | 0,5468 | 0,2373 | 0,3656 |
BÚCOA | 0,5363 | 0,3548 | 0,4475 | 0,5791 | 0,2533 | 0,1674 | 0,2179 | 0,5312 | 0,2507 | 0,3709 |
Remédios | 0,529 | 0,3471 | 0,4644 | 0,5818 | 0,2856 | 0,1145 | 0,2647 | 0,5336 | 0,2473 | 0,3742 |
Gigapata | 0,5508 | 0,3708 | 0,4768 | 0,5538 | 0,301 | 0,186 | 0,2391 | 0,5399 | 0,2493 | 0,3853 |
UNI | 0,5702 | 0,314 | 0,4764 | 0,6254 | 0,263 | 0,1762 | 0,2427 | 0,5511 | 0,2565 | 0,3862 |
Virchow | 0,5702 | 0,3309 | 0,4875 | 0,6088 | 0,311 | 0,2019 | 0,2637 | 0,5459 | 0,2594 | 0,3977 |
Virchow2 | 0,5922 | 0,3465 | 0,4661 | 0,6174 | 0,2578 | 0,2084 | 0,2788 | 0,5605 | 0,2582 | 0,3984 |
UNIv1.5 | 0,5989 | 0,3645 | 0,4902 | 0,6401 | 0,2925 | 0,2240 | 0,2522 | 0,5586 | 0,2597 | 0,4090 |
Hoptimus0 | 0,5982 | 0,385 | 0,4932 | 0,6432 | 0,2991 | 0,2292 | 0,2654 | 0,5582 | 0,2595 | 0,4146 |
Nosso tutorial em 4-Running-HEST-Benchmark.ipynb orientará os usuários interessados em avaliar seu próprio modelo no HEST-Benchmark.
Nota: Contribuições espontâneas são incentivadas caso pesquisadores da comunidade queiram incluir novos modelos. Para fazer isso, basta criar uma solicitação pull.
O modo preferido de comunicação é por meio de problemas do GitHub.
Se os problemas do GitHub forem inadequados, envie um e-mail para [email protected]
(e cc [email protected]
).
A resposta imediata para questões menores pode não estar disponível.
Se você achar nosso trabalho útil em sua pesquisa, considere citar:
Jaume, G., Doucet, P., Song, AH, Lu, MY, Almagro-Perez, C., Wagner, SJ, Vaidya, AJ, Chen, RJ, Williamson, DFK, Kim, A., & Mahmood, F .HEST-1k: Um conjunto de dados para transcriptômica espacial e análise de imagens histológicas. Avanços em sistemas de processamento de informações neurais , dezembro de 2024.
@inproceedings{jaume2024hest, author = {Guillaume Jaume and Paul Doucet and Andrew H. Song and Ming Y. Lu and Cristina Almagro-Perez and Sophia J. Wagner and Anurag J. Vaidya and Richard J. Chen and Drew F. K. Williamson and Ahrong Kim and Faisal Mahmood}, title = {HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis}, booktitle = {Advances in Neural Information Processing Systems}, year = {2024}, month = dec, }