[ arXiv | Data | Dokumentasi | Tutorial | Kutip ]
Selamat datang di repositori resmi GitHub dari Perpustakaan HEST yang diperkenalkan dalam "HEST-1k: Kumpulan Data untuk Transkriptomik Spasial dan Analisis Gambar Histologi", NeurIPS Spotlight, 2024 . Proyek ini dikembangkan oleh Mahmood Lab di Harvard Medical School dan Brigham and Women's Hospital.
HEST-1k: Akses gratis ke HEST-1K , kumpulan data dari 1.229 sampel Transkriptomik Spasial yang dipasangkan dengan gambar seluruh slide bernoda HE
HEST-Library: Serangkaian pembantu untuk merakit sampel ST baru (ST, Visium, Visium HD, Xenium) dan bekerja dengan HEST-1k (analisis ST, yaitu efek batch dan koreksi, dll.)
HEST-Benchmark: Tolok ukur baru untuk menilai kinerja prediktif model dasar histologi dalam memprediksi ekspresi gen dari morfologi
HEST-1k, HEST-Library, dan HEST-Benchmark dirilis di bawah lisensi Attribution-NonCommercial-ShareAlike 4.0 International.
21.10.24 : HEST telah diterima di NeurIPS 2024 sebagai Sorotan! Kami akan berada di Vancouver dari 10 hingga 15 Desember. Kirimkan pesan kepada kami jika Anda ingin mempelajari lebih lanjut tentang HEST ([email protected]).
23.09.24 : 121 sampel baru dirilis, termasuk 27 Xenium dan 7 Visium HD! Kami juga membuat transkrip Xenium yang selaras + sel/inti tersegmentasi DAPI yang selaras menjadi publik.
30.08.24 : Hasil HEST-Benchmark diperbarui. Termasuk H-Optimus-0, Virchow 2, Virchow, dan GigaPath. Tugas COAD baru berdasarkan 4 sampel Xenium. Data bangku HuggingFace telah diperbarui.
28.08.24 : Kumpulan pembantu baru untuk visualisasi dan koreksi efek batch. Tutorial di sini.
Untuk mendownload/query HEST-1k, ikuti tutorial 1-Downloading-HEST-1k.ipynb atau ikuti instruksi pada Hugging Face.
CATATAN: Seluruh kumpulan data berbobot lebih dari 1TB tetapi Anda dapat dengan mudah mengunduh subkumpulan dengan menanyakan per id, organ, spesies...
git clone https://github.com/mahmoodlab/HEST.git cd HEST conda create -n "hest" python=3.9 conda activate hest pip install -e .
sudo apt install libvips libvips-dev openslide-tools
Jika GPU tersedia di mesin Anda, kami sarankan untuk menginstal cucim di lingkungan conda Anda. (hest diuji dengan cucim-cu12==24.4.0
dan CUDA 12.1
)
pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12==24.6.* dask-cudf-cu12==24.6.* cucim-cu12==24.6.* raft-dask-cu12==24.6.*
CATATAN: HEST-Library hanya diuji pada mesin Linux/macOS, harap laporkan bug apa pun dalam masalah GitHub.
Anda kemudian dapat melihat kumpulan data sebagai,
dari hest import iter_hestfor st in iter_hest('../hest_data', id_list=['TENX95']):print(st)
Perpustakaan HEST memungkinkan perakitan sampel baru menggunakan format HEST dan berinteraksi dengan HEST-1k. Kami menyediakan dua tutorial:
2-Berinteraksi-dengan-HEST-1k.ipynb: Bermain-main dengan data HEST untuk memuat patch. Termasuk penjelasan rinci tentang setiap objek scanpy.
3-Assembling-HEST-Data.ipynb: Panduan untuk mengubah sampel Visum menjadi HEST.
5-Batch-effect-visualization.ipynb: Visualisasi dan koreksi efek batch (MNN, Harmony, ComBat).
Selain itu, kami menyediakan dokumentasi lengkap.
Tolok Ukur HEST dirancang untuk menilai 11 model dasar patologi berdasarkan tolok ukur baru, beragam, dan menantang. HEST-Benchmark mencakup sembilan tugas untuk prediksi ekspresi gen (50 gen yang sangat bervariasi) dari morfologi (wilayah 112 x 112 um pada 0,5 um/px) di sembilan organ berbeda dan delapan jenis kanker. Kami memberikan tutorial langkah demi langkah untuk menjalankan HEST-Benchmark dan mereproduksi hasil kami di 4-Running-HEST-Benchmark.ipynb.
HEST-Benchmark digunakan untuk menilai 11 model yang tersedia untuk umum. Hasil yang dilaporkan didasarkan pada Regresi Ridge dengan PCA (256 faktor). Regresi ridge memberikan sanksi yang tidak adil terhadap model dengan dimensi penyematan yang lebih besar. Untuk memastikan perbandingan yang adil dan obyektif antar model, kami memilih pengurangan PCA. Kinerja model diukur dengan korelasi Pearson. Yang terbaik ditebalkan , yang terbaik kedua digarisbawahi . Hasil tambahan berdasarkan regresi Random Forest dan XGBoost disediakan di makalah.
Model | IDC | PRAD | PAAD | SKCM | COAD | MEMBACA | ccRCC | LUAD | IDC limfa | Rata-rata |
---|---|---|---|---|---|---|---|---|---|---|
jaringan ulang50 | 0,4741 | 0,3075 | 0,3889 | 0,4822 | 0,2528 | 0,0812 | 0,2231 | 0,4917 | 0,2322 | 0,326 |
CTransPath | 0,511 | 0,3427 | 0,4378 | 0,5106 | 0,2285 | 0,11 | 0,2279 | 0,4985 | 0,2353 | 0,3447 |
Fikon | 0,5327 | 0,342 | 0,4432 | 0,5355 | 0,2585 | 0,1517 | 0,2423 | 0,5468 | 0,2373 | 0,3656 |
Keong | 0,5363 | 0,3548 | 0,4475 | 0,5791 | 0,2533 | 0,1674 | 0,2179 | 0,5312 | 0,2507 | 0,3709 |
solusi | 0,529 | 0,3471 | 0,4644 | 0,5818 | 0,2856 | 0,1145 | 0,2647 | 0,5336 | 0,2473 | 0,3742 |
Gigapati | 0,5508 | 0,3708 | 0,4768 | 0,5538 | 0,301 | 0,186 | 0,2391 | 0,5399 | 0,2493 | 0,3853 |
UNI | 0,5702 | 0,314 | 0,4764 | 0,6254 | 0,263 | 0,1762 | 0,2427 | 0,5511 | 0,2565 | 0,3862 |
Virchow | 0,5702 | 0,3309 | 0,4875 | 0,6088 | 0,311 | 0.2019 | 0,2637 | 0,5459 | 0,2594 | 0,3977 |
Virchow2 | 0,5922 | 0,3465 | 0,4661 | 0,6174 | 0,2578 | 0,2084 | 0,2788 | 0,5605 | 0,2582 | 0,3984 |
UNIv1.5 | 0,5989 | 0,3645 | 0,4902 | 0,6401 | 0,2925 | 0,2240 | 0,2522 | 0,5586 | 0,2597 | 0,4090 |
Hoptimus0 | 0,5982 | 0,385 | 0,4932 | 0,6432 | 0,2991 | 0,2292 | 0,2654 | 0,5582 | 0,2595 | 0,4146 |
Tutorial kami di 4-Running-HEST-Benchmark.ipynb akan memandu pengguna yang tertarik untuk melakukan benchmarking model mereka sendiri di HEST-Benchmark.
Catatan: Kontribusi spontan dianjurkan jika peneliti dari komunitas ingin memasukkan model baru. Untuk melakukannya, cukup buat Permintaan Tarik.
Mode komunikasi pilihan adalah melalui masalah GitHub.
Jika masalah GitHub tidak sesuai, kirim email [email protected]
(dan cc [email protected]
).
Respons langsung terhadap permasalahan kecil mungkin tidak tersedia.
Jika Anda merasa karya kami bermanfaat dalam penelitian Anda, mohon pertimbangkan untuk mengutip:
Jaume, G., Doucet, P., Lagu, AH, Lu, MY, Almagro-Perez, C., Wagner, SJ, Vaidya, AJ, Chen, RJ, Williamson, DFK, Kim, A., & Mahmood, F "HEST-1k: Kumpulan Data untuk Transkriptomik Spasial dan Analisis Gambar Histologi". Kemajuan dalam Sistem Pemrosesan Informasi Neural , Desember 2024.
@inproceedings{jaume2024hest, author = {Guillaume Jaume and Paul Doucet and Andrew H. Song and Ming Y. Lu and Cristina Almagro-Perez and Sophia J. Wagner and Anurag J. Vaidya and Richard J. Chen and Drew F. K. Williamson and Ahrong Kim and Faisal Mahmood}, title = {HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis}, booktitle = {Advances in Neural Information Processing Systems}, year = {2024}, month = dec, }