[ арXiv | Данные | Документация | Учебники | Цитировать ]
Добро пожаловать в официальный репозиторий GitHub библиотеки HEST, представленной в «HEST-1k: набор данных для пространственной транскриптомики и анализа гистологических изображений», NeurIPS Spotlight, 2024 . Этот проект был разработан Лабораторией Махмуда Гарвардской медицинской школы и Женской больницей Бригама.
HEST-1k: бесплатный доступ к HEST-1K , набору данных из 1229 парных образцов пространственной транскриптомики с полными изображениями слайдов, окрашенными HE.
HEST-Library: серия помощников для сборки новых образцов ST (ST, Visium, Visium HD, Xenium) и работы с HEST-1k (анализ ST, пакетный эффект, а именно и коррекция и т. д.).
HEST-Benchmark: новый тест для оценки прогностической эффективности базовых моделей гистологии при прогнозировании экспрессии генов на основе морфологии.
HEST-1k, HEST-Library и HEST-Benchmark выпускаются под международной лицензией Attribution-NonCommercial-ShareAlike 4.0.
21.10.24 : HEST был принят на NeurIPS 2024 в качестве внимания! Мы будем в Ванкувере с 10 по 15 декабря. Если вы хотите узнать больше о HEST, отправьте нам сообщение ([email protected]).
23.09.24 : Выпущен 121 новый сэмпл, в том числе 27 Xenium и 7 Visium HD! Мы также публикуем выровненные транскрипты Xenium + выровненные сегментированные клетки/ядра DAPI.
30.08.24 : Обновлены результаты HEST-Benchmark. Включает H-Optimus-0, Virchow 2, Virchow и GigaPath. Новая задача COAD на основе 4 образцов Xenium. Данные стенда HuggingFace обновлены.
28.08.24 : Новый набор помощников для пакетной визуализации и коррекции эффектов. Учебник здесь.
Чтобы загрузить/запросить HEST-1k, следуйте руководству 1-Downloading-HEST-1k.ipynb или следуйте инструкциям по Hugging Face.
ПРИМЕЧАНИЕ. Весь набор данных весит более 1 ТБ, но вы можете легко загрузить подмножество, запросив идентификатор, орган, вид...
git clone https://github.com/mahmoodlab/HEST.git cd HEST conda create -n "hest" python=3.9 conda activate hest pip install -e .
sudo apt install libvips libvips-dev openslide-tools
Если на вашем компьютере доступен графический процессор, мы рекомендуем установить Cucim в вашей среде Conda. (hest был протестирован с cucim-cu12==24.4.0
и CUDA 12.1
)
pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12==24.6.* dask-cudf-cu12==24.6.* cucim-cu12==24.6.* raft-dask-cu12==24.6.*
ПРИМЕЧАНИЕ. HEST-Library тестировалась только на компьютерах с Linux/macOS. О любых ошибках сообщайте в разделе GitHub.
Затем вы можете просто просмотреть набор данных как:
из hest import iter_hestfor st в iter_hest('../hest_data', id_list=['TENX95']):print(st)
HEST-библиотека позволяет собирать новые образцы с использованием формата HEST и взаимодействовать с HEST-1k. Мы предоставляем два урока:
2-Взаимодействие с HEST-1k.ipynb: работа с данными HEST для загрузки патчей. Включает подробное описание каждого объекта сканирования.
3-Assembling-HEST-Data.ipynb: пошаговое руководство по преобразованию образца Visum в HEST.
5-Batch-effect-visualization.ipynb: Пакетная визуализация и коррекция эффектов (MNN, Harmony, ComBat).
Кроме того, мы предоставляем полную документацию.
Тест HEST-Benchmark был разработан для оценки 11 базовых моделей патологии в рамках нового, разнообразного и сложного теста. HEST-Benchmark включает девять задач по прогнозированию экспрессии генов (50 высоковариабельных генов) по морфологии (области 112 x 112 мкм при 0,5 мкм/пиксель) в девяти различных органах и восьми типах рака. Мы предоставляем пошаговое руководство по запуску HEST-Benchmark и воспроизведению наших результатов в 4-Running-HEST-Benchmark.ipynb.
HEST-Benchmark использовался для оценки 11 общедоступных моделей. Сообщенные результаты основаны на ридж-регрессии с PCA (256 факторов). Гребневая регрессия несправедливо наказывает модели с большими размерами внедрения. Чтобы обеспечить справедливое и объективное сравнение моделей, мы выбрали PCA-сокращение. Производительность модели измерена с помощью корреляции Пирсона. Лучшее выделено жирным шрифтом , второе лучшее подчеркнуто . В статье представлены дополнительные результаты, основанные на регрессии Random Forest и XGBoost.
Модель | ИДЦ | ПРАД | ПААД | СККМ | COAD | ЧИТАТЬ | ccRCC | ЛУАД | ЛИМФА ИДЦ | Средний |
---|---|---|---|---|---|---|---|---|---|---|
Реснет50 | 0,4741 | 0,3075 | 0,3889 | 0,4822 | 0,2528 | 0,0812 | 0,2231 | 0,4917 | 0,2322 | 0,326 |
CTransPath | 0,511 | 0,3427 | 0,4378 | 0,5106 | 0,2285 | 0,11 | 0,2279 | 0,4985 | 0,2353 | 0,3447 |
Фикон | 0,5327 | 0,342 | 0,4432 | 0,5355 | 0,2585 | 0,1517 | 0,2423 | 0,5468 | 0,2373 | 0,3656 |
РАКОВИНА | 0,5363 | 0,3548 | 0,4475 | 0,5791 | 0,2533 | 0,1674 | 0,2179 | 0,5312 | 0,2507 | 0,3709 |
Ремедис | 0,529 | 0,3471 | 0,4644 | 0,5818 | 0,2856 | 0,1145 | 0,2647 | 0,5336 | 0,2473 | 0,3742 |
Гигапат | 0,5508 | 0,3708 | 0,4768 | 0,5538 | 0,301 | 0,186 | 0,2391 | 0,5399 | 0,2493 | 0,3853 |
УНИ | 0,5702 | 0,314 | 0,4764 | 0,6254 | 0,263 | 0,1762 | 0,2427 | 0,5511 | 0,2565 | 0,3862 |
Вирхов | 0,5702 | 0,3309 | 0,4875 | 0,6088 | 0,311 | 0,2019 | 0,2637 | 0,5459 | 0,2594 | 0,3977 |
Вирхов2 | 0,5922 | 0,3465 | 0,4661 | 0,6174 | 0,2578 | 0,2084 | 0,2788 | 0,5605 | 0,2582 | 0,3984 |
УНИв1.5 | 0,5989 | 0,3645 | 0,4902 | 0,6401 | 0,2925 | 0,2240 | 0,2522 | 0,5586 | 0,2597 | 0,4090 |
Хоптимус0 | 0,5982 | 0,385 | 0,4932 | 0,6432 | 0,2991 | 0,2292 | 0,2654 | 0,5582 | 0,2595 | 0,4146 |
Наше руководство в 4-Running-HEST-Benchmark.ipynb поможет пользователям, заинтересованным в тестировании собственной модели с помощью HEST-Benchmark.
Примечание. Спонтанные вклады приветствуются, если исследователи из сообщества хотят включить новые модели. Для этого просто создайте запрос на включение.
Предпочтительный способ общения — через выпуски GitHub.
Если проблемы с GitHub неуместны, отправьте электронное письмо по [email protected]
(и cc [email protected]
).
Немедленное реагирование на незначительные проблемы может быть недоступно.
Если наша работа окажется полезной для вашего исследования, пожалуйста, процитируйте:
Жауме, Г., Дусе, П., Сонг, А.Х., Лу, М.И., Альмагро-Перес, К., Вагнер, С.Дж., Вайдья, А.Дж., Чен, Р.Дж., Уильямсон, ДФК, Ким, А. и Махмуд, Ф. HEST-1k: набор данных для пространственной транскриптомики и анализа гистологических изображений. Достижения в области нейронных систем обработки информации , декабрь 2024 г.
@inproceedings{jaume2024hest, author = {Guillaume Jaume and Paul Doucet and Andrew H. Song and Ming Y. Lu and Cristina Almagro-Perez and Sophia J. Wagner and Anurag J. Vaidya and Richard J. Chen and Drew F. K. Williamson and Ahrong Kim and Faisal Mahmood}, title = {HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis}, booktitle = {Advances in Neural Information Processing Systems}, year = {2024}, month = dec, }