nf-core/cageseq — это конвейер биоинформатического анализа, используемый для данных секвенирования CAGE-seq.
Конвейер принимает в качестве входных данных необработанные демультиплексированные файлы fastq и включает в себя этапы обрезки линкера и артефактов (cutadapt), удаления рРНК (SortMeRNA, выравнивания по эталонному геному (STAR или Bowtie1) и подсчета и кластеризации тегов CAGE (paraclu). Кроме того, несколько этапы контроля качества (FastQC, RSeQC, MultiQC) включены для облегчения проверки результатов после запуска.
Конвейер построен с использованием Nextflow, инструмента рабочего процесса для очень портативного выполнения задач в нескольких вычислительных инфраструктурах. Он поставляется с док-контейнерами, что упрощает установку и обеспечивает высокую воспроизводимость результатов.
Установить nextflow
Установите любой из Docker
, Singularity
или Podman
для полной воспроизводимости конвейера (пожалуйста, используйте Conda
только в крайнем случае; см. документацию).
Загрузите конвейер и протестируйте его на минимальном наборе данных с помощью одной команды:
nextflow run nf-core/cageseq -profile test, < docker/singularity/podman/conda/institute >
Пожалуйста, проверьте nf-core/configs, чтобы узнать, существует ли уже специальный файл конфигурации для запуска конвейеров nf-core для вашего института. Если да, вы можете просто использовать
-profile
в своей команде. Это включитdocker
илиsingularity
и установит соответствующие параметры выполнения для вашей локальной вычислительной среды.
Начните проводить собственный анализ!
nextflow run nf-core/cageseq -profile < docker/singularity/podman/conda/institute > --input ' *_R1.fastq.gz ' --aligner < ' star ' / ' bowtie1 ' > --genome GRCh38
См. документацию по использованию для всех доступных опций при запуске конвейера.
По умолчанию конвейер в настоящее время выполняет следующее:
FastQC
)cutadapt
)SortMeRNA
),FastQC
)STAR
или bowtie1
)paraclu
)RSeQC
)MultiQC
) Конвейер nf-core/cageseq поставляется с документацией о конвейере: использование и вывод.
nf-core/cageseq изначально был написан Кевином Менденом (@KevinMenden) и Тристаном Кастом (@TrisKast) и обновлен Маттиасом Хёртенхубером (@mashehu).
Если вы хотите внести свой вклад в этот канал, ознакомьтесь с правилами участия.
Для получения дополнительной информации или помощи обращайтесь на канал Slack #cageseq
(вы можете присоединиться по этому приглашению).
Если вы используете nf-core/cageseq для своего анализа, укажите его, используя следующий doi: 10.5281/zenodo.4095105
Ссылаться на публикацию nf-core
можно следующим образом:
Базовая структура nf-core для проектов биоинформатики, курируемых сообществом.
Филип Юэлс, Александр Пельтцер, Свен Филлинджер, Харшил Патель, Йоханнес Альнеберг, Андреас Вильм, Максим Улисс Гарсия, Паоло Ди Томмазо и Свен Нансен.
Нат Биотехнология. 13 февраля 2020 г. doi: 10.1038/s41587-020-0439-x. ReadCube: ссылка для полного доступа
Кроме того, ссылки на инструменты и данные, используемые в этом конвейере, следующие:
Ди Томмасо П., Чатцу М., Флоден Э.В., Барха П.П., Палумбо Э., Нотредам С. Nextflow обеспечивает воспроизводимые вычислительные рабочие процессы. Нат Биотехнология. 11 апреля 2017 г.; 35(4): 316–319. дои: 10.1038/nbt.3820. PubMed PMID: 28398311.
BEDИнструменты
Куинлан А.Р., Холл ИМ. BEDTools: гибкий набор утилит для сравнения геномных характеристик. Биоинформатика. 15 марта 2010 г.;26(6):841-2. doi: 10.1093/биоинформатика/btq033. Epub 2010, 28 января. PubMed PMID: 20110278; PubMed Central PMCID: PMC2832824.
галстук-бабочка
Лэнгмид Б., Трапнелл С., Поп М., Зальцберг С.Л. Сверхбыстрое и эффективное для памяти выравнивание коротких последовательностей ДНК с геномом человека. Геном Биол. 2009;10(3):R25. doi: 10.1186/gb-2009-10-3-r25. Epub, 4 марта 2009 г. PMID: 19261174; PMCID: PMC2690996.
адаптироваться
Мартин, М., 2011. Cutadapt удаляет адаптерные последовательности из считываний высокопроизводительного секвенирования. ЭМБнет. журнал, 17(1), стр.10-12.
FastQC
МультиКК
Юэлс П., Магнуссон М., Лундин С., Келлер М. MultiQC: суммируйте результаты анализа для нескольких инструментов и образцов в одном отчете. Биоинформатика. 1 октября 2016 г.;32(19):3047-8. doi: 10.1093/биоинформатика/btw354. Epub, 16 июня 2016 г. PubMed PMID: 27312411; PubMed Central PMCID: PMC5039924.
параклу
Фрит М.К., Вален Э., Крог А., Хаяшизаки Ю., Карнинчи П., Санделин А. Код инициации транскрипции в геномах млекопитающих. Геном Рез. Январь 2008 г.;18(1):1-12. дои: 10.1101/гр.6831208. Epub 2007, 21 ноября. PMID: 18032727; PMCID: PMC2134772.
RSeQC
Ван Л., Ван С., Ли В. RSeQC: контроль качества экспериментов по секвенированию РНК. Биоинформатика. 15 августа 2012 г.; 28 (16): 2184-5. doi: 10.1093/биоинформатика/bts356. Epub 2012, 27 июня. PubMed PMID: 22743226.
SAMtools
Ли Х, Рукосакер Б, Высокер А, Феннелл Т, Руан Дж, Гомер Н, Март Дж, Абекасис Г, Дурбин Р; Подгруппа обработки данных проекта «1000 геномов». Формат Sequence Alignment/Map и SAMtools. Биоинформатика. 15 августа 2009 г.; 25 (16): 2078-9. doi: 10.1093/биоинформатика/btp352. Epub, 8 июня 2009 г. PubMed PMID: 19505943; PubMed Central PMCID: PMC2723002.
СортМеРНК
Копылова Е., Ноэ Л., Тузе Х. SortMeRNA: быстрая и точная фильтрация рибосомальных РНК в метатранскриптомных данных. Биоинформатика. 15 декабря 2012 г.; 28 (24): 3211-7. doi: 10.1093/биоинформатика/bts611. Epub 2012, 15 октября. PubMed PMID: 23071270.
ЗВЕЗДА
Добин А., Дэвис К.А., Шлезингер Ф., Дренков Дж., Залески С., Джа С., Батут П., Чейссон М., Гингерас Т.Р. STAR: сверхбыстрый универсальный выравниватель RNA-seq Биоинформатика. 1 января 2013 г.; 29(1): 15–21. doi: 10.1093/биоинформатика/bts635. Epub 2012, 25 октября. PubMed PMID: 23104886; PubMed Central PMCID: PMC3530905.
Инструменты UCSC
Кент У.Дж., Цвейг А.С., Барбер Г., Хинрикс А.С., Карольчик Д. BigWig и BigBed: возможность просмотра больших распределенных наборов данных. Биоинформатика. 1 сентября 2010 г.; 26 (17): 2204-7. doi: 10.1093/биоинформатика/btq351. Epub, 17 июля 2010 г. PubMed PMID: 20639541; PubMed Central PMCID: PMC2922891.
Анаконда
Распространение программного обеспечения Anaconda. Компьютерное программное обеспечение. Верс. 2-2.4.0. Анаконда, ноябрь 2016 г. Интернет.
Биоконда
Грюнинг Б., Дейл Р., Сьёдин А., Чепмен Б.А., Роу Дж., Томкинс-Тинч CH, Валиерис Р., Кестер Дж.; Команда Биоконда. Bioconda: устойчивое и комплексное распространение программного обеспечения для наук о жизни. Нац методы. Июль 2018 г.;15(7):475-476. дои: 10.1038/s41592-018-0046-7. PubMed PMID: 29967506.
Биоконтейнеры
да Вейга Лепрево Ф, Грюнинг Б, Афлитос С.А., Рёст ХЛ, Ушкорейт Дж, Барснес Х, Водель М, Морено П, Гатто Л, Вебер Дж, Бай М, Хименес Р.С., Заксенберг Т, Пфайффер Дж, Альварес Р.В., Грисс Дж, Несвижский А.И., Перес-Ривероль Ю. Биоконтейнеры: платформа с открытым исходным кодом, управляемая сообществом по стандартизации программного обеспечения. Биоинформатика. 15 августа 2017 г.; 33 (16): 2580-2582. doi: 10.1093/биоинформатика/btx192. PubMed PMID: 28379341; PubMed Central PMCID: PMC5870671.
Докер
Сингулярность
Курцер Г.М., Сохат В., Бауэр М.В. Сингулярность: научные контейнеры для мобильности вычислений. ПЛОС Один. 11 мая 2017 г.; 12 (5): e0177459. doi: 10.1371/journal.pone.0177459. Электронная коллекция 2017. PubMed PMID: 28494014; Центральный PMCID PubMed: PMC5426675.