Обратите внимание, что код Посейдона был только что перенесен в Nextflow, так что могут быть все еще некоторые ошибки. Пожалуйста, не стесняйтесь сообщать о проблемах!
Здесь мы представляем Посейдон, трубопровод для обнаружения значительно положительных выбранных сайтов и возможных событий рекомбинации в выравнивании множественных белковых последовательностей. Сайты, которые подвергаются положительному отбору, дают представление о эволюционной истории ваших последовательностей, например, показывая важные мутационные горячие точки, накопленные в качестве результатов гонок вооружений вируса хоста во время эволюции.
Посейдон полагается на различные сторонние инструменты (см. Ниже). Но не волнуйтесь, мы инкапсулировали каждый инструмент в свой собственный контейнер Docker и подключили их в систему управления рабочими процессами Nextflow.
Перейдите непосредственно к небольшому примеру выхода Poseidon для белка SARS-COV-2 по сравнению с недавним исследованием Zhou et al . 2020.
Вам нужны только Nextflow (версия 20.+) и Docker, установленные для запуска трубопровода. Все зависимости будут привлечены автоматически.
Либо запустите Poseidon, клонируя этот репозиторий:
git clone https://github.com/hoelzer/poseidon.gitcd poseidon NextFlow Run Poseidon.nf -Help
или пусть Nextflow сделает притяжение
Nextflow Pull Hoelzer/Poseidon
Мы рекомендуем использовать конкретный выпуск Poseidon через
#pullnextflow Pull Hoelzer/Poseidon -R v1.0.1#runnextflow Run Hoelzer/Poseidon -R v1.0.1 -help
В зависимости от вашей процедуры установки, обновите трубопровод с помощью git pull
или nextflow pull hoelzer/poseidon
.
ВАЖНО: Посейдону нуждаются в нуклеотидных последовательностях с правильной открытой кадрой считывания в качестве ввода. Кроме того, результаты в значительной степени зависят от вашего выбора последовательностей, таким образом, вы можете рассмотреть возможность запуска трубопровода несколько раз с различными выборками ваших входных последовательностей. Кроме того, трубопровод не может работать со слишком большим количеством последовательностей, потому что в своем основном Poseidon используется Codeml из пакета PAML, который не предназначен для> 100 последовательностей. Пожалуйста, найдите подробное описание входных параметров и настройки ниже.
NextFlow может быть легко выполнен в разных средах, таких как локальная машина, высокопроизводительный кластер или облако. Разные -profile
используется, чтобы рассказать Nextflow, какую систему следует использовать. Для локального выполнения -profile local,docker
должен использоваться (и также по умолчанию). Вы также можете запустить Poseidon на HPC, используя сингулярность через -profile lsf,singularity
, -profile slurm,singularity
или -profile sge,singularity
. В таких случаях, пожалуйста, также рассмотрите возможность отрегулировать --cachedir
, чтобы указать, где хранить сингулярные изображения в вашем кластере. Параметр --workdir
также может быть полезен для настройки того, где хранить временные рабочие каталоги (например, использование /scratch
вместо /tmp
в зависимости от вашей конфигурации HPC.)
Теперь давайте предположим, что вы использовали Nextflow, чтобы вытащить код Poseidon, и вы выполняете трубопровод на локальной машине, используя профиль по умолчанию -profile local,docker
.
# Показать справку Nextflow Run Hoelzer/Poseidon -Help # Запустите небольшой пример на локальной машине с # (в первый раз это потребуется еще немного времени, потому что контейнеры Docker загружены) Nextflow Run Hoelzer/Poseidon -R v1.0.1 - -fasta ~/.nextflow/assets/hoelzer/poseidon/test_data/bats_mx1_small.fasta -Корры 4# Резюме сломанный Runnextflow Run Hoelzer/Poseidon -R v1.0.1 - -fasta ~/.nextflow/assets/hoelzer/poseidon/test_data/bats_mx1_small.fasta -Cores 4 -Resume# вместо использования всех доступных ядер используйте только максимальную сумму на локальном MachinenextFlow Run Hoelzer/Poseidon -R v1.0.1 - -fasta ~/.nextflow/assets/hoelzer/poseidon/test_data/bats_mx1_small.fasta. -max_cores 8 -Корры 4
Воспроизвести результаты положительного отбора, представленные в Fuchs et al . (2017), Журнал Virology Run:
Nextflow Run Hoelzer/Poseidon -R V1.0.0 - -fasta ~/.nextflow/Assets/Hoelzer/Poseidon/test_data/bats_mx1.fasta -Cores 4-Kh-Outgroup "pteropus_alecto, eidolon_helvum, rousettus_aegyptiacus, hypsignatus_monstrosus"-reference "myotis_daubentonii"
Трубопровод Посейдона включает в себя выравнивание гомологичных кодирующих белков, обнаружение предполагаемых событий рекомбинации и эволюционных точек останова, филогенетических реконструкций и обнаружение положительно отобранных сайтов в полном выравнивании и всех возможных фрагментах. Наконец, все результаты объединены и визуализируются на удобной и четкой веб-странице HTML. Полученные фрагменты выравнивания обозначены цветными стержнями на выходе HTML.
Transatorx (v1.1), Abascal et al . (2010); 20435676
Muscle (v3.8.31), Edgar (2004); 15034147
Raxml (V8.0.25), Stamatakis (2014); 24451623
Newick Utilities (v1.6), Junier and Zdobnov (2010); 20472542
Modeltest, Posada and Crandall (1998); 9918953
Hyphy (v2.2), Pond et al . (2005); 15509596
Gard, Pond et al. (2006); 17110367
PAML/CODEML (V4.8), Yang (2007); 17483113
Руби (v2.3.1)
Чертов (v1.0)
pdftex (v3.14)
Большинство параметров Poseidon являются необязательными и подробно объясняются ниже.
--fasta
Обязательный. Ваш входной файл FASTA должен следовать формату:
>Myotis_lucifugus Mx1 Gene ATGGCGATCGAGATACGATACGTA... >Myotis_davidii Mx1 Gene ATGGCGGTCGAGATAAGATACGTT...
Все последовательности должны иметь правильную открытую кадр считывания, разрешается только содержать нуклеотидные символы [a | c | g | t] и без внутреннего стоп -кодона.
Идентификаторы последовательности должны быть уникальными до первого появления пространства.
--reference
Необязательный. По умолчанию: используйте идентификатор первой последовательности в качестве ссылки. Вы можете определить один идентификатор одного вида из вашего многочисленного файла FASTA в качестве эталонного вида. Положительно отобранные сайты и соответствующие аминокислоты будут нарисованы в отношении этого вида. Идентификатор должен соответствовать заголовку FASTA до появления первого пространства. Например, если вы хотите, чтобы миотис Lucifugus в качестве вашего эталонного вида и ваш файл FASTA содержит:
>Myotis_lucifugus Mx1 Gene ATGGCGATCGAGATACGATACGTA...
использовать
--reference "Myotis_lucifugus"
в качестве параметра для установки эталонных видов. По умолчанию будет использоваться первый идентификатор в файле нескольких FASTA.
--outgroup
Необязательный. По умолчанию: деревья не укоренились. Вы можете определить один или несколько (разделенных запятой) идентификаторов вида как внешнюю группу. Все филогенетические деревья будут корены в соответствии с этим видом. Например, если ваш файл FASTA содержит
ATGGCGATCGAGATACGATACGTA...
>Myotis_davidii Mx1 Gene
ATGGCGGTCGAGATAAGATACGTT...
>Pteropus_vampyrus Mx1 Gene
ATGGCCGTAGAGATTAGATACTTT...
>Eidolon_helvum Mx1 Gene
ATGCCCGTAGAGAATAGATACTTT...
Вы можете определить:
--outgroup "Pteropus_vampyrus,Eidolon_helvum"
Кортировать все деревья по отношению к этим двум видам.
--kh
Необязательный. По умолчанию: ложь. С помощью этого параметра вы можете решить, следует ли учитывать незначительные точки останова. Все точки перерыва протестированы на значительную топологическую бесконечность с использованием теста Кашино Хасегавы (KH) Kishino, H. and Hasegawa, M. (1989). КХОДИНАТИЧЕСКИЕ ОТНОШЕНИЯ ОТДЕЛЕНИЯ ЧАСТО возникают из-за изменений в длине ветвей между сегментами. Тем не менее, учитывание неисмысленных точек останова может быть интересным, потому что мы уже наблюдали предполагаемые положительно отобранные участки в фрагментах без какого-либо значительного топологического несоответствия. Художественные фрагменты отмечены в конечном результате, так как они могут не произойти в результате реальных событий рекомбинации.
По умолчанию только значительные точки останова используются для дальнейших расчетов.
Пожалуйста, также имейте в виду, что использование также незначительные точки останова может продлить время выполнения Посейдона от нескольких минут до нескольких часов, в зависимости от количества обнаруженных точек останова.
Пожалуйста, смотрите --help
для других параметров (GARD, RAXML, ...) и сообщите нам, если вам нужно больше настройки!
Если Poseidon поможет вам цитировать:
Мартин Хёльцер и Манджа Марз, «Посейдон: трубопровод Nextflow для обнаружения событий эволюционной рекомбинации и положительного отбора», OUP Bioinformatics (2020)