Poseidon 코드는 방금 NextFlow로 전송되어 여전히 일부 버그가있을 수 있습니다. 자유롭게 문제를보고하십시오!
여기 우리는 다수의 단백질-코딩 서열의 정렬에서 상당히 긍정적 인 선택된 부위 및 가능한 재조합 사건을 검출하기위한 파이프 라인 인 Poseidon을 제시한다. 긍정적 인 선택을받는 사이트는 예를 들어 진화 중에 바이러스-주택 무기 경주 의 결과로 축적 된 중요한 돌연변이 핫스팟을 보여주는 등 서열의 진화 역사에 대한 통찰력을 제공합니다.
Poseidon은 다양한 타사 도구에 의존합니다 (아래 참조). 그러나 걱정하지 마십시오. 각 도구를 자체 Docker 컨테이너로 캡슐화하여 워크 플로 관리 시스템 NEXTFLOW에 연결했습니다.
최근 Zhou et al . 2020.
파이프 라인을 실행하기 위해 NextFlow (버전 20.+)와 Docker가 설치되면됩니다. 모든 종속성은 자동으로 가져옵니다.
이 저장소를 복제하여 포세이돈을 실행하십시오.
git 클론 https://github.com/hoelzer/poseidon.gitcd poseidon NextFlow Run Poseidon.nf -help
또는 NextFlow가 당기기를하게하십시오
NextFlow PULL HOELZER/POSEIDON
Poseidon의 특정 릴리스를 사용하는 것이 좋습니다
#PullNextFlow PULL HOELZER/POSEIDON -R V1.0.1#RunnextFlow RUN HOELZER/POSEIDON -R V1.0.1 -헬프
설치 절차에 따라 git pull
또는 nextflow pull hoelzer/poseidon
통해 파이프 라인을 업데이트하십시오.
중요 : Poseidon은 입력으로 올바른 오픈 리딩 프레임을 갖는 뉴클레오티드 서열이 필요합니다. 또한 결과는 선택한 시퀀스에 크게 의존하므로 입력 시퀀스의 다른 샘플링으로 파이프 라인을 여러 번 실행하는 것을 고려할 수 있습니다. 또한 핵심 Poseidon은> 100 시퀀스를 위해 의도되지 않은 PAML 제품군의 Codeml을 사용하기 때문에 파이프 라인은 너무 많은 시퀀스로 작동 할 수 없습니다. 아래 입력 매개 변수 및 설정에 대한 자세한 설명을 찾으십시오.
NextFlow는 로컬 컴퓨터, 고성능 클러스터 또는 클라우드와 같은 다른 환경에서 쉽게 실행할 수 있습니다. 다른 -profile
은 NextFlow에 어떤 시스템을 사용 해야하는지 알려줍니다. 로컬 실행 -profile local,docker
사용해야합니다 (기본값이기도합니다). 또한 -profile lsf,singularity
, -profile slurm,singularity
또는 -profile sge,singularity
통해 특이점을 사용하여 HPC에서 poseidon을 실행할 수 있습니다. 이러한 경우, 클러스터에 특이점 이미지를 어디에 저장할 위치 --cachedir
가리키도록 조정하는 것을 고려하십시오. 매개 변수 --workdir
임시 작업 디렉토리를 저장하는 위치를 조정하는 데 도움이 될 수 있습니다 (예 : HPC 구성에 따라 /tmp
대신 사용 /scratch
).
이제 NextFlow를 사용하여 Poseidon 코드를 가져오고 기본 프로파일 -profile local,docker
사용하여 로컬 컴퓨터에서 파이프 라인을 실행한다고 가정 해 봅시다.
# 도움을 줄 수 다음 플로우 실행 hoelzer/poseidon -help # 로컬 컴퓨터에서 작은 예제 실행 # (Docker 컨테이너가 다운로드되었으므로 처음에는 시간이 더 필요합니다) NextFlow RUN HOELZER/POSEIDON -R V1.0.1 -FASTA ~/.nextflow/assets/hoelzer/poseidon/test_data/bats_mx1_small.fasta -코어 4# 깨진 runnextflow run hoelzer/poseidon -r v1.0.1 -fasta ~/.nextflow/assets/hoelzer/poseidon/test_data/bats_mx1_small.fasta -Cores 4 -Resume# 사용 가능한 모든 코어를 사용하는 대신 로컬 MachinenextFlow Run hoelzer/poseidon -r v1.0.1 -fasta ~/.nextflow/assets/hoelzer/poseidon/test_data/bats_mx1_small.fasta에서 최대 금액 만 사용합니다. --max_cores 8 -코어 4
Fuchs et al . (2017), Journal of Virology Run :
NextFlow Run Hoelzer/Poseidon -r v1.0.0 -fasta ~/.nextflow/assets/hoelzer/poseidon/test_data/bats_mx1.fasta -Cores 4 -kh-group "pteropus_alecto, eidolon_helvum, rousettus_aegyptiacus, hypsignatus_monstrosus"-회의 "myotis_daubentonii"
포세이돈 파이프 라인은 상 동성 단백질 코딩 서열의 프레임 내 정렬, 추정 재조합 사건의 검출 및 진화 적 중단 점, 계통 발생 학적 재구성 및 전체 정렬 및 모든 가능한 단편에서 양의 선택된 부위의 검출을 포함한다. 마지막으로 모든 결과는 사용자 친화적이고 명확한 HTML 웹 페이지로 결합되고 시각화됩니다. 결과 정렬 단편은 HTML 출력의 컬러 바로 표시됩니다.
번역기 (v1.1), Abascal et al . (2010); 20435676
근육 (v3.8.31), Edgar (2004); 15034147
RAXML (V8.0.25), Stamatakis (2014); 24451623
Newick Utilities (v1.6), Junier and Zdobnov (2010); 20472542
Modeltest, Posada and Crandall (1998); 9918953
하이피 (v2.2), Pond et al . (2005); 15509596
Gard, Pond et al. (2006); 17110367
PAML/CODEML (v4.8), 양 (2007); 17483113
루비 (v2.3.1)
잉크 스케이프 (v1.0)
PDFTEX (v3.14)
포세이돈 매개 변수의 대부분은 선택 사항이며 아래에 자세히 설명되어 있습니다.
--fasta
필수적인. 입력 FASTA 파일은 형식을 따라야합니다.
>Myotis_lucifugus Mx1 Gene ATGGCGATCGAGATACGATACGTA... >Myotis_davidii Mx1 Gene ATGGCGGTCGAGATAAGATACGTT...
모든 서열은 올바른 오픈 리딩 프레임을 가져야하며, 뉴클레오티드 문자 만 포함 할 수 있으며 내부 정지 코돈은 없다.
시퀀스 ID는 공간의 첫 번째 발생까지 고유해야합니다.
--reference
선택 과목. 기본값 : 첫 번째 시퀀스 ID를 참조로 사용하십시오. 여러 Fasta 파일에서 한 종의 ID를 참조 종으로 정의 할 수 있습니다. 긍정적으로 선택된 부위와 상응하는 아미노산은이 종과 관련하여 그려 질 것입니다. ID는 첫 번째 공간이 발생할 때까지 Fasta 헤더와 일치해야합니다. 예를 들어, myotis lucifugus를 참조 종으로 원한다면 FASTA 파일이 포함됩니다.
>Myotis_lucifugus Mx1 Gene ATGGCGATCGAGATACGATACGTA...
사용
--reference "Myotis_lucifugus"
기준 종을 설정하는 매개 변수로서. 기본적으로 여러 Fasta 파일에서 발생하는 첫 번째 ID가 사용됩니다.
--outgroup
선택 과목. 기본값 : 나무는 루트되지 않습니다. 하나 또는 다중 (쉼표 분리 된) 종 ID를 그룹 외부로 정의 할 수 있습니다. 모든 계통 발생 나무는이 종에 따라 뿌리를 내릴 것입니다. 예를 들어, 여러 Fasta 파일에 포함 된 경우
ATGGCGATCGAGATACGATACGTA...
>Myotis_davidii Mx1 Gene
ATGGCGGTCGAGATAAGATACGTT...
>Pteropus_vampyrus Mx1 Gene
ATGGCCGTAGAGATTAGATACTTT...
>Eidolon_helvum Mx1 Gene
ATGCCCGTAGAGAATAGATACTTT...
정의 할 수 있습니다.
--outgroup "Pteropus_vampyrus,Eidolon_helvum"
이 두 종과 관련하여 모든 나무를 뿌리려고합니다.
--kh
선택 과목. 기본값 : False. 이 매개 변수를 사용하면 무의미한 중단 점을 고려해야하는지 결정할 수 있습니다. 모든 중단 점은 Kashino Hasegawa (KH) 테스트 Kishino, H. 및 Hasegawa, M. (1989)을 사용하여 상당한 토폴로지 불일치에 대해 테스트됩니다. KH- 중요하지 않은 중단 점은 세그먼트 사이의 분기 길이의 변화에서 가장 자주 발생합니다. 그럼에도 불구하고, 우리는 이미 상당한 토폴로지의 불일치가없는 조각에서 긍정적으로 선택된 사이트를 이미 관찰했기 때문에 Kh-nistically 브레이크 포인트를 고려하는 것은 흥미로울 수 있습니다. KH- 중요하지 않은 조각은 실제 재조합 이벤트에서 발생하지 않을 수 있으므로 최종 출력에 표시됩니다.
기본적으로 추가 계산에는 중요한 중단 점 만 사용됩니다.
또한 무의미한 중단 점을 사용하면 감지 된 중단 점의 수에 따라 포세이돈의 실행 시간을 몇 분에서 몇 시간으로 연장 할 수 있습니다.
다른 매개 변수 (Gard, Raxml, ...)에 대해서는 --help
참조하고 더 많은 사용자 정의가 필요한지 알려주십시오!
Poseidon이 당신을 도와 주면 :
Martin Hölzer와 Manja Marz, "Poseidon : 진화 재조합 사건 및 긍정적 인 선택을위한 다음 흐름 파이프 라인", OUP Bioinformatics (2020)