참조 기반 전사체학을 위한 파이프라인.
PiReT는 conda를 사용하여 설치됩니다. 따라서 conda가 설치되어 있고 경로에 있는지 확인하십시오. 인터넷 속도에 따라 설치에 최대 2시간이 걸릴 수 있습니다.
곧 출시됩니다!
설치가 작동하려면 conda가 설치되어 있어야 합니다. Conda 설치 방법에 대한 지침은 여기를 참조하세요. 다음 명령을 사용하여 Conda 환경을 생성한 후 해당 패키지를 설치합니다. 또한 설치를 시도하기 전에 piret_env라는 이름의 환경이 없는지 확인하십시오. 환경이 이미 있는 경우 삭제합니다. Python에 능숙하다면 설치의 모든 단계를 제어할 수 있으므로 이 지침을 사용하는 것이 좋습니다. 문제가 발생하면 처음부터 시작할 필요가 없습니다.
git clone https://github.com/mshakya/piret.git
cd piret
conda create -n piret_env python=3.6.6 --yes
conda install -c bioconda faqcs -n piret_env --yes
conda install -c bioconda star hisat2 subread -n piret_env --yes
conda install -c bioconda subread stringtie -n piret_env --yes
conda install -c bioconda samtools bamtools bedtools -n piret_env --yes
conda install -c bioconda diamond=0.9.24 -n piret_env --yes
source activate piret_env
cd thirdparty
rm -rf eggnog-mapper
git clone https://github.com/mshakya/eggnog-mapper.git
cd eggnog-mapper
python download_eggnog_data.py -y
cd ..
cd ..
Rscript --no-init-file -e "if('BiocManager' %in% rownames(installed.packages()) == FALSE){install.packages('BiocManager',repos='https://cran.r-project.org')}";
# install optparse
Rscript --no-init-file -e "if('optparse' %in% rownames(installed.packages()) == FALSE){install.packages('optparse',repos='https://cran.r-project.org')}";
# install tidyverse
Rscript --no-init-file -e "if('tidyverse' %in% rownames(installed.packages()) == FALSE){install.packages('tidyverse',repos='https://cran.r-project.org')}";
# install R reshape2 packages
Rscript --no-init-file -e "if('reshape2' %in% rownames(installed.packages()) == FALSE){install.packages('reshape2',repos='https://cran.r-project.org')}";
# install R pheatmap packages
Rscript --no-init-file -e "if('pheatmap' %in% rownames(installed.packages()) == FALSE){install.packages('pheatmap',repos='https://cran.r-project.org')}";
# install R edgeR packages
Rscript --no-init-file -e "if('edgeR' %in% rownames(installed.packages()) == FALSE){BiocManager::install('edgeR')}";
# install R deseq2 packages
Rscript --no-init-file -e "if('DESeq2' %in% rownames(installed.packages()) == FALSE){BiocManager::install('DESeq2')}";
# install R pathview package
Rscript --no-init-file -e "if('pathview' %in% rownames(installed.packages()) == FALSE){BiocManager::install('pathview')}";
# install R gage package
Rscript --no-init-file -e "if('gage' %in% rownames(installed.packages()) == FALSE){BiocManager::install('gage')}";
# install R ballgown package
Rscript --no-init-file -e "if('ballgown' %in% rownames(installed.packages()) == FALSE){BiocManager::install('ballgown')}";
python setup.py install
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh
예를 들어:
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh piret_env
환경 이름(예: piret_env)이 아직 존재하지 않는지 확인하세요.
곧 출시됩니다!
설치 성공 여부를 확인하기 위해 테스트 데이터 세트를 제공했습니다. fastq
파일은 tests/fastqs
에서 찾을 수 있으며 해당 참조 fasta 파일은 tests/data
에서 찾을 수 있습니다. 테스트를 실행하려면 piret
디렉토리 내에서 다음을 수행하십시오.
진핵생물 데이터세트에 대한 테스트를 실행하는 경우:
$ cd piret
$ source activate piret_env
$LUIGI_CONFIG_PATH="/panfs/biopan01/scratch-311300/ecoli_usda/ecoli.cfg" bin/piret -c ecoli.cfg -d ecoli_piret -e exp_desn.txt
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_euk.cfg" bin/piret -c tests/test_euk.cfg -d tests/test_euk -e tests/test_euk.txt
prokarya 데이터세트에 대한 테스트를 실행하려면 다음을 수행하세요.
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_prok.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_prok.txt
prokarya 및 eukarya 데이터 세트를 both
사용하여 테스트를 실행하는 경우:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_both.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_both.txt
PiReT는 유전자에 대한 KO ID를 얻기 위해 emapper를 사용합니다. PiReT의 conda 설치에는 emapper도 포함되어 있습니다. 그러나 해당 데이터베이스는 여기 지침에 따라 다운로드되어야 합니다. 간단히,
PiReT에는 다음 종속성이 필요하며 모두 PATH에 설치되어야 합니다.
INSTALL.sh
anaconda에 비해 소수의 패키지만 설치하는 conda
의 "미니" 버전인 miniconda를 다운로드하여 설치합니다. usage: piret [-h] -d WORKDIR -e EXPDSN -c CONFIG [-v]
piret
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
required arguments:
-d WORKDIR working directory where all output files will be
processed and written (default: None)
-e EXPDSN tab delimited experimental design file
-c CONFIG, --config CONFIG
luigi config file for setting parameters that control
each step, see github repo for an example (default:
None)
Example runs:
piret -d -e -c
실험 설계 파일은 샘플 이름(SampleID), fastq 파일의 전체 경로(파일) 및 샘플의 다양한 그룹(그룹)으로 구성됩니다. 탭으로 구분된 실험 디자인 파일을 생성하려면 BBedit 또는 TextWrangler와 같은 텍스트 편집기를 사용하는 것이 좋습니다. 탭으로 구분된 파일을 Excel에서 직접 내보내면 형식 문제가 발생하는 경향이 있습니다. 가능하다면 샘플명, 그룹명에는 특수문자를 사용하지 마세요.
예를 들어:
samp1, samp_1 : good name
samp 1, samp.1: not a good name and will likely cause errors.
실험 설계 파일의 샘플은 여기에서 찾을 수 있습니다.
모든 옵션은 구성 파일에서 설정됩니다.
모든 출력은 working directory
내에 있습니다. 기본 출력 파일은 out.json
이라는 연결된 JSON 파일입니다.
samp2
: 이 디렉터리의 이름은 샘플 이름에 해당합니다. 이 폴더에는 두 개의 하위 폴더가 있습니다.
mapping_results
이 폴더에는 다음 형식의 hisat2를 사용하여 매핑된 읽기가 포함되어 있습니다. splice_sites_gff.txt
존재하는 경우 hisat2는 알려진 스플라이스 사이트를 기반으로 정렬됩니다.*.sam
: hisat2 의 출력*.bam
: .sam
에서 생성됨hisat2
의 정렬 요약 파일입니다.*sTie.tab
: 모든 유전자 및 신규 전사물에 대한 적용 범위, FPKM, TPM이 포함된 탭으로 구분된 파일입니다. 끈 묶기를 사용하여 생성되었습니다.*sTie.gtf
: stringtie의 Primay GTF 형식 출력입니다.trimming_results
이 폴더에는 FaQC를 사용한 품질 트리밍 및 필터링 결과가 포함되어 있습니다.*_qc_report.pdf
: 수치가 포함된 QC 보고서 파일입니다.*.stats.txt
: QC 전후의 읽기 횟수가 포함된 요약 파일입니다. ballgown
ballgown
폴더. 폴더는 크게 발현된 유전자를 찾기 위해 R
패키지 ballgown
으로 읽혀집니다. 샘플당 하나의 폴더가 있습니다.
*merged_transcript.gtf
: 모든 샘플에서 병합된 GTF 형식의 중복되지 않는 사본 목록입니다.
featureCounts
: featureCounts
의 개수 테이블이 포함된 폴더입니다.
both
옵션을 모두 사용할 경우 원핵생물의 개수가 이 파일에 포함됩니다. 진핵생물은 euk_CDS.count
라는 파일에서 발견됩니다. edgeR
: 유의하게 발현된 유전자를 검출하기 위해 주로 R 패키지 edgeR
사용하여 처리된 표와 그림이 포함된 폴더입니다. 선택한 옵션에 따라 폴더에는 prokarya
및 eukarya
하나 또는 두 개의 폴더가 있습니다. 이 폴더에는 다음과 같은 파일과 그림이 있습니다.
*RPKM.csv
: 모든 샘플의 모든 유전자에 대한 RPKM 값이 포함된 표입니다.*CPM.csv
: 모든 샘플의 모든 기능에 대한 CPM 값이 포함된 표*feature_count_heatmap.pdf
: gff 파일에 나열된 기능에 대한 개수 데이터를 기반으로 한 히트맵입니다.*feature_count_CPM_histogram.pdf
: CPM 히스토그램입니다.*MDS.pdf
: 샘플에 매핑된 판독값을 기반으로 한 MDS 플롯입니다.group1__group2__gene__et.csv
: 그룹 1과 그룹 2를 비교하는 유전자 이름, logFC, logCPM, PValue 및 FDR이 포함된 테이블입니다. 이 테이블에는 개수가 있는 모든 유전자가 포함되어 있습니다.group1__group2__gene__sig.csv
: 지정된 P-값을 기준으로 중요한 유전자만 포함하는 group1__group2__gene__et.csv
의 하위 집합입니다. 제거하려면 시스템에 없는 모든 종속성이 PiReT
에 설치되어 있으므로 PiReT
폴더를 삭제( rm -rf
)하면 패키지를 제거하기에 충분합니다. 제거하기 전에 프로젝트 파일이 PiReT
디렉터리 내에 있는지 확인하세요 .
PiReT를 사용하는 경우 다음 논문을 인용해 주세요.
저작권(XXXX). 트라이어드 내셔널 시큐리티, LLC. 모든 권리 보유.
이 프로그램은 미국 에너지부/국가 핵안보국 산하 Triad National Security, LLC에서 운영하는 LANL(Los Alamos National Laboratory)을 위한 미국 정부 계약 89233218CNA000001에 따라 제작되었습니다.
프로그램의 모든 권리는 Triad National Security, LLC 및 미국 에너지부/국가 핵 안보국이 보유합니다. 정부는 본 자료에 대해 재생산, 파생 저작물 준비, 대중에게 사본 배포, 공개 공연 및 공개 전시, 타인에게 다음과 같은 행위를 허용할 수 있는 비독점적이고, 지불되었으며, 취소할 수 없는 전 세계 라이센스를 정부 자신과 정부를 대신하여 행동하는 다른 사람에게 부여합니다. 그래서.
이것은 오픈 소스 소프트웨어입니다. GPLv3 라이센스 조건에 따라 재배포 및/또는 수정할 수 있습니다. 파생물을 생성하기 위해 소프트웨어를 수정한 경우, LANL에서 제공되는 버전과 혼동하지 않도록 수정된 소프트웨어를 명확하게 표시해야 합니다. GPLv3 라이센스의 전체 텍스트는 저장소의 주요 개발 지점에 있는 라이센스 파일에서 찾을 수 있습니다.