ไปป์ไลน์สำหรับ Transcriptomics ที่ใช้อ้างอิง
PiReT ได้รับการติดตั้งโดยใช้ conda ดังนั้นโปรดตรวจสอบให้แน่ใจว่ามีการติดตั้ง conda และอยู่ในเส้นทางของคุณ การติดตั้งอาจใช้เวลาสูงสุด 2 ชั่วโมง ขึ้นอยู่กับความเร็วอินเทอร์เน็ตของคุณ
เร็วๆ นี้!
เพื่อให้การติดตั้งใช้งานได้ ต้องติดตั้ง conda ดูคำแนะนำในการติดตั้ง conda ที่นี่ ใช้คำสั่งต่อไปนี้เพื่อสร้างสภาพแวดล้อม conda จากนั้นติดตั้งแพ็คเกจที่เกี่ยวข้อง ตรวจสอบให้แน่ใจว่าไม่มีสภาพแวดล้อมชื่อ piret_env ก่อนที่จะพยายามติดตั้ง ลบสภาพแวดล้อมหากมีอยู่แล้ว ฉันขอแนะนำว่าหากคุณเชี่ยวชาญ Python ให้ใช้คำสั่งนี้เนื่องจากคุณจะสามารถควบคุมทุกขั้นตอนของการติดตั้งได้ และหากมีสิ่งผิดปกติเกิดขึ้น คุณไม่จำเป็นต้องเริ่มจากจุดเริ่มต้น
git clone https://github.com/mshakya/piret.git
cd piret
conda create -n piret_env python=3.6.6 --yes
conda install -c bioconda faqcs -n piret_env --yes
conda install -c bioconda star hisat2 subread -n piret_env --yes
conda install -c bioconda subread stringtie -n piret_env --yes
conda install -c bioconda samtools bamtools bedtools -n piret_env --yes
conda install -c bioconda diamond=0.9.24 -n piret_env --yes
source activate piret_env
cd thirdparty
rm -rf eggnog-mapper
git clone https://github.com/mshakya/eggnog-mapper.git
cd eggnog-mapper
python download_eggnog_data.py -y
cd ..
cd ..
Rscript --no-init-file -e "if('BiocManager' %in% rownames(installed.packages()) == FALSE){install.packages('BiocManager',repos='https://cran.r-project.org')}";
# install optparse
Rscript --no-init-file -e "if('optparse' %in% rownames(installed.packages()) == FALSE){install.packages('optparse',repos='https://cran.r-project.org')}";
# install tidyverse
Rscript --no-init-file -e "if('tidyverse' %in% rownames(installed.packages()) == FALSE){install.packages('tidyverse',repos='https://cran.r-project.org')}";
# install R reshape2 packages
Rscript --no-init-file -e "if('reshape2' %in% rownames(installed.packages()) == FALSE){install.packages('reshape2',repos='https://cran.r-project.org')}";
# install R pheatmap packages
Rscript --no-init-file -e "if('pheatmap' %in% rownames(installed.packages()) == FALSE){install.packages('pheatmap',repos='https://cran.r-project.org')}";
# install R edgeR packages
Rscript --no-init-file -e "if('edgeR' %in% rownames(installed.packages()) == FALSE){BiocManager::install('edgeR')}";
# install R deseq2 packages
Rscript --no-init-file -e "if('DESeq2' %in% rownames(installed.packages()) == FALSE){BiocManager::install('DESeq2')}";
# install R pathview package
Rscript --no-init-file -e "if('pathview' %in% rownames(installed.packages()) == FALSE){BiocManager::install('pathview')}";
# install R gage package
Rscript --no-init-file -e "if('gage' %in% rownames(installed.packages()) == FALSE){BiocManager::install('gage')}";
# install R ballgown package
Rscript --no-init-file -e "if('ballgown' %in% rownames(installed.packages()) == FALSE){BiocManager::install('ballgown')}";
python setup.py install
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh
ตัวอย่างเช่น:
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh piret_env
ตรวจสอบให้แน่ใจว่ายังไม่มีชื่อสภาพแวดล้อม (เช่น piret_env)
เร็วๆ นี้!
เราได้จัดเตรียมชุดข้อมูลทดสอบเพื่อตรวจสอบว่าการติดตั้งสำเร็จหรือไม่ ไฟล์ fastq
สามารถพบได้ใน tests/fastqs
และไฟล์ fasta อ้างอิงที่เกี่ยวข้องจะพบได้ใน tests/data
หากต้องการรันการทดสอบจากภายในไดเร็กทอรี piret
:
สำหรับการรันการทดสอบชุดข้อมูลยูคาริโอต:
$ cd piret
$ source activate piret_env
$LUIGI_CONFIG_PATH="/panfs/biopan01/scratch-311300/ecoli_usda/ecoli.cfg" bin/piret -c ecoli.cfg -d ecoli_piret -e exp_desn.txt
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_euk.cfg" bin/piret -c tests/test_euk.cfg -d tests/test_euk -e tests/test_euk.txt
สำหรับการรันการทดสอบชุดข้อมูล prokarya:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_prok.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_prok.txt
สำหรับการรันการทดสอบโดยใช้ both
ชุดข้อมูล prokarya และ eukarya:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_both.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_both.txt
ในการรับ KO id สำหรับยีน PiReT จะใช้ emapper การติดตั้ง conda ของ PiReT ยังรวมถึง emapper ด้วย อย่างไรก็ตาม จำเป็นต้องดาวน์โหลดฐานข้อมูลตามคำแนะนำที่นี่ สั้น ๆ
PiReT ต้องการการขึ้นต่อกันต่อไปนี้ ซึ่งทั้งหมดควรได้รับการติดตั้งและใน PATH
INSTALL.sh
จะดาวน์โหลดและติดตั้ง miniconda ซึ่งเป็นเวอร์ชัน "มินิ" ของ conda
ที่ติดตั้งแพ็คเกจเพียงไม่กี่ชุดเท่านั้นเมื่อเทียบกับอนาคอนดา usage: piret [-h] -d WORKDIR -e EXPDSN -c CONFIG [-v]
piret
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
required arguments:
-d WORKDIR working directory where all output files will be
processed and written (default: None)
-e EXPDSN tab delimited experimental design file
-c CONFIG, --config CONFIG
luigi config file for setting parameters that control
each step, see github repo for an example (default:
None)
Example runs:
piret -d -e -c
ไฟล์การออกแบบการทดลองประกอบด้วยชื่อตัวอย่าง (SampleID) พาธแบบเต็มไปยังไฟล์ fastq (ไฟล์) และกลุ่มตัวอย่างต่างๆ ของคุณ (กลุ่ม) เราขอแนะนำให้คุณใช้โปรแกรมแก้ไขข้อความ เช่น BBedit หรือ TextWrangler เพื่อสร้างไฟล์การออกแบบการทดลองที่คั่นด้วยแท็บ การส่งออกไฟล์ที่คั่นด้วยแท็บโดยตรงจาก Excel มีแนวโน้มที่จะทำให้เกิดปัญหาในการจัดรูปแบบ หากเป็นไปได้ โปรดหลีกเลี่ยงอักขระพิเศษในชื่อตัวอย่างและชื่อกลุ่ม
ตัวอย่างเช่น:
samp1, samp_1 : good name
samp 1, samp.1: not a good name and will likely cause errors.
สามารถดูตัวอย่างไฟล์การออกแบบการทดลองได้ที่นี่
ตัวเลือกทั้งหมดถูกตั้งค่าไว้ในไฟล์ปรับแต่ง
ผลลัพธ์ทั้งหมดจะอยู่ใน working directory
ไฟล์เอาต์พุตหลักคือไฟล์ JSON ที่ต่อกันที่เรียกว่า out.json
samp2
: ชื่อของไดเร็กทอรีนี้สอดคล้องกับชื่อตัวอย่าง ภายในโฟลเดอร์นี้มีสองโฟลเดอร์ย่อย:
mapping_results
โฟลเดอร์นี้มีการอ่านที่แมปโดยใช้ hisat2 ในรูปแบบต่อไปนี้ หากมี splice_sites_gff.txt
แสดงว่า hisat2 จะจัดเรียงตามไซต์ตัวต่อที่รู้จัก*.sam
: เอาต์พุตของ hisat2*.bam
: สร้างจาก .sam
hisat2
*sTie.tab
: ไฟล์ที่คั่นด้วยแท็บพร้อมความครอบคลุม, FPKM, TPM สำหรับยีนและการถอดเสียงใหม่ทั้งหมด สร้างโดยใช้การผูกเชือก*sTie.gtf
: เอาต์พุตที่จัดรูปแบบ Primay GTF ของ stringtietrimming_results
โฟลเดอร์นี้ประกอบด้วยผลลัพธ์ของการตัดคุณภาพและการกรองโดยใช้ FaQC*_qc_report.pdf
: ไฟล์รายงาน QC พร้อมตัวเลข*.stats.txt
: ไฟล์สรุปจำนวนการอ่านก่อนและหลัง QC โฟลเดอร์ ballgown
ballgown
โฟลเดอร์นี้จะต้องอ่านโดยแพ็คเกจ R
ballgown
เพื่อค้นหายีนที่แสดงออกอย่างมีนัยสำคัญ มีหนึ่งโฟลเดอร์ต่อตัวอย่าง
*merged_transcript.gtf
: รายการการถอดเสียงในรูปแบบ GTF ที่ไม่ซ้ำซ้อนที่รวมจากตัวอย่างทั้งหมด
featureCounts
: โฟลเดอร์ที่มีตารางการนับจาก featureCounts
both
ตัวเลือก จำนวนโปรคาริโอตจะอยู่ในไฟล์นี้ พบยูคาริโอตในไฟล์ชื่อ euk_CDS.count
edgeR
: โฟลเดอร์ที่มีตารางและตัวเลขที่ประมวลผลโดยใช้แพ็คเกจ R เป็นหลัก edgeR
เพื่อตรวจจับยีนที่แสดงออกอย่างมีนัยสำคัญ ตามตัวเลือกที่เลือก โฟลเดอร์จะมีหนึ่งหรือสองโฟลเดอร์ prokarya
และ eukarya
ภายในโฟลเดอร์เหล่านี้จะมีไฟล์และรูปภาพดังต่อไปนี้
*RPKM.csv
: ตารางที่มีค่า RPKM สำหรับยีนทั้งหมดในทุกตัวอย่าง*CPM.csv
: ตารางที่มีค่า CPM สำหรับคุณลักษณะทั้งหมดจากตัวอย่างทั้งหมด*feature_count_heatmap.pdf
: แผนที่ความร้อนตามข้อมูลการนับสำหรับคุณสมบัติที่แสดงอยู่ในไฟล์ gff*feature_count_CPM_histogram.pdf
: ฮิสโตแกรมของ CPM*MDS.pdf
: โครงเรื่อง MDS ตามการอ่านที่แมปกับตัวอย่างgroup1__group2__gene__et.csv
: ตารางที่มีชื่อยีน, logFC, logCPM, PValue และ FDR เปรียบเทียบ group1 กับ group 2 ตารางนี้มียีนทั้งหมดที่มีจำนวนนับgroup1__group2__gene__sig.csv
: เซตย่อยของ group1__group2__gene__et.csv
ที่มียีนทั้งหมดที่มีนัยสำคัญตามค่า P ที่ระบุ สำหรับการลบ เนื่องจากการอ้างอิงทั้งหมดที่ไม่ได้อยู่ในระบบของคุณได้รับการติดตั้งใน PiReT
ให้ลบ ( rm -rf
) โฟลเดอร์ PiReT
ก็เพียงพอที่จะถอนการติดตั้งแพ็คเกจ ก่อนที่จะลบให้ตรวจสอบว่าไฟล์โครงการของคุณอยู่ในไดเรกทอรี PiReT
หรือไม่
หากคุณใช้ PiReT โปรดอ้างอิงเอกสารต่อไปนี้:
ลิขสิทธิ์ (XXXX) ความมั่นคงแห่งชาติ Triad, LLC สงวนลิขสิทธิ์.
โปรแกรมนี้จัดทำขึ้นภายใต้สัญญาของรัฐบาลสหรัฐฯ ที่ 89233218CNA000001 สำหรับ Los Alamos National Laboratory (LANL) ซึ่งดำเนินการโดย Triad National Security, LLC สำหรับกระทรวงพลังงาน/National Nuclear Security Administration ของสหรัฐอเมริกา
สิทธิ์ทั้งหมดในโครงการนี้สงวนไว้โดย Triad National Security, LLC และกระทรวงพลังงาน/สำนักงานความมั่นคงนิวเคลียร์แห่งชาติของสหรัฐอเมริกา รัฐบาลได้รับใบอนุญาตทั่วโลกแบบไม่ผูกขาด ชำระเงินแล้ว และไม่สามารถเพิกถอนได้ทั่วโลกในเอกสารนี้เพื่อผลิตซ้ำ เตรียมงานลอกเลียนแบบ แจกจ่ายสำเนาสู่สาธารณะ ดำเนินการในที่สาธารณะและแสดงต่อสาธารณะ และอนุญาตให้ผู้อื่นกระทำการได้ ดังนั้น.
นี่คือซอฟต์แวร์โอเพ่นซอร์ส คุณสามารถแจกจ่ายต่อและ/หรือแก้ไขได้ภายใต้เงื่อนไขของใบอนุญาต GPLv3 หากมีการดัดแปลงซอฟต์แวร์เพื่อสร้างผลงานลอกเลียนแบบ ควรทำเครื่องหมายซอฟต์แวร์ดัดแปลงดังกล่าวไว้อย่างชัดเจน เพื่อไม่ให้สับสนกับเวอร์ชันที่มีใน LANL ข้อความทั้งหมดของใบอนุญาต GPLv3 สามารถพบได้ในไฟล์ใบอนุญาตในสาขาการพัฒนาหลักของพื้นที่เก็บข้อมูล