Pipeline untuk Transkriptomik berbasis Referensi.
PiReT diinstal menggunakan conda. Jadi, pastikan conda diinstal dan sesuai jalur Anda. Instalasi dapat memakan waktu hingga 2 jam tergantung kecepatan internet Anda.
Segera hadir!
Agar instalasi berfungsi, conda harus diinstal. Lihat di sini untuk petunjuk tentang cara menginstal conda. Gunakan perintah berikut untuk membuat lingkungan conda dan kemudian menginstal paket yang sesuai. Pastikan juga tidak ada lingkungan bernama piret_env sebelum mencoba instalasi. Hapus lingkungan jika sudah ada. Saya menyarankan jika Anda paham python, gunakan instruksi ini karena Anda akan memiliki kendali pada setiap langkah instalasi, dan jika terjadi kegagalan, Anda tidak perlu memulai dari awal.
git clone https://github.com/mshakya/piret.git
cd piret
conda create -n piret_env python=3.6.6 --yes
conda install -c bioconda faqcs -n piret_env --yes
conda install -c bioconda star hisat2 subread -n piret_env --yes
conda install -c bioconda subread stringtie -n piret_env --yes
conda install -c bioconda samtools bamtools bedtools -n piret_env --yes
conda install -c bioconda diamond=0.9.24 -n piret_env --yes
source activate piret_env
cd thirdparty
rm -rf eggnog-mapper
git clone https://github.com/mshakya/eggnog-mapper.git
cd eggnog-mapper
python download_eggnog_data.py -y
cd ..
cd ..
Rscript --no-init-file -e "if('BiocManager' %in% rownames(installed.packages()) == FALSE){install.packages('BiocManager',repos='https://cran.r-project.org')}";
# install optparse
Rscript --no-init-file -e "if('optparse' %in% rownames(installed.packages()) == FALSE){install.packages('optparse',repos='https://cran.r-project.org')}";
# install tidyverse
Rscript --no-init-file -e "if('tidyverse' %in% rownames(installed.packages()) == FALSE){install.packages('tidyverse',repos='https://cran.r-project.org')}";
# install R reshape2 packages
Rscript --no-init-file -e "if('reshape2' %in% rownames(installed.packages()) == FALSE){install.packages('reshape2',repos='https://cran.r-project.org')}";
# install R pheatmap packages
Rscript --no-init-file -e "if('pheatmap' %in% rownames(installed.packages()) == FALSE){install.packages('pheatmap',repos='https://cran.r-project.org')}";
# install R edgeR packages
Rscript --no-init-file -e "if('edgeR' %in% rownames(installed.packages()) == FALSE){BiocManager::install('edgeR')}";
# install R deseq2 packages
Rscript --no-init-file -e "if('DESeq2' %in% rownames(installed.packages()) == FALSE){BiocManager::install('DESeq2')}";
# install R pathview package
Rscript --no-init-file -e "if('pathview' %in% rownames(installed.packages()) == FALSE){BiocManager::install('pathview')}";
# install R gage package
Rscript --no-init-file -e "if('gage' %in% rownames(installed.packages()) == FALSE){BiocManager::install('gage')}";
# install R ballgown package
Rscript --no-init-file -e "if('ballgown' %in% rownames(installed.packages()) == FALSE){BiocManager::install('ballgown')}";
python setup.py install
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh
Misalnya:
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh piret_env
Pastikan nama lingkungan (mis. piret_env) belum ada.
Segera hadir!
Kami telah menyediakan kumpulan data pengujian untuk memeriksa apakah instalasi berhasil atau tidak. file fastq
dapat ditemukan di tests/fastqs
dan file fasta referensi terkait ditemukan di tests/data
. Untuk menjalankan pengujian, dari dalam direktori piret
:
Untuk menjalankan pengujian pada kumpulan data eukariota:
$ cd piret
$ source activate piret_env
$LUIGI_CONFIG_PATH="/panfs/biopan01/scratch-311300/ecoli_usda/ecoli.cfg" bin/piret -c ecoli.cfg -d ecoli_piret -e exp_desn.txt
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_euk.cfg" bin/piret -c tests/test_euk.cfg -d tests/test_euk -e tests/test_euk.txt
Untuk menjalankan pengujian pada kumpulan data prokarya:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_prok.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_prok.txt
Untuk menjalankan pengujian menggunakan both
data prokarya dan eukarya:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_both.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_both.txt
Untuk mendapatkan ID KO untuk gen, PiReT menggunakan emapper. Instalasi conda PiReT juga menyertakan emapper. Namun, databasenya perlu diunduh dengan mengikuti instruksi di sini. Secara singkat,
PiReT memerlukan dependensi berikut, yang semuanya harus diinstal dan di PATH.
INSTALL.sh
akan mengunduh dan menginstal miniconda, versi "mini" dari conda
yang hanya menginstal sedikit paket dibandingkan dengan anaconda usage: piret [-h] -d WORKDIR -e EXPDSN -c CONFIG [-v]
piret
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
required arguments:
-d WORKDIR working directory where all output files will be
processed and written (default: None)
-e EXPDSN tab delimited experimental design file
-c CONFIG, --config CONFIG
luigi config file for setting parameters that control
each step, see github repo for an example (default:
None)
Example runs:
piret -d -e -c
File desain eksperimental terdiri dari nama sampel (SampleID), jalur lengkap ke file fastq (File), dan grup sampel Anda yang berbeda (Grup). Kami menyarankan Anda menggunakan editor teks seperti BBedit atau TextWrangler untuk menghasilkan file desain eksperimental yang dibatasi tab. Mengekspor file yang dibatasi tab langsung dari Excel cenderung menyebabkan masalah pemformatan. Jika memungkinkan, harap hindari karakter khusus apa pun dalam nama sampel dan nama grup.
Misalnya:
samp1, samp_1 : good name
samp 1, samp.1: not a good name and will likely cause errors.
Contoh file desain eksperimen dapat dilihat di sini.
Semua opsi diatur dalam file konfigurasi.
Semua output akan berada dalam working directory
. File keluaran utama adalah file JSON gabungan yang disebut out.json
.
samp2
: Nama direktori ini sesuai dengan nama sampel. Di dalam folder ini terdapat dua sub-folder:
mapping_results
Folder ini berisi bacaan yang dipetakan menggunakan hisat2 dalam format berikut. Jika splice_sites_gff.txt
ada, hisat2 disejajarkan berdasarkan situs sambungan yang diketahui.*.sam
: keluaran hisat2*.bam
: dihasilkan dari .sam
hisat2
.*sTie.tab
: File yang dibatasi tab dengan Cakupan, FPKM, TPM, untuk semua gen dan transkrip baru. Dihasilkan menggunakan tali pengikat.*sTie.gtf
: Output stringtie berformat Primay GTF.trimming_results
Folder ini berisi hasil pemangkasan dan penyaringan kualitas menggunakan FaQC.*_qc_report.pdf
: File laporan QC dengan gambar.*.stats.txt
: File ringkasan dengan jumlah pembacaan sebelum dan sesudah QC. folder ballgown
ballgown
. Folder tersebut akan dibaca oleh ballgown
paket R
untuk menemukan gen yang diekspresikan secara signifikan. Ada satu folder per sampel.
*merged_transcript.gtf
: Daftar transkrip non-redundan dalam format GTF yang digabungkan dari semua sampel.
featureCounts
: Folder yang berisi tabel hitungan dari featureCounts
.
both
opsi, jumlah prokariota ada di file ini. Eukariota ditemukan dalam file bernama euk_CDS.count
edgeR
: Folder berisi tabel dan gambar yang diproses terutama menggunakan paket R edgeR
untuk mendeteksi gen yang diekspresikan secara signifikan. Berdasarkan opsi yang dipilih, folder tersebut akan memiliki satu atau dua folder, prokarya
dan eukarya
. Di dalam folder ini terdapat file dan gambar berikut.
*RPKM.csv
: Tabel berisi nilai RPKM untuk semua gen di seluruh sampel.*CPM.csv
: Tabel dengan nilai CPM untuk semua fitur di semua sampel*feature_count_heatmap.pdf
: Peta panas berdasarkan jumlah data untuk fitur yang tercantum dalam file gff.*feature_count_CPM_histogram.pdf
: Histogram CPM.*MDS.pdf
: Plot MDS berdasarkan pembacaan yang dipetakan ke sampel.group1__group2__gene__et.csv
: tabel dengan nama gen, logFC, logCPM, PValue, dan FDR yang membandingkan grup1 vs. grup 2. Tabel ini berisi semua gen yang memiliki jumlah apa pun.group1__group2__gene__sig.csv
: Subset dari group1__group2__gene__et.csv
dengan semua gen yang signifikan berdasarkan nilai P yang ditentukan. Untuk penghapusan, karena semua dependensi yang tidak ada di sistem Anda diinstal di PiReT
, menghapus ( rm -rf
) folder PiReT
sudah cukup untuk menghapus instalasi paket. Sebelum menghapus, periksa apakah file proyek Anda berada dalam direktori PiReT
.
Jika Anda menggunakan PiReT, harap kutip makalah berikut:
Hak Cipta (XXXX). Keamanan Nasional Triad, LLC. Semua hak dilindungi undang-undang.
Program ini diproduksi berdasarkan kontrak Pemerintah AS 89233218CNA000001 untuk Los Alamos National Laboratory (LANL), yang dioperasikan oleh Triad National Security, LLC untuk Departemen Energi/Administrasi Keamanan Nuklir Nasional AS.
Semua hak dalam program ini dimiliki oleh Triad National Security, LLC, dan Departemen Energi/Administrasi Keamanan Nuklir Nasional AS. Pemerintah diberikan kepada dirinya sendiri dan pihak lain yang bertindak atas namanya lisensi non-eksklusif, berbayar, dan tidak dapat dibatalkan di seluruh dunia atas materi ini untuk mereproduksi, menyiapkan karya turunan, mendistribusikan salinan kepada publik, menampilkan dan menampilkan secara publik, dan mengizinkan orang lain untuk melakukan hal tersebut. Jadi.
Ini adalah perangkat lunak sumber terbuka; Anda dapat mendistribusikan ulang dan/atau memodifikasinya berdasarkan ketentuan Lisensi GPLv3. Jika perangkat lunak dimodifikasi untuk menghasilkan karya turunan, perangkat lunak yang dimodifikasi tersebut harus ditandai dengan jelas, agar tidak tertukar dengan versi yang tersedia dari LANL. Teks lengkap Lisensi GPLv3 dapat ditemukan di file Lisensi di cabang pengembangan utama repositori.