piret下載 - piret原始碼下載

皮瑞特

基於參考的轉錄組學管道。

0.0 安裝PiReT

PiReT 使用 conda 安裝。因此，請確保 conda 已安裝並位於您的路徑中。安裝過程可能需要長達 2 小時，具體取決於您的網路速度。

0.0.1 直接從bioconda安裝

即將推出！

0.0.2 使用conda單獨安裝依賴

為了讓安裝工作正常進行，必須安裝 conda。有關如何安裝 conda 的說明，請參閱此處。使用以下命令建立conda環境，然後安裝對應的套件。在嘗試安裝之前，也要確保不存在名為 piret_env 的環境。如果環境已經存在，請將其刪除。我建議如果您精通 python，請使用此指令，因為您可以控制安裝的每一步，如果出現問題，您不必從頭開始。

 git clone https://github.com/mshakya/piret.git
cd piret
conda create -n piret_env python=3.6.6 --yes
conda install -c bioconda faqcs -n piret_env --yes
conda install -c bioconda star hisat2 subread -n piret_env --yes
conda install -c bioconda subread stringtie -n piret_env --yes
conda install -c bioconda samtools bamtools bedtools -n piret_env --yes
conda install -c bioconda diamond=0.9.24 -n piret_env --yes
source activate piret_env
cd thirdparty
rm -rf eggnog-mapper
git clone https://github.com/mshakya/eggnog-mapper.git
cd eggnog-mapper
python download_eggnog_data.py -y
cd ..
cd ..
Rscript --no-init-file -e "if('BiocManager' %in% rownames(installed.packages()) == FALSE){install.packages('BiocManager',repos='https://cran.r-project.org')}";
# install optparse
Rscript --no-init-file -e "if('optparse' %in% rownames(installed.packages()) == FALSE){install.packages('optparse',repos='https://cran.r-project.org')}";
# install tidyverse
Rscript --no-init-file -e "if('tidyverse' %in% rownames(installed.packages()) == FALSE){install.packages('tidyverse',repos='https://cran.r-project.org')}";
# install R reshape2 packages
Rscript --no-init-file -e "if('reshape2' %in% rownames(installed.packages()) == FALSE){install.packages('reshape2',repos='https://cran.r-project.org')}";
# install R pheatmap packages
Rscript --no-init-file -e "if('pheatmap' %in% rownames(installed.packages()) == FALSE){install.packages('pheatmap',repos='https://cran.r-project.org')}";
# install R edgeR packages
Rscript --no-init-file -e "if('edgeR' %in% rownames(installed.packages()) == FALSE){BiocManager::install('edgeR')}";
# install R deseq2 packages
Rscript --no-init-file -e "if('DESeq2' %in% rownames(installed.packages()) == FALSE){BiocManager::install('DESeq2')}";
# install R pathview package
Rscript --no-init-file -e "if('pathview' %in% rownames(installed.packages()) == FALSE){BiocManager::install('pathview')}";
# install R gage package
Rscript --no-init-file -e "if('gage' %in% rownames(installed.packages()) == FALSE){BiocManager::install('gage')}";
# install R ballgown package
Rscript --no-init-file -e "if('ballgown' %in% rownames(installed.packages()) == FALSE){BiocManager::install('ballgown')}";
python setup.py install

0.0.3 使用提供的 bash 腳本安裝

 $ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh <conda_env>

例如：

 $ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh piret_env

確保環境名稱（例如 piret_env）尚不存在。

0.0.4 使用 pip 安裝

即將推出！

1.0 測試安裝

我們提供了測試資料集來檢查安裝是否成功。 fastq檔可以在tests/fastqs中找到，對應的參考fasta 檔案可以在tests/data中找到。若要從piret目錄執行測試：

對於在真核生物資料集上執行測試：

 $ cd piret
$ source activate piret_env

$LUIGI_CONFIG_PATH="/panfs/biopan01/scratch-311300/ecoli_usda/ecoli.cfg" bin/piret -c ecoli.cfg -d ecoli_piret -e exp_desn.txt
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_euk.cfg" bin/piret -c tests/test_euk.cfg -d tests/test_euk -e tests/test_euk.txt

對於在原核資料集上執行測試：

 $LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_prok.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_prok.txt

對於使用原both和真核資料集執行測試：

 $LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_both.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_both.txt

為了取得基因的 KO id，PiReT 使用 emapper。 PiReT 的 conda 安裝還包括 emapper。但是，需要按照此處的說明下載其資料庫。簡要地，

0.1 依賴關係

PiReT 需要以下依賴項，所有這些依賴項都應安裝並位於 PATH 中。

0.1.0 程式設計/腳本語言

Python >=v3.6.3
- 該管道與 Python v3.0 或更高版本不相容。
R >=v3.3.1
Perl >=v5.26.2

0.1.1 安裝依賴

conda v4.2.13 如果未安裝 conda， INSTALL.sh將下載並安裝 miniconda，這是conda的「迷你」版本，與 anaconda 相比，僅安裝少量軟體包

0.1.2 第三方軟體/軟體包

samtools (>=v1.6)
HiSat2 (>=v2.1.0)
功能計數 (>=v1.6.3)
stringTie (>=v1.3.4d)

0.1.3 R包

邊緣R (>=v3.14.0)
DEseq2 (>=v1.12.4)
舞會禮服 (>=v2.8.0)

0.1.4 Python 套件

路易吉 (>=v2.6.1)
熊貓 (>=v0.19.2)
鉛 (>=v1.6.3)
Biopython (>=v1.68)
gffread (>=v0.8.4rc1)

2.0 運行PiReT

 usage: piret [-h] -d WORKDIR -e EXPDSN -c CONFIG [-v]

piret

optional arguments:
  -h, --help            show this help message and exit
  -v, --version         show program's version number and exit

required arguments:
  -d WORKDIR            working directory where all output files will be
                        processed and written (default: None)
  -e EXPDSN             tab delimited experimental design file
  -c CONFIG, --config CONFIG
                        luigi config file for setting parameters that control
                        each step, see github repo for an example (default:
                        None)

Example runs:

        piret -d <workdir> -e <design file>  -c <config file>

2.1 實驗設計文件

實驗設計檔案由樣本名稱 (SampleID)、fastq 檔案的完整路徑 (Files) 以及不同的樣本組 (Group) 組成。我們建議您使用 BBedit 或 TextWrangler 等文字編輯器來產生製表符分隔的實驗設計檔案。直接從 Excel 匯出製表符分隔檔案往往會導致格式問題。如果可能，請避免樣本名稱和群組名稱中出現任何特殊字元。

例如：

 samp1, samp_1 : good name
samp 1, samp.1: not a good name and will likely cause errors.

您可以在此處找到實驗設計文件的範例。

2.2 設定文件

所有選項都在設定檔中設定。

3.0輸出

所有輸出都將在working directory中。主輸出檔是一個名為out.json的串聯 JSON 檔案。

samp2 ：該目錄的名稱與樣本名稱相對應。該資料夾內有兩個子資料夾：
- mapping_results此資料夾包含使用hisat2以以下格式對應的讀數。如果存在splice_sites_gff.txt ， hisat2將根據已知的剪接位點進行對齊。
  - *.sam ： hisat2的輸出
  - *.bam ：從.sam生成
  - mapping.log：來自hisat2的對齊摘要檔。
  - *sTie.tab ：製表符分隔文件，包含所有基因和新轉錄本的覆蓋率、FPKM、TPM。使用繫繩生成。
  - *sTie.gtf ：stringtie 的 Primay GTF 格式輸出。
- trimming_results此資料夾包含使用 FaQC 進行品質修整和過濾的結果。
  - *_qc_report.pdf ：帶有圖表的 QC 報告文件。
  - fastqCount.txt：包含讀取計數摘要的文字檔案。
  - *trimmed.fastq：一對修剪過的 fastq 檔。
  - *unpaired.trimmed.fastq：QC 後沒有配對的 fastq。
  - *.stats.txt ：包含 QC 之前和之後的讀數數量的摘要文件。
ballgown ballgown夾。此資料夾由R包ballgown讀取，以查找顯著表達的基因。每個樣本有一個資料夾。
*merged_transcript.gtf ：從所有樣本合併的 GTF 格式的非冗餘轉錄本清單。
featureCounts ：包含featureCounts中的計數表的資料夾。
- CDS.count：對應到註解為 CDS 的區域的讀取。
- CDS.count.summary：映射和未對應到 CDS 的讀取摘要。
- 外顯子計數
- 外顯子計數摘要
- prok_CDS.count ：當使用both選項時，原核生物計數位於此檔案中。真核生物在名為euk_CDS.count的檔案中找到
- prok_CDS.count.summary：對應的摘要檔。
edgeR ：包含表格和圖形的資料夾，主要使用R包edgeR處理以檢測顯著表達的基因。根據所選的選項，該資料夾將包含一個或兩個資料夾： prokarya和eukarya 。這些資料夾中有以下文件和圖形。
- *RPKM.csv ：包含所有樣本中所有基因的 RPKM 值的表格。
- *CPM.csv ：包含所有樣本的所有功能的 CPM 值的表格
- *feature_count_heatmap.pdf ：基於 gff 檔案中列出的功能的計數資料的熱圖。
- *feature_count_CPM_histogram.pdf ：CPM 直方圖。
- *MDS.pdf ：基於映射到樣本的讀數的 MDS 圖。
- group1__group2__gene__et.csv ：包含基因名稱、logFC、logCPM、PValue 和 FDR 的表，比較第 1 組與第 2 組。
- group1__group2__gene__sig.csv ： group1__group2__gene__et.csv的子集，其中僅包含基於指定 P 值顯著的所有基因。

4.0 刪除 PiReT

對於刪除，由於系統中不存在的所有相依性都安裝在PiReT中，因此刪除 ( rm -rf ) PiReT資料夾足以卸載該軟體包。在刪除之前檢查您的專案檔案是否位於PiReT目錄中。

5.0 貢獻

彌貢釋迦

6.0 引用：

如果您使用 PiReT，請引用以下論文：

samtools ：Li H.、Handsaker B.、Wysoker A.、Fennell T.、Ruan J.、Homer N.、Marth G.、Abecasis G.、Durbin R. 和 1000 基因組計劃資料處理小組 (2009) 序列比對/map (SAM) 格式和SAMtools。生物資訊學，25，2078-9。 [PMID：19505943]
Bowtie2 ：Langmead, B. 與 Salzberg, SL (2012)。使用 Bowtie 2 進行快速間隙讀比對。 [PMID：22388286]
bwa ：Li H. 和 Durbin R. (2009) 使用 Burrows-Wheeler 變換快速準確地進行短讀比對。生物資訊學，25：1754-60。 [PMID：19451168]
DESeq2 ：Love MI、Huber W 與 Anders S (2014)。 “使用 DESeq2 對 RNA-seq 數據的倍數變化和離散度進行適度估計。”基因組生物學，15，第 550 頁。
edgeR ：McCarthy、J.D、Chen、Yunshun、Smyth 和 K.G (2012)。多因子 RNA-Seq 實驗關於生物變異的差異表達分析。核酸研究，40(10)，第-9頁。 [PMID：22287627]
HTSeq ：Anders, S.、Pyl, PT 和 Huber, W. (2014)。 HTSeq – 一個用於處理高通量定序資料的 Python 框架。生物資訊學。 [PMID：25260700]
hisat2 ：Kim, D.、Langmead, B. 與 Salzberg, SL (2015)。 HISAT：一種記憶體需求低的快速拼接對準器。自然方法，12(4), 357-360。 [PMID：25751142]
BEDTools ：Quinlan AR 和 Hall IM，2010。生物資訊學。 26, 6, 第 841–842 頁。 [PMID：20110278]
蓋奇：羅偉軍、麥可·S·弗里德曼、克比·謝登、庫爾特·D·漢肯森和彼得·J·伍爾夫。 2009.“GAGE：普遍適用的通路分析基因集富集。” BMC 生物資訊 10（5 月）：161。
Pathview ：羅偉君和科里·布勞威爾。 2013.“Pathview：用於基於路徑的數據集成和可視化的 R/Bioconductor 包。”生物資訊學29（14）。牛津大學出版社：1830-31。
舞會禮服：Frazee、Alyssa C.、Geo Pertea、Andrew E. Jaffe、Ben Langmead、Steven L. Salzberg 和 Jeffrey T. Leek。 2015.“Ballgown 彌合了轉錄組組裝和表達分析之間的差距。”自然生物技術 33 (3): 243–46。
特徵計數：Liao、Yang、Gordon K. Smyth 和 Wei Shi。 2014.“featureCounts：一種高效的通用程序，用於將序列讀取分配給基因組特徵。”生物資訊學 30 (7): 923–30。
StringTie ：Pertea、Mihaela、Geo M. Pertea、Corina M. Antonescu、Tsung-Cheng Chang、Joshua T. Mendell 和 Steven L. Salzberg。 2015 年。自然生物技術 33 (3): 290–95。