基於參考的轉錄組學管道。
PiReT 使用 conda 安裝。因此,請確保 conda 已安裝並位於您的路徑中。安裝過程可能需要長達 2 小時,具體取決於您的網路速度。
即將推出!
為了讓安裝工作正常進行,必須安裝 conda。有關如何安裝 conda 的說明,請參閱此處。使用以下命令建立conda環境,然後安裝對應的套件。在嘗試安裝之前,也要確保不存在名為 piret_env 的環境。如果環境已經存在,請將其刪除。我建議如果您精通 python,請使用此指令,因為您可以控制安裝的每一步,如果出現問題,您不必從頭開始。
git clone https://github.com/mshakya/piret.git
cd piret
conda create -n piret_env python=3.6.6 --yes
conda install -c bioconda faqcs -n piret_env --yes
conda install -c bioconda star hisat2 subread -n piret_env --yes
conda install -c bioconda subread stringtie -n piret_env --yes
conda install -c bioconda samtools bamtools bedtools -n piret_env --yes
conda install -c bioconda diamond=0.9.24 -n piret_env --yes
source activate piret_env
cd thirdparty
rm -rf eggnog-mapper
git clone https://github.com/mshakya/eggnog-mapper.git
cd eggnog-mapper
python download_eggnog_data.py -y
cd ..
cd ..
Rscript --no-init-file -e "if('BiocManager' %in% rownames(installed.packages()) == FALSE){install.packages('BiocManager',repos='https://cran.r-project.org')}";
# install optparse
Rscript --no-init-file -e "if('optparse' %in% rownames(installed.packages()) == FALSE){install.packages('optparse',repos='https://cran.r-project.org')}";
# install tidyverse
Rscript --no-init-file -e "if('tidyverse' %in% rownames(installed.packages()) == FALSE){install.packages('tidyverse',repos='https://cran.r-project.org')}";
# install R reshape2 packages
Rscript --no-init-file -e "if('reshape2' %in% rownames(installed.packages()) == FALSE){install.packages('reshape2',repos='https://cran.r-project.org')}";
# install R pheatmap packages
Rscript --no-init-file -e "if('pheatmap' %in% rownames(installed.packages()) == FALSE){install.packages('pheatmap',repos='https://cran.r-project.org')}";
# install R edgeR packages
Rscript --no-init-file -e "if('edgeR' %in% rownames(installed.packages()) == FALSE){BiocManager::install('edgeR')}";
# install R deseq2 packages
Rscript --no-init-file -e "if('DESeq2' %in% rownames(installed.packages()) == FALSE){BiocManager::install('DESeq2')}";
# install R pathview package
Rscript --no-init-file -e "if('pathview' %in% rownames(installed.packages()) == FALSE){BiocManager::install('pathview')}";
# install R gage package
Rscript --no-init-file -e "if('gage' %in% rownames(installed.packages()) == FALSE){BiocManager::install('gage')}";
# install R ballgown package
Rscript --no-init-file -e "if('ballgown' %in% rownames(installed.packages()) == FALSE){BiocManager::install('ballgown')}";
python setup.py install
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh
例如:
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh piret_env
確保環境名稱(例如 piret_env)尚不存在。
即將推出!
我們提供了測試資料集來檢查安裝是否成功。 fastq
檔可以在tests/fastqs
中找到,對應的參考fasta 檔案可以在tests/data
中找到。若要從piret
目錄執行測試:
對於在真核生物資料集上執行測試:
$ cd piret
$ source activate piret_env
$LUIGI_CONFIG_PATH="/panfs/biopan01/scratch-311300/ecoli_usda/ecoli.cfg" bin/piret -c ecoli.cfg -d ecoli_piret -e exp_desn.txt
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_euk.cfg" bin/piret -c tests/test_euk.cfg -d tests/test_euk -e tests/test_euk.txt
對於在原核資料集上執行測試:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_prok.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_prok.txt
對於使用原both
和真核資料集執行測試:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_both.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_both.txt
為了取得基因的 KO id,PiReT 使用 emapper。 PiReT 的 conda 安裝還包括 emapper。但是,需要按照此處的說明下載其資料庫。簡要地,
PiReT 需要以下依賴項,所有這些依賴項都應安裝並位於 PATH 中。
INSTALL.sh
將下載並安裝 miniconda,這是conda
的「迷你」版本,與 anaconda 相比,僅安裝少量軟體包 usage: piret [-h] -d WORKDIR -e EXPDSN -c CONFIG [-v]
piret
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
required arguments:
-d WORKDIR working directory where all output files will be
processed and written (default: None)
-e EXPDSN tab delimited experimental design file
-c CONFIG, --config CONFIG
luigi config file for setting parameters that control
each step, see github repo for an example (default:
None)
Example runs:
piret -d -e -c
實驗設計檔案由樣本名稱 (SampleID)、fastq 檔案的完整路徑 (Files) 以及不同的樣本組 (Group) 組成。我們建議您使用 BBedit 或 TextWrangler 等文字編輯器來產生製表符分隔的實驗設計檔案。直接從 Excel 匯出製表符分隔檔案往往會導致格式問題。如果可能,請避免樣本名稱和群組名稱中出現任何特殊字元。
例如:
samp1, samp_1 : good name
samp 1, samp.1: not a good name and will likely cause errors.
您可以在此處找到實驗設計文件的範例。
所有選項都在設定檔中設定。
所有輸出都將在working directory
中。主輸出檔是一個名為out.json
的串聯 JSON 檔案。
samp2
:該目錄的名稱與樣本名稱相對應。該資料夾內有兩個子資料夾:
mapping_results
此資料夾包含使用hisat2以以下格式對應的讀數。如果存在splice_sites_gff.txt
, hisat2將根據已知的剪接位點進行對齊。*.sam
: hisat2的輸出*.bam
:從.sam
生成hisat2
的對齊摘要檔。*sTie.tab
:製表符分隔文件,包含所有基因和新轉錄本的覆蓋率、FPKM、TPM。使用繫繩生成。*sTie.gtf
:stringtie 的 Primay GTF 格式輸出。trimming_results
此資料夾包含使用 FaQC 進行品質修整和過濾的結果。*_qc_report.pdf
:帶有圖表的 QC 報告文件。*.stats.txt
:包含 QC 之前和之後的讀數數量的摘要文件。 ballgown
ballgown
夾。此資料夾由R
包ballgown
讀取,以查找顯著表達的基因。每個樣本有一個資料夾。
*merged_transcript.gtf
:從所有樣本合併的 GTF 格式的非冗餘轉錄本清單。
featureCounts
:包含featureCounts
中的計數表的資料夾。
both
選項時,原核生物計數位於此檔案中。真核生物在名為euk_CDS.count
的檔案中找到 edgeR
:包含表格和圖形的資料夾,主要使用R包edgeR
處理以檢測顯著表達的基因。根據所選的選項,該資料夾將包含一個或兩個資料夾: prokarya
和eukarya
。這些資料夾中有以下文件和圖形。
*RPKM.csv
:包含所有樣本中所有基因的 RPKM 值的表格。*CPM.csv
:包含所有樣本的所有功能的 CPM 值的表格*feature_count_heatmap.pdf
:基於 gff 檔案中列出的功能的計數資料的熱圖。*feature_count_CPM_histogram.pdf
:CPM 直方圖。*MDS.pdf
:基於映射到樣本的讀數的 MDS 圖。group1__group2__gene__et.csv
:包含基因名稱、logFC、logCPM、PValue 和 FDR 的表,比較第 1 組與第 2 組。group1__group2__gene__sig.csv
: group1__group2__gene__et.csv
的子集,其中僅包含基於指定 P 值顯著的所有基因。 對於刪除,由於系統中不存在的所有相依性都安裝在PiReT
中,因此刪除 ( rm -rf
) PiReT
資料夾足以卸載該軟體包。在刪除之前檢查您的專案檔案是否位於PiReT
目錄中。
如果您使用 PiReT,請引用以下論文:
版權所有(XXXX)。三合會國家安全有限責任公司。版權所有。
該程序是根據美國政府合約 89233218CNA000001 為洛斯阿拉莫斯國家實驗室 (LANL) 製作的,該實驗室由 Triad National Security, LLC 為美國能源部/國家核安全管理局運營。
本計劃的所有權利均由 Triad National Security, LLC 和美國能源部/國家核安全管理局保留。政府被授予其自身和代表其行事的其他人在本材料中複製、準備衍生作品、向公眾分發副本、公開表演和公開展示以及允許其他人進行本材料的非排他性、付費的、不可撤銷的全球許可。
這是開源軟體;您可以根據 GPLv3 授權的條款重新分發和/或修改它。如果對軟體進行修改以產生衍生作品,則應清楚標記此類修改後的軟體,以免與 LANL 提供的版本混淆。 GPLv3 授權的全文可以在儲存庫主開發分支的授權文件中找到。