基于参考的转录组学管道。
PiReT 使用 conda 安装。因此,请确保 conda 已安装并位于您的路径中。安装过程最多可能需要 2 小时,具体取决于您的互联网速度。
即将推出!
为了让安装工作正常进行,必须安装 conda。有关如何安装 conda 的说明,请参阅此处。使用以下命令创建conda环境,然后安装相应的包。在尝试安装之前,还要确保不存在名为 piret_env 的环境。如果环境已经存在,请将其删除。我建议如果您精通 python,请使用此指令,因为您可以控制安装的每一步,并且如果出现问题,您不必从头开始。
git clone https://github.com/mshakya/piret.git
cd piret
conda create -n piret_env python=3.6.6 --yes
conda install -c bioconda faqcs -n piret_env --yes
conda install -c bioconda star hisat2 subread -n piret_env --yes
conda install -c bioconda subread stringtie -n piret_env --yes
conda install -c bioconda samtools bamtools bedtools -n piret_env --yes
conda install -c bioconda diamond=0.9.24 -n piret_env --yes
source activate piret_env
cd thirdparty
rm -rf eggnog-mapper
git clone https://github.com/mshakya/eggnog-mapper.git
cd eggnog-mapper
python download_eggnog_data.py -y
cd ..
cd ..
Rscript --no-init-file -e "if('BiocManager' %in% rownames(installed.packages()) == FALSE){install.packages('BiocManager',repos='https://cran.r-project.org')}";
# install optparse
Rscript --no-init-file -e "if('optparse' %in% rownames(installed.packages()) == FALSE){install.packages('optparse',repos='https://cran.r-project.org')}";
# install tidyverse
Rscript --no-init-file -e "if('tidyverse' %in% rownames(installed.packages()) == FALSE){install.packages('tidyverse',repos='https://cran.r-project.org')}";
# install R reshape2 packages
Rscript --no-init-file -e "if('reshape2' %in% rownames(installed.packages()) == FALSE){install.packages('reshape2',repos='https://cran.r-project.org')}";
# install R pheatmap packages
Rscript --no-init-file -e "if('pheatmap' %in% rownames(installed.packages()) == FALSE){install.packages('pheatmap',repos='https://cran.r-project.org')}";
# install R edgeR packages
Rscript --no-init-file -e "if('edgeR' %in% rownames(installed.packages()) == FALSE){BiocManager::install('edgeR')}";
# install R deseq2 packages
Rscript --no-init-file -e "if('DESeq2' %in% rownames(installed.packages()) == FALSE){BiocManager::install('DESeq2')}";
# install R pathview package
Rscript --no-init-file -e "if('pathview' %in% rownames(installed.packages()) == FALSE){BiocManager::install('pathview')}";
# install R gage package
Rscript --no-init-file -e "if('gage' %in% rownames(installed.packages()) == FALSE){BiocManager::install('gage')}";
# install R ballgown package
Rscript --no-init-file -e "if('ballgown' %in% rownames(installed.packages()) == FALSE){BiocManager::install('ballgown')}";
python setup.py install
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh
例如:
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh piret_env
确保环境名称(例如 piret_env)尚不存在。
即将推出!
我们提供了测试数据集来检查安装是否成功。 fastq
文件可以在tests/fastqs
中找到,相应的参考fasta 文件可以在tests/data
中找到。要从piret
目录运行测试:
对于在真核生物数据集上运行测试:
$ cd piret
$ source activate piret_env
$LUIGI_CONFIG_PATH="/panfs/biopan01/scratch-311300/ecoli_usda/ecoli.cfg" bin/piret -c ecoli.cfg -d ecoli_piret -e exp_desn.txt
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_euk.cfg" bin/piret -c tests/test_euk.cfg -d tests/test_euk -e tests/test_euk.txt
对于在原核数据集上运行测试:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_prok.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_prok.txt
对于使用原both
和真核数据集运行测试:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_both.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_both.txt
为了获取基因的 KO id,PiReT 使用 emapper。 PiReT 的 conda 安装还包括 emapper。但是,需要按照此处的说明下载其数据库。简要地,
PiReT 需要以下依赖项,所有这些依赖项都应安装并位于 PATH 中。
INSTALL.sh
将下载并安装 miniconda,这是conda
的“迷你”版本,与 anaconda 相比,它仅安装少量软件包 usage: piret [-h] -d WORKDIR -e EXPDSN -c CONFIG [-v]
piret
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
required arguments:
-d WORKDIR working directory where all output files will be
processed and written (default: None)
-e EXPDSN tab delimited experimental design file
-c CONFIG, --config CONFIG
luigi config file for setting parameters that control
each step, see github repo for an example (default:
None)
Example runs:
piret -d -e -c
实验设计文件由样本名称 (SampleID)、fastq 文件的完整路径 (Files) 以及不同的样本组 (Group) 组成。我们建议您使用 BBedit 或 TextWrangler 等文本编辑器来生成制表符分隔的实验设计文件。直接从 Excel 导出制表符分隔文件往往会导致格式问题。如果可能,请避免样本名称和组名称中出现任何特殊字符。
例如:
samp1, samp_1 : good name
samp 1, samp.1: not a good name and will likely cause errors.
您可以在此处找到实验设计文件的示例。
所有选项都在配置文件中设置。
所有输出都将在working directory
中。主输出文件是一个名为out.json
的串联 JSON 文件。
samp2
:该目录的名称对应于样本名称。该文件夹内有两个子文件夹:
mapping_results
此文件夹包含使用hisat2按以下格式映射的读数。如果存在splice_sites_gff.txt
, hisat2将根据已知的剪接位点进行对齐。*.sam
: hisat2的输出*.bam
:从.sam
生成hisat2
的对齐摘要文件。*sTie.tab
:制表符分隔文件,包含所有基因和新转录本的覆盖率、FPKM、TPM。使用系绳生成。*sTie.gtf
:stringtie 的 Primay GTF 格式输出。trimming_results
此文件夹包含使用 FaQC 进行质量修整和过滤的结果。*_qc_report.pdf
:带有图表的 QC 报告文件。*.stats.txt
:包含 QC 之前和之后的读数数量的摘要文件。 ballgown
ballgown
夹。该文件夹由R
包ballgown
读取,以查找显着表达的基因。每个样本有一个文件夹。
*merged_transcript.gtf
:从所有样本合并的 GTF 格式的非冗余转录本列表。
featureCounts
:包含featureCounts
中的计数表的文件夹。
both
选项时,原核生物计数位于此文件中。真核生物在名为euk_CDS.count
的文件中找到 edgeR
:包含表格和图形的文件夹,主要使用R包edgeR
处理以检测显着表达的基因。根据所选的选项,该文件夹将包含一个或两个文件夹: prokarya
和eukarya
。这些文件夹中有以下文件和图形。
*RPKM.csv
:包含所有样本中所有基因的 RPKM 值的表格。*CPM.csv
:包含所有样本的所有功能的 CPM 值的表格*feature_count_heatmap.pdf
:基于 gff 文件中列出的功能的计数数据的热图。*feature_count_CPM_histogram.pdf
:CPM 直方图。*MDS.pdf
:基于映射到样本的读数的 MDS 图。group1__group2__gene__et.csv
:包含基因名称、logFC、logCPM、PValue 和 FDR 的表,比较第 1 组与第 2 组。该表包含具有任何计数的所有基因。group1__group2__gene__sig.csv
: group1__group2__gene__et.csv
的子集,其中仅包含基于指定 P 值显着的所有基因。 对于删除,由于系统中不存在的所有依赖项都安装在PiReT
中,因此删除 ( rm -rf
) PiReT
文件夹足以卸载该软件包。在删除之前检查您的项目文件是否位于PiReT
目录中。
如果您使用 PiReT,请引用以下论文:
版权所有(XXXX)。三合会国家安全有限责任公司。版权所有。
该程序是根据美国政府合同 89233218CNA000001 为洛斯阿拉莫斯国家实验室 (LANL) 制作的,该实验室由 Triad National Security, LLC 为美国能源部/国家核安全管理局运营。
该计划的所有权利均由 Triad National Security, LLC 和美国能源部/国家核安全管理局保留。政府被授予其自身和代表其行事的其他人在本材料中复制、准备衍生作品、向公众分发副本、公开表演和公开展示以及允许其他人这样做的非排他性、付费的、不可撤销的全球许可。所以。
这是开源软件;您可以根据 GPLv3 许可证的条款重新分发和/或修改它。如果对软件进行修改以产生衍生作品,则应清楚地标记此类修改后的软件,以免与 LANL 提供的版本相混淆。 GPLv3 许可证的全文可以在存储库主开发分支的许可证文件中找到。