リファレンスベースのトランスクリプトミクスのためのパイプライン。
PiReT は conda を使用してインストールされます。したがって、conda がパスにインストールされていることを確認してください。インターネットの速度によっては、インストールに最大 2 時間かかる場合があります。
近日公開!
インストールが機能するには、conda がインストールされている必要があります。 conda のインストール方法については、こちらを参照してください。次のコマンドを使用して conda 環境を作成し、対応するパッケージをインストールします。また、インストールを試行する前に、piret_env という名前の環境が存在しないことを確認してください。環境がすでに存在する場合は削除します。 Python に精通している場合は、この手順を使用することをお勧めします。インストールのすべてのステップを制御できるため、何かが失敗しても最初からやり直す必要がなくなります。
git clone https://github.com/mshakya/piret.git
cd piret
conda create -n piret_env python=3.6.6 --yes
conda install -c bioconda faqcs -n piret_env --yes
conda install -c bioconda star hisat2 subread -n piret_env --yes
conda install -c bioconda subread stringtie -n piret_env --yes
conda install -c bioconda samtools bamtools bedtools -n piret_env --yes
conda install -c bioconda diamond=0.9.24 -n piret_env --yes
source activate piret_env
cd thirdparty
rm -rf eggnog-mapper
git clone https://github.com/mshakya/eggnog-mapper.git
cd eggnog-mapper
python download_eggnog_data.py -y
cd ..
cd ..
Rscript --no-init-file -e "if('BiocManager' %in% rownames(installed.packages()) == FALSE){install.packages('BiocManager',repos='https://cran.r-project.org')}";
# install optparse
Rscript --no-init-file -e "if('optparse' %in% rownames(installed.packages()) == FALSE){install.packages('optparse',repos='https://cran.r-project.org')}";
# install tidyverse
Rscript --no-init-file -e "if('tidyverse' %in% rownames(installed.packages()) == FALSE){install.packages('tidyverse',repos='https://cran.r-project.org')}";
# install R reshape2 packages
Rscript --no-init-file -e "if('reshape2' %in% rownames(installed.packages()) == FALSE){install.packages('reshape2',repos='https://cran.r-project.org')}";
# install R pheatmap packages
Rscript --no-init-file -e "if('pheatmap' %in% rownames(installed.packages()) == FALSE){install.packages('pheatmap',repos='https://cran.r-project.org')}";
# install R edgeR packages
Rscript --no-init-file -e "if('edgeR' %in% rownames(installed.packages()) == FALSE){BiocManager::install('edgeR')}";
# install R deseq2 packages
Rscript --no-init-file -e "if('DESeq2' %in% rownames(installed.packages()) == FALSE){BiocManager::install('DESeq2')}";
# install R pathview package
Rscript --no-init-file -e "if('pathview' %in% rownames(installed.packages()) == FALSE){BiocManager::install('pathview')}";
# install R gage package
Rscript --no-init-file -e "if('gage' %in% rownames(installed.packages()) == FALSE){BiocManager::install('gage')}";
# install R ballgown package
Rscript --no-init-file -e "if('ballgown' %in% rownames(installed.packages()) == FALSE){BiocManager::install('ballgown')}";
python setup.py install
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh
例えば:
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh piret_env
環境名 (piret_env など) がまだ存在しないことを確認してください。
近日公開!
インストールが成功したかどうかを確認するためのテスト データ セットを提供しました。 fastq
ファイルはtests/fastqs
にあり、対応する参照 fasta ファイルはtests/data
にあります。 piret
ディレクトリ内からテストを実行するには:
真核生物データセットでテストを実行するには:
$ cd piret
$ source activate piret_env
$LUIGI_CONFIG_PATH="/panfs/biopan01/scratch-311300/ecoli_usda/ecoli.cfg" bin/piret -c ecoli.cfg -d ecoli_piret -e exp_desn.txt
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_euk.cfg" bin/piret -c tests/test_euk.cfg -d tests/test_euk -e tests/test_euk.txt
原核データセットでテストを実行するには:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_prok.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_prok.txt
原核データセットと真核データセットのboth
を使用してテストを実行する場合:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_both.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_both.txt
遺伝子の KO ID を取得するために、PiReT は emapper を使用します。 PiReT の conda インストールには emapper も含まれています。ただし、ここの指示に従ってデータベースをダウンロードする必要があります。簡単に言うと、
PiReT には次の依存関係が必要です。これらはすべて PATH にインストールされている必要があります。
INSTALL.sh
miniconda をダウンロードしてインストールします。miniconda は、anaconda と比較して少数のパッケージのみをインストールするconda
の「ミニ」バージョンです。 usage: piret [-h] -d WORKDIR -e EXPDSN -c CONFIG [-v]
piret
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
required arguments:
-d WORKDIR working directory where all output files will be
processed and written (default: None)
-e EXPDSN tab delimited experimental design file
-c CONFIG, --config CONFIG
luigi config file for setting parameters that control
each step, see github repo for an example (default:
None)
Example runs:
piret -d -e -c
実験計画ファイルは、サンプル名 (SampleID)、fastq ファイルへのフルパス (Files)、およびサンプルのさまざまなグループ (Group) で構成されます。 BBedit や TextWrangler などのテキスト エディタを使用して、タブ区切りの実験計画ファイルを生成することをお勧めします。タブ区切りファイルを Excel から直接エクスポートすると、書式設定の問題が発生する傾向があります。可能であれば、サンプル名やグループ名に特殊文字を使用しないでください。
例えば:
samp1, samp_1 : good name
samp 1, samp.1: not a good name and will likely cause errors.
実験計画ファイルのサンプルはここにあります。
すべてのオプションは構成ファイルで設定されます。
すべての出力はworking directory
内にあります。メインの出力ファイルは、 out.json
という名前の連結された JSON ファイルです。
samp2
: このディレクトリの名前はサンプル名に対応します。このフォルダー内には 2 つのサブフォルダーがあります。
mapping_results
このフォルダーには、次の形式でhisat2 を使用してマップされた読み取りが含まれます。 splice_sites_gff.txt
が存在する場合、 hisat2 は既知のスプライス サイトに基づいて位置合わせされます。*.sam
: hisat2の出力*.bam
: .sam
から生成hisat2
からのアライメント概要ファイル。*sTie.tab
: すべての遺伝子と新規転写産物のカバレッジ、FPKM、TPM を含むタブ区切りファイル。文字列タイを使用して生成されます。*sTie.gtf
: ストリングタイのプライマリ GTF 形式出力。trimming_results
このフォルダーには、FaQC を使用した高品質のトリミングとフィルタリングの結果が含まれています。*_qc_report.pdf
: 図付きの QC レポート ファイル。*.stats.txt
: QC の前後の読み取り数を含む概要ファイル。 ballgown
ballgown
フォルダー。このフォルダーは、顕著に発現された遺伝子を見つけるためにR
パッケージballgown
によって読み取られます。サンプルごとに 1 つのフォルダーがあります。
*merged_transcript.gtf
: すべてのサンプルからマージされた GTF 形式のトランスクリプトの非冗長リスト。
featureCounts
: featureCounts
からのカウントのテーブルが含まれるフォルダー。
both
オプションを使用すると、原核生物の数がこのファイルに含まれます。真核生物はeuk_CDS.count
という名前のファイルにあります edgeR
: 主に発現量の多い遺伝子を検出するためのRパッケージedgeR
使用して処理された表や図が含まれるフォルダーです。選択したオプションに基づいて、フォルダーには 1 つまたは 2 つのフォルダー ( prokarya
およびeukarya
が含まれます。これらのフォルダー内に以下のファイルと図があります。
*RPKM.csv
: すべてのサンプルにわたるすべての遺伝子の RPKM 値を含むテーブル。*CPM.csv
: すべてのサンプルにわたるすべての特徴の CPM 値を含むテーブル*feature_count_heatmap.pdf
: gff ファイルにリストされているフィーチャのカウント データに基づくヒートマップ。*feature_count_CPM_histogram.pdf
: CPM のヒストグラム。*MDS.pdf
: サンプルにマッピングされたリードに基づく MDS プロット。group1__group2__gene__et.csv
: グループ 1 とグループ 2 を比較する遺伝子名、logFC、logCPM、PValue、および FDR を含むテーブル。これには、カウントのあるすべての遺伝子が含まれます。group1__group2__gene__sig.csv
: 指定された P 値に基づいて有意な遺伝子のみを含むgroup1__group2__gene__et.csv
のサブセット。 削除の場合、システムにない依存関係はすべてPiReT
にインストールされているため、パッケージをアンインストールするにはPiReT
フォルダーを削除 ( rm -rf
) するだけで十分です。削除する前に、プロジェクト ファイルがPiReT
ディレクトリ内にあるかどうかを確認してください。
PiReT を使用する場合は、次の論文を引用してください。
著作権 (XXXX)。トライアド ナショナル セキュリティ LLC。無断転載を禁じます。
このプログラムは、米国エネルギー省/国家核安全保障局の Triad National Security, LLC が運営するロス アラモス国立研究所 (LANL) 向けに、米国政府との契約 89233218CNA000001 に基づいて作成されました。
プログラムのすべての権利は、Triad National Security, LLC および米国エネルギー省/国家核安全保障局によって留保されます。政府は、政府自身およびその代理人に対して、本資料の複製、二次的著作物の作成、コピーの公衆への配布、公の上演および公の展示、および他者の行為の許可を行うための、非独占的で有料の取消不能な世界規模のライセンスを付与されます。それで。
これはオープンソース ソフトウェアです。 GPLv3 ライセンスの条項に基づいて再配布したり変更したりすることができます。二次的著作物を作成するためにソフトウェアを変更する場合は、LANL から入手可能なバージョンと混同しないように、そのような変更されたソフトウェアを明確にマークする必要があります。 GPLv3 ライセンスの全文は、リポジトリのメイン開発ブランチにあるライセンス ファイルにあります。