Pipeline für referenzbasierte Transkriptomik.
PiReT wird mit Conda installiert. Stellen Sie daher bitte sicher, dass Conda installiert ist und sich in Ihrem Pfad befindet. Die Installation kann je nach Internetgeschwindigkeit bis zu 2 Stunden dauern.
Kommt bald!
Damit die Installation funktioniert, muss Conda installiert sein. Hier finden Sie Anweisungen zur Installation von Conda. Verwenden Sie die folgenden Befehle, um Conda-Umgebungen zu erstellen und dann die entsprechenden Pakete zu installieren. Stellen Sie außerdem sicher, dass keine Umgebung mit dem Namen piret_env vorhanden ist, bevor Sie mit der Installation beginnen. Löschen Sie die Umgebung, falls sie bereits vorhanden ist. Wenn Sie sich mit Python auskennen, empfehle ich Ihnen, diese Anleitung zu verwenden, da Sie die Kontrolle über jeden Schritt der Installation haben und wenn etwas fehlschlägt, Sie nicht von vorne beginnen müssen.
git clone https://github.com/mshakya/piret.git
cd piret
conda create -n piret_env python=3.6.6 --yes
conda install -c bioconda faqcs -n piret_env --yes
conda install -c bioconda star hisat2 subread -n piret_env --yes
conda install -c bioconda subread stringtie -n piret_env --yes
conda install -c bioconda samtools bamtools bedtools -n piret_env --yes
conda install -c bioconda diamond=0.9.24 -n piret_env --yes
source activate piret_env
cd thirdparty
rm -rf eggnog-mapper
git clone https://github.com/mshakya/eggnog-mapper.git
cd eggnog-mapper
python download_eggnog_data.py -y
cd ..
cd ..
Rscript --no-init-file -e "if('BiocManager' %in% rownames(installed.packages()) == FALSE){install.packages('BiocManager',repos='https://cran.r-project.org')}";
# install optparse
Rscript --no-init-file -e "if('optparse' %in% rownames(installed.packages()) == FALSE){install.packages('optparse',repos='https://cran.r-project.org')}";
# install tidyverse
Rscript --no-init-file -e "if('tidyverse' %in% rownames(installed.packages()) == FALSE){install.packages('tidyverse',repos='https://cran.r-project.org')}";
# install R reshape2 packages
Rscript --no-init-file -e "if('reshape2' %in% rownames(installed.packages()) == FALSE){install.packages('reshape2',repos='https://cran.r-project.org')}";
# install R pheatmap packages
Rscript --no-init-file -e "if('pheatmap' %in% rownames(installed.packages()) == FALSE){install.packages('pheatmap',repos='https://cran.r-project.org')}";
# install R edgeR packages
Rscript --no-init-file -e "if('edgeR' %in% rownames(installed.packages()) == FALSE){BiocManager::install('edgeR')}";
# install R deseq2 packages
Rscript --no-init-file -e "if('DESeq2' %in% rownames(installed.packages()) == FALSE){BiocManager::install('DESeq2')}";
# install R pathview package
Rscript --no-init-file -e "if('pathview' %in% rownames(installed.packages()) == FALSE){BiocManager::install('pathview')}";
# install R gage package
Rscript --no-init-file -e "if('gage' %in% rownames(installed.packages()) == FALSE){BiocManager::install('gage')}";
# install R ballgown package
Rscript --no-init-file -e "if('ballgown' %in% rownames(installed.packages()) == FALSE){BiocManager::install('ballgown')}";
python setup.py install
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh
Zum Beispiel:
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh piret_env
Stellen Sie sicher, dass der Umgebungsname (z. B. piret_env) noch nicht existiert.
Kommt bald!
Wir haben einen Testdatensatz bereitgestellt, um zu überprüfen, ob die Installation erfolgreich war oder nicht. fastq
-Dateien finden Sie unter tests/fastqs
und entsprechende Referenz-Fasta-Dateien finden Sie unter tests/data
. Um den Test aus piret
-Verzeichnis auszuführen:
Zum Ausführen von Tests an Eukaryoten-Datensätzen:
$ cd piret
$ source activate piret_env
$LUIGI_CONFIG_PATH="/panfs/biopan01/scratch-311300/ecoli_usda/ecoli.cfg" bin/piret -c ecoli.cfg -d ecoli_piret -e exp_desn.txt
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_euk.cfg" bin/piret -c tests/test_euk.cfg -d tests/test_euk -e tests/test_euk.txt
Zum Ausführen von Tests für Prokarya-Datensätze:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_prok.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_prok.txt
Zum Ausführen von Tests mit both
und Eukarya-Datensätzen:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_both.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_both.txt
Um KO-IDs für Gene zu erhalten, verwendet PiReT emapper. Die Conda-Installation von PiReT enthält auch emapper. Die Datenbank muss jedoch gemäß den Anweisungen hier heruntergeladen werden. Knapp,
PiReT erfordert die folgenden Abhängigkeiten, die alle installiert und im PATH sein sollten.
INSTALL.sh
Miniconda herunter und installiert es, eine „Mini“-Version von conda
, die im Vergleich zu Anaconda nur eine Handvoll Pakete installiert usage: piret [-h] -d WORKDIR -e EXPDSN -c CONFIG [-v]
piret
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
required arguments:
-d WORKDIR working directory where all output files will be
processed and written (default: None)
-e EXPDSN tab delimited experimental design file
-c CONFIG, --config CONFIG
luigi config file for setting parameters that control
each step, see github repo for an example (default:
None)
Example runs:
piret -d -e -c
Eine experimentelle Designdatei besteht aus dem Probennamen (SampleID), dem vollständigen Pfad zu den Fastq-Dateien (Files) und verschiedenen Gruppen Ihrer Proben (Group). Wir empfehlen Ihnen, einen Texteditor wie BBedit oder TextWrangler zu verwenden, um die durch Tabulatoren getrennte experimentelle Designdatei zu erstellen. Das Exportieren einer tabulatorgetrennten Datei direkt aus Excel führt häufig zu Formatierungsproblemen. Bitte vermeiden Sie nach Möglichkeit Sonderzeichen in Probennamen und Gruppennamen.
Zum Beispiel:
samp1, samp_1 : good name
samp 1, samp.1: not a good name and will likely cause errors.
Ein Beispiel einer experimentellen Designdatei finden Sie hier.
Alle Optionen werden in der Konfigurationsdatei festgelegt.
Alle Ausgaben befinden sich im working directory
. Die Hauptausgabedatei ist eine verkettete JSON-Datei mit dem Namen out.json
.
samp2
: Der Name dieses Verzeichnisses entspricht dem Beispielnamen. Innerhalb dieses Ordners gibt es zwei Unterordner:
mapping_results
Dieser Ordner enthält mithilfe von hisat2 zugeordnete Lesevorgänge in den folgenden Formaten. Wenn splice_sites_gff.txt
vorhanden ist, richtet hisat2 basierend auf bekannten Spleißstellen aus.*.sam
: Ausgaben von hisat2*.bam
: generiert aus .sam
hisat2
.*sTie.tab
: Tabulatorgetrennte Datei mit Abdeckung, FPKM, TPM für alle Gene und neuartigen Transkripte. Erzeugt mit Schnurbindung.*sTie.gtf
: Primay GTF-formatierte Ausgabe von stringtie.trimming_results
Dieser Ordner enthält Ergebnisse des Qualitätstrimmings und Filterns mit FaQC.*_qc_report.pdf
: Eine QC-Berichtsdatei mit Zahlen.*.stats.txt
: Zusammenfassungsdatei mit der Anzahl der Lesevorgänge vor und nach der Qualitätskontrolle. ballgown
ballgown
Ordner. Der Ordner soll von R
- ballgown
gelesen werden, um signifikant exprimierte Gene zu finden. Pro Probe gibt es einen Ordner.
*merged_transcript.gtf
: Nicht redundante Liste von Transkripten im GTF-Format, die aus allen Proben zusammengeführt wurden.
featureCounts
: Ein Ordner mit Zähltabellen von featureCounts
.
both
Optionen sind die Prokaryotenzahlen in dieser Datei enthalten. Eukaryoten werden in der Datei euk_CDS.count
gefunden edgeR
: Ein Ordner mit Tabellen und Abbildungen, der hauptsächlich mit dem R-Paket edgeR
verarbeitet wurde, um signifikant exprimierte Gene zu erkennen. Basierend auf den ausgewählten Optionen enthält der Ordner entweder einen oder zwei Ordner, prokarya
und eukarya
. In diesen Ordnern befinden sich folgende Dateien und Abbildungen.
*RPKM.csv
: Eine Tabelle mit RPKM-Werten für alle Gene in allen Proben.*CPM.csv
: Eine Tabelle mit CPM-Werten für alle Features in allen Stichproben*feature_count_heatmap.pdf
: Heatmap basierend auf Zähldaten für die in GFF-Dateien aufgeführten Features.*feature_count_CPM_histogram.pdf
: Ein Histogramm der CPMs.*MDS.pdf
: Ein MDS-Diagramm basierend auf den Proben zugeordneten Lesevorgängen.group1__group2__gene__et.csv
: Tabelle mit Gennamen, logFC, logCPM, PValue und FDR zum Vergleich von Gruppe1 und Gruppe 2. Diese enthält alle Gene, die eine Anzahl haben.group1__group2__gene__sig.csv
: Eine Teilmenge von group1__group2__gene__et.csv
mit nur allen Genen, die basierend auf dem angegebenen P-Wert signifikant sind. Da zum Entfernen alle Abhängigkeiten, die sich nicht in Ihrem System befinden, in PiReT
installiert sind, reicht es aus, PiReT
Ordner zu löschen ( rm -rf
), um das Paket zu deinstallieren. Überprüfen Sie vor dem Entfernen, ob sich Ihre Projektdateien im PiReT
-Verzeichnis befinden .
Wenn Sie PiReT verwenden, zitieren Sie bitte folgende Dokumente:
Urheberrecht (XXXX). Triad National Security, LLC. Alle Rechte vorbehalten.
Dieses Programm wurde im Rahmen des US-Regierungsvertrags 89233218CNA000001 für das Los Alamos National Laboratory (LANL) erstellt, das von Triad National Security, LLC für das US-Energieministerium/die National Nuclear Security Administration betrieben wird.
Alle Rechte am Programm liegen bei Triad National Security, LLC und dem US-Energieministerium/National Nuclear Security Administration. Der Regierung wird für sich selbst und andere, die in ihrem Namen handeln, eine nicht ausschließliche, bezahlte, unwiderrufliche weltweite Lizenz für dieses Material gewährt, um dieses Material zu reproduzieren, abgeleitete Werke zu erstellen, Kopien an die Öffentlichkeit zu verteilen, öffentlich aufzuführen und öffentlich anzuzeigen und anderen dies zu gestatten Also.
Dies ist Open-Source-Software; Sie können es unter den Bedingungen der GPLv3-Lizenz weiterverbreiten und/oder ändern. Wenn Software geändert wird, um daraus abgeleitete Werke zu erstellen, sollte diese geänderte Software deutlich gekennzeichnet werden, um sie nicht mit der von LANL erhältlichen Version zu verwechseln. Der vollständige Text der GPLv3-Lizenz finden Sie in der Lizenzdatei im Hauptentwicklungszweig des Repositorys.