Canalización de transcriptómica basada en referencias.
PiReT se instala usando conda. Por lo tanto, asegúrese de que conda esté instalado y en su ruta. La instalación puede tardar hasta 2 horas dependiendo de su velocidad de Internet.
¡Muy pronto!
Para que la instalación funcione, se debe instalar conda. Consulte aquí para obtener instrucciones sobre cómo instalar conda. Utilice los siguientes comandos para crear entornos conda y luego instalar los paquetes correspondientes. También asegúrese de que no haya un entorno con el nombre piret_env antes de intentar la instalación. Elimine el entorno si ya está presente. Le recomiendo que, si tiene conocimientos de Python, utilice estas instrucciones, ya que tendrá control en cada paso de la instalación y, si algo falla, no tendrá que empezar desde el principio.
git clone https://github.com/mshakya/piret.git
cd piret
conda create -n piret_env python=3.6.6 --yes
conda install -c bioconda faqcs -n piret_env --yes
conda install -c bioconda star hisat2 subread -n piret_env --yes
conda install -c bioconda subread stringtie -n piret_env --yes
conda install -c bioconda samtools bamtools bedtools -n piret_env --yes
conda install -c bioconda diamond=0.9.24 -n piret_env --yes
source activate piret_env
cd thirdparty
rm -rf eggnog-mapper
git clone https://github.com/mshakya/eggnog-mapper.git
cd eggnog-mapper
python download_eggnog_data.py -y
cd ..
cd ..
Rscript --no-init-file -e "if('BiocManager' %in% rownames(installed.packages()) == FALSE){install.packages('BiocManager',repos='https://cran.r-project.org')}";
# install optparse
Rscript --no-init-file -e "if('optparse' %in% rownames(installed.packages()) == FALSE){install.packages('optparse',repos='https://cran.r-project.org')}";
# install tidyverse
Rscript --no-init-file -e "if('tidyverse' %in% rownames(installed.packages()) == FALSE){install.packages('tidyverse',repos='https://cran.r-project.org')}";
# install R reshape2 packages
Rscript --no-init-file -e "if('reshape2' %in% rownames(installed.packages()) == FALSE){install.packages('reshape2',repos='https://cran.r-project.org')}";
# install R pheatmap packages
Rscript --no-init-file -e "if('pheatmap' %in% rownames(installed.packages()) == FALSE){install.packages('pheatmap',repos='https://cran.r-project.org')}";
# install R edgeR packages
Rscript --no-init-file -e "if('edgeR' %in% rownames(installed.packages()) == FALSE){BiocManager::install('edgeR')}";
# install R deseq2 packages
Rscript --no-init-file -e "if('DESeq2' %in% rownames(installed.packages()) == FALSE){BiocManager::install('DESeq2')}";
# install R pathview package
Rscript --no-init-file -e "if('pathview' %in% rownames(installed.packages()) == FALSE){BiocManager::install('pathview')}";
# install R gage package
Rscript --no-init-file -e "if('gage' %in% rownames(installed.packages()) == FALSE){BiocManager::install('gage')}";
# install R ballgown package
Rscript --no-init-file -e "if('ballgown' %in% rownames(installed.packages()) == FALSE){BiocManager::install('ballgown')}";
python setup.py install
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh
Por ejemplo:
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh piret_env
Asegúrese de que el nombre del entorno (por ejemplo, piret_env) no exista todavía.
¡Muy pronto!
Hemos proporcionado un conjunto de datos de prueba para comprobar si la instalación se realizó correctamente o no. Los archivos fastq
se pueden encontrar en tests/fastqs
y los archivos fasta de referencia correspondientes se encuentran en tests/data
. Para ejecutar la prueba, desde el directorio piret
:
Para realizar pruebas en conjuntos de datos de eucariotas:
$ cd piret
$ source activate piret_env
$LUIGI_CONFIG_PATH="/panfs/biopan01/scratch-311300/ecoli_usda/ecoli.cfg" bin/piret -c ecoli.cfg -d ecoli_piret -e exp_desn.txt
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_euk.cfg" bin/piret -c tests/test_euk.cfg -d tests/test_euk -e tests/test_euk.txt
Para ejecutar pruebas en conjuntos de datos de prokarya:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_prok.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_prok.txt
Para ejecutar pruebas utilizando conjuntos de datos both
prokarya y eukarya:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_both.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_both.txt
Para obtener identificadores de KO para genes, PiReT utiliza emapper. La instalación conda de PiReT también incluye emapper. Sin embargo, su base de datos debe descargarse siguiendo las instrucciones aquí. Brevemente,
PiReT requiere las siguientes dependencias, todas las cuales deben estar instaladas y en la RUTA.
INSTALL.sh
descargará e instalará miniconda, una versión "mini" de conda
que solo instala unos pocos paquetes en comparación con anaconda. usage: piret [-h] -d WORKDIR -e EXPDSN -c CONFIG [-v]
piret
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
required arguments:
-d WORKDIR working directory where all output files will be
processed and written (default: None)
-e EXPDSN tab delimited experimental design file
-c CONFIG, --config CONFIG
luigi config file for setting parameters that control
each step, see github repo for an example (default:
None)
Example runs:
piret -d -e -c
Un archivo de diseño experimental consta del nombre de la muestra (SampleID), la ruta completa a los archivos fastq (Archivos) y diferentes grupos de sus muestras (Grupo). Le recomendamos que utilice un editor de texto como BBedit o TextWrangler para generar el archivo de diseño experimental delimitado por tabulaciones. Exportar un archivo delimitado por tabulaciones directamente desde Excel tiende a causar problemas de formato. Si es posible, evite caracteres especiales en los nombres de muestras y de grupos.
Por ejemplo:
samp1, samp_1 : good name
samp 1, samp.1: not a good name and will likely cause errors.
Puede encontrar una muestra de un archivo de diseño experimental aquí.
Todas las opciones están configuradas en el archivo de configuración.
Todas las salidas estarán dentro del working directory
. El archivo de salida principal es un archivo JSON concatenado llamado out.json
.
samp2
: el nombre de este directorio corresponde al nombre de la muestra. Dentro de esta carpeta hay dos subcarpetas:
mapping_results
Esta carpeta contiene lecturas asignadas usando hisat2 en los siguientes formatos. Si splice_sites_gff.txt
está presente, hisat2 se alinea según los sitios de empalme conocidos.*.sam
: salidas de hisat2*.bam
: generado a partir de .sam
hisat2
.*sTie.tab
: archivo delimitado por tabulaciones con cobertura, FPKM, TPM, para todos los genes y transcripciones novedosas. Generado usando una cuerda.*sTie.gtf
: Salida formateada Primay GTF de stringtie.trimming_results
Esta carpeta contiene resultados de recorte y filtrado de calidad mediante FaQC.*_qc_report.pdf
: Un archivo de informe de control de calidad con cifras.*.stats.txt
: Archivo de resumen con números de lecturas antes y después del control de calidad. carpeta ballgown
ballgown
. La carpeta debe ser leída por ballgown
paquete R
para encontrar genes expresados significativamente. Hay una carpeta por muestra.
*merged_transcript.gtf
: Lista no redundante de transcripciones en formato GTF fusionadas de todas las muestras.
featureCounts
: una carpeta que contiene tablas de recuentos de featureCounts
.
both
opciones, los recuentos de procariotas están en este archivo. Los eucariotas se encuentran en el archivo llamado euk_CDS.count
edgeR
: carpeta que contiene tablas y figuras procesadas principalmente utilizando el paquete R edgeR
para detectar genes expresados significativamente. Según las opciones elegidas, la carpeta tendrá una o dos carpetas, prokarya
y eukarya
. Dentro de estas carpetas se encuentran los siguientes archivos y figuras.
*RPKM.csv
: una tabla con valores de RPKM para todos los genes en todas las muestras.*CPM.csv
: una tabla con valores de CPM para todas las funciones en todas las muestras.*feature_count_heatmap.pdf
: mapa de calor basado en datos de recuento de las funciones enumeradas en archivos gff.*feature_count_CPM_histogram.pdf
: un histograma de CPM.*MDS.pdf
: un gráfico MDS basado en lecturas asignadas a muestras.group1__group2__gene__et.csv
: tabla con el nombre del gen, logFC, logCPM, PValue y FDR comparando el grupo 1 con el grupo 2. Este contiene todos los genes que tienen algún recuento.group1__group2__gene__sig.csv
: un subconjunto de group1__group2__gene__et.csv
con todos los genes que son significativos según el valor P especificado. Para eliminarlo, dado que todas las dependencias que no están en su sistema están instaladas en PiReT
, eliminar ( rm -rf
) la carpeta PiReT
es suficiente para desinstalar el paquete. Antes de eliminar, verifique si los archivos de su proyecto están dentro del directorio PiReT
.
Si utiliza PiReT, cite los siguientes artículos:
Derechos de autor (XXXX). Tríada de Seguridad Nacional, LLC. Reservados todos los derechos.
Este programa fue producido bajo el contrato 89233218CNA000001 del Gobierno de los EE. UU. para el Laboratorio Nacional de Los Álamos (LANL), operado por Triad National Security, LLC para el Departamento de Energía de los EE. UU./Administración Nacional de Seguridad Nuclear.
Todos los derechos del programa están reservados por Triad National Security, LLC y el Departamento de Energía de EE. UU./Administración Nacional de Seguridad Nuclear. Se concede al Gobierno, para sí mismo y para otros que actúen en su nombre, una licencia mundial no exclusiva, pagada e irrevocable sobre este material para reproducir, preparar trabajos derivados, distribuir copias al público, actuar y exhibir públicamente, y permitir que otros hagan entonces.
Este es un software de código abierto; puede redistribuirlo y/o modificarlo bajo los términos de la Licencia GPLv3. Si el software se modifica para producir trabajos derivados, dicho software modificado debe marcarse claramente para no confundirlo con la versión disponible en LANL. El texto completo de la licencia GPLv3 se puede encontrar en el archivo de licencia en la rama de desarrollo principal del repositorio.