Pipeline para transcriptômica baseada em referência.
PiReT é instalado usando conda. Portanto, certifique-se de que o conda esteja instalado e em seu caminho. A instalação pode levar até 2 horas dependendo da velocidade da sua internet.
Em breve!
Para que a instalação funcione, o conda deve estar instalado. Veja aqui instruções sobre como instalar o conda. Use os comandos a seguir para criar ambientes conda e depois instalar os pacotes correspondentes. Certifique-se também de que não exista um ambiente com o nome piret_env antes de tentar a instalação. Exclua o ambiente se já estiver presente. Eu recomendo que se você tiver experiência em python, use esta instrução, pois você terá controle sobre cada etapa da instalação e, se algo falhar, você não precisará começar do início.
git clone https://github.com/mshakya/piret.git
cd piret
conda create -n piret_env python=3.6.6 --yes
conda install -c bioconda faqcs -n piret_env --yes
conda install -c bioconda star hisat2 subread -n piret_env --yes
conda install -c bioconda subread stringtie -n piret_env --yes
conda install -c bioconda samtools bamtools bedtools -n piret_env --yes
conda install -c bioconda diamond=0.9.24 -n piret_env --yes
source activate piret_env
cd thirdparty
rm -rf eggnog-mapper
git clone https://github.com/mshakya/eggnog-mapper.git
cd eggnog-mapper
python download_eggnog_data.py -y
cd ..
cd ..
Rscript --no-init-file -e "if('BiocManager' %in% rownames(installed.packages()) == FALSE){install.packages('BiocManager',repos='https://cran.r-project.org')}";
# install optparse
Rscript --no-init-file -e "if('optparse' %in% rownames(installed.packages()) == FALSE){install.packages('optparse',repos='https://cran.r-project.org')}";
# install tidyverse
Rscript --no-init-file -e "if('tidyverse' %in% rownames(installed.packages()) == FALSE){install.packages('tidyverse',repos='https://cran.r-project.org')}";
# install R reshape2 packages
Rscript --no-init-file -e "if('reshape2' %in% rownames(installed.packages()) == FALSE){install.packages('reshape2',repos='https://cran.r-project.org')}";
# install R pheatmap packages
Rscript --no-init-file -e "if('pheatmap' %in% rownames(installed.packages()) == FALSE){install.packages('pheatmap',repos='https://cran.r-project.org')}";
# install R edgeR packages
Rscript --no-init-file -e "if('edgeR' %in% rownames(installed.packages()) == FALSE){BiocManager::install('edgeR')}";
# install R deseq2 packages
Rscript --no-init-file -e "if('DESeq2' %in% rownames(installed.packages()) == FALSE){BiocManager::install('DESeq2')}";
# install R pathview package
Rscript --no-init-file -e "if('pathview' %in% rownames(installed.packages()) == FALSE){BiocManager::install('pathview')}";
# install R gage package
Rscript --no-init-file -e "if('gage' %in% rownames(installed.packages()) == FALSE){BiocManager::install('gage')}";
# install R ballgown package
Rscript --no-init-file -e "if('ballgown' %in% rownames(installed.packages()) == FALSE){BiocManager::install('ballgown')}";
python setup.py install
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh
Por exemplo:
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh piret_env
Certifique-se de que o nome do ambiente (por exemplo, piret_env) ainda não existe.
Em breve!
Fornecemos um conjunto de dados de teste para verificar se a instalação foi bem-sucedida ou não. Os arquivos fastq
podem ser encontrados em tests/fastqs
e os arquivos fasta de referência correspondentes são encontrados em tests/data
. Para executar o teste, no diretório piret
:
Para executar testes em conjuntos de dados de eucariotos:
$ cd piret
$ source activate piret_env
$LUIGI_CONFIG_PATH="/panfs/biopan01/scratch-311300/ecoli_usda/ecoli.cfg" bin/piret -c ecoli.cfg -d ecoli_piret -e exp_desn.txt
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_euk.cfg" bin/piret -c tests/test_euk.cfg -d tests/test_euk -e tests/test_euk.txt
Para executar testes em conjuntos de dados prokarya:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_prok.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_prok.txt
Para executar testes usando conjuntos de dados both
e eukarya:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_both.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_both.txt
Para obter IDs KO para genes, o PiReT usa o emapper. A instalação conda do PiReT também inclui o emapper. No entanto, seu banco de dados precisa ser baixado seguindo as instruções aqui. Brevemente,
PiReT requer as seguintes dependências, todas as quais devem estar instaladas e no PATH.
INSTALL.sh
irá baixar e instalar o miniconda, uma versão "mini" do conda
que instala apenas alguns pacotes em comparação com o anaconda usage: piret [-h] -d WORKDIR -e EXPDSN -c CONFIG [-v]
piret
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
required arguments:
-d WORKDIR working directory where all output files will be
processed and written (default: None)
-e EXPDSN tab delimited experimental design file
-c CONFIG, --config CONFIG
luigi config file for setting parameters that control
each step, see github repo for an example (default:
None)
Example runs:
piret -d -e -c
Um arquivo de design experimental consiste no nome da amostra (SampleID), caminho completo para arquivos fastq (Arquivos) e diferentes grupos de suas amostras (Grupo). Recomendamos que você use um editor de texto como BBedit ou TextWrangler para gerar o arquivo de design experimental delimitado por tabulações. Exportar um arquivo delimitado por tabulação diretamente do Excel tende a causar problemas de formatação. Se possível, evite caracteres especiais em nomes de amostras e nomes de grupos.
Por exemplo:
samp1, samp_1 : good name
samp 1, samp.1: not a good name and will likely cause errors.
Uma amostra do arquivo de projeto experimental pode ser encontrada aqui.
Todas as opções são definidas no arquivo de configuração.
Todas as saídas estarão dentro do working directory
. O arquivo de saída principal é um arquivo JSON concatenado chamado out.json
.
samp2
: O nome deste diretório corresponde ao nome da amostra. Dentro desta pasta existem duas subpastas:
mapping_results
Esta pasta contém leituras mapeadas usando hisat2 nos seguintes formatos. Se splice_sites_gff.txt
estiver presente, hisat2 se alinha com base em sites de splice conhecidos.*.sam
: saídas de hisat2*.bam
: gerado a partir de .sam
hisat2
.*sTie.tab
: arquivo delimitado por tabulações com Cobertura, FPKM, TPM, para todos os genes e novas transcrições. Gerado usando string tie.*sTie.gtf
: saída formatada em GTF principal de stringtie.trimming_results
Esta pasta contém resultados de corte e filtragem de qualidade usando FaQC.*_qc_report.pdf
: Um arquivo de relatório de CQ com números.*.stats.txt
: Arquivo de resumo com números de leituras antes e depois do CQ. pasta ballgown
ballgown
. A pasta deve ser lida pelo pacote R
ballgown
para encontrar genes significativamente expressos. Existe uma pasta por amostra.
*merged_transcript.gtf
: lista não redundante de transcrições em formato GTF mesclada de todas as amostras.
featureCounts
: uma pasta contendo tabelas de contagens de featureCounts
.
both
as opções, as contagens de procariontes ficam neste arquivo. Eucariotos são encontrados em um arquivo chamado euk_CDS.count
edgeR
: uma pasta contendo tabelas e figuras processadas principalmente usando o pacote R edgeR
para detectar genes significativamente expressos. Com base nas opções escolhidas, a pasta terá uma ou duas pastas, prokarya
e eukarya
. Dentro dessas pastas estão os seguintes arquivos e figuras.
*RPKM.csv
: uma tabela com valores RPKM para todos os genes em todas as amostras.*CPM.csv
: uma tabela com valores de CPM para todos os recursos em todas as amostras*feature_count_heatmap.pdf
: Mapa de calor baseado em dados de contagem para os recursos listados em arquivos gff.*feature_count_CPM_histogram.pdf
: um histograma de CPMs.*MDS.pdf
: um gráfico MDS baseado em leituras mapeadas para amostras.group1__group2__gene__et.csv
: tabela com nome do gene, logFC, logCPM, PValue e FDR comparando o grupo1 versus o grupo 2. Este contém todos os genes que possuem alguma contagem.group1__group2__gene__sig.csv
: um subconjunto de group1__group2__gene__et.csv
com todos os genes que são significativos com base no valor P especificado. Para remoção, como todas as dependências que não estão no seu sistema estão instaladas no PiReT
, excluir ( rm -rf
) a pasta PiReT
é suficiente para desinstalar o pacote. Antes de remover, verifique se os arquivos do seu projeto estão no diretório PiReT
.
Se você usa PiReT, cite os seguintes artigos:
Direitos autorais (XXXX). Tríade Segurança Nacional, LLC. Todos os direitos reservados.
Este programa foi produzido sob o contrato 89233218CNA000001 do Governo dos EUA para o Laboratório Nacional de Los Alamos (LANL), que é operado pela Triad National Security, LLC para o Departamento de Energia dos EUA/Administração Nacional de Segurança Nuclear.
Todos os direitos do programa são reservados pela Triad National Security, LLC e pelo Departamento de Energia/Administração Nacional de Segurança Nuclear dos EUA. É concedida ao Governo, para si e para outros que atuem em seu nome, uma licença mundial não exclusiva, paga e irrevogável neste material para reproduzir, preparar trabalhos derivados, distribuir cópias ao público, executar publicamente e exibir publicamente, e para permitir que outros façam então.
Este é um software de código aberto; você pode redistribuí-lo e/ou modificá-lo sob os termos da Licença GPLv3. Se o software for modificado para produzir trabalhos derivados, tal software modificado deverá ser claramente marcado, para não confundi-lo com a versão disponível na LANL. O texto completo da licença GPLv3 pode ser encontrado no arquivo de licença na ramificação principal de desenvolvimento do repositório.