Конвейер для справочной транскриптомики.
PiReT устанавливается с помощью conda. Итак, убедитесь, что conda установлена и находится на вашем пути. Установка может занять до 2 часов в зависимости от скорости вашего интернета.
Вскоре!
Чтобы установка работала, необходимо установить conda. Инструкции по установке conda см. здесь. Используйте следующие команды для создания сред conda, а затем установите соответствующие пакеты. Также перед попыткой установки убедитесь, что не существует среды с именем piret_env. Удалите среду, если она уже существует. Я рекомендую, если вы разбираетесь в Python, используйте эту инструкцию, поскольку вы будете контролировать каждый этап установки, и если что-то пойдет не так, вам не придется начинать с самого начала.
git clone https://github.com/mshakya/piret.git
cd piret
conda create -n piret_env python=3.6.6 --yes
conda install -c bioconda faqcs -n piret_env --yes
conda install -c bioconda star hisat2 subread -n piret_env --yes
conda install -c bioconda subread stringtie -n piret_env --yes
conda install -c bioconda samtools bamtools bedtools -n piret_env --yes
conda install -c bioconda diamond=0.9.24 -n piret_env --yes
source activate piret_env
cd thirdparty
rm -rf eggnog-mapper
git clone https://github.com/mshakya/eggnog-mapper.git
cd eggnog-mapper
python download_eggnog_data.py -y
cd ..
cd ..
Rscript --no-init-file -e "if('BiocManager' %in% rownames(installed.packages()) == FALSE){install.packages('BiocManager',repos='https://cran.r-project.org')}";
# install optparse
Rscript --no-init-file -e "if('optparse' %in% rownames(installed.packages()) == FALSE){install.packages('optparse',repos='https://cran.r-project.org')}";
# install tidyverse
Rscript --no-init-file -e "if('tidyverse' %in% rownames(installed.packages()) == FALSE){install.packages('tidyverse',repos='https://cran.r-project.org')}";
# install R reshape2 packages
Rscript --no-init-file -e "if('reshape2' %in% rownames(installed.packages()) == FALSE){install.packages('reshape2',repos='https://cran.r-project.org')}";
# install R pheatmap packages
Rscript --no-init-file -e "if('pheatmap' %in% rownames(installed.packages()) == FALSE){install.packages('pheatmap',repos='https://cran.r-project.org')}";
# install R edgeR packages
Rscript --no-init-file -e "if('edgeR' %in% rownames(installed.packages()) == FALSE){BiocManager::install('edgeR')}";
# install R deseq2 packages
Rscript --no-init-file -e "if('DESeq2' %in% rownames(installed.packages()) == FALSE){BiocManager::install('DESeq2')}";
# install R pathview package
Rscript --no-init-file -e "if('pathview' %in% rownames(installed.packages()) == FALSE){BiocManager::install('pathview')}";
# install R gage package
Rscript --no-init-file -e "if('gage' %in% rownames(installed.packages()) == FALSE){BiocManager::install('gage')}";
# install R ballgown package
Rscript --no-init-file -e "if('ballgown' %in% rownames(installed.packages()) == FALSE){BiocManager::install('ballgown')}";
python setup.py install
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh
Например:
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh piret_env
Убедитесь, что имя среды (например, piret_env) еще не существует.
Вскоре!
Мы предоставили набор тестовых данных, чтобы проверить, прошла ли установка успешно или нет. Файлы fastq
можно найти в tests/fastqs
, а соответствующие справочные файлы fasta находятся в tests/data
. Чтобы запустить тест из каталога piret
:
Для проведения тестов на наборах данных эукариот:
$ cd piret
$ source activate piret_env
$LUIGI_CONFIG_PATH="/panfs/biopan01/scratch-311300/ecoli_usda/ecoli.cfg" bin/piret -c ecoli.cfg -d ecoli_piret -e exp_desn.txt
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_euk.cfg" bin/piret -c tests/test_euk.cfg -d tests/test_euk -e tests/test_euk.txt
Для запуска тестов на наборах данных прокарии:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_prok.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_prok.txt
Для запуска тестов с использованием наборов данных both
и эукарий:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_both.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_both.txt
Для получения идентификаторов KO для генов PiReT использует emapper. В состав Conda-установки PiReT также входит emapper. Однако его базу данных необходимо загрузить, следуя инструкциям здесь. Кратко,
PiReT требует следующих зависимостей, все из которых должны быть установлены в PATH.
INSTALL.sh
загрузит и установит miniconda, «мини-версию conda
», которая устанавливает лишь несколько пакетов по сравнению с anaconda. usage: piret [-h] -d WORKDIR -e EXPDSN -c CONFIG [-v]
piret
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
required arguments:
-d WORKDIR working directory where all output files will be
processed and written (default: None)
-e EXPDSN tab delimited experimental design file
-c CONFIG, --config CONFIG
luigi config file for setting parameters that control
each step, see github repo for an example (default:
None)
Example runs:
piret -d -e -c
Файл экспериментального проекта состоит из имени образца (SampleID), полного пути к файлам fastq (Files) и различных групп ваших образцов (Group). Мы рекомендуем вам использовать текстовый редактор, такой как BBedit или TextWrangler, для создания файла экспериментального проекта с разделителями-табуляцией. Экспорт файла с разделителями табуляции непосредственно из Excel обычно приводит к проблемам с форматированием. По возможности избегайте использования специальных символов в названиях образцов и названиях групп.
Например:
samp1, samp_1 : good name
samp 1, samp.1: not a good name and will likely cause errors.
Образец файла экспериментального проекта можно найти здесь.
Все параметры задаются в файле конфигурации.
Все выходные данные будут находиться в working directory
. Основной выходной файл — это объединенный файл JSON с именем out.json
.
samp2
: имя этого каталога соответствует имени образца. В этой папке есть две подпапки:
mapping_results
Эта папка содержит чтения, сопоставленные с помощью hisat2 в следующих форматах. Если присутствует splice_sites_gff.txt
, hisat2 выравнивается на основе известных сайтов сплайсинга.*.sam
: выходы hisat2*.bam
: создано из .sam
hisat2
.*sTie.tab
: файл с разделителями табуляцией и указанием покрытия, FPKM, TPM для всех генов и новых транскриптов. Создано с использованием веревочной связи.*sTie.gtf
: выходные данные stringtie в формате Primay GTF.trimming_results
В этой папке содержатся результаты качественной обрезки и фильтрации с помощью FaQC.*_qc_report.pdf
: файл отчета по контролю качества с цифрами.*.stats.txt
: Сводный файл с количеством чтений до и после контроля качества. Папка ballgown
ballgown
. Папка должна быть прочитана ballgown
R
для обнаружения значительно экспрессируемых генов. Для каждого образца имеется одна папка.
*merged_transcript.gtf
: неизбыточный список транскриптов в формате GTF, объединенный из всех образцов.
featureCounts
: папка, содержащая таблицы счетчиков из featureCounts
.
both
опций количество прокариот находится в этом файле. Эукариоты находятся в файле euk_CDS.count
edgeR
: папка, содержащая таблицы и рисунки, обработанные в основном с использованием пакета R edgeR
для обнаружения значительно экспрессируемых генов. В зависимости от выбранных параметров в папке будет одна или две папки: prokarya
и eukarya
. В этих папках находятся следующие файлы и рисунки.
*RPKM.csv
: таблица со значениями RPKM для всех генов во всех образцах.*CPM.csv
: таблица со значениями цены за тысячу показов для всех функций во всех образцах.*feature_count_heatmap.pdf
: Тепловая карта, основанная на данных подсчета объектов, перечисленных в файлах gff.*feature_count_CPM_histogram.pdf
: гистограмма цен за тысячу показов.*MDS.pdf
: график MDS, основанный на чтениях, сопоставленных с образцами.group1__group2__gene__et.csv
: таблица с именем гена, logFC, logCPM, PValue и FDR, сравнивающая группу 1 и группу 2. Она содержит все гены, имеющие какое-либо количество.group1__group2__gene__sig.csv
: подмножество group1__group2__gene__et.csv
, содержащее только гены, значимые на основе указанного P-значения. Для удаления, поскольку все зависимости, которых нет в вашей системе, установлены в PiReT
, для удаления пакета достаточно удалить ( rm -rf
) папку PiReT
. Перед удалением проверьте, находятся ли файлы вашего проекта в каталоге PiReT
.
Если вы используете PiReT, пожалуйста, цитируйте следующие статьи:
Авторское право (ХХХХ). ООО «Триада национальной безопасности». Все права защищены.
Эта программа была разработана по контракту правительства США 89233218CNA000001 для Лос-Аламосской национальной лаборатории (LANL), которой управляет Triad National Security, LLC для Министерства энергетики США/Национального управления ядерной безопасности.
Все права на программу принадлежат компании Triad National Security, LLC и Министерству энергетики США/Национальной администрации по ядерной безопасности. Правительству предоставляется для себя и других лиц, действующих от его имени, неисключительная, оплаченная, безотзывная всемирная лицензия на воспроизведение этого материала, подготовку производных работ, распространение копий среди публики, публичное исполнение и публичный показ, а также на разрешение другим делать так.
Это программное обеспечение с открытым исходным кодом; вы можете распространять его и/или изменять в соответствии с условиями лицензии GPLv3. Если программное обеспечение модифицируется для создания производных продуктов, такое модифицированное программное обеспечение должно быть четко обозначено, чтобы не перепутать его с версией, доступной в LANL. Полный текст лицензии GPLv3 можно найти в файле лицензии в основной ветке разработки репозитория.