خط أنابيب لTranscriptomics المرجعية.
تم تثبيت PiReT باستخدام conda. لذا، يرجى التأكد من تثبيت conda وفي المسار الخاص بك. يمكن أن يستغرق التثبيت ما يصل إلى ساعتين حسب سرعة الإنترنت لديك.
قريباً!
لكي يعمل التثبيت، يجب تثبيت conda. انظر هنا للحصول على إرشادات حول كيفية تثبيت conda. استخدم الأوامر التالية لإنشاء بيئات conda ثم قم بتثبيت الحزم المقابلة. تأكد أيضًا من عدم وجود بيئة باسم piret_env قبل محاولة التثبيت. احذف البيئة إذا كانت موجودة بالفعل. أوصي إذا كنت خبيرًا في لغة بايثون، استخدم هذه التعليمات حيث سيكون لديك التحكم في كل خطوة من خطوات التثبيت، وإذا فشل شيء ما، فلن تضطر إلى البدء من البداية.
git clone https://github.com/mshakya/piret.git
cd piret
conda create -n piret_env python=3.6.6 --yes
conda install -c bioconda faqcs -n piret_env --yes
conda install -c bioconda star hisat2 subread -n piret_env --yes
conda install -c bioconda subread stringtie -n piret_env --yes
conda install -c bioconda samtools bamtools bedtools -n piret_env --yes
conda install -c bioconda diamond=0.9.24 -n piret_env --yes
source activate piret_env
cd thirdparty
rm -rf eggnog-mapper
git clone https://github.com/mshakya/eggnog-mapper.git
cd eggnog-mapper
python download_eggnog_data.py -y
cd ..
cd ..
Rscript --no-init-file -e "if('BiocManager' %in% rownames(installed.packages()) == FALSE){install.packages('BiocManager',repos='https://cran.r-project.org')}";
# install optparse
Rscript --no-init-file -e "if('optparse' %in% rownames(installed.packages()) == FALSE){install.packages('optparse',repos='https://cran.r-project.org')}";
# install tidyverse
Rscript --no-init-file -e "if('tidyverse' %in% rownames(installed.packages()) == FALSE){install.packages('tidyverse',repos='https://cran.r-project.org')}";
# install R reshape2 packages
Rscript --no-init-file -e "if('reshape2' %in% rownames(installed.packages()) == FALSE){install.packages('reshape2',repos='https://cran.r-project.org')}";
# install R pheatmap packages
Rscript --no-init-file -e "if('pheatmap' %in% rownames(installed.packages()) == FALSE){install.packages('pheatmap',repos='https://cran.r-project.org')}";
# install R edgeR packages
Rscript --no-init-file -e "if('edgeR' %in% rownames(installed.packages()) == FALSE){BiocManager::install('edgeR')}";
# install R deseq2 packages
Rscript --no-init-file -e "if('DESeq2' %in% rownames(installed.packages()) == FALSE){BiocManager::install('DESeq2')}";
# install R pathview package
Rscript --no-init-file -e "if('pathview' %in% rownames(installed.packages()) == FALSE){BiocManager::install('pathview')}";
# install R gage package
Rscript --no-init-file -e "if('gage' %in% rownames(installed.packages()) == FALSE){BiocManager::install('gage')}";
# install R ballgown package
Rscript --no-init-file -e "if('ballgown' %in% rownames(installed.packages()) == FALSE){BiocManager::install('ballgown')}";
python setup.py install
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh
على سبيل المثال:
$ git clone https://github.com/mshakya/piret.git
$ cd piret
$ ./installer.sh piret_env
تأكد من أن اسم البيئة (على سبيل المثال piret_env) غير موجود بعد.
قريباً!
لقد قدمنا مجموعة بيانات الاختبار للتحقق مما إذا كان التثبيت ناجحًا أم لا. يمكن العثور على ملفات fastq
في tests/fastqs
وملفات fastq المرجعية المقابلة موجودة في tests/data
. لإجراء الاختبار، من داخل دليل piret
:
لإجراء الاختبارات على مجموعات بيانات حقيقيات النوى:
$ cd piret
$ source activate piret_env
$LUIGI_CONFIG_PATH="/panfs/biopan01/scratch-311300/ecoli_usda/ecoli.cfg" bin/piret -c ecoli.cfg -d ecoli_piret -e exp_desn.txt
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_euk.cfg" bin/piret -c tests/test_euk.cfg -d tests/test_euk -e tests/test_euk.txt
لإجراء الاختبارات على مجموعات بيانات prokarya:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_prok.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_prok.txt
لتشغيل الاختبارات باستخدام مجموعات بيانات both
prokarya وeukarya:
$LUIGI_CONFIG_PATH="full_path_to/piret/tests/test_both.cfg" bin/piret -c tests/test_prok.cfg -d tests/test_prok -e tests/test_both.txt
للحصول على معرفات KO للجينات، يستخدم PiReT emapper. يتضمن تثبيت conda لـ PiReT أيضًا emapper. ومع ذلك، يجب تنزيل قاعدة البيانات الخاصة بها باتباع التعليمات هنا. باختصار،
يتطلب PiReT التبعيات التالية، والتي يجب تثبيتها جميعًا في المسار.
INSTALL.sh
بتنزيل miniconda وتثبيته، وهو إصدار "مصغر" من conda
يقوم فقط بتثبيت عدد قليل من الحزم مقارنة بـ anaconda usage: piret [-h] -d WORKDIR -e EXPDSN -c CONFIG [-v]
piret
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
required arguments:
-d WORKDIR working directory where all output files will be
processed and written (default: None)
-e EXPDSN tab delimited experimental design file
-c CONFIG, --config CONFIG
luigi config file for setting parameters that control
each step, see github repo for an example (default:
None)
Example runs:
piret -d -e -c
يتكون ملف التصميم التجريبي من اسم العينة (SampleID)، والمسار الكامل لملفات fastq (الملفات)، ومجموعات مختلفة من العينات الخاصة بك (المجموعة). نوصي باستخدام محرر نصوص مثل BBedit أو TextWrangler لإنشاء ملف تصميم تجريبي محدد بعلامات التبويب. يؤدي تصدير ملف محدد بعلامات جدولة مباشرة من Excel إلى التسبب في مشكلة التنسيق. إذا أمكن، يرجى تجنب أي أحرف خاصة في أسماء العينات وأسماء المجموعات.
على سبيل المثال:
samp1, samp_1 : good name
samp 1, samp.1: not a good name and will likely cause errors.
يمكن العثور على عينة من ملف التصميم التجريبي هنا.
يتم تعيين جميع الخيارات في ملف التكوين.
جميع المخرجات ستكون ضمن working directory
. ملف الإخراج الرئيسي هو ملف JSON متسلسل يسمى out.json
.
samp2
: اسم هذا الدليل يتوافق مع اسم العينة. يوجد داخل هذا المجلد مجلدان فرعيان:
mapping_results
يحتوي هذا المجلد على القراءات المعينة باستخدام hisat2 بالتنسيقات التالية. في حالة وجود splice_sites_gff.txt
، تتم محاذاة hisat2 بناءً على مواقع الوصلات المعروفة.*.sam
: مخرجات hisat2*.bam
: تم إنشاؤه من .sam
hisat2
.*sTie.tab
: ملف محدد بعلامات التبويب مع التغطية، FPKM، TPM، لجميع الجينات والنصوص الجديدة. تم إنشاؤها باستخدام ربطة عنق السلسلة.*sTie.gtf
: مخرجات بتنسيق Primay GTF لربطة العنق.trimming_results
يحتوي هذا المجلد على نتائج تشذيب الجودة وتصفيتها باستخدام FaQC.*_qc_report.pdf
: ملف تقرير مراقبة الجودة بالأرقام.*.stats.txt
: ملف ملخص يحتوي على عدد القراءات قبل وبعد مراقبة الجودة. مجلد ballgown
ballgown
. يجب قراءة المجلد بواسطة R
package ballgown
للعثور على الجينات المعبر عنها بشكل ملحوظ. يوجد مجلد واحد لكل عينة.
*merged_transcript.gtf
: قائمة غير متكررة من النصوص بتنسيق GTF مدمجة من جميع العينات.
featureCounts
: مجلد يحتوي على جداول الأعداد من featureCounts
.
both
الخيارين، تكون أعداد بدائيات النوى موجودة في هذا الملف. تم العثور على حقيقيات النوى في الملف المسمى euk_CDS.count
edgeR
: مجلد يحتوي على جداول وأشكال تمت معالجتها بشكل أساسي باستخدام حزمة R edgeR
لاكتشاف الجينات المعبر عنها بشكل ملحوظ. بناءً على الخيارات المختارة، سيحتوي المجلد على مجلد واحد أو مجلدين، prokarya
و eukarya
. يوجد داخل هذه المجلدات الملفات والأشكال التالية.
*RPKM.csv
: جدول يحتوي على قيم RPKM لجميع الجينات في جميع العينات.*CPM.csv
: جدول يحتوي على قيم CPM لجميع الميزات عبر جميع العينات*feature_count_heatmap.pdf
: خريطة التمثيل اللوني بناءً على بيانات العدد للميزات المدرجة في ملفات gff.*feature_count_CPM_histogram.pdf
: رسم بياني للتكلفة لكل ألف ظهور.*MDS.pdf
: مخطط MDS يعتمد على القراءات المعينة للعينات.group1__group2__gene__et.csv
: جدول يحتوي على اسم الجين، وlogFC، وlogCPM، وPValue، وFDR لمقارنة المجموعة 1 بالمجموعة 2. يحتوي هذا الجدول على جميع الجينات التي لها أي أعداد.group1__group2__gene__sig.csv
: مجموعة فرعية من group1__group2__gene__et.csv
تحتوي على جميع الجينات المهمة بناءً على القيمة P المحددة. للإزالة، نظرًا لأن جميع التبعيات غير الموجودة في نظامك مثبتة في PiReT
، فإن حذف مجلد PiReT
( rm -rf
) يكفي لإلغاء تثبيت الحزمة. قبل الإزالة، تحقق مما إذا كانت ملفات مشروعك موجودة ضمن دليل PiReT
.
إذا كنت تستخدم PiReT، فيرجى ذكر الأوراق التالية:
حقوق الطبع والنشر (XXXX). ثالوث الأمن الوطني، LLC. جميع الحقوق محفوظة.
تم إنتاج هذا البرنامج بموجب عقد الحكومة الأمريكية رقم 89233218CNA000001 لمختبر لوس ألاموس الوطني (LANL)، الذي تديره شركة Triad National Security, LLC لصالح وزارة الطاقة الأمريكية/الإدارة الوطنية للأمن النووي.
جميع الحقوق في البرنامج محفوظة لشركة Triad National Security, LLC ووزارة الطاقة الأمريكية/الإدارة الوطنية للأمن النووي. تُمنح الحكومة لنفسها وللآخرين الذين يتصرفون بالنيابة عنها ترخيصًا عالميًا غير حصري ومدفوع وغير قابل للإلغاء في هذه المادة لإعادة إنتاج وإعداد أعمال مشتقة وتوزيع نسخ على الجمهور والأداء العلني والعرض العلني، والسماح للآخرين بالقيام بذلك لذا.
هذا برنامج مفتوح المصدر. يمكنك إعادة توزيعه و/أو تعديله بموجب شروط ترخيص GPLv3. إذا تم تعديل البرنامج لإنتاج أعمال مشتقة، فيجب وضع علامة واضحة على هذا البرنامج المعدل، حتى لا يتم الخلط بينه وبين الإصدار المتاح من LANL. يمكن العثور على النص الكامل لترخيص GPLv3 في ملف الترخيص في فرع التطوير الرئيسي للمستودع.