تعد أداة Contig Annotation Tool (CAT) وأداة Bin Annotation Tool (BAT) بمثابة خطوط أنابيب للتصنيف التصنيفي لتسلسلات الحمض النووي الطويلة والجينومات المجمعة للميتاجينوم (MAGs / bins) لكل من الكائنات الحية الدقيقة المعروفة وغير المعروفة (إلى حد كبير)، كما تم إنشاؤها بواسطة دراسات الميتاجينوميات المعاصرة. تتضمن الخوارزمية الأساسية لكلا البرنامجين استدعاء الجينات، ورسم خرائط ORFs المتوقعة مقابل قاعدة بيانات البروتين، والتصنيف القائم على التصويت لكامل contig / MAG بناءً على تصنيف ORFs الفردية. يمكن تشغيل CAT وBAT من الخطوات المتوسطة إذا تم تنسيق الملفات بشكل مناسب.
يمكن العثور على ورقة تصف الخوارزمية مع معايير واسعة النطاق على الموقع https://doi.org/10.1186/s13059-019-1817-x. إذا كنت تستخدم CAT أو BAT في بحثك، فسيكون من الرائع أن تستشهد بنا:
تقوم أداة قراءة التعليقات التوضيحية (RAT) بتقدير التركيب التصنيفي للميتاجينومات باستخدام مخرجات CAT وBAT. يمكن العثور على مخطوطة تصف RAT مع المعايير على الموقع https://doi.org/10.1038/s41467-024-47155-1. إذا كنت تستخدم RAT في بحثك، فسيكون من الرائع أن تستشهد بما يلي:
للإشارة إلى الكود نفسه:
بايثون 3، https://www.python.org/.
الماس، https://github.com/bbuchfink/diamond.
الضال، https://github.com/hyattpd/Prodigal.
يتطلب RAT أيضًا (غير مطلوب لـ CAT وBAT):
بوا، https://github.com/lh3/bwa.
سام تولز، http://www.htslib.org/download/.
تم اختبار CAT وBAT وRAT بدقة على أنظمة Linux، ويجب تشغيلها على نظام التشغيل macOS أيضًا.
لا يلزم التثبيت. يمكنك تشغيل CAT وBAT وRAT عن طريق توفير المسار المطلق:
$ ./CAT_pack/CAT_pack --help
وبدلاً من ذلك، إذا قمت بإضافة الملفات الموجودة في دليل CAT_pack إلى متغير $PATH
، فيمكنك تشغيل CAT وBAT وRAT من أي مكان:
$ CAT_pack --version
للبدء في استخدام CAT/BAT/RAT، سيتعين عليك الحصول على ملفات قاعدة البيانات الموجودة على نظامك. يمكنك إما تنزيل ملفات قاعدة البيانات المعدة مسبقًا، أو إنشائها بنفسك.
لتنزيل ملفات قاعدة البيانات، ابحث عن أحدث إصدار على tbb.bio.uu.nl/tina/CAT_pack_prepare/، ثم قم بتنزيله واستخراجه، وستكون جاهزًا للبدء!
بالنسبة إلى رقم NCBI:
$ wget tbb.bio.uu.nl/tina/CAT_pack_prepare/20240422_CAT_nr.tar.gz
$ tar -xvzf 20240422_CAT_nr.tar.gz
بالنسبة لقاعدة بيانات GTDB:
$ wget tbb.bio.uu.nl/tina/CAT_pack_prepare/20231120_CAT_gtdb.tar.gz # release 214
$ tar -xvzf 20231120_CAT_gtdb.tar.gz
بدلاً من استخدام قاعدة البيانات المنشأة مسبقًا، يمكنك إنشاء قاعدة بيانات جديدة بنفسك. يمكن استخدام وحدة download
لتنزيل البيانات الأولية ومعالجتها، استعدادًا لبناء قاعدة بيانات جديدة لحزمة CAT. سيضمن هذا استيفاء جميع تبعيات الإدخال وتنسيقها بشكل صحيح CAT_pack prepare
.
حاليًا، يتم دعم قاعدتي بيانات، NCBI's nr وبروتينات قاعدة بيانات تصنيف الجينوم (GTDB).
$ CAT_pack download -db nr -o path/to/nr_data_dir
سيتم تنزيل ملف fasta مع تسلسلات البروتين، ورسم خرائطها لسيارات الأجرة، ومعلومات التصنيف من موقع ftp الخاص بـ NCBI.
$ CAT_pack download -db gtdb -o path/to/gtdb_data_dir
يتم توفير الملفات المطلوبة لإنشاء قاعدة بيانات حزمة CAT من خلال صفحة تنزيلات GTDB.
يقوم CAT_pack download
بجلب الملفات الضرورية ويقوم ببعض المعالجة الإضافية لجعلها جاهزة CAT_pack prepare
:
nodes.dmp
و names.dmp
بنمط NCBI.gtdb_proteins_aa_reps.tar.gz
وتخضع لجولة من إلغاء البيانات المكررة. يؤدي إلغاء البيانات المكررة إلى تقليل التكرار في قاعدة بيانات DIAMOND، وبالتالي تبسيط عملية المحاذاة. يتم تحديد التسلسلات المكررة الدقيقة بناءً على مزيج من مجموع MD5 لتسلسلات البروتين وطولها. يتم الاحتفاظ بتسلسل تمثيلي واحد فقط، مع تشفير جميع التكرارات في رأس fasta. يتم استخدام هذه المعلومات لاحقًا بواسطة CAT_pack prepare
LCA لتسلسل البروتين بشكل مناسب في ملف .fastaid2LCAtaxid
.root
واحدة لإنتاج ملف all.tree
. لا يتم استخدام هذا الملف بواسطة حزمة CAT ولكنه قد يكون مفيدًا للتحليلات النهائية. عند الانتهاء من تنزيل الملفات ومعالجتها بنجاح، يمكنك إنشاء قاعدة بيانات حزمة CAT باستخدام CAT_pack prepare
.
للاطلاع على جميع خيارات سطر الأوامر المتاحة، راجع
$ CAT_pack download -h
و
$ CAT_pack prepare -h
بالنسبة لقاعدة بيانات حزمة CAT المخصصة، يجب أن يكون الإدخال التالي جاهزًا قبل تشغيل تشغيل CAT_pack prepare
.
ملف fasta يحتوي على جميع تسلسلات البروتين التي تريد تضمينها في قاعدة البيانات الخاصة بك.
ملف names.dmp
الذي يحتوي على تعيينات لسيارات الأجرة إلى رتبها وأسمائها العلمية. يجب أن يكون التنسيق هو نفس تنسيق names.dmp
القياسي لـ NCBI (يستخدم t|t
كفاصل للحقول).
مثال يبدو مثل هذا:
1 | root | scientific name |
2 | Bacteria | scientific name |
562 | Escherichia coli | scientific name |
nodes.dmp
الذي يصف العلاقة بين الوالدين والطفل للعقد في شجرة التصنيف وترتيبها (الرسمي). يجب أن يكون التنسيق هو نفس nodes.dmp
القياسية NCBI.dmp (يستخدم t|t
كفاصل الحقل).مثال يبدو مثل هذا:
1 | 1 | root |
2 | 1 | superkingdom |
1224 | 2 | phylum |
1236 | 1224 | class |
91437 | 1236 | order |
543 | 91347 | family |
561 | 543 | genus |
562 | 561 | species |
لمزيد من المعلومات حول ملفات nodes.dmp
names.dmp
، راجع ملف NCBI Taxdump_readme.txt.
accession.version taxid
.مثال يبدو مثل هذا
accession.version taxid
protein_1 562
protein_2 123456
بمجرد استيفاء كافة المتطلبات المذكورة أعلاه، يمكنك تشغيل CAT_pack prepare
. يجب تحديد جميع المدخلات بشكل صريح لكي تعمل CAT_pack prepare
، على سبيل المثال:
$ CAT_pack prepare
--db_fasta path/to/fasta
--names path/to/names.dmp
--nodes path/to/nodes.dmp
--acc2tax path/to/acc2taxid.txt.gz
--db_dir path/to/output_dir
سوف يقوم بإنشاء output_dir
الذي سيبدو بهذا الشكل
output_dir
├── 2023-11-05_CAT_pack.log
├── db
│ ├── 2023-11-05_CAT_pack.dmnd
│ ├── 2023-11-05_CAT_pack.fastaid2LCAtaxid
│ └── 2023-11-05_CAT_pack.taxids_with_multiple_offspring
└── tax
├── names.dmp
└── nodes.dmp
ملحوظات:
db
و tax
الذي يحتوي على جميع الملفات الضرورية.nodes.dmp
و names.dmp
في دليل tax
من موقعهما الأصلي. وذلك للتأكد من أن علامة -t
الخاصة بـ CAT وBAT وRAT تعمل.<YYYY-MM-DD>_CAT_pack
. يمكنك تخصيصه باستخدام خيار --common_prefix
.للاطلاع على جميع خيارات سطر الأوامر المتاحة، راجع
$ CAT_pack prepare -h
ملفات قاعدة البيانات مطلوبة في عمليات تشغيل CAT/BAT/RAT اللاحقة. تحتاج فقط إلى إنشائها/تنزيلها مرة واحدة أو كلما أردت تحديث قاعدة البيانات.
لتشغيل CAT/BAT/RAT، على التوالي:
$ CAT_pack contigs # Runs CAT.
$ CAT_pack bins # Runs BAT.
$ CAT_pack reads # Runs RAT.
إذا لم تكن متأكدًا من الخيارات المتاحة للبرنامج، فيمكنك دائمًا إضافة --help
إلى الأمر. هذه طريقة رائعة للبدء في استخدام CAT أو BAT أو RAT.
$ CAT_pack --help
$ CAT_pack contigs --help
$ CAT_pack summarise --help
إذا لم تكن متأكدًا من ملفات الإدخال المطلوبة، فيمكنك فقط تشغيل CAT/BAT/RAT، حيث يتم إنشاء رسائل الخطأ المناسبة إذا كان التنسيق غير صحيح.
بعد حصولك على ملفات قاعدة البيانات على نظامك، يمكنك تشغيل CAT لتعليق مجموعة contig الخاصة بك:
$ CAT_pack contigs -c {contigs fasta} -d {database folder} -t {taxonomy folder}
سيتم إنشاء ملفات إخراج متعددة وملف سجل. سيتم استدعاء ملفات التصنيف النهائية out.CAT.ORF2LCA.txt
و out.CAT.contig2classification.txt
.
بدلاً من ذلك، إذا كان لديك بالفعل ملف Fasta للبروتينات المتوقعة و/أو جدول محاذاة من عمليات التشغيل السابقة على سبيل المثال، فيمكنك تقديمها إلى CAT، والتي ستقوم بعد ذلك بتخطي الخطوات التي تم تنفيذها بالفعل والبدء من هناك:
$ CAT_pack contigs -c {contigs fasta} -d {database folder} -t {taxonomy folder} -p {predicted proteins fasta} -a {alignment file}
يجب أن تبدو الرؤوس الموجودة في ملف Fasta للبروتينات المتوقعة بهذا الشكل >{contig}_{ORFnumber}
، بحيث يمكن لـ CAT ربط contigs بـ ORFs. يجب أن يكون ملف المحاذاة مفصولاً بعلامات جدولة، مع وجود ORF الذي تم الاستعلام عنه في العمود الأول، ورقم وصول البروتين في العمود الثاني، ودرجة البت في العمود الثاني عشر.
لتشغيل BAT على مجموعة من MAGs:
$ CAT_pack bins -b {bin folder} -d {database folder} -t {taxonomy folder}
وبدلاً من ذلك، يمكن تشغيل BAT على MAG واحد:
$ CAT_pack bins -b {bin fasta} -d {database folder} -t {taxonomy folder}
سيتم إنشاء ملفات إخراج متعددة وملف سجل. سيتم استدعاء ملفات التصنيف النهائية out.BAT.ORF2LCA.txt
و out.BAT.bin2classification.txt
.
على غرار CAT، يمكن تشغيل أفضل التقنيات المتاحة من خطوات متوسطة إذا تم بالفعل تنفيذ التنبؤ الجيني ومواءمته مرة واحدة:
$ CAT_pack bins -b {bin folder} -d {database folder} -t {taxonomy folder} -p {predicted proteins fasta} -a {alignment file}
إذا كنت قد قمت مسبقًا بتشغيل CAT على مجموعة contigs التي تنشأ منها MAGs، فيمكنك استخدام ملفات البروتين والمحاذاة المتوقعة مسبقًا لتصنيف MAGs.
$ CAT_pack contigs -c {contigs fasta} -d {database folder} -t {taxonomy folder}
$ CAT_pack bins -b {bin folder} -d {database folder} -t {taxonomy folder} -p {predicted proteins fasta from contig run} -a {alignment file from contig run}
هذه طريقة رائعة لتشغيل كل من CAT وBAT على مجموعة من MAGs دون الحاجة إلى التنبؤ بالبروتين ومواءمته مرتين!
يبدو إخراج ORF2LCA كما يلي:
ORF | عدد الزيارات (ص: 10) | النسب | نتيجة بت |
---|---|---|---|
contig_1_ORF1 | 7 | 1;131567;2;1783272 | 574.7 |
حيث السلالة هي السلالة التصنيفية الكاملة لتصنيف ORF، ودرجة البت هي أعلى درجة بت تم تعيينها لـ ORF للتصويت. يحتوي ملف إخراج BAT ORF2LCA على عمود إضافي حيث ترتبط ORFs بـ MAG الذي تم العثور عليها فيه.
يبدو إخراج contig2classification وbin2classification كما يلي:
contig أو بن | تصنيف | سبب | النسب | درجات النسب (و: 0.3) |
---|---|---|---|---|
contig_1 | تم تعيين سيارة أجرة | على أساس 14/15 ORFs | 1;131567;2;1783272 | 1.00; 1.00; 1.00; 0.78 |
contig_2 | التاكسي المخصص (1/2) | على أساس 10/10 ORFs | 1;131567;2;1783272;17id98711;1117;307596;307595;1890422;33071;1416614;1183438* | 1.00;1.00;1.00;1.00;1.00;1.00;1.00;1.00;1.00;1.00;0.23;0.23 |
contig_2 | التاكسي المخصص (2/2) | على أساس 10/10 ORFs | 1;131567;2;1783272;1798711;1117;307596;307595;1890422;33071;33072 | 1.00;1.00;1.00;1.00;1.00;1.00;1.00;1.00;1.00;1.00;0.77 |
contig_3 | لم يتم تعيين سيارة أجرة | لم يتم العثور على ORFs |
حيث تمثل درجات النسب جزءًا من دعم نقاط البت لكل تصنيف. يحتوي contig_2 على تصنيفين. يمكن أن يحدث هذا إذا تم اختيار المعلمة f أقل من 0.5. للحصول على شرح للتصنيف المميز بنجمة ، راجع وضع علامة النجمة على المهام التصنيفية الموحية.
لإضافة أسماء إلى سيارات الأجرة في أي من ملفي الإخراج، قم بتشغيل:
$ CAT_pack add_names -i {ORF2LCA / classification file} -o {output file} -t {taxonomy folder}
سيوضح لك هذا أنه على سبيل المثال تم تصنيف contig_1 كمجموعة Terrabacteria. للحصول على الرتبة الرسمية فقط ( مثل المملكة الفائقة، الشعبة، ...):
$ CAT_pack add_names -i {ORF2LCA / classification file} -o {output file} -t {taxonomy folder} --only_official
أو بدلاً من ذلك:
$ CAT_pack add_names -i {ORF2LCA / classification file} -o {output file} -t {taxonomy folder} --only_official --exclude_scores
إذا قمت بتسمية ملف تصنيف CAT أو BAT بأسماء رسمية، فيمكنك الحصول على ملخص للتصنيف، حيث يتم حساب الطول الإجمالي وعدد ORFs التي تدعم أحد الأصنوفات من أجل contigs، وعدد MAGs لكل أصنوفة تمت مواجهتها لتصنيف MAG:
$ CAT_pack summarise -c {contigs fasta} -i {named CAT classification file} -o {output file}
$ CAT_pack summarise -i {named BAT classification file} -o {output file}
لا يدعم CAT_pack summarise
حاليًا ملفات التصنيف حيث تحتوي بعض contigs / MAGs على تصنيفات متعددة (مثل contig_2 أعلاه).
عندما نريد النزول بثقة إلى أدنى مستوى تصنيفي ممكن لتصنيف ما، فإن الافتراض المهم هو أنه على هذا المستوى يمكن أن ينشأ تعارض بين التصنيفات. على وجه التحديد، إذا كانت هناك تصنيفات متضاربة، فإن الخوارزمية كانت ستجعل التصنيف أكثر تحفظًا من خلال رفع المستوى. وبما أنه لم يحدث ذلك، يمكننا أن نثق في التصنيف منخفض المستوى. ومع ذلك، ليس من الممكن دائمًا أن ينشأ تعارض، لأنه في بعض الحالات لا توجد تسلسلات أخرى من الفرع الحيوي في قاعدة البيانات. وينطبق هذا على سبيل المثال على عائلة Dehalococcoidaceae، والتي في قواعد بياناتنا هي الممثل الوحيد لرتبة Dehalococcoidales. ولذلك لا يمكننا هنا أن نقول بثقة أن التصنيف على مستوى الأسرة أصح من التصنيف على مستوى النظام. في هذه الحالات، تحدد CAT وBAT النسب بالعلامات النجمية، بدءًا من تصنيف المستوى الأدنى وحتى المستوى الذي يمكن أن ينشأ فيه التعارض لأن الفرع الحيوي يحتوي على أصناف متعددة مع إدخالات قاعدة البيانات. يُنصح المستخدم بفحص الأصناف المميزة بنجمة بعناية أكبر، على سبيل المثال من خلال تحليل هوية التسلسل بين ORFs المتوقعة والنتائج، أو نقل النسب إلى تصنيف موثوق (أي التصنيف الأول بدون علامة النجمة).
إذا كنت لا تريد العلامات النجمية في ملفات الإخراج الخاصة بك، فيمكنك إضافة علامة --no_stars
إلى CAT أو BAT.
قد يستغرق تشغيل CAT وBAT بعض الوقت، وقد يستخدمان قدرًا كبيرًا من ذاكرة الوصول العشوائي (RAM) ومساحة القرص. اعتمادًا على ما تقدره أكثر، يمكنك ضبط CAT وBAT لتعظيم أحدهما وتقليل الآخرين. خوارزمية التصنيف نفسها سريعة وسهلة الاستخدام على الذاكرة ومساحة القرص. الخطوة الأكثر تكلفة هي المحاذاة مع DIAMOND، وبالتالي فإن ضبط معلمات المحاذاة سيكون له التأثير الأكبر:
-n / --nproc
اختيار عدد النوى المراد نشرها.--sensitive
. سيؤدي هذا إلى زيادة الحساسية ولكنه سيجعل المحاذاة أبطأ إلى حد كبير.--block_size
على مستوى أقل إلى تقليل استخدام الذاكرة ومساحة القرص المؤقتة. سيؤدي تعيينه إلى مستوى أعلى إلى زيادة الأداء.--index_chunks
على 1 (القيمة الافتراضية حاليًا). ليس لهذه المعلمة أي تأثير على استخدام مساحة القرص المؤقتة.--tmpdir
.الحصول على مساعدة لتشغيل الأداة المساعدة للتحضير:
$ CAT_pack prepare --help
قم بتشغيل CAT على مجموعة contig مع إعدادات المعلمة الافتراضية التي تنشر 16 مركزًا لمحاذاة DIAMOND. قم بتسمية مخرجات تصنيف contig بالأسماء الرسمية، وقم بإنشاء ملخص:
$ CAT_pack contigs -c contigs.fasta -d db/ -t tax/ -n 16 --out_prefix first_CAT_run
$ CAT_pack add_names -i first_CAT_run.contig2classification.txt -o first_CAT_run.contig2classification.official_names.txt -t tax/ --only_official
$ CAT_pack summarise -c contigs.fasta -i first_CAT_run.contig2classification.official_names.txt -o CAT_first_run.summary.txt
قم بتشغيل BAT على مجموعة MAGs التي تم إهمالها من هذه contigs، وإعادة استخدام تنبؤات البروتين وملف محاذاة DIAMOND الذي تم إنشاؤه مسبقًا أثناء تصنيف contig:
$ CAT_pack bins -b bins/ -d db/ -t tax/ -p first_CAT_run.predicted_proteins.faa -a first_CAT_run.alignment.diamond -o first_BAT_run
قم بتشغيل خوارزمية تصنيف contig مرة أخرى باستخدام إعدادات المعلمة المخصصة، وقم بتسمية الإخراج بجميع الأسماء في السلالة، باستثناء الدرجات:
$ CAT_pack contigs --range 5 --fraction 0.1 -c contigs.fasta -d db/ -t tax/ -p first_CAT_run.predicted_proteins.faa -a first_CAT_run.alignment.diamond -o second_CAT_run
$ CAT_pack add_names -i second_CAT_run.contig2classification.txt -o second_CAT_run.contig2classification.names.txt -t tax/ --exclude_scores
قم بتشغيل BAT على مجموعة MAGs مع إعدادات المعلمات المخصصة، وقمع الإسهاب وعدم كتابة ملف سجل. بعد ذلك، قم بإضافة أسماء إلى ملف الإخراج ORF2LCA:
$ CAT_pack bins -r 3 -f 0.1 -b bins/ -s .fa -d db/ -t tax/ -p first_CAT_run.predicted_proteins.faa -a first_CAT_run.alignment.diamond --o second_BAT_run --quiet --no_log
$ CAT_pack add_names -i second_BAT_run.ORF2LCA.txt -o second_BAT_run.ORF2LCA.names.txt -t tax/
غالبًا ما نستخدم مزيج CAT / BAT لاستكشاف التلوث المحتمل داخل المجموعة الاستشارية للألغام (MAG).
$ CAT_pack contigs -c ../bins/interesting_MAG.fasta -d db/ -t tax/ -o CAT.interesting_MAG
$ CAT_pack bins -b ../bins/interesting_MAG.fasta -d db/ -t tax/ -p CAT.interesting_MAG.predicted_proteins.faa -a CAT.interesting_MAG.alignment.diamond -o BAT.interesting_MAG
من المحتمل أن تكون الكائنات التي لها إشارة تصنيفية مختلفة عن تصنيف MAG هي تلوث.
وبدلاً من ذلك، يمكنك النظر إلى التلوث من منظور MAG، عن طريق ضبط المعلمة f على قيمة منخفضة:
$ CAT_pack bins -f 0.01 -b ../bins/interesting_MAG.fasta -d db/ -t tax/ -o BAT.interesting_MAG
$ CAT_pack add_names -i BAT.interesting_MAG.bin2classification.txt -o BAT.interesting_MAG.bin2classification.names.txt -t tax/
سوف يقوم BAT بإخراج أي إشارة تصنيفية بدعم لا يقل عن 1%. الإشارات المتباينة ذات الدرجات المنخفضة هي علامات واضحة على التلوث!
تقدر RAT التركيب التصنيفي للميتاجينومات من خلال دمج الإشارات التصنيفية من MAGs وcontigs والقراءات. تمت إضافة RAT إلى حزمة CAT من الإصدار 6.0. لاستخدام RAT، تحتاج إلى ملفات قاعدة بيانات حزمة CAT (راجع البدء لمزيد من المعلومات).
يقوم RAT بإنشاء ملف تعريف متكامل باستخدام MAGs/bins وcontigs والقراءات. لتحديد العناصر التي يجب دمجها، استخدم الوسيطة --mode
. الحروف المحتملة لـ --mode
هي m
(لـ MAGs)، c
(لـ contigs)، و r
(للقراءات). جميع الحروف الثلاثة ممكنة إلا r
وحده. لتشغيل سير العمل الكامل لـ RAT، حدد الوضع، وقراءة الملفات، وملفات contig، ومجلد bin، وملفات قاعدة البيانات:
$ CAT_pack reads --mode mcr -b bin_folder/ -c contigs.fasta -1 forward_reads.fq.gz -2 reverse_reads.fq.gz -d db/ -t tax/
حاليًا، يدعم RAT ملفات القراءة الفردية بالإضافة إلى ملفات القراءة المزدوجة. ملفات القراءة المتداخلة غير مدعومة حاليًا. سيقوم RAT بتشغيل CAT وBAT على contigs وMAG، وسيقوم بتعيين القراءات مرة أخرى إلى contigs، ثم يحاول إضافة تعليقات توضيحية إلى أي قراءات غير معينة بشكل منفصل. إذا كان لديك بالفعل ملف تعيين تم فرزه، فيمكنك توفيره وسيقوم RAT بتخطي خطوة التعيين:
$ CAT_pack reads --mode mcr -b bin_folder/ -c contigs.fasta --bam1 mapping_file_sorted.bam -1 forward_reads.fq.gz -2 reverse_reads.fq.gz -d db/ -t tax/
إذا تم بالفعل تشغيل CAT و/أو BAT على بياناتك، فيمكنك توفير ملفات الإخراج إلى RAT لتخطي تشغيل CAT وBAT:
$ CAT_pack reads --mode mcr -b bin_folder/ -c contigs.fasta -1 forward_reads.fq.gz -2 reverse_reads.fq.gz -d db/ -t tax/ --c2c CAT_contig2classification_file.txt --b2c BAT_bin2classification_file.txt
وبالمثل، إذا تعطل تشغيل RAT سابق بعد أن تمت محاذاة القراءات غير المعينة بالفعل إلى قاعدة البيانات باستخدام الماس، فيمكنك توفير الملفات الوسيطة لمواصلة التشغيل:
$ CAT_pack reads --mode mcr -b bin_folder/ -c contigs.fasta -1 forward_reads.fq.gz -2 reverse_reads.fq.gz -d db/ -t tax/ --c2c CAT_contig2classification_file.txt --b2c BAT_bin2classification_file.txt --alignment_unmapped unmapped_alignment_file.diamond
بعد الانتهاء من تشغيل RAT، يمكنك تشغيل add_names على ملفات الوفرة (فقط لتشغيل RAT مع قاعدة بيانات nr):
$ CAT_pack add_names -i RAT.completete_abundance_file.txt -o RAT.completete_abundance_file_with_names.txt -t tax/
كما هو الحال مع CAT وBAT، يمكن توفير المسارات لجميع التبعيات عبر وسيطة:
$ CAT_pack reads --mode mcr -b bin_folder/ -c contigs.fasta -1 forward_reads.fq.gz -2 reverse_reads.fq.gz -d db/ -t tax/ --path_to_samtools /path/to/samtools
يتكون إخراج RAT من:
r
في --mode
).