Contig Annotation Tool (CAT) และ Bin Annotation Tool (BAT) เป็นไปป์ไลน์สำหรับการจำแนกอนุกรมวิธานของลำดับดีเอ็นเอขนาดยาวและจีโนมที่ประกอบด้วยเมตาจีโนม (MAGs / bins) ของจุลินทรีย์ทั้งที่รู้จักและ (สูง) ที่ไม่รู้จัก ซึ่งสร้างขึ้นโดยการศึกษาเมตาจีโนมร่วมสมัย อัลกอริธึมหลักของทั้งสองโปรแกรมเกี่ยวข้องกับการเรียกยีน การทำแผนที่ ORF ที่คาดการณ์ไว้กับฐานข้อมูลโปรตีน และการจำแนกตามการลงคะแนนของ contig / MAG ทั้งหมดตามการจำแนก ORF แต่ละรายการ CAT และ BAT สามารถเรียกใช้ได้จากขั้นตอนกลางหากไฟล์มีรูปแบบที่เหมาะสม
บทความที่อธิบายอัลกอริทึมพร้อมกับเกณฑ์มาตรฐานที่ครอบคลุมสามารถดูได้ที่https://doi.org/10.1186/s13059-019-1817-x หากคุณใช้ CAT หรือ BAT ในการวิจัย จะดีมากหากคุณสามารถอ้างอิงถึงเราได้:
Read Annotation Tool (RAT) จะประมาณองค์ประกอบทางอนุกรมวิธานของเมตาจีโนมโดยใช้เอาต์พุต CAT และ BAT ต้นฉบับที่อธิบาย RAT พร้อมเกณฑ์มาตรฐานสามารถดูได้ที่https://doi.org/10.1038/s41467-024-47155-1 หากคุณใช้ RAT ในการวิจัย จะดีมากหากคุณสามารถอ้างอิง:
หากต้องการอ้างอิงโค้ด:
หลาม 3 https://www.python.org/
ไดมอนด์ https://github.com/bbuchfink/diamond
ฟุ่มเฟือย https://github.com/hyattpd/Prodigal
RAT ต้องการเพิ่มเติม (ไม่จำเป็นสำหรับ CAT และ BAT):
BWA https://github.com/lh3/bwa
SAMtools, http://www.htslib.org/download/
CAT, BAT และ RAT ได้รับการทดสอบอย่างละเอียดบนระบบ Linux และควรทำงานบน macOS เช่นกัน
ไม่จำเป็นต้องติดตั้ง คุณสามารถเรียกใช้ CAT, BAT และ RAT ได้โดยระบุเส้นทางที่แน่นอน:
$ ./CAT_pack/CAT_pack --help
หรือหากคุณเพิ่มไฟล์ในไดเรกทอรี CAT_pack ไปยังตัวแปร $PATH
ของคุณ คุณสามารถเรียกใช้ CAT, BAT และ RAT ได้จากทุกที่:
$ CAT_pack --version
ในการเริ่มต้นใช้งาน CAT/BAT/RAT คุณจะต้องได้รับไฟล์ฐานข้อมูลในระบบของคุณ คุณสามารถดาวน์โหลดไฟล์ฐานข้อมูลที่สร้างไว้ล่วงหน้าหรือสร้างเองก็ได้
หากต้องการดาวน์โหลดไฟล์ฐานข้อมูล ให้ค้นหาเวอร์ชันล่าสุดบน tbb.bio.uu.nl/tina/CAT_pack_prepare/ ดาวน์โหลดและแตกไฟล์ เท่านี้ก็พร้อมแล้ว!
สำหรับหมายเลข NCBI:
$ wget tbb.bio.uu.nl/tina/CAT_pack_prepare/20240422_CAT_nr.tar.gz
$ tar -xvzf 20240422_CAT_nr.tar.gz
สำหรับ GTDB:
$ wget tbb.bio.uu.nl/tina/CAT_pack_prepare/20231120_CAT_gtdb.tar.gz # release 214
$ tar -xvzf 20231120_CAT_gtdb.tar.gz
แทนที่จะใช้ฐานข้อมูลที่สร้างไว้ล่วงหน้า คุณสามารถสร้างฐานข้อมูลใหม่ได้ด้วยตัวเอง โมดูล download
สามารถใช้เพื่อดาวน์โหลดและประมวลผลข้อมูลดิบ เพื่อเตรียมการสร้างฐานข้อมูล CAT pack ใหม่ เพื่อให้แน่ใจว่าเป็นไปตามการขึ้นต่อกันของอินพุตทั้งหมดและมีรูปแบบที่ถูกต้องสำหรับ CAT_pack prepare
ปัจจุบันรองรับฐานข้อมูล 2 แห่ง ได้แก่ โปรตีน nr ของ NCBI และฐานข้อมูลอนุกรมวิธานจีโนม (GTDB)
$ CAT_pack download -db nr -o path/to/nr_data_dir
จะดาวน์โหลดไฟล์ fasta พร้อมลำดับโปรตีน การแมปกับแท็กซี่ และข้อมูลอนุกรมวิธานจากไซต์ ftp ของ NCBI
$ CAT_pack download -db gtdb -o path/to/gtdb_data_dir
ไฟล์ที่จำเป็นในการสร้างฐานข้อมูล CAT pack นั้นมาจากหน้าดาวน์โหลด GTDB
CAT_pack download
จะดึงไฟล์ที่จำเป็นและทำการประมวลผลเพิ่มเติมเพื่อเตรียมพร้อมสำหรับ CAT_pack prepare
:
nodes.dmp
และ names.dmp
gtdb_proteins_aa_reps.tar.gz
และต้องผ่านกระบวนการขจัดความซ้ำซ้อนออก การขจัดข้อมูลซ้ำซ้อนจะช่วยลดความซ้ำซ้อนในฐานข้อมูล DIAMOND จึงทำให้กระบวนการจัดตำแหน่งง่ายขึ้น ลำดับที่ซ้ำกันที่แน่นอนถูกจำแนกตามการรวมกันของผลรวม MD5 ของลำดับโปรตีนและความยาวของพวกมัน ลำดับตัวแทนจะถูกเก็บไว้เพียงลำดับเดียว โดยที่สำเนาทั้งหมดจะถูกเข้ารหัสในส่วนหัวของ fasta ข้อมูลนี้จะถูกใช้ในภายหลังโดย CAT_pack prepare
กำหนด LCA ของลำดับโปรตีนอย่างเหมาะสมในไฟล์ .fastaid2LCAtaxid
root
เดียวเพื่อสร้างไฟล์ all.tree
ไฟล์นี้ ไม่ได้ ใช้โดยแพ็ก CAT แต่อาจมีประโยชน์สำหรับการวิเคราะห์ดาวน์สตรีม เมื่อการดาวน์โหลดและประมวลผลไฟล์เสร็จสิ้น คุณสามารถสร้างฐานข้อมูล CAT pack ด้วย CAT_pack prepare
สำหรับตัวเลือกบรรทัดคำสั่งทั้งหมดที่มีให้ดู
$ CAT_pack download -h
และ
$ CAT_pack prepare -h
สำหรับฐานข้อมูล CAT pack แบบกำหนดเอง คุณต้องมีอินพุตต่อไปนี้ให้พร้อมก่อนที่คุณจะเปิดใช้งานการ CAT_pack prepare
ไฟล์ fasta ที่มีลำดับโปรตีนทั้งหมดที่คุณต้องการรวมไว้ในฐานข้อมูลของคุณ
ไฟล์ names.dmp
ที่มีการแมปแท็กแท็กกับอันดับและชื่อทางวิทยาศาสตร์ รูปแบบจะต้องเหมือนกับ names.dmp
มาตรฐาน NCBI (ใช้ t|t
เป็นตัวคั่นฟิลด์)
ตัวอย่างมีลักษณะดังนี้:
1 | root | scientific name |
2 | Bacteria | scientific name |
562 | Escherichia coli | scientific name |
nodes.dmp
ที่อธิบายความสัมพันธ์ระดับรองและระดับบนของโหนดในแผนผังอนุกรมวิธานและอันดับ (อย่างเป็นทางการ) รูปแบบจะต้องเหมือนกับ nodes.dmp
มาตรฐาน NCBI (ใช้ t|t
เป็นตัวคั่นฟิลด์)ตัวอย่างมีลักษณะดังนี้:
1 | 1 | root |
2 | 1 | superkingdom |
1224 | 2 | phylum |
1236 | 1224 | class |
91437 | 1236 | order |
543 | 91347 | family |
561 | 543 | genus |
562 | 561 | species |
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับไฟล์ nodes.dmp
และ names.dmp
โปรดดูที่ NCBI Taxdump_readme.txt
accession.version taxid
ตัวอย่างมีลักษณะเช่นนี้
accession.version taxid
protein_1 562
protein_2 123456
เมื่อตรงตามข้อกำหนดข้างต้นทั้งหมดแล้ว คุณก็สามารถรัน CAT_pack prepare
อินพุตทั้งหมดจะต้องมีการระบุอย่างชัดเจนเพื่อให้ CAT_pack prepare
การทำงาน เช่น:
$ CAT_pack prepare
--db_fasta path/to/fasta
--names path/to/names.dmp
--nodes path/to/nodes.dmp
--acc2tax path/to/acc2taxid.txt.gz
--db_dir path/to/output_dir
จะสร้าง output_dir
ซึ่งจะมีลักษณะเช่นนี้
output_dir
├── 2023-11-05_CAT_pack.log
├── db
│ ├── 2023-11-05_CAT_pack.dmnd
│ ├── 2023-11-05_CAT_pack.fastaid2LCAtaxid
│ └── 2023-11-05_CAT_pack.taxids_with_multiple_offspring
└── tax
├── names.dmp
└── nodes.dmp
หมายเหตุ:
db
ย่อยสองแห่งและ tax
ถูกสร้างขึ้นซึ่งมีไฟล์ที่จำเป็นทั้งหมดnodes.dmp
และ names.dmp
ในไดเรกทอรี tax
จะถูกคัดลอกมาจากตำแหน่งเดิม นี่คือเพื่อให้แน่ใจว่าแฟล็ก -t
ของ CAT, BAT และ RAT ทำงาน<YYYY-MM-DD>_CAT_pack
คุณสามารถปรับแต่งได้ด้วยตัวเลือก --common_prefix
สำหรับตัวเลือกบรรทัดคำสั่งทั้งหมดที่มีให้ดู
$ CAT_pack prepare -h
ไฟล์ฐานข้อมูลจำเป็นในการรัน CAT/BAT/RAT ครั้งต่อไป จำเป็นต้องสร้าง/ดาวน์โหลดเพียงครั้งเดียวหรือทุกครั้งที่คุณต้องการอัปเดตฐานข้อมูล
หากต้องการเรียกใช้ CAT/BAT/RAT ตามลำดับ:
$ CAT_pack contigs # Runs CAT.
$ CAT_pack bins # Runs BAT.
$ CAT_pack reads # Runs RAT.
หากคุณไม่แน่ใจว่าโปรแกรมมีตัวเลือกใดบ้าง คุณสามารถเพิ่ม --help
ให้กับคำสั่งได้ตลอดเวลา นี่เป็นวิธีที่ดีในการเริ่มต้นใช้งาน CAT, BAT หรือ RAT
$ CAT_pack --help
$ CAT_pack contigs --help
$ CAT_pack summarise --help
หากคุณไม่แน่ใจว่าต้องใช้ไฟล์อินพุตใด คุณสามารถเรียกใช้ CAT/BAT/RAT ได้ เนื่องจากระบบจะสร้างข้อความแสดงข้อผิดพลาดที่เหมาะสมหากการจัดรูปแบบไม่ถูกต้อง
หลังจากที่คุณมีไฟล์ฐานข้อมูลบนระบบของคุณแล้ว คุณสามารถเรียกใช้ CAT เพื่อใส่คำอธิบายประกอบชุด contig ของคุณได้:
$ CAT_pack contigs -c {contigs fasta} -d {database folder} -t {taxonomy folder}
ไฟล์เอาต์พุตหลายไฟล์และไฟล์บันทึกจะถูกสร้างขึ้น ไฟล์การจำแนกขั้นสุดท้ายจะถูกเรียกว่า out.CAT.ORF2LCA.txt
และ out.CAT.contig2classification.txt
อีกทางหนึ่ง หากคุณมีไฟล์ fasta โปรตีนที่คาดการณ์ไว้และ/หรือตารางการจัดตำแหน่ง เช่น จากการรันครั้งก่อน คุณสามารถจัดหาไฟล์เหล่านั้นให้กับ CAT ซึ่งจะข้ามขั้นตอนที่ได้ทำไปแล้วและเริ่มจากตรงนั้น:
$ CAT_pack contigs -c {contigs fasta} -d {database folder} -t {taxonomy folder} -p {predicted proteins fasta} -a {alignment file}
ส่วนหัวในไฟล์ fasta โปรตีนที่คาดการณ์จะต้องมีลักษณะเช่นนี้ >{contig}_{ORFnumber}
เพื่อให้ CAT สามารถจับคู่กับ ORF ได้ ไฟล์การจัดตำแหน่งจะต้องคั่นด้วยแท็บ โดยมี ORF ที่สอบถามในคอลัมน์แรก หมายเลขภาคยานุวัติของโปรตีนในคอลัมน์ที่สอง และบิตสกอร์ในคอลัมน์ที่ 12
วิธีรัน BAT บนชุด MAG:
$ CAT_pack bins -b {bin folder} -d {database folder} -t {taxonomy folder}
หรืออีกทางหนึ่ง BAT สามารถรันบน MAG เดียวได้:
$ CAT_pack bins -b {bin fasta} -d {database folder} -t {taxonomy folder}
ไฟล์เอาต์พุตหลายไฟล์และไฟล์บันทึกจะถูกสร้างขึ้น ไฟล์การจำแนกขั้นสุดท้ายจะถูกเรียกว่า out.BAT.ORF2LCA.txt
และ out.BAT.bin2classification.txt
ในทำนองเดียวกันกับ CAT นั้น BAT สามารถเรียกใช้จากขั้นตอนระหว่างกลางได้ หากการทำนายและการจัดตำแหน่งของยีนได้ดำเนินการไปแล้วครั้งหนึ่ง:
$ CAT_pack bins -b {bin folder} -d {database folder} -t {taxonomy folder} -p {predicted proteins fasta} -a {alignment file}
หากคุณเคยเรียกใช้ CAT บนชุดของ contig ที่ MAG กำเนิดมา คุณสามารถใช้ไฟล์โปรตีนและการจัดแนวที่คาดการณ์ไว้ก่อนหน้านี้เพื่อจัดประเภท MAG
$ CAT_pack contigs -c {contigs fasta} -d {database folder} -t {taxonomy folder}
$ CAT_pack bins -b {bin folder} -d {database folder} -t {taxonomy folder} -p {predicted proteins fasta from contig run} -a {alignment file from contig run}
นี่เป็นวิธีที่ยอดเยี่ยมในการรันทั้ง CAT และ BAT บนชุด MAG โดยไม่จำเป็นต้องทำนายและจัดตำแหน่งโปรตีนสองครั้ง!
เอาต์พุต ORF2LCA มีลักษณะดังนี้:
อฟ | จำนวนครั้ง (r: 10) | เชื้อสาย | คะแนนบิต |
---|---|---|---|
contig_1_ORF1 | 7 | 1;131567;2;1783272 | 574.7 |
โดยที่เชื้อสายคือเชื้อสายอนุกรมวิธานเต็มรูปแบบของการจำแนกประเภทของ ORF และคะแนนบิตคือคะแนนบิตยอดนิยมที่กำหนดให้กับ ORF สำหรับการลงคะแนน ไฟล์เอาท์พุต BAT ORF2LCA มีคอลัมน์พิเศษที่ ORF เชื่อมโยงกับ MAG ที่พบ
เอาต์พุต contig2classification และ bin2classification มีลักษณะดังนี้:
contig หรือ bin | การจำแนกประเภท | เหตุผล | เชื้อสาย | คะแนนเชื้อสาย (f: 0.3) |
---|---|---|---|---|
คอนติก_1 | แท็กซี่ที่ได้รับมอบหมาย | อิงตาม 14/15 ORF | 1;131567;2;1783272 | 1.00; 1.00; 1.00; 0.78 |
contig_2 | แท็กซี่ที่ได้รับมอบหมาย (1/2) | อิงตาม 10/10 ORF | 1;131567;2;1783272;17id98711;1117;307596;307595;1890422;33071;1416614;1183438* | 1.00;1.00;1.00;1.00;1.00;1.00;1.00;1.00;1.00;1.00;0.23;0.23 |
contig_2 | แท็กซี่ที่ได้รับมอบหมาย (2/2) | อิงตาม 10/10 ORF | 1;131567;2;1783272;1798711;1117;307596;307595;1890422;33071;33072 | 1.00;1.00;1.00;1.00;1.00;1.00;1.00;1.00;1.00;1.00;0.77 |
contig_3 | ไม่มีการกำหนดแท็กซี่ | ไม่พบ ORF |
โดยที่คะแนนเชื้อสายแสดงถึงเศษส่วนของการสนับสนุนคะแนนบิตสำหรับแต่ละประเภท contig_2 มีสองประเภท กรณีนี้อาจเกิดขึ้นได้หากเลือกพารามิเตอร์ f ต่ำกว่า 0.5 สำหรับคำอธิบายของ การจำแนกประเภทที่ติดดาว โปรดดูการทำเครื่องหมายการจัดอนุกรมวิธานที่มีการชี้นำด้วยเครื่องหมายดอกจัน
หากต้องการเพิ่มชื่อให้กับtaxidsในไฟล์เอาท์พุตไฟล์ใดไฟล์หนึ่ง ให้รัน:
$ CAT_pack add_names -i {ORF2LCA / classification file} -o {output file} -t {taxonomy folder}
นี่จะแสดงให้คุณเห็นว่าตัวอย่าง contig_1 ถูกจัดอยู่ในกลุ่ม Terrabacteria หากต้องการรับอันดับอย่างเป็นทางการเท่านั้น ( เช่น superkingdom, ไฟลัม, ...):
$ CAT_pack add_names -i {ORF2LCA / classification file} -o {output file} -t {taxonomy folder} --only_official
หรืออีกทางหนึ่ง:
$ CAT_pack add_names -i {ORF2LCA / classification file} -o {output file} -t {taxonomy folder} --only_official --exclude_scores
หากคุณตั้งชื่อไฟล์การจำแนกประเภท CAT หรือ BAT ด้วยชื่อที่เป็นทางการ คุณจะได้รับข้อมูลสรุปของการจำแนกประเภท โดยที่ความยาวรวมและจำนวน ORF ที่รองรับอนุกรมวิธานจะถูกคำนวณสำหรับ contig และจำนวน MAG ต่ออนุกรมวิธานที่พบสำหรับการจำแนกประเภท MAG:
$ CAT_pack summarise -c {contigs fasta} -i {named CAT classification file} -o {output file}
$ CAT_pack summarise -i {named BAT classification file} -o {output file}
ปัจจุบัน CAT_pack summarise
ไม่รองรับไฟล์การจำแนกประเภทโดยที่ contigs / MAG บางตัวมีการจำแนกหลายประเภท (ดังที่ contig_2 ด้านบน)
เมื่อเราต้องการลงไปยังระดับอนุกรมวิธานที่ต่ำที่สุดที่เป็นไปได้สำหรับการจำแนกประเภทอย่างมั่นใจ ข้อสันนิษฐานที่สำคัญก็คือว่าในระดับนั้นความขัดแย้งระหว่างการจำแนกประเภทอาจเกิดขึ้นได้ กล่าวคือ หากมีการจำแนกประเภทที่ขัดแย้งกัน อัลกอริธึมจะทำให้การจำแนกประเภทเป็นแบบอนุรักษ์นิยมมากขึ้นโดยการเลื่อนระดับขึ้นไป เนื่องจากไม่เป็นเช่นนั้น เราจึงสามารถไว้วางใจการจำแนกประเภทระดับต่ำได้ อย่างไรก็ตาม มันเป็นไปไม่ได้เสมอไปที่ความขัดแย้งจะเกิดขึ้น เพราะในบางกรณีไม่มีลำดับอื่นจาก clade ปรากฏอยู่ในฐานข้อมูล นี่เป็นเรื่องจริง ตัวอย่างเช่น วงศ์ Dehalococcoidaceae ซึ่งในฐานข้อมูลของเราเป็นตัวแทนเพียงผู้เดียวของลำดับ Dehalococcoidales ดังนั้น เราไม่สามารถระบุได้อย่างมั่นใจว่าการจำแนกในระดับครอบครัวนั้นถูกต้องมากกว่าการจำแนกในระดับลำดับ ในกรณีเหล่านี้ CAT และ BAT จะทำเครื่องหมายเชื้อสายด้วยเครื่องหมายดอกจัน โดยเริ่มจากการจำแนกระดับต่ำสุดไปจนถึงระดับที่อาจเกิดข้อขัดแย้งขึ้นเนื่องจาก clade มีหลายแท็กซ่าพร้อมรายการฐานข้อมูล ขอแนะนำให้ผู้ใช้ตรวจสอบแท็กซ่าที่ติดดาวอย่างระมัดระวังมากขึ้น เช่น โดยการวิเคราะห์ลำดับเอกลักษณ์ระหว่าง ORF ที่คาดการณ์ไว้กับการเข้าชม หรือเลื่อนลำดับเชื้อสายไปสู่การจำแนกประเภทที่มั่นใจ (กล่าวคือ การจำแนกประเภทแรกโดยไม่มีเครื่องหมายดอกจัน)
หากคุณไม่ต้องการเครื่องหมายดอกจันในไฟล์เอาท์พุตของคุณ คุณสามารถเพิ่มแฟล็ก --no_stars
ให้กับ CAT หรือ BAT
CAT และ BAT อาจใช้เวลาสักครู่ในการทำงาน และอาจใช้ RAM และพื้นที่ดิสก์ค่อนข้างมาก คุณสามารถปรับแต่ง CAT และ BAT เพื่อเพิ่มค่าหนึ่งและย่อส่วนอื่นๆ ให้เหลือน้อยที่สุด ทั้งนี้ขึ้นอยู่กับสิ่งที่คุณให้ความสำคัญมากที่สุด อัลกอริธึมการจำแนกประเภทนั้นรวดเร็วและเป็นมิตรกับหน่วยความจำและพื้นที่ดิสก์ ขั้นตอนที่แพงที่สุดคือการปรับตำแหน่งด้วย DIAMOND ดังนั้นการปรับพารามิเตอร์การปรับตำแหน่งจะมีผลกระทบสูงสุด:
-n / --nproc
ให้คุณเลือกจำนวนคอร์ที่จะปรับใช้--sensitive
สิ่งนี้จะเพิ่มความไว แต่จะทำให้การจัดแนวช้าลงมาก--block_size
ให้ต่ำลงจะลดหน่วยความจำและการใช้พื้นที่ดิสก์ชั่วคราว การตั้งค่าให้สูงขึ้นจะเพิ่มประสิทธิภาพ--index_chunks
เป็น 1 (ปัจจุบันเป็นค่าเริ่มต้น) พารามิเตอร์นี้ไม่มีผลกระทบต่อการใช้พื้นที่ดิสก์ชั่วคราว--tmpdir
การขอความช่วยเหลือในการรันยูทิลิตีการเตรียม:
$ CAT_pack prepare --help
เรียกใช้ CAT บนชุด contig ด้วยการตั้งค่าพารามิเตอร์เริ่มต้นที่ใช้งาน 16 คอร์สำหรับการจัดตำแหน่ง DIAMOND ตั้งชื่อเอาต์พุตการจำแนกประเภท contig ด้วยชื่ออย่างเป็นทางการ และสร้างข้อมูลสรุป:
$ CAT_pack contigs -c contigs.fasta -d db/ -t tax/ -n 16 --out_prefix first_CAT_run
$ CAT_pack add_names -i first_CAT_run.contig2classification.txt -o first_CAT_run.contig2classification.official_names.txt -t tax/ --only_official
$ CAT_pack summarise -c contigs.fasta -i first_CAT_run.contig2classification.official_names.txt -o CAT_first_run.summary.txt
เรียกใช้ BAT บนชุดของ MAG ที่ถูกแยกออกจาก contig เหล่านี้ นำการคาดการณ์โปรตีนและไฟล์การจัดตำแหน่ง DIAMOND ที่สร้างขึ้นก่อนหน้านี้ในระหว่างการจำแนกประเภท contig มาใช้ซ้ำ:
$ CAT_pack bins -b bins/ -d db/ -t tax/ -p first_CAT_run.predicted_proteins.faa -a first_CAT_run.alignment.diamond -o first_BAT_run
รันอัลกอริทึมการจำแนกประเภท contig อีกครั้งด้วยการตั้งค่าพารามิเตอร์ที่กำหนดเอง และตั้งชื่อเอาต์พุตด้วยชื่อทั้งหมดใน Lineage ยกเว้นคะแนน:
$ CAT_pack contigs --range 5 --fraction 0.1 -c contigs.fasta -d db/ -t tax/ -p first_CAT_run.predicted_proteins.faa -a first_CAT_run.alignment.diamond -o second_CAT_run
$ CAT_pack add_names -i second_CAT_run.contig2classification.txt -o second_CAT_run.contig2classification.names.txt -t tax/ --exclude_scores
เรียกใช้ BAT บนชุด MAG ด้วยการตั้งค่าพารามิเตอร์แบบกำหนดเอง ระงับการใช้คำฟุ่มเฟือย และไม่เขียนไฟล์บันทึก ถัดไป เพิ่มชื่อให้กับไฟล์เอาต์พุต ORF2LCA:
$ CAT_pack bins -r 3 -f 0.1 -b bins/ -s .fa -d db/ -t tax/ -p first_CAT_run.predicted_proteins.faa -a first_CAT_run.alignment.diamond --o second_BAT_run --quiet --no_log
$ CAT_pack add_names -i second_BAT_run.ORF2LCA.txt -o second_BAT_run.ORF2LCA.names.txt -t tax/
เรามักจะใช้ CAT / BAT ร่วมกันเพื่อสำรวจการปนเปื้อนที่เป็นไปได้ภายใน MAG
$ CAT_pack contigs -c ../bins/interesting_MAG.fasta -d db/ -t tax/ -o CAT.interesting_MAG
$ CAT_pack bins -b ../bins/interesting_MAG.fasta -d db/ -t tax/ -p CAT.interesting_MAG.predicted_proteins.faa -a CAT.interesting_MAG.alignment.diamond -o BAT.interesting_MAG
Contigs ที่มีสัญญาณอนุกรมวิธานแตกต่างจากการจำแนกประเภท MAG อาจมีการปนเปื้อน
หรือคุณสามารถดูการปนเปื้อนจากมุมมองของ MAG ได้โดยการตั้งค่าพารามิเตอร์ f ให้เป็นค่าต่ำ:
$ CAT_pack bins -f 0.01 -b ../bins/interesting_MAG.fasta -d db/ -t tax/ -o BAT.interesting_MAG
$ CAT_pack add_names -i BAT.interesting_MAG.bin2classification.txt -o BAT.interesting_MAG.bin2classification.names.txt -t tax/
BAT จะส่งสัญญาณอนุกรมวิธานใด ๆ ที่รองรับอย่างน้อย 1% สัญญาณการแยกคะแนนต่ำเป็นสัญญาณของการปนเปื้อนที่ชัดเจน!
RAT ประมาณการองค์ประกอบทางอนุกรมวิธานของเมตาจีโนมโดยการรวมสัญญาณอนุกรมวิธานจาก MAG, คอนทิก และการอ่าน RAT ได้รับการเพิ่มลงใน CAT pack จากเวอร์ชัน 6.0 หากต้องการใช้ RAT คุณต้องมีไฟล์ฐานข้อมูล CAT pack (ดูข้อมูลเพิ่มเติมในการเริ่มต้นใช้งาน)
RAT สร้างโปรไฟล์แบบรวมโดยใช้ MAGs/bins, contigs และการอ่าน หากต้องการระบุองค์ประกอบที่ควรรวมเข้าด้วยกัน ให้ใช้อาร์กิวเมนต์ --mode
ตัวอักษรที่เป็นไปได้สำหรับ --mode
คือ m
(สำหรับ MAG), c
(สำหรับ contigs) และ r
(สำหรับการอ่าน) สามารถผสมตัวอักษรทั้งสามตัวเข้าด้วยกันได้ทั้งหมด ยกเว้น r
เพียงอย่างเดียว หากต้องการรันเวิร์กโฟลว์ที่สมบูรณ์ของ RAT ให้ระบุโหมด อ่านไฟล์ ไฟล์ contig โฟลเดอร์ bin และไฟล์ฐานข้อมูล:
$ CAT_pack reads --mode mcr -b bin_folder/ -c contigs.fasta -1 forward_reads.fq.gz -2 reverse_reads.fq.gz -d db/ -t tax/
ปัจจุบัน RAT รองรับไฟล์อ่านเดี่ยวและไฟล์อ่านแบบคู่ ขณะนี้ยังไม่รองรับไฟล์การอ่านแบบอินเทอร์เลซ RAT จะรัน CAT และ BAT บน contigs และ MAGs จะแมปการอ่านกลับไปยัง contigs จากนั้นพยายามใส่คำอธิบายประกอบการอ่านที่ไม่ได้แมปแยกกัน หากคุณมีไฟล์การแมปที่เรียงลำดับแล้ว คุณสามารถจัดหาได้ และ RAT จะข้ามขั้นตอนการแมป:
$ CAT_pack reads --mode mcr -b bin_folder/ -c contigs.fasta --bam1 mapping_file_sorted.bam -1 forward_reads.fq.gz -2 reverse_reads.fq.gz -d db/ -t tax/
หาก CAT และ/หรือ BAT ถูกเรียกใช้กับข้อมูลของคุณแล้ว คุณสามารถจัดหาไฟล์เอาท์พุตให้กับ RAT เพื่อข้ามการทำงานของ CAT และ BAT ได้:
$ CAT_pack reads --mode mcr -b bin_folder/ -c contigs.fasta -1 forward_reads.fq.gz -2 reverse_reads.fq.gz -d db/ -t tax/ --c2c CAT_contig2classification_file.txt --b2c BAT_bin2classification_file.txt
ในทำนองเดียวกัน หากการเรียกใช้ RAT ก่อนหน้านี้ขัดข้องหลังจากการอ่านที่ยังไม่ได้แม็ปได้รับการปรับให้สอดคล้องกับฐานข้อมูลด้วยเพชรแล้ว คุณสามารถจัดหาไฟล์ระดับกลางเพื่อดำเนินการรันต่อไปได้:
$ CAT_pack reads --mode mcr -b bin_folder/ -c contigs.fasta -1 forward_reads.fq.gz -2 reverse_reads.fq.gz -d db/ -t tax/ --c2c CAT_contig2classification_file.txt --b2c BAT_bin2classification_file.txt --alignment_unmapped unmapped_alignment_file.diamond
หลังจากการรัน RAT เสร็จสิ้น คุณสามารถรัน add_names บนไฟล์ความอุดมสมบูรณ์ได้ (เฉพาะสำหรับการรัน RAT ด้วยฐานข้อมูล nr เท่านั้น):
$ CAT_pack add_names -i RAT.completete_abundance_file.txt -o RAT.completete_abundance_file_with_names.txt -t tax/
เช่นเดียวกับ CAT และ BAT เส้นทางไปยังการอ้างอิงทั้งหมดสามารถระบุได้ผ่านอาร์กิวเมนต์:
$ CAT_pack reads --mode mcr -b bin_folder/ -c contigs.fasta -1 forward_reads.fq.gz -2 reverse_reads.fq.gz -d db/ -t tax/ --path_to_samtools /path/to/samtools
เอาต์พุต RAT ประกอบด้วย:
r
ใน --mode
)