สำคัญ: ตั้งแต่ 3ACE4FF รูปแบบของการถ่ายโอนข้อมูล k-mer แบบไบนารีจึงไม่สอดคล้องกับเวอร์ชันก่อนหน้า คุณต้องกลับมาอีกครั้งเพื่อสร้างการถ่ายโอน yak count
k-mer ในรูปแบบใหม่
# Download and compile
git clone https://github.com/lh3/yak
cd yak && make
# build k-mer hash table for assembly; count singletons
./yak count -K1.5g -t32 -o asm.yak asm.fa.gz
# build k-mer hash tables for high-coverage reads; discard singletons
./yak count -b37 -t32 -o ccs.yak ccs-reads.fq.gz
# for paired end: to provide two identical streams
./yak count -b37 -t32 -o sr.yak <( zcat sr * .fq.gz ) <( zcat sr * .fq.gz )
# compute assembly or reads QV
./yak qv -t32 -p -K3.2g -l100k sr.yak asm.fa.gz > asm-sr.qv.txt
./yak qv -t32 -p sr.yak ccs-reads.fq.gz > ccs-sr.qv.txt
# compute k-mer QV for reads
./yak inspect ccs.yak sr.yak > ccs-sr.kqv.txt
# evaluate the completeness of assembly
./yak inspect sr.yak asm.yak > sr-asm.kqv.txt
# print k-mer histogram
./yak inspect sr.yak > sr.hist
# partition chrX/Y in human de novo assembly
wget -O- ' https://zenodo.org/record/7882299/files/human-chrXY-yak.tar?download=1 ' | tar tf -
./yak sexchr -K2g -t16 chrY-no-par.yak chrX-no-par.yak par.yak hap1.fa hap2.fa > cnt.txt
./groupxy.pl cnt.txt | awk ' $4==1 ' | cut -f2 | seqtk subseq -l80 <( cat hap1.fa hap2.fa ) - > new-hap1.fa
./groupxy.pl cnt.txt | awk ' $4==2 ' | cut -f2 | seqtk subseq -l80 <( cat hap1.fa hap2.fa ) - > new-hap2.fa
Yak ได้รับการพัฒนาเริ่มต้นสำหรับกรณีการใช้งานเฉพาะสองกรณี: 1) เพื่อประเมินความแม่นยำพื้นฐานของ CCS ที่อ่านและการประกอบ contigs และ 2) เพื่อตรวจสอบอัตราความผิดพลาดอย่างเป็นระบบของการอ่าน CCS มันบรรลุเป้าหมายโดยการเปรียบเทียบลำดับกับสเปกตรัม k-mer ของการอ่านสั้น ๆ หรือโดยการเปรียบเทียบสเปกตรัม ไม่จำเป็นต้องมีข้อมูลจีโนมหรือความจริงอ้างอิง
เป็นที่น่าสังเกตว่าการประเมินความถูกต้องของฐานนั้นเป็นเรื่องยาก เมื่อความถูกต้องเข้าใกล้ Q50 ทั้ง k-mers ที่ไม่ได้สุ่มตัวอย่างและผิดพลาดในการอ่านระยะสั้นอาจรบกวนตัวประมาณค่าที่ไร้เดียงสา จามรีแนะนำรูปแบบเชิงประจักษ์เพื่อแก้ไขปัญหานี้ การประมาณการของมันจะได้รับผลกระทบน้อยลงจากความครอบคลุมและคุณภาพของการอ่านสั้น ๆ