อ้างอิงถึงเรา : Haoyu Chao, Zhuojin Li, Dijun Chen, Ming Chen, iSeq: เครื่องมือบูรณาการเพื่อดึงข้อมูลลำดับสาธารณะ, Bioinformatics , 2024;, btae641, https://doi.org/10.1093/bioinformatics/btae641
iSeq เป็นสคริปต์ Bash ที่ให้คุณดาวน์โหลดข้อมูลลำดับและข้อมูลเมตาจากฐานข้อมูล GSA , SRA , ENA และ DDBJ ดูรายละเอียดไปป์ไลน์สำหรับ iSeq นี่คือไปป์ไลน์พื้นฐานของ iSeq:
สำคัญ
หากต้องการใช้ iSeq ระบบของคุณต้อง เชื่อมต่อกับเครือข่าย และ รองรับโปรโตคอล FTP, HTTP และ HTTPS
-s
, --speed
ตัวเลือก เพื่อตั้งค่าขีดจำกัดความเร็วในการดาวน์โหลด (MB/s) (ค่าเริ่มต้น: 1,000 MB/s) เช่น iseq -i SRR7706354 -s 10
sra-tools=2.11
เป็น sra-tools>=2.11.0
ตัวเลือก -e
ใหม่สำหรับการรวมไฟล์ FASTQ : เพิ่มตัวเลือก -e
เพื่อรวมไฟล์ FASTQ หลายไฟล์เป็นไฟล์เดียวสำหรับ Experiment (-e ex)
Sample (-e sa)
หรือ Study (-e st)
ตัวเลือก -i
ใหม่สำหรับการป้อนข้อมูล : ขณะนี้ iSeq
สามารถรับ file
ที่มีหมายเลขภาคยานุวัติหลายรายการเป็นอินพุตโดย -i fileName
การเปลี่ยนแปลง API สำหรับการดาวน์โหลดข้อมูลเมตา GSA : จุดสิ้นสุด API ได้รับการอัปเดตจาก getRunInfo
เป็น getRunInfoByCra
สำหรับการดาวน์โหลดข้อมูลเมตา GSA
บันทึกผลลัพธ์ลงในไดเร็กทอรีส่วนตัว : ผลลัพธ์เอาต์พุตจะถูกบันทึกในไดเร็กทอรีส่วนตัวของผู้ใช้โดยตัวเลือก -o
อัปเดต regex สำหรับการจับคู่ SAMC : รูปแบบการจับคู่สำหรับ SAMC ได้ถูกเปลี่ยนจาก SAMC[AZ]?[0-9]+
เป็น SAMC[0-9]+
แก้ไขข้อบกพร่องบางอย่าง
conda install bioconda::iseq
# Use the following command to check whether dependent software is installed
iseq --version
iseq -i PRJNA211801
-a
เพื่อดาวน์โหลดไฟล์ FASTQ ในรูปแบบ gzip โดยตรงด้วย -g
iseq -i SRR_Acc_List.txt -a -g
$ iseq --help
Usage:
iseq -i accession [options]
Required option:
-i, --input [text|file] Single accession or a file containing multiple accessions.
Note: Only one accession per line in the file, all accessions must be from the same database.
Optional options:
-m, --metadata Skip the sequencing data downloads and only fetch the metadata for the accession.
-g, --gzip Download FASTQ files in gzip format directly (*.fastq.gz).
Note: if *.fastq.gz files are not available, SRA files will be downloaded and converted to *.fastq.gz files.
-q, --fastq Convert SRA files to FASTQ format.
-t, --threads int The number of threads to use for converting SRA to FASTQ files or compressing FASTQ files (default: 8).
-e, --merge [ex|sa|st] Merge multiple fastq files into one fastq file for each Experiment, Sample or Study.
-d, --database [ena|sra] Specify the database to download SRA sequencing data (default: ena).
Note: new SRA files may not be available in the ENA database, even if you specify "ena".
-p, --parallel int Download sequencing data in parallel, the number of connections needs to be specified, such as -p 10.
Note: breakpoint continuation cannot be shared between different numbers of connections.
-a, --aspera Use Aspera to download sequencing data, only support GSA/ENA database.
-s, --speed int Download speed limit (MB/s) (default: 1000 MB/s).
-o, --output text The output directory. If not exists, it will be created (default: current directory).
-h, --help Show the help information.
-v, --version Show the script version.
-i
, --input
ป้อนภาคยานุวัติที่คุณต้องการดาวน์โหลด คุณยังสามารถป้อนไฟล์ที่มีการเข้าถึงหลายรายการได้ (ในไฟล์มีเพียงหนึ่งภาคยานุวัติต่อบรรทัด การเข้าถึงทั้งหมดจะต้องมาจากฐานข้อมูลเดียวกัน)
iseq -i PRJNA211801
ประการแรก iSeq จะดึงข้อมูลเมตาของภาคยานุวัติ จากนั้นจึงดำเนินการดาวน์โหลด Run แต่ละรายการที่มีอยู่ภายใน
ปัจจุบัน รองรับรูปแบบภาคยานุวัติ 6 รูปแบบ จาก 5 ฐานข้อมูล ต่อไปนี้ โดยมีคำนำหน้าภาคยานุวัติที่รองรับดังนี้:
ฐานข้อมูล | โครงการชีวภาพ | ศึกษา | ไบโอตัวอย่าง | ตัวอย่าง | การทดลอง | วิ่ง |
---|---|---|---|---|---|---|
จีเอสเอ | พีอาร์เจซี | CRA | บมจ | - | ซีอาร์เอ็กซ์ | ซีอาร์อาร์ |
ศร | ปราจนา | เอสอาร์พี | แซมน์ | สสส | เอสอาร์เอ็กซ์ | ศร |
อีเอ็นเอ | เพร็บ | ระบบอีอาร์พี | เดียวกัน | อส | ERX | ผิดพลาด |
ดีดีบีเจ | พีอาร์เจดีบี | อปท | SAMD | ดร | ดร.เอ็กซ์ | ดร |
ภูมิศาสตร์ | จีเอสอี | - | จีเอสเอ็ม | - | - | - |
นอกจากนี้ สำหรับรูปแบบข้อมูลสองรูปแบบ ( GSE/GSM
) จากฐานข้อมูล GEO มันจะดึงข้อมูล PRJNA/SAMN
ที่เกี่ยวข้องโดยตรง จากนั้นดำเนินการรับ Runs ที่มีอยู่และดาวน์โหลดข้อมูลลำดับ ดังนั้น โดยพื้นฐานแล้ว ยังคงดาวน์โหลดข้อมูลลำดับจากฐานข้อมูล SRA
นี่คือตัวอย่างบางส่วน:
ประเภทภาคยานุวัติ | คำนำหน้า | ตัวอย่าง |
---|---|---|
โครงการชีวภาพ | PRJEB, PRJNA, PRJDB, PRJC, GSE | PRJEB42779, PRJNA480016, PRJDB14838, PRJCA000613, GSE122139 |
ศึกษา | ERP, DRP, SRP, CRA | ERP126685, DRP009283, SRP158268, CRA000553 |
ไบโอตัวอย่าง | SAMD, เดียวกัน, SAMN, SAMC | SAMD00258402, SAMEA7997453, SAMN06479985, SAMC017083 |
ตัวอย่าง | ERS, DRS, SRS, GSM | ERS5684710, DRS259711, SRS2024210, GSM7417667 |
การทดลอง | ERX, DRX, SRX, CRX | ERX5050800, DRX406443, SRX4563689, CRX020217 |
วิ่ง | ข้อผิดพลาด DRR SRR CRR | ข้อผิดพลาด5260405, DRR421224, SRR7706354, CRR311377 |
โดยสรุป ไม่ว่ารูปแบบข้อมูลของการภาคยานุวัติของคุณในหกตัวเลือกจะเป็นเช่นไร ในที่สุดก็จะดาวน์โหลดและ ตรวจสอบค่า MD5 ของการรันแต่ละรายการที่มีอยู่ หากค่า MD5 ไม่ตรงกับค่าในฐานข้อมูลสาธารณะ ค่านั้นจะพยายามดาวน์โหลดซ้ำสูงสุด สามรอบ หากดาวน์โหลดและยืนยันได้สำเร็จหลังจากพยายามดาวน์โหลดและยืนยันสามครั้ง ชื่อไฟล์จะถูกจัดเก็บไว้ใน success.log
มิฉะนั้น หากการดาวน์โหลดล้มเหลว ชื่อไฟล์จะถูกจัดเก็บไว้ใน fail.log
-m
, --metadata
ดาวน์โหลดเฉพาะข้อมูลตัวอย่างของภาคยานุวัติ และข้ามการดาวน์โหลดข้อมูลลำดับ
iseq -i PRJNA211801 -m
iseq -i CRR343031 -m
ดังนั้น ไม่ว่าจะใช้พารามิเตอร์ -m
หรือไม่ก็ตาม ข้อมูลตัวอย่างของภาคยานุวัติจะได้รับ หากไม่สามารถเรียกข้อมูลเมตาได้ โปรแกรม iSeq จะออกโดยไม่ดำเนินการดาวน์โหลดครั้งต่อไป
บันทึก
หมายเหตุ 1 : หากภาคยานุวัติที่ดึงมาอยู่ในฐานข้อมูล SRA/ENA/DDBJ/GEO iSeq จะค้นหาในฐานข้อมูล ENA ก่อน หากดึงข้อมูลตัวอย่างได้ ระบบจะดาวน์โหลดข้อมูลเมตาใน รูปแบบ TSV
ผ่าน ENA API ซึ่งโดยทั่วไปจะมี 191 คอลัมน์ อย่างไรก็ตาม ข้อมูลที่เพิ่งเปิดตัวบางส่วนในฐานข้อมูล SRA อาจไม่ได้รับการซิงโครไนซ์กับฐานข้อมูล ENA ในทันที ดังนั้น หากไม่สามารถรับข้อมูลเมตาจากฐานข้อมูล ENA ได้ iSeq จะดาวน์โหลดข้อมูลเมตาโดยตรงใน รูปแบบ CSV
ผ่านแบ็กเอนด์ฐานข้อมูล SRA ซึ่งโดยทั่วไปจะมี 30 คอลัมน์ เพื่อรักษาความสอดคล้องกับรูปแบบ TSV ระบบจะแปลงเป็นรูปแบบ TSV โดยใช้ sed -i 's/,/t/g'
อย่างไรก็ตาม หากช่องใดช่องหนึ่งมีเครื่องหมายจุลภาค อาจทำให้เกิดความผิดปกติของคอลัมน์ได้ ท้ายที่สุด คุณจะได้รับข้อมูลตัวอย่างชื่อ ${accession}.metadata.tsv
บันทึก
หมายเหตุ 2 : หากภาคยานุวัติที่ดึงมาอยู่ในฐานข้อมูล GSA iSeq จะได้รับข้อมูลตัวอย่างผ่านทางอินเทอร์เฟซ getRunInfo ของ GSA โดยดาวน์โหลดข้อมูลเมตาใน รูปแบบ CSV
ซึ่งโดยทั่วไปจะมี 25 คอลัมน์ ข้อมูลเมตาที่ได้รับข้างต้นจะถูกบันทึกเป็น ${accession}.metadata.csv
เพื่อเสริมข้อมูลเมตาดาต้าที่มีรายละเอียดมากขึ้น iSeq จะได้รับข้อมูลเมตาดาต้าสำหรับโปรเจ็กต์ที่มีการภาคยานุวัติโดยอัตโนมัติผ่านอินเทอร์เฟซ ExportExcelFile ของ GSA โดยจะดาวน์โหลดข้อมูลเมตาในรูปแบบ XLSX
โดยทั่วไปจะมี 3 แผ่นงาน: Sample
, Experiment
, Run
ข้อมูลเมตาดาต้าสุดท้ายจะถูกบันทึกเป็น ${accession}.metadata.xlsx
โดยสรุป คุณจะได้รับข้อมูลตัวอย่างชื่อ ${accession}.metadata.csv
และ CRA*.metadata.xlsx
ในที่สุด
-g
, --gzip
ดาวน์โหลดไฟล์ FASTQ โดยตรงใน รูปแบบ gzip หากไม่สามารถดาวน์โหลดโดยตรงได้ ไฟล์ SRA จะถูกดาวน์โหลดและแปลงเป็นรูปแบบ gzip โดยใช้มัลติเธรดสำหรับการแยกย่อยและการบีบอัด
iseq -i SRR1178105 -g
เนื่องจากรูปแบบข้อมูลส่วนใหญ่ที่จัดเก็บโดยตรงในฐานข้อมูล GSA อยู่ในรูปแบบ gzip หากภาคยานุวัติที่กำลังค้นหานั้นมาจากฐานข้อมูล GSA ไม่ว่าจะใช้พารามิเตอร์ -g
หรือไม่ก็ตาม คุณก็สามารถดาวน์โหลดไฟล์ FASTQ ในรูปแบบ gzip ได้โดยตรง
หากภาคยานุวัติมาจากฐานข้อมูล SRA/ENA/DDBJ/GEO iSeq จะพยายามเข้าถึงฐานข้อมูล ENA ก่อน หากสามารถดาวน์โหลดไฟล์ FASTQ ในรูปแบบ gzip ได้โดยตรง ก็จะทำเช่นนั้น มิฉะนั้นจะดาวน์โหลดไฟล์ SRA และแปลงเป็นรูปแบบ FASTQ โดยใช้เครื่องมือ fasterq-dump
จากนั้นบีบอัดไฟล์ FASTQ โดยใช้เครื่องมือ pigz
ในที่สุดก็จะได้ไฟล์ FASTQ ในรูปแบบ gzip
เคล็ดลับ
Parallel-fastq-dump ยังสามารถแปลง SRA เป็นไฟล์ FASTQ ที่บีบอัดด้วย gzip ซึ่งโดยทั่วไปจะเร็วกว่า fasterq-dump + pigz
ถึง 2-3 เท่า อย่างไรก็ตาม เมื่อพิจารณาถึง ข้อจำกัดของ IO แล้ว ขณะนี้ iSeq
ยังไม่รองรับ parallel-fastq-dump
-q
, --fastq
หลังจากดาวน์โหลดไฟล์ SRA ไฟล์เหล่านั้นจะถูกแยกย่อยเป็นไฟล์ FASTQ ที่ไม่มีการบีบอัด หลายไฟล์
iseq -i SRR1178105 -q
พารามิเตอร์นี้จะมีผลเฉพาะเมื่อภาคยานุวัติมาจากฐานข้อมูล SRA/ENA/DDBJ/GEO และไฟล์ที่ดาวน์โหลดเป็น ไฟล์ SRA หลังจากดาวน์โหลดไฟล์ SRA แล้ว iSeq จะใช้เครื่องมือ fasterq-dump
เพื่อแปลงเป็นไฟล์ FASTQ นอกจากนี้ คุณยังสามารถระบุจำนวนเธรดสำหรับการแปลงได้โดยใช้พารามิเตอร์ -t
บันทึก
Note1 : -q
มีประโยชน์อย่างยิ่งสำหรับการดาวน์โหลด ข้อมูลเซลล์เดียว โดยเฉพาะข้อมูล scATAC-Seq เนื่องจากสามารถแยกย่อยไฟล์ออกเป็นสี่ส่วนได้อย่างมีประสิทธิภาพ: I1
, R1
, R2
, R3
อย่างไรก็ตาม หากดาวน์โหลดไฟล์ FASTQ โดยตรงผ่านพารามิเตอร์ -g
จะได้รับเฉพาะไฟล์ R1
และ R3
เท่านั้น (เช่น SRR13450125) ซึ่งอาจทำให้เกิดปัญหาในระหว่างการวิเคราะห์ข้อมูลในภายหลัง
บันทึก
หมายเหตุ 2 : เมื่อใช้ -q
และ -g
ร่วมกัน ไฟล์ SRA จะถูกดาวน์โหลดก่อน จากนั้นจึงแปลงเป็นไฟล์ FASTQ
โดยใช้เครื่องมือ fasterq-dump
และสุดท้ายจะบีบอัดเป็นรูปแบบ gzip โดยใช้ pigz
มันไม่ได้ดาวน์โหลดไฟล์ FASTQ
ในรูปแบบ gzip โดยตรง ซึ่งมีประโยชน์มากสำหรับการรับข้อมูลเซลล์เดียวที่ครอบคลุม
-t
, --threads
ระบุจำนวนเธรดที่จะใช้สำหรับการขยายขนาดไฟล์ SRA ให้เป็นไฟล์ FASTQ หรือการบีบอัดไฟล์ FASTQ ค่าเริ่มต้นคือ 8
iseq -i SRR1178105 -q -t 10
เมื่อพิจารณาว่าไฟล์ข้อมูลการเรียงลำดับโดยทั่วไปมีขนาดใหญ่ คุณสามารถระบุจำนวนเธรดสำหรับการแบ่งแยกโดยใช้พารามิเตอร์ -t
อย่างไรก็ตาม จำนวนเธรดที่มากขึ้นไม่ได้หมายความว่าจะมีประสิทธิภาพดีขึ้นเสมอไป เนื่องจากเธรดที่มากเกินไปอาจทำให้มี การโหลด CPU หรือ IO สูง โดยเฉพาะอย่างยิ่งเมื่อ fasterq-dump
ใช้ IO ในปริมาณมาก ซึ่งอาจส่งผลกระทบต่อการดำเนินการงานอื่นๆ จากการประเมินเกณฑ์มาตรฐาน เราขอแนะนำจำนวนเธรดสูงสุดที่ 15
-e
, --merge
รวมไฟล์ FASTQ หลายไฟล์ เป็นไฟล์ FASTQ ไฟล์เดียว สำหรับการทดลองแต่ละรายการ ( ex
) ตัวอย่าง ( sa
) หรือการศึกษา ( st
)
iseq -i SRX003906 -g -e ex
แม้ว่าในกรณีส่วนใหญ่ การทดลองจะมีการทดสอบเพียงครั้งเดียว แต่ข้อมูลลำดับบางอย่างอาจมีการทดสอบหลายครั้งภายในการทดสอบหนึ่งๆ (เช่น SRX003906, CRX020217) ดังนั้น คุณสามารถใช้พารามิเตอร์ -e
เพื่อรวมไฟล์ FASTQ หลายไฟล์จากการทดลองให้เป็นไฟล์เดียวได้ เมื่อพิจารณาถึงลำดับคู่สิ้นสุด โดยที่ไฟล์ fastq_1
และ fastq_2
จำเป็นต้องผสานพร้อมกัน และชื่อลำดับในบรรทัดที่เกี่ยวข้องจะต้องคงเส้นคงวา iSeq จะรวมไฟล์ FASTQ หลายไฟล์ใน ลำดับเดียวกัน ท้ายที่สุดแล้ว สำหรับข้อมูลลำดับ ปลายเดี่ยว ไฟล์เดียว SRX*.fastq.gz
จะถูกสร้างขึ้น และสำหรับข้อมูลลำดับ คู่ปลาย ไฟล์ SRX*_1.fastq.gz
และ SRX*_2.fastq.gz
สองไฟล์จะถูกสร้างขึ้น .
บันทึก
หมายเหตุ 1 : หากภาคยานุวัติเป็น Run ID จะไม่สามารถใช้พารามิเตอร์ -e
ได้ (ดูด้านล่าง) ปัจจุบัน iSeq รองรับการรวมไฟล์ FASTQ ทั้งที่บีบอัด gzip และที่ไม่บีบอัด แต่ไม่รองรับการรวมไฟล์ เช่น ไฟล์ BAM และไฟล์ tar.gz
-e ex
: รวมไฟล์ fastq ทั้งหมดของ การทดลอง เดียวกันให้เป็นไฟล์ fastq ไฟล์เดียว รูปแบบภาคยานุวัติที่ยอมรับ: ERX, DRX, SRX, CRX
-e sa
: รวมไฟล์ fastq ทั้งหมดของ ตัวอย่าง เดียวกันเป็นไฟล์ fastq ไฟล์เดียว รูปแบบภาคยานุวัติที่ยอมรับ: ERS, DRS, SRS, SAMC, GSM
-e st
: รวมไฟล์ fastq ทั้งหมดของ Study เดียวกันเป็นไฟล์ fastq ไฟล์เดียว รูปแบบภาคยานุวัติที่ยอมรับ: ERP, DRP, SRP, CRA
บันทึก
หมายเหตุ 2 : โดยปกติ เมื่อการทดสอบมีเพียงการทดสอบเดียว การทดสอบที่เหมือนกันควรมี คำนำหน้าเหมือนกัน ตัวอย่างเช่น SRR52991314_1.fq.gz
และ SRR52991314_2.fq.gz
มีคำนำหน้าเหมือนกัน SRR52991314
ในกรณีนี้ iSeq จะ เปลี่ยนชื่อ เป็น SRX*_1.fastq.gz
และ SRX*_2.fastq.gz
โดยตรง อย่างไรก็ตาม มีข้อยกเว้น เช่น ใน CRX006713 โดยที่ Run CRR007192
มีไฟล์ที่มีคำนำหน้าต่างกัน ในกรณีเช่นนี้ iSeq จะ เปลี่ยนชื่อ เป็น SRX*_original_filename
ตัวอย่างเช่น จะเปลี่ยนชื่อเป็น CRX006713_CRD015671.gz
และ CRX006713_CRD015672.gz
-d
, --database
ระบุฐานข้อมูลสำหรับการดาวน์โหลดไฟล์ SRA ซึ่งรองรับฐานข้อมูล ENA และ SRA
iseq -i SRR1178105 -d sra
ตามค่าเริ่มต้น iSeq จะตรวจจับฐานข้อมูลที่มีอยู่โดยอัตโนมัติ ดังนั้นการระบุพารามิเตอร์ -d
มักจะไม่จำเป็น อย่างไรก็ตาม ไฟล์ SRA บางไฟล์อาจดาวน์โหลด ช้า จากฐานข้อมูล ENA ในกรณีเช่นนี้ คุณสามารถบังคับให้ดาวน์โหลดจากฐานข้อมูล SRA ได้โดยระบุ -d sra
บันทึก
หมายเหตุ : หากไม่พบไฟล์ SRA ที่เกี่ยวข้องในฐานข้อมูล ENA แม้ว่าจะระบุพารามิเตอร์ -d ena
แล้ว iSeq จะยังคงสลับไปดาวน์โหลดจากฐานข้อมูล SRA โดยอัตโนมัติ
-p
, --parallel
เปิดใช้งาน การดาวน์โหลดแบบมัลติเธรด และจำเป็นต้องระบุจำนวนเธรด
iseq -i PRJNA211801 -p 10
เมื่อพิจารณาว่า wget
อาจช้าในบางกรณี คุณสามารถใช้พารามิเตอร์ -p
เพื่อให้ iSeq ใช้เครื่องมือ axel
สำหรับการดาวน์โหลดแบบมัลติเธรด
บันทึก
หมายเหตุ 1 : คุณลักษณะ การดาวน์โหลดที่ดำเนินการต่อได้ ของการดาวน์โหลดแบบมัลติเธรดจะมีผลเฉพาะภายใน เธรดเดียวกัน เท่านั้น นั่นคือ หากใช้พารามิเตอร์ -p 10
สำหรับการดาวน์โหลดครั้งแรก จะต้องใช้สำหรับการดาวน์โหลดครั้งที่สองด้วยเพื่อเปิดใช้งานการดาวน์โหลดต่อ
บันทึก
หมายเหตุ 2 : ตามที่กล่าวไว้ iSeq จะรักษาการเชื่อมต่อ 10 รายการไว้ตลอดกระบวนการดาวน์โหลด ดังนั้นคุณจะเห็น Connection * finished
หลายครั้งในระหว่างขั้นตอนการดาวน์โหลด เนื่องจากการเชื่อมต่อบางอย่างจะถูกปล่อยออกมาทันทีหลังจากการดาวน์โหลดเสร็จสิ้น จากนั้นจึงสร้างการเชื่อมต่อใหม่สำหรับการดาวน์โหลด
-a
, --aspera
ใช้ Aspera ในการดาวน์โหลด
iseq -i PRJNA211801 -a -g
เนื่องจาก Aspera ให้ความเร็วในการดาวน์โหลดที่เร็วกว่า คุณจึงใช้พารามิเตอร์ -a
เพื่อสั่งให้ iSeq ใช้เครื่องมือ ascp
ในการดาวน์โหลดได้ ขออภัย ปัจจุบันการดาวน์โหลด Aspera รองรับเฉพาะฐานข้อมูล GSA และ ENA เท่านั้น ฐานข้อมูล NCBI SRA ไม่สามารถใช้ Aspera ในการดาวน์โหลดได้ เนื่องจากฐานข้อมูลใช้เทคโนโลยี Google Cloud และ AWS Cloud เป็นส่วนใหญ่ และเหตุผลอื่นๆ โปรดดูที่การหลีกเลี่ยงการใช้-ascp
บันทึก
หมายเหตุ 1 : เมื่อเข้าถึงฐานข้อมูล GSA หากมีลิงก์ดาวน์โหลดจาก Huawei Cloud iSeq จะจัดลำดับความสำคัญของการดาวน์โหลดผ่าน Huawei Cloud แม้ว่าจะใช้พารามิเตอร์ -a
ก็ตาม เนื่องจาก Huawei Cloud ให้ความเร็วในการดาวน์โหลดที่เร็วกว่าและเสถียรกว่า ดังนั้น เมื่อดาวน์โหลดข้อมูล GSA ขอ แนะนำให้ใช้พารามิเตอร์ -a
r ด้วยวิธีนี้ หากไม่สามารถเข้าถึง Huawei Cloud ได้ การดาวน์โหลดผ่านช่องทาง Aspera ก็ยังค่อนข้างรวดเร็ว ไม่เช่นนั้นคุณจะต้องหันไปดาวน์โหลดผ่าน wget
หรือ axel
ซึ่งเป็นวิธีที่ช้ากว่า
บันทึก
หมายเหตุ 2 : เนื่องจาก Asper
a ต้องใช้ไฟล์คีย์ iSeq จะ ค้นหาไฟล์คีย์โดยอัตโนมัติ ในสภาพแวดล้อม conda
หรือไดเร็กทอรี ~/.aspera
หากไม่พบไฟล์คีย์ จะไม่สามารถดาวน์โหลดได้
-o
, --output
ไดเรกทอรีผลลัพธ์ หากไม่มีอยู่ ระบบจะถูกสร้างขึ้น (ค่าเริ่มต้น: ไดเร็กทอรีปัจจุบัน)
-s
, --speed
จำกัดความเร็วการดาวน์โหลด (MB/s) (ค่าเริ่มต้น: 1,000 MB/s) สำหรับ Wget
, AXEL
และ Aspera
เอาท์พุต | คำอธิบาย |
---|---|
ไฟล์ SRA | สามารถแปลงเป็นไฟล์ FASTQ ได้โดยใช้ตัวเลือก -q |
.metadata.tsv | ข้อมูลเมตาสำหรับภาคยานุวัติแบบสอบถาม |
ความสำเร็จ.log | บันทึกชื่อไฟล์ SRA ที่ดาวน์โหลดสำเร็จ |
ล้มเหลว.log | บันทึกชื่อไฟล์ SRA ที่ดาวน์โหลดมาไม่สำเร็จ |
เอาท์พุต | คำอธิบาย |
---|---|
ไฟล์ GSA | ส่วนใหญ่อยู่ในรูปแบบ *.gz และบางส่วนเป็นรูปแบบ bam/tar/bz2 |
.metadata.csv | ข้อมูลเมตาสำหรับภาคยานุวัติแบบสอบถาม |
.metadata.xlsx | ข้อมูลเมตาสำหรับโครงการรวมถึงภาคยานุวัติแบบสอบถามในรูปแบบ xlsx |
ความสำเร็จ.log | บันทึกชื่อไฟล์ GSA ที่ดาวน์โหลดสำเร็จแล้ว |
ล้มเหลว.log | บันทึกชื่อไฟล์ GSA ที่ดาวน์โหลดมาไม่สำเร็จ |
iSeq ได้รับแรงบันดาลใจจาก fastq-dl, fetchngs, pysradb, Kingfisher เครื่องมือที่ยอดเยี่ยมเหล่านี้อาจมีประโยชน์มากเช่นกัน ด้านล่างนี้คือการเปรียบเทียบซอฟต์แวร์ต่างๆ หลายรายการ:
ชื่อซอฟต์แวร์ | ภาษาโปรแกรม | ฐานข้อมูลที่รองรับ | ภาคยานุวัติที่รองรับ | รูปแบบที่รองรับ | วิธีการที่รองรับ | ดึงข้อมูลเมตา | การตรวจสอบ MD5 | ดาวน์โหลดต่อได้ | ดาวน์โหลดแบบขนาน | รวม FASTQ | ข้ามการดาวน์โหลด | คอนด้าติดตั้งได้ | URL |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
iSeq | เปลือก | GSA, SRA, ENA, DDBJ, GEO | ทั้งหมด | fq, fq.gz, sra, แบม | wget, แอ็กเซล, แอสเปรา | - | |||||||
ขอบเทอร์โบ | ค | จีเอสเอ | ทั้งหมดปฏิเสธ | fq, fq.gz, แบม | ดาวน์โหลด edgeturbo | - | |||||||
ชุดเครื่องมือ SRA | ค | สรา อีน่า DDBJ | ทั้งหมดถูกปฏิเสธคาดว่า Run ID | fq, fq.gz, sra | ดึงข้อมูลล่วงหน้า | - | |||||||
enaBrowserTools | หลาม | สรา อีน่า DDBJ | ทั้งหมดยกเว้นรหัส GSA/GEO | fq, fq.gz, sra | urllib, แอสเปรา | - | |||||||
fastq-dl | หลาม | สรา อีน่า DDBJ | ทั้งหมดยกเว้นรหัส GSA/GEO | fq, fq.gz, sra, sra.lite | ตกลง | - | |||||||
ดึงข้อมูล | หลาม | สรา ENA DDBJ ภูมิศาสตร์ | ทั้งหมดยกเว้นรหัส GSA | fq, fq.gz | wget, aspera, ดึงข้อมูลล่วงหน้า | - | |||||||
ไพสราดบ์ | หลาม | สรา ENA DDBJ ภูมิศาสตร์ | ทั้งหมดยกเว้นรหัส GSA | fq, fq.gz, sra, แบม | คำขอ, แอสเพรา | - | |||||||
กระเต็น | หลาม | สรา อีน่า DDBJ | ทั้งหมดยกเว้นรหัส GSA/GEO | fq, fq.gz, sra | ขด, aria2c, แอสเพอรา | - | |||||||
ffq | หลาม | สรา ENA DDBJ ภูมิศาสตร์ | ทั้งหมดยกเว้นรหัส GSA | fq, fq.gz, sra, แบม | คำขอ | - |
ยินดีต้อนรับการมีส่วนร่วมกับ iSeq ! หากคุณมีข้อเสนอแนะ รายงานข้อบกพร่อง หรือการร้องขอคุณสมบัติ โปรดเปิดปัญหาบนพื้นที่เก็บข้อมูล GitHub ของโปรเจ็กต์ หากคุณต้องการสนับสนุนโค้ด โปรดแยกพื้นที่เก็บข้อมูล ทำการเปลี่ยนแปลง และส่งคำขอดึง
อ้างอิงถึงเรา : https://doi.org/10.1101/2024.05.16.594538
โครงการนี้ได้รับอนุญาตภายใต้ใบอนุญาต MIT