Silakan lihat: https://github.com/DominikBuchner/BOLDigger3
Program Python yang lebih baik lagi untuk menanyakan file .fasta terhadap database COI di www.boldsystems.org
Kumpulan data metabarcoding DNA sering kali terdiri dari ratusan Unit Taksonomi Operasional (OTU), yang memerlukan kueri terhadap database untuk penugasan taksonomi. Sistem Barcode of Life Data (BOLD) adalah database yang banyak digunakan untuk tujuan ini di kalangan ahli biologi. Namun, platform online BOLD membatasi pengguna untuk mengidentifikasi kumpulan hanya 50 urutan dalam satu waktu. Selain itu, penggunaan API BOLD tidak sepenuhnya mengatasi masalah ini karena tidak menyediakan akses ke data pribadi dan rilis awal.
BOLDigger2, penerus BOLDigger, bertujuan untuk mengatasi keterbatasan ini. Sebagai program Python murni, BOLDigger2 menawarkan:
Dengan memanfaatkan fitur-fitur ini, BOLDigger2 menyederhanakan proses identifikasi OTU, menjadikannya lebih efisien dan komprehensif.
identify
, yang secara otomatis melakukan identifikasi, pengunduhan data tambahan, dan pemilihan hit teratas. Hal ini memungkinkan implementasi langsung ke dalam saluran pipa.identify
di BOLDigger2 hanya menerima satu argumen: jalur ke file FASTA yang akan diidentifikasi. Ini menyimpan semua hasil dalam folder yang sama.BOLDigger2 memerlukan Python versi 3.10 atau lebih tinggi dan dapat diinstal dengan mudah menggunakan pip di baris perintah apa pun:
pip install boldigger2
Perintah ini akan menginstal BOLDigger2 beserta semua dependensinya.
Untuk menjalankan fungsi identifikasi, gunakan perintah berikut:
boldigger2 identify PATH_TO_FASTA
Untuk mengotomatiskan fungsi identifikasi dalam saluran bioinformatik, kredensial BOLD juga dapat diteruskan secara langsung sebagai argumen opsional
boldigger2 identify PATH_TO_FASTA -username USERNAME -password PASSWORD
Untuk menyesuaikan ambang batas yang diterapkan untuk kebutuhan spesifik pengguna, ambang batas tersebut dapat diteruskan sebagai argumen tambahan (terurut). Hingga 5 ambang batas berbeda dapat dilewati untuk tingkat taksonomi berbeda (Spesies, Genus, Family, Order, Class). Ambang batas yang tidak dilewati akan diganti secara default, tetapi BOLDigger2 juga akan memberi tahu Anda tentang hal ini.
boldigger2 identify PATH_TO_FASTA -thresholds 99 97
Keluaran:
19:16:16: Default thresholds changed!
19:16:16: Species: 99, Genus: 97, Family: 90, Order: 85, Class: 50
19:16:16: Trying to log in.
BOLD username:
BOLDigger2 akan meminta nama pengguna dan kata sandi Anda, dan kemudian akan melakukan identifikasi.
Saat versi baru dirilis, Anda dapat memperbarui BOLDigger2 dengan mengetik:
pip install --upgrade boldigger2
Buchner D, Leese F (2020) BOLDigger – paket Python untuk mengidentifikasi dan mengatur urutan dengan sistem Barcode of Life Data. Metabarcoding dan Metagenomics 4: e53535. https://doi.org/10.3897/mbmg.4.53535
Algoritma BOLDigger2 beroperasi sesuai dengan diagram alur berikut:
Masuk ke BOLD:
Buat Tautan Unduhan untuk Barcode Tingkat Spesies:
Unduh 100 Hit Teratas:
"top_100_hits_unsorted"
.Identifikasi Urutan Tanpa Hit Tingkat Spesies:
Hasilkan Tautan Unduhan untuk Semua Catatan:
Unduh 100 Hit Teratas untuk Semua Rekaman:
"top_100_hits_unsorted"
.Sortir dan Simpan Top Hits:
"top_100_hits_sorted"
.Simpan Data Tambahan:
"top_100_hits_additional_data"
.Ekspor Data Tambahan ke Excel:
Hitung dan Simpan Top Hits:
identification_result.xlsx
) dan format Parket ( identification_result.parquet.snappy
) untuk pemrosesan lebih lanjut yang cepat.Ambang batas yang berbeda (97%: tingkat spesies, 95%: tingkat genus, 90%: tingkat famili, 85%: tingkat ordo, <85% dan >= 50: tingkat kelas) untuk tingkat taksonomi digunakan untuk menemukan hasil yang paling sesuai . Setelah menentukan ambang batas untuk semua pukulan, pukulan yang paling umum di atas ambang batas akan dipilih. Perhatikan bahwa untuk semua hit di bawah ambang batas, resolusi taksonomi akan disesuaikan (misalnya untuk 96% hit, informasi tingkat spesies akan dibuang, dan informasi tingkat genus akan digunakan sebagai tingkat taksonomi terendah).
Algoritma BOLDigger2 berfungsi sebagai berikut:
Identifikasi Kesamaan Maksimum : Temukan nilai kesamaan maksimum di antara 100 hit teratas yang sedang dipertimbangkan.
Set Threshold : Tetapkan ambang batas ke tingkat kesamaan maksimum ini. Hapus semua hit dengan kesamaan di bawah ambang batas ini. Misalnya, jika hit tertinggi memiliki kesamaan 100%, ambang batas akan ditetapkan ke 97%, dan semua hit di bawah ambang batas ini akan dihapus sementara.
Klasifikasi dan Penyortiran : Hitung semua klasifikasi individu dan urutkan berdasarkan kelimpahan.
Filter Data yang Hilang : Hapus semua klasifikasi yang berisi data yang hilang. Misalnya, jika hit yang paling umum adalah "Arthropoda --> Insecta" dengan kemiripan 100% tetapi nilai Ordo, Famili, Genus, dan Spesies tidak ada.
Identifikasi Hit Umum : Cari hit paling umum yang tidak memiliki nilai yang hilang.
Return Hit : Jika ditemukan hit tanpa nilai yang hilang, kembalikan hit tersebut.
Penyesuaian Ambang Batas : Jika tidak ditemukan hit tanpa nilai yang hilang, naikkan ambang batas ke level berikutnya yang lebih tinggi dan ulangi proses hingga ditemukan hit.
BOLDigger2 menggunakan sistem penandaan untuk menyorot kondisi tertentu, yang menunjukkan tingkat ketidakpastian pada hit yang dipilih. Saat ini, ada lima tanda yang diterapkan, yang dapat diperbarui sesuai kebutuhan:
Taksonomi BIN Terbalik : Bendera ini dikibarkan jika seluruh 100 hit teratas yang mewakili pertandingan yang dipilih menggunakan taksonomi BIN terbalik. Taksonomi Reverse BIN memberikan nama spesies pada urutan yang tersimpan di BOLD yang tidak memiliki informasi spesies, sehingga berpotensi menimbulkan ketidakpastian.
Informasi Taksonomi yang Berbeda : Jika ada dua atau lebih entri dengan informasi taksonomi berbeda di atas ambang batas yang dipilih (misalnya, dua spesies di atas 97%), tanda ini terpicu, yang menunjukkan potensi perbedaan.
Data Pribadi atau Data Rilis Awal : Jika semua dari 100 hit teratas yang mewakili hit teratas adalah hit pribadi atau rilis awal, tanda ini dikibarkan, yang menunjukkan terbatasnya aksesibilitas ke data.
Unique Hit : Tanda ini menunjukkan bahwa hasil hit teratas mewakili hit unik di antara 100 hit teratas, yang berpotensi memerlukan pemeriksaan lebih lanjut.
Beberapa BIN : Jika hit pada tingkat spesies yang dipilih terdiri dari lebih dari satu BIN, tanda ini akan dikibarkan, yang menunjukkan potensi kompleksitas dalam penetapan taksonomi.
Mengingat adanya tanda-tanda ini, disarankan untuk melakukan pemeriksaan lebih dekat terhadap semua pukulan yang ditandai untuk lebih memahami dan mengatasi ketidakpastian dalam pukulan yang dipilih.