Pengunduh ini dapat dengan cepat mengambil gen dengan nama yang sama dari spesies berbeda dengan nomor GenBank yang diketahui di database nukleotida NCBI. File yang diambil akan diberi nama dalam format " nama spesies_Nomor GenBank_nama gen_posisi urutan.fasta " .
File yang diunduh dapat digunakan untuk membandingkan urutan nukleotida gen tertentu antara spesies yang berbeda dan menggambar pohon evolusi genetik (diperlukan program lain).
Pekerjaan ini bertujuan untuk membangun metode otomatis berskala besar untuk mengunduh urutan gen (nukleotida) tertentu dalam database NCBI untuk mengurangi pekerjaan berulang yang tidak perlu dan meningkatkan efisiensi analisis evolusi genetik.
Pengunduh ini ditulis dalam bahasa Python.
Penguraian otomatis halaman web diselesaikan oleh Selenium dan lxml, dan pengunduhan sumber daya diselesaikan oleh urllib.
Selenium perlu dikonfigurasi.
Ubah jalur penyimpanan file yang diunduh
Ubah savepath_prefix ke jalur folder yang disesuaikan.
savepath_prefix = 'file save path prefix'
Ubah jalur untuk mengimpor tabel Gebank
Saat ini hanya format csv yang didukung.
Ubah csv_path ke jalur file yang disesuaikan.
csv_path = '*.csv'
File csv harus diisi secara ketat sesuai dengan tiga judul kolom yaitu serum_type, representatif_strain, dan GenBank. Serum_type adalah jenis serum , representatif_strain adalah strain yang mewakili , dan GenBank adalah nomor Jenis serum dan nomor GenBank yang diperlukan. dan strain yang mewakili adalah opsional.
Jalankan kode downloader.py untuk mulai merayapi dan mengunduh.
Kode ini saat ini hanya mendukung urutan fragmen gen dari tiga kata kunci produk note
gene
product
, yaitu hexon
hexon protein
fiber
fiber protein
fiber1
fiber1 protein
fiber2
fiber2 protein
, seperti yang ditunjukkan pada gambar di bawah ini.
Jika Anda memiliki pertanyaan, silakan kirim email ke [email protected]