Este descargador puede recuperar rápidamente genes con el mismo nombre de diferentes especies con números de GenBank conocidos en la base de datos de nucleótidos del NCBI. Los archivos recuperados se nombrarán en el formato "nombre de especie_número de GenBank_nombre de gen_posición de secuencia.fasta ".
El archivo descargado se puede utilizar para comparar las secuencias de nucleótidos de un determinado gen entre diferentes especies y dibujar un árbol evolutivo genético (se requieren otros programas).
Este trabajo tiene como objetivo establecer un método automatizado a gran escala para descargar secuencias de genes (nucleótidos) específicos en la base de datos NCBI para reducir el trabajo repetitivo innecesario y mejorar la eficiencia del análisis de la evolución genética.
Este descargador está escrito en lenguaje Python.
Selenium y lxml completan el análisis automático de páginas web, y urllib completa la descarga de recursos.
Es necesario configurar Selenium.
Modificar la ruta de guardado de los archivos descargados
Modifique savepath_prefix a una ruta de carpeta personalizada.
savepath_prefix = 'file save path prefix'
Modifique la ruta para importar la tabla Gebank
Actualmente sólo se admite el formato csv.
Modifique csv_path a una ruta de archivo personalizada.
csv_path = '*.csv'
El archivo csv debe completarse estrictamente de acuerdo con los títulos de las tres columnas: tipo_suero, cepa_representante y GenBank. tipo de suero es el tipo de suero , cepa_representante es la cepa representativa y GenBank es el número . Se requieren el tipo de suero y el número de GenBank. y la cepa representativa es opcional.
Ejecute el código downloader.py para comenzar a rastrear y descargar.
Actualmente, este código solo admite la secuencia de fragmentos de genes de las tres palabras clave del producto de note
gene
product
, que son hexon
hexon protein
fiber
fiber protein
fiber1
fiber1 protein
fiber2
fiber2 protein
, como se muestra en la siguiente figura.
Si tiene alguna pregunta, envíe un correo electrónico a [email protected]