Ce téléchargeur peut récupérer rapidement des gènes portant le même nom provenant de différentes espèces avec des numéros GenBank connus dans la base de données de nucléotides NCBI. Les fichiers récupérés seront nommés au format "nom de l'espèce_numéro GenBank_nom du gène_position de la séquence.fasta ".
Le fichier téléchargé peut être utilisé pour comparer les séquences nucléotidiques d'un certain gène entre différentes espèces et dessiner un arbre génétique évolutif (d'autres programmes sont requis).
Ce travail vise à établir une méthode automatisée à grande échelle pour télécharger des séquences de gènes (nucléotides) spécifiées dans la base de données NCBI afin de réduire le travail répétitif inutile et d'améliorer l'efficacité de l'analyse de l'évolution génétique.
Ce téléchargeur est écrit en langage Python.
L'analyse automatique des pages Web est complétée par Selenium et lxml, et le téléchargement des ressources est complété par urllib.
Selenium doit être configuré.
Modifier le chemin de sauvegarde des fichiers téléchargés
Modifiez savepath_prefix en un chemin de dossier personnalisé.
savepath_prefix = 'file save path prefix'
Modifier le chemin pour importer la table Gebank
Actuellement, seul le format csv est pris en charge.
Modifiez csv_path en un chemin de fichier personnalisé.
csv_path = '*.csv'
Le fichier csv doit être rempli strictement selon les titres des trois colonnes sérum_type, Representative_strain et GenBank est le type de sérum , Representative_strain est la souche représentative et GenBank est le numéro . Le type de sérum et le numéro GenBank sont requis. et la souche représentative est facultative.
Exécutez le code downloader.py pour commencer l'exploration et le téléchargement.
Ce code ne prend actuellement en charge que la séquence de fragments de gène des trois mots-clés de produit de product
gene
note
, qui sont hexon
hexon protein
fiber
fiber protein
fiber1
fiber1 protein
fiber2
fiber2 protein
, comme le montre la figure ci-dessous.
Si vous avez des questions, veuillez envoyer un e-mail à [email protected]