Dieser Downloader kann schnell Gene mit demselben Namen von verschiedenen Arten mit bekannten GenBank-Nummern in der NCBI-Nukleotiddatenbank abrufen. Die abgerufenen Dateien werden im Format „ Artenname_GenBank-Nummer_Genname_Sequenzposition.fasta “ benannt.
Die heruntergeladene Datei kann verwendet werden, um die Nukleotidsequenzen eines bestimmten Gens zwischen verschiedenen Arten zu vergleichen und einen genetischen Evolutionsbaum zu zeichnen (andere Programme sind erforderlich).
Diese Arbeit zielt darauf ab, eine groß angelegte, automatisierte Methode zum Herunterladen bestimmter Gen-(Nukleotid-)Sequenzen in die NCBI-Datenbank zu etablieren, um unnötige Wiederholungsarbeit zu reduzieren und die Effizienz der genetischen Evolutionsanalyse zu verbessern.
Dieser Downloader ist in der Python-Sprache geschrieben.
Das automatische Parsen von Webseiten wird durch Selenium und LXML durchgeführt, und das Herunterladen von Ressourcen erfolgt durch URLLIB.
Selenium muss konfiguriert werden.
Ändern Sie den Speicherpfad der heruntergeladenen Dateien
Ändern Sie savepath_prefix in einen benutzerdefinierten Ordnerpfad.
savepath_prefix = 'file save path prefix'
Ändern Sie den Pfad zum Importieren der Gebank-Tabelle
Derzeit wird nur das CSV-Format unterstützt.
Ändern Sie csv_path in einen benutzerdefinierten Dateipfad.
csv_path = '*.csv'
Die CSV-Datei muss streng nach den drei Spaltentiteln „serum_type“, „representative_strain“ und „GenBank“ ausgefüllt werden. „Serum_type“ ist der Serumtyp , „representative_strain“ ist der repräsentative Stamm und „GenBank“ ist die Nummer . und der repräsentative Stamm ist optional.
Führen Sie den downloader.py-Code aus, um mit dem Crawlen und Herunterladen zu beginnen.
Dieser Code unterstützt derzeit nur die Genfragmentsequenz der drei Produktschlüsselwörter von product
gene
note
, nämlich hexon
hexon protein
fiber
fiber protein
fiber1
fiber1 protein
fiber2
fiber2 protein
, wie in der folgenden Abbildung dargestellt.
Wenn Sie Fragen haben, senden Sie bitte eine E-Mail [email protected]