Этот загрузчик может быстро получить гены с одинаковым названием от разных видов с известными номерами GenBank в базе данных нуклеотидов NCBI. Полученные файлы будут называться в формате « имя вида_номер генбанка_имя гена_позиция последовательности.fasta ».
Скачанный файл можно использовать для сравнения нуклеотидных последовательностей определенного гена у разных видов и построения генетического эволюционного дерева (требуются другие программы).
Целью этой работы является создание крупномасштабного автоматизированного метода загрузки определенных последовательностей генов (нуклеотидов) в базу данных NCBI, чтобы уменьшить ненужную повторяющуюся работу и повысить эффективность анализа генетической эволюции.
Этот загрузчик написан на языке Python.
Автоматический анализ веб-страниц выполняется с помощью selenium и lxml, а загрузка ресурсов — с помощью urllib.
Selenium необходимо настроить.
Измените путь сохранения загруженных файлов.
Измените savepath_prefix на индивидуальный путь к папке.
savepath_prefix = 'file save path prefix'
Измените путь для импорта таблицы Gebank.
На данный момент поддерживается только формат csv.
Измените csv_path на индивидуальный путь к файлу.
csv_path = '*.csv'
CSV-файл необходимо заполнить строго в соответствии с тремя заголовками столбцов сыворотки_типа, представителя_штамма и GenBank_типа — типа сыворотки , представителя_штамма — репрезентативного штамма и GenBank — номера . Требуется тип сыворотки и номер GenBank. и репрезентативный штамм не является обязательным.
Выполните код downloader.py, чтобы начать сканирование и загрузку.
В настоящее время этот код поддерживает только последовательность фрагментов гена трех ключевых слов продукта, указанных в note
gene
product
, которые представляют собой hexon
hexon protein
fiber
белок fiber protein
fiber1
fiber1 protein
fiber2
fiber2 protein
, как показано на рисунке ниже.
Если у вас есть какие-либо вопросы, отправьте электронное письмо на адрес [email protected].