Загрузка NCBI gene sequence Downloader - NCBI gene sequence Downloader Загрузка исходного кода

NCBI gene sequence Downloader

Другой исходный код

Скачать

Этот загрузчик может быстро получить гены с одинаковым названием от разных видов с известными номерами GenBank в базе данных нуклеотидов NCBI. Полученным файлам будут присвоены имена в формате « имя вида_номер генбанка_имя гена_позиция последовательности.fasta ».

Скачанный файл можно использовать для сравнения нуклеотидных последовательностей определенного гена у разных видов и построения генетического эволюционного дерева (требуются другие программы).

Целью этой работы является создание крупномасштабного автоматизированного метода загрузки определенных последовательностей генов (нуклеотидов) в базу данных NCBI, чтобы уменьшить ненужную повторяющуюся работу и повысить эффективность анализа генетической эволюции.

Как использовать

Этот загрузчик написан на языке Python.

Автоматический анализ веб-страниц выполняется с помощью selenium и lxml, а загрузка ресурсов — с помощью urllib.

Selenium необходимо настроить.

Измените путь сохранения загруженных файлов.
Измените savepath_prefix на индивидуальный путь к папке.
```
 savepath_prefix = 'file save path prefix'
```
Измените путь для импорта таблицы Gebank.
На данный момент поддерживается только формат csv.
Измените csv_path на индивидуальный путь к файлу.
```
 csv_path = '*.csv'
```
CSV-файл необходимо заполнить строго в соответствии с тремя заголовками столбцов: сыворотка_тип, представитель_штамм и GenBank: тип сыворотки , представитель_штамм — репрезентативный штамм , а GenBank — номер . Требуется тип сыворотки и номер GenBank. и репрезентативный штамм не является обязательным.

Выполните код downloader.py, чтобы начать сканирование и загрузку.

Уведомление

В настоящее время этот код поддерживает только последовательность фрагментов гена трех ключевых слов продукта, указанных в note gene product , которые представляют собой hexon hexon protein fiber fiber protein fiber1 fiber1 protein fiber2 fiber2 protein , как показано на рисунке ниже.

Если у вас есть какие-либо вопросы, отправьте электронное письмо на адрес [email protected].

Расширять

Дополнительная информация