Este downloader pode recuperar rapidamente genes com o mesmo nome de espécies diferentes com números GenBank conhecidos no banco de dados de nucleotídeos NCBI. Os arquivos recuperados serão nomeados no formato "nome da espécie_Número do GenBank_nome do gene_posição da sequência.fasta ".
O arquivo baixado pode ser usado para comparar as sequências de nucleotídeos de um determinado gene entre diferentes espécies e desenhar uma árvore evolutiva genética (outros programas são necessários).
Este trabalho tem como objetivo estabelecer um método automatizado em larga escala para baixar sequências de genes (nucleotídeos) específicos no banco de dados do NCBI para reduzir o trabalho repetitivo desnecessário e melhorar a eficiência da análise da evolução genética.
Este downloader foi escrito em linguagem Python.
A análise automática de páginas da web é concluída por Selenium e lxml, e o download de recursos é concluído por urllib.
O selênio precisa ser configurado.
Modifique o caminho de salvamento dos arquivos baixados
Modifique savepath_prefix para um caminho de pasta customizado.
savepath_prefix = 'file save path prefix'
Modifique o caminho para importar a tabela Gebank
Atualmente apenas o formato csv é suportado.
Modifique csv_path para um caminho de arquivo personalizado.
csv_path = '*.csv'
O arquivo csv precisa ser preenchido estritamente de acordo com os três títulos de coluna de tipo_de_soro, cepa_representante e Tipo_de_soro é o tipo de soro , cepa_representante é a cepa representativa e GenBank é o número O tipo de soro e o número do GenBank são obrigatórios. e a cepa representativa é opcional.
Execute o código downloader.py para iniciar o rastreamento e o download.
Este código atualmente suporta apenas a sequência do fragmento do gene das três palavras-chave do produto do product
gene
note
, que são hexon
hexon protein
fiber
fiber protein
fiber1
fiber1 protein
fiber2
fiber2 protein
, conforme mostrado na figura abaixo.
Se você tiver alguma dúvida, envie um e-mail para [email protected]