NCBI gene sequence Downloader下載 - NCBI gene sequence Downloader器原始碼下載

NCBI gene sequence Downloader

其他源碼

下載

本下載器對NCBI的核苷酸資料庫內已知GenBank號的來自不同物種的同名稱基因實現快速抓取，抓取文件將以「物種名稱_GenBank號_基因名稱_序列位置.fasta 」格式命名。

下載檔案可用於不同物種間某基因核苷酸序列的比對與遺傳進化樹的繪製（需要其他程式進行）。

本工作旨在建立一種大批量、自動化下載NCBI資料庫中的指定基因（核苷酸）序列的方法，以減少不必要的重複性工作、提高遺傳演化分析的效率。

How to use

本下載器使用Python語言進行編寫。

網頁的自動化解析由selenium和lxml完成，資源下載由urllib完成。

需要配置selenium。

修改下載檔案的儲存路徑
將savepath_prefix修改為自訂的資料夾路徑。
```
 savepath_prefix = 'file save path prefix'
```
修改導入Gebank表格的路徑
目前只支援csv格式。
將csv_path修改為自訂的檔案路徑。
```
 csv_path = '*.csv'
```
csv文件需要嚴格按照serum_type,representative_strain,GenBank三列標題進行內容填寫，serum_type是血清類型，representative_strain是代表株，GenBank是編號，其中血清類型和GenBank編號是必填項，代表株是選填項。

執行downloader.py程式碼即可開始爬取和下載。

注意

本程式碼目前只支援product gene note三個產物關鍵字內容為hexon hexon protein fiber fiber protein fiber1 fiber1 protein fiber2 fiber2 protein的基因片段序列,如下圖所示。

如有疑問，請寄電子郵件至[email protected]

展開

附加信息

版本
類型其他源碼
更新時間 2024-11-14
大小 50MB
來自於 Github

相關應用

序列 v1.0

2024-11-13
TikTok Downloader

2024-11-02
丟失的基因

2023-03-24
基因雨：風之塔

2022-08-17
YouTube 下載器

2009-05-07
快速取得下載器

2009-04-28

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
waymo open dataset

其他源碼

December 2023 Update
SmartTube

其他源碼

24.71 Stable
Sunamu

其他源碼

Release 2.2.0
waymo open dataset

其他源碼

December 2023 Update
wp functions

其他類別

1.0.0
slugify

其他類別

Version 4.6.0 (10 September 2024)

相關資訊全部