本下載器對NCBI的核苷酸資料庫內已知GenBank號的來自不同物種的同名稱基因實現快速抓取, 抓取文件將以「物種名稱_GenBank號_基因名稱_序列位置.fasta 」格式命名。
下載檔案可用於不同物種間某基因核苷酸序列的比對與遺傳進化樹的繪製(需要其他程式進行)。
本工作旨在建立一種大批量、自動化下載NCBI資料庫中的指定基因(核苷酸)序列的方法,以減少不必要的重複性工作、提高遺傳演化分析的效率。
本下載器使用Python語言進行編寫。
網頁的自動化解析由selenium和lxml完成,資源下載由urllib完成。
需要配置selenium。
修改下載檔案的儲存路徑
將savepath_prefix修改為自訂的資料夾路徑。
savepath_prefix = 'file save path prefix'
修改導入Gebank表格的路徑
目前只支援csv格式。
將csv_path修改為自訂的檔案路徑。
csv_path = '*.csv'
csv文件需要嚴格按照serum_type,representative_strain,GenBank三列標題進行內容填寫,serum_type是血清類型,representative_strain是代表株,GenBank是編號,其中血清類型和GenBank編號是必填項,代表株是選填項。
執行downloader.py程式碼即可開始爬取和下載。
本程式碼目前只支援product
gene
note
三個產物關鍵字內容為hexon
hexon protein
fiber
fiber protein
fiber1
fiber1 protein
fiber2
fiber2 protein
的基因片段序列,如下圖所示。
如有疑問,請寄電子郵件至[email protected]