このダウンローダーは、NCBI ヌクレオチド データベース内の GenBank 番号が既知の異なる種から同じ名前の遺伝子を迅速に検索することができます。検索されたファイルには、「種名_GenBank 番号_遺伝子名_配列位置.fasta 」という形式で名前が付けられます。
ダウンロードしたファイルを使用すると、特定の遺伝子の塩基配列を異種間で比較し、遺伝進化系統図を描くことができます(別途プログラムが必要です)。
この研究は、NCBI データベースに指定された遺伝子 (ヌクレオチド) 配列をダウンロードするための大規模で自動化された方法を確立し、不必要な反復作業を削減し、遺伝進化解析の効率を向上させることを目的としています。
このダウンローダーは Python 言語で書かれています。
Web ページの自動解析は Selenium と lxml によって実行され、リソースのダウンロードは urllib によって実行されます。
Selenium を設定する必要があります。
ダウンロードしたファイルの保存パスを変更する
savepath_prefix をカスタマイズしたフォルダー パスに変更します。
savepath_prefix = 'file save path prefix'
Gebank テーブルをインポートするパスを変更する
現在、csv 形式のみがサポートされています。
csv_path をカスタマイズしたファイル パスに変更します。
csv_path = '*.csv'
csv ファイルは、serum_type、representative_strain、GenBank の 3 つの列タイトルに従って厳密に入力する必要があります。 Serum_type は血清の種類、representative_strain は代表菌株、GenBank は血清の種類と GenBank番号が必要です。代表株は任意です。
downloader.py コードを実行して、クロールとダウンロードを開始します。
このコードは現在、 product
gene
note
の 3 つの製品キーワード (以下の図に示すように、 hexon
hexon protein
fiber
fiber protein
fiber1
fiber1 protein
fiber2
fiber2 protein
の遺伝子フラグメント シーケンスのみをサポートしています。
ご質問がございましたら、[email protected] までメールをお送りください。