NCBI gene sequence Downloaderダウンロード - NCBI gene sequence Downloaderソースコードのダウンロード

NCBI gene sequence Downloader

その他のソースコード

ダウンロード

このダウンローダーは、NCBI ヌクレオチドデータベース内の GenBank 番号が既知の異なる種から同じ名前の遺伝子を迅速に検索することができます。検索されたファイルには、「種名_GenBank 番号_遺伝子名_配列位置.fasta 」という形式で名前が付けられます。

ダウンロードしたファイルを使用すると、特定の遺伝子の塩基配列を異種間で比較し、遺伝進化系統図を描くことができます（別途プログラムが必要です）。

この研究は、NCBI データベースに指定された遺伝子 (ヌクレオチド) 配列をダウンロードするための大規模で自動化された方法を確立し、不必要な反復作業を削減し、遺伝進化解析の効率を向上させることを目的としています。

使用方法

このダウンローダーは Python 言語で書かれています。

Web ページの自動解析は Selenium と lxml によって実行され、リソースのダウンロードは urllib によって実行されます。

Selenium を設定する必要があります。

ダウンロードしたファイルの保存パスを変更する
savepath_prefix をカスタマイズしたフォルダーパスに変更します。
```
 savepath_prefix = 'file save path prefix'
```
Gebank テーブルをインポートするパスを変更する
現在、csv 形式のみがサポートされています。
csv_path をカスタマイズしたファイルパスに変更します。
```
 csv_path = '*.csv'
```
csv ファイルは、serum_type、representative_strain、GenBank の 3 つの列タイトルに従って厳密に入力する必要があります。 Serum_type は血清の種類、representative_strain は代表菌株、GenBank は血清の種類と GenBank番号が必要です。代表株は任意です。

downloader.py コードを実行して、クロールとダウンロードを開始します。

知らせ

このコードは現在、 product gene noteの 3 つの製品キーワード (以下の図に示すように、 hexon hexon protein fiber fiber protein fiber1 fiber1 protein fiber2 fiber2 proteinの遺伝子フラグメントシーケンスのみをサポートしています。

ご質問がございましたら、[email protected] までメールをお送りください。

拡大する

追加情報