NCBI gene sequence Downloader 다운로드 - NCBI gene sequence Downloader 소스 코드 다운로드

NCBI gene sequence Downloader

기타 소스코드

다운로드

이 다운로더는 NCBI 뉴클레오티드 데이터베이스에 GenBank 번호가 알려진 다른 종에서 동일한 이름을 가진 유전자를 신속하게 검색할 수 있습니다. 검색된 파일은 " 종명_GenBank 번호_유전자 이름_서열 위치.fasta " 형식으로 명명됩니다.

다운로드한 파일은 서로 다른 종 간의 특정 유전자의 염기서열을 비교하고 유전적 진화계통도를 그리는 데 사용할 수 있습니다(다른 프로그램 필요).

본 연구의 목적은 NCBI 데이터베이스에 지정된 유전자(뉴클레오티드) 서열을 다운로드하는 대규모 자동화 방법을 확립하여 불필요한 반복 작업을 줄이고 유전자 진화 분석의 효율성을 높이는 것입니다.

사용방법

이 다운로더는 Python 언어로 작성되었습니다.

웹 페이지의 자동 파싱은 selenium과 lxml에 의해 완료되고, 리소스 다운로드는 urllib에 의해 완료됩니다.

Selenium을 구성해야 합니다.

다운로드한 파일의 저장 경로 수정
savepath_prefix를 사용자 정의된 폴더 경로로 수정합니다.
```
 savepath_prefix = 'file save path prefix'
```
Gebank 테이블을 가져올 경로 수정
현재는 csv 형식만 지원됩니다.
csv_path를 사용자 정의된 파일 경로로 수정합니다.
```
 csv_path = '*.csv'
```
csv 파일은 Serum_type, Representative_strain, GenBank 3개의 열 제목에 따라 엄격하게 작성해야 하며 Serum_type은 혈청 유형 , Representative_strain은 대표 균주 , GenBank는 혈청 유형과 GenBank 번호 가 필요합니다. 대표 균주 는 선택 사항입니다.

downloader.py 코드를 실행하여 크롤링 및 다운로드를 시작하세요.

알아채다

이 코드는 현재 아래 그림과 같이 product gene note 의 세 가지 제품 키워드인 hexon hexon protein fiber fiber protein fiber1 fiber1 protein fiber2 fiber2 protein 의 유전자 단편 서열만 지원합니다.

문의사항이 있으시면 [email protected]으로 이메일을 보내주세요.

확장하다

추가 정보