이 다운로더는 NCBI 뉴클레오티드 데이터베이스에 GenBank 번호가 알려진 다른 종에서 동일한 이름을 가진 유전자를 신속하게 검색할 수 있습니다. 검색된 파일은 " 종명_GenBank 번호_유전자 이름_서열 위치.fasta " 형식으로 명명됩니다.
다운로드한 파일은 서로 다른 종 간의 특정 유전자의 염기서열을 비교하고 유전적 진화계통도를 그리는 데 사용할 수 있습니다(다른 프로그램 필요).
본 연구의 목적은 NCBI 데이터베이스에 지정된 유전자(뉴클레오티드) 서열을 다운로드하는 대규모 자동화 방법을 확립하여 불필요한 반복 작업을 줄이고 유전자 진화 분석의 효율성을 높이는 것입니다.
이 다운로더는 Python 언어로 작성되었습니다.
웹 페이지의 자동 구문 분석은 Selenium과 lxml에 의해 완료되고 리소스 다운로드는 urllib에 의해 완료됩니다.
Selenium을 구성해야 합니다.
다운로드한 파일의 저장 경로 수정
savepath_prefix를 사용자 정의된 폴더 경로로 수정합니다.
savepath_prefix = 'file save path prefix'
Gebank 테이블을 가져올 경로 수정
현재는 csv 형식만 지원됩니다.
csv_path를 사용자 정의된 파일 경로로 수정합니다.
csv_path = '*.csv'
csv 파일은 Serum_type, Representative_strain, GenBank 3개의 열 제목에 따라 엄격하게 작성해야 하며 Serum_type은 혈청 유형 , Representative_strain은 대표 균주 , GenBank는 혈청 유형과 GenBank 번호 가 필요합니다. 대표 균주 는 선택 사항입니다.
downloader.py 코드를 실행하여 크롤링 및 다운로드를 시작하세요.
이 코드는 현재 아래 그림과 같이 product
gene
note
의 세 가지 제품 키워드인 hexon
hexon protein
fiber
fiber protein
fiber1
fiber1 protein
fiber2
fiber2 protein
의 유전자 단편 서열만 지원합니다.
문의사항이 있으시면 [email protected]으로 이메일을 보내주세요.