얼마 전 FTP를 재구성한 후 NCBI에서 박테리아 및 곰팡이 게놈을 다운로드하는 일부 스크립트입니다.
Mick의 GitHub 저장소에서도 찾을 수 있는 Mick Watson의 Kraken 다운로더 스크립트에서 뻔뻔하게도 아이디어를 훔쳤습니다. 그러나 Mick의 스크립트는 실제로 Kraken 데이터베이스를 구축하기 위해 특별히 Perl로 작성 되었습니다(광고된 대로).
따라서 이것은 실제 게놈 다운로드에 초점을 맞춘 스크립트 세트입니다.
pip 설치 ncbi-게놈-다운로드
또는 GitHub에서 이 저장소를 복제한 후 Python 가상 환경에서 실행하세요.
핍 설치 .
이전 버전의 Python에서 이것이 실패하면 먼저 pip
도구를 업데이트해 보십시오.
pip 설치 - pip 업그레이드
그런 다음 ncbi-genome-download
설치를 다시 실행하세요.
또는 ncbi-genome-download
conda
에 패키지되어 있습니다. 배포판을 설치하려면 Anaconda/miniconda 사이트를 참조하십시오(강력히 권장됨). 이를 설치하면 다음을 수행할 수 있습니다.
conda 설치 -c bioconda ncbi-genome-다운로드
ncbi-genome-download
아직 Python 프로젝트에서 적극적으로 지원하는 Python 릴리스에서만 개발 및 테스트되었습니다. 현재 이는 버전 3.7, 3.8, 3.9, 3.10 및 3.11을 의미합니다. 특히 3.7 이전 Python 버전에서는 테스트를 시도하지 않습니다.
시스템이 이전 버전의 Python에서 멈춘 경우 Homebrew와 같은 도구를 사용하여 최신 버전을 얻는 것이 좋습니다.
ncbi-genome-download
0.2.12는 Python 2를 지원하는 마지막 버전입니다.
NCBI에서 GenBank 형식의 모든 박테리아 RefSeq 게놈을 다운로드하려면 다음을 실행하십시오.
ncbi-게놈-다운로드 박테리아
여러 그룹을 다운로드하는 것도 가능합니다:
ncbi-게놈-다운로드 박테리아,바이러스
참고 : 사용 가능한 모든 그룹을 보려면 ncbi-genome-download --help
참조하거나 간단히 all
사용하여 모든 그룹을 확인하세요. 보다 구체적인 그룹 이름을 지정하면 다운로드 크기가 줄어들고 다운로드할 시퀀스를 찾는 데 필요한 시간이 줄어듭니다.
비교적 빠른 연결을 사용하는 경우 여러 다운로드를 병렬로 실행해 볼 수 있습니다.
ncbi-genome-download 박테리아 --병렬 4
NCBI에서 모든 진균 GenBank 게놈을 GenBank 형식으로 다운로드하려면 다음을 실행하세요.
ncbi-genome-download --section genbank 곰팡이
모든 바이러스 RefSeq 게놈을 FASTA 형식으로 다운로드하려면 다음을 실행하세요.
ncbi-genome-download --빠르게 바이러스 형식을 지정합니다.
형식 목록을 제공하거나 간단히 모든 형식을 다운로드하여 여러 형식을 다운로드할 수 있습니다.
ncbi-genome-download --fasta 형식, 조립 보고서 바이러스 ncbi-genome-download --모든 바이러스 형식을 지정합니다.
GenBank 형식으로 완성된 박테리아 RefSeq 게놈만 다운로드하려면 다음을 실행하십시오.
ncbi-genome-download --조립 수준 완전 박테리아
목록을 제공하여 여러 어셈블리 레벨을 한 번에 다운로드할 수 있습니다.
ncbi-genome-download --조립 수준 완료,염색체 박테리아
RefSeq에서 박테리아 참조 게놈만 GenBank 형식으로 다운로드하려면 다음을 실행하세요.
ncbi-genome-download --refseq-categories 참조 박테리아
Streptomyces 속의 박테리아 RefSeq 게놈을 다운로드하려면 다음을 실행하세요.
ncbi-genome-download --genera Streptomyces 박테리아
참고 : 이는 NCBI에서만 제공하는 유기체 이름에 대한 간단한 문자열 일치입니다.
또한 이를 약간의 트릭과 함께 사용하여 특정 종의 게놈을 다운로드할 수도 있습니다.
ncbi-genome-download --genera "Streptomyces coelicolor" 박테리아
참고 : 따옴표가 중요합니다. 다시 말하지만 이는 NCBI에서 제공한 유기체 이름에 대한 간단한 문자열 일치입니다.
여러 속(general)도 가능합니다:
ncbi-genome-download --genera "Streptomyces coelicolor,Escherichia coli" 박테리아
한 줄에 유기체 하나씩 속 이름을 파일에 넣을 수도 있습니다. 예:
연쇄상 구균 아미콜라톱시스
그런 다음 해당 파일의 경로(예: my_genera.txt
)를 다음과 같이 --genera
옵션에 전달합니다.
ncbi-genome-download --genera my_genera.txt 박테리아
참고 : 위 명령은 RefSeq에서 모든 Streptomyces 및 Amycolatopsis 게놈을 다운로드합니다.
--fuzzy-genus
옵션을 사용하여 문자열 일치를 퍼지로 만들 수 있습니다. 다음과 같이 NCBI 유기체 이름 중간에 있는 값을 일치시켜야 하는 경우 유용할 수 있습니다.
ncbi-genome-download --genera coelicolor --퍼지 속 박테리아
참고 : 위 명령은 RefSeq에서 유기체 이름에 "coelicolor"가 포함된 모든 박테리아 게놈을 다운로드합니다.
NCBI 종 분류 ID를 기반으로 박테리아 RefSeq 게놈을 다운로드하려면 다음을 실행하세요.
ncbi-genome-download --species-taxids 562 박테리아
참고 : 위 명령은 Escherichia coli 에 속하는 모든 RefSeq 게놈을 다운로드합니다.
NCBI 분류 ID를 기반으로 특정 박테리아 RefSeq 게놈을 다운로드하려면 다음을 실행하세요.
ncbi-genome-download --taxids 511145 박테리아
참고 : 위 명령은 Escherichia coli str에 속하는 RefSeq 게놈을 다운로드합니다. K-12 기판 MG1655 .
쉼표로 구분된 목록에 숫자를 제공하여 여러 종의 택시 또는 택시를 다운로드할 수도 있습니다.
ncbi-genome-download --taxids 9606,9685 --조립 수준 염색체 척추동물_포유류
참고 : 위 명령은 고양이와 인간의 참조 게놈을 다운로드합니다.
또한 여러 종의 Taxids 또는 Taxids를 한 줄에 하나씩 파일에 넣고 해당 파일 이름을 각각 --species-taxids
또는 --taxids
매개 변수에 전달할 수 있습니다.
다음 내용을 포함하는 my_taxids.txt
파일이 있다고 가정합니다.
9606
9685
다음과 같이 고양이와 인간에 대한 참조 게놈을 다운로드할 수 있습니다.
ncbi-genome-download --taxids my_taxids.txt --조립 수준 염색체 척추 동물_포유류
NCBI에서 사용하는 레이아웃을 미러링하는 것과 병행하여 사람이 읽을 수 있는 디렉터리 구조를 만드는 것도 가능합니다.
ncbi-genome-download --사람이 읽을 수 있는 박테리아
이는 링크를 사용하여 NCBI 디렉터리 구조의 적절한 파일을 가리키므로 파일 공간이 절약됩니다. 일부 Windows 파일 시스템 및 일부 이전 버전의 Windows에서는 링크가 지원되지 않습니다.
--human-readable
옵션을 사용하여 이전 다운로드를 다시 실행할 수도 있습니다. 이 경우 ncbi-genome-download
새로운 게놈 파일을 다운로드하지 않고 사람이 읽을 수 있는 디렉터리 구조만 생성합니다. NCBI 측에서 파일이 변경된 경우 파일 다운로드가 트리거됩니다.
필터에 따라 어떤 액세스가 다운로드되는지 표시하는 "시험 실행" 옵션이 있습니다.
ncbi-genome-download --드라이런 박테리아
어셈블리 요약 파일의 "재료 유형 관련" 열을 필터링하려면 --type-materials
옵션을 사용할 수 있습니다. 가능한 값은 "any", "all", "type", "reference", "synonym", "proxytype" 및/또는 "neotype"입니다. "any"는 정의된 유형 재료 값과 관련이 없는 어셈블리를 포함하고, "all"은 정의된 값이 있는 어셈블리만 다운로드합니다. 여러 값을 쉼표로 구분하여 지정할 수 있습니다.
ncbi-genome-download --type-materials 유형,참조
기본적으로 ncbi-genome-download는 각 분류 그룹에 대한 어셈블리 요약 파일을 하루 동안 캐시합니다. --no-cache
옵션을 사용하면 캐시 파일 사용을 건너뛸 수 있습니다. --help
의 출력에는 캐시된 파일을 제거하려는 경우 캐시 디렉토리도 표시됩니다.
모든 옵션의 개요를 보려면 다음을 실행하세요.
ncbi-게놈-다운로드 --help
메소드 호출로 사용할 수도 있습니다.
ncbi_genome_download를 ngdngd.download()로 가져오기
위에서 설명한 대로 또는 --help
에 pythonised 키워드 인수를 전달합니다. 박테리아 와 같은 분류 그룹을 지정하려면 groups
키워드를 사용하세요. --format
CLI 옵션과 같이 파일 형식을 지정하려면 file_formats
사용하세요. 다른 모든 키워드는 CLI 옵션과 일치해야 하며 -
_
로 변환됩니다. 메서드 호출은 CLI와 동일한 논리를 따르기 때문에 목록 데이터는 명령줄에서와 마찬가지로 공백 없이 쉼표로 구분된 문자열로 전달되어야 합니다.
gimme_taxa.py
이 스크립트를 사용하면 ngd
에 전달할 TaxID를 찾을 수 있으며, 전달할 간단한 한 줄당 한 항목 파일을 작성합니다. ete3
툴킷을 활용하므로 아직 만족스럽지 않은 경우 해당 사이트를 참조하여 종속성을 설치하십시오.
특정 TaxID 또는 학명을 사용하여 데이터베이스를 쿼리할 수 있습니다. 스크립트의 기본 기능은 지정된 상위 분류군의 모든 하위 분류군을 반환하는 것입니다. 스크립트에는 출력에 기록되는 정보에 대한 다양한 옵션이 있습니다.
기본 호출은 다음과 같습니다.
# Escherichia에 대한 모든 하위 분류군을 가져옵니다(택시 ID 561):python gimme_taxa.py -o ~/mytaxafile.txt 561# 또는 분류명 이름만 제공하세요python gimme_taxa.py -o all_descendent_taxids.txt Escherichia# 여러 택시 및/또는 이름python gimme_taxa.py -o all_descendent_taxids.txt 561,메타노브레바이박터
처음 사용하면 기본적으로 홈 디렉터리에 작은 sqlite 데이터베이스가 생성됩니다( --database
플래그로 위치 변경). --update
플래그를 사용하여 이 데이터베이스를 업데이트할 수 있습니다. 데이터베이스가 홈 디렉터리에 없으면 --database
사용하여 지정해야 합니다. 그렇지 않으면 새 데이터베이스가 홈 디렉터리에 생성됩니다.
모든 도움말을 보려면:
파이썬 gimme_taxa.py 파이썬 gimme_taxa.py -h 파이썬 gimme_taxa.py --help
ncbi-genome-download
의 --taxids
옵션과 함께 gimme_taxa.py
스크립트를 사용하려면 다음과 같이 -j
옵션과 함께 gimme_taxa.py
호출해야 합니다.
gimme_taxa.py -j -o my_taxids.txt 대장균 ncbi-genome-download --taxids my_taxids.txt 박테리아
ncbi-genome-download
인용 DOI: 10.5281/zenodo.8192432 아래 Zenodo 보증금 또는 사용한 버전에 대한 특정 DOI를 통해 ncbi-genome-download
인용할 수 있습니다.
모든 코드는 Apache License 버전 2에서 사용할 수 있습니다. 자세한 내용은 LICENSE
파일을 참조하세요.