이메일: [email protected]
사전 구축된 바이너리를 보려면 다운로드 페이지를 방문하세요.
변경 내역은 CHANGES.md 파일을 확인하세요.
NCBI의 SRA 툴킷 및 SDK는 INSDC Sequence Read Archives의 데이터를 사용하기 위한 도구 및 라이브러리 모음입니다.
2024년 5월 21일 : SRA 툴킷 릴리스 3.1.1
사용자를 위한 프리페치 오류 및 정보 메시지가 개선되었습니다.
Windows에서 빌드할 때 발생하는 오류 및 경고가 수정되었습니다.
2024년 3월 5일 : SRA 툴킷 릴리스 3.1.0
prefetch --eliminate-quals를 사용하면 이제 SRA Lite 데이터를 다운로드하거나 Lite 버전을 사용할 수 없다고 보고합니다.
클라우드 사용자의 전역 시간 초과 빈도가 감소했습니다.
vdb-validate는 데이터(BLOB) 체크섬이 누락된 경우 오류를 보고합니다.
AlmaLinux에 대한 지원이 추가되었습니다.
macOS 및 BSD에서 중단되는 현상이 수정되었습니다.
2023년 12월 19일 : SRA 툴킷 릴리스 3.0.10
일부 클라우드 저장소에서 JWT를 사용할 때 발생하는 버그를 수정했습니다.
arm64 프로세서에 대한 빌드 지원이 추가되었습니다.
2023년 8월 29일 : SRA 툴킷 3.0.7
AWS 자격 증명 인터페이스 및 SRA 도구 키트의 사용을 개선하기 위해 vdb-config를 업데이트했습니다.
프리페치로 AWS 자격 증명의 버그를 수정했습니다.
실행 내부에 저장된 참조 시퀀스에 대해 '참조를 찾을 수 없음' 메시지가 나타나는 버그를 수정했습니다.
2023년 7월 10일 : SRA 툴킷 3.0.6
이제 프리페치가 최신 GCP 액세스 토큰을 지원합니다.
Windows 사용자를 위한 vdb-config의 버그가 수정되었습니다.
기술적인 읽기의 출력을 보장하기 위해 --include-technical 옵션이 사용되는 경우 더 빠른 q-dump는 이제 자동으로 --split-files 모드로 전환됩니다.
2023년 5월 9일 : SRA 툴킷 3.0.5
fastq-dump에 PacBio에 대한 지원이 추가되었습니다.
fastq-dump에 참조 시퀀스를 출력하는 기능이 추가되었습니다.
ngc 파일을 사용할 때 dbGaP 데이터 액세스 버그가 수정되었습니다.
2023년 1월 3일 : SRA 툴킷 3.0.3
sra-stat의 회귀 문제를 수정했습니다.
2022년 12월 12일 : SRA 툴킷 3.0.2
Mac에서 프리페치 시 '텍스트 모듈 내에서 문자열을 변환하는 동안 버퍼가 부족함' 오류가 수정되었습니다.
2022년 11월 15일 : SRA 툴킷 3.0.1
SRA 툴킷을 구성하기 위한 대화형 요구 사항이 제거되었습니다.
저장소 구조 변경 사항:
서로 다른 사용자 그룹에 더 나은 서비스를 제공하기 위해 sra-tools 저장소의 tools/ 디렉터리는 여러 하위 디렉터리로 나뉩니다.
external/ - sra-toolkit을 향한 최종 사용자를 구성하는 도구입니다. 이는 툴킷 사용자의 컴퓨터에 설치되는 도구입니다. 이것이 기본 make 대상입니다.
내부/ - 툴킷 개발자 및 NCBI 내부 사용자를 위한 도구입니다.
loaders/ - NCBI SRA와 같은 아카이브 로딩 파이프라인에 사용되는 도구
test-tools/ - 툴킷의 NCBI 내부 테스트에 사용되는 도구입니다.
기본 'make' 명령은 이제 외부 도구만 빌드합니다. 다른 범주의 도구를 빌드하려면 다음 대상/플래그를 사용하십시오.
'make all' - 테스트 프로젝트(sra-tools/test/에 위치)를 포함한 모든 것을 빌드합니다.
'make BUILD_TOOLS_INTERNAL=ON' - 외부 및 내부 도구를 빌드합니다.
'make BUILD_TOOLS_LOADERS=ON' - 외부 도구와 로더를 빌드합니다.
'make BUILD_TOOLS_TEST_TOOLS=ON' - 외부 도구와 테스트 도구를 빌드합니다.
'make TOOLS_ONLY=ON' - 테스트 프로젝트 빌드를 건너뜁니다.
위에 표시된 빌드 플래그는 동일한 명령줄에서 결합할 수 있습니다. 예를 들어 'make BUILD_TOOLS_LOADERS=ON BUILD_TOOLS_INTERNAL=ON TOOLS_ONLY=ON'은 테스트 도구와 테스트 프로젝트를 제외한 모든 것을 빌드합니다.
2022년 8월 4일 : 보안 업데이트
NCBI의 업데이트된 보안으로 인해 SRA 도구 키트 2.9.6 이하 버전에서는 더 이상 NCBI 데이터 위치 서비스에 연결할 수 없습니다. 영향을 받는 사용자는 최신 버전의 SRA 툴킷으로 업데이트하는 것이 좋습니다.
2022년 2월 10일 : SRA 툴킷 3.0.0
NCBI의 SRA는 툴킷 릴리스 3.0.0에서 CMake를 사용하도록 소스 빌드 시스템을 변경했습니다. 이 변경은 여러 빌드 시스템을 지원하기 위한 통합 크로스 플랫폼 액세스를 제공하므로 개발자의 생산성을 향상시키는 중요한 단계입니다. 이 변경 사항은 소스에서 NCBI SRA 도구를 구축하는 개발자에게 영향을 미칩니다. 이전 makefile 및 빌드 시스템은 더 이상 지원되지 않습니다.
이 변경 사항에는 도구 및 라이브러리 구축을 위한 더 쉬운 환경을 제공하기 위해 통합된 GitHub 리포지토리의 구조도 포함됩니다(NGS libs 및 종속성이 통합됨). NGS 라이브러리와 종속성을 통합하면 더 나은 사용 범위 격리가 제공되고 구축이 더 간단해집니다.
NCBI/NGS
이 저장소는 동결되었습니다. 향후 모든 개발은 GitHub 저장소 ncbi/sra-tools(이 저장소)의 하위 디렉터리 ngs/
에서 이루어집니다.
ncbi/ncbi-vdb
이 프로젝트의 빌드 시스템은 CMake를 기반으로 합니다. NGS API를 통해 VDB 형식의 SRA 데이터에 대한 액세스를 제공하는 라이브러리가 GitHub 저장소 ncbi/sra-tools로 이동되었습니다.
기존(기본 URL: https://github.com/ncbi/ncbi-vdb) | 신규(기본 URL: https://github.com/ncbi/sra-tools) |
---|---|
libs/ngs | ngs/ncbi/ngs |
libs/ngs-c++ | ngs/ncbi/ngs-c++ |
libs/ngs-jni | ngs/ncbi/ngs-jni |
libs/ngs-py | ngs/ncbi/ngs-py |
libs/vdb-sqlite | libs/vdb-sqlite |
test/ngs-java | test/ngs-java |
test/ngs-python | test/ngs-python |
ncbi/sra-tools(이 저장소)
이 프로젝트의 빌드 시스템은 CMake를 기반으로 합니다. 이 프로젝트는 위 표에 나열된 몇 가지 새로운 구성 요소를 획득했습니다.
2021년 10월 25일. SRA 툴킷 2.11.3:
fasta-dump의 버그를 수정했습니다. fasta 및 fasta-unsorted 매개변수가 올바르게 작동합니다.
2021년 10월 7일. SRA 툴킷 2.11.2:
SRA 데이터는 이제 사용자 기본 설정에 따라 전체 기본 품질 점수(SRA 정규화된 형식) 또는 단순화된 품질 점수(SRA Lite)로 제공됩니다. 두 형식 모두 필요에 따라 동일한 파일 형식(fastq, sam 등)으로 스트리밍할 수 있으므로 둘 다 품질 점수를 기대하는 기존 워크플로 및 애플리케이션과 호환됩니다. 그러나 SRA Lite 형식은 훨씬 더 작기 때문에 스토리지 공간과 데이터 전송 시간이 줄어들고 덤프가 더 빠르게 완료될 수 있습니다. SRA 툴킷은 기본적으로 전체 베이스별 품질 점수를 포함하는 SRA 정규화 형식을 사용하지만, 분석을 위해 전체 기본 품질 점수가 필요하지 않은 사용자는 SRA Lite 버전을 요청하여 데이터 전송 시간을 절약할 수 있습니다. SRA 툴킷을 사용할 때 SRA Lite 데이터를 요청하려면 툴킷 구성의 기본 페이지에서 "간소화된 기본 품질 점수가 포함된 SRA Lite 파일 선호" 옵션을 설정하세요. 이렇게 하면 도구가 가능한 경우 SRA Lite 형식을 우선적으로 사용하도록 지시합니다( 이 기능에 액세스하려면 툴킷 버전 2.11.2 이상을 사용해야 합니다. SRA Lite 파일에서 생성된 품질 점수는 지정된 읽기 내의 각 베이스에 대해 동일합니다(품질 = 30 또는 3, 읽기 필터 플래그가 '통과' 또는 '거부'로 설정되었는지 여부에 따라 다름). 전체 기본 품질 점수가 포함된 SRA 정규화 형식의 데이터는 계속해서 .sra 파일 확장자를 갖는 반면, SRA Lite 파일은 .sralite 파일 확장자를 갖습니다. 자세한 내용은 데이터 형식 페이지를 참조하세요.
2021년 8월 17일: SRA 툴킷 2.11.1.
2021년 3월 15일: SRA 툴킷 2.11.0.
2020년 12월 16일: SRA 툴킷 2.10.9.
2020년 6월 29일: SRA 툴킷 2.10.8.
2020년 5월 20일: SRA 툴킷 2.10.7.
2020년 5월 18일: SRA 툴킷 2.10.6.
2020년 4월 1일: SRA 툴킷 2.10.5.
2020년 2월 26일: SRA 툴킷 2.10.4.
2020년 2월 18일: SRA 툴킷 2.10.3.
sra-tools
릴리스 2.10.2는 AWS 및 GCP 환경에서 SRA의 모든 공개 및 제어된 액세스 dbGaP 에 대한 액세스를 제공합니다 (이 릴리스에는 Linux만 해당) . 이 방대한 아카이브의 원래 제출 형식과 SRA 형식의 데이터는 모두 이러한 클라우드에서 액세스하고 계산할 수 있으므로 NCBI FTP에서 다운로드할 필요가 없으며 성능도 향상됩니다.
prefetch
도구는 공개 및 제어된 액세스 dbGaP 데이터에 대한 ETL 데이터 외에도 원본 제출 파일 도 검색합니다.
sra-tools
릴리스 2.10.0에는 공개 SRA와 함께 사용할 수 있도록 AWS 및 GCP 환경 (이 릴리스에는 Linux만 해당) 에 대한 클라우드 네이티브 작업이 추가되었습니다. prefetch
ETL 데이터 외에 원본 제출 파일을 검색할 수 있습니다.
sra-tools
릴리스 2.9.1을 통해 우리는 마침내 훨씬 오래된 fastq fastq-dump
fasterq-dump
dump 도구를 사용할 수 있게 되었습니다. 이름에서 알 수 있듯이 더 빠르게 실행되며 임시 파일을 위한 충분한 디스크 공간이 있는 사이트에서 흔히 볼 수 있는 FASTQ 파일로 SRA 개체를 대규모로 변환하는 데 더 적합합니다. fasterq-dump
다중 스레드이며 레코드별로 조인을 수행하는 (단일 스레드인) fastq-dump
와 비교하여 성능을 향상시키는 방식으로 대량 조인을 수행합니다.
fastq-dump
fasterq-dump
보다 더 많은 특수 사례를 처리하므로 계속 지원되지만 앞으로는 더 이상 사용되지 않을 가능성이 높습니다.
fasterq-dump
대한 자세한 내용은 Wiki(https://github.com/ncbi/sra-tools/wiki/HowTo:-fasterq-dump)에서 확인할 수 있습니다.
툴킷 사용, 구성 및 구축에 대한 추가 정보를 보려면 당사 Wiki 또는 NCBI 웹 사이트를 방문하십시오.
SRA 툴킷 개발팀