브라우저에서 SeqKit을 사용해 보세요 (sandbox.bio에서 제공하는 튜토리얼 및 연습).
문서: http://bioinf.shenwei.me/seqkit( 사용법 , FAQ , 튜토리얼 및 벤치마크 )
소스 코드: https://github.com/shenwei356/seqkit
최신 버전:
인용해 주세요: ,
기타 :
간편한 설치 (다운로드)
여러 플랫폼(Linux/Windows/macOS, amd64/arm64)에 대해 정적으로 링크된 실행 가능 바이너리 제공
가볍고 즉시 사용 가능하며 종속성 없음, 컴파일 없음, 구성 없음
conda install -c bioconda seqkit
사용하기 쉬움
초고속(기술 세부정보 및 벤치마크 참조)
FASTA 및 FASTQ 형식을 모두 원활하게 구문 분석합니다.
지원( gzip
/ xz
/ zstd
/ bzip2
압축) STDIN/STDOUT 및 입력/출력 파일, 파이프에 쉽게 통합
재현 가능한 결과( sample
및 shuffle
에서 구성 가능한 랜드 시드)
정규식을 통해 사용자 정의 시퀀스 ID 지원
Bash/Zsh 자동 완성 지원
다양한 명령 (용도 및 예)
38개의 하위 명령이 지원하는 실용적인 기능
더 많은 다운로드 옵션과 변경 로그를 보려면 다운로드 페이지로 이동하거나 conda를 통해 설치하세요.
conda install -c bioconda seqkit
범주 | 명령 | 기능 | 입력 | 가닥 감도 | 멀티스레드 |
---|---|---|---|---|---|
기본 조작 | 순서 | 시퀀스 변환: ID/seq 추출, 길이/품질별 필터링, 간격 제거… | FASTA/Q | ||
통계 | 단순 통계: #seqs, min/max_len, N50, Q20%, Q30%… | FASTA/Q | ✓ | ||
하위 시퀀스 | 측면 시퀀스를 포함하여 지역/gtf/베드별로 하위 시퀀스 가져오기 | FASTA/Q | + 또는/및 - | ||
슬라이딩 | 슬라이딩 윈도우에서 하위 시퀀스 추출 | FASTA/Q | +만 | ||
faidx | FASTA 인덱스 파일 생성 및 하위 시퀀스 추출(samtools faidx보다 더 많은 기능 포함) | 파스타 | + 또는/및 - | ||
번역하다 | DNA/RNA를 단백질 서열로 번역 | FASTA/Q | + 또는/및 - | ||
보다 | 시퀀스 기능의 모니터링 및 온라인 히스토그램 | FASTA/Q | |||
스캣 | fastx 파일의 실시간 연결 및 스트리밍 | FASTA/Q | ✓ | ||
형식 변환 | fq2fa | FASTQ를 FASTA 형식으로 변환 | 패스트큐 | ||
fx2tab | FASTA/Q를 표 형식으로 변환 | FASTA/Q | |||
fa2fq | FASTA 파일로 해당 FASTQ 레코드 검색 | FASTA/Q | +만 | ||
탭2FX | 표 형식을 FASTA/Q 형식으로 변환 | TSV | |||
전환하다 | Sanger, Solexa 및 Illumina 간 FASTQ 품질 인코딩 변환 | FASTA/Q | |||
수색 | grep | ID/이름/시퀀스/시퀀스 모티브로 시퀀스 검색, 불일치 허용 | FASTA/Q | + 및 - | 부분적으로, -m |
위치하고 있다 | 하위 시퀀스/모티프 찾기, 불일치 허용 | FASTA/Q | + 및 - | 부분적으로, -m | |
앰플리콘 | 앰플리콘(또는 그 주변의 특정 영역) 추출, 불일치 허용 | FASTA/Q | + 및 - | 부분적으로, -m | |
물고기 | 더 큰 시퀀스에서 짧은 시퀀스를 찾으세요. | FASTA/Q | + 및 - | ||
동작 설정 | 견본 | 숫자 또는 비율에 따른 샘플 시퀀스 | FASTA/Q | ||
rmdup | ID/이름/시퀀스별로 중복된 시퀀스 제거 | FASTA/Q | + 및 - | ||
흔한 | ID/이름/시퀀스로 여러 파일의 공통 시퀀스 찾기 | FASTA/Q | + 및 - | ||
복제하다 | 시퀀스를 N번 복제합니다. | FASTA/Q | |||
나뉘다 | ID/seq 영역/크기/부분별로 시퀀스를 파일로 분할합니다(주로 FASTA의 경우). | FASTA 선호 | |||
분할2 | 시퀀스를 크기/부분별로 파일로 분할(FASTA, PE/SE FASTQ) | FASTA/Q | |||
머리 | 처음 N개의 FASTA/Q 레코드를 인쇄합니다. | FASTA/Q | |||
머리 게놈 | 이름에 공통 접두사가 있는 첫 번째 게놈의 시퀀스 인쇄 | FASTA/Q | |||
범위 | 특정 범위(시작:끝)의 FASTA/Q 레코드를 인쇄합니다. | FASTA/Q | |||
쌍 | 두 개의 fastq 파일에서 페어드 엔드 읽기 패치 | FASTA/Q | |||
편집하다 | 바꾸다 | 이름/시퀀스를 정규식으로 바꾸기 | FASTA/Q | +만 | |
이름 바꾸기 | 중복된 ID 이름 바꾸기 | FASTA/Q | |||
연결 | 여러 파일에서 동일한 ID를 가진 시퀀스 연결 | FASTA/Q | +만 | ||
다시 시작하다 | 원형 게놈의 시작 위치 재설정 | FASTA/Q | +만 | ||
돌연변이를 일으키다 | 서열 편집(점 돌연변이, 삽입, 삭제) | FASTA/Q | +만 | ||
사나 | 깨진 단일 행 FASTQ 파일을 삭제합니다. | 패스트큐 | |||
주문 | 종류 | ID/이름/시퀀스/길이별로 시퀀스 정렬 | FASTA 선호 | ||
혼합 | 순서 섞기 | FASTA 선호 | |||
BAM 처리 | 빵 | BAM 기록 기능의 모니터링 및 온라인 히스토그램 | 밤 | ||
여러 가지 잡다한 | 합집합 | FASTA/Q 파일의 모든 시퀀스에 대한 메시지 다이제스트를 계산합니다. | FASTA/Q | ✓ | |
병합 슬라이드 | seqkit 슬라이딩에서 생성된 슬라이딩 창 병합 | TSV |
참고:
가닥 감도:
+ only
: 포지티브/포워드 가닥에서만 처리합니다.
+ and -
: 두 가닥 모두에서 검색합니다.
+ or/and -
: 사용자의 플래그/옵션/인수에 따라 다릅니다.
다중 스레드: 기본 4개 스레드를 사용하면 대부분의 명령에 충분히 빠르며 일부 명령은 추가 스레드의 이점을 누릴 수 있습니다.
Wei Shen*, Botond Sipos 및 Liuyang Zhao. 2024. SeqKit2: 시퀀스 및 정렬 처리를 위한 스위스 군용 칼. 아이메타 e191. doi:10.1002/imt2.191.
Wei Shen, Shuai Le, Yan Li*, Fuquan Hu*. SeqKit: FASTA/Q 파일 조작을 위한 크로스 플랫폼 및 초고속 툴킷입니다. 플로스 원 . doi:10.1371/journal.pone.0163962.
웨이 션
Botond Sipos: bam
, scat
, fish
, sana
, watch
.
다른 사람
귀중한 피드백과 제안을 보내주신 모든 사용자에게 감사드립니다. 코드와 문서를 개선한 모든 기여자에게 감사드립니다.
gzip 파일 읽기 및 쓰기를 가속화하는 환상적인 패키지(compress 및 pgzip)를 제공한 Klaus Post에게 감사드립니다.
버그를 보고하거나 새로운 기능을 제안하거나 도움을 요청하려면 이슈를 만드세요.
MIT 라이센스