TRGT는 Pacbio Hifi 데이터에서 탠덤 반복의 표적화 된 유전자형 분석 도구입니다. 기본 크기 유전자형 분석 외에도 TRGT 프로파일 서열 조성, 모자이크 및 CPG 메틸화 각각의 분석 된 반복 및 반복과 겹치는 판독의 시각화.
TRGT는 여전히 적극적으로 개발 중입니다. TRGT의 입력 및 출력 파일 형식에 대한 몇 가지 변경이 예상됩니다.
TRGT Linux Binary는 여기에서 사용할 수 있습니다
반복 정의 파일은이 Zenodo 저장소에서 사용할 수 있으며 알려진 병원성 반복의 정의도 여기에서 사용할 수 있습니다.
TRGT는 반복 카탈로그에서 각 영역의 반복 대립 유전자를 포함하는 VCF를 출력합니다. 다수의 샘플에 대한 반복 분석을 용이하게하기 위해, VCFS는 merge
서브-커뮤니케이션을 사용하여 다중 샘플 VCF로 병합되거나 TDB 도구 (이전 TRGTDB)를 사용하여 데이터베이스로 변환 될 수 있습니다. TDB는 단순한 데이터 추출, 쿼리 지원 및 파일 크기 감소를 포함하여 다중 표본 VCF에 비해 많은 장점을 제공합니다.
튜토리얼
입문 튜토리얼 : 비 중도적 및 대화식 버전
TRGT 플롯 해석
참조
명령 줄 인터페이스
정의 파일을 반복하십시오
TRGT에서 생성 한 VCF 파일
누락 된 기능, 버그 또는 TRGT 출력 분석에 도움이 필요한 경우 이메일로 연락하거나 GitHub 문제를 열어 주시기 바랍니다.
TRGT는 현재 활발한 개발 중이며 연구 사용만을위한 것이며 진단 절차에 사용되지 않습니다. TRGT가 Pacbio가 노력하는 품질에 부응하기위한 노력이 이루어졌지만, 우리는이 소프트웨어에 대해 보증하지 않습니다.
TRGT는 서비스 수준 계약 등으로 보장되지 않으므로 TRGT 릴리스에 대한 지원을 위해 Pacbio Field Applications 과학자 또는 Pacbio 고객 서비스에 문의하지 마십시오. 대신 Github을 통해 모든 문제를보고하십시오. 당사는 그러한 문제가 어느 정도 또는 시간 내에 다루어 질 것이라는 보증을하지 않습니다.
trgt를 설명하는 논문을 인용하는 것을 고려하십시오 :
Dolzhenko E, English A, Dashnow H, De Sena Brandine G, Mokveld T, Rowell WJ, Karniski C, Kronenberg Z, Danzi MC, Cheung W, Bi C, Wenger A, Martínez-Cerdeño V, Bartley TD, Jin P, Nelson D, Zuchner S, Pastinen T, Quinlan AR, Sedlazeck FJ, Eberle MA. 게놈 규모에서 탠덤 반복의 특성화 및 시각화. 2024
0.3.4
TRVZ 플롯에서 개선 된 라벨 간격
0.4.0
TRVZ 자습서가 추가되었습니다
추가 샘플 핵형 파라미터 ( XX
또는 XY
)
VCF 유전자형 필드 ALCI
ALLR
이름이 바뀌 었습니다
정확도를 향상시키기 위해 유전자형 분석 알고리즘을 변경했습니다
0.5.0
Genotyper는 이제 반복에 인접한 SNP에 대한 정보를 사용합니다.
BAM 파일에는 이제 ALLELE를 읽을 수있는 과제가 포함되어 있습니다
GZIP 압축 반복 파일에 대한 지원이 추가되었습니다
오류 처리 및 오류 메시지가 향상되었습니다
0.6.0
Spanning.bam Reads에 정렬 시가를 추가하십시오
읽기 추출 영역을 늘리십시오
클러스터 genotyper는 신뢰 구간을보고합니다
유효하지 않은 입력 파일의 오류 처리 개선 (게놈, 카탈로그 및 읽기)
0.7.0
PHASING 정보 읽기 이제 반복 유전자형 분석 중에 사용할 수 있습니다 ( HP
태그를 통해)
이제 사용자는 모티프 필드에서 모티프 시퀀스를 지정하고 struc를 locus_name
으로 설정하여 복잡한 반복을 정의 할 수 있습니다.
입력 판독의 원래 MAPQ 값은 이제 BAM 출력 에보 고됩니다.
Bamlet 샘플 이름은 이제 --sample-name
플래그를 사용하여 제공 할 수 있습니다. 제공되지 않은 경우 입력 BAM 또는 파일 STEM (문제 #18)에서 추출됩니다.
0.8.0
중단 변화 : 모티프 스팬 및 카운트 ( MS
및 MC
필드) 및 순도 평가 ( AP
필드)는 이제 모든 반복에 대한 HMM 기반 알고리즘으로 수행됩니다. 이전 버전에 비해 결과의 차이가있을 것으로 예상됩니다.
제로 길이 대립 유전자의 대립 유전자 순도는 이제 VCFS의 결 측값으로보고됩니다.
Spanning.bam 출력 파일은 이제 Qual 값을 가로 지르고 입력 판독 값에서 매핑 가닥을 전달합니다.
스패닝 --output-flank-len
메틸화가 두 번이라고 불리는 BAM에서 발생할 수있는 충돌
--genotyper=cluster
--karyotype
XY
로 설정 될 때 X 염색체의 반수
0.9.0
폴리 알라닌 반복에 대한지지 추가 (모티프 서열에서 문자 N
허용함으로써)
폴리 알라닌 반복에서 TRVZ가 오류를 일으키는 버그를 수정하십시오.
1.0.0
중단 변경 : TRGT 및 TRVZ는 이제 단일 바이너리로 병합됩니다. 사용자는 각각 유전자형 및 시각화를 위해 하위 명령 trgt genotype
및 trgt plot
실행해야합니다.
브레이킹 변경 : 이제 패딩베이스는 이제 VCF 파일의 모든 유전자형 대립 유전자 서열에 자동으로 추가되어 VCF 표준을 더 잘 준수하고 제로 길이 대립 유전자의 처리를 더 잘 보장합니다.
새로운 하위 명령 trgt validate
추가했습니다. 이 명령을 사용하면 주어진 기준 게놈에 대한 반복 카탈로그를 검증하고 기형 항목에 대한 통계를보고합니다.
메모리 풋 프린트가 낮아짐 : 메모리 관리가 개선되면 대규모 반복 카탈로그로 메모리 사용량이 크게 줄어 듭니다.
업데이트 된 오류 처리 : 이제 오르플 링 항목은 이제 프로그램을 종료하지 않고 오류로 기록됩니다.
명령 사용량을 단순화하기 위해 속기 CLI 옵션이 추가되었습니다.
1.1.0
새로운 하위 명령 trgt merge
추가했습니다. 이 명령은 trgt genotype
에 의해 생성 된 VCF 파일을 공동 VCF 파일로 병합합니다. 모든 버전의 TRGT에서 생성 된 VCF와 함께 작동합니다 (결과 조인트 VCF는 항상 패딩베이스를 포함하는 TRGT ≥V1.0.0 형식에 있습니다).
초고 범위가있는 영역의 서브 샘플링 추가 ( >MAX_DEPTH * 3
, 기본적으로 750); 저수지 샘플링을 통해 구현되었습니다.
단일 읽기 만 자리석을 덮을 때 발생한 클러스터 유전자 버그를 수정했습니다.
비 치프리 읽기 필터링을위한 새로운 논리가 추가된다.
1.1.1
HOTFIX : 읽기 필터링 로직은 더 이상 RQ 태그없이 읽기를 제거하지 않습니다.
1.1.2
Hotfix : 읽기없이 유전자형 분석을 방지합니다.
--disable-bam-output
플래그를 trgt genotype
에 추가하여 사용자가 Bamlet 생성을 비활성화 할 수 있습니다. 그러나 TRGT 플롯과 같은 다운 스트림 작업에는 Bamlet이 여전히 필요합니다.
1.2.0
BGZIP 압축 침대 파일을 처리하는 문제 해결 문제.
통계는 항상 통계를 기록하고 STDERR로 직접 로그인하는 대신 직접 출력합니다.
멀티-샘플 VCF 병합 : TRGT VCF를 수많은 샘플과 병합하는 지원이 추가되어 새로운 샘플이 포함 된 대규모 인구 규모 데이터 세트에 대한 업데이트가 가능합니다.
동기화 된 Contig Indexing : 일관되지 않은 Contig 순서를 가진 VCF에 대한 지원. 또한 새로운 --contigs
플래그를 사용하면 쉼표로 구분 된 Contigs 목록을 지정할 수 있습니다.
버전 1.0.0 이상에서 TRGT VCF를 병합 할 때 기준 게놈은 더 이상 필요하지 않습니다.
병합은 이제 기본적으로 건너 뜁니다. --quit-on-errors
플래그를 사용하여 오류를 종료하십시오. 실패 및 건너 뛰는 TR을 포함하여 통계는 관리 후 기록됩니다.
trgt merge
:
trgt validate
버그 수정 :
1.3.0
반복 시각화를 개선 할 준비를하면서 코드 플롯 코드가 리팩토링되었습니다.
Plot to Plot의 최대 읽기 수는 이제 --max-allele-reads
로 지정할 수 있습니다.
BUGFIX : 이제 반복 식별자가 쉼표를 포함하도록 허용됩니다
1.4.0
타겟 시퀀싱에 적합한 매개 변수는 이제 --preset targeted
옵션으로 설정할 수 있습니다.
장소에 읽기가 없을 때 폭포 음모가 더 이상 당황하지 않습니다.
--genotyper cluster
로의 알고리즘 변경은 대립 유전자에 더 적은 판독을 할당 할 수 있습니다. 이로 인해 컨센서스 시퀀스에 약간의 변경이 발생하고 과제를 읽을 수 있습니다.
이 웹 사이트 및 컨텐츠 및 데이터를 포함한 모든 사이트 관련 서비스는 모든 결함이있는 "그대로"제공됩니다. 상업성, 만족스러운 품질, 비 침해 또는 특정 목적에 대한 적합성. 귀하는이 사이트, 모든 사이트 관련 서비스 및 타사 웹 사이트 또는 응용 프로그램의 사용에 대한 총 책임과 위험을 가정합니다. 구두 또는 서면 정보 또는 조언은 어떠한 종류에 대한 보증을 작성해서는 안됩니다. 웹 사이트의 특정 제품 또는 서비스에 대한 참조는 Pacific Biosciences의 권고 또는 승인을 구성하거나 암시하지 않습니다.