TRGTは、Pacbio HIFIデータからのタンデムリピートのターゲットジェノタイピングのためのツールです。基本的なサイズのジェノタイピングに加えて、TRGTプロファイルシーケンスの組成、モザイク、および分析された各繰り返しのCPGメチル化と、反復と重複する読み取りの視覚化。
TRGTはまだ積極的な開発中です。 TRGTの入力ファイル形式と出力ファイル形式のいくつかの変更が予想されます。
TRGT Linuxバイナリはこちらから入手できます
繰り返し定義ファイルは、このZenodoリポジトリで入手できます。既知の病原性リピートの定義もこちらでご利用いただけます。
TRGTは、繰り返しカタログ内の各領域からリピートアレルを含むVCFを出力します。複数のサンプルにわたるリピートの分析を容易にするために、VCFはmerge
サブコマンドを使用してマルチサンプルVCFにマージされるか、TDBツール(以前はTRGTDBと呼ばれる)を使用してデータベースに変換できます。 TDBは、よりシンプルなデータ抽出、クエリのサポート、ファイルサイズの削減など、マルチサンプルVCFよりも多くの利点を提供します。
チュートリアル
入門チュートリアル:非対話型バージョンとインタラクティブバージョン
TRGTプロットの解釈
参照
コマンドラインインターフェイス
定義ファイルを繰り返します
TRGTによって生成されたVCFファイル
不足している機能、バグ、またはTRGTの出力の分析の支援が必要な場合は、メールで手を差し伸べたり、GitHubの問題を開いたりすることをheしないでください。
TRGTは現在、積極的な開発中であり、研究のみを使用することを目的としており、診断手順での使用を目的としています。 TRGTがPacbioが目指している品質に耐えることを保証するための努力がなされてきましたが、このソフトウェアに関しては保証を行いません。
TRGTはサービスレベルの契約などでカバーされていないため、TRGTリリースの支援については、Pacbio Field Applications ScientistsまたはPacbioカスタマーサービスに連絡しないでください。代わりにGitHubを通じてすべての問題を報告してください。当社は、そのような問題が任意の程度またはどの時間枠内で対処されるかを保証しません。
TRGTを説明する論文を引用することを検討してください:
Dolzhenko E、English A、Dashnow H、De Sena Brandine G、Mokveld T、Rowell WJ、Karniski C、Kronenberg Z、Danzi MC、Cheung W、Bi C、Farrow E、Wenger A、Martínez-CerdeñoV、Bartley TD、Jinin P、Nelson D、Zuchner S、Pastinen T、Quinlan AR、Sedlazeck FJ、Eberle MA。ゲノムスケールでのタンデムリピートの特性評価と視覚化。 2024
0.3.4
TRVZプロットのラベル間隔の改善
0.4.0
TRVZチュートリアルを追加しました
サンプル核型パラメーター( XX
またはXY
)を追加した
VCF遺伝子型フィールドALCI
ALLR
に変更しました
ジェノタイピングアルゴリズムの変更を加えて、精度を向上させました
0.5.0
ジェノタイパーは、繰り返しに隣接するSNPに関する情報を使用するようになりました
BAMファイルには、読み取り対象の割り当てが含まれるようになりました
GZIP圧縮リピートファイルのサポートが追加されました
改善されたエラー処理とエラーメッセージ
0.6.0
spanning.bam readsにアライメントシガーを追加します
読み取り抽出領域を増やします
クラスタージェノタイパーは信頼区間を報告します
無効な入力ファイルの改善されたエラー処理(ゲノム、カタログ、読み取り)
0.7.0
フェージング情報を読むことで、繰り返しジェノタイピング中に使用できるようになりました( HP
タグを介して)
ユーザーは、モチーフフィールドでモチーフシーケンスを指定し、strucをlocus_name
に設定することにより、複雑な繰り返しを定義できるようになりました。
入力読み取りの元のMAPQ値は、BAM出力で報告されます
Bamletサンプル名は、 --sample-name
フラグを使用して提供できるようになりました。それが提供されていない場合、それは入力BAMまたはファイルステムから抽出されます(問題#18に対処)
0.8.0
変化の破壊:モチーフスパンとカウント( MS
およびMC
フィールド)および純度評価( AP
フィールド)は、すべての繰り返しに対してHMMベースのアルゴリズムで実行されます。以前のバージョンに対する結果のいくつかの違いを期待してください
ゼロ長さの対立遺伝子の対立遺伝子純度は、VCFSの欠損値として報告されています
spanning.bam出力ファイルは、入力読み取りからQUAL値とマッピングストランドを引き継がれるようになりました
Spanning.bamファイルで報告され、TRVZプロットに表示されている隣接ベースの数を制御する高度なフラグ--output-flank-len
を追加しました
メチル化が2回呼び出されたBAMSで発生する可能性のあるクラッシュが修正されました
--karyotype
--genotyper=cluster
XY
への最適化。
0.9.0
ポリアラニンリピートのサポートを追加します(モチーフシーケンスで文字N
許可すること)
バグを修正して、TRVZがポリアラニンの繰り返しでエラーを発生させる原因
1.0.0
変化の破壊:TRGTとTRVZは、単一のバイナリに統合されました。ユーザーは、それぞれジェノタイピングと視覚化のために、サブコマンドtrgt genotype
とtrgt plot
実行する必要があります。
壊れた変更:パディングベースがVCFファイルのすべての遺伝子型対立遺伝子シーケンスに自動的に追加され、VCF標準へのコンプライアンスが向上し、ゼロ長さの対立遺伝子の取り扱いが確保されます。
新しいサブコマンドtrgt validate
を追加しました。このコマンドは、特定の参照ゲノムに対する繰り返しカタログの検証を可能にし、不正なエントリの統計を報告します。
メモリフットプリントの低下:メモリ管理を改善すると、大規模な繰り返しカタログでメモリの使用が大幅に削減されます。
更新されたエラー処理:不正なエントリは、プログラムを終了せずにエラーとしてログに記録されるようになりました。
コマンドの使用量を簡素化するための速記CLIオプションを追加しました。
1.1.0
新しいサブコマンドtrgt merge
を追加しました。このコマンドはtrgt genotype
によって生成されたVCFファイルを共同VCFファイルにマージします。 TRGTのすべてのバージョンで生成されたVCFを使用して動作します(結果のジョイントVCFは、パディングベースを含むTRGT≥V1.0.0形式に常になります)。
超高カバレッジを持つ領域のサブサンプリング( >MAX_DEPTH * 3
、デフォルト750);貯水池サンプリングを介して実装されています。
単一の読み取りだけが軌跡をカバーしたときに発生したクラスタージェノタイパーバグを修正しました。
非HIFI読み取りをフィルタリングするための新しいロジックが追加されました:予想されるリピートシーケンスと一致しない低品質の読み取りの最大3%を削除します。
1.1.1
hotfix:読み取りフィルタリングロジックは、RQタグなしで読み取りを削除しなくなります。
1.1.2
hotfix:読み取りなしでジェノタイピングを防ぎます。
--disable-bam-output
フラグをtrgt genotype
に追加し、ユーザーがBamlet生成を無効にすることができました。ただし、TRGTプロットなどの下流タスクにはバムレットが必要であることに注意してください。
1.2.0
BGZIP圧縮ベッドファイルの処理に関する問題を解決しました。
常にログするのではなく、統計を常にstdoutとstderrに直接出力します。
マルチサンプルVCFマージ:TRGT VCFを任意の数のサンプルと統合するためのサポートが追加され、新しいサンプルを使用した大規模な人口規模のデータセットへの更新が可能になりました。
同期Contigインデックス:一貫性のないコンティグ注文を備えたVCFのサポートが導入されました。さらに、新しい--contigs
フラグを使用すると、コンティグのコンマ分離されたリストをマージすることを指定できます。
バージョン1.0.0以降からTRGT VCFをマージする場合、参照ゲノムはもはや必要ありません。
マージは、デフォルトで問題のある遺伝子座をスキップしてログにします。 --quit-on-errors
フラグを使用して、エラーを終了します。統計は、故障したTRSのカウントを含む、登録後に記録されます。
trgt merge
:
trgt validate
バグ修正:
1.3.0
プロットコードは、視覚化を繰り返す準備をするため、リファクタリングされています
プロットする対立遺伝子ごとの最大読み取り数は、 --max-allele-reads
で指定できるようになりました
bugfix:繰り返し識別子がコンマを封じ込めることが許可されました
1.4.0
ターゲットを絞ったシーケンスに適したパラメーターは、 --preset targeted
オプションで設定できるようになりました
遺伝子座に読み取りがない場合、ウォーターフォールプロットはもはやパニックになりません
--genotyper cluster
へのアルゴリズムの変更により、対立遺伝子に割り当てる読み取り値が少なくなります。これにより、コンセンサスシーケンスと読み取り割り当てがわずかに変更される可能性があります
このWebサイトとコンテンツ、およびデータを含むすべてのサイト関連サービスは、すべての障害を備えた「現状」で提供されます。商品性、満足のいく品質、非侵害、または特定の目的のためのフィットネス。お客様は、このサイト、すべてのサイト関連サービス、およびサードパーティのWebサイトまたはアプリケーションを使用するための完全な責任とリスクを想定しています。口頭または書面による情報またはアドバイスは、いかなる種類の保証も作成してはなりません。ウェブサイト上の特定の製品またはサービスへの言及は、太平洋の生物科学による推奨または承認を構成または暗示するものではありません。