MetaGraph は、注釈付きゲノム グラフのスケーラブルな構築と配列とグラフのアライメントのためのツールです。
MetaGraph のデフォルトのインデックス表現は非常にスケーラブルで、数兆のノードと数百万の注釈ラベルを含むグラフの構築をサポートします。同時に、提供されるワークフローとその慎重な実装は、コア データ構造の低レベルの最適化と組み合わされて、優れたクエリとアライメントのパフォーマンスを可能にします。
オンライン ドキュメントは https://metagraph.ethz.ch/static/docs/index.html で入手できます。オフラインのソースはここにあります。
Anaconda を使用して最新リリースを Linux または Mac OS X にインストールします。
conda install -c bioconda -c conda-forge metagraph
システム上で docker が利用可能な場合は、すぐに開始してください。
docker pull ghcr.io/ratschlab/metagraph:master
docker run -v ${HOME}:/mnt ghcr.io/ratschlab/metagraph:master
build -v -k 10 -o /mnt/transcripts_1000 /mnt/transcripts_1000.fa
${HOME}
をホスト システム上のディレクトリに置き換えて、コンテナ内の/mnt
の下にマップします。
Protein
アルファベット用にコンパイルされたバイナリを実行するには、 --entrypoint metagraph_Protein
を追加するだけです。
docker run -v ${HOME}:/mnt --entrypoint metagraph_Protein ghcr.io/ratschlab/metagraph:master
build -v -k 10 -o /mnt/graph /mnt/protein.fa
ご覧のとおり、Docker コンテナから MetaGraph を実行するのは非常に簡単です。また、次のコマンド (または同様のコマンド) は、コンテナーにマウントされているディレクトリを確認したり、コマンドの他の種類のデバッグを行うのに便利です。
docker run -v ${HOME}:/mnt --entrypoint ls ghcr.io/ratschlab/metagraph:master /mnt
コンテナー イメージのさまざまなバージョンがすべてここにリストされます。
ソースからコンパイルするには (たとえば、カスタム アルファベットまたはその他の構成を使用したビルドの場合)、オンラインのドキュメントを参照してください。
./metagraph build
./metagraph annotate
./metagraph transform_anno
./metagraph query
DATA="../tests/data/transcripts_1000.fa"
./metagraph build -k 12 -o transcripts_1000 $DATA
./metagraph annotate -i transcripts_1000.dbg --anno-filename -o transcripts_1000 $DATA
./metagraph query -i transcripts_1000.dbg -a transcripts_1000.column.annodbg $DATA
./metagraph stats -a transcripts_1000.column.annodbg transcripts_1000.dbg
./metagraph
./metagraph build -v --parallel 30 -k 20 --mem-cap-gb 10
-o < GRAPH_DIR > /graph < DATA_DIR > / * .fasta.gz
2>&1 | tee < LOG_DIR > /log.txt
./metagraph build -v --parallel 30 -k 20 --mem-cap-gb 10 --disk-swap < GRAPH_DIR >
-o < GRAPH_DIR > /graph < DATA_DIR > / * .fasta.gz
2>&1 | tee < LOG_DIR > /log.txt
K=20
./KMC/kmc -ci5 -t4 -k $K -m5 -fm < FILE > .fasta.gz < FILE > .cutoff_5 ./KMC
./metagraph build -v -p 4 -k $K --mem-cap-gb 10 -o graph < FILE > .cutoff_5.kmc_pre
./metagraph annotate -v --anno-type row --fasta-anno
-i primates.dbg
-o primates
~ /fasta_zurich/refs_chimpanzee_primates.fa
./metagraph transform_anno -v --linkage --greedy
-o linkage.txt
--subsample R
-p NCORES
primates.column.annodbg
N*R/8 + 6*N^2
バイトの RAM が必要です。ここで、 N
は列数、 R
サブサンプリングされた行数です。
./metagraph transform_anno -v -p NCORES --anno-type brwt
--linkage-file linkage.txt
-o primates
--parallel-nodes V
-p NCORES
primates.column.annodbg
M*V/8 + Size(BRWT)
バイトの RAM が必要です。ここで、 M
は注釈内の行数、 V
同時にマージされるノードの数です。
./metagraph query -v -i < GRAPH_DIR > /graph.dbg
-a < GRAPH_DIR > /annotation.column.annodbg
--min-kmers-fraction-label 0.8 --labels-delimiter " , "
query_seq.fa
./metagraph align -v -i < GRAPH_DIR > /graph.dbg query_seq.fa
./metagraph assemble -v < GRAPH_DIR > /graph.dbg
-o assembled.fa
--unitigs
./metagraph assemble -v < GRAPH_DIR > /graph.dbg
--unitigs
-a < GRAPH_DIR > /annotation.column.annodbg
--diff-assembly-rules diff_assembly_rules.json
-o diff_assembled.fa
サンプル ファイルについては、 metagraph/tests/data/example.diff.json
およびmetagraph/tests/data/example_simple.diff.json
を参照してください。
グラフの統計
./metagraph stats graph.dbg
アノテーションの統計
./metagraph stats -a annotation.column.annodbg
両方の統計
./metagraph stats -a annotation.column.annodbg graph.dbg
最上位のソース ディレクトリ内のMakefile
使用すると、 metagraph
の構築とテストをより簡単に行うことができます。次の引数がサポートされています。
env
: コンパイル/実行する環境 ( ""
: ホスト上、 docker
: Docker コンテナ内)alphabet
: 特定のアルファベットのメタグラフをコンパイルします (例: DNA
またはProtein
、デフォルトのDNA
)additional_cmake_args
: cmake に渡す追加の引数。例:
# compiles metagraph in a docker container for the `DNA` alphabet
make build-metagraph env=docker alphabet=DNA
新しいバージョン リリースの作成は、次の 3 つの手順で行われます。
Metagraph は GPLv3 ライセンスに基づいて配布されます (「ライセンス」を参照)。詳細については、AUTHORS ファイルと COPYRIGHTS ファイルをご覧ください。