HumanML3D は、HumanAct12 と Amass データセットの組み合わせに由来する 3D ヒューマン モーション言語データセットです。これは、日常活動(例:「歩く」、「ジャンプ」)、スポーツ(例:「水泳」、「ゴルフ」)、アクロバット(例:「側転」)、芸術性(例:「側転」)など、人間の幅広い行動をカバーします。 、「ダンス」)。
HumanML3D の各モーションクリップには、Amazon Mechanical Turk で注釈が付けられた 3 ~ 4 つの単一文の説明が付属しています。モーションは 20 fps にダウンサンプリングされ、各クリップは 2 ~ 10 秒続きます。
全体として、HumanML3D データセットは14,616 のモーションと、 5,371の異なる単語で構成される44,970 の記述で構成されています。モーションの合計長さは28.59時間になります。平均動作長は7.1秒、平均説明長は12ワードです。
すべてのモーションをミラーリングし、説明内の特定のキーワードを適切に置き換えることにより、HumanML3D データセットのサイズを 2 倍にします (例: 「左」→「右」、「時計回り」→「反時計回り」)。
KIT Motion-Language Dataset (KIT-ML) も、3,911 個のモーションと 6,278 個の説明を含む関連データセットです。 HumanML3D データセットと同じ手順に従って KIT-ML データセットを処理し、このリポジトリへのアクセスを提供します。ただし、KIT-ML データセットを使用する場合は、必ず元の論文を引用してください。
このデータセットがあなたのプロジェクトに役立つ場合は、このコードベースでのあなたのスターに感謝します。 ??
?♀️ T2M -時間的 VAEを使用して、テキスト記述から 3D モーションを生成する方法を学習する HumanML3D に関する最初の作品。
? TM2T - 離散モーション トークンを通じてテキストとモーション間の相互マッピングを学習します。
? TM2D - テキスト命令でダンスモーションを生成します。
? MoMask - 残差 VQ と生成マスク モデリングを使用した新しいレベルの text2motion 生成。
KIT-ML データセットについては、[こちら] から直接ダウンロードできます。 AMASS データセットの配布ポリシーにより、データを直接配布することはできません。 AMASS データセットから HumanML3D データセットを再現できる一連のスクリプトを提供します。
このリポジトリのクローンを作成し、仮想環境をインストールする必要があります。
[2022/12/15] 更新: matplotlib=3.3.4 をインストールすると、生成されたデータが参照データからわずかにずれることを防ぐことができます。問題を参照
conda env create -f 環境.yaml conda は torch_render をアクティブ化します
インストールが失敗した場合は、次のものをインストールすることもできます。
- Python==3.7.10 - ナンピー - シピー - パイトーチ - TQDM - パンダ - Matplotlib==3.3.4 // アニメーションのみ - ffmpeg==4.3.1 // アニメーションのみ - Spacy==2.3.4 // テキスト処理のみ
SMPL+H から SMPL+H モードをダウンロードし (AMASS プロジェクトで使用される拡張 SMPL+H モデルを選択)、DMPL から DMPL モデルをダウンロードします (SMPL と互換性のある DMPL を選択)。次に、すべてのモデルを「./body_model/」の下に配置します。
HumanML3D データセットを取得するには、次のスクリプトを実行する必要があります。
raw_pose_processing.ipynb
motion_representation.ipynb
cal_mean_variance.ipynb
これはオプションである可能性があります。アニメーションが必要な場合は実行してください。
アニメーション.ipynb
忘れずに再確認の手順を実行してください。これらは、HumanML3D データセットの取得が正しい軌道に乗っているかどうかを確認することを目的としています。
結局のところ、最終的に必要となるのは「./HumanML3D」フォルダー内のデータです。
<DATA-DIR>./animations.rar //mp4 形式のすべてのモーション クリップのアニメーション。 ./new_joint_vecs.rar //3D モーション位置から回転不変特徴ベクトルと回転特徴ベクトルを抽出しました。 ./new_joints.rar //3D モーションの位置。 ./texts.rar //モーションデータの説明。 ./Mean.npy // new_joint_vecs 内のすべてのデータの平均 ./Std.npy //new_joint_vecs 内のすべてのデータの標準偏差 ./all.txt //全データ名のリスト ./train.txt //学習データ名の一覧 ./test.txt //テストデータ名のリスト ./train_val.txt //学習データと検証データの名前のリスト ./val.txt //検証データ名の一覧 ./all.txt //全データ名のリスト
HumanML3D データは、22 個の関節を持つ SMPL スケルトン構造に従います。 KIT-ML には 21 個の骨格関節があります。運動連鎖の詳細については、paraUtils を参照してください。
「MXXXXXX.*」で指定されたファイル (例: 「M000000.npy」) は、対応する名前「XXXXXX.*」のファイル (例: 「000000.npy」) からミラーリングされます。テキスト ファイルとモーション ファイルは同じ命名プロトコルに従います。つまり、「./texts/XXXXXX.txt」内のテキスト (例: '000000.txt') は、「./new_joints(または new_joint_vecs)/XXXXXX.npy」内の人間のモーションを正確に記述します。 " (例: '000000.npy')
各テキスト ファイルは次のようになります。
男は左足で何かまたは誰かを蹴ります。#a/DET 男/名詞 蹴る/動詞 何か/PRON または/CCONJ 誰か/PRON with/ADP 彼の/DET 左/ADJ 脚/名詞#0.0#0.0立っている人が蹴る元のスタンスに戻る前に左足で。#the/DET スタンド/動詞 人/名詞 キック/動詞 with/ADP 彼らの/DET 左/ADJ 足/名詞 前/ADP go/動詞戻る/ADV to/ADP 彼らの/DET オリジナル/ADJ スタンス/NOUN#0.0#0.0a 男は左足で何かまたは誰かを蹴ります。#a/DET 男/名詞 蹴る/動詞 with/ADP 何か/PRON or/CCONJ 誰か/PRON と/ADP 彼の/DET 左/ADJ 脚/名詞#0.0#0.0彼は左足で飛び蹴りをしている#彼/PRON は/AUX飛ぶ/動詞キック/名詞with/ADP彼の/DET左/ADJ脚/名詞#0.0#0.0
各行には個別のテキスト注釈が含まれており、元の説明 (小文字) 、処理された文、開始時刻、終了時刻の 4 つの部分で構成され、 #で区切られています。
一部の動作は説明するには複雑すぎるため、必要に応じてアノテーターが特定の動作のサブ部分を説明できるようにします。このような場合、開始時間と終了時間は、注釈が付けられたモーション セグメントを示します。それにもかかわらず、これらは HumanML3D のほんの一部を占めるだけであることが観察されています。開始時間と終了時間はデフォルトで 0 に設定されます。これは、テキストが対応するモーションのシーケンス全体にキャプションを付けることを意味します。
ffmpeg をインストールできない場合は、「.mp4」の代わりに「.gif」でビデオをアニメーション化できます。ただし、GIF の生成には通常より長い時間がかかり、メモリが占有されます。
KIT-ML データセットを使用している場合は、次の論文を引用することを検討してください。
@article{Plappert2016, author = {Matthias Plappert and Christian Mandery and Tamim Asfour}, title = {The {KIT} Motion-Language Dataset}, journal = {Big Data} publisher = {Mary Ann Liebert Inc}, year = 2016, month = {dec}, volume = {4}, number = {4}, pages = {236--252}, url = {http://dx.doi.org/10.1089/big.2016.0028}, doi = {10.1089/big.2016.0028}, }
HumanML3D データセットを使用している場合は、次の論文を引用することを検討してください。
@InProceedings{Guo_2022_CVPR, author = {Guo, Chuan and Zou, Shihao and Zuo, Xinxin and Wang, Sen and Ji, Wei and Li, Xingyu and Cheng, Li}, title = {Generating Diverse and Natural 3D Human Motions From Text}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {5152-5161} }
ご質問やご意見がございましたら、Chuan Guo ([email protected]) までご連絡ください。