GroundingDINOダウンロードGroundingDINOソースコードのダウンロード

GroundingDINO

その他のソースコード

Grounding DINO SwinB

ダウンロード

？グラウンドディノ

Idea-CVR、Idea-Research

Shilong Liu、Zhaoyang Zeng、Tianhe Ren、Feng Li、Hao Zhang、Jie Yang、Chunyuan Li、Jianwei Yang、Hang Su、Jun Zhu、Lei Zhang ^？。

[ Paper ] [ Demo ] [ BibTex ]

Dinoを接地するためのPytorchの実装と事前に守られたモデル。詳細については、紙の接地Dino：Dinoとの結婚とオープンセットオブジェクト検出のためのプリトレーニングと結婚してください。

グラウンドサム2は現在リリースされています。これは、オープンワールドシナリオでのオブジェクトトラッキングについて、グラウンドディノとSAM 2を組み合わせています。
グラウンドディノ1.5は現在リリースされています。これは、Idea Researchの最も有能なオープンワールドオブジェクト検出モデルです！
グラウンドディノと接地されたサムは、現在ハグFaceでサポートされています。より便利な使用のために、このドキュメントを参照できます

？役立つチュートリアル

？ [Arxiv論文を読む]
？ [YouTubeで簡単な紹介ビデオをご覧ください]
？ [Colabデモを試してみてください]
？ [私たちの公式のハギングフェイスのデモを試してください]
？ [Roboflow aiによるGroundingdinoに関するステップバイステップチュートリアルをご覧ください]
？ [GroundingDino：Roboflow AIによる自動データセット注釈と評価]
？ [Roboflow aiによるSamおよびGroundingdinoとの画像注釈を加速]
？ [autodistill：Roboflow aiによる接地 - dinoと接地されたサムに基づいたゼロ注釈でyolov8を訓練する]

プロジェクトを強調表示します

セマンティックサム：セグメントを有効にし、目的の粒度で何かを認識するためのユニバーサル画像セグメンテーションモデル。
detgpt：推論で必要なものを検出します
接地サム：グラウンドディノとセグメントの何でも結婚します
安定した拡散を備えたディノを接地します
制御可能な画像編集のためのグリゲンとの接地ディノ
Openseed：シンプルで強力なオープンセットセグメンテーションモデル
見かけ：すべての場所を一度にセグメント化します
X-GPT：X-Decoderによってサポートされる会話視覚エージェント
Gligen：オープンセットの接地テキストからイメージから画像の生成
Llava：大規模な言語とビジョンアシスタント

ハイライト

オープンセット検出。言語ですべてを検出してください！
高性能。 Coco Zero-Shot 52.5 AP （ココデータなしのトレーニング！）。ココ微調整63.0 AP 。
フレキシブル。画像編集のための安定した拡散とのコラボレーション。

ニュース

2023/07/18 ：セグメントセグメントモデルであるセマンティックサムをリリースして、セグメントを有効にして、任意の粒度で何かを認識します。コードとチェックポイントが利用可能です！
2023/06/17 ：Coco Zero-Shotのパフォーマンスに関する樹木を評価する例を示します。
2023/04/15 ：オープンセット認識に興味のある人のための野生の測定値のCVを参照してください！
2023/04/08 ：デモをリリースして、グラウンドディノとグリゲンを組み合わせて、より制御可能な画像編集を行います。
2023/04/08 ：デモをリリースして、グラウンドディノと画像編集用の安定した拡散を組み合わせます。
2023/04/06 ：グラウンド・セグメント・アニシングと名付けられたセグメント・アニシングと結婚することにより、グラウンド・ディンンノのセグメンテーションをサポートすることを目指して、新しいデモを構築します。
2023/03/28 ：Dinoと基本的なオブジェクト検出プロンプトエンジニアリングの接地に関するYouTubeビデオ。 [Skalskip]
2023/03/28 ：フェイススペースを抱き締めるデモを追加してください！
2023/03/27 ：CPUのみのモードをサポートします。これで、モデルはGPUなしでマシンで実行できます。
2023/03/25 ：Dinoを接地するためのデモがColabで入手できます。 [Skalskip]
2023/03/22 ：コードは今利用可能です！

説明

紙の紹介。

グラウンドディノとグリゲンの結婚

ディノの入力と出力を接地するための説明/ヒント

接地ディノは、入力として(image, text)ペアを受け入れます。
900 （デフォルトで）オブジェクトボックスを出力します。各ボックスには、すべての入力単語に類似したスコアがあります。（以下の図に示すように。）
デフォルトでは、最高の類似点がbox_thresholdよりも高いボックスを選択します。
予測されたラベルとして、類似点がtext_thresholdよりも高い単語を抽出します。
文のdogs two dogs with a stick. 、最終的な出力としてdogsと最高のテキストの類似点を持つボックスを選択できます。
各単語は、異なるトークンライザーを持つ複数のトークンに分割できることに注意してください。文の単語の数は、テキストトークンの数に等しくない場合があります。
さまざまなカテゴリ名を分離することをお勧めします.グラウンドディノのために。

？€todo

推論コードとデモをリリースします。
チェックポイントをリリースします。
安定した拡散とグリゲンのデモを備えたグラウンドディノ。
トレーニングコードをリリースします。

インストール

注記：

CUDA環境がある場合は、環境可変CUDA_HOMEが設定されていることを確認してください。 CUDAが利用できない場合、CPUのみのモードでコンパイルされます。

インストール手順に厳密に従ってください。そうしないと、プログラムが作成する場合があります。

NameError: name ' _C ' is not defined

これが発生した場合は、Gitを再整理してGroundingDinoを再インストールし、すべてのインストール手順を再度実行してください。

CUDAを確認する方法：

 echo $CUDA_HOME

何も印刷していない場合、パスをセットアップしていないことを意味します/

これを実行して、環境変数が現在のシェルの下に設定されます。

 export CUDA_HOME=/path/to/cuda-11.3

CUDAのバージョンは、CUDAランタイムと一致する必要があることに注意してください。複数のCUDAが同時に存在する可能性があるためです。

cuda_homeを永続的に設定する場合は、以下を使用して保存します。

 echo ' export CUDA_HOME=/path/to/cuda ' >> ~ /.bashrc

その後、bashrcファイルをソースし、cuda_homeを確認します。

 source ~ /.bashrc
echo $CUDA_HOME

この例では、/path/to/cuda-11.3は、cudaツールキットがインストールされているパスに置き換える必要があります。これは、端末にどのNVCCを入力するかで見つけることができます。

たとえば、出力が/usr/local/cuda/bin/nvccの場合、次のとおりです。

 export CUDA_HOME=/usr/local/cuda

インストール：

1.GithubのGroundingDinoリポジトリをクローンします。

git clone https://github.com/IDEA-Research/GroundingDINO.git

現在のディレクトリをGroundingDinoフォルダーに変更します。

 cd GroundingDINO/

現在のディレクトリに必要な依存関係をインストールします。

pip install -e .

事前に訓練されたモデルの重みをダウンロードします。

mkdir weights
cd weights
wget -q https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth
cd ..

▶️デモ

GPU IDを確認してください（GPUを使用している場合のみ）

nvidia-smi

{GPU ID} 、 image_you_want_to_detect.jpgを置き換え、 "dir you want to save the output"という適切な値で次のコマンドに置き換えます

CUDA_VISIBLE_DEVICES={GPU ID} python demo/inference_on_a_image.py 
-c groundingdino/config/GroundingDINO_SwinT_OGC.py 
-p weights/groundingdino_swint_ogc.pth 
-i image_you_want_to_detect.jpg 
-o " dir you want to save the output " 
-t " chair "
 [--cpu-only] # open it for cpu mode

検出するフレーズを指定したい場合は、ここにデモがあります。

CUDA_VISIBLE_DEVICES={GPU ID} python demo/inference_on_a_image.py 
-c groundingdino/config/GroundingDINO_SwinT_OGC.py 
-p ./groundingdino_swint_ogc.pth 
-i .asset/cat_dog.jpeg 
-o logs/1111 
-t " There is a cat and a dog in the image . " 
--token_spans " [[[9, 10], [11, 14]], [[19, 20], [21, 24]]] "
 [--cpu-only] # open it for cpu mode

token_spansは、フレーズの開始位置と終了位置を指定します。たとえば、最初のフレーズは[[9, 10], [11, 14]]です。 "There is a cat and a dog in the image ."[9:10] = 'a' 、 "There is a cat and a dog in the image ."[11:14] = 'cat' 。したがって、 a catフレーズを指します。同様に、 [[19, 20], [21, 24]]は、 a dogフレーズを指します。

詳細については、 demo/inference_on_a_image.pyを参照してください。

Pythonで実行：

 from groundingdino . util . inference import load_model , load_image , predict , annotate
import cv2

model = load_model ( "groundingdino/config/GroundingDINO_SwinT_OGC.py" , "weights/groundingdino_swint_ogc.pth" )
IMAGE_PATH = "weights/dog-3.jpeg"
TEXT_PROMPT = "chair . person . dog ."
BOX_TRESHOLD = 0.35
TEXT_TRESHOLD = 0.25

image_source , image = load_image ( IMAGE_PATH )

boxes , logits , phrases = predict (
    model = model ,
    image = image ,
    caption = TEXT_PROMPT ,
    box_threshold = BOX_TRESHOLD ,
    text_threshold = TEXT_TRESHOLD
)

annotated_frame = annotate ( image_source = image_source , boxes = boxes , logits = logits , phrases = phrases )
cv2 . imwrite ( "annotated_image.jpg" , annotated_frame )

Web UI

また、グラウンドディノとGradio Web UIを統合するデモコードも提供しています。詳細については、ファイルのdemo/gradio_app.pyを参照してください。

ノートブック

デモをリリースして、より制御可能な画像編集のために、グラウンドディノとグリゲンを組み合わせます。
デモをリリースして、グラウンドディノと画像編集用の安定した拡散を組み合わせます。

ココゼロショット評価

ココでのDino Zero-Shotパフォーマンスを評価する例を示します。結果は48.5でなければなりません。

CUDA_VISIBLE_DEVICES=0 
python demo/test_ap_on_coco.py 
 -c groundingdino/config/GroundingDINO_SwinT_OGC.py 
 -p weights/groundingdino_swint_ogc.pth 
 --anno_path /path/to/annoataions/ie/instances_val2017.json 
 --image_dir /path/to/imagedir/ie/val2017

？チェックポイント

	名前	バックボーン	データ	ココのボックスAP	チェックポイント	config
1	GroundingDino-T	swin-t	O365、Goldg、CAP4M	48.4（ゼロショット） / 57.2（微調整）	GitHubリンク\| HFリンク	リンク
2	GroundingDino-B	swin-b	Coco、O365、Goldg、Cap4M、OpenImage、Odinw-35、Refcoco	56.7	GitHubリンク\| HFリンク	リンク

？§結果

COCOオブジェクトの検出結果

ODINWオブジェクト検出結果

画像編集のための安定した拡散と接地ディノと結婚します

詳細については、サンプルノートブックを参照してください。 GD_SD

より詳細な画像編集のために、グリゲンと接地ディノと結婚します。

詳細については、サンプルノートブックを参照してください。 gd_gligen

？モデル：グラウンドディノ

含まれるもの：テキストバックボーン、画像バックボーン、機能エンハンサー、言語誘導クエリの選択、クロスモダリティデコーダー。

アーチ

♥♥了承

私たちのモデルはディノとグリップに関連しています。彼らの素晴らしい仕事をありがとう！

また、DETR、DERMORMABLE DETR、SMCA、条件付きDETR、アンカーDETR、ダイナミックデトル、DAB-DERT、DN-DERTなどを含む素晴らしい以前の作業にも感謝します。Awesom Detection Transformerでは、より関連する作業を利用できます。新しいToolbox DetRexも利用できます。

安定した拡散とグリゲンに感謝します。

✒唱。引用

私たちの研究があなたの研究に役立つと思うなら、次のBibtexエントリを引用することを検討してください。

 @article { liu2023grounding ,
  title = { Grounding dino: Marrying dino with grounded pre-training for open-set object detection } ,
  author = { Liu, Shilong and Zeng, Zhaoyang and Ren, Tianhe and Li, Feng and Zhang, Hao and Yang, Jie and Li, Chunyuan and Yang, Jianwei and Su, Hang and Zhu, Jun and others } ,
  journal = { arXiv preprint arXiv:2303.05499 } ,
  year = { 2023 }
}