GroundingDINO下載 - GroundingDINO源代碼下載

GroundingDINO

其他源碼

Grounding DINO SwinB

下載

？接地恐龍

IDEA-CVR，思想研究

Shilong Liu，Zhaoyang Zeng，Tianhe Ren，Feng Li，Hao Zhang，Jie Yang，Chunyuan Li，Jianwei Yang，Hang Su，Jun Zhu，Jun Zhu，Lei Zhang ^？。

[ Paper ] [ Demo ] [ BibTex ]

Pytorch實施和驗證模型用於接地恐龍。有關詳細信息，請參閱紙接地Dino：將Dino與接地預培訓結婚以進行開放式對象檢測。

接地的SAM 2現已發布，它將恐龍與SAM 2結合在一起，以在開放世界的情況下進行任何對象跟踪。
接地Dino 1.5現在發布，這是Idea Research最有能力的開放世界對象檢測模型！
現在，迪諾（Dino）和接地的山姆（Sam）在擁抱面上得到了支持。為了更方便使用，您可以參考此文檔

？有用的教程

？ [閱讀我們的Arxiv論文]
？ [在YouTube上觀看我們簡單的介紹視頻]
？ [嘗試COLAB演示]
？ [嘗試我們的官方擁抱表演]
？ [觀看有關Roboflow AI的關於地面DINGDINO的逐步教程]
？ [RewningDino：Roboflow AI的自動數據集註釋和評估]
？ [用roboflow ai加速圖像註釋和地面distingdino]
？ [Autodistill：訓練Yolov8，其基於接地式dino和Roboflow ai的接地SAM的零註釋]

突出顯示項目

語義sam：一種通用圖像分割模型，可實現段並識別任何所需粒度的任何東西。
取圖：通過推理檢測您需要的東西
接地薩姆：將恐龍與任何東西結合在一起
與穩定擴散的恐龍接地
用Gligen接地Dino進行可控圖像編輯
開放種子：一個簡單且強大的打開組分割模型
看起來：一次到處的所有部分
X-GPT：X-Decoder支持的對話視覺劑
Gligen：開放式接地文本對像一代
llava：大語言和視力助手

強調

開放式檢測。用語言檢測一切！
高性能。可可零射52.5 AP （沒有可可數據的訓練！）。可可微調63.0 ap 。
靈活的。與穩定擴散進行圖像編輯的合作。

消息

2023/07/18 ：我們釋放語義SAM，這是一種通用圖像分割模型，可實現段並識別任何所需粒度的任何內容。代碼和檢查點可用！
2023/06/17 ：我們提供了一個示例，以評估Coco Zero-Shot性能的恐龍。
2023/04/15 ：對於那些對開放式識別感興趣的人，請參閱野外閱讀中的簡歷！
2023/04/08 ：我們發布演示，將接地恐龍與Gligen結合起來，以進行更可控制的圖像編輯。
2023/04/08 ：我們發布演示，將接地恐龍與穩定的擴散相結合以進行圖像編輯。
2023/04/06 ：我們通過將“地面”與任何名為“接地段”的部分結合在一起，建立了一個新的演示，目的是支持地面的細分。
2023/03/28 ：YouTube視頻有關接地恐龍和基本對象檢測及時工程。 [Skalskip]
2023/03/28 ：在擁抱臉部空間時添加一個演示！
2023/03/27 ：支持僅CPU-模式。現在，該模型可以在沒有GPU的機器上運行。
2023/03/25 ：COLAB可用地接地Dino的演示。 [Skalskip]
2023/03/22 ：現在可以使用代碼！

描述

紙簡介。

嫁給地面恐龍和格里根

恐龍輸入和輸出的解釋/技巧

接地Dino接受(image, text)對作為輸入。
它輸出900 （默認情況下）對象框。每個框在所有輸入單詞上都有相似性分數。（如下圖所示。）
我們默認選擇最高相似性高於box_threshold的框。
我們提取的單詞高於預測標籤的text_threshold 。
如果您想獲得特定短語的物體，例如句子中的dogs two dogs with a stick. ，您可以選擇具有最高文本dogs的盒子作為最終輸出。
請注意，每個單詞都可以分為具有不同令牌的多個令牌。句子中的單詞數可能不等於文本令牌的數量。
我們建議將不同的類別名稱分開.用於接地恐龍。

？️托多

發布推理代碼和演示。
發布檢查點。
將恐龍接地，具有穩定的擴散和gligen演示。
發布培訓代碼。

安裝

筆記：

如果您有CUDA環境，請確保設置環境變量CUDA_HOME 。如果沒有CUDA，它將以僅CPU模式進行編譯。

請確保嚴格遵循安裝步驟，否則該程序可能會產生：

NameError: name ' _C ' is not defined

如果發生這種情況，請通過seclone git重新安裝地面迪諾，然後再次完成所有安裝步驟。

如何檢查cuda：

 echo $CUDA_HOME

如果什麼都沒打印，則意味著您沒有設置路徑/

運行此操作，以便將環境變量設置為當前外殼。

 export CUDA_HOME=/path/to/cuda-11.3

請注意，CUDA的版本應與您的CUDA運行時對齊，因為可能同時存在多個CUDA。

如果要永久設置CUDA_HOME，請使用：

 echo ' export CUDA_HOME=/path/to/cuda ' >> ~ /.bashrc

之後，來源bashrc文件並檢查cuda_home：

 source ~ /.bashrc
echo $CUDA_HOME

在此示例中，/path/to/cuda-11.3應替換為安裝CUDA工具包的路徑。您可以通過在您的終端中輸入哪個NVCC來找到它：

例如，如果輸出為/usr/local/cuda/bin/nvcc，則：

 export CUDA_HOME=/usr/local/cuda

安裝：

1.從github插入地面倉庫。

git clone https://github.com/IDEA-Research/GroundingDINO.git

 cd GroundingDINO/

pip install -e .

下載預訓練的型號權重。

mkdir weights
cd weights
wget -q https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth
cd ..

▶q演示

檢查您的GPU ID（僅當您使用GPU時）

nvidia-smi

替換{GPU ID} ， image_you_want_to_detect.jpg和"dir you want to save the output"並在以下命令中使用適當的值

CUDA_VISIBLE_DEVICES={GPU ID} python demo/inference_on_a_image.py 
-c groundingdino/config/GroundingDINO_SwinT_OGC.py 
-p weights/groundingdino_swint_ogc.pth 
-i image_you_want_to_detect.jpg 
-o " dir you want to save the output " 
-t " chair "
 [--cpu-only] # open it for cpu mode

如果您想指定要檢測到的短語，這裡是一個演示：

CUDA_VISIBLE_DEVICES={GPU ID} python demo/inference_on_a_image.py 
-c groundingdino/config/GroundingDINO_SwinT_OGC.py 
-p ./groundingdino_swint_ogc.pth 
-i .asset/cat_dog.jpeg 
-o logs/1111 
-t " There is a cat and a dog in the image . " 
--token_spans " [[[9, 10], [11, 14]], [[19, 20], [21, 24]]] "
 [--cpu-only] # open it for cpu mode

token_spans指定短語的開始和結束位置。例如，第一個短語是[[9, 10], [11, 14]] 。 "There is a cat and a dog in the image ."[9:10] = 'a' ， "There is a cat and a dog in the image ."[11:14] = 'cat' 。因此，它是指a cat短語。同樣， [[19, 20], [21, 24]]是指a dog短語。

有關更多詳細信息，請參見demo/inference_on_a_image.py 。

與Python一起跑步：

 from groundingdino . util . inference import load_model , load_image , predict , annotate
import cv2

model = load_model ( "groundingdino/config/GroundingDINO_SwinT_OGC.py" , "weights/groundingdino_swint_ogc.pth" )
IMAGE_PATH = "weights/dog-3.jpeg"
TEXT_PROMPT = "chair . person . dog ."
BOX_TRESHOLD = 0.35
TEXT_TRESHOLD = 0.25

image_source , image = load_image ( IMAGE_PATH )

boxes , logits , phrases = predict (
    model = model ,
    image = image ,
    caption = TEXT_PROMPT ,
    box_threshold = BOX_TRESHOLD ,
    text_threshold = TEXT_TRESHOLD
)

annotated_frame = annotate ( image_source = image_source , boxes = boxes , logits = logits , phrases = phrases )
cv2 . imwrite ( "annotated_image.jpg" , annotated_frame )

Web UI

我們還提供了一個演示代碼，將接地Dino與Gradio Web UI集成。有關更多詳細信息，請參見文件demo/gradio_app.py 。

筆記本

我們發布演示，將接地恐龍與Gligen結合起來，以進行更可控制的圖像編輯。
我們發布演示，將接地恐龍與穩定的擴散相結合以進行圖像編輯。

可可零拍攝的評估

我們提供了一個示例，以評估可可對地面的Dino Zero-Sho-Shot性能。結果應為48.5 。

CUDA_VISIBLE_DEVICES=0 
python demo/test_ap_on_coco.py 
 -c groundingdino/config/GroundingDINO_SwinT_OGC.py 
 -p weights/groundingdino_swint_ogc.pth 
 --anno_path /path/to/annoataions/ie/instances_val2017.json 
 --image_dir /path/to/imagedir/ie/val2017

？檢查點

	姓名	骨幹	數據	可可的盒子AP	檢查點	config
1	接地tino-t	SWIN-T	O365，Goldg，CAP4M	48.4（零射） / 57.2（微調）	github鏈接\| HF鏈接	關聯
2	接地迪諾-B	SWIN-B	可可，O365，GoldG，CAP4M，OpenImage，Odinw-35，Refcoco	56.7	github鏈接\| HF鏈接	關聯

？結果

可可對象檢測結果

ODINW對象檢測結果

將恐龍與穩定的擴散嫁給圖像編輯

有關更多詳細信息，請參見我們的示例筆記本。 gd_sd

將恐龍與Gligen結合起來，以進行更詳細的圖像編輯。

有關更多詳細信息，請參見我們的示例筆記本。 gd_gligen

？型號：接地恐龍

包括：文本骨幹，圖像骨幹，功能增強器，語言引導的查詢選擇和交叉模式解碼器。

♥謝致謝

我們的模型與Dino和Glip有關。感謝他們的出色工作！

我們還要感謝以前的出色工作，包括Detr，可變形的DETR，SMCA，有條件的DETR，錨點DETR，Dynamic Detr，Dab-Dert，DAB-DETR，DN-DET。也可以使用新的工具箱detrex。

感謝Stable擴散和Gligen的出色模型。

✒️引用

如果您發現我們的工作對您的研究有幫助，請考慮引用以下Bibtex條目。

 @article { liu2023grounding ,
  title = { Grounding dino: Marrying dino with grounded pre-training for open-set object detection } ,
  author = { Liu, Shilong and Zeng, Zhaoyang and Ren, Tianhe and Li, Feng and Zhang, Hao and Yang, Jie and Li, Chunyuan and Yang, Jianwei and Su, Hang and Zhu, Jun and others } ,
  journal = { arXiv preprint arXiv:2303.05499 } ,
  year = { 2023 }
}

展開

附加信息

版本 Grounding DINO SwinB
類型其他源碼
更新時間 2025-02-04
大小 10.65MB
來自於 Github

相關應用

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
waymo open dataset

其他源碼

December 2023 Update
SmartTube

其他源碼

24.71 Stable
Sunamu

其他源碼

Release 2.2.0
waymo open dataset

其他源碼

December 2023 Update
wp functions

其他類別

1.0.0
termwind

其他類別

v2.3.0

相關資訊全部