Téléchargement de la GroundingDINO - Téléchargement du code source GroundingDINO

GroundingDINO

Autre code source

Grounding DINO SwinB

Télécharger

? Dino à la mise à la terre

IDEA-CVR, IDEA-RESSEARCH

Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang ^? .

[ Paper ] [ Demo ] [ BibTex ]

Implémentation de Pytorch et modèles pré-entraînés pour la mise à la terre Dino. For details, see the paper Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection .

Grounded SAM 2 is released now, which combines Grounding DINO with SAM 2 for any object tracking in open-world scenarios.
Grounding DINO 1.5 is released now, which is IDEA Research's Most Capable Open-World Object Detection Model!
Grounding DINO and Grounded SAM are now supported in Huggingface. Pour une utilisation plus pratique, vous pouvez vous référer à cette documentation

? Tutoriel utile

? [Lire notre article Arxiv]
? [Regardez notre vidéo d'introduction simple sur YouTube]
? [Essayez la démo Colab]
? [Essayez notre démo officielle des étreintes de câlins]
? [Regardez le tutoriel étape par étape sur GroundingDino par Roboflow AI]
? [GroundingDino: Annotation et évaluation automatisées par Roboflow AI]
? [Accélérer l'annotation de l'image avec SAM et GroundingDino par Roboflow Ai]
? [AutoDistill: Train Yolov8 avec zéro annotations basée sur la mise à la terre et la sam fondée sur Roboflow AI]

Mettre en évidence les projets

Semantic-SAM: un modèle de segmentation d'image universel pour activer le segment et reconnaître quoi que ce soit à toute granularité souhaitée.,
Detgpt: détecter ce dont vous avez besoin par raisonnement
Sam ancré: épouser un dino à la mise à la terre avec un segment n'importe quoi
Dino à la mise à la terre avec une diffusion stable
Dino à la mise à la terre avec Gligen pour l'édition d'images contrôlables
OpenSeed: un modèle de segmentation OpenSet simple et solide
Sembler: segmenter tout partout à la fois
X-GPT: Agent visuel conversationnel pris en charge par X-Deccoder
GLIGEN: Génération de texte à l'image à l'ouverture en scène ouverte
LLAVA: Assistant grand langage et vision

Souligner

Détection ouverte. Detect everything with language!
Hautes performances. COCO zero-shot 52.5 AP (training without COCO data!). COCO fine-tune 63.0 AP .
Flexible. Collaboration avec une diffusion stable pour l'édition d'images.

Nouvelles

2023/07/18 : Nous libérons Semantis-SAM, un modèle de segmentation d'image universel pour activer le segment et reconnaître quoi que ce soit à toute granularité souhaitée. Code and checkpoint are available!
2023/06/17 : We provide an example to evaluate Grounding DINO on COCO zero-shot performance.
2023/04/15 : Refer to CV in the Wild Readings for those who are interested in open-set recognition!
2023/04/08 : We release demos to combine Grounding DINO with GLIGEN for more controllable image editings.
2023/04/08 : We release demos to combine Grounding DINO with Stable Diffusion for image editings.
2023/04/06 : We build a new demo by marrying GroundingDINO with Segment-Anything named Grounded-Segment-Anything aims to support segmentation in GroundingDINO.
2023/03/28 : A YouTube video about Grounding DINO and basic object detection prompt engineering. [Skalskip]
2023/03/28 : Add a demo on Hugging Face Space!
2023/03/27 : Support CPU-only mode. Maintenant, le modèle peut fonctionner sur des machines sans GPU.
2023/03/25 : Une démo pour la mise à la terre Dino est disponible chez Colab. [Skalskip]
2023/03/22 : Code is available Now!

Description

Introduction du papier. Odinw

Épouser la mise à la terre dino et gligen

Explications / conseils pour la mise à la terre des entrées et des sorties Dino

Grounding DINO accepts an (image, text) pair as inputs.
It outputs 900 (by default) object boxes. Chaque boîte a des scores de similitude sur tous les mots d'entrée. (comme le montrent les figures ci-dessous.)
Nous choisissons par défaut les cases dont les similitudes les plus élevées sont supérieures à un box_threshold .
We extract the words whose similarities are higher than the text_threshold as predicted labels.
If you want to obtain objects of specific phrases, like the dogs in the sentence two dogs with a stick. , vous pouvez sélectionner les cases avec des similitudes de texte les plus élevées avec dogs comme sorties finales.
Note that each word can be split to more than one tokens with different tokenlizers. Le nombre de mots dans une phrase ne peut pas être égal au nombre de jetons de texte.
We suggest separating different category names with . Pour la mise à la terre Dino.

? ️ Todo

Libérez le code d'inférence et la démo.
Libérez les points de contrôle.
Dino à la mise à la terre avec une diffusion stable et des démos de gligène.
Libérez les codes de formation.

Installer

Note:

Si vous avez un environnement CUDA, assurez-vous que la variable d'environnement CUDA_HOME est définie. Il sera compilé en mode CPU uniquement si aucun CUDA disponible.

Veuillez vous assurer que la suite des étapes d'installation strictement, sinon le programme peut produire:

NameError: name ' _C ' is not defined

Si cela se produisait, veuillez réinstaller le Groundingdino en rendant le git et refaire toutes les étapes d'installation.

Comment vérifier Cuda:

 echo $CUDA_HOME

S'il n'imprime rien, cela signifie que vous n'avez pas configuré le chemin /

Exécutez-le pour que la variable d'environnement soit définie sous le shell actuel.

 export CUDA_HOME=/path/to/cuda-11.3

Remarquez que la version de CUDA doit être alignée sur votre runtime CUDA, car il pourrait exister plusieurs Cuda en même temps.

Si vous souhaitez définir le CUDA_HOME en permanence, stockez-le en utilisant:

 echo ' export CUDA_HOME=/path/to/cuda ' >> ~ /.bashrc

Après cela, achetez le fichier bashrc et vérifiez CUDA_HOME:

 source ~ /.bashrc
echo $CUDA_HOME

Dans cet exemple, /path/to/cuda-11.3 doit être remplacé par le chemin où votre boîte à outils CUDA est installée. You can find this by typing which nvcc in your terminal:

Par exemple, si la sortie est / usr / local / cuda / bin / nvcc, alors:

 export CUDA_HOME=/usr/local/cuda

Installation:

1.Clone le référentiel de base de GroundingDino de GitHub.

git clone https://github.com/IDEA-Research/GroundingDINO.git

Modifiez le répertoire actuel dans le dossier FormingDino.

 cd GroundingDINO/

Installez les dépendances requises dans le répertoire actuel.

pip install -e .

Téléchargez les poids des modèles pré-formés.

mkdir weights
cd weights
wget -q https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth
cd ..

▶ ️ Démo

Vérifiez votre identifiant GPU (seulement si vous utilisez un GPU)

nvidia-smi

Replace {GPU ID} , image_you_want_to_detect.jpg , and "dir you want to save the output" with appropriate values in the following command

CUDA_VISIBLE_DEVICES={GPU ID} python demo/inference_on_a_image.py 
-c groundingdino/config/GroundingDINO_SwinT_OGC.py 
-p weights/groundingdino_swint_ogc.pth 
-i image_you_want_to_detect.jpg 
-o " dir you want to save the output " 
-t " chair "
 [--cpu-only] # open it for cpu mode

Si vous souhaitez spécifier les phrases à détecter, voici une démo:

CUDA_VISIBLE_DEVICES={GPU ID} python demo/inference_on_a_image.py 
-c groundingdino/config/GroundingDINO_SwinT_OGC.py 
-p ./groundingdino_swint_ogc.pth 
-i .asset/cat_dog.jpeg 
-o logs/1111 
-t " There is a cat and a dog in the image . " 
--token_spans " [[[9, 10], [11, 14]], [[19, 20], [21, 24]]] "
 [--cpu-only] # open it for cpu mode

Le token_spans spécifie les positions de début et de fin d'une phrase. For example, the first phrase is [[9, 10], [11, 14]] . "There is a cat and a dog in the image ."[9:10] = 'a' , "There is a cat and a dog in the image ."[11:14] = 'cat' . Hence it refers to the phrase a cat . Similarly, the [[19, 20], [21, 24]] refers to the phrase a dog .

See the demo/inference_on_a_image.py for more details.

Courir avec Python:

 from groundingdino . util . inference import load_model , load_image , predict , annotate
import cv2

model = load_model ( "groundingdino/config/GroundingDINO_SwinT_OGC.py" , "weights/groundingdino_swint_ogc.pth" )
IMAGE_PATH = "weights/dog-3.jpeg"
TEXT_PROMPT = "chair . person . dog ."
BOX_TRESHOLD = 0.35
TEXT_TRESHOLD = 0.25

image_source , image = load_image ( IMAGE_PATH )

boxes , logits , phrases = predict (
    model = model ,
    image = image ,
    caption = TEXT_PROMPT ,
    box_threshold = BOX_TRESHOLD ,
    text_threshold = TEXT_TRESHOLD
)

annotated_frame = annotate ( image_source = image_source , boxes = boxes , logits = logits , phrases = phrases )
cv2 . imwrite ( "annotated_image.jpg" , annotated_frame )

Ui Web

Nous fournissons également un code de démonstration pour intégrer la mise à la terre Dino avec une interface utilisateur Web Gradio. See the file demo/gradio_app.py for more details.

Cahiers

Nous libérons des démos pour combiner le dino de mise à la terre avec Gligen pour les modifications d'image plus contrôlables.
Nous libérons des démos pour combiner le dino de mise à la terre avec une diffusion stable pour les modifications d'image.

Évaluations de coco zéro

Nous fournissons un exemple pour évaluer les performances de la mise à la terre de Dino Zero sur Coco. The results should be 48.5 .

CUDA_VISIBLE_DEVICES=0 
python demo/test_ap_on_coco.py 
 -c groundingdino/config/GroundingDINO_SwinT_OGC.py 
 -p weights/groundingdino_swint_ogc.pth 
 --anno_path /path/to/annoataions/ie/instances_val2017.json 
 --image_dir /path/to/imagedir/ie/val2017

? Points de contrôle

	nom	colonne vertébrale	Données	Box AP sur Coco	Point de contrôle	Configurer
1	GroundingDino-T	Swin-t	O365, GOLDG, CAP4M	48.4 (zéro-shot) / 57.2 (affineur)	Lien github \| Lien hf	lien
2	GroundingDino-B	Swin-b	Coco, O365, Goldg, Cap4M, OpenImage, Odinw-35, Refcoco	56.7	Lien github \| Lien hf	lien

? ️ Résultats

Résultats de détection d'objets CoCo

Résultats de détection d'objets Odinw

Épouser un dino à la mise à la terre avec une diffusion stable pour l'édition d'images

Voir notre exemple de carnet pour plus de détails. Gd_sd

Épouser dino à la mise à la terre avec Gligen pour l'édition d'images plus détaillée.

Voir notre exemple de carnet pour plus de détails. Gd_gligen

? Modèle: mise à la terre dino

Comprend: une épine dorsale de texte, une épine dorsale d'image, un amplificateur de fonctionnalité, une sélection de requête guidée par le langage et un décodeur croisé.

cambre

♥ ️ Reconnaissance

Notre modèle est lié à Dino et Glip. Merci pour leur excellent travail!

Nous remercions également de grands travaux antérieurs, notamment Detr, Detr déformable, SMCA, DETR conditionnel, Anchor Detr, Dynamic Detr, Dab-Det, DN-Det, etc. Des travaux plus liés sont disponibles dans un transformateur de détection impressionnant. Une nouvelle boîte à outils Detrex est également disponible.

Merci de diffusion stable et de Gligen pour leurs modèles impressionnants.

✒️ Citation

Si vous trouvez notre travail utile pour vos recherches, veuillez envisager de citer l'entrée Bibtex suivante.

 @article { liu2023grounding ,
  title = { Grounding dino: Marrying dino with grounded pre-training for open-set object detection } ,
  author = { Liu, Shilong and Zeng, Zhaoyang and Ren, Tianhe and Li, Feng and Zhang, Hao and Yang, Jie and Li, Chunyuan and Yang, Jianwei and Su, Hang and Zhu, Jun and others } ,
  journal = { arXiv preprint arXiv:2303.05499 } ,
  year = { 2023 }
}

Développer

Informations supplémentaires

Version Grounding DINO SwinB
Type Autre code source
Date de mise à jour 2025-02-04
taille 10.65MB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
wp functions

Autres catégories

1.0.0
termwind

Autres catégories

v2.3.0

Actualités connexes Tout