Descarga GroundingDINO - Descargar el código fuente GroundingDINO

GroundingDINO

Otro código fuente

Grounding DINO SwinB

Descargar

? Dino de tierra

Idea-CVR, investigación de idea

Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang ^? .

[ Paper ] [ Demo ] [ BibTex ]

Implementación de Pytorch y modelos previos a la creación de Dino. Para obtener más detalles, consulte el papel de la base Dino: casarse con dinosauría con pre-entrenamiento conectado a tierra para la detección de objetos abiertos .

ARMEDED SAM 2 se lanza ahora, que combina a tierra Dino con SAM 2 para cualquier seguimiento de objetos en escenarios del mundo abierto.
¡RELDERING DINO 1.5 se lanza ahora, que es el modelo de detección de objetos de mundo abierto más capaz de Idea Research!
Dino y Sam fundamentados ahora son apoyados en Huggingface. Para un uso más conveniente, puede consultar esta documentación

? Tutorial útil

? [Lea nuestro documento ARXIV]
? [Mira nuestro simple video de introducción en YouTube]
? [Prueba la demostración de Colab]
? [Prueba nuestra demostración oficial de Huggingface]
? [Mira el tutorial paso a paso sobre Roundingdino por RoboFlow AI]
? [Groundingdino: anotación y evaluación automatizada del conjunto de datos por RoboFlow AI]
? [Acelerar la anotación de imágenes con Sam y Roundingdino por RoboFlow AI]
? [Autodistill: Train Yolov8 con anotaciones cero basadas en la conexión a tierra y el sam a tierra por RoboFlow AI]

Destacar proyectos

Semantic-Sam: un modelo de segmentación de imágenes universal para habilitar el segmento y reconocer cualquier cosa en cualquier granularidad deseada.
DETGPT: Detectar lo que necesita a través del razonamiento
Sam.
Dino a tierra con difusión estable
Grounding Dino con Gligen para edición de imágenes controlables
OpenSeed: un modelo de segmentación OpenSet simple y fuerte
Aparecer: segmente todo en todas partes a la vez
X-GPT: agente visual conversacional compatible con X-Decoder
Gligen: generación de texto a imagen de diseño abierto
Llava: Asistente de lenguaje y visión grande

Destacar

Detección abierta. ¡Detectar todo con el lenguaje!
Rendimiento alto. Coco Zero-Shot 52.5 AP (¡entrenamiento sin datos de coco!). Coco Fine-Tune 63.0 AP .
Flexible. Colaboración con difusión estable para la edición de imágenes.

Noticias

2023/07/18 : Lanzamos Semantic-Sam, un modelo de segmentación de imágenes universal para habilitar el segmento y reconocer cualquier cosa en cualquier granularidad deseada. ¡El código y el punto de control están disponibles!
2023/06/17 : Proporcionamos un ejemplo para evaluar a la base de Dino en el rendimiento de Coco Zero-Shot.
2023/04/15 : ¡Consulte CV en las lecturas salvajes para aquellos que estén interesados en el reconocimiento de set abierto!
2023/04/08 : Lanzamos demostraciones para combinar Dino de conexión a tierra con Gligen para ediciones de imágenes más controlables.
2023/04/08 : Lanzamos demostraciones para combinar Dino de conexión a tierra con difusión estable para ediciones de imágenes.
2023/04/06 : Construimos una nueva demostración casando a Groundingdino con el segmento llamado Segment-Segment-Anything tiene como objetivo apoyar la segmentación en Groundingdino.
2023/03/28 : un video de YouTube sobre la tierra de la ingeniería de la indemnización de detección de objetos básico. [Skalskip]
2023/03/28 : ¡Agregue una demostración en el espacio para abrazar!
2023/03/27 : Soporte del modo de solo CPU. Ahora el modelo puede ejecutarse en máquinas sin GPU.
2023/03/25 : una demostración para la base de Dino está disponible en Colab. [Skalskip]
2023/03/22 : ¡El código ya está disponible!

Descripción

Introducción en papel. Odinw

Casando a tierra a tierra dino y gligen

Explicaciones/consejos para entradas y salidas de dino

La conexión a tierra Dino acepta un par (image, text) como entradas.
Emite 900 cuadros de objeto (por defecto). Cada cuadro tiene puntajes de similitud en todas las palabras de entrada. (Como se muestra en las figuras a continuación).
Afligido eligiendo los cuadros cuyas similitudes más altas son más altas que un box_threshold .
Extraemos las palabras cuyas similitudes son más altas que el text_threshold como las etiquetas predichas.
Si desea obtener objetos de frases específicas, como los dogs en la oración two dogs with a stick. , puede seleccionar los cuadros con más altas similitudes de texto con dogs como salidas finales.
Tenga en cuenta que cada palabra se puede dividir en más de una tokens con diferentes tokenlizers. El número de palabras en una oración puede no igual al número de tokens de texto.
Sugerimos separar diferentes nombres de categorías con . Para Dino de tierra.

? ️ TODO

Libere el código de inferencia y la demostración.
Liberar los puntos de control.
Dino de tierra con difusión estable y demostraciones de gligen.
Liberar códigos de entrenamiento.

Instalar

Nota:

Si tiene un entorno CUDA, asegúrese de establecer la variable de entorno CUDA_HOME . Se compilará en el modo de solo CPU si no está disponible CUDA.

Asegúrese de seguir los pasos de instalación estrictamente; de lo contrario, el programa puede producir:

NameError: name ' _C ' is not defined

Si esto sucedió, reinstalé el REDERNINGDINO reclone el GIT y vuelva a hacer todos los pasos de instalación.

Cómo verificar CUDA:

 echo $CUDA_HOME

Si no imprime nada, entonces significa que no ha configurado la ruta/

Ejecute esto para que la variable de entorno se establezca en el shell actual.

 export CUDA_HOME=/path/to/cuda-11.3

Observe que la versión de CUDA debe estar alineada con su tiempo de ejecución CUDA, ya que puede existir múltiples CUDA al mismo tiempo.

Si desea establecer el CUDA_HOME de forma permanente, guárdelo usando:

 echo ' export CUDA_HOME=/path/to/cuda ' >> ~ /.bashrc

Después de eso, obtenga el archivo BASHRC y verifique CUDA_HOME:

 source ~ /.bashrc
echo $CUDA_HOME

En este ejemplo, /path/to/cuda-11.3 debe reemplazarse con la ruta donde está instalado su kit de herramientas CUDA. Puede encontrar esto escribiendo qué NVCC en su terminal:

Por ejemplo, si la salida es/usr/local/cuda/bin/nvcc, entonces:

 export CUDA_HOME=/usr/local/cuda

Instalación:

1. Clone el repositorio de Grounddino de GitHub.

git clone https://github.com/IDEA-Research/GroundingDINO.git

Cambie el directorio actual a la carpeta REEDINGDINO.

 cd GroundingDINO/

Instale las dependencias requeridas en el directorio actual.

pip install -e .

Descargar pesos de modelo previamente capacitados.

mkdir weights
cd weights
wget -q https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth
cd ..

▶ ️ Manifestación

Verifique su ID de GPU (solo si está usando una GPU)

nvidia-smi

Reemplazar {GPU ID} , image_you_want_to_detect.jpg , y "dir you want to save the output" con los valores apropiados en el siguiente comando

CUDA_VISIBLE_DEVICES={GPU ID} python demo/inference_on_a_image.py 
-c groundingdino/config/GroundingDINO_SwinT_OGC.py 
-p weights/groundingdino_swint_ogc.pth 
-i image_you_want_to_detect.jpg 
-o " dir you want to save the output " 
-t " chair "
 [--cpu-only] # open it for cpu mode

Si desea especificar las frases para detectar, aquí hay una demostración:

CUDA_VISIBLE_DEVICES={GPU ID} python demo/inference_on_a_image.py 
-c groundingdino/config/GroundingDINO_SwinT_OGC.py 
-p ./groundingdino_swint_ogc.pth 
-i .asset/cat_dog.jpeg 
-o logs/1111 
-t " There is a cat and a dog in the image . " 
--token_spans " [[[9, 10], [11, 14]], [[19, 20], [21, 24]]] "
 [--cpu-only] # open it for cpu mode

Los token_spans especifican las posiciones de inicio y final de una frases. Por ejemplo, la primera frase es [[9, 10], [11, 14]] . "There is a cat and a dog in the image ."[9:10] = 'a' , "There is a cat and a dog in the image ."[11:14] = 'cat' . Por lo tanto, se refiere a la frase a cat . Del mismo modo, el [[19, 20], [21, 24]] se refiere a la frase a dog .

Consulte la demo/inference_on_a_image.py para obtener más detalles.

Corriendo con Python:

 from groundingdino . util . inference import load_model , load_image , predict , annotate
import cv2

model = load_model ( "groundingdino/config/GroundingDINO_SwinT_OGC.py" , "weights/groundingdino_swint_ogc.pth" )
IMAGE_PATH = "weights/dog-3.jpeg"
TEXT_PROMPT = "chair . person . dog ."
BOX_TRESHOLD = 0.35
TEXT_TRESHOLD = 0.25

image_source , image = load_image ( IMAGE_PATH )

boxes , logits , phrases = predict (
    model = model ,
    image = image ,
    caption = TEXT_PROMPT ,
    box_threshold = BOX_TRESHOLD ,
    text_threshold = TEXT_TRESHOLD
)

annotated_frame = annotate ( image_source = image_source , boxes = boxes , logits = logits , phrases = phrases )
cv2 . imwrite ( "annotated_image.jpg" , annotated_frame )

Ui web

También proporcionamos un código de demostración para integrar a la base de Dino con la interfaz de usuario web de Gradio. Consulte la demo/gradio_app.py para obtener más detalles.

Cuadernos

Lanzamos demostraciones para combinar a la conexión a tierra con gligen para ediciones de imágenes más controlables.
Lanzamos demostraciones para combinar Dino de conexión a tierra con difusión estable para la edición de imágenes.

Evaluaciones de coco cero-shot

Proporcionamos un ejemplo para evaluar el rendimiento de la conexión a cero de Dino en Coco. Los resultados deben ser 48.5 .

CUDA_VISIBLE_DEVICES=0 
python demo/test_ap_on_coco.py 
 -c groundingdino/config/GroundingDINO_SwinT_OGC.py 
 -p weights/groundingdino_swint_ogc.pth 
 --anno_path /path/to/annoataions/ie/instances_val2017.json 
 --image_dir /path/to/imagedir/ie/val2017

? Puntos de control

	nombre	columna vertebral	Datos	Box AP en Coco	Control	Configuración
1	Groundingdino-T	Tiratriente	O365, Goldg, Cap4m	48.4 (disparo cero) / 57.2 (tune fino)	Enlace de Github \| Enlace HF	enlace
2	Groundingdino-B	Swin-B	Coco, O365, Goldg, Cap4m, OpenImage, OdinW-35, Refcoco	56.7	Enlace de Github \| Enlace HF	enlace

? ️ Resultados

Resultados de la detección de objetos de coco

Resultados de detección de objetos ODINW

Casarse con dino de tierra con difusión estable para la edición de imágenes

Vea nuestro cuaderno de ejemplo para obtener más detalles. GD_SD

Casando a tierra dino con gligen para una edición de imágenes más detallada.

Vea nuestro cuaderno de ejemplo para obtener más detalles. Gd_gligen

? Modelo: Dino de tierra

Incluye: una columna vertebral de texto, una columna vertebral de imagen, un potenciador de características, una selección de consultas guiada por el lenguaje y un decodificador de modalidad cruzada.

arco

♥ ️ Reconocimiento

Nuestro modelo está relacionado con Dino y Glip. ¡Gracias por su gran trabajo!

También agradecemos que los grandes trabajos anteriores incluyen DETR, DETR deformable, SMCA, DETR condicional, Anchor DEPR, Dynamic DETR, DAB-Detr, DN-Detr, etc. El trabajo más relacionado está disponible en un impresionante transformador de detección. También está disponible una nueva caja de herramientas Detrex.

Gracias Difusión estable y gligen por sus increíbles modelos.

✒️ Cita

Si encuentra útil nuestro trabajo para su investigación, considere citar la siguiente entrada de Bibtex.

 @article { liu2023grounding ,
  title = { Grounding dino: Marrying dino with grounded pre-training for open-set object detection } ,
  author = { Liu, Shilong and Zeng, Zhaoyang and Ren, Tianhe and Li, Feng and Zhang, Hao and Yang, Jie and Li, Chunyuan and Yang, Jianwei and Su, Hang and Zhu, Jun and others } ,
  journal = { arXiv preprint arXiv:2303.05499 } ,
  year = { 2023 }
}

Expandir

Información adicional

Versión Grounding DINO SwinB
Tipo Otro código fuente
Fecha de actualización 2025-02-04
tamaño 10.65MB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
wp functions

Otras categorias

1.0.0
termwind

Otras categorias

v2.3.0

Información relacionada Todo