Descarga de ndvr - Descarga del código fuente ndvr

ndvr

Otro código fuente

1.0.0

Descargar

Recuperación de vídeos casi duplicados

¿Segundo puesto en el Hackathon de búsqueda neuronal?

Hemos sido testigos de un crecimiento explosivo de datos de video en una variedad de sitios web para compartir videos con miles de millones de videos disponibles en Internet; realizar la recuperación de videos casi duplicados (NDVR) a partir de una base de datos de videos a gran escala se convierte en un desafío importante. NDVR tiene como objetivo recuperar videos casi duplicados de una base de datos de videos masiva, donde los videos casi duplicados se definen como videos visualmente cercanos a los videos originales.

Los usuarios tienen un fuerte incentivo para copiar un video corto de tendencia y cargar una versión aumentada para llamar la atención. Con el crecimiento de los vídeos cortos, aparecen nuevas dificultades y desafíos para detectar vídeos cortos casi duplicados.

Aquí, hemos creado una solución de búsqueda neuronal utilizando Jina para resolver el desafío de NDVR.

Tabla de contenido

Recuperación de vídeos casi duplicados
- ¿Cómo se ve?
- Desafíos
- Datos
- Requisitos previos
  - Descargar los datos
- Ejecutar flujo de índice
- Ejecutar flujo de consulta
- Mejoras adicionales
- Créditos

¿Cómo se ve?

Ejemplo

_{Ejemplo de vídeos de candidatos positivos. Fila superior: tapizado lateral, filtrado de color y lavado con agua. Fila central: pantalla horizontal cambiada a pantalla vertical con grandes márgenes negros. Fila inferior: girada}

Desafíos

Desafío

_{Ejemplo de vídeos negativos duros. Todos los candidatos son visualmente similares a la consulta, pero no están casi duplicados.}

Datos

Hay tres estrategias para seleccionar videos candidatos:

Recuperación iterativa
Recuperación transformada
Minería basada en características

Decidimos optar por la estrategia de recuperación transformada debido a la limitación de tiempo y recursos. En aplicaciones reales, los usuarios copiarían videos de tendencia como incentivos personales. Los usuarios suelen optar por modificar ligeramente sus vídeos copiados para evitar la detección. Estas modificaciones incluyen recorte de vídeo, inserción de bordes, etc.

Para imitar dicho comportamiento del usuario, definimos una transformación temporal, es decir, aceleración del video, y tres transformaciones espaciales, es decir, recorte de video, inserción de borde negro y rotación de video.

Desafortunadamente, los conjuntos de datos de NDVR investigados eran de baja resolución o enormes, específicos de un dominio o no estaban disponibles públicamente (también contactamos a algunos personalmente). Por lo tanto, decidimos crear nuestro pequeño conjunto de datos personalizado para experimentar.

Conjunto de datos

Requisitos previos

pip install --upgrade -r requirements.txt

Descargar los datos

bash ./get_data.sh

Ejecutar flujo de índice

python app.py -t index

El índice Flujo se define de la siguiente manera:

 !Flow
with :
  logserver : false
pods :
  chunk_seg :
    uses : craft/craft.yml
    parallel : $PARALLEL
    read_only : true
    timeout_ready : 600000
  tf_encode :
    uses : encode/encode.yml
    needs : chunk_seg
    parallel : $PARALLEL
    read_only : true
    timeout_ready : 600000
  chunk_idx :
    uses : index/chunk.yml
    shards : $SHARDS
    separated_workspace : true
  doc_idx :
    uses : index/doc.yml
    needs : gateway
  join_all :
    uses : _merge
    needs : [doc_idx, chunk_idx]
    read_only : true

Esto se divide en los siguientes pasos:

Segmente cada vídeo en fotogramas clave (fragmentos);
1. Los fotogramas clave se definen como los fotogramas representativos de una transmisión de vídeo, los fotogramas que proporcionan el resumen más preciso y compacto del contenido del vídeo.
2. Sería una forma eficaz de codificar vídeos, ya que muchos fotogramas son redundantes.
3. Hicimos un análisis de tiempo sobre la extracción de fotogramas clave. Se necesitan alrededor de 17 segundos para extraer 15 fotogramas clave de un vídeo de 5 minutos (17 Mb).
Codifique cada fotograma clave (fragmento) como un vector de longitud fija;
Almacene todas las representaciones vectoriales en una base de datos vectorial con fragmentos .

Aquí usamos un archivo YAML para definir un flujo y usarlo para indexar los datos. La función index toma un parámetro input_fn que requiere un iterador para pasar rutas de archivos, que se incluirán en una IndexRequest y se enviarán al flujo.

 DATA_BLOB = "./index-videos/*.mp4"
if task == "index" :
    f = Flow (). load_config ( "flow-index.yml" )
    with f :
        f . index ( input_fn = input_index_data ( DATA_BLOB , size = num_docs ), batch_size = 2 )

 def input_index_data ( patterns , size ):
    def iter_file_exts ( ps ):
        return it . chain . from_iterable ( glob . iglob ( p , recursive = True ) for p in ps )

    d = 0
    if isinstance ( patterns , str ):
        patterns = [ patterns ]
    for g in iter_file_exts ( patterns ):
        yield g . encode ()
        d += 1
        if size is not None and d > size :
            break

Ejecutar flujo de consulta

python app.py -t query

Luego puede abrir Jinabox con el punto final personalizado http://localhost:45678/api/search

El flujo de consulta se define de la siguiente manera:

 !Flow
with :
  logserver : true
  read_only : true  # better add this in the query time
pods :
  chunk_seg :
    uses : craft/index-craft.yml
    parallel : $PARALLEL
  tf_encode :
    uses : encode/encode.yml
    parallel : $PARALLEL
  chunk_idx :
    uses : index/chunk.yml
    shards : $SHARDS
    separated_workspace : true
    polling : all
    uses_reducing : _merge_all
    timeout_ready : 100000 # larger timeout as in query time will read all the data
  ranker :
    uses : BiMatchRanker
  doc_idx :
    uses : index/doc.yml

El flujo de consulta se divide en los siguientes pasos:

Realice los pasos 1 y 2 en el flujo de índice para cada consulta entrante;
Recuperar fragmentos relevantes de la base de datos;
Agregue la puntuación a nivel de fragmento al nivel de documento;
Devuelve los mejores resultados a los usuarios.

Mejoras adicionales

Recopile más datos con múltiples estrategias de minería para extraer muestras positivas/negativas de videos cortos masivos.
Entrene el modelo con los datos y evalúelo.
Clasificadores personalizados

Créditos

Jina - Marco de búsqueda neuronal
Katna - Extracción de fotogramas clave
Sistema de recuperación de vídeos casi duplicados a escala de un millón
SVD: un conjunto de datos de vídeos cortos a gran escala para la recuperación de vídeos casi duplicados

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2024-12-26
tamaño 257.94KB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo