awesome colab notebooks
1.0.0
Es posible que la página no se muestre correctamente. Abra el archivo README.md directamente
repositorios | papeles |
---|---|
|
|
nombre | descripción | autores | campo de golf | colaborativo | actualizar |
---|---|---|---|---|---|
CoTracker | Arquitectura que rastrea conjuntamente múltiples puntos a lo largo de un video completo. |
otros |
| 16.10.2024 | |
PIFu | Función implícita alineada con píxeles para la digitalización humana vestida de alta resolución |
| 08.10.2024 | ||
cara difusa | Método que es capaz de hacer frente a degradaciones complejas e invisibles con mayor elegancia sin diseños de pérdidas complicados. |
|
| 05.10.2024 | |
Segmentar cualquier cosa 2 | Modelo básico para resolver la segmentación visual rápida en imágenes y vídeos. |
otros |
| 01.10.2024 | |
Abrir-desmezclar | Una implementación de referencia de red neuronal profunda para la separación de fuentes musicales, aplicable para investigadores, ingenieros de audio y artistas. |
|
| 25.09.2024 | |
Armonización pictórica profunda | El algoritmo produce resultados significativamente mejores que la composición de fotografías o las técnicas de estilización global y permite realizar ediciones pictóricas creativas que de otro modo serían difíciles de lograr. |
|
| 23.09.2024 | |
audio2fotorreal | Marco para generar avatares fotorrealistas con cuerpo que gesticulan de acuerdo con la dinámica conversacional de una interacción diádica. |
otros |
| 13.09.2024 | |
Segmente rápidamente cualquier cosa | CNN Segment Anything Model entrenado utilizando solo el 2% del conjunto de datos SA-1B publicado por los autores de SAM |
otros |
| 10.09.2024 | |
Neuralangelo | Marco para la reconstrucción de superficies 3D de alta fidelidad a partir de capturas de vídeo RGB |
otros |
| 02.09.2024 | |
BiRefNet | Marco de referencia bilateral para la segmentación de imágenes dicotómicas de alta resolución. |
otros |
| 23.08.2024 | |
GIRAR | Aprender a reconstruir la pose y la forma humana en 3D mediante el ajuste de modelos en el bucle |
|
| 21.08.2024 | |
YOLOv10 | Apuntar a avanzar aún más en el límite rendimiento-eficiencia de los YOLO tanto desde la arquitectura de postprocesamiento como de modelo. |
otros |
| 20.08.2024 | |
especificaciónVQGAN | Domar la generación de sonido guiada visualmente reduciendo un conjunto de datos de entrenamiento a un conjunto de vectores representativos |
|
| 12.07.2024 | |
Retrato en vivo | Marco de animación de retratos basado en vídeo centrado en una mejor generalización, controlabilidad y eficiencia para uso práctico. |
otros |
| 10.07.2024 | |
TAPIR | Seguimiento de cualquier punto con inicialización por cuadro y refinamiento temporal |
otros |
| 05.07.2024 | |
Wav2Labio | Un experto en sincronización de labios es todo lo que necesita para la generación de voz a labios en la naturaleza |
|
| 27.06.2024 | |
Corte Profundo | Método eficiente para la estimación de pose sin marcadores basado en el aprendizaje por transferencia con redes neuronales profundas que logra excelentes resultados con mínimos datos de entrenamiento. |
otros |
| 05.06.2024 | |
piscinaEx | MetaFormer es realmente lo que necesita para tener visión |
otros |
| 01.06.2024 | |
HistoriaDifusión | Una forma de cálculo de la autoatención, denominada autoatención consistente, que aumenta significativamente la coherencia entre las imágenes generadas y aumenta los modelos de texto a imagen preentrenados prevalentes basados en difusión de una manera de disparo cero. |
|
| 04.05.2024 | |
PULID | Personalización de ID pura y Lightning, un método de personalización de ID sin ajustes para la generación de texto a imagen |
|
| 03.05.2024 | |
PELÍCULA | Un algoritmo de interpolación de fotogramas que sintetiza múltiples fotogramas intermedios a partir de dos imágenes de entrada con un gran movimiento intermedio. |
otros |
| 03.05.2024 | |
VozCraft | Modelo de lenguaje de códec neuronal con relleno de tokens, que logra un rendimiento de vanguardia tanto en la edición de voz como en la conversión de texto a voz en audiolibros, vídeos de Internet y podcasts. |
|
| 21.04.2024 | |
Ánimo | Método para la transferencia de material de disparo cero a un objeto en la imagen de entrada dada una imagen ejemplar de material |
|
| 16.04.2024 | |
malla instantánea | Marco de avance para la generación instantánea de mallas 3D a partir de una sola imagen, con calidad de generación de última generación y una escalabilidad de entrenamiento significativa. |
otros |
| 16.04.2024 | |
AlfaFold | Predicción de la estructura de proteínas de alta precisión |
otros |
| 15.04.2024 | |
Würstchen | Arquitectura para síntesis de texto a imagen que combina un rendimiento competitivo con una rentabilidad sin precedentes para modelos de difusión de texto a imagen a gran escala. |
| 04.06.2024 | ||
AQLM | Compresión extrema de modelos de lenguaje grandes mediante cuantificación aditiva |
otros |
| 08.03.2024 | |
YOLOv9 | Aprenda lo que quiere aprender utilizando información de gradiente programable |
|
| 05.03.2024 | |
Composición multi-LoRA | LoRA Switch y LoRA Composite, enfoques que pretenden superar las técnicas tradicionales en términos de precisión y calidad de imagen, especialmente en composiciones complejas |
otros |
| 03.03.2024 | |
AMARETTO | Inferencia multiescala y multimodal de redes regulatorias para identificar circuitos celulares y sus impulsores compartidos y distintos dentro y entre sistemas biológicos de enfermedades humanas. |
otros |
| 28.02.2024 | |
LIDA | Herramienta para generar visualizaciones e infografías independientes de la gramática | Víctor Dibia |
| 06.02.2024 | |
ViT | Arquitecturas Vision Transformer y MLP-Mixer |
otros |
| 06.02.2024 | |
Ken quema 3D | Una implementación de referencia del efecto 3D Ken Burns a partir de una sola imagen usando PyTorch: dada una única imagen de entrada, anima esta imagen fija con un escaneo de cámara virtual y un zoom sujeto al paralaje de movimiento. | manuel romero | 24.01.2024 | ||
VALLE-E X | Modelo de lenguaje de códec neuronal multilingüe para síntesis de voz multilingüe |
otros |
| 19.01.2024 | |
creador de fotos | Método eficiente y personalizado de generación de texto a imagen, que codifica principalmente un número arbitrario de imágenes de identificación de entrada en una pila de identificación de identificación para preservar la información de identificación. |
otros |
| 18.01.2024 | |
DDColor | Método de extremo a extremo con decodificadores duales para colorear imágenes |
otros |
| 15.01.2024 | |
PASADO | Red de difusión estable con reconocimiento de píxeles para lograr un Real-ISR sólido y una estilización personalizada |
|
| 12.01.2024 | |
Refinador manual | Refinamiento de manos malformadas en imágenes generadas mediante pintura interna condicional basada en difusión |
|
| 08.01.2024 | |
GraphCast | Aprender pronósticos meteorológicos globales hábiles a medio plazo |
otros |
| 04.01.2024 | |
MEDE | Modelado a escala evolutiva: modelos de lenguaje previamente entrenados para proteínas |
otros |
| 28.12.2023 | |
LLaVA | Large Language and Vision Assistant, un gran modelo multimodal entrenado de extremo a extremo que conecta un codificador de visión y un LLM para la comprensión visual y del lenguaje de uso general |
|
| 22.12.2023 | |
Estera de fondo V2 | Técnica de reemplazo de fondo de alta resolución en tiempo real que funciona a 30 fps en resolución 4K y 60 fps en HD en una GPU moderna. |
otros |
| 22.12.2023 | |
Salpicadura gaussiana | Calidad visual de última generación manteniendo tiempos de entrenamiento competitivos y, lo que es más importante, permite una síntesis de vistas novedosas de alta calidad en tiempo real (≥ 100 fps) con una resolución de 1080p. |
|
| 19.12.2023 | |
SMPLer-X | Ampliar EHPS hacia el primer modelo básico generalista, con hasta ViT-Huge como columna vertebral y capacitación con hasta 4,5 millones de instancias de diversas fuentes de datos. |
otros |
| 18.12.2023 | |
caché profundo | Paradigma sin entrenamiento que acelera los modelos de difusión desde la perspectiva de la arquitectura de modelos. |
|
| 18.12.2023 | |
MagiaAnimar | Marco basado en difusión que tiene como objetivo mejorar la coherencia temporal, preservar fielmente la imagen de referencia y mejorar la fidelidad de la animación. |
otros |
| 18.12.2023 | |
DiffBIR | Hacia la restauración de imágenes a ciegas con difusión generativa previa |
otros |
| 18.12.2023 | |
AudioLDM | Sistema de texto a audio que se basa en un espacio latente para aprender las representaciones de audio continuas a partir de latentes de preentrenamiento de audio y lenguaje contrastivo. |
otros |
| 02.12.2023 | |
PestañaPFN | Red neuronal que aprendió a hacer predicciones de datos tabulares |
|
| 29.11.2023 | |
Controles deslizantes conceptuales | Adaptadores plug-and-play de bajo rango aplicados sobre modelos previamente entrenados |
|
| 26.11.2023 | |
Qwen-VL | Conjunto de modelos visión-lenguaje a gran escala diseñados para percibir y comprender tanto texto como imágenes. |
otros |
| 24.11.2023 | |
AnimeGANv3 | Red adversarial generativa de doble cola para una rápida animación fotográfica |
|
| 23.11.2023 | |
Ítaca | Primera Red Neural Profunda para la restauración textual, atribución geográfica y cronológica de inscripciones griegas antiguas |
otros |
| 21.11.2023 | |
PixArt-Σ | Entrenamiento de débil a fuerte del transformador de difusión para la generación de texto a imagen 4K |
otros |
| 07.11.2023 | |
Cero123++ | Modelo de difusión condicionada por imágenes para generar imágenes multivista consistentes en 3D desde una única vista de entrada |
otros |
| 26.10.2023 | |
UniFormerV2 | Transformador unificado para un aprendizaje eficiente de la representación espaciotemporal |
otros |
| 20.10.2023 | |
Mostrar-1 | Modelo híbrido, denominado Show-1, que combina VDM basados en píxeles y basados en latentes para la generación de texto a vídeo. |
otros |
| 15.10.2023 | |
Audioseptiembre | Modelo básico para la separación de fuentes de audio de dominio abierto con consultas en lenguaje natural |
otros |
| 12.10.2023 | |
DA-CLIP | Modelo de visión-lenguaje consciente de la degradación para transferir mejor modelos de visión-lenguaje previamente entrenados a tareas de visión de bajo nivel como marco universal para la restauración de imágenes |
|
| 11.10.2023 | |
tristehablador | Genera coeficientes de movimiento 3D del 3DMM a partir de audio y modula implícitamente un novedoso renderizado de rostros con reconocimiento 3D para la generación de cabezas parlantes. |
otros |
| 10.10.2023 | |
música | Sistema de generación de música que se puede entrenar con cientos de horas de música utilizando una única GPU de consumo, y que permite una generación mucho más rápida que en tiempo real de música de duración arbitraria en una CPU de consumo. |
|
| 09.10.2023 | |
YOLOv6 | Marco de detección de objetos de una sola etapa dedicado a aplicaciones industriales |
|
| 08.10.2023 | |
SueñoGaussiano | Algoritmo para convertir gaussianos 3D en mallas texturizadas y aplicar una etapa de ajuste para refinar los detalles |
|
| 04.10.2023 | |
ICONO | Dado un conjunto de imágenes, el método estima una superficie 3D detallada de cada imagen y luego las combina en un avatar animable. |
|
| 31.08.2023 | |
DINOV2 | Produzca características visuales de alto rendimiento que puedan emplearse directamente con clasificadores tan simples como capas lineales en una variedad de tareas de visión por computadora; Estas características visuales son sólidas y funcionan bien en todos los dominios sin ningún requisito de ajuste. |
otros |
| 31.08.2023 | |
BÚHO-ViT | Detección simple de objetos de vocabulario abierto con transformadores de visión |
otros | 21.08.2023 | ||
EstiloGAN3 | Redes adversarias generativas sin alias |
otros |
| 13.08.2023 | |
destinocero | Método de edición de texto de toma cero en videos del mundo real sin capacitación por indicación ni máscara de uso específico |
otros |
| 13.08.2023 | |
Gran GAN | Entrenamiento GAN a gran escala para síntesis de imágenes naturales de alta fidelidad |
| 03.08.2023 | ||
Lama | Pintura de máscara grande de resolución robusta con convoluciones de Fourier |
otros |
| 02.08.2023 | |
Hazlo hablar | Un método que genera vídeos expresivos de cabezas parlantes a partir de una única imagen facial con audio como única entrada. |
otros |
| 27.07.2023 | |
HiDT | Un modelo generativo de imagen a imagen y un nuevo esquema de muestreo que permite aplicar la traducción de imágenes en alta resolución. |
|
| 24.07.2023 | |
Cuchillero | Enfoque simple para entrenar modelos de segmentación y detección de objetos no supervisados |
|
| 24.07.2023 | |
Reconocer cualquier cosa y Tag2Text | Marco de preentrenamiento del lenguaje visual, que introduce el etiquetado de imágenes en modelos de lenguaje visual para guiar el aprendizaje de características visual-lingüísticas. |
otros |
| 09.07.2023 | |
Modelo de movimiento spline de placa delgada | Marco de transferencia de movimiento no supervisado de un extremo a otro |
|
| 07.07.2023 | |
ArrastrarGAN | Arrastre su GAN: manipulación interactiva basada en puntos en el colector de imágenes generativas |
otros |
| 03.07.2023 | |
MóvilSAM | Hacia SAM ligero para aplicaciones móviles |
otros |
| 30.06.2023 | |
Puesta a tierra DINO | Casarse con DINO con entrenamiento previo conectado a tierra para la detección de objetos en conjunto abierto |
otros |
| 28.06.2023 | |
T5X | Marco modular, componible y apto para la investigación para capacitación, evaluación e inferencia de autoservicio, configurable y de alto rendimiento de modelos de secuencia en muchas escalas. |
otros |
| 27.06.2023 | |
Códigohablante | Transmita una animación facial basada en la voz como una tarea de consulta de código en un espacio proxy finito del libro de códigos aprendido, lo que promueve efectivamente la viveza de los movimientos generados al reducir la incertidumbre del mapeo intermodal. |
otros |
| 16.06.2023 | |
Modelo de movimiento de primer orden para animación de imágenes | Transferir movimientos faciales de vídeo a imagen. | Aliaksandr Siarohin |
| 04.06.2023 | |
Onda paralelaGAN | Modelos no autorregresivos de última generación para construir tu propio gran vocoder | Tomoki Hayashi |
| 01.06.2023 | |
economía | diseñado para "Digitalización humana a partir de una imagen en color", que combina las mejores propiedades de las representaciones implícitas y explícitas, para inferir humanos vestidos en 3D de alta fidelidad a partir de imágenes en la naturaleza, incluso con ropa holgada o en poses desafiantes. |
|
| 31.05.2023 | |
MMS | El proyecto Massively Multilingual Speech amplía la tecnología del habla de aproximadamente 100 idiomas a más de 1000 mediante la creación de un único modelo de reconocimiento de voz multilingüe que admite más de 1100 idiomas, modelos de identificación de idiomas capaces de identificar más de 4000 idiomas, modelos previamente entrenados que admiten más de 1400 idiomas y conversión de texto a modelos de habla para más de 1100 idiomas |
otros |
| 26.05.2023 | |
fabuloso | Flow AIS Bootstrap utiliza AIS para generar muestras en regiones donde el flujo es una mala aproximación del objetivo, facilitando el descubrimiento de nuevos modos. |
|
| 29.04.2023 | |
Código anterior | Red de predicción basada en transformadores para modelar la composición global y el contexto de las caras de baja calidad para la predicción de código, lo que permite el descubrimiento de caras naturales que se aproximan mucho a las caras objetivo incluso cuando las entradas están gravemente degradadas. |
|
| 21.04.2023 | |
Text2Video-Cero | Los modelos de difusión de texto a imagen son generadores de vídeo de disparo cero |
otros |
| 11.04.2023 | |
Segmentar cualquier cosa | El modelo Segment Anything produce máscaras de objetos de alta calidad a partir de mensajes de entrada, como puntos o cuadros, y se puede utilizar para generar máscaras para todos los objetos de una imagen. |
otros |
| 10.04.2023 | |
Sigue tu pose | Esquema de entrenamiento de dos etapas que puede utilizar pares de poses de imágenes y conjuntos de datos de video sin pose y el modelo de texto a imagen previamente entrenado para obtener videos de personajes con pose controlable. |
otros |
| 07.04.2023 | |
EVA3D | Modelo generativo humano 3D incondicional de alta calidad que solo requiere colecciones de imágenes 2D para entrenamiento |
|
| 04.06.2023 | |
Fusión de sueños estable | Uso de un modelo de difusión de texto a imagen 2D previamente entrenado para realizar síntesis de texto a 3D |
|
| 04.04.2023 | |
PIFUHD | Función implícita de alineación de píxeles de varios niveles para la digitalización humana en 3D de alta resolución |
|
| 26.03.2023 | |
VideoRehablando | Sistema para editar las caras de un video de cabeza parlante del mundo real de acuerdo con el audio de entrada, produciendo un video de salida de alta calidad y sincronización de labios incluso con una emoción diferente. |
otros |
| 19.03.2023 | |
Chat visualGPT | Conecta ChatGPT y una serie de modelos de Visual Foundation para permitir enviar y recibir imágenes durante el chat. |
otros |
| 15.03.2023 | |
Sintonizar un video | Ajuste de una sola vez de modelos de difusión de imágenes para la generación de texto a vídeo |
otros |
| 23.02.2023 | |
GPEN | Red integrada anterior de GAN para la restauración de rostros ciegos en la naturaleza |
|
| 15.02.2023 | |
PyMAF-X | Enfoque basado en regresión para recuperar modelos paramétricos de cuerpo completo a partir de imágenes monoculares |
otros |
| 14.02.2023 | |
Difusión Discoteca | Una amalgama frankensteiniana de cuadernos, modelos y técnicas para la generación de Arte y Animaciones con IA. |
|
| 11.02.2023 | |
GrooVAE | Algunas aplicaciones del aprendizaje automático para generar y manipular ritmos e interpretaciones de batería. |
|
| 02.02.2023 | |
Música multipistaVAE | Los modelos de este portátil son capaces de codificar y decodificar compases individuales de hasta 8 pistas, opcionalmente condicionados a un acorde subyacente. |
otros |
| 02.02.2023 | |
MúsicaVAE | Un modelo jerárquico de vectores latentes para aprender la estructura a largo plazo en la música |
|
| 02.02.2023 | |
aprendiendo a pintar | Aprender a pintar con aprendizaje por refuerzo profundo basado en modelos | manuel romero | 01.02.2023 | ||
NGP instantáneo | Primitivas de gráficos neuronales instantáneos con codificación hash multiresolución |
|
| 18.01.2023 | |
Redes de funciones de Fourier | Las funciones de Fourier permiten a las redes aprender funciones de alta frecuencia en dominios de baja dimensión |
otros |
| 17.01.2023 | |
alfapose | Estimación y seguimiento de posturas regionales de varias personas para todo el cuerpo en tiempo real |
otros |
| 07.01.2023 | |
híbrido | Solución híbrida de cinemática inversa analítico-neural para la estimación de la forma y la postura humana en 3D |
otros |
| 01.01.2023 | |
Puntuación Encadenamiento jacobiano | Aplique la regla de la cadena en los gradientes aprendidos y propague hacia atrás la puntuación de un modelo de difusión a través del jacobiano de un renderizador diferenciable, que instanciamos como un campo de radiancia de vóxel. |
|
| 05.12.2022 | |
Demucs | Espectrograma híbrido y separación de fuentes de formas de onda | Alexandre Défossez |
| 21.11.2022 | |
EstiloCLIP | Manipulación basada en texto de StyleGAN Imager |
|
| 30.10.2022 | |
Movimiento Difuso | El primer marco de generación de movimiento basado en texto basado en un modelo de difusión, que demuestra varias propiedades deseadas sobre los métodos existentes. |
otros |
| 13.10.2022 | |
VToonificar | Aprovecha las capas de resolución media y alta de StyleGAN para representar retratos artísticos de alta calidad basados en las características de contenido multiescala extraídas por un codificador para preservar mejor los detalles del marco. |
|
| 07.10.2022 | |
PyMAF | Alineación de malla piramidal Bucle de retroalimentación en la red de regresión para una recuperación de la malla corporal bien alineada y extenderlo para la recuperación de modelos expresivos de cuerpo completo |
otros |
| 06.10.2022 | |
AlfaTensor | Descubriendo algoritmos de multiplicación de matrices más rápidos con aprendizaje por refuerzo |
otros |
| 04.10.2022 | |
Swin2SR | Novel Swin Transformer V2, para mejorar SwinIR para superresolución de imágenes y, en particular, el escenario de entrada comprimida |
|
| 03.10.2022 | |
Functa | De los datos a la función: su punto de datos es una función y puede tratarlo como tal |
|
| 24.09.2022 | |
Susurro | Sistema de reconocimiento automático de voz entrenado en 680.000 horas de datos supervisados multilingües y multitarea recopilados de la web |
otros |
| 21.09.2022 | |
DeOldify (vídeo) | ¡Colorea tus propios vídeos! | Jason Antic |
| 19.09.2022 | |
DeOldify (foto) | ¡Colorea tus propias fotos! |
|
| 19.09.2022 | |
Real-ESRGAN | Amplíe el potente ESRGAN a una aplicación de restauración práctica, entrenada con datos sintéticos puros. |
|
| 18.09.2022 | |
IDE-3D | Edición interactiva desenredada para síntesis de retratos 3D de alta resolución |
otros |
| 08.09.2022 | |
Transformadores de decisión | Una arquitectura que plantea el problema de RL como modelo de secuencia condicional.
Expandir
Información adicional
Aplicaciones relacionadas
Recomendado para ti
Información relacionada
Todo
|