La IA generativa está experimentando un rápido crecimiento y este repositorio sirve como un centro integral para actualizaciones sobre investigaciones de IA generativa, materiales de entrevistas, cuadernos y más.
Explora los siguientes recursos:
Actualizaremos este repositorio periódicamente, ¡así que esté atento a las últimas incorporaciones!
¡Feliz aprendizaje!
*Actualizado al final de cada mes.
Fecha | Título | Abstracto | Temas |
---|---|---|---|
31 de mayo de 2024 | Los LLM logran un desempeño humano adulto en tareas de teoría de la mente de orden superior | Este artículo examina hasta qué punto los grandes modelos lingüísticos (LLM) han desarrollado la teoría de la mente (ToM) de orden superior; la capacidad humana de razonar sobre múltiples estados mentales y emocionales de manera recursiva (por ejemplo, creo que crees que ella sabe). Este artículo se basa en trabajos anteriores al presentar un conjunto de pruebas escritas a mano (Preguntas y respuestas sobre la teoría de la mente de múltiples órdenes) y utilizarlo para comparar el desempeño de cinco LLM con un punto de referencia humano adulto recientemente recopilado. Encontramos que GPT-4 y Flan-PaLM alcanzan un rendimiento de nivel adulto y casi adulto en tareas de ToM en general, y que GPT-4 supera el rendimiento de un adulto en inferencias de sexto orden. Nuestros resultados sugieren que existe una interacción entre el tamaño del modelo y el ajuste para la realización de habilidades de ToM, y que los LLM con mejor rendimiento han desarrollado una capacidad generalizada para ToM. Dado el papel que desempeña la ToM de orden superior en una amplia gama de comportamientos humanos cooperativos y competitivos, estos hallazgos tienen implicaciones significativas para las aplicaciones LLM orientadas al usuario. | Teoría de la mente |
30 de mayo de 2024 | JINA CLIP: Su modelo CLIP es también su recuperador de texto | El preentrenamiento de imágenes y lenguaje contrastivo (CLIP) se usa ampliamente para entrenar modelos para alinear imágenes y textos en un espacio de incrustación común asignándolos a vectores de tamaño fijo. Estos modelos son clave para la recuperación de información multimodal y tareas relacionadas. Sin embargo, los modelos CLIP generalmente tienen un rendimiento inferior en tareas de solo texto en comparación con los modelos de texto especializados. Esto crea ineficiencias para los sistemas de recuperación de información que mantienen incrustaciones y modelos separados para tareas multimodales y de solo texto. Proponemos un método de entrenamiento contrastivo multitarea novedoso para abordar este problema, que utilizamos para entrenar el modelo jina-clip-v1 para lograr un rendimiento de última generación en tareas de recuperación de texto-imagen y texto-texto. . | Modelos multimodales |
30 de mayo de 2024 | Parrot: Servicio eficiente de aplicaciones basadas en LLM con variable semántica | El auge de los grandes modelos de lenguaje (LLM) ha permitido aplicaciones basadas en LLM (también conocidas como agentes o copilotos de IA), un nuevo paradigma de software que combina la fortaleza de LLM y el software convencional. Diversas aplicaciones de LLM de diferentes inquilinos podrían diseñar flujos de trabajo complejos utilizando múltiples solicitudes de LLM para realizar una tarea. Sin embargo, tienen que utilizar la API de nivel de solicitud demasiado simplificada que proporcionan los servicios públicos de LLM actuales, perdiendo información esencial a nivel de aplicación. Los servicios públicos de LLM tienen que optimizar ciegamente las solicitudes de LLM individuales, lo que lleva a un rendimiento de extremo a extremo subóptimo de las aplicaciones de LLM. Este artículo presenta Parrot, un sistema de servicios LLM que se centra en la experiencia de un extremo a otro de aplicaciones basadas en LLM. Parrot propone Semantic Variable, una abstracción unificada para exponer el conocimiento a nivel de aplicación a los servicios públicos de LLM. Una variable semántica anota una variable de entrada/salida en el mensaje de una solicitud y crea la canalización de datos al conectar múltiples solicitudes de LLM, lo que proporciona una forma natural de programar aplicaciones de LLM. Exponer variables semánticas al servicio público LLM le permite realizar análisis de flujo de datos convencionales para descubrir la correlación entre múltiples solicitudes de LLM. Esta correlación abre un espacio de optimización completamente nuevo para el rendimiento de un extremo a otro de las aplicaciones basadas en LLM. Amplias evaluaciones demuestran que Parrot puede lograr una mejora de hasta un orden de magnitud para casos de uso populares y prácticos de aplicaciones LLM. | Agentes LLM |
30 de mayo de 2024 | Perplejo por la perplejidad: poda de datos basada en la perplejidad con pequeños modelos de referencia | En este trabajo, investigamos si los modelos de lenguaje pequeños pueden determinar subconjuntos de alta calidad de conjuntos de datos de texto a gran escala que mejoren el rendimiento de modelos de lenguaje más grandes. Si bien el trabajo existente ha demostrado que la poda basada en la perplejidad de un modelo más grande puede generar datos de alta calidad, investigamos si se pueden usar modelos más pequeños para la poda basada en la perplejidad y cómo la poda se ve afectada por la composición del dominio de los datos que se están podando. Demostramos que para múltiples composiciones de conjuntos de datos, la poda de datos de preentrenamiento basada en perplejidades puede mejorar significativamente el rendimiento de las tareas posteriores: la poda basada en perplejidades calculadas con un modelo de 125 millones de parámetros mejora el rendimiento promedio en tareas posteriores de un modelo de 3 mil millones de parámetros hasta en 2,04 y logra una reducción de hasta 1,45 veces en los pasos previos al entrenamiento para alcanzar un rendimiento inicial proporcional. Además, demostramos que dicha poda de datos basada en la perplejidad también produce ganancias de rendimiento posteriores en los regímenes sobreentrenados y con datos restringidos. | Modelos de lenguaje pequeño |
30 de mayo de 2024 | GNN-RAG: Recuperación neuronal gráfica para el razonamiento de modelos de lenguaje grandes | Los gráficos de conocimiento (KG) representan conocimiento fáctico elaborado por humanos en forma de tripletes (cabeza, relación, cola), que colectivamente forman un gráfico. La respuesta a preguntas sobre KG (KGQA) es la tarea de responder preguntas naturales fundamentando el razonamiento en la información proporcionada por el KG. Los modelos de lenguaje grande (LLM) son modelos de última generación para tareas de control de calidad debido a su notable capacidad para comprender el lenguaje natural. Por otro lado, las redes neuronales gráficas (GNN) se han utilizado ampliamente para KGQA, ya que pueden manejar la información gráfica compleja almacenada en el KG. En este trabajo, presentamos GNN-RAG, un método novedoso para combinar las habilidades de comprensión del lenguaje de los LLM con las habilidades de razonamiento de los GNN en un estilo de generación aumentada de recuperación (RAG). Primero, un GNN razona sobre un subgrafo KG denso para recuperar candidatos a respuestas para una pregunta determinada. En segundo lugar, se extraen los caminos más cortos en KG que conectan las entidades de preguntas y los candidatos de respuesta para representar los caminos de razonamiento de KG. Los caminos extraídos se verbalizan y se dan como entrada para el razonamiento LLM con RAG. En nuestro marco GNN-RAG, el GNN actúa como un razonador de subgrafos densos para extraer información gráfica útil, mientras que el LLM aprovecha su capacidad de procesamiento del lenguaje natural para lograr el KGQA definitivo. Además, desarrollamos una técnica de aumento de recuperación (RA) para mejorar aún más el rendimiento de KGQA con GNN-RAG. Los resultados experimentales muestran que GNN-RAG logra un rendimiento de vanguardia en dos puntos de referencia KGQA ampliamente utilizados (WebQSP y CWQ), superando o igualando el rendimiento de GPT-4 con un LLM sintonizado 7B. Además, GNN-RAG sobresale en preguntas de múltiples saltos y múltiples entidades, superando a los enfoques de la competencia entre un 8,9% y un 15,5% de puntos en la respuesta F1. Proporcionamos el código y los resultados de KGQA en https://github.com/cmavro/GNN-RAG. | RAG sobre gráficos de conocimiento |
29 de mayo de 2024 | Modelos de lenguaje de autoexploración: obtención activa de preferencias para la alineación en línea | La optimización de preferencias, particularmente a través del aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), ha logrado un éxito significativo en la alineación de los modelos de lenguaje grandes (LLM) para adherirse a las intenciones humanas. A diferencia de la alineación fuera de línea con un conjunto de datos fijo, la recopilación de comentarios en línea de humanos o IA sobre generaciones de modelos generalmente conduce a modelos de recompensa más capaces y LLM mejor alineados a través de un proceso iterativo. Sin embargo, lograr un modelo de recompensa globalmente preciso requiere una exploración sistemática para generar respuestas diversas que abarquen el vasto espacio del lenguaje natural. El muestreo aleatorio de LLM estándar que maximizan la recompensa por sí solo es insuficiente para cumplir con este requisito. Para abordar este problema, proponemos un objetivo de dos niveles sesgado de manera optimista hacia respuestas potencialmente de alta recompensa para explorar activamente regiones fuera de distribución. Al resolver el problema de nivel interno con la función de recompensa reparametrizada, el algoritmo resultante, denominado Modelos de lenguaje de autoexploración (SELM), elimina la necesidad de un RM separado y actualiza iterativamente el LLM con un objetivo sencillo. En comparación con la Optimización de Preferencia Directa (DPO), el objetivo SELM reduce el favor indiscriminado de extrapolaciones invisibles y mejora la eficiencia de la exploración. Nuestros resultados experimentales demuestran que cuando se ajusta en los modelos Zephyr-7B-SFT y Llama-3-8B-Instruct, SELM aumenta significativamente el rendimiento en la instrucción siguiendo puntos de referencia como MT-Bench y AlpacaEval 2.0, así como varios puntos de referencia académicos estándar en diferentes entornos. . Nuestro código y modelos están disponibles en https://github.com/shenao-zhang/SELM. | Alineación, optimización de preferencias |
28 de mayo de 2024 | OpenRLHF: un marco RLHF fácil de usar, escalable y de alto rendimiento | A medida que los modelos de lenguajes grandes (LLM) continúan creciendo mediante leyes de escala, el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) ha ganado una atención significativa debido a su excelente desempeño. Sin embargo, a diferencia del entrenamiento previo o el ajuste de un solo modelo, la ampliación del aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) para entrenar modelos de lenguaje grandes plantea desafíos de coordinación en cuatro modelos. Presentamos OpenRLHF, un marco de código abierto que permite un escalado eficiente de RLHF. A diferencia de los marcos RLHF existentes que ubican cuatro modelos en las mismas GPU, OpenRLHF rediseña la programación para los modelos más allá de los parámetros 70B utilizando Ray, vLLM y DeepSpeed, aprovechando una mejor utilización de recursos y diversos enfoques de capacitación. Al integrarse perfectamente con Hugging Face, OpenRLHF proporciona una solución lista para usar con algoritmos optimizados y scripts de inicio, lo que garantiza la facilidad de uso. OpenRLHF implementa RLHF, DPO, muestreo de rechazo y otras técnicas de alineación. El código de OpenRLHF, que potencia el desarrollo de LLM de última generación, está disponible en https://github.com/OpenLLMAI/OpenRLHF. | RLHF, kit de herramientas |
28 de mayo de 2024 | LLAMA-NAS: BÚSQUEDA EFICIENTE DE ARQUITECTURA NEURAL PARA MODELOS DE LENGUAJE GRANDE | Las capacidades de los modelos de lenguajes grandes (LLM) modernos para resolver el procesamiento del lenguaje natural, el razonamiento complejo, el análisis de sentimientos y otras tareas han sido extraordinarias, lo que ha impulsado su adopción generalizada. Desafortunadamente, estas capacidades conllevan costos computacionales y de memoria muy altos, lo que impide el uso de LLM en la mayoría de las plataformas de hardware. Para mitigar esto, proponemos un método eficaz para encontrar arquitecturas de red óptimas de Pareto basadas en LLaMA2-7B utilizando NAS de un solo uso. En particular, ajustamos LLaMA2-7B solo una vez y luego aplicamos una búsqueda basada en algoritmos genéticos para encontrar arquitecturas de red más pequeñas y menos complejas computacionalmente. Mostramos que, para ciertas tareas de referencia estándar, la red LLaMA2-7B previamente entrenada es innecesariamente grande y compleja. Más específicamente, demostramos una reducción de 1,5 veces en el tamaño del modelo y una aceleración de 1,3 veces en el rendimiento para ciertas tareas con una caída insignificante en la precisión. Además de encontrar arquitecturas de red más pequeñas y de mayor rendimiento, nuestro método lo hace de manera más efectiva y eficiente que ciertas técnicas de poda o dispersión. Finalmente, demostramos cómo la cuantificación es complementaria a nuestro método y que el tamaño y la complejidad de las redes que encontramos se pueden reducir aún más mediante la cuantificación. Creemos que nuestro trabajo proporciona una forma de crear automáticamente LLM que se pueden utilizar en plataformas de hardware menos costosas y más fácilmente disponibles. | Búsqueda de arquitectura neuronal, reducción del tamaño del modelo |
28 de mayo de 2024 | ¡No olvides conectarte! Mejora de RAG con reclasificación basada en gráficos | La generación aumentada de recuperación (RAG) ha mejorado enormemente el rendimiento de las respuestas del modelo de lenguaje grande (LLM) al conectar la generación con el contexto de los documentos existentes. Estos sistemas funcionan bien cuando los documentos son claramente relevantes para el contexto de una pregunta. Pero ¿qué pasa cuando un documento tiene información parcial o conexiones menos obvias con el contexto? ¿Y cómo deberíamos razonar sobre las conexiones entre documentos? En este trabajo, buscamos responder estas dos preguntas centrales sobre la generación de RAG. Presentamos G-RAG, un reranker basado en redes neuronales gráficas (GNN) entre el recuperador y el lector en RAG. Nuestro método combina conexiones entre documentos e información semántica (a través de gráficos de representación de significado abstracto) para proporcionar un clasificador basado en el contexto para RAG. G-RAG supera los enfoques de última generación y, al mismo tiempo, tiene una huella computacional más pequeña. Además, evaluamos el desempeño de PaLM 2 como reclasificador y descubrimos que tiene un desempeño significativamente inferior al de G-RAG. Este resultado enfatiza la importancia de reclasificar RAG incluso cuando se utilizan modelos de lenguaje grandes. | RAG para el razonamiento |
27 de mayo de 2024 | Meteor: recorrido de la justificación basado en Mamba para modelos de visión y lenguaje grandes | El rápido desarrollo de grandes modelos de lenguaje y visión (LLVM) ha sido impulsado por avances en el ajuste de la instrucción visual. Recientemente, los LLVM de código abierto han seleccionado conjuntos de datos de ajuste de instrucciones visuales de alta calidad y han utilizado codificadores de visión adicionales o múltiples modelos de visión por computadora para reducir la brecha de rendimiento con potentes LLVM de código cerrado. Estos avances se atribuyen a la información multifacética necesaria para diversas capacidades, incluida la comprensión fundamental de imágenes, el conocimiento del mundo real sobre conceptos de sentido común y no objetos (p. ej., tablas, diagramas, símbolos, signos y problemas matemáticos) y el paso a paso. Procedimientos de pasos para resolver preguntas complejas. A partir de la información multifacética, presentamos un nuevo LLVM eficiente, recorrido de fundamentos basado en Mamba (Meteoro), que aprovecha el fundamento multifacético para mejorar las capacidades de comprensión y respuesta. Para incorporar argumentos extensos que contengan abundante información, empleamos la arquitectura Mamba, capaz de procesar datos secuenciales con complejidad de tiempo lineal. Introducimos un nuevo concepto de recorrido de fundamentos que facilita la incorporación eficiente de fundamentos. Posteriormente, se entrena el modelo de lenguaje multimodal (MLM) principal para generar respuestas con la ayuda de la lógica. A través de estos pasos, Meteor logra mejoras significativas en el rendimiento del lenguaje de visión en múltiples puntos de referencia de evaluación que requieren diversas capacidades, sin aumentar el tamaño del modelo ni emplear codificadores de visión ni modelos de visión por computadora adicionales. El código está disponible en https://github.com/ByungKwanLee/Meteor. | Modelos de espacio de estados, modelos multimodales |
27 de mayo de 2024 | Introducción al modelado visión-lenguaje | Tras la reciente popularidad de los modelos de lenguaje grande (LLM), se han realizado varios intentos para extenderlos al dominio visual. Desde tener un asistente visual que podría guiarnos a través de entornos desconocidos hasta modelos generativos que producen imágenes usando solo una descripción de texto de alto nivel, las aplicaciones del modelo visión-lenguaje (VLM) impactarán significativamente nuestra relación con la tecnología. Sin embargo, hay muchos desafíos que deben abordarse para mejorar la confiabilidad de esos modelos. Si bien el lenguaje es discreto, la visión evoluciona en un espacio dimensional mucho más elevado en el que los conceptos no siempre pueden discretizarse fácilmente. Para comprender mejor la mecánica detrás del mapeo de la visión al lenguaje, presentamos esta introducción a los VLM que esperamos ayude a cualquiera que desee ingresar a este campo. Primero, presentamos qué son los VLM, cómo funcionan y cómo entrenarlos. Luego, presentamos y discutimos enfoques para evaluar VLM. Aunque este trabajo se centra principalmente en mapear imágenes al lenguaje, también analizamos la extensión de los VLM a videos. | Modelos Multimodales, Encuesta |
27 de mayo de 2024 | Modelos multimodales matrioska | Los grandes modelos multimodales (LMM) como LLaVA han demostrado un gran rendimiento en el razonamiento visual-lingüístico. Estos modelos primero incorporan imágenes en una gran cantidad fija de tokens visuales y luego las introducen en un modelo de lenguaje grande (LLM). Sin embargo, este diseño provoca una cantidad excesiva de tokens para escenarios visuales densos, como imágenes y vídeos de alta resolución, lo que genera una gran ineficiencia. Si bien existen métodos de fusión y poda de tokens, producen una salida de longitud única para cada imagen y no pueden permitirse la flexibilidad a la hora de equilibrar la densidad de la información con la eficiencia. Inspirándonos en el concepto de Matryoshka Dolls, proponemos M3: Matryoshka Multimodal Models, que aprende a representar contenido visual como conjuntos anidados de tokens visuales que capturan información en múltiples granularidades de gruesa a fina. Nuestro enfoque ofrece varios beneficios únicos para los LMM: (1) Se puede controlar explícitamente la granularidad visual por instancia de prueba durante la inferencia, por ejemplo, ajustando la cantidad de tokens utilizados para representar una imagen en función de la complejidad o simplicidad anticipada del contenido; (2) M3 proporciona un marco para analizar la granularidad necesaria para los conjuntos de datos existentes, donde encontramos que los puntos de referencia estilo COCO solo necesitan alrededor de 9 tokens visuales para obtener una precisión similar a la de usar los 576 tokens; (3) Nuestro enfoque proporciona una base para explorar la mejor compensación entre el rendimiento y la longitud del token visual a nivel de muestra, donde nuestra investigación revela que existe una gran brecha entre el límite superior de Oracle y las representaciones actuales de escala fija. | Modelos multimodales |
27 de mayo de 2024 | Trans-LoRA: hacia un ajuste eficiente de parámetros transferibles sin datos | Los adaptadores de rango bajo (LoRA) y sus variantes son técnicas populares de ajuste fino con eficiencia de parámetros (PEFT) que coinciden estrechamente con el rendimiento de ajuste fino del modelo completo y al mismo tiempo requieren solo una pequeña cantidad de parámetros adicionales. Estos parámetros LoRA adicionales son específicos del modelo base que se está adaptando. Cuando es necesario dejar de usar el modelo base y reemplazarlo por uno nuevo, es necesario volver a capacitar todos los módulos LoRA asociados. Dicho reentrenamiento requiere acceso a los datos utilizados para entrenar el LoRA para el modelo base original. Esto es especialmente problemático para las aplicaciones comerciales en la nube donde los módulos LoRA y los modelos base están alojados por proveedores de servicios a quienes es posible que no se les permita alojar datos de tareas de clientes propietarios. Para abordar este desafío, proponemos Trans-LoRA, un método novedoso para la transferencia de LoRA sin pérdidas y casi sin datos entre modelos base. Nuestro enfoque se basa en datos sintéticos para transferir módulos LoRA. Utilizando modelos de lenguaje grandes, diseñamos un generador de datos sintéticos para aproximar el proceso de generación de datos del subconjunto de datos de tareas observado. La capacitación sobre el conjunto de datos sintéticos resultante transfiere módulos LoRA a nuevos modelos. Mostramos la efectividad de nuestro enfoque utilizando las familias de modelos LLama y Gemma. Nuestro enfoque logra una transferencia LoRA sin pérdidas (en su mayoría mejorada) entre modelos dentro y entre diferentes familias de modelos base, e incluso entre diferentes métodos PEFT, en una amplia variedad de tareas. | Métodos PEFT, ajuste fino |
26 de mayo de 2024 | Optimización de preferencias de reproducción automática para la alineación del modelo de lenguaje | Los enfoques tradicionales de aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) que se basan en modelos paramétricos como el modelo de Bradley-Terry no logran capturar la intransitividad y la irracionalidad de las preferencias humanas. Los avances recientes sugieren que trabajar directamente con las probabilidades de preferencia puede producir un reflejo más preciso de las preferencias humanas, lo que permite una alineación del modelo lingüístico más flexible y precisa. En este artículo, proponemos un método basado en el autojuego para la alineación del modelo lingüístico, que trata el problema como un juego de dos jugadores de suma constante destinado a identificar la política de equilibrio de Nash. Nuestro enfoque, denominado Optimización de Preferencias de Auto-Juego (SPPO), se aproxima al equilibrio de Nash a través de actualizaciones iterativas de políticas y disfruta de una garantía de convergencia teórica. Nuestro método puede aumentar efectivamente la probabilidad logarítmica de la respuesta elegida y disminuir la de la respuesta rechazada, lo que no se puede lograr trivialmente mediante una pérdida simétrica por pares, como la optimización de preferencias directas (DPO) y la optimización de preferencias de identidad (IPO). En nuestros experimentos, utilizando solo 60 mil indicaciones (sin respuestas) del conjunto de datos UltraFeedback y sin ningún aumento de indicaciones, al aprovechar un modelo de preferencia previamente entrenado PairRM con solo 0,4 mil millones de parámetros, SPPO puede obtener un modelo a partir del ajuste fino de Mistral-7B- Instruct-v0.2 que logra una tasa de ganancia de última generación controlada por longitud del 28,53 % frente a GPT-4-Turbo en AlpacaEval 2.0. También supera al DPO (iterativo) y la IPO en MT-Bench y Open LLM Leaderboard. En particular, el sólido desempeño de SPPO se logra sin supervisión externa adicional (por ejemplo, respuestas, preferencias, etc.) de GPT-4 u otros modelos de lenguaje más sólidos. | Alineación, Optimización |
23 de mayo de 2024 | No todas las características del modelo de lenguaje son lineales | Trabajos recientes han propuesto la hipótesis de la representación lineal: que los modelos de lenguaje realizan cálculos manipulando representaciones unidimensionales de conceptos (“características”) en el espacio de activación. Por el contrario, exploramos si algunas representaciones de modelos de lenguaje pueden ser inherentemente multidimensionales. Comenzamos desarrollando una definición rigurosa de características multidimensionales irreducibles en función de si se pueden descomponer en características de dimensiones inferiores independientes o no coexistentes. Motivados por estas definiciones, diseñamos un método escalable que utiliza codificadores automáticos dispersos para encontrar automáticamente características multidimensionales en GPT-2 y Mistral 7B. Estas características descubiertas automáticamente incluyen ejemplos sorprendentemente interpretables, por ejemplo, características circulares que representan días de la semana y meses del año. Identificamos tareas donde estos círculos exactos se utilizan para resolver problemas computacionales que involucran aritmética modular en días de la semana y meses del año. Finalmente, proporcionamos evidencia de que estas características circulares son de hecho la unidad fundamental de cálculo en estas tareas con experimentos de intervención en Mistral 7B y Llama 3 8B, y encontramos más representaciones circulares al dividir los estados ocultos de estas tareas en componentes interpretables. | Análisis de representación lineal |
23 de mayo de 2024 | AlignGPT: modelos de lenguaje grande multimodales con capacidad de alineación adaptativa | Los modelos multimodales de lenguaje grande (MLLM) se consideran ampliamente cruciales en la exploración de la Inteligencia General Artificial (AGI). El núcleo de los MLLM radica en su capacidad para lograr una alineación intermodal. Para lograr este objetivo, los MLLM actuales suelen seguir un paradigma de formación de dos fases: la fase previa a la formación y la fase de ajuste de instrucciones. A pesar de su éxito, existen deficiencias en el modelado de las capacidades de alineación dentro de estos modelos. En primer lugar, durante la fase de preentrenamiento, el modelo generalmente supone que todos los pares imagen-texto están alineados uniformemente, pero en realidad el grado de alineación entre diferentes pares imagen-texto es inconsistente. En segundo lugar, las instrucciones que se utilizan actualmente para el ajuste fino incorporan una variedad de tareas; las instrucciones de diferentes tareas generalmente requieren diferentes niveles de capacidades de alineación, pero los MLLM anteriores pasan por alto estas necesidades de alineación diferenciadas. Para abordar estos problemas, proponemos un nuevo modelo multimodal de lenguaje grande, AlignGPT. En la etapa de preentrenamiento, en lugar de tratar todos los pares imagen-texto por igual, asignamos diferentes niveles de capacidades de alineación a diferentes pares imagen-texto. Luego, en la fase de ajuste de instrucciones, combinamos de forma adaptativa estos diferentes niveles de capacidades de alineación para satisfacer las necesidades de alineación dinámica de diferentes instrucciones. Amplios resultados experimentales muestran que nuestro modelo logra un rendimiento competitivo en 12 puntos de referencia. | Alineación, Modelo Multimodal |
23 de mayo de 2024 | HippoRAG: memoria a largo plazo inspirada neurobiológicamente para modelos de lenguaje grandes | Para prosperar en entornos naturales hostiles y en constante cambio, los cerebros de los mamíferos evolucionaron para almacenar grandes cantidades de conocimiento sobre el mundo e integrar continuamente nueva información evitando al mismo tiempo olvidos catastróficos. A pesar de los impresionantes logros, los grandes modelos de lenguaje (LLM), incluso con la generación recuperada aumentada (RAG), todavía luchan por integrar de manera eficiente y efectiva una gran cantidad de nuevas experiencias después de la capacitación previa. En este trabajo, presentamos HippoRAG, un novedoso marco de recuperación inspirado en la teoría de indexación del hipocampo de la memoria humana a largo plazo para permitir una integración de conocimientos más profunda y eficiente a través de nuevas experiencias. HippoRAG organiza sinérgicamente LLM, gráficos de conocimiento y el algoritmo PageRank personalizado para imitar las diferentes funciones del neocórtex y el hipocampo en la memoria humana. Comparamos HippoRAG con los métodos RAG existentes en respuesta a preguntas de múltiples saltos y demostramos que nuestro método supera notablemente a los métodos de última generación, hasta en un 20%. La recuperación en un solo paso con HippoRAG logra un rendimiento comparable o mejor que la recuperación iterativa como IRCoT, al mismo tiempo que es entre 10 y 30 veces más barata y entre 6 y 13 veces más rápida, y la integración de HippoRAG en IRCoT aporta ganancias sustanciales adicionales. Finalmente, mostramos que nuestro método puede abordar nuevos tipos de escenarios que están fuera del alcance de los métodos existentes. | Optimización de RAG |
21 de mayo de 2024 | OmniGlue: coincidencia de características generalizables con guía del modelo de base | El campo de la comparación de imágenes ha sido testigo de un surgimiento continuo de nuevas técnicas de comparación de características que se pueden aprender, con un rendimiento cada vez mejor en los puntos de referencia convencionales. Sin embargo, nuestra investigación muestra que a pesar de estos beneficios, su potencial para aplicaciones en el mundo real está restringido por sus limitadas capacidades de generalización a dominios de imágenes novedosos. En este artículo, presentamos OmniGlue, el primer comparador de imágenes con aprendizaje que está diseñado con la generalización como principio central. OmniGlue aprovecha el amplio conocimiento de un modelo básico de visión para guiar el proceso de coincidencia de características, impulsando la generalización a dominios que no se vieron en el momento del entrenamiento. Además, proponemos un novedoso mecanismo de atención guiado por la posición de puntos clave que desenreda la información espacial y de apariencia, lo que conduce a descriptores coincidentes mejorados. Realizamos experimentos integrales en un conjunto de 7 conjuntos de datos con diversos dominios de imagen, incluidas imágenes aéreas, centradas en objetos y a nivel de escena. Los novedosos componentes de OmniGlue generan ganancias relativas en dominios invisibles del 20,9% con respecto a un modelo de referencia directamente comparable, al tiempo que superan al reciente método LightGlue en un 9,5% relativamente. El código y el modelo se pueden encontrar en https: //hwjiang1510.github.io/OmniGlue. | Modelos multimodales |
20 de mayo de 2024 | MoRA: Actualización de alto rango para un ajuste fino de parámetros eficiente | La adaptación de rango bajo (LoRA) es un método popular de ajuste fino eficiente en parámetros (PEFT) para modelos de lenguaje grandes (LLM). En este artículo, analizamos el impacto de la actualización de bajo rango, tal como se implementa en LoRA. Nuestros hallazgos sugieren que el mecanismo de actualización de bajo rango puede limitar la capacidad de los LLM para aprender y memorizar nuevos conocimientos de manera efectiva. Inspirándonos en esta observación, proponemos un nuevo método llamado MoRA, que emplea una matriz cuadrada para lograr una actualización de alto rango manteniendo la misma cantidad de parámetros entrenables. Para lograrlo, introducimos los operadores no paramétricos correspondientes para reducir la dimensión de entrada y aumentar la dimensión de salida para la matriz cuadrada. Además, estos operadores garantizan que el peso se pueda volver a fusionar en LLM, lo que hace que nuestro método se pueda implementar como LoRA. Realizamos una evaluación integral de nuestro método en cinco tareas: ajuste de instrucciones, razonamiento matemático, preentrenamiento continuo, memoria y preentrenamiento. Nuestro método supera a LoRA en tareas que requieren mucha memoria y logra un rendimiento comparable en otras tareas. Nuestro código estará disponible en https://github.com/kongds/MoRA. | Enfoques PEFT, ajuste |
19 de mayo de 2024 | Tu transformador es secretamente lineal | Este artículo revela una característica lineal novedosa exclusiva de los decodificadores de transformadores, incluidos modelos como GPT, LLaMA, OPT, BLOOM y otros. Analizamos transformaciones de incrustación entre capas secuenciales, descubriendo una relación lineal casi perfecta (puntuación de similitud de Procrustes de 0,99). Sin embargo, la linealidad disminuye cuando se elimina el componente residual debido a una norma de salida constantemente baja de la capa del transformador. Nuestros experimentos muestran que eliminar o aproximar linealmente algunos de los bloques más lineales de transformadores no afecta significativamente la pérdida o el rendimiento del modelo. Además, en nuestros experimentos de preentrenamiento en modelos más pequeños, introducimos una regularización basada en similitud de coseno, destinada a reducir la linealidad de las capas. Esta regularización mejora las métricas de rendimiento en puntos de referencia como Tiny Stories y SuperGLUE y también disminuye con éxito la linealidad de los modelos. Este estudio desafía la comprensión existente sobre las arquitecturas de transformadores, sugiriendo que su funcionamiento puede ser más lineal de lo que se suponía anteriormente.1 | Análisis de transformadores |
18 de mayo de 2024 | Hacia LLM modulares mediante la construcción y reutilización de una biblioteca de LoRA | El creciente número de adaptaciones eficientes en parámetros de un modelo de lenguaje grande (LLM) básico exige estudiar si podemos reutilizar dichos adaptadores entrenados para mejorar el rendimiento de nuevas tareas. Estudiamos cómo construir mejor una biblioteca de adaptadores a partir de datos multitarea e ideamos técnicas para la generalización de tareas supervisadas y de disparo cero a través del enrutamiento en dicha biblioteca. Comparamos los enfoques existentes para construir esta biblioteca e introducimos la agrupación en clústeres basada en modelos, MBC, un método que agrupa tareas según la similitud de sus parámetros de adaptador, optimizando indirectamente la transferencia a través del conjunto de datos de múltiples tareas. Para reutilizar la biblioteca, presentamos un novedoso mecanismo de enrutamiento de disparo cero, Arrow, que permite la selección dinámica de los adaptadores más relevantes para nuevas entradas sin necesidad de volver a entrenar. Experimentamos con varios LLM, como Phi-2 y Mistral, en una amplia gama de tareas pendientes, verificando que los adaptadores basados en MBC y el enrutamiento Arrow conducen a una generalización superior a nuevas tareas. Damos pasos hacia la creación de LLM modulares y adaptables que puedan igualar o superar la capacitación conjunta tradicional. | Enfoques PEFT, ajuste fino, kit de herramientas |
16 de mayo de 2024 | Chameleon: modelos de base de fusión temprana de modos mixtos | Presentamos Chameleon, una familia de modelos modales mixtos basados en tokens de fusión temprana capaces de comprender y generar imágenes y texto en cualquier secuencia arbitraria. Describimos un enfoque de capacitación estable desde el inicio, una receta de alineación y una parametrización arquitectónica adaptada para el entorno de modalidad mixta, basado en tokens y de fusión temprana. Los modelos se evalúan en una amplia gama de tareas, que incluyen respuesta visual a preguntas, subtítulos de imágenes, generación de texto, generación de imágenes y generación modal mixta de formato largo. Chameleon demuestra capacidades amplias y generales, incluido un rendimiento de última generación en tareas de subtítulos de imágenes, supera a Llama-2 en tareas de solo texto y, al mismo tiempo, es competitivo con modelos como Mixtral 8x7B y Gemini-Pro, y realiza imágenes no triviales. generación, todo en un solo modelo. También iguala o supera el rendimiento de modelos mucho más grandes, incluidos Gemini Pro y GPT-4V, según juicios humanos en una nueva evaluación de generación de modo mixto de formato largo, donde el mensaje o las salidas contienen secuencias mixtas de imágenes y texto. . Chameleon marca un importante paso adelante en el modelado unificado de documentos multimodales completos. | Modelos multimodales, modelo de cimentación |
16 de mayo de 2024 | Aprendizaje en contexto de muchos disparos en modelos de fundaciones multimodales | Los modelos de idiomas grandes son bien conocidos por ser efectivos en el aprendizaje de pocos disparos en contexto (ICL). Los avances recientes en los modelos de cimientos multimodales han permitido ventanas de contexto sin precedentes, presentando una oportunidad para explorar su capacidad para realizar ICL con muchos ejemplos más demostrativos. En este trabajo, evaluamos el rendimiento de los modelos de base multimodal que escala de pocos disparos a ICL de muchos disparos. Benchmaremos GPT-4O y Gemini 1.5 Pro en 10 conjuntos de datos que abarcan múltiples dominios (imágenes naturales, imágenes médicas, teledetección e imágenes moleculares) y tareas (clasificación de múltiples clases, múltiples etiquetas y grano fino). Observamos que la ICL de muchos disparos, que incluye hasta casi 2,000 ejemplos de demostración multimodal, conduce a mejoras sustanciales en comparación con los pocos disparos (<100 ejemplos) ICL en todos los conjuntos de datos. Además, el rendimiento de Gemini 1.5 Pro continúa mejorando log-linearly hasta el número máximo de ejemplos probados en muchos conjuntos de datos. Dados los altos costos de inferencia asociados con las largas indicaciones requeridas para la ICL de muchos disparos, también exploramos el impacto de las consultas múltiples en una sola llamada API. Mostramos que el lote de hasta 50 consultas puede conducir a mejoras en el rendimiento bajo un disparo cero y muchos-shot ICL, con ganancias sustanciales en la configuración de disparo cero en múltiples conjuntos de datos, al tiempo que reduce drásticamente el costo y la latencia por cuarenta. Finalmente, medimos la eficiencia de los datos de ICL de los modelos, o la velocidad a la que los modelos aprenden de ejemplos más demostrativos. Encontramos que si bien GPT-4O y Gemini 1.5 Pro logran un rendimiento similar de disparo cero en los conjuntos de datos, Gemini 1.5 Pro exhibe una mayor eficiencia de datos de ICL que GPT-4O en la mayoría de los conjuntos de datos. Nuestros resultados sugieren que la ICL de muchos disparos podría permitir a los usuarios adaptar eficientemente los modelos de cimientos multimodales a nuevas aplicaciones y dominios. Nuestra base de código está disponible públicamente en https://github.com/stanfordmlgroup/manyicl. | ICL, modelos multimodales |
15 de mayo de 2024 | Lora aprende menos y olvida menos | La adaptación de bajo rango (LORA) es un método de finuga de parámetros ampliamente utilizado para modelos de idiomas grandes. Lora ahorra memoria entrenando solo perturbaciones de bajo rango a matrices de peso seleccionadas. En este trabajo, comparamos el rendimiento de Lora y Finetuning completo en dos dominios objetivo, programación y matemáticas. Consideramos tanto la instrucción Finetuning (≈100k pares de respuesta rápida) como los regímenes de datos continuos previos a la pretruación (≈10b no estructurados). Nuestros resultados muestran que, en la mayoría de los entornos, Lora tiene un rendimiento sustancialmente inferior al sintonización completa. Sin embargo, Lora exhibe una forma deseable de regularización: mantiene mejor el rendimiento del modelo base en tareas fuera del dominio objetivo. Mostramos que Lora proporciona una regularización más fuerte en comparación con las técnicas comunes, como la descomposición de peso y la deserción; También ayuda a mantener generaciones más diversas. Mostramos que Full Finetuning aprende perturbaciones con un rango que es 10-100x mayor que las configuraciones de Lora típicas, posiblemente explicando algunas de las brechas informadas. Concluimos proponiendo las mejores prácticas para Finetuning con Lora. | Se acerca a Peft, ajuste fino |
14 de mayo de 2024 | Comprender la brecha de rendimiento entre los algoritmos de alineación en línea y fuera de línea | El aprendizaje de refuerzo de la retroalimentación humana (RLHF) es el marco canónico para la alineación del modelo de lenguaje grande. Sin embargo, la creciente popularidad en los algoritmos de alineación fuera de línea desafía la necesidad de un muestreo en política en RLHF. Dentro del contexto de la sobrettimización de la recompensa, comenzamos con un conjunto de experimentos de apertura que demuestran la clara ventaja de los métodos en línea sobre los métodos fuera de línea. Esto nos impulsa a investigar las causas de la discrepancia del rendimiento a través de una serie de ablaciones experimentales cuidadosamente diseñadas. Mostramos empíricamente que las hipótesis como la cobertura de datos fuera de línea y la calidad de los datos por sí solo no pueden explicar de manera convincente la diferencia de rendimiento. También encontramos que, si bien los algoritmos fuera de línea entrenan la política para ser bueno en la clasificación por pares, es peor en generaciones; Mientras tanto, las políticas capacitadas por algoritmos en línea son buenas en generaciones, mientras que peor en la clasificación por pares. Esto sugiere una interacción única entre las capacidades discriminativas y generativas, que se ve muy afectada por el proceso de muestreo. Por último, observamos que la discrepancia del desempeño persiste para las funciones de pérdida contrastante y no con contrastes, y parece no abordarse simplemente ampliando las redes de políticas. Tomados en conjunto, nuestro estudio arroja luz sobre el papel fundamental del muestreo en la política en la alineación de la IA, y sugiere ciertos desafíos fundamentales de los algoritmos de alineación fuera de línea. | Alineación |
13 de mayo de 2024 | RLHF Flujo de trabajo: desde el modelado de recompensas hasta RLHF en línea | Presentamos el flujo de trabajo del aprendizaje de refuerzo iterativo en línea de la retroalimentación humana (RLHF) en este informe técnico, que se informa ampliamente que supera a su contraparte fuera de línea mediante un gran margen en la literatura reciente del modelo de lenguaje grande (LLM). Sin embargo, los proyectos RLHF de código abierto existentes todavía se limitan en gran medida a la configuración de aprendizaje fuera de línea. En este informe técnico, nuestro objetivo es completar este vacío y proporcionar una receta detallada que sea fácil de reproducir para RLHF iterativo en línea. En particular, dado que la retroalimentación humana en línea generalmente es inviable para comunidades de código abierto con recursos limitados, comenzamos construyendo modelos de preferencias utilizando un conjunto diverso de conjuntos de datos de código abierto y utilizamos el modelo de preferencia de proxy construido para aproximar la retroalimentación humana. Luego, discutimos las ideas teóricas y los principios algorítmicos detrás de RLHF iterativo en línea, seguido de una implementación práctica detallada. Nuestro LLM capacitado, SFR-iterative-Dpo-llama-3-8B-R, logra un rendimiento impresionante en los puntos de referencia de LLM Chatbot, incluidos Alpacaeval-2, Arena-Hard y Mt-Bench, así como otros puntos de referencia académicos como Humaneval y Humaneval y Sincera. Hemos demostrado que el ajuste superior (SFT) supervisado y el RLHF iterativo pueden obtener un rendimiento de última generación con conjuntos de datos de código abierto. Además, hemos hecho nuestros modelos, conjuntos de datos seleccionados y guías de código paso a paso completas disponibles públicamente. Consulte https://github.com/rlhflow/rlhf-reward-modeling y https://github.com/rlhflow/online-rlhf para obtener información más detallada. | Optimización de preferencias, RLHF |
2 de mayo de 2024 | Prometheus 2: un modelo de lenguaje de código abierto especializado en la evaluación de otros modelos de idiomas | Los LM de propiedad como GPT-4 a menudo se emplean para evaluar la calidad de las respuestas de varios LM. Sin embargo, las preocupaciones, incluida la transparencia, la capacidad de control y la asequibilidad, motivan fuertemente el desarrollo de OpenSource LMS especializados en evaluaciones. Por otro lado, el evaluador abierto existente LMS exhibe deficiencias críticas: 1) emiten puntajes que divergen significativamente de los asignados por humanos, y 2) carecen de la flexibilidad para realizar una evaluación directa y clasificación por pares, las dos formas de evaluación más prevalentes de evaluación . Además, no poseen la capacidad de evaluar en función de los criterios de evaluación personalizados, centrándose en cambio en atributos generales como la ayuda y la inofensiva. Para abordar estos problemas, presentamos a Prometheus 2, un evaluador más poderoso LM que su predecesor que refleja de cerca los juicios humanos y GPT-4. Además, es capaz de procesar tanto la evaluación directa como los formatos de clasificación por pares agrupados con un criterio de evaluación definidos por el usuario. En cuatro puntos de referencia de evaluación directa y cuatro puntos de referencia de clasificación por pares, Prometheus 2 califica la mayor correlación y acuerdo con los humanos y los jueces de LM patentados entre todos los evaluadores abiertos probados LMS. Nuestros modelos, código y datos están disponibles públicamente 1. | Evaluación, agentes |
2 de mayo de 2024 | WildChat: 1M Chatgpt Interaction Regists in the Wild | Los chatbots como GPT-4 y ChatGPT ahora están sirviendo a millones de usuarios. A pesar de su uso generalizado, sigue habiendo una falta de conjuntos de datos públicos que muestran cómo estas herramientas son utilizadas por una población de usuarios en la práctica. Para cerrar esta brecha, ofrecimos acceso gratuito a CHATGPT para usuarios en línea a cambio de su opción afirmativa y consensuada para recopilar anónimamente sus transcripciones de chat y solicitar encabezados. A partir de esto, compilamos Wildchat, un corpus de 1 millón de conversaciones de usuarios de chatgpt, que consta de más de 2.5 millones de giros de interacción. Comparamos WildChat con otros conjuntos de datos de interacción de usuario-chatbot populares, y encontramos que nuestro conjunto de datos ofrece las indicaciones del usuario más diversas, contiene el mayor número de idiomas y presenta la variedad más rica de casos de uso potencialmente tóxicos para que los investigadores estudien. Además de las transcripciones de chat de marca de tiempo, enriquecemos el conjunto de datos con datos demográficos, incluidas las direcciones IP de estado, país y hashed, junto con los encabezados de solicitudes. Este aumento permite un análisis más detallado de los comportamientos del usuario en diferentes regiones geográficas y dimensiones temporales. Finalmente, debido a que captura una amplia gama de casos de uso, demostramos la utilidad potencial del conjunto de datos en modelos de seguimiento de instrucciones de ajuste fino. Wildchat se lanza en https://wildchat.allen.ai bajo las licencias de impacto AI21. | Punto de referencia, evaluación |
2 de mayo de 2024 | StoryDiffusion: autoatención constante para la generación de imágenes y videos de largo alcance | Para modelos generativos recientes basados en difusión, mantener contenido consistente en una serie de imágenes generadas, especialmente aquellas que contienen sujetos y detalles complejos, presenta un desafío significativo. En este documento, proponemos una nueva forma de cálculo de autoatención, denominada autoatencia consistente, que aumenta significativamente la consistencia entre las imágenes generadas y aumenta los modelos de texto a imagen basados en difusión prevalentes previamente prenederos de manera cero. Para extender nuestro método a la generación de videos de largo alcance, introducimos aún más un nuevo módulo de predicción de movimiento temporal de espacio semántico, llamado Predictor de Motaje Semántico. Está capacitado para estimar las condiciones de movimiento entre dos imágenes proporcionadas en los espacios semánticos. Este módulo convierte la secuencia generada de imágenes en videos con transiciones suaves y sujetos consistentes que son significativamente más estables que los módulos basados solo en espacios latentes, especialmente en el contexto de la generación de videos largos. Al fusionar estos dos componentes novedosos, nuestro marco, denominado StoryDiffusion, puede describir una historia basada en texto con imágenes o videos consistentes que abarcan una rica variedad de contenidos. La propuesta de StoryDiffusion abarca exploraciones pioneras en la generación de historias visuales con la presentación de imágenes y videos, que esperamos que pueda inspirar más investigaciones del aspecto de las modificaciones arquitectónicas. | Modelos multimodales, difusión |
2 de mayo de 2024 | Flame: alineación consciente de la facturidad para modelos de idiomas grandes | La alineación es un procedimiento estándar para ajustar los modelos de lenguaje grande (LLMS) pre-entrenado para seguir las instrucciones del lenguaje natural y servir como asistentes útiles de IA. Sin embargo, hemos observado que el proceso de alineación convencional no mejora la precisión objetiva de los LLM, y a menudo conduce a la generación de hechos más falsos (es decir, alucinación). En este documento, estudiamos cómo hacer que el proceso de alineación de LLM sea más objetivo, al identificar primero los factores que conducen a la alucinación en ambos pasos de alineación: ajuste fino supervisado (SFT) y aprendizaje de refuerzo (RL). En particular, encontramos que capacitar a la LLM sobre nuevos conocimientos o textos desconocidos puede fomentar la alucinación. Esto hace que SFT sea menos objetivo, ya que entrena en datos etiquetados por humanos que pueden ser novedosos para el LLM. Además, las funciones de recompensa utilizadas en RL estándar también pueden fomentar la alucinación, ya que guía a la LLM para proporcionar respuestas más útiles en un conjunto diverso de instrucciones, a menudo prefiriendo respuestas más largas y más detalladas. Con base en estas observaciones, proponemos la alineación (llama) consciente de la factualidad, compuesta por la SFT consciente de la factualidad y la RL consciente de la facturidad a través de la optimización de preferencias directas. Los experimentos muestran que nuestra alineación de la factualidad propuesta guía a los LLM para obtener más respuestas objetivas mientras mantiene la capacidad de seguimiento de la instrucción | Alineación, hecho |
2 de mayo de 2024 | Nemo-Aligner: kit de herramientas escalable para una alineación de modelos eficiente | Alinear modelos de idiomas grandes (LLM) con valores y preferencias humanas es esencial para hacerlos útiles y seguros. Sin embargo, construir herramientas eficientes para realizar una alineación puede ser un desafío, especialmente para los LLM más grandes y competentes que a menudo contienen decenas o cientos de miles de millones de parámetros. Creamos Nemo-Aligner, un conjunto de herramientas para la alineación del modelo que puede escalar eficientemente el uso de cientos de GPU para el entrenamiento. Nemo-Aligner viene con implementaciones altamente optimizadas y escalables para los principales paradigmas de alineación del modelo, tales como: Aprendizaje de refuerzo de la retroalimentación humana (RLHF), la optimización de preferencias directas (DPO), Steerlm y el ajuste fino de la autoinforme (giro). Además, nuestro kit de herramientas admite ejecutar la mayoría de las técnicas de alineación en una configuración de ajuste fino eficiente de parámetros (PEFT). Nemo-Aligner está diseñado para la extensibilidad, lo que permite el apoyo a otras técnicas de alineación con un esfuerzo mínimo. Es de código abierto con la licencia Apache 2.0 e invitamos a las contribuciones de la comunidad en https://github.com/nvidia/nemo-aligner. | Alineación, kit de herramientas |
1 de mayo de 2024 | ¿El tamaño de lote de edición más grande siempre es mejor? - Un estudio empírico sobre edición de modelos con Llama-3 | Este estudio presenta un análisis de edición de modelo específico centrado en el último modelo de lenguaje grande, Llama-3. Exploramos la eficacia de las técnicas populares de edición de modelos: Roma, Memit y Emmet, que están diseñadas para intervenciones precisas de capas. Identificamos las capas más efectivas para las ediciones específicas a través de una evaluación que abarca hasta 4096 ediciones en tres estrategias distintas: edición secuencial, edición por lotes y un enfoque híbrido que llamamos como edición de lotes secuenciales. Nuestros hallazgos indican que el aumento de los tamaños de lotes de edición puede degradar el rendimiento del modelo de manera más significativa que usar lotes de edición más pequeños secuencialmente para un número igual de ediciones. Con esto, argumentamos que la edición de modelos secuenciales es un componente importante para escalar los métodos de edición de modelos y la investigación futura debería centrarse en métodos que combinen la edición tanto por placas como secuenciales. Esta observación sugiere una limitación potencial en los métodos actuales de edición de modelos que empujan hacia tamaños de lotes de edición más grandes, y esperamos que allane la manera de futuras investigaciones para optimizar los tamaños de lotes y el rendimiento de la edición de modelos. | Edición de modelos |
1 de mayo de 2024 | Lora Land: 310 LLMS ajustados que rivalizan con GPT-4, un informe técnico | La adaptación de bajo rango (LORA) se ha convertido en uno de los métodos más ampliamente adoptados para el ajuste fino eficiente de los parámetros (PEFT) de modelos de idiomas grandes (LLM). Lora reduce el número de parámetros entrenables y el uso de la memoria al tiempo que logra un rendimiento comparable a un ajuste completo completo. Nuestro objetivo es evaluar la viabilidad de la capacitación y servir LLMS ajustados con Lora en aplicaciones del mundo real. Primero, medimos la calidad de LLMS ajustados con adaptadores cuantificados de bajo rango en 10 modelos base y 31 tareas para un total de 310 modelos. Encontramos que los modelos de Lora ajustados de 4 bits superan a los modelos base por 34 puntos y GPT-4 por 10 puntos en promedio. En segundo lugar, investigamos los modelos base más efectivos para ajustar y evaluar las capacidades correlativas y predictivas de las heurísticas de la complejidad de las tareas en el pronóstico de los resultados del ajuste fino. Finalmente, evaluamos las capacidades de latencia y concurrencia de Lorax, un servidor de inferencia multiprograma de código abierto que facilita la implementación de múltiples modelos de lora ajustados en una sola GPU utilizando pesos de modelos base compartidos y carga de adaptador dinámico. Lorax Powers Lora Land, una aplicación web que aloja 25 LORA Mistral-7B LLM de Lora en una sola GPU NVIDIA A100 con memoria de 80 GB. Lora Land destaca la calidad y la rentabilidad de emplear múltiples LLM especializados en un solo LLM de propósito general. | Se acerca a Peft, ajuste fino |
Únase a más de 1000 estudiantes en esta aventura de 10 semanas a medida que profundizamos en la aplicación de LLM en una variedad de casos de uso.
? ️ *Semana 1 [15 de enero de 2024] *: Introducción práctica a LLMS
? ️ *Semana 2 [22 de enero de 2024] *: Ingeniería de indicación e indicativa
? ️ *Semana 3 [29 de enero 2024] *: LLM ajustado
? ️ *Semana 4 [5 de febrero 2024] *: Rag (generación de recuperación de la recuperación)
? ️ *Semana 5 [12 de febrero 2024] *: Herramientas para construir aplicaciones LLM
? ️ *Semana 6 [19 de febrero 2024] *: Técnicas de evaluación
? ️ *Semana 7 [26 de febrero 2024] *: Construyendo su propia aplicación LLM
? ️ *Semana 8 [4 de marzo de 2024] *: Características avanzadas e implementación
? ️ *Semana 9 [11 de marzo de 2024] *: Desafíos con LLMS
? ️ *Semana 10 [18 de marzo de 2024] *: Tendencias de investigación emergentes
? ️ *Semana 11 *Bonificación *[25 de marzo de 2024] *: Fundamentos
Modelos de idiomas grandes de ETH Zurich
Comprender modelos de idiomas grandes de Princeton
Curso de transformadores de Huggingface
Curso de PNL de Huggingface
CS324 - Modelos de idiomas grandes de Stanford
IA generativa con modelos de idiomas grandes por Coursera
Introducción a la IA generativa por Coursera
Fundamentos de IA generativos por Google Cloud
Introducción a modelos de idiomas grandes por Google Cloud
Introducción a la IA generativa por Google Cloud
Conceptos generativos de IA por DataCamp (Daniel Tedesco Data Lead @ Google)
Introducción de 1 hora a LLM (modelos de idiomas grandes) por WeClouddata
Modelos de la Fundación LLM desde cero | Primer de Databricks
AI generativa explicada por Nvidia
Modelos de transformadores y modelo Bert por Google Cloud
Plan de aprendizaje de IA generativo para tomadores de decisiones por AWS
Introducción a la IA responsable por Google Cloud
Fundamentos de IA generativa por Microsoft Azure
IA generativa para principiantes por Microsoft
Chatgpt para principiantes: los casos de uso definitivos para todos por Udemy
[1 hora de hablar] Introducción a modelos de idiomas grandes por Andrej Karpathy
Chatgpt para todos aprendiendo a la solicitud
Modelos de idiomas grandes (LLMS) (en inglés) por Kshitiz Verma (Universidad JK Lakshmipat, Jaipur, India)
LLMOPS: Construyendo aplicaciones del mundo real con grandes modelos de idiomas por Udacity
Campa de bootcamp Full Stack LLM de FSDL
IA generativa para principiantes por Microsoft
Modelos de idiomas grandes: Aplicación a través de la producción por Databricks
Fundaciones generativas de IA por AWS
INTRODUCCIÓN A CURSO GENERATIVO DE LA COMUNICACIÓN DE AI AI por INEURON
Universidad de LLM por Cohere
LLM Learning Lab de Lightning AI
Langchain para el desarrollo de aplicaciones LLM por Deeplearning.ai
LLMOPS por Deeplearning.ai
Pruebas automatizadas para LLMOPS por Deeplearning.ai
Construyendo aplicaciones de IA generativas que usan Amazon Bedrock por AWS
Sirviendo eficientemente los LLM por Deeplearning.ai
Sistemas de construcción con la API ChatGPT de Deeplearning.ai
Aplicaciones de LLM sin servidor con Bedrock de Amazon por Deeplearning.ai
Creación de aplicaciones con bases de datos vectoriales por Deeplearning.ai
Pruebas automatizadas para LLMOPS por Deeplearning.ai
LLMOPS por Deeplearning.ai
Construir aplicaciones LLM con Langchain.js por Deeplearning.ai
Recuperación avanzada para IA con Chroma por Deeplearning.ai
Operacionalización de LLM en Azure por Coursera
Curso completo de IA generativo: Gemini Pro, OpenAi, Llama, Langchain, Pinecone, Vector Database y más de Freecodecamp.org
Entrenamiento y LLMS para la producción de Activeloop
Bases de datos de Langchain & Vector en producción por Activeloop
Refuerzo Aprendiendo de la retroalimentación humana por Deeplearning.ai
Creación de aplicaciones con bases de datos vectoriales por Deeplearning.ai
Finecir modelos de idiomas grandes por Deeplearning.ai
Langchain: chatea con tus datos de Deeplearning.ai
Sistemas de construcción con la API ChatGPT de Deeplearning.ai
Ingeniería rápida con Llama 2 por Deeplearning.ai
Creación de aplicaciones con bases de datos vectoriales por Deeplearning.ai
Chatgpt Ingeniería rápida para desarrolladores por Deeplearning.ai
Serie de orquestación de trapo avanzada de Llamaindex
Especialización de ingeniería rápida por Coursera
Aumente su LLM usando la generación aumentada de recuperación por NVIDIA
Gráficos de conocimiento para trapo por Deeplearning.ai
Modelos de código abierto con cara de abrazo de Deeplearning.ai
Bases de datos de vectores: desde integridades hasta aplicaciones de Deeplearning.ai
Comprensión y aplicación de integridades de texto por Deeplearning.ai
JavaScript Rag Aplicaciones web con Llamaindex por Deeplearning.ai
Fundamentos de cuantificación con cara de abrazo de Deeplearning.ai
Preprocesamiento de datos no estructurados para aplicaciones LLM por Deeplearning.ai
Generación aumentada de recuperación para la producción con Langchain y Llamaindex por Activeloop
Cuantización en profundidad por Deeplearning.ai
Si desea agregar al repositorio o encontrar algún problema, no dude en recaudar un PR y garantizar la colocación correcta dentro de la sección o categoría relevante.
Para citar esta guía, use el formato a continuación:
@article{areganti_generative_ai_guide,
author = {Reganti, Aishwarya Naresh},
journal = {https://github.com/aishwaryanr/awesome-generative-ai-resources},
month = {01},
title = {{Generative AI Guide}},
year = {2024}
}
[Licencia MIT]