La IA generativa está experimentando un rápido crecimiento y este repositorio sirve como un centro integral para actualizaciones sobre investigaciones de IA generativa, materiales de entrevistas, cuadernos y más.
Explora los siguientes recursos:
Actualizaremos este repositorio periódicamente, ¡así que esté atento a las últimas incorporaciones!
¡Feliz aprendizaje!
*Actualizado al final de cada mes.
Fecha | Título | Abstracto |
---|---|---|
30 de septiembre de 2024 | MM1.5: Métodos, análisis y conocimientos del ajuste fino del LLM multimodal | Presentamos MM1.5, una nueva familia de modelos multimodales de lenguaje grande (MLLM) diseñados para mejorar las capacidades de comprensión de imágenes ricas en texto, referencias y bases visuales y razonamiento de múltiples imágenes. Partiendo de la arquitectura MM1, MM1.5 adopta un enfoque centrado en datos para el entrenamiento de modelos, explorando sistemáticamente el impacto de diversas combinaciones de datos a lo largo de todo el ciclo de vida del entrenamiento de modelos. Esto incluye datos OCR de alta calidad y subtítulos sintéticos para un entrenamiento previo continuo, así como una combinación optimizada de datos de ajuste de instrucciones visuales para un ajuste fino supervisado. Nuestros modelos varían de parámetros de 1B a 30B, abarcando variantes densas y mixtas de expertos (MoE), y demuestran que las estrategias de capacitación y curación de datos cuidadosas pueden generar un rendimiento sólido incluso a pequeñas escalas (1B y 3B). Además, presentamos dos variantes especializadas: MM1.5-Video, diseñada para comprender videos, y MM1.5-UI, diseñada para comprender UI móviles. A través de extensos estudios empíricos y ablaciones, brindamos información detallada sobre los procesos de capacitación y las decisiones que informan nuestros diseños finales, ofreciendo una guía valiosa para futuras investigaciones en el desarrollo de MLLM. |
26 de septiembre de 2024 | MIO: un modelo básico sobre tokens multimodales | En este artículo, presentamos MIO, un modelo básico novedoso construido sobre tokens multimodales, capaz de comprender y generar voz, texto, imágenes y videos de manera autorregresiva de un extremo a otro. Si bien la aparición de modelos de lenguajes grandes (LLM) y modelos de lenguajes grandes multimodales (MM-LLM) impulsa avances en la inteligencia artificial general a través de sus capacidades versátiles, todavía carecen de una verdadera comprensión y generación de todos. Recientemente, el lanzamiento de GPT-4o ha mostrado el notable potencial de los LLM de cualquier tipo para tareas complejas del mundo real, permitiendo la entrada y salida omnidireccional a través de imágenes, voz y texto. Sin embargo, es de código cerrado y no admite la generación de secuencias entrelazadas multimodales. Para abordar esta brecha, presentamos MIO, que se entrena con una combinación de tokens discretos en cuatro modalidades utilizando modelos multimodales causales. MIO se somete a un proceso de capacitación de cuatro etapas: (1) capacitación previa de alineación, (2) capacitación previa entrelazada, (3) capacitación previa mejorada del habla y (4) ajuste fino supervisado integral en diversos textos, visuales, y tareas del habla. Nuestros resultados experimentales indican que MIO exhibe un rendimiento competitivo y, en algunos casos, superior en comparación con las líneas de base de modo dual anteriores, las líneas de base de cualquier modelo e incluso las líneas de base de modalidades específicas. Además, MIO demuestra capacidades avanzadas inherentes a su función "cualquiera a cualquier", como la generación de texto en vídeo entrelazado, razonamiento en cadena de pensamiento visual, generación de guías visuales, edición de imágenes instructivas, etc. |
26 de septiembre de 2024 | MaskLLM: escasez semiestructurada que se puede aprender para modelos de lenguaje grandes | Los modelos de lenguajes grandes (LLM) se distinguen por su enorme número de parámetros, que normalmente resultan en una redundancia significativa. Este trabajo presenta MaskLLM, un método de poda que se puede aprender y que establece la dispersión semiestructurada (o ``N:M'') en los LLM, con el objetivo de reducir la sobrecarga computacional durante la inferencia. En lugar de desarrollar un nuevo criterio de importancia, MaskLLM modela explícitamente patrones N:M como una distribución que se puede aprender mediante el muestreo de Gumbel Softmax. Este enfoque facilita la capacitación de un extremo a otro en conjuntos de datos a gran escala y ofrece dos ventajas notables: 1) Máscaras de alta calidad: nuestro método se escala de manera efectiva a grandes conjuntos de datos y aprende máscaras precisas; 2) Transferibilidad: el modelado probabilístico de la distribución de máscaras permite la transferencia del aprendizaje de la escasez entre dominios o tareas. Evaluamos MaskLLM utilizando una dispersión de 2:4 en varios LLM, incluidos LLaMA-2, Nemotron-4 y GPT-3, con tamaños que van desde parámetros 843M a 15B, y nuestros resultados empíricos muestran mejoras sustanciales con respecto a la tecnología de punta. métodos. Por ejemplo, los enfoques principales logran una perplejidad (PPL) de 10 o más en Wikitext en comparación con la PPL de 5,12 del modelo denso, pero MaskLLM logra una PPL de 6,72 significativamente menor únicamente al aprender las máscaras con pesos congelados. Además, la naturaleza aprendible de MaskLLM permite máscaras personalizadas para la aplicación sin pérdidas de escasez 2:4 a tareas o dominios posteriores. El código está disponible en url{https://github.com/NVlabs/MaskLLM}. |
25 de septiembre de 2024 | Molmo y PixMo: pesos abiertos y datos abiertos para modelos multimodales de última generación | Los modelos multimodales más avanzados de la actualidad siguen siendo propietarios. Los modelos abiertos más potentes dependen en gran medida de datos sintéticos de VLM patentados para lograr un buen rendimiento, destilando efectivamente estos modelos cerrados en modelos abiertos. Como resultado, a la comunidad todavía le faltan conocimientos básicos sobre cómo crear VLM de alto rendimiento desde cero. Presentamos Molmo, una nueva familia de VLM de última generación en su clase de apertura. Nuestra innovación clave es un conjunto de datos de leyendas de imágenes novedoso y muy detallado recopilado en su totalidad de anotadores humanos mediante descripciones basadas en voz. Para permitir una amplia gama de interacciones de los usuarios, también presentamos una combinación diversa de conjuntos de datos para realizar ajustes que incluye preguntas y respuestas en tiempo real y datos de señalización 2D innovadores. El éxito de nuestro enfoque depende de elecciones cuidadosas para los detalles de la arquitectura del modelo, un proceso de capacitación bien ajustado y, lo más importante, la calidad de nuestros conjuntos de datos recién recopilados, todos los cuales se publicarán. El mejor modelo 72B de su clase dentro de la familia Molmo no solo supera a otros en la clase de modelos de peso y datos abiertos, sino que también se compara favorablemente con sistemas propietarios como GPT-4o, Claude 3.5 y Gemini 1.5 tanto en puntos de referencia académicos como en evaluación humana. . Publicaremos todos los pesos de nuestros modelos, los datos de subtítulos y ajustes y el código fuente en un futuro próximo. Los pesos de modelo seleccionados, el código de inferencia y la demostración están disponibles en https://molmo.allenai.org. |
25 de septiembre de 2024 | VPTQ: Cuantización posterior al entrenamiento de vectores de bits extremadamente bajos para modelos de lenguaje grandes | Escalar el tamaño del modelo desafía significativamente la implementación y la inferencia de modelos de lenguaje grandes (LLM). Debido a la redundancia en los pesos LLM, investigaciones recientes se han centrado en llevar la cuantificación de solo peso a bits extremadamente bajos (incluso hasta 2 bits). Reduce los requisitos de memoria, optimiza los costos de almacenamiento y disminuye las necesidades de ancho de banda de la memoria durante la inferencia. Sin embargo, debido a las limitaciones de la representación numérica, la cuantificación de peso tradicional basada en escalares tiene dificultades para lograr un bit tan bajo. Investigaciones recientes sobre cuantificación de vectores (VQ) para LLM han demostrado el potencial de la cuantificación de modelos de bits extremadamente bajos al comprimir vectores en índices utilizando tablas de búsqueda. En este artículo, presentamos la cuantificación vectorial posterior al entrenamiento (VPTQ) para la cuantificación de LLM con bits extremadamente bajos. Utilizamos la optimización de segundo orden para formular el problema LLM VQ y guiar el diseño de nuestro algoritmo de cuantificación resolviendo la optimización. Refinamos aún más los pesos utilizando la optimización de segundo orden independiente del canal para un VQ granular. Además, al descomponer el problema de optimización, proponemos un algoritmo de inicialización del libro de códigos breve y eficaz. También ampliamos VPTQ para admitir la cuantificación de valores atípicos y residuales, lo que mejora la precisión del modelo y lo comprime aún más. Nuestros resultados experimentales muestran que VPTQ reduce la perplejidad de la cuantificación del modelo al |
24 de septiembre de 2024 | Time-MoE: modelos básicos de series temporales a escala de mil millones con una combinación de expertos | El aprendizaje profundo para la predicción de series temporales ha experimentado avances significativos en las últimas décadas. Sin embargo, a pesar del éxito de la capacitación previa a gran escala en los dominios del lenguaje y la visión, los modelos de series temporales previamente entrenados siguen siendo de escala limitada y operan a un alto costo, lo que dificulta el desarrollo de modelos de pronóstico más grandes y capaces en aplicaciones del mundo real. En respuesta, presentamos Time-MoE, una arquitectura unificada y escalable diseñada para entrenar previamente modelos básicos de pronóstico más grandes y más capaces, al tiempo que reduce los costos de inferencia. Al aprovechar un diseño de mezcla escasa de expertos (MoE), Time-MoE mejora la eficiencia computacional al activar solo un subconjunto de redes para cada predicción, lo que reduce la carga computacional y mantiene una alta capacidad del modelo. Esto permite que Time-MoE escale de manera efectiva sin el correspondiente aumento en los costos de inferencia. Time-MoE comprende una familia de modelos de transformadores solo decodificadores que operan de manera autorregresiva y admiten horizontes de pronóstico flexibles con diferentes longitudes de contexto de entrada. Entrenamos previamente estos modelos en nuestro recientemente introducido datos a gran escala Time-300B, que abarca más de 9 dominios y abarca más de 300 mil millones de puntos temporales. Por primera vez, ampliamos un modelo básico de series de tiempo hasta 2,4 mil millones de parámetros, logrando una precisión de pronóstico significativamente mejorada. Nuestros resultados validan la aplicabilidad de las leyes de escala para los tokens de entrenamiento y el tamaño del modelo en el contexto del pronóstico de series de tiempo. En comparación con modelos densos con la misma cantidad de parámetros activados o presupuestos de cálculo equivalentes, nuestros modelos los superan consistentemente por un amplio margen. Estos avances posicionan a Time-MoE como una solución de vanguardia para abordar los desafíos de pronóstico de series de tiempo del mundo real con capacidad, eficiencia y flexibilidad superiores. |
23 de septiembre de 2024 | Un estudio preliminar de o1 en medicina: ¿estamos más cerca de un médico de IA? | Los modelos de lenguajes grandes (LLM) han exhibido capacidades notables en diversos dominios y tareas, ampliando los límites de nuestro conocimiento en aprendizaje y cognición. El último modelo, o1 de OpenAI, se destaca como el primer LLM con una técnica de cadena de pensamiento internalizada que utiliza estrategias de aprendizaje por refuerzo. Si bien ha demostrado capacidades sorprendentemente sólidas en diversas tareas lingüísticas generales, su desempeño en campos especializados como la medicina sigue siendo desconocido. Con este fin, este informe proporciona una exploración exhaustiva de o1 en diferentes escenarios médicos, examinando 3 aspectos clave: comprensión, razonamiento y multilingüismo. Específicamente, nuestra evaluación abarca 6 tareas que utilizan datos de 37 conjuntos de datos médicos, incluidas dos tareas de respuesta a preguntas (QA) recientemente construidas y más desafiantes basadas en cuestionarios médicos profesionales del New England Journal of Medicine (NEJM) y The Lancet. Estos conjuntos de datos ofrecen una mayor relevancia clínica en comparación con los puntos de referencia de control de calidad médico estándar, como MedQA, lo que se traduce de manera más efectiva en una utilidad clínica en el mundo real. Nuestro análisis de o1 sugiere que la capacidad de razonamiento mejorada de los LLM puede beneficiar (significativamente) su capacidad para comprender diversas instrucciones médicas y razonar a través de escenarios clínicos complejos. En particular, o1 supera al GPT-4 anterior en precisión en un promedio de 6,2% y 6,6% en 19 conjuntos de datos y dos escenarios complejos de control de calidad recientemente creados. Pero mientras tanto, identificamos varias debilidades tanto en la capacidad del modelo como en los protocolos de evaluación existentes, incluidas alucinaciones, capacidad multilingüe inconsistente y métricas discrepantes para la evaluación. Publicamos nuestros datos sin procesar y los resultados del modelo en https://ucsc-vlaa.github.io/o1_medicine/ para futuras investigaciones. |
21 de septiembre de 2024 | Seguimiento de instrucciones sin ajuste de instrucciones | El ajuste de instrucciones comúnmente significa ajustar un modelo de lenguaje en pares instrucción-respuesta. Descubrimos dos formas de adaptación (afinación) que son deficientes en comparación con la afinación de instrucciones, pero aún así permiten seguir instrucciones; A esto lo llamamos ajuste de instrucciones implícito. En primer lugar, encontramos que los pares instrucción-respuesta no son necesarios: entrenar únicamente en respuestas, sin instrucciones correspondientes, produce seguimiento de instrucciones. Esto sugiere que los modelos previamente entrenados tienen un mapeo instrucción-respuesta que se revela al enseñarle al modelo la distribución deseada de respuestas. Sin embargo, luego descubrimos que no es necesario enseñar la distribución deseada de respuestas: el entrenamiento de instrucción-respuesta en datos de dominio limitado, como la poesía, todavía conduce a un comportamiento amplio de seguimiento de instrucciones, como la generación de recetas. En particular, cuando las instrucciones son muy diferentes de las del dominio de ajuste fino, las respuestas de los modelos no se adhieren al estilo del dominio de ajuste fino. Para comenzar a explicar el ajuste implícito de las instrucciones, planteamos la hipótesis de que cambios muy simples en la distribución de un modelo de lenguaje producen seguimiento de instrucciones. Respaldamos esto escribiendo a mano un modelo de lenguaje basado en reglas que genera instrucciones siguiendo un producto de expertos con un modelo previamente entrenado. Las reglas consisten en aumentar lentamente la probabilidad de finalizar la secuencia, penalizar la repetición y cambiar uniformemente las probabilidades de 15 palabras. En resumen, las adaptaciones realizadas sin estar diseñadas para lograr el seguimiento de instrucciones pueden hacerlo implícitamente. |
20 de septiembre de 2024 | Imagínese: generación de imágenes personalizadas sin ajustes | Los modelos de difusión han demostrado una eficacia notable en diversas tareas de imagen a imagen. En esta investigación presentamos Imagine Yourself, un modelo de última generación diseñado para la generación de imágenes personalizadas. A diferencia de las técnicas de personalización convencionales basadas en ajustes, Imagine yourself funciona como un modelo sin ajustes, lo que permite a todos los usuarios aprovechar un marco compartido sin ajustes individualizados. Además, trabajos anteriores enfrentaron desafíos al equilibrar la preservación de la identidad, seguir indicaciones complejas y preservar la buena calidad visual, lo que resultó en modelos que tenían un fuerte efecto de copiar y pegar de las imágenes de referencia. Por lo tanto, difícilmente pueden generar imágenes siguiendo indicaciones que requieran cambios significativos en la imagen de referencia, por ejemplo, cambiar la expresión facial, las posturas de la cabeza y el cuerpo, y la diversidad de las imágenes generadas es baja. Para abordar estas limitaciones, nuestro método propuesto introduce 1) un nuevo mecanismo sintético de generación de datos emparejados para fomentar la diversidad de imágenes, 2) una arquitectura de atención completamente paralela con tres codificadores de texto y un codificador de visión completamente entrenable para mejorar la fidelidad del texto, y 3) un Novedosa metodología de ajuste fino de múltiples etapas de grueso a fino que gradualmente traspasa los límites de la calidad visual. Nuestro estudio demuestra que Imagine Yourself supera el modelo de personalización de última generación, exhibiendo capacidades superiores en preservación de identidad, calidad visual y alineación de texto. Este modelo establece una base sólida para diversas aplicaciones de personalización. Los resultados de la evaluación humana validan la superioridad SOTA del modelo en todos los aspectos (preservación de la identidad, fidelidad del texto y atractivo visual) en comparación con los modelos de personalización anteriores. |
19 de septiembre de 2024 | Entrenar modelos de lenguaje para que se autocorrijan mediante el aprendizaje por refuerzo | La autocorrección es una capacidad muy deseable de los modelos de lenguaje grande (LLM), sin embargo, se ha descubierto sistemáticamente que es en gran medida ineficaz en los LLM modernos. Los métodos actuales para entrenar la autocorrección generalmente dependen de múltiples modelos, un modelo más avanzado o formas adicionales de supervisión. Para abordar estas deficiencias, desarrollamos un enfoque de aprendizaje por refuerzo (RL) en línea de múltiples turnos, SCoRe, que mejora significativamente la capacidad de autocorrección de un LLM utilizando datos completamente autogenerados. Para construir SCoRe, primero mostramos que las variantes de ajuste fino supervisado (SFT) en trazas de corrección generadas por modelos fuera de línea a menudo son insuficientes para inculcar un comportamiento de autocorrección. En particular, observamos que el entrenamiento mediante SFT es víctima de un desajuste en la distribución entre los errores cometidos por la política de recopilación de datos y las propias respuestas del modelo, o del colapso del comportamiento, donde el aprendizaje implícitamente prefiere sólo un cierto modo de comportamiento de corrección que a menudo es no es eficaz en la autocorrección de problemas de prueba. SCoRe aborda estos desafíos entrenando bajo la propia distribución del modelo de trazas de corrección autogeneradas y utilizando la regularización adecuada para dirigir el proceso de aprendizaje hacia el aprendizaje de un comportamiento de autocorrección que sea efectivo en el momento de la prueba en lugar de adaptar respuestas de alta recompensa para un momento determinado. inmediato. Este proceso de regularización incluye una fase inicial de RL de múltiples turnos en un modelo base para generar una inicialización de política que sea menos susceptible al colapso, seguida del uso de una bonificación de recompensa para amplificar la autocorrección. Con los modelos Gemini 1.0 Pro y 1.5 Flash, encontramos que SCoRe logra un rendimiento de autocorrección de última generación, mejorando la autocorrección de los modelos base en un 15,6 % y 9,1 % respectivamente en MATH y HumanEval. |
19 de septiembre de 2024 | Escalado inteligente: aceleración del preentrenamiento de modelos de lenguaje grandes con inicialización de modelos pequeños | La fase previa al entrenamiento de los modelos de lenguaje a menudo comienza con parámetros inicializados aleatoriamente. Con las tendencias actuales en modelos de escala, entrenar su gran cantidad de parámetros puede resultar extremadamente lento y costoso. Por el contrario, los modelos de lenguaje pequeños son menos costosos de entrenar, pero a menudo no pueden alcanzar la precisión de los modelos grandes. En este artículo, exploramos una idea intrigante para conectar estos dos regímenes diferentes: ¿podemos desarrollar un método para inicializar modelos de lenguaje grandes utilizando modelos más pequeños previamente entrenados? ¿Tal inicialización traerá algún beneficio en términos de tiempo de entrenamiento y precisión final? En este artículo, presentamos HyperCloning, un método que puede expandir los parámetros de un modelo de lenguaje previamente entrenado a los de un modelo más grande con mayores dimensiones ocultas. Nuestro método garantiza que el modelo más grande conserve la funcionalidad del modelo más pequeño. Como resultado, el modelo más grande ya hereda el poder predictivo y la precisión del modelo más pequeño antes de que comience el entrenamiento. Demostramos que entrenar un modelo inicializado de este tipo genera ahorros significativos en términos de horas de GPU necesarias para el entrenamiento previo de modelos de lenguaje grandes. |
18 de septiembre de 2024 | Informe técnico del codificador Qwen2.5 | En este informe, presentamos la serie Qwen2.5-Coder, una actualización significativa de su predecesor, CodeQwen1.5. Esta serie incluye dos modelos: Qwen2.5-Coder-1.5B y Qwen2.5-Coder-7B. Como modelo de código específico, Qwen2.5-Coder se basa en la arquitectura Qwen2.5 y continúa preentrenado en un vasto corpus de más de 5,5 billones de tokens. A través de una meticulosa limpieza de datos, generación de datos sintéticos escalables y combinación equilibrada de datos, Qwen2.5-Coder demuestra capacidades impresionantes de generación de código al tiempo que conserva la versatilidad general. El modelo ha sido evaluado en una amplia gama de tareas relacionadas con el código, logrando un rendimiento de vanguardia (SOTA) en más de 10 puntos de referencia, incluida la generación, finalización, razonamiento y reparación del código, superando consistentemente a los modelos más grandes del Mismo tamaño del modelo. Creemos que el lanzamiento de la serie Qwen2.5-Coder no sólo ampliará los límites de la investigación en inteligencia de código sino que también, a través de su licencia permisiva, fomentará una adopción más amplia por parte de los desarrolladores en aplicaciones del mundo real. |
18 de septiembre de 2024 | Un estudio controlado sobre extensión y generalización de contextos largos en LLM | La comprensión textual amplia y el aprendizaje en contexto requieren modelos de lenguaje que utilicen contextos de documentos completos. Debido a los desafíos de implementación asociados con el entrenamiento directo de modelos de contexto largo, se han propuesto muchos métodos para extender los modelos para manejar contextos largos. Sin embargo, debido a las diferencias en los datos y las clases de modelos, ha sido un desafío comparar estos enfoques, lo que genera incertidumbre sobre cómo evaluar el desempeño en el contexto a largo plazo y si difiere de la evaluación estándar. Implementamos un protocolo controlado para métodos de extensión con una evaluación estandarizada, utilizando modelos base consistentes y datos de extensión. Nuestro estudio arroja varias ideas sobre el comportamiento a largo plazo. En primer lugar, reafirmamos el papel fundamental de la perplejidad como indicador de desempeño de propósito general incluso en tareas de contexto más largo. En segundo lugar, encontramos que los métodos actuales de atención aproximada tienen sistemáticamente un rendimiento inferior en tareas de contexto prolongado. Finalmente, confirmamos que los métodos basados en ajustes exactos son generalmente efectivos dentro del rango de su extensión, mientras que la extrapolación sigue siendo un desafío. Todas las bases de código, modelos y puntos de control estarán disponibles en código abierto, lo que promoverá la transparencia y facilitará más investigaciones en esta área crítica del desarrollo de la IA. |
18 de septiembre de 2024 | LLM + Persona-Plug = LLM personalizados | La personalización desempeña un papel fundamental en numerosas tareas y aplicaciones lingüísticas, ya que los usuarios con los mismos requisitos pueden preferir resultados diversos según sus intereses individuales. Esto ha llevado al desarrollo de varios enfoques personalizados destinados a adaptar grandes modelos de lenguaje (LLM) para generar resultados personalizados alineados con las preferencias del usuario. Algunos de ellos implican ajustar un LLM personalizado único para cada usuario, lo cual es demasiado costoso para una aplicación generalizada. Los enfoques alternativos introducen información de personalización de forma plug-and-play recuperando los textos históricos relevantes del usuario como demostraciones. Sin embargo, esta estrategia basada en la recuperación puede romper la continuidad del historial del usuario y no capturar los estilos y patrones generales del usuario, lo que conduce a un rendimiento subóptimo. Para abordar estos desafíos, proponemos un novedoso modelo LLM personalizado, el nuestro{}. Construye una incrustación específica de usuario para cada individuo modelando todos sus contextos históricos a través de un módulo de incrustación de usuario plug-in liviano. Al adjuntar esta incorporación a la entrada de la tarea, los LLM pueden comprender y capturar mejor los hábitos y preferencias de los usuarios, produciendo así resultados más personalizados sin ajustar sus propios parámetros. Amplios experimentos en diversas tareas en el punto de referencia de personalización del modelo de lenguaje (LaMP) demuestran que el modelo propuesto supera significativamente los enfoques LLM personalizados existentes. |
17 de septiembre de 2024 | NVLM: LLM multimodales de clase de frontera abierta | Presentamos NVLM 1.0, una familia de modelos de lenguaje grande (LLM) multimodales de vanguardia que logran resultados de última generación en tareas de visión y lenguaje, rivalizando con los principales modelos propietarios (por ejemplo, GPT-4o) y de acceso abierto. modelos (por ejemplo, Llama 3-V 405B e InternVL 2). Sorprendentemente, NVLM 1.0 muestra un rendimiento mejorado de solo texto en comparación con su columna vertebral LLM después del entrenamiento multimodal. En términos de diseño de modelos, realizamos una comparación exhaustiva entre LLM multimodales solo con decodificador (p. ej., LLaVA) y modelos basados en atención cruzada (p. ej., Flamingo). Con base en las fortalezas y debilidades de ambos enfoques, proponemos una arquitectura novedosa que mejora tanto la eficiencia del entrenamiento como las capacidades de razonamiento multimodal. Además, presentamos un diseño de etiquetado de mosaicos 1-D para imágenes dinámicas de alta resolución basadas en mosaicos, que aumenta significativamente el rendimiento en el razonamiento multimodal y las tareas relacionadas con OCR. Con respecto a los datos de entrenamiento, seleccionamos y proporcionamos meticulosamente información detallada sobre nuestro preentrenamiento multimodal y conjuntos de datos de ajuste fino supervisados. Nuestros hallazgos indican que la calidad del conjunto de datos y la diversidad de tareas son más importantes que la escala, incluso durante la fase previa al entrenamiento, en todas las arquitecturas. En particular, desarrollamos multimodalidad de nivel de producción para los modelos NVLM-1.0, lo que les permite sobresalir en tareas de visión y lenguaje mientras mantenemos e incluso mejoramos el rendimiento de solo texto en comparación con sus pilares LLM. Para lograr esto, elaboramos e integramos un conjunto de datos de texto de alta calidad en el entrenamiento multimodal, junto con una cantidad sustancial de datos matemáticos y de razonamiento multimodales, lo que lleva a capacidades mejoradas de matemáticas y codificación en todas las modalidades. Para avanzar en la investigación en el campo, publicaremos los pesos del modelo y abriremos el código para la comunidad: https://nvlm-project.github.io/. |
17 de septiembre de 2024 | Solicitante: los recuperadores capacitados en instrucción pueden recibir indicaciones como modelos de lenguaje | Los modelos de lenguaje ajustados a instrucciones (LM) pueden responder a comandos imperativos, proporcionando una interfaz de usuario más natural en comparación con sus homólogos básicos. En este trabajo presentamos Promptriever, el primer modelo de recuperación capaz de ser activado como un LM. Para entrenar a Promptriever, seleccionamos y lanzamos un nuevo conjunto de capacitación de instrucciones a nivel de instancia de MS MARCO, que abarca casi 500 mil instancias. Promptriever no sólo logra un buen rendimiento en tareas de recuperación estándar, sino que también sigue instrucciones. Observamos: (1) grandes ganancias (alcanzando SoTA) al seguir instrucciones de relevancia detalladas (+14,3 p-MRR / +3,1 nDCG en FollowIR), (2) solidez significativamente mayor a las opciones léxicas/frases en la consulta+instrucción (+12,9 Robustez@10 en InstructIR) y (3) la capacidad de realizar búsquedas de hiperparámetros mediante indicaciones para mejorar de manera confiable el rendimiento de recuperación (aumento promedio de +1,4 en BEIR). Promptriever demuestra que los modelos de recuperación se pueden controlar con indicaciones por consulta, preparando el escenario para trabajos futuros que alineen las técnicas de indicaciones de LM con la recuperación de información. |
17 de septiembre de 2024 | Una evaluación integral de modelos de lenguaje grande sintonizados con instrucciones cuantificadas: un análisis experimental hasta 405B | Trabajos de investigación anteriores han evaluado LLM cuantificados utilizando métricas limitadas como la perplejidad o algunas tareas de conocimiento básico y conjuntos de datos antiguos. Además, los modelos recientes a gran escala, como el Llama 3.1 con hasta 405B, no se han examinado en profundidad. Este artículo evalúa el rendimiento de LLM ajustados por instrucciones a través de varios métodos de cuantificación (GPTQ, AWQ, SmoothQuant y FP8) en modelos que van desde 7B a 405B. Utilizando 13 puntos de referencia, evaluamos el desempeño en seis tipos de tareas: preguntas y respuestas de sentido común, conocimiento y comprensión del lenguaje, seguimiento de instrucciones, detección de alucinaciones, matemáticas y diálogo. Nuestros hallazgos clave revelan que (1) la cuantificación de un LLM más grande a un tamaño similar al de un LLM FP16 más pequeño generalmente funciona mejor en la mayoría de los puntos de referencia, excepto en la detección de alucinaciones y el seguimiento de instrucciones; (2) el rendimiento varía significativamente con diferentes métodos de cuantificación, tamaño de modelo y ancho de bits, y los métodos de solo peso a menudo producen mejores resultados en modelos más grandes; (3) la dificultad de la tarea no afecta significativamente la degradación de la precisión debido a la cuantificación; y (4) el método de evaluación MT-Bench tiene un poder discriminatorio limitado entre los LLM recientes de alto rendimiento. |
16 de septiembre de 2024 | RetrievalAttention: Acelerar la inferencia LLM de contexto largo mediante la recuperación de vectores | Los modelos de lenguaje grande (LLM) basados en transformadores se han vuelto cada vez más importantes. Sin embargo, debido a la complejidad del tiempo cuadrático del cálculo de la atención, escalar los LLM a contextos más largos genera una latencia de inferencia extremadamente lenta y un alto consumo de memoria de GPU para almacenar en caché los vectores de valores clave (KV). Este artículo propone RetrievalAttention, un enfoque sin capacitación para acelerar el cálculo de la atención y reducir el consumo de memoria de la GPU. Al aprovechar el mecanismo dinámico de escasez de atención, RetrievalAttention propone utilizar índices aproximados de búsqueda del vecino más cercano (ANNS) para vectores KV en la memoria de la CPU y recupera los más relevantes con la búsqueda de vectores durante la generación. Desafortunadamente, observamos que los índices ANNS disponibles en el mercado suelen ser ineficaces para este tipo de tareas de recuperación debido a la falta de distribución (OOD) entre los vectores de consulta y los vectores clave en el mecanismo de atención. RetrievalAttention aborda el desafío OOD mediante el diseño de un algoritmo de búsqueda de vectores consciente de la atención que puede adaptarse a la distribución de los vectores de consulta. Nuestra evaluación muestra que RetrievalAttention solo necesita acceder al 1-3% de los datos mientras mantiene una alta precisión del modelo. Esto conduce a una reducción significativa en el costo de inferencia de los LLM de contexto largo con una huella de memoria de GPU mucho menor. En particular, RetrievalAttention solo necesita una única NVIDIA RTX4090 (24 GB) para entregar 128 000 tokens en LLM con parámetros de 8 B, que es capaz de generar un token en 0,188 segundos. |
16 de septiembre de 2024 | Transformador Kolmogorov-Arnold | Los transformadores son la piedra angular del aprendizaje profundo moderno. Tradicionalmente, estos modelos se basan en capas de perceptrón multicapa (MLP) para mezclar la información entre canales. En este artículo, presentamos el Transformador Kolmogorov-Arnold (KAT), una arquitectura novedosa que reemplaza las capas MLP con capas de la Red Kolmogorov-Arnold (KAN) para mejorar la expresividad y el rendimiento del modelo. Sin embargo, integrar KAN en transformadores no es tarea fácil, especialmente cuando se amplía. En concreto, identificamos tres retos clave: (C1) Función base. La función B-spline estándar utilizada en los KAN no está optimizada para la computación paralela en hardware moderno, lo que da como resultado velocidades de inferencia más lentas. (C2) Ineficiencia de parámetros y cálculo. KAN requiere una función única para cada par de entrada-salida, lo que hace que el cálculo sea extremadamente grande. (C3) Inicialización del peso. La inicialización de pesos en KAN es particularmente desafiante debido a sus funciones de activación que se pueden aprender, que son críticas para lograr la convergencia en redes neuronales profundas. Para superar los desafíos antes mencionados, proponemos tres soluciones clave: (S1) Base racional. Reemplazamos las funciones B-spline con funciones racionales para mejorar la compatibilidad con las GPU modernas. Al implementar esto en CUDA, logramos cálculos más rápidos. (S2) Grupo KAN. Compartimos los pesos de activación a través de un grupo de neuronas, para reducir la carga computacional sin sacrificar el rendimiento. (S3) Inicialización que preserva la varianza. Inicializamos cuidadosamente los pesos de activación para asegurarnos de que la varianza de activación se mantenga entre las capas. Con estos diseños, KAT escala de manera efectiva y fácil supera a los transformadores tradicionales basados en MLP. |
16 de septiembre de 2024 | En el diagrama de pensamiento | Introducimos el diagrama de pensamiento (DOT), un marco que modela el razonamiento iterativo en modelos de idiomas grandes (LLM) como la construcción de un gráfico acíclico dirigido (DAG) dentro de un solo modelo. A diferencia de los enfoques tradicionales que representan el razonamiento como cadenas o árboles lineales, DOT organiza proposiciones, críticas, refinamientos y verificaciones en una estructura DAG cohesiva, lo que permite que el modelo explore vías de razonamiento complejas mientras mantiene la consistencia lógica. Cada nodo en el diagrama corresponde a una proposición que se ha propuesto, criticado, refinado o verificado, lo que permite que la LLM mejore iterativamente su razonamiento a través de la retroalimentación del lenguaje natural. Al aprovechar la predicción de la próxima token automática con tokens específicos de roles, DOT facilita las transiciones perfectas entre proponer ideas y evaluarlas críticamente, proporcionando comentarios más ricos que las señales binarias. Además, formalizamos el marco DOT utilizando la teoría de los topos, proporcionando una base matemática que garantiza la consistencia y solidez lógica en el proceso de razonamiento. Este enfoque mejora tanto los procesos de entrenamiento como de inferencia dentro de un solo LLM, eliminando la necesidad de múltiples modelos o mecanismos de control externos. DOT ofrece un marco conceptual para diseñar modelos especializados por razonamiento de próxima generación, enfatizando la eficiencia de la capacitación, las capacidades de razonamiento robustas y la base teórica. El código está disponible en https://github.com/diagram-of-thought/diagram-of-thought. |
12 de septiembre de 2024 | DSBIGH: ¿Hasta dónde están los agentes de ciencia de datos para convertirse en expertos en ciencias de datos? | Los modelos de idiomas grandes (LLM) y los grandes modelos en idioma de visión (LVLM) han demostrado impresionantes habilidades de razonamiento de lenguaje/visión, encendiendo la tendencia reciente de agentes de construcción para aplicaciones específicas como asistentes de compras o ingenieros de software de IA. Recientemente, se han propuesto muchos puntos de referencia de ciencia de datos para investigar su desempeño en el dominio de la ciencia de datos. Sin embargo, los puntos de referencia de ciencia de datos existentes aún se quedan cortos en comparación con las aplicaciones de ciencia de datos del mundo real debido a su configuración simplificada. Para cerrar esta brecha, presentamos a DSBench, un punto de referencia integral diseñado para evaluar a los agentes de ciencias de datos con tareas realistas. Este punto de referencia incluye 466 tareas de análisis de datos y 74 tareas de modelado de datos, procedentes de competiciones de elocuencia y kaggle. DSBench ofrece una configuración realista al abarcar contextos largos, antecedentes multimodales, razonamiento con grandes archivos de datos y estructuras múltiples y realizando tareas de modelado de datos de extremo a extremo. Nuestra evaluación de LLM de vanguardia, LVLM y agentes muestra que luchan con la mayoría de las tareas, con el mejor agente que resuelve solo el 34.12% de las tareas de análisis de datos y logrando una brecha de rendimiento (RPG) relativa del 34.74%. Estos hallazgos subrayan la necesidad de avances adicionales en el desarrollo de agentes de ciencia de datos más prácticos, inteligentes y autónomos. |
10 de septiembre de 2024 | Pingpong: un punto de referencia para modelos de lenguaje de rol con emulación de usuarios y evaluación de múltiples modelos | Introducimos un nuevo punto de referencia para evaluar las capacidades de juego de roles de los modelos de idiomas. Nuestro enfoque aprovecha los modelos de lenguaje para emular a los usuarios en conversaciones dinámicas y de múltiples vueltas y evaluar los diálogos resultantes. El marco consta de tres componentes principales: un modelo de reproductor que asume un papel de caracteres específico, un modelo interrogador que simula el comportamiento del usuario y un modelo de juez que evalúa la calidad de la conversación. Realizamos experimentos que comparan evaluaciones automatizadas con anotaciones humanas para validar nuestro enfoque, demostrando fuertes correlaciones en múltiples criterios. Este trabajo proporciona una base para una evaluación robusta y dinámica de las capacidades del modelo en escenarios interactivos. |
10 de septiembre de 2024 | Llama-OMNI: interacción del habla sin problemas con modelos de idiomas grandes | Modelos como GPT-4O permiten la interacción en tiempo real con modelos de idiomas grandes (LLM) a través del habla, mejorando significativamente la experiencia del usuario en comparación con la interacción tradicional basada en texto. Sin embargo, todavía hay una falta de exploración sobre cómo construir modelos de interacción del habla basados en LLM de código abierto. Para abordar esto, proponemos LLAMA-AMNI, una nueva arquitectura modelo diseñada para interacción del habla de baja latencia y alta calidad con LLM. Llama-AMNI integra un codificador de discurso previamente prostrado, un adaptador de habla, un LLM y un decodificador de discurso de transmisión. Elimina la necesidad de transcripción del habla, y puede generar simultáneamente respuestas de texto y habla directamente a partir de las instrucciones del habla con una latencia extremadamente baja. Construimos nuestro modelo basado en el último modelo LLAMA-3.1-8B-Instructo. Para alinear el modelo con los escenarios de interacción del habla, construimos un conjunto de datos llamado Instructs2S-200k, que incluye 200k instrucciones del habla y respuestas del habla correspondientes. Los resultados experimentales muestran que, en comparación con los modelos anteriores del habla y el lenguaje, Llama-AMNI proporciona mejores respuestas tanto en contenido como en estilo, con una latencia de respuesta tan baja como 226 ms. Además, la capacitación Llama-AMNI lleva menos de 3 días en solo 4 GPU, allanando el camino para el desarrollo eficiente de los modelos del habla y el lenguaje en el futuro. |
10 de septiembre de 2024 | ¿Pueden los modelos de idiomas grandes desbloquear nuevas ideas de investigación científica? | "Una idea no es nada más ni menos que una nueva combinación de elementos viejos" (Young, JW). La adopción generalizada de grandes modelos de idiomas (LLM) y el chatGPT disponible públicamente han marcado un punto de inflexión significativo en la integración de la inteligencia artificial (IA) en la vida cotidiana de las personas. Este estudio explora la capacidad de LLM en la generación de nuevas ideas de investigación basadas en información de trabajos de investigación. Realizamos un examen exhaustivo de 4 LLM en cinco dominios (por ejemplo, química, computadora, economía, médica y física). Descubrimos que las futuras ideas de investigación generadas por Claude-2 y GPT-4 están más alineadas con la perspectiva del autor que GPT-3.5 y Gemini. También encontramos que Claude-2 genera ideas de investigación futuras más diversas que GPT-4, GPT-3.5 y Gemini 1.0. Además, realizamos una evaluación humana de la novedad, la relevancia y la viabilidad de las ideas de investigación futuras generadas. Esta investigación ofrece información sobre el papel en evolución de los LLM en la generación de ideas, destacando tanto su capacidad como sus limitaciones. Nuestro trabajo contribuye a los esfuerzos continuos para evaluar y utilizar modelos de idiomas para generar futuras ideas de investigación. Hacemos nuestros conjuntos de datos y códigos disponibles públicamente. |
9 de septiembre de 2024 | SongCreator: Generación de canciones universal basada en letras | La música es una parte integral de la cultura humana, que encarna la inteligencia y la creatividad humana, de la cual las canciones componen una parte esencial. Si bien varios aspectos de la generación de canciones han sido explorados por obras anteriores, como la voz de canto, la composición vocal y el arreglo instrumental, etc., generar canciones con voces y acompañamiento que se le dan a mundo real. Desde este punto de vista, proponemos SongCreator, un sistema de generación de canciones diseñado para enfrentar este desafío. El modelo presenta dos diseños novedosos: un modelo de lenguaje de doble secuencia meticulosamente diseñado (DSLM) para capturar la información de las voces y el acompañamiento para la generación de canciones, y una estrategia de máscara de atención adicional para DSLM, que permite que nuestro modelo comprenda, genere y edite canciones , haciéndolo adecuado para varias tareas de generación relacionadas con las canciones. Experimentos extensos demuestran la efectividad de SongCreator al lograr actuaciones competitivas o de última generación en las ocho tareas. En particular, supera los trabajos anteriores de un gran margen en letra a canción y letra a vocals. Además, es capaz de controlar de forma independiente las condiciones acústicas de las voces y el acompañamiento en la canción generada a través de diferentes indicaciones, exhibiendo su aplicabilidad potencial. Nuestras muestras están disponibles en https://songcreator.github.io/. |
9 de septiembre de 2024 | Hiperagente: agentes generalistas de ingeniería de software para resolver tareas de codificación a escala | Los modelos de idiomas grandes (LLM) han revolucionado la ingeniería de software (SE), lo que demuestra capacidades notables en diversas tareas de codificación. Si bien los esfuerzos recientes han producido agentes de software autónomos basados en LLM para tareas de desarrollo de extremo a extremo, estos sistemas generalmente están diseñados para tareas SE específicas. Introducimos a Hyperagent, un nuevo sistema generalista de agente múltiple diseñado para abordar un amplio espectro de tareas SE en diferentes lenguajes de programación al imitar los flujos de trabajo de los desarrolladores humanos. Compuesto por cuatro agentes especializados: planificador, navegador, editor de código y ejecutor. Hyperagent gestiona el ciclo de vida completo de las tareas SE, desde la concepción inicial hasta la verificación final. A través de evaluaciones extensas, Hyperagent logra un rendimiento de vanguardia en diversas tareas SE: alcanza una tasa de éxito del 25.01% en SWE-Bench-Lite y 31.40% en SWE-Bench-Bench-Bench para la resolución de problemas de GitHub, superando los métodos existentes. Además, Hyperagent demuestra el rendimiento de SOTA en la generación de códigos a nivel de repositorio (RepoExec), y en la localización de fallas y la reparación del programa (defectos 4J), a menudo superan los sistemas especializados. Este trabajo representa un avance significativo hacia agentes versátiles y autónomos capaces de manejar tareas complejas de SE de varios pasos en varios dominios e idiomas, potencialmente transformando las prácticas de desarrollo de software asistidas por AI-AI. |
9 de septiembre de 2024 | Memorag: avanzar hacia el trapo de próxima generación a través del descubrimiento de conocimiento inspirado en la memoria | La generación de recuperación de la generación (RAG) aprovecha las herramientas de recuperación para acceder a bases de datos externas, mejorando así la calidad de generación de modelos de idiomas grandes (LLM) a través de un contexto optimizado. Sin embargo, los métodos de recuperación existentes están restringidos inherentemente, ya que solo pueden realizar una correspondencia de relevancia entre consultas explícitamente declaradas y conocimientos bien formados, pero no pueden manejar tareas que involucren necesidades de información ambigua o conocimiento no estructurado. En consecuencia, los sistemas de RAG existentes son principalmente efectivos para tareas sencillas de respuesta de preguntas. En este trabajo, proponemos Memorag, un nuevo paradigma de generación de recuperación de recuperación empoderada por la memoria a largo plazo. Memorag adopta una arquitectura de doble sistema. Por un lado, emplea un LLM ligero pero de largo alcance para formar la memoria global de la base de datos. Una vez que se presenta una tarea, genera un borrador de respuestas, con el límite de las herramientas de recuperación para localizar información útil dentro de la base de datos. Por otro lado, aprovecha un LLM costoso pero expresivo, que genera la respuesta final basada en la información recuperada. Sobre la base de este marco general, optimizamos aún más el rendimiento de Memorag al mejorar su mecanismo de pila y su capacidad de memorización. En nuestro experimento, MEMORAG logra un rendimiento superior en una variedad de tareas de evaluación, incluidas las dos complejas donde falla el trapo convencional y las sencillas donde se aplica comúnmente el trapo. |
8 de septiembre de 2024 | OneGen: generación y recuperación unificadas de un paso eficiente para LLMS | A pesar de los avances recientes en modelos de idiomas grandes (LLM), que han mejorado significativamente las capacidades generativas para varias tareas de PNL, los LLM aún enfrentan limitaciones en el manejo directamente de tareas de recuperación. Sin embargo, muchas aplicaciones prácticas exigen la integración perfecta de recuperación y generación. Este artículo presenta un marco de generación y recuperación de un paso novedoso y eficiente (OneGen), diseñado para mejorar el rendimiento de LLMS en tareas que requieren generación y recuperación. El marco propuesto une los enfoques de capacitación tradicionalmente separados para la generación y recuperación al incorporar tokens de recuperación generados de manera autorregresiva. Esto permite que un solo LLM maneje ambas tareas simultáneamente en un pase hacia adelante unificado. Llevamos a cabo experimentos en dos tipos distintos de tareas compuestas, el enlace de trapo y entidad, para validar la ajustabilidad, la efectividad y la eficiencia de OneGen en el entrenamiento y la inferencia. Además, nuestros resultados muestran que la integración de la generación y la recuperación dentro del mismo contexto conservan las capacidades generativas de los LLM al tiempo que mejora el rendimiento de la recuperación. Hasta donde sabemos, OneGen es el primero en permitir que los LLM realicen la recuperación de vectores durante la generación. |
6 de septiembre de 2024 | Copiloto en papel: un sistema LLM de autoevolución y eficiente para asistencia académica personalizada | A medida que la investigación científica prolifera, los investigadores enfrentan la desalentadora tarea de navegar y leer grandes cantidades de literatura. Las soluciones existentes, como el QA del documento, no proporcionan información personalizada y actualizada de manera eficiente. Presentamos el copiloto de papel, un sistema LLM eficiente y evolución de la autoevolución diseñada para ayudar a los investigadores, basados en la retrievación de pensamiento, el perfil de usuario y la optimización de alto rendimiento. Específicamente, Paper Copilot puede ofrecer servicios de investigación personalizados, manteniendo una base de datos actualizada en tiempo real. La evaluación cuantitativa demuestra que el copiloto de papel ahorra el 69.92% del tiempo después de la implementación eficiente. Este documento detalla el diseño e implementación del copilot en papel, destacando sus contribuciones al apoyo académico personalizado y su potencial para optimizar el proceso de investigación. |
5 de septiembre de 2024 | Jefes de atención de modelos de idiomas grandes: una encuesta | Desde el advenimiento de ChatGPT, los modelos de idiomas grandes (LLM) se han destacado en varias tareas, pero permanecen como sistemas de caja negra. En consecuencia, los cuellos de botella de razonamiento de LLM están influenciados principalmente por su arquitectura interna. Como resultado, muchos investigadores han comenzado a explorar los posibles mecanismos internos de los LLM, y la mayoría de los estudios se centran en los cabezales de atención. Nuestra encuesta tiene como objetivo arrojar luz sobre los procesos de razonamiento interno de LLM concentrándose en los mecanismos subyacentes de las cabezas de atención. Primero destilamos el proceso de pensamiento humano en un marco de cuatro etapas: recuerdo del conocimiento, identificación en contexto, razonamiento latente y preparación de expresión. Usando este marco, revisamos sistemáticamente la investigación existente para identificar y clasificar las funciones de cabezas de atención específicas. Además, resumimos las metodologías experimentales utilizadas para descubrir estas cabezas especiales, dividiéndolas en dos categorías: métodos sin modelado y métodos requeridos por el modelado. Además, describimos los métodos de evaluación y los puntos de referencia relevantes. Finalmente, discutimos las limitaciones de la investigación actual y proponemos varias direcciones futuras potenciales. |
5 de septiembre de 2024 | ¿Cómo funcionan su código LLM? Empoderar el ajuste de instrucciones del código con datos de alta calidad | Recientemente, ha habido un creciente interés en estudiar cómo construir mejores datos de ajuste de instrucciones de código. Sin embargo, observamos modelos de código capacitados con estos conjuntos de datos exhiben un alto rendimiento en Humaneval, pero funcionan peor en otros puntos de referencia como LivecodeBench. Tras una mayor investigación, encontramos que muchos conjuntos de datos sufren una grave fuga de datos. Después de limpiar la mayoría de los datos filtrados, algunos conjuntos de datos de alta calidad bien conocidos funcionan mal. Este descubrimiento revela un nuevo desafío: identificar qué conjunto de datos califican genuinamente como datos de instrucciones de código de alta calidad. Para abordar esto, proponemos una estrategia de poda de datos de código eficiente para seleccionar buenas muestras. Nuestro enfoque se basa en tres dimensiones: complejidad de la instrucción, calidad de respuesta y diversidad de instrucciones. Según nuestros datos seleccionados, presentamos XCoder, una familia de modelos Finetuned de LLAMA3. Nuestros experimentos muestran que XCoder logra un nuevo rendimiento de última generación utilizando menos datos de capacitación, lo que verifica la efectividad de nuestra estrategia de datos. Además, realizamos un análisis exhaustivo en la composición de datos y encontramos que los conjuntos de datos de código existentes tienen diferentes características según sus métodos de construcción, que proporcionan nuevas ideas para futuros LLM de código. Nuestros modelos y conjunto de datos se lanzan en https://github.com/banksy23/xcoder |
5 de septiembre de 2024 | De MOOC a MAIC: remodelando la enseñanza y el aprendizaje en línea a través de agentes impulsados por LLM | Desde los primeros casos de educación en línea, donde los cursos se subieron a plataformas en línea accesibles y compartidas, esta forma de escalar la difusión del conocimiento humano para llegar a un público más amplio ha provocado una amplia discusión y una adopción generalizada. Reconociendo que el aprendizaje personalizado todavía tiene un potencial significativo de mejora, las nuevas tecnologías de IA se han integrado continuamente en este formato de aprendizaje, lo que resulta en una variedad de aplicaciones educativas de IA como recomendación educativa y tutoría inteligente. La aparición de inteligencia en modelos de lenguaje grande (LLM) ha permitido que estas mejoras educativas se construyan sobre un modelo fundamental unificado, lo que permite una integración más profunda. En este contexto, proponemos MAIC (curso masivo de trabajo AI), una nueva forma de educación en línea que aprovecha los sistemas de múltiples agentes impulsados por LLM para construir un aula acompañada de AI, equilibrando la escalabilidad con la adaptación. Más allá de explorar el marco conceptual y las innovaciones técnicas, realizamos experimentos preliminares en la Universidad de Tsinghua, una de las principales universidades de China. Basándose de más de 100,000 registros de aprendizaje de más de 500 estudiantes, obtenemos una serie de observaciones valiosas y análisis iniciales. Este proyecto continuará evolucionando, en última instancia, con el objetivo de establecer una plataforma abierta integral que respalde y unifice la investigación, la tecnología y las aplicaciones para explorar las posibilidades de la educación en línea en la era de la gran IA modelo. Imaginamos esta plataforma como un centro colaborativo, que reúne a educadores, investigadores e innovadores para explorar colectivamente el futuro de la educación en línea impulsada por la IA. |
4 de septiembre de 2024 | Longcite: permitiendo que los LLM generen citas de grano fino en QA de contexto largo | Aunque los modelos actuales de idiomas de gran contexto largo (LLMS) han demostrado capacidades impresionantes para responder preguntas de los usuarios basadas en un texto extenso, la falta de citas en sus respuestas dificulta la verificación del usuario, lo que lleva a las preocupaciones sobre su confiabilidad debido a sus posibles alucinaciones. En este trabajo, nuestro objetivo es permitir que LLM de contexto largo genere respuestas con citas de nivel de oración de grano fino, mejorando su fidelidad y verificabilidad. Primero presentamos LongBench-Cite, un punto de referencia automatizado para evaluar el rendimiento de los LLM actuales en la respuesta de preguntas de contexto largo con citas (LQAC), que revela un lugar considerable para mejorar. Con este fin, proponemos COF (grueso a Fine), una tubería novedosa que utiliza LLMS en el estante para generar automáticamente instancias de control de largo contexto con citas precisas a nivel de oración, y aprovechar esta tubería para construir Longcite-45K, a A conjunto de datos SFT a gran escala para LQAC. Finalmente, entrenamos LongCite-8B y Longcite-9B utilizando el conjunto de datos Longcite-45K, permitiendo con éxito su generación de respuestas precisas y citas de nivel de oración de grano fino en una sola salida. Los resultados de la evaluación en Longbench-Cite muestran que nuestros modelos entrenados logran la calidad de las citas de última generación, superando los modelos propietarios avanzados, incluido GPT-4O. |
4 de septiembre de 2024 | Longllava: escala de LLM multimodal a 1000 imágenes de manera eficiente a través de una arquitectura híbrida | Ampliar las capacidades de contexto a largo plazo de los modelos de lenguaje grande multimodal ~ (MLLMS) es crucial para la comprensión de video, la comprensión de imágenes de alta resolución y los agentes multimodales. Esto implica una serie de optimizaciones sistemáticas, incluidas la arquitectura de modelos, la construcción de datos y la estrategia de capacitación, particularmente abordar desafíos como textit {rendimiento degradado con más imágenes} y textit {altos costos computacionales}. En este artículo, adaptamos la arquitectura modelo a un híbrido de bloques de mamba y transformadores, abordamos la construcción de datos con dependencias temporales y espaciales entre múltiples imágenes y emplea una estrategia de capacitación progresiva. El modelo lanzado textbf {longllava} ~ ( textbf {long} -context textbf {l} arge textbf {l} anguage textbf {a} nd textbf {v} istr textbf {a} ssistant) es el Primer MLLM híbrido, que logró un mejor equilibrio entre eficiencia y efectividad. Longllava no solo logra resultados competitivos en varios puntos de referencia, sino que también mantiene un alto rendimiento y bajo consumo de memoria. Especialmente, podría procesar casi mil imágenes en una sola GPU A100 80GB, mostrando perspectivas prometedoras de aplicaciones para una amplia gama de tareas. |
4 de septiembre de 2024 | Hacia una visión unificada del aprendizaje de preferencias para modelos de idiomas grandes: una encuesta | Los modelos de idiomas grandes (LLM) exhiben capacidades notablemente potentes. Uno de los factores cruciales para lograr el éxito es alinear la producción de la LLM con las preferencias humanas. Este proceso de alineación a menudo requiere solo una pequeña cantidad de datos para mejorar eficientemente el rendimiento de la LLM. Si bien es efectiva, la investigación en esta área abarca múltiples dominios, y los métodos involucrados son relativamente complejos de entender. Las relaciones entre diferentes métodos han sido subexplorados, lo que limita el desarrollo de la alineación de preferencias. A la luz de esto, desglosamos las estrategias de alineación populares existentes en diferentes componentes y proporcionamos un marco unificado para estudiar las estrategias de alineación actuales, estableciendo así las conexiones entre ellas. En esta encuesta, descomponemos todas las estrategias en el aprendizaje de preferencias en cuatro componentes: modelo, datos, retroalimentación y algoritmo. Esta vista unificada ofrece una comprensión profunda de los algoritmos de alineación existentes y también abre posibilidades para sinergizar las fortalezas de diferentes estrategias. Además, presentamos ejemplos de trabajo detallados de algoritmos existentes prevalentes para facilitar una comprensión integral para los lectores. Finalmente, según nuestra perspectiva unificada, exploramos los desafíos y las direcciones de investigación futuras para alinear modelos de idiomas grandes con preferencias humanas. |
4 de septiembre de 2024 | Construyendo agentes de matemáticas con aprendizaje de preferencias iterativas múltiples | Estudios recientes han demostrado que las capacidades de resolución de problemas matemáticos de los modelos de idiomas grandes (LLMS) se pueden mejorar integrando herramientas externas, como intérpretes de código, y empleando razonamiento de la cadena de pensamiento múltiple (COT). Si bien los métodos actuales se centran en la generación de datos sintéticos y el ajuste fino supervisado (SFT), este documento estudia el enfoque de aprendizaje de preferencia directa complementaria para mejorar aún más el rendimiento del modelo. Sin embargo, los algoritmos de aprendizaje de preferencia directa existentes se diseñan originalmente para la tarea de chat de un solo cambio, y no abordan completamente las complejidades del razonamiento múltiple y la integración de herramientas externas requeridas para tareas de razonamiento matemático integrado en herramientas. Para completar este vacío, introducimos un marco de aprendizaje de preferencia directo de múltiples vueltas, adaptado para este contexto, que aprovecha la retroalimentación de los intérpretes de código y optimiza las preferencias a nivel de trayectoria. Este marco incluye DPO multi-giro y KTO múltiple como implementaciones específicas. La efectividad de nuestro marco se valida mediante la capacitación de varios modelos de lenguaje utilizando un conjunto de aviso aumentado de los conjuntos de datos GSM8K y Matemáticas. Nuestros resultados demuestran mejoras sustanciales: el rendimiento del modelo GEMMA-1-IT-7B supervisado aumentó de 77.5% a 83.9% en GSM8K y de 46.1% a 51.2% en matemáticas. Del mismo modo, un modelo GEMMA-2-IT-9B mejoró de 84.1% a 86.3% en GSM8K y de 51.0% a 54.5% en matemáticas. |
3 de septiembre de 2024 | Olmoe: modelos de lenguaje abiertos de la mezcla de expertos | Presentamos a Olmoe, un modelo de idioma totalmente abierto y de última generación que aprovecha la mezcla escasa de los expertos (MOE). OLMOE-1B-7B tiene 7 mil millones (b) parámetros, pero usa solo 1B por token de entrada. Lo prevemos en el examen en 5 billones de tokens y lo adaptamos aún más para crear el instructo OLMOE-1B-7B. Nuestros modelos superan a todos los modelos disponibles con parámetros activos similares, incluso superando los más grandes como LLAMA2-13B-CHAT y DeepseekMoe-16b. Presentamos varios experimentos sobre el entrenamiento de MOE, analizamos el enrutamiento en nuestro modelo que muestra una alta especialización y de código abierto todos los aspectos de nuestro trabajo: pesos de modelos, datos de entrenamiento, código y registros. |
2 de septiembre de 2024 | Genagent: construya sistemas de IA colaborativos con generación de flujo de trabajo automatizado: estudios de casos en Comfyui | Muchas investigaciones previas de IA se han centrado en desarrollar modelos monolíticos para maximizar su inteligencia y capacidad, con el objetivo principal de mejorar el rendimiento en tareas específicas. En contraste, este documento explora un enfoque alternativo: sistemas de IA colaborativos que utilizan flujos de trabajo para integrar modelos, fuentes de datos y tuberías para resolver tareas complejas y diversas. Introducimos a Genagent, un marco basado en LLM que genera automáticamente flujos de trabajo complejos, ofreciendo una mayor flexibilidad y escalabilidad en comparación con los modelos monolíticos. La innovación central de Genagent radica en representar flujos de trabajo con código, junto con la construcción de flujos de trabajo con agentes colaborativos de manera paso a paso. Implementamos Genagent en la plataforma Comfyui y proponemos un nuevo punto de referencia, OpenComfy. Los resultados demuestran que Genagent supera los enfoques de referencia en las evaluaciones de nivel de ejecución y a nivel de tarea, mostrando su capacidad para generar flujos de trabajo complejos con una efectividad y estabilidad superiores. |
2 de septiembre de 2024 | Videollamb: comprensión de video de contexto largo con puentes de memoria recurrente | Los avances recientes en los modelos de video en video a gran escala han mostrado un potencial significativo para la planificación en tiempo real e interacciones detalladas. Sin embargo, sus altas demandas computacionales y la escasez de conjuntos de datos anotados limitan su practicidad para los investigadores académicos. En este trabajo, presentamos Videollamb, un marco novedoso que utiliza tokens de memoria temporal dentro de las capas del puente para permitir la codificación de secuencias de video completas junto con datos visuales históricos, preservando efectivamente la continuidad semántica y mejorar el rendimiento del modelo en varias tareas. Este enfoque incluye tokens de memoria recurrente y un algoritmo de escenario, que segmenta videos en unidades semánticas independientes para preservar la integridad semántica. Empíricamente, VideOllamb supera significativamente los modelos existentes de video en video, lo que demuestra una mejora de 5.5 puntos sobre sus competidores en tres puntos de referencia de VideoQA y 2.06 puntos en la planificación egocéntrica. Resultados exhaustivos en el MVBench muestran que VideOllamb-7b logra resultados marcadamente mejores que los modelos 7B anteriores de la misma LLM. Sorprendentemente, mantiene un rendimiento robusto como PLLAVA, incluso cuando la longitud del video aumenta hasta 8 veces. Además, la recuperación de la recuperación del marco en nuestra aguja especializada en un video de referencia de heno de heno (NIAVH), valide aún más la destreza de VideOllamb para identificar con precisión marcos específicos dentro de videos largos. Nuestro algoritmo de escenario también permite la generación de subtítulos de transmisión de video directamente, sin necesitar capacitación adicional. En términos de eficiencia, VideOllamb, entrenado en 16 cuadros, admite hasta 320 cuadros en un solo NVIDIA A100 GPU con escalamiento lineal de memoria de GPU, asegurando tanto el alto rendimiento como la efectividad, estableciendo una nueva base para el video largo en forma de larga duración Modelos en aplicaciones académicas y prácticas. |
1 de septiembre de 2024 | Contextcite: atribuir la generación de modelos al contexto | ¿Cómo usan los modelos de lenguaje la información proporcionada como contexto al generar una respuesta? ¿Podemos inferir si una declaración generada en particular se basa en el contexto, una mala interpretación o fabricada? Para ayudar a responder a estas preguntas, introducimos el problema de la atribución de contexto: identificar las partes del contexto (si las hay) que llevó a un modelo a generar una declaración particular. Luego presentamos ContextCite, un método simple y escalable para la atribución de contexto que se puede aplicar en la parte superior de cualquier modelo de lenguaje existente. Finalmente, mostramos la utilidad de contextcite a través de tres aplicaciones: (1) ayudar a verificar las declaraciones generadas (2) mejorar la calidad de la respuesta podando el contexto y (3) detectando ataques de envenenamiento. Proporcionamos código para contextcite en https://github.com/madrylab/context-cite. |
31 de agosto de 2024 | Longrecipe: receta para una generalización de contexto largo eficiente en modelos de idiomas grandes | Los modelos de lenguaje grande (LLMS) enfrentan desafíos significativos en el manejo de tareas de contexto largo debido a su tamaño de ventana de contexto efectivo limitado durante el pretratina, lo que restringe su capacidad para generalizar sobre secuencias extendidas. Mientras tanto, extender la ventana de contexto en LLM a través de la preteneración posterior es altamente intensiva en recursos. Para abordar esto, introducimos largos, una estrategia de entrenamiento eficiente para extender la ventana de contexto de los LLM, que incluye análisis de token impactante, transformación del índice de posición y estrategias de optimización de capacitación. Simula las entradas de secuencia larga mientras se mantiene la eficiencia del entrenamiento y mejora significativamente la comprensión del modelo de las dependencias de largo alcance. Los experimentos en tres tipos de LLM muestran que Long ReCipe puede utilizar secuencias largas, al tiempo que requiere solo el 30% del tamaño de la ventana del contexto objetivo, y reduce los recursos de capacitación computacional más del 85% en comparación con el entrenamiento de secuencia completa. Además, LongRecipe también conserva las capacidades originales de LLM en tareas generales. En última instancia, podemos extender la ventana de contexto efectiva de los LLM de código abierto de 8K a 128k, logrando un rendimiento cerca de GPT-4 con solo un día de capacitación dedicada usando una sola GPU con memoria de 80 g. Nuestro código se publica en https://github.com/zhiyuanhubj/longrecipe. |
29 de agosto de 2024 | Mini-AMNI: los modelos de idiomas pueden escuchar, hablar mientras piensan en la transmisión | Los avances recientes en los modelos de idiomas han logrado un progreso significativo. GPT-4O, como un nuevo hito, ha permitido conversaciones en tiempo real con humanos, demostrando fluidez natural casi humana. Dicha interacción humana-computadora requiere modelos con la capacidad de realizar el razonamiento directamente con la modalidad de audio y generar salida en la transmisión. Sin embargo, esto permanece fuera del alcance de los modelos académicos actuales, ya que generalmente dependen de sistemas TTS adicionales para la síntesis del habla, lo que resulta en una latencia indeseable. Este artículo presenta el Mini-AMNI, un modelo de conversación de extremo a extremo basado en audio, capaz de interacción en tiempo real del habla. Para lograr esta capacidad, proponemos un método de generación de voz insestruido por texto, junto con estrategias paralelas por lotes durante la inferencia para impulsar aún más el rendimiento. Nuestro método también ayuda a retener las capacidades de lenguaje del modelo original con una degradación mínima, lo que permite a otros trabajos establecer capacidades de interacción en tiempo real. Llamamos a este método de capacitación "cualquier modelo puede T
Expandir
Información adicional
Aplicaciones relacionadas
Recomendado para ti
Información relacionada
Todo
|