En el campo de la IA hay muchos gigantes y la competencia es feroz. Sin embargo, Nous Research, una empresa de nueva creación compuesta por sólo 10 personas, ha desafiado con éxito la autoridad de los gigantes tecnológicos con su sólida solidez técnica y su concepto de código abierto. Su modelo Hermes3 recientemente lanzado está optimizado en base a Llama 3.1, con un tamaño de parámetro de 405B y un rendimiento sorprendente. Se ha descargado más de 33 millones de veces, lo que lo convierte en un producto fenomenal en la industria de la inteligencia artificial. Este artículo profundizará en el excelente rendimiento del modelo Hermes3, los eficientes métodos de entrenamiento y el espíritu innovador de Nous Research.
Un pequeño equipo de sólo 10 personas se atrevió a desafiar el estatus del gigante tecnológico Meta. ¡Esta es simplemente una versión real de David derrotando a Goliat!
Esta startup llamada Nous Research no es un desconocido. El Hermes3 que acaban de lanzar está ajustado en base al modelo 405B de Llama3.1. Aunque el equipo tiene un número reducido de personas, no se puede subestimar su fuerza. Este equipo de diez miembros ha perfeccionado con éxito varios modelos, como Mistral, Yi, Llama, etc., y se ha descargado más de 33 millones de veces. ¡Es simplemente una máquina de gran venta en la industria de la inteligencia artificial!
La aparición de Hermes3 es como un tiro en el brazo en el mundo de la IA. Incluso después de la cuantificación del 8PM, su rendimiento sigue siendo asombrosamente potente. Esta optimización no solo reduce significativamente los requisitos de VRAM y disco del modelo, sino que también permite que Hermes3 se ejecute en un solo nodo, ¡lo cual es una gran noticia para los desarrolladores!
En términos de capacidad de conversación, Hermes3 es simplemente un todoterreno. Ya sea memoria a largo plazo, múltiples rondas de diálogo, juegos de roles o monólogos internos, puede manejarlos con facilidad. Gracias a la ventana de contexto de 128K de Llama3.1, Hermes3 es un diplomático experimentado en mantener conversaciones coherentes.
Pero las capacidades de Hermes3 no terminan ahí. Demuestra un conjunto de capacidades avanzadas que van más allá del modelado de lenguaje tradicional para comprender y evaluar la calidad del texto generado de una manera sofisticada y matizada. Esto significa que no sólo puede ser un orador elocuente, sino también un estricto crítico de textos.
Lo que es aún más sorprendente es que Hermes3 también integra varias capacidades del agente, incluida la salida estructurada, la salida de pasos intermedios y la generación de monólogos internos para lograr una toma de decisiones transparente. Esto es como equipar a la IA con un cerebro transparente, que nos permite echar un vistazo a su proceso de pensamiento.
El proceso de formación de Hermes3 puede considerarse un entrenamiento diabólico en el mundo de la IA. Ha pasado por dos etapas: ajuste fino supervisado (SFT) y optimización de preferencias directas (DPO). El equipo pasó cinco meses completos examinando y construyendo el conjunto de datos SFT, y su dedicación y paciencia son simplemente impresionantes.
Nous Research, un grupo privado de investigación aplicada fundado en 2023 y con sede en Nueva York, es simplemente un invasor bárbaro en el mundo de la IA. Creen firmemente en el poder del código abierto y prometen desafiar las limitaciones de innovación de las tecnologías cerradas. El lema de la empresa está al rojo vivo: desafiamos la suposición de que las tecnologías cerradas siempre ocuparán la cima de la innovación y, en cambio, ofrecerán un potente código fuente abierto.
En poco más de un año, Nous Research ha publicado 5 conjuntos de datos y 89 modelos. Este alto rendimiento parece declarar al mundo: ¡el tamaño no importa, la fuerza es la reina!
Dirección del artículo: https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf
Introducción oficial: https://nousresearch.com/freedom-at-the-frontier-hermes-3/
El éxito de Nous Research y Hermes3 no sólo demuestra el poder del código abierto, sino que también aporta nueva vitalidad y posibilidades al campo de la IA. Los equipos pequeños también pueden crear milagros, lo que sin duda es un gran estímulo para todos los profesionales de la IA. En el futuro, esperemos y veamos qué resultados más sorprendentes traerá Nous Research.