Cui Lingling, director general del Departamento de Asuntos de Patentes del Grupo Baidu, publicó las "Diez principales invenciones de la frontera tecnológica de Baidu en 2024": las invenciones patentadas de vanguardia de Baidu en el campo de la inteligencia artificial, que abarcan avances integrales, desde algoritmos básicos hasta aplicaciones. escenarios. Según el "Informe de análisis de tecnología de patentes de inteligencia artificial de nueva generación" publicado por el Centro Nacional de Investigación para el Desarrollo de la Seguridad de la Información Industrial y el Centro de Propiedad Intelectual Electrónica del Ministerio de Industria y Tecnología de la Información en abril de este año, a finales de 2023, Baidu Baidu ha solicitado 19.308 patentes en todo el campo de la inteligencia artificial y ha concedido 9.260 patentes, ocupando el primer lugar en China durante seis años consecutivos; en el campo de la IA de nueva generación con modelos grandes como núcleo, Baidu ha solicitado 1.432 patentes y ha autorizado 651. convirtiéndose en líder en innovación tecnológica y diseño de patentes. Según los conocimientos sobre el panorama de las patentes de inteligencia artificial generativa publicados por la organización de bases de datos de patentes IFIclaims, las solicitudes de patentes de inteligencia artificial generativa de Baidu se encuentran entre las 10 principales del mundo. Es la única innovación china que ingresa a la lista, y la tecnología patentada cubre el texto. , imagen, voz y video En el gran campo básico, se ha convertido en una de las cuatro empresas del mundo con diseño integral en estos cuatro campos.
El 12 de noviembre se llevará a cabo en Shanghai Baidu World 2024 con el tema "Las aplicaciones están aquí". Como conferencia tecnológica de alto perfil del año, Baidu también publicará sus últimos resultados, una vez más presentando avances tecnológicos y lanzamientos de productos llamativos.
Los diez principales inventos tecnológicos de vanguardia de Baidu en 2024 son los siguientes:
1. Tecnología de agentes basada en grandes modelos generativos.
Esta tecnología de invención introduce de manera innovadora un modelo de pensamiento, que permite al agente tener múltiples capacidades, como planificación de tareas, invocación de herramientas, mejora del conocimiento y evolución reflexiva. A través del diseño sistemático y la optimización direccional de las capacidades centrales, puede respaldar la construcción y el despliegue a gran escala de agentes en diferentes escenarios de aplicaciones a bajo costo; al crear capacidades de simulación a gran escala, puede acelerar la construcción y distribución de agentes. Este sistema técnico se ha utilizado con éxito en muchos escenarios clave, como Wenxin Intelligent Platform, Merchant Intelligent Agent, Wenxin Quick Code, etc., lo que ha mejorado significativamente la eficiencia de la investigación y el desarrollo de los agentes inteligentes y ha reducido el umbral de investigación y desarrollo. Entre ellos, los agentes comerciales utilizan tecnología de planificación + colaboración multimodelo experta y tecnología de simulación a gran escala para mejorar su capacidad de reflexionar, evolucionar y utilizar herramientas, y desarrollar capacidades de marketing de inteligencia artificial. Wenxin Kuaicode se basa en la recomendación de código y los sistemas de agentes para integrarse; DevOps tradicional La combinación orgánica de cadenas de herramientas promueve la exploración e implementación en profundidad de la programación colaborativa entre humanos y máquinas.
2. Tecnología de coevolución multimodelo basada en un marco de capacitación eficiente de modelos grandes
Esta innovadora tecnología supera una serie de problemas difíciles desde la perspectiva tanto de ingeniería como algorítmica. En términos de arquitectura de ingeniería, los avances innovadores en todos los aspectos incluyen estrategias híbridas paralelas, eficiencia de la comunicación y optimización de la computación y el almacenamiento, que mejoran significativamente el rendimiento del entrenamiento de modelos de lenguaje grandes y respaldan el entrenamiento eficiente y estable de toda la serie de modelos de Wenxin en todo el mundo. proceso. En términos de estrategias algorítmicas, hemos desarrollado tecnología de preentrenamiento para la colaboración de modelos grandes y pequeños, superando el problema técnico de la difícil herencia de conocimiento entre modelos, cambiando el paradigma de entrenamiento de los modelos tradicionales y reduciendo el costo de entrenar nuevos modelos. Con base en esta invención, se han construido barreras técnicas para modelos de varios tamaños, lo que ha aumentado el rendimiento de capacitación del modelo grande de Wenxin en 4,1 veces durante el año pasado, ayudando a Wenxin Yiyan a satisfacer de manera eficiente una amplia gama de negocios con diferentes necesidades y empoderando miles de industrias.
3. Sistema inteligente que integra la creación y compilación de contenido multimodal basado en modelos grandes y tecnología de mejora de la recuperación de conocimientos.
La tecnología de esta invención utiliza de manera integral tecnologías tales como mejora del conocimiento, análisis de contenido de múltiples fuentes, edición integrada y léxico mejorado con recuperación para resolver problemas tales como calidad de producción débil de artículos largos profesionales y contenido multimodal, incapacidad para compartir contenedores cuando creación y edición, y poca precisión del cuerpo principal del léxico. La recuperación de imágenes textuales mejoradas tiene como objetivo procesar de forma adaptativa imágenes de referencia mediante un juicio inteligente de las necesidades del usuario. El sistema de generación de imágenes en modo mixto mejora significativamente la consistencia del cuerpo principal de la imagen, compensando efectivamente las deficiencias de la descripción inexacta del contenido de cola larga. En general, el efecto supera con creces el sistema nativo de Wenshengtu. Baidu Wenku ha logrado grandes logros en la generación de informes de investigación de la industria, presentaciones, mapas mentales y cómics en tiempo real basados en instrucciones del usuario y contenido cargado, y admite tareas complejas como edición integral, conversión multimodal y general/ Dibujos personalizados. Mejora significativa del rendimiento. En agosto de 2024, Yuehu Data de Aurora publicó un informe que muestra que la participación de mercado de PPT inteligente de Baidu Wenku ha alcanzado el 80%. En los últimos tres meses, la tasa de crecimiento compuesta de la escala de usuarios ha alcanzado el 23% y la tasa de crecimiento supera con creces el nivel de la industria. .
4. Admite posicionamiento de conducción autónoma a gran escala y tecnología de generación de mapas a nivel de carril
Esta innovadora tecnología supera los problemas de eficiencia y costos del modelo tradicional, reduce el costo de producción de mapas en un 95% y tiene un kilometraje de carretera a nivel de carril de más de 3,6 millones de kilómetros, logrando una cobertura total de más de 41.000 zonas urbanas y rurales. pueblos de todo el país. La tecnología de posicionamiento de alta precisión para la conducción autónoma basada en la fusión de sensores multimodales construida además en base a datos de mapas tiene una precisión de nivel centimétrico, lo que mejora en gran medida la producción en masa y reduce el volumen del paquete de mapas en el que se basa el posicionamiento del lado del vehículo. 97,5 %, y la confiabilidad alcanza el 99,9999 %, respaldando plenamente la operación actual a gran escala de conducción totalmente autónoma de Luobo Kuaipao, y realizando una conducción totalmente autónoma en diversos escenarios complejos y difíciles, como debajo de viaductos, carreteras de múltiples capas y túneles.
5. Mecanismo de memoria personalizado para inteligencia de modelos grandes.
Esta tecnología de invención propone de manera innovadora un conjunto integral de mecanismos de memoria, que cubre cinco módulos de procesamiento, almacenamiento, administración, activación y utilización de la memoria, brindando a los modelos grandes capacidades de memoria personalizadas. El procesamiento de la memoria se basa en el mecanismo del hipocampo humano para lograr una comprensión profunda y un procesamiento preciso de la información del usuario en todos los escenarios; la gestión de la memoria admite las adiciones, eliminaciones y modificaciones activas de los usuarios y las adiciones, eliminaciones y modificaciones automáticas del sistema, asegurando una real- actualizaciones de tiempo y precisión del banco de memoria; activación y utilización de la memoria. Ayudar a modelos grandes a producir respuestas más antropomórficas y personalizadas a través de la generación especulativa de recuerdos relevantes. Esta tecnología de invención se ha utilizado ampliamente en escenarios como asistentes inteligentes de IA y humanos digitales.
6. Sistema de generación, conducción y modelado humano digital súper realista basado en modelos grandes
Esta innovadora tecnología propone un conjunto completo de soluciones de generación, conducción y modelado humano digital súper realistas. Para personas digitales reales, hemos desarrollado modelos de retratos basados en datos, conducción multimodal y modelos de generación de videos de retratos grandes para lograr una producción de contenido humano digital natural y realista. Admitimos exclusivamente la clonación de retratos en vivo en escenas de acción y oclusión a gran escala, y. Se implementó la primera sala de transmisión en vivo de cuerpo completo impulsada inteligentemente. Para humanos digitales 3D hiperrealistas, hemos desarrollado tecnologías de migración modal y colaboración de múltiples agentes basadas en el modelo grande de Wenxin, logrando una producción a nivel de minutos de imágenes humanas digitales hiperrealistas y contenido operativo que son comparables a los éxitos de taquilla del cine y la televisión. Juegos 3A. La tecnología de la presente invención se ha utilizado ampliamente en muchos productos humanos digitales 3D y de personas reales, tales como transmisiones humanas digitales en vivo, producción de video y cuerpos inteligentes.
7. Sistema generativo de recuperación comercial basado en grandes modelos.
Esta tecnología de invención ha cambiado el proceso tradicional de "clasificación de recuperación de índices", ha aplanado el embudo del sistema, ha reducido la pérdida de información y ha codificado información empresarial en parámetros del modelo mediante la creación de tareas de aprendizaje de índices para lograr el "modelo como índice" y utilizar el poder de grandes Capacidades de comprensión y razonamiento de modelos, realizando "generación y recuperación", el nuevo paradigma mejora significativamente la eficiencia de orientación del sistema en un 120%. El proyecto involucrado en esta invención fue el primero en implementarse en la industria, logrando una aplicación industrial a gran escala. El gran modelo generativo se combinó con escenarios de búsqueda comercial para lograr múltiples innovaciones tecnológicas. La riqueza creativa aumentó 37 veces y la calidad creativa. aumentó en un 92% y se lograron importantes beneficios comerciales y un amplio alcance.
8. Tecnología de volante de datos de modelos grandes
Esta tecnología inventada identifica automáticamente los defectos del modelo y sintetiza de manera eficiente datos de entrenamiento diversos y de alta calidad mediante la integración de información de múltiples fuentes y formularios, como comentarios de los usuarios, comentarios de ejecución y comentarios autosupervisados. Al mismo tiempo, el método de aprendizaje por refuerzo combinado con retroalimentación de múltiples fuentes mejora significativamente el efecto del entrenamiento del modelo. Esta tecnología innovadora construye un volante de datos que puede mejorarse continuamente, rompiendo efectivamente los cuellos de botella de datos de los modelos grandes, reduciendo los costos de adquisición de datos, mejorando la adaptabilidad y robustez de los modelos grandes y acelerando la capacidad de generalización del rendimiento del modelo en diferentes escenarios de tareas. la continua evolución de los grandes modelos.
9. Tecnología de inferencia eficiente de modelos grandes.
La tecnología de razonamiento eficiente propuesta por esta tecnología de invención, la capa de modelo subyacente se basa en Flying Paddle Framework. En la dirección de la arquitectura de razonamiento, continúa innovando en la dirección de PrefixCaching, Lookahead, PagedAttention, separación de PD, etc. y combina eficientemente varias tecnologías para mejorar en gran medida el rendimiento y el rendimiento del modelo. En términos de compresión de modelos grandes, la compañía adopta tecnología de cuantificación sin pérdidas de modelos grandes y activa métodos como el suavizado de segmentación adaptativa y la reorganización del enlace de peso. Es la primera en la industria en lograr una compresión eficiente sin pérdidas de modelos grandes de decenas de miles de millones y cientos de. miles de millones. Esta invención admite una variedad de métodos de aceleración de inferencia y compresión de modelos grandes, y se ha utilizado en negocios principales como la plataforma de modelos grandes Qianfan de Baidu Intelligent Cloud para reducir el consumo de recursos de la inferencia de modelos, ahorrar costos de implementación de modelos grandes en más del 50% y mejorar el rendimiento del modelo y el rendimiento del modelo Mejorado de 3 a 5 veces.
10. Sistema de generación de recuperación impulsado por la retroalimentación de los datos del usuario.
El sistema de generación de recuperación propuesto por esta tecnología inventiva puede combinar señales de retroalimentación del comportamiento del usuario para lograr un rápido autorrefuerzo. Alinear directamente las preferencias del usuario a través del modelado de satisfacción y el aprendizaje reforzado, y utilizar la retroalimentación del usuario para desencadenar una rápida reflexión del sistema, resolviendo los problemas de baja eficiencia de la retroalimentación de expertos y la dificultad en el modelado de preferencias del usuario en aplicaciones de datos tradicionales. El sistema de generación de recuperación basado en este marco ha cubierto el 18% del tráfico de búsqueda y se usa ampliamente en texto, video, imágenes y otros escenarios de búsqueda. Las características reciclables y a gran escala de los comentarios de múltiples usuarios permiten que el sistema se adapte rápidamente a los cambios en los datos, los productos y el entorno, ayudan al sistema a buscar la optimización automáticamente y aceleran la evolución del sistema a un estado ideal. Tiene un valor práctico extremadamente alto. competitividad del mercado.