¿Está realmente aquí la era de las aplicaciones de IA?
El tema de la Conferencia Mundial de Baidu de este año es "Las aplicaciones están llegando". A principios de noviembre, el promedio de llamadas diarias del gran modelo de Baidu Wenxin superó los 1.500 millones, un aumento de aproximadamente 30 veces en comparación con los 50 millones de veces divulgados por primera vez al año. atrás. Robin Li dijo: "Esta pronunciada curva de crecimiento representa la explosión de aplicaciones de modelos grandes en China en los últimos dos años".
Como forma más común de aplicación de IA, los agentes inteligentes están a punto de alcanzar un punto de ruptura, enfatizó Robin Li: "Se convertirá en un nuevo portador de contenido, información y servicios en la era nativa de la IA".
Esto se debe a que, “por un lado, el umbral para crear un agente es lo suficientemente bajo; por otro, el techo de un agente es lo suficientemente alto como para crear aplicaciones muy poderosas. La colaboración de múltiples agentes también puede resolver problemas más complejos. ." pregunta."
Robin Li demostró cuatro tipos diferentes de agentes en la reunión, incluidos agentes de empresa, agentes de roles, agentes de herramientas y agentes de la industria. Entre ellos, es probable que la inteligencia oficial de la compañía reemplace el sitio web oficial y se convierta en la interfaz más directa para los consumidores.
"Los agentes similares a las empresas son equivalentes a los sitios web oficiales de las empresas en la era de la IA. Los agentes similares a las empresas tienen todas las capacidades que tienen los sitios web oficiales tradicionales, como presentaciones de la empresa, imágenes de productos y visualización de parámetros, ubicaciones de tiendas fuera de línea, etc. Los sitios web tradicionales no tienen la capacidad de recomendar de forma proactiva, la respuesta oportuna y las capacidades de servicio personalizado también están disponibles en el agente inteligente de la empresa”.
Robin Li también lanzó la herramienta sin código "Miaida", un software compuesto por grandes modelos y agentes que pueden realizar cualquier idea sin escribir código, incluida la programación sin código, la colaboración entre múltiples agentes y la llamada a gran escala de varios Esta herramienta y otras capacidades son "la herramienta de colaboración multiagente más compleja en la historia de la humanidad hasta ahora".
Con la ayuda de "Miaoda", los usuarios pueden completar la construcción de todo el sistema a través de la interacción del lenguaje natural y también pueden realizar varias aplicaciones en cualquier escenario. Con la mejora de las capacidades del modelo básico y la evolución de las capacidades técnicas propias de Miaoda, se pueden hacer más. En el futuro, se harán cosas más complejas: "Esto significa que no es necesario contratar gerentes de proyecto, diseñadores, desarrolladores, evaluadores, etc., y puede dirigir a varios agentes para que completen tareas en colaboración. Una persona puede ser una A completa". equipo.
En palabras de Robin Li, con Miaoda, marcaremos el comienzo de una "era en la que se puede ganar dinero simplemente confiando en las ideas".
Después de que el negocio del lado C de Baidu Netdisk fuera reclasificado al Mobile Ecosystem Group (MEG) en septiembre y fuera asumido por Wang Ying, vicepresidente de Baidu y director de la biblioteca de Baidu y Baidu Netdisk, en esta conferencia mundial, Baidu El disco de red y la biblioteca se han integrado aún más.
Wang Ying compartió algunos de los nuevos cambios de Baidu en la producción y el consumo de contenidos en la conferencia. Mencionó que la creación y el consumo de contenidos actuales enfrentan muchos desafíos, como herramientas complicadas, ciclos de producción largos y baja eficiencia en el consumo. Con este fin, Baidu Wenku y Netdisk han introducido tecnología de inteligencia artificial para romper las limitaciones de las herramientas y los límites modales y lograr una experiencia de contenido más libre y eficiente.
La generación inteligente de PPT de Baidu Wenku, la creación de papel con IA, la producción de libros ilustrados con IA, las capacidades de búsqueda con IA y la generación de novelas y cómics con IA han mejorado significativamente la eficiencia y la calidad de la producción de contenido, al mismo tiempo, en términos de consumo de contenido, lanzó Baidu Netdisk; Herramientas simples como el escaneo, el dictado simple y el resumen de video de IA facilitan enormemente a los usuarios procesar y comprender la información.
Específicamente, en escenarios de oficina, Baidu Wenku proporciona PPT inteligente y funciones inteligentes de investigación e informes, mientras que Baidu Netdisk tiene funciones como notas de escucha simples en escenarios de aprendizaje, los usuarios pueden usar los libros de dibujo inteligentes y la búsqueda de fotografías de Baidu Wenku. Baidu Netdisk proporciona herramientas de aprendizaje auxiliares como interpretación de videos y vocabulario Panpan en términos de entretenimiento, Baidu Wenku proporciona novelas y cómics inteligentes y Baidu Netdisk tiene funciones como edición de fotografías con IA; La integración de Baidu Wenku y Netdisk amplía los escenarios de aplicaciones de los usuarios, logra la inteligencia y la diversificación del contenido y mejora aún más la experiencia del usuario.
Función de lienzo gratuita | Fuente de la imagen: Baidu
Además, Baidu Wenku y Netdisk lanzaron conjuntamente un nuevo sistema operativo de contenidos: Free Canvas. Este sistema puede ayudar a los usuarios a completar todas las tareas, desde buscar información hasta editar, generar y compartir. No solo admite entrada y salida de formato completo en múltiples modalidades, sino que también permite la utilización de contenido a nivel de elemento, enriqueciendo el grado de creación e intercambio. libertad.
En palabras de Robin Li, "El lienzo libre es una pizarra universal bendecida por el gran modelo multimodal de Wenxin". Estas innovaciones no sólo demuestran el enorme potencial de la tecnología de inteligencia artificial en el campo de los contenidos, sino que también presagian más posibilidades para la producción y el consumo de contenidos en el futuro.
En la conferencia, Shen Dou, vicepresidente ejecutivo de Baidu Group y presidente de Baidu Intelligent Cloud Business Group, compartió los últimos avances de Baidu Intelligent Cloud en modelos grandes y aplicaciones nativas de IA. Shen Dou dijo que la tecnología de modelos grandes está pasando del cambio tecnológico al cambio industrial, redefiniendo la forma en que las personas interactúan con el mundo digital y el mundo físico, y convirtiéndose en un elemento clave para que las empresas mejoren su competitividad.
Shen Dou se centró en la plataforma Qianfan, que es una plataforma para el desarrollo de aplicaciones y ajuste fino de modelos grandes. Proporciona una rica cadena de herramientas y reduce significativamente el umbral para el desarrollo de aplicaciones nativas de IA. La plataforma Qianfan no solo cumple con los requisitos altamente personalizables, de gran escala, de alta disponibilidad y de alta seguridad de las aplicaciones de nivel empresarial, sino que también lanza agentes de flujo de trabajo. Esta innovación aprovecha la comprensión de la intención y las capacidades de generalización de modelos grandes para convertir flujos de trabajo complejos en agentes flexibles, mejorando significativamente la eficiencia empresarial. Por ejemplo, China Pacific Insurance utilizó la plataforma Qianfan para generar un agente de "ventas de medalla de oro", lo que mejoró significativamente la eficiencia del servicio y la experiencia del usuario en la renovación de seguros de automóviles.
Baidu Smart Cloud Qianfan | Fuente de la imagen: Baidu
Además, la plataforma Baige proporciona servicios informáticos eficientes relacionados con modelos grandes, desde la creación de clústeres hasta el entrenamiento y la inferencia de modelos, lo que garantiza un rendimiento estable y extremadamente rápido. La plataforma resuelve problemas clave en la implementación de clústeres a gran escala, admite una operación eficiente y satisface las necesidades de potencia informática de diferentes clientes.
Shen Dou también demostró casos de aplicación de la plataforma Qianfan en múltiples industrias, incluida la medicina de diagnóstico general, que mejora la precisión de la generación de registros médicos mediante el ajuste de modelos y ahorra tiempo a los médicos. State Grid está explorando aplicaciones de inteligencia artificial en la industria energética basadas en el gran Wenxin; modelo y ha logrado resultados notables. Además, la actualización de la plataforma XiLing 4.0 le permite generar imágenes humanas digitales en 3D y producir vídeos profesionales, lo que reduce significativamente el coste de la producción de vídeos cortos.
Baidu Intelligent Cloud ha construido una nueva infraestructura de inteligencia artificial a través de las plataformas Qianfan y Baige, promoviendo la aplicación de tecnología de modelos grandes en diversas industrias para mejorar el nivel de inteligencia y la eficiencia de las empresas.
Además de las aplicaciones, Baidu también lanzó hardware esta vez. En la reunión, Li Ying, vicepresidente de Baidu Group y director ejecutivo de Xiaodu Technology, lanzó "las primeras gafas de IA nativas equipadas con modelos grandes chinos": las gafas de IA Xiaodu.
Gafas Xiaodu AI | Fuente de la imagen: Baidu
Li Ying dijo que, como dispositivo de perspectiva en primera persona para humanos, la capacidad de las gafas de IA para capturar la visión, el sonido, la ubicación y otra información brindará una extensión sin precedentes de los sentidos de las personas y también se convertirá en una entrada más eficiente y conveniente a la relación humano-computadora. interacción.
Basado en el modelo grande de Wenxin y el sistema operativo nativo DuerOS AI, Xiaodu AI puede realizar funciones como disparos en perspectiva en primera persona, hacer preguntas mientras camina, reconocimiento de calorías, enciclopedia de reconocimiento de objetos, traducción audiovisual y notas inteligentes.
Al combinar el dispositivo y la nube con modelos grandes, las gafas Xiaodu AI se pueden usar de forma independiente o combinarse con una aplicación. Las gafas tienen frases en chino incorporadas y pueden responder a las preguntas de los usuarios en tiempo real.
En términos de hardware, las gafas Xiaodu AI están equipadas con una matriz de cuatro micrófonos para reconocer sonidos, un diseño de altavoz abierto a prueba de fugas, una lente ultra gran angular de 16 megapíxeles y un algoritmo anti-vibración de AI que pueden ser completamente; se carga en 30 minutos, logrando 56 horas en espera y más de 5 horas de uso continuo. Escuche que toda la máquina pesa solo 45 gramos, que es menos que el promedio de la industria de 49 gramos.
Se espera que las gafas Xiaodu AI salgan a la venta en la primera mitad del próximo año. El precio aún no se ha anunciado, pero el personal del stand dijo que el precio podría rondar los 2.000 yuanes.
Robin Li mencionó en la reunión que la industria de la inteligencia artificial ha experimentado cambios significativos en los últimos 24 meses, el más destacado de los cuales es que los modelos grandes básicamente han eliminado el fenómeno de las alucinaciones. Este cambio hace que la IA pase de ser la "tontería grave" original a ser utilizable y confiable. El modelo grande es esencialmente un modelo probabilístico y el contenido que genera tiene un cierto grado de incertidumbre. Sin embargo, al emplear la tecnología RAG, los modelos grandes pueden aprovechar la información recuperada para guiar la generación de texto o respuestas, mejorando significativamente la calidad y precisión del contenido.
Para resolver el problema de las alucinaciones en la generación de imágenes, Baidu desarrolló una tecnología a principios de este año: iRAG (Image based RAG), que es una tecnología de gráficos Vincent mejorada con recuperación. Antes de esto, las imágenes generadas por los sistemas gráficos vicencianos basados enteramente en grandes modelos lingüísticos eran a menudo de mala calidad e incluso ilógicas. La tecnología iRAG de Baidu combina los recursos de imágenes de mil millones de niveles de Baidu Search y las potentes capacidades del modelo básico para generar una variedad de imágenes ultrarrealistas. El efecto general supera con creces el sistema vicenciano nativo y elimina los rastros de la generación de máquinas.
A medida que la usabilidad de las imágenes generadas por IA ha mejorado enormemente, su espacio de aplicación también se ha ampliado enormemente. Por ejemplo, en un escenario de promoción de marca, en el pasado podría haber costado cientos de miles de yuanes producir un conjunto de carteles, pero ahora el costo de creación es casi nulo. En resumen, el valor comercial de iRAG se refleja en los aspectos de no ilusión, ultrarrealismo, bajo costo y disponibilidad instantánea.
Robin Li en la conferencia | Fuente de la imagen: Baidu
Cuando las capacidades básicas del modelo maduren, llegará un período próspero para las aplicaciones de IA. Entonces, ¿de dónde vienen las aplicaciones de IA y hacia dónde irán? Hay dos direcciones principales: una son los agentes inteligentes y la otra son las aplicaciones industriales.
En el futuro, tal vez cuando llegue realmente el período próspero de las aplicaciones de IA, la IA pueda realmente cumplir su misión de "oportunidades al nivel de la revolución industrial" y traer una expansión ilimitada de la productividad a la economía social.