Cui Lingling, directeur général du département des affaires de brevets du groupe Baidu, a publié le « Baidu Top Ten Technological Frontier Inventions in 2024 » : les inventions brevetées de pointe de Baidu dans le domaine de l'intelligence artificielle, couvrant des percées globales depuis les algorithmes de base jusqu'aux applications. scénarios. Selon le « Rapport d'analyse des technologies de brevets en matière d'intelligence artificielle de nouvelle génération » publié par le Centre national de recherche sur le développement de la sécurité de l'information industrielle et le Centre de propriété intellectuelle électronique du ministère de l'Industrie et des Technologies de l'information en avril de cette année, à la fin de 2023, Baidu a déposé 19 308 brevets dans l'ensemble du domaine de l'intelligence artificielle et accordé 9 260 brevets. Baidu s'est classé premier en Chine pendant six années consécutives ; dans le domaine de l'IA de nouvelle génération avec les grands modèles comme noyau, Baidu a déposé 1 432 brevets et en a autorisé 651. devenir un leader en matière d'innovation technologique et de dépôt de brevets. Selon les informations sur le paysage des brevets sur l'intelligence artificielle générative publiées par l'organisation de base de données sur les brevets IFIclaims, les demandes de brevet sur l'intelligence artificielle générative de Baidu figurent parmi les 10 premières au monde. Il s'agit du seul sujet d'innovation chinois à figurer sur la liste, et la technologie brevetée couvre le texte. , image, voix et vidéo. Dans le grand domaine de base, elle est devenue l'une des quatre entreprises au monde à disposer d'une agencement complet dans ces quatre domaines.
Le 12 novembre, Baidu World 2024, sur le thème « Les applications sont ici », se tiendra à Shanghai. En tant que conférence technologique de haut niveau de l'année, Baidu publiera également ses derniers résultats, apportant une fois de plus des avancées technologiques et des lancements de produits accrocheurs.
Les dix principales inventions technologiques de pointe de Baidu en 2024 sont les suivantes :
1. Technologie d'agent basée sur de grands modèles génératifs
Cette technologie d'invention introduit de manière innovante un modèle de pensée, permettant à l'agent de disposer de multiples capacités telles que la planification de tâches, l'invocation d'outils, l'amélioration des connaissances et l'évolution réflexive. Grâce à une conception systématique et à l'optimisation directionnelle des capacités de base, il peut prendre en charge la construction et le déploiement à grande échelle d'agents dans différents scénarios d'application à faible coût ; en créant des capacités de simulation à grande échelle, il peut accélérer la construction et la distribution d'agents. Ce système technique a été utilisé avec succès dans de nombreux scénarios clés tels que Wenxin Intelligent Platform, Merchant Intelligent Agent, Wenxin Quick Code, etc., ce qui a considérablement amélioré l'efficacité de la recherche et du développement des agents intelligents et abaissé le seuil de recherche et développement. Parmi eux, les agents marchands utilisent une technologie de planification + de collaboration multimodèle experte et une technologie de simulation à grande échelle pour améliorer leur capacité à réfléchir, évoluer et utiliser des outils, et développer des capacités de marketing d'IA. Wenxin Kuaicode s'appuie sur la recommandation de code et les systèmes d'agents à intégrer ; DevOps traditionnel La combinaison organique de chaînes d'outils favorise l'exploration et la mise en œuvre en profondeur de la programmation collaborative en binôme homme-machine.
2. Technologie de co-évolution multimodèle basée sur un cadre de formation efficace de grands modèles
Cette technologie inventive résout une série de problèmes difficiles du point de vue de l’ingénierie et de l’algorithmique. En termes d'architecture d'ingénierie, les avancées innovantes globales incluent des stratégies parallèles hybrides, l'efficacité de la communication et l'optimisation du calcul et du stockage, qui améliorent considérablement les performances de formation des grands modèles de langage et soutiennent la formation efficace et stable de toute la série de modèles de Wenxin tout au long du processus. processus. En termes de stratégies algorithmiques, nous avons développé une technologie de pré-formation pour la collaboration de grands et petits modèles, surmontant le problème technique de l'héritage difficile des connaissances entre les modèles, changeant le paradigme de formation des modèles traditionnels et réduisant le coût de formation de nouveaux modèles. Sur la base de cette invention, des barrières techniques pour les modèles de différentes tailles ont été construites, ce qui a augmenté le débit de formation du grand modèle de Wenxin de 4,1 fois au cours de l'année écoulée, permettant à Wenxin Yiyan de répondre efficacement à un large éventail d'entreprises ayant des besoins différents et d'autonomiser des milliers d'industries.
3. Système intelligent intégrant la création et la compilation de contenu multimodal basé sur de grands modèles et une technologie d'amélioration de la récupération des connaissances
La technologie de cette invention utilise de manière exhaustive des technologies telles que l'amélioration des connaissances, l'analyse de contenu multi-source, l'édition intégrée et le lexique amélioré par récupération pour résoudre des problèmes tels qu'une faible qualité de production d'articles longs professionnels et de contenu multimodal, l'incapacité de partager des conteneurs lorsque création et édition, et mauvaise précision du corps principal du lexique. La récupération d'images textuelles améliorées vise à traiter de manière adaptative les images de référence grâce à un jugement intelligent des besoins de l'utilisateur. Le système de génération d'images en mode mixte améliore considérablement la cohérence du corps principal de l'image, compensant efficacement les lacunes d'une description de contenu longue traîne inexacte. . Dans l'ensemble, l'effet dépasse de loin le système natif de Wenshengtu. Baidu Wenku a réalisé de grands progrès dans la génération de rapports de recherche, de présentations, de cartes mentales et de bandes dessinées en temps réel sur la base des instructions de l'utilisateur et du contenu téléchargé, et prend en charge des tâches complexes telles que l'édition unique, la conversion multimodale et les tâches générales/ dessins personnalisés. Amélioration significative des performances. En août 2024, Yuehu Data d'Aurora a publié un rapport montrant que la part de marché du PPT intelligent de Baidu Wenku a atteint 80 %. Au cours des trois derniers mois, le taux de croissance composé de l'échelle des utilisateurs a atteint 23 % et le taux de croissance dépasse de loin le niveau de l'industrie. .
4. Prise en charge du positionnement de conduite autonome à grande échelle et de la technologie de génération de cartes au niveau des voies
Cette technologie inventive résout les problèmes d'efficacité et de coût du modèle traditionnel, réduit le coût de production de cartes de 95 % et présente un kilométrage routier au niveau des voies de plus de 3,6 millions de kilomètres, permettant une couverture complète de plus de 41 000 zones urbaines et rurales. villes à travers le pays. La technologie de positionnement de haute précision pour la conduite autonome basée sur la fusion de capteurs multimodaux, construite en outre sur la base de données cartographiques, présente une précision de l'ordre du centimètre, ce qui améliore considérablement la production de masse et réduit le volume de l'ensemble cartographique sur lequel repose le positionnement côté véhicule. 97,5 % et la fiabilité atteint 99,9999 %, prenant pleinement en charge l'exploitation actuelle à grande échelle de conduite entièrement autonome de Luobo Kuaipao et réalisant une conduite entièrement autonome dans divers scénarios complexes et difficiles tels que sous des viaducs, des routes multicouches et des tunnels.
5. Mécanisme de mémoire personnalisé pour l'intelligence des grands modèles
Cette technologie d'invention propose de manière innovante un ensemble complet de mécanismes de mémoire, couvrant cinq modules de traitement, de stockage, de gestion, de déclenchement et d'utilisation de la mémoire, offrant ainsi des capacités de mémoire personnalisées aux grands modèles. Le traitement de la mémoire s'appuie sur le mécanisme de l'hippocampe humain pour obtenir une compréhension approfondie et un traitement précis des informations utilisateur dans tous les scénarios ; la gestion de la mémoire prend en charge les ajouts, suppressions et modifications actifs des utilisateurs ainsi que les ajouts, suppressions et modifications automatiques du système, garantissant ainsi un fonctionnement réel. mises à jour temporelles et précision de la banque de mémoire ; déclenchement et utilisation de la mémoire, aider les grands modèles à produire des réponses plus anthropomorphiques et personnalisées grâce à la génération spéculative de souvenirs pertinents. Cette technologie d’invention a été largement utilisée dans des scénarios tels que les assistants intelligents d’IA et les humains numériques.
6. Système de modélisation, de conduite et de génération humaine numérique super réaliste basé sur de grands modèles
Cette technologie inventive propose un ensemble complet de solutions numériques super réalistes de modélisation, de conduite et de génération humaine. Pour les vrais utilisateurs du numérique, nous avons développé des modèles de modélisation de portraits basés sur les données, de conduite multimodale et de génération de vidéos de grands portraits pour obtenir une production de contenu humain numérique naturel et réaliste. Nous prenons exclusivement en charge le clonage de portraits en direct dans les scènes d'action et d'occlusion à grande échelle. La première salle de diffusion en direct entièrement intelligente et entièrement pilotée a été mise en place. Pour les humains numériques 3D hyperréalistes, nous avons développé des technologies de migration modale et de collaboration multi-agents basées sur le grand modèle Wenxin, permettant une production infime d'images humaines numériques hyperréalistes et de contenus opérationnels comparables aux superproductions cinématographiques et télévisuelles et Jeux 3A. La technologie de la présente invention a été largement utilisée dans de nombreux produits humains numériques 3D et réels, tels que la diffusion humaine numérique en direct, la production vidéo et les corps intelligents.
7. Système de récupération commerciale générative basé sur de grands modèles
Cette technologie d'invention a modifié le processus traditionnel de « tri par rappel d'index », aplati l'entonnoir du système, réduit la perte d'informations et codé les informations commerciales dans les paramètres du modèle en créant des tâches d'apprentissage d'index pour réaliser un « modèle en tant qu'index » et utiliser la puissance des grands Modèles. Capacités de compréhension et de raisonnement, réalisant la « génération et la récupération », le nouveau paradigme améliore considérablement l'efficacité de l'orientation du système de 120 %. Le projet impliqué dans cette invention a été le premier à être mis en œuvre dans l'industrie, réalisant une application industrielle à grande échelle. Le grand modèle génératif a été combiné avec des scénarios de recherche commerciale pour réaliser de multiples innovations technologiques. La richesse créative a été multipliée par 37 et la qualité créative. a augmenté de 92 %, et des avantages commerciaux significatifs et une large portée ont été obtenus.
8. Technologie de volant d'inertie de données de grands modèles
Cette technologie inventée identifie automatiquement les défauts du modèle et synthétise efficacement des données de formation diverses et de haute qualité en intégrant des informations provenant de sources et de formulaires multiples tels que les commentaires des utilisateurs, les commentaires d'exécution et les commentaires auto-supervisés. Dans le même temps, la méthode d'apprentissage par renforcement combinée à un retour multi-sources améliore considérablement l'effet de formation du modèle. Cette technologie innovante crée un volant de données qui peut s'améliorer continuellement, éliminant efficacement le goulot d'étranglement des données des grands modèles, réduisant les coûts d'acquisition de données, améliorant l'adaptabilité et la robustesse des grands modèles et améliorant les performances du modèle dans différents scénarios de tâches. l'évolution continue des grands modèles.
9. Technologie d'inférence efficace sur grands modèles
La technologie de raisonnement efficace proposée par cette technologie d'invention, la couche de modèle sous-jacente est basée sur le Flying Paddle Framework. Dans le sens de l'architecture de raisonnement, elle continue d'innover dans le sens du PrefixCaching grand public, de Lookahead, de PagedAttention, de séparation PD, etc. et combine efficacement diverses technologies pour améliorer considérablement le débit et les performances du modèle. En termes de compression de grands modèles, la société adopte une technologie de quantification sans perte de grands modèles et active des méthodes telles que le lissage adaptatif de la segmentation et le réarrangement des liaisons de poids. Elle est la première du secteur à atteindre une compression efficace sans perte de grands modèles de dizaines de milliards et de centaines de. des milliards. La présente invention prend en charge une variété de procédés de compression de grands modèles et d'accélération d'inférence, et a été utilisée dans des activités principales telles que la plateforme de grands modèles Baidu Intelligent Cloud Qianfan pour réduire la consommation de ressources de l'inférence de modèle, économiser de plus de 50 % les coûts de déploiement de grands modèles, et améliorer les performances et le débit du modèle. Amélioré de 3 à 5 fois.
10. Système de génération de récupération piloté par les commentaires des données des utilisateurs
Le système de génération de récupération proposé par cette technologie inventive peut combiner des signaux de rétroaction sur le comportement de l'utilisateur pour obtenir un auto-renforcement rapide. Aligner directement les préférences des utilisateurs grâce à la modélisation de la satisfaction et à l'apprentissage par renforcement, et utiliser les commentaires des utilisateurs pour déclencher une réflexion rapide du système, résolvant ainsi les problèmes de faible efficacité des retours d'experts et de difficulté de modélisation des préférences des utilisateurs dans les applications de données traditionnelles. Le système de génération de récupération basé sur ce cadre a couvert 18 % du trafic de recherche et est largement utilisé dans les scénarios de recherche de texte, de vidéo, d'image et autres. Les caractéristiques à grande échelle et recyclables des commentaires de plusieurs utilisateurs permettent au système de s'adapter rapidement aux changements de données, de produits et d'environnement, aident le système à rechercher automatiquement une optimisation et accélèrent l'évolution du système vers un état idéal. Il a une valeur pratique extrêmement élevée et. compétitivité du marché.