Dans le domaine de l'intelligence artificielle, la formation de grands modèles de langue (LLM) a toujours été une tâche à forte intensité de ressources, généralement seulement quelques géants de la technologie peuvent entreprendre. Cependant, la méthode de Salt (Small Model Assistance à un modèle de formation de Google a été lancée par Google peut modifier complètement cette situation. Cette innovation réduit non seulement les coûts de formation, mais améliore également les performances du modèle, ouvrant la porte au développement de l'IA pour plus d'institutions de recherche et d'entreprises.
Remarques de la source d'image: L'image est générée par l'IA, et le fournisseur de services autorisé l'image MidJourney
Le noyau de la méthode SALS réside dans son processus de formation en deux étapes. La première étape est la distillation des connaissances, et le modèle de petit langage (SLM) agit comme un "enseignant", transmet les connaissances apprises au grand modèle à travers des "étiquettes douces". Cette étape est particulièrement adaptée aux tâches de base que les petits modèles ont maîtrisé, aidant les grands modèles à jeter une base solide dans l'apprentissage précoce.
La deuxième étape est l'apprentissage auto-supervisé, avec de grands modèles commençant à apprendre indépendamment, en se concentrant sur des tâches plus complexes. Cette phase de transition nécessite une conception minutieuse, y compris des stratégies telles que l'atténuation linéaire et l'atténuation proportionnelle linéaire, pour garantir que les grands modèles peuvent progressivement réduire leur dépendance à l'égard des petits modèles et finalement obtenir un apprentissage et une optimisation indépendants.
Les recherches de Google montrent que l'utilisation de la méthode de sel pour former un grand modèle avec 2,8 milliards de paramètres a une réduction de 28% de temps et a amélioré la précision des problèmes mathématiques et des tâches de compréhension de la lecture de 3% et 4% respectivement. Cette amélioration significative des performances démontre non seulement l'efficacité du sel, mais démontre également son fort potentiel dans les tâches complexes.
L'émergence de sel améliore non seulement l'efficacité de la formation, mais réduit également le seuil pour le développement de l'IA. Dans le passé, la formation coûte que seules les grandes entreprises technologiques pouvaient se permettre, et maintenant de nombreuses petites institutions et entreprises de recherche peuvent participer. Cela favorisera l'émergence de solutions d'IA plus innovantes et plus professionnelles et promouvra davantage le développement du domaine de l'intelligence artificielle.
En général, la méthode de sel améliore non seulement les performances des grands modèles en introduisant la formation auxiliaire de petits modèles, mais réduit également considérablement le coût de la formation. Cette innovation devrait déclencher une révolution dans le domaine de l'IA, permettant à plus d'institutions de participer à la recherche et au développement de l'IA et à la promotion des progrès de l'ensemble de l'industrie.