L'éditeur de Downcodes a appris qu'une dernière étude explore en profondeur la capacité potentielle des modèles d'IA dans le processus d'apprentissage, et que ses méthodes d'apprentissage dépassent même la compréhension antérieure des gens. En analysant la dynamique d'apprentissage du modèle d'IA dans « l'espace conceptuel », les chercheurs ont révélé un nouveau mécanisme de compréhension et de génération d'images d'IA. Cette recherche offre non seulement une nouvelle perspective pour notre compréhension de l’apprentissage de l’IA, mais fournit également des idées précieuses pour améliorer les performances des modèles d’IA. Examinons de plus près cette recherche révolutionnaire.
Remarque sur la source de l'image : l'image est générée par l'IA et le fournisseur de services d'autorisation d'image Midjourney
« L'espace conceptuel » est un système de coordonnées abstrait qui peut représenter les caractéristiques de chaque concept indépendant dans les données d'entraînement, telles que la forme, la couleur ou la taille d'un objet. Les chercheurs affirment qu'en décrivant la dynamique d'apprentissage dans cet espace, il peut être révélé que la vitesse d'apprentissage des concepts et l'ordre d'apprentissage sont affectés par les attributs des données, appelés « signaux conceptuels ». Ce signal conceptuel reflète la sensibilité du processus de génération de données aux changements dans les valeurs du concept. Par exemple, un modèle apprend les couleurs plus rapidement lorsque la différence entre le rouge et le bleu est claire dans l'ensemble de données.
Au cours du processus de recherche, l'équipe de recherche a observé que la dynamique d'apprentissage du modèle subirait de brusques changements de direction, de la « mémoire conceptuelle » à la « généralisation ». Pour vérifier ce phénomène, ils ont formé un modèle avec en entrée des « grands cercles rouges », des « grands cercles bleus » et des « petits cercles rouges ». Le modèle ne peut pas générer de combinaisons de « petits cercles bleus » qui n'apparaissent pas dans la formation via de simples invites textuelles. Cependant, en utilisant des techniques d'« intervention potentielle » (c'est-à-dire la manipulation des activations responsables de la couleur et de la taille dans le modèle) et des techniques de « sur-repérage » (c'est-à-dire l'amélioration des spécifications de couleur grâce aux valeurs RVB), les chercheurs ont réussi à générer des « petits cercles bleus ». " Cela montre que bien que le modèle soit capable de comprendre la combinaison de « bleu » et de « petit », il ne maîtrise pas cette capacité par de simples invites textuelles.
Les chercheurs ont également étendu cette méthode à des ensembles de données du monde réel, tels que CelebA, qui contient plusieurs attributs d'image faciale tels que le sexe et le sourire. Les résultats ont montré que le modèle montrait une capacité de dissimulation lors de la génération d’images de femmes souriantes, mais qu’il était faible lors de l’utilisation d’indices de base. En outre, des expériences préliminaires ont également révélé que lors de l'utilisation de Stable Diffusion1.4, des invites excessives peuvent générer des images inhabituelles, comme une carte de crédit triangulaire.
Par conséquent, l’équipe de recherche a proposé une hypothèse générale sur les capacités cachées : les modèles génératifs possèdent des capacités latentes qui émergent soudainement et de manière cohérente au cours de l’entraînement, bien que le modèle puisse ne pas présenter ces capacités lorsqu’il est confronté à des signaux ordinaires.
Cette recherche nous offre une nouvelle perspective pour comprendre le mécanisme d’apprentissage des modèles d’IA, et fournit également une nouvelle direction pour l’amélioration et l’application des modèles d’IA à l’avenir. L'éditeur de Downcodes estime qu'avec l'approfondissement continu de la recherche sur les mécanismes d'apprentissage de l'IA, nous serons en mesure de mieux exploiter le potentiel de l'IA et de promouvoir le développement ultérieur de la technologie de l'intelligence artificielle. Dans l’attente de résultats de recherche plus similaires à l’avenir !