Une nouvelle étude du MIT a révélé des similitudes frappantes entre la structure interne des grands modèles de langage (LLM) et le cerveau humain, déclenchant un débat houleux dans le domaine de l'intelligence artificielle. L'éditeur de Downcodes expliquera en détail les découvertes révolutionnaires de cette recherche et son importance pour le développement futur de l'IA. Grâce à une analyse approfondie de l'espace d'activation du LLM, les chercheurs ont découvert des caractéristiques structurelles à trois niveaux. La découverte de ces caractéristiques nous aidera à mieux comprendre le mécanisme de fonctionnement du LLM et à fournir de nouvelles orientations pour le développement de la future technologie d'IA.
L'IA a en fait commencé à « développer un cerveau » ?! Les dernières recherches du MIT montrent que la structure interne d'un grand modèle de langage (LLM) est étonnamment similaire à celle du cerveau humain !
Cette étude a utilisé une technologie d'auto-encodeur clairsemée pour mener une analyse approfondie de l'espace d'activation de LLM et a découvert trois niveaux de caractéristiques structurelles étonnantes :
Tout d’abord, au niveau microscopique, les chercheurs ont découvert l’existence de structures de type « cristallin ». Les faces de ces « cristaux » sont constituées de parallélogrammes ou de trapèzes, semblables à des analogies de mots familières, telles que « homme : femme :: roi : reine ».
Ce qui est encore plus surprenant, c'est que ces structures « cristallines » deviennent plus claires après avoir éliminé certains facteurs d'interférence non pertinents (tels que la longueur des mots) grâce à des techniques d'analyse discriminante linéaire.
Deuxièmement, au niveau méso, les chercheurs ont découvert que l’espace d’activation du LLM possède une structure modulaire similaire aux divisions fonctionnelles du cerveau humain.
Par exemple, les fonctionnalités liées aux mathématiques et au codage se regroupent pour former un « lobe » similaire aux lobes fonctionnels du cerveau humain. Grâce à l'analyse quantitative de plusieurs indicateurs, les chercheurs ont confirmé la localisation spatiale de ces « lobes », montrant que les caractéristiques concomitantes sont également plus regroupées spatialement, bien au-delà de ce que l'on pourrait attendre d'une distribution aléatoire.
Au niveau macro, les chercheurs ont découvert que la structure globale du nuage de points caractéristiques LLM n'est pas isotrope, mais présente une distribution de valeurs propres en loi de puissance, et cette distribution est plus évidente dans la couche intermédiaire.
Les chercheurs ont également analysé quantitativement l'entropie de regroupement de différents niveaux et ont constaté que l'entropie de regroupement de la couche intermédiaire était plus faible, ce qui indique que la représentation des caractéristiques était plus concentrée, tandis que l'entropie de regroupement des couches précoces et tardives était plus élevée, indiquant que la caractéristique la représentation était plus dispersée.
Cette recherche nous offre une nouvelle perspective sur la compréhension des mécanismes internes des grands modèles de langage et jette également les bases du développement de systèmes d’IA plus puissants et plus intelligents à l’avenir.
Ce résultat de recherche est passionnant. Il approfondit non seulement notre compréhension des modèles de langage à grande échelle, mais indique également une nouvelle direction pour le développement futur de l’intelligence artificielle. L'éditeur de Downcodes estime qu'avec les progrès continus de la technologie, l'intelligence artificielle montrera son fort potentiel dans davantage de domaines et apportera un avenir meilleur à la société humaine.