Apple AI Research : le test arithmétique simple "Kiwi" a vaincu plus de 20 modèles de pointe tels que o1 et Llama

Auteur：Eve Cole Date de mise à jour：2025-02-02 18:48:01

IT House News le 2 novembre, le Los Angeles Times a publié un article de blog hier (1er novembre), rapportant que l'équipe de recherche d'Apple a testé 20 des modèles d'IA les plus avancés et a constaté qu'en présence d'éléments d'interférence, ils traitaient les performances sur de simples Les problèmes d'arithmétique sont médiocres, encore pires que ceux des élèves du primaire.

Apple a utilisé la simple question arithmétique suivante pour tester plus de 20 des modèles d'IA les plus avancés. IT Home a joint la question comme suit :

Oliver a cueilli 44 kiwis vendredi, puis 58 kiwis samedi. Le nombre de kiwis cueillis dimanche était le double de celui de vendredi, mais 5 d'entre eux étaient plus petits que la moyenne. Combien de kiwis Oliver a-t-il cueilli au cours de ces trois jours ? as-tu choisi ?

La bonne réponse est 190 et la formule de calcul est 44 (vendredi) + 58 (samedi) + 88 (44*2, dimanche).

Cependant, les plus de 20 modèles d'IA de pointe testés n'ont pas réussi à éliminer les éléments d'interférence et n'ont généralement pas compris que la taille et le nombre de kiwis n'avaient rien à voir avec cela. La plupart des résultats étaient de 185.

L’équipe Apple a constaté que lorsque les questions contenaient des informations qui semblaient pertinentes mais qui ne l’étaient en réalité pas, les performances des modèles d’IA diminuaient considérablement. Cette recherche estime que les modèles d’IA s’appuient principalement sur des modèles linguistiques dans les données d’entraînement plutôt que sur une véritable compréhension des concepts mathématiques.

Les recherches d'Apple montrent que les modèles d'IA actuels sont "incapables d'un véritable raisonnement logique". Cette découverte rappelle que même si l’IA excelle dans certaines tâches, son intelligence n’est pas aussi fiable qu’il y paraît.

L'équipe d'Apple a souligné que la simple expansion des données ou de la puissance de calcul ne peut pas résoudre fondamentalement ce problème. Le document d'Apple ne vise pas à affaiblir l'enthousiasme pour les capacités de l'IA, mais à fournir une compréhension rationnelle.