Recientemente, una pregunta de comparación matemática aparentemente simple: "¿Cuál es más grande, 13.8 o 13.11?" ha dejado perplejos a muchas personas, incluidos algunos modelos avanzados de IA. El editor de Downcodes lo llevará a profundizar en este incidente, analizar las deficiencias de la IA al abordar problemas de sentido común y la dirección de mejoras futuras. Esto no sólo revela las limitaciones de la tecnología de IA, sino que también hace que la gente piense sobre el desarrollo futuro de la IA.
Recientemente, una simple pregunta matemática (¿cuál es más grande, 13.8 o 13.11?) no sólo dejó perplejos a algunos humanos, sino que también puso en problemas a muchos modelos de lenguaje grandes (LLM). Esta pregunta ha provocado un debate generalizado sobre la capacidad de la IA para manejar problemas de sentido común.
En un conocido programa de variedades, este tema provocó acaloradas discusiones entre los internautas. Mucha gente piensa que el 13,11% debería ser mayor que el 13,8%, pero en realidad, el 13,8% es mayor.
El investigador de AI2, Lin Yuchen, descubrió que incluso los modelos de lenguaje más grandes, como GPT-4o, cometen errores en este simple problema de comparación. GPT-4o creyó erróneamente que 13.11 era mayor que 13.8 y dio una explicación incorrecta.
El descubrimiento de Lin Yuchen rápidamente generó acaloradas discusiones en la comunidad de IA. Muchos otros modelos de lenguajes grandes, como Gemini, Claude3.5Sonnet, etc., también cometen el mismo error en este simple problema de comparación.
La aparición de este problema revela las dificultades que puede encontrar la IA al abordar tareas que parecen simples pero que en realidad implican comparaciones numéricas precisas.
Aunque la inteligencia artificial ha logrado avances significativos en muchos campos, como la comprensión del lenguaje natural, el reconocimiento de imágenes y la toma de decisiones complejas, todavía puede cometer errores cuando se trata de operaciones matemáticas básicas y razonamiento lógico, lo que demuestra las limitaciones de la tecnología actual.
¿Por qué la IA comete tales errores?
Sesgo en los datos de entrenamiento: Es posible que los datos de entrenamiento para el modelo de IA no contengan suficientes ejemplos para manejar correctamente este tipo específico de problema de comparación numérica. Si el modelo se expone a datos durante el entrenamiento que indican principalmente que los números más grandes siempre tienen más lugares decimales, es posible que interprete incorrectamente más lugares decimales como valores más grandes.
Problemas de precisión de punto flotante: en informática, la representación y el cálculo de números de punto flotante implica problemas de precisión. Incluso pequeñas diferencias pueden provocar resultados erróneos al comparar, especialmente si la precisión no se especifica explícitamente.
Comprensión contextual insuficiente: si bien la claridad contextual puede no ser un problema importante en este caso, los modelos de IA a menudo necesitan interpretar correctamente la información en función del contexto. Pueden surgir malentendidos si la pregunta se formula de una manera que no es lo suficientemente clara o no coincide con los patrones comunes de la IA en los datos de entrenamiento.
Impacto del diseño rápido: la forma de hacer preguntas a una IA es fundamental para obtener la respuesta correcta. Los diferentes métodos de interrogatorio pueden afectar la comprensión y la precisión de las respuestas de la IA.
¿Cómo mejorar?
Datos de entrenamiento mejorados: al proporcionar datos de entrenamiento más diversos y precisos, se puede ayudar a los modelos de IA a comprender mejor las comparaciones numéricas y otros conceptos matemáticos básicos.
Optimice el diseño de indicaciones: una formulación de problemas bien diseñada puede aumentar las posibilidades de que la IA dé la respuesta correcta. Por ejemplo, el uso de representaciones numéricas y métodos de interrogatorio más explícitos puede reducir la ambigüedad.
Mejorar la precisión del procesamiento numérico: desarrollar y adoptar algoritmos y técnicas que manejen operaciones de punto flotante con mayor precisión para reducir los errores computacionales.
Capacidades mejoradas de razonamiento lógico y de sentido común: a través de capacitación específicamente enfocada en el razonamiento lógico y de sentido común, se mejoran las capacidades de la IA en estas áreas, lo que le permite comprender y manejar mejor las tareas relacionadas con el sentido común.
Con todo, las fallas expuestas por la IA en el manejo de problemas matemáticos simples de comparación nos recuerdan que la tecnología de IA aún se encuentra en la etapa de desarrollo y necesita mejoras y mejoras continuas. En el futuro, al optimizar los datos de entrenamiento, mejorar los algoritmos y mejorar las capacidades de razonamiento lógico, la IA logrará mayores avances en el manejo de problemas de sentido común.