¡Gran decepción! Prueba real del usuario del nuevo modelo o1 de OpenAI: en realidad cometió todo tipo de errores de bajo nivel, incluso calculó mal una letra

Autor：Eve Cole Fecha de actualización：2024-12-02 20:00:01

El último modelo de IA de OpenAI, “o1-preview” (anteriormente llamado “Strawberry”) ha provocado acaloradas discusiones. OpenAI afirmó que sus capacidades eran tan buenas como las de un estudiante de doctorado, pero en pruebas reales mostró errores decepcionantes. El editor de Downcodes lo llevará a comprender en profundidad este modelo de IA tan esperado pero problemático para ver qué nivel ha alcanzado y los comentarios reales de los usuarios.

Recientemente, OpenAI lanzó el muy esperado modelo de IA, anteriormente con el nombre en código "Strawberry" y oficialmente llamado "o1-preview".

OpenAI promete que el nuevo modelo funcionará tan bien como un estudiante de doctorado en tareas difíciles de referencia en física, química y biología. Sin embargo, los resultados de las pruebas preliminares muestran que esta IA aún está lejos de su objetivo de sustituir a los científicos o programadores humanos.

En las redes sociales, muchos usuarios compartieron sus experiencias al interactuar con la IA "OpenAI o1", y los resultados mostraron que el modelo aún funcionaba mal en tareas básicas.

Por ejemplo, Mathieu Acher, investigador del INSA Rennes, descubrió que OpenAI o1 proponía con frecuencia movimientos ilegales al resolver ciertos acertijos de ajedrez.

El científico de Meta AI, Colin Fraser, señaló que en un simple acertijo de palabras sobre granjeros que transportaban ovejas a través de un río, la IA en realidad abandonó la respuesta correcta y, en cambio, dijo algunas tonterías ilógicas.

Incluso en el acertijo de lógica que OpenAI usó como demostración, las preguntas relacionadas con las fresas llevaron a que los usuarios obtuvieran respuestas diferentes, y un usuario descubrió que el modelo tenía una tasa de error de hasta el 75%.

No solo eso, sino que algunos usuarios han informado que el nuevo modelo incluso comete errores al contar el número de veces que aparece la letra "R" en la palabra "fresa".

Aunque OpenAI declaró en el momento del lanzamiento que se trataba de un modelo inicial y que aún no tenía funciones como navegación web y carga de archivos, estos errores básicos siguen siendo sorprendentes.

Para mejorar, OpenAI introdujo el proceso de "cadena de pensamiento" en el nuevo modelo, lo que hace que OpenAI o1 sea significativamente diferente del modelo GPT-4o anterior. Este enfoque permite a la IA pensar una y otra vez antes de llegar a una respuesta, aunque esto también resulta en tiempos de respuesta más largos.

Algunos usuarios descubrieron que el modelo en realidad tardó 92 segundos en dar una respuesta a un rompecabezas de palabras, pero el resultado seguía siendo incorrecto.

Noam Brown, científico investigador de OpenAI, dijo que aunque la velocidad de respuesta actual es lenta, esperan que las versiones futuras piensen más e incluso proporcionen nuevos conocimientos sobre problemas innovadores.

Sin embargo, el famoso crítico de IA Gary Marcus se muestra escéptico al respecto y cree que el procesamiento a largo plazo no conduce necesariamente a capacidades de razonamiento trascendentes. Enfatizó que a pesar del continuo desarrollo de la tecnología de inteligencia artificial, la investigación y los experimentos en la vida real siguen siendo indispensables.

Se puede ver que en el uso real, el rendimiento del nuevo modelo de IA de OpenAI sigue siendo decepcionante en todos los aspectos, lo que también ha provocado discusiones sobre el desarrollo futuro de la tecnología de IA.

Destacar:

Recientemente, OpenAI lanzó un nuevo modelo de IA, "Strawberry", que afirma ser comparable a los estudiantes de doctorado en tareas complejas.

Muchos usuarios descubrieron que la IA cometía errores con frecuencia en tareas básicas, como realizar movimientos ilegales y responder incorrectamente acertijos simples.

OpenAI admite que el modelo aún está en desarrollo, pero pensar durante mucho tiempo puede no mejorar las capacidades de razonamiento y muchas cuestiones básicas siguen sin resolverse.

Con todo, aunque el modelo "o1-preview" de OpenAI muestra el potencial del desarrollo de la tecnología de IA, también expone muchas deficiencias en su aplicación práctica. En el futuro, el desarrollo de modelos de IA aún deberá lograr un equilibrio entre la mejora técnica y la aplicación práctica para poder alcanzar verdaderamente los objetivos esperados. El editor de Downcodes seguirá prestando atención a las tendencias en el campo de la IA y le brindará informes más interesantes.