OpenAI ha lanzado recientemente sus modelos de inteligencia artificial o3 y o4-mini, presentándolos como avances significativos en el campo del razonamiento automático. No obstante, junto con esas mejoras ha surgido un problema inesperado: Los modelos o3 y o4-mini presentan alucinaciones y respuestas falsas o inventadas.

Los modelos o3 y o4-mini presentan alucinaciones

De acuerdo con los informes técnicos de la propia OpenAI, o3 y o4-mini han demostrado tasas de error superiores a las de modelos anteriores. En lugar de reducir la cantidad de respuestas incorrectas o inventadas, estos modelos parecen haberlas incrementado.

Mientras que versiones anteriores como o1 y o3-mini mostraban avances graduales en la precisión de la información, las nuevas versiones rompen con esa tendencia. Aunque logran responder más preguntas correctamente en ciertos contextos, también producen un volumen mayor de afirmaciones erróneas, lo cual compromete la confianza general en su desempeño.

o3 y o4-mini de OpenAI tienen alucinaciones y errores

Datos preocupantes en evaluaciones específicas

Las evaluaciones internas también han arrojado cifras preocupantes. En la prueba PersonQA, que mide el conocimiento que un modelo tiene sobre personas, o3 alcanzó un 33% de respuestas alucinadas, y o4-mini subió aún más, hasta un 48%.

Estas tasas duplican las obtenidas por modelos anteriores, lo que sugiere una regresión en uno de los aspectos más críticos de la inteligencia artificial: su capacidad para proporcionar información fiable y coherente sobre temas humanos y sociales.

Pruebas externas confirman alucinaciones complejas

Más allá de los estudios internos de OpenAI, laboratorios independientes también han puesto a prueba estos modelos. Transluce, una organización dedicada a la investigación de la IA, identificó casos donde o3 incluso fingía haber realizado acciones que no puede ejecutar.

OpenAI lanza sus modelos o3 y o4-mini

Por ejemplo, aseguró haber corrido código en una computadora física y luego usar esos datos, algo completamente falso y fuera de sus capacidades. Este tipo de alucinación no solo inventa hechos, sino que fabrica procesos enteros, lo que plantea serias preguntas sobre la fiabilidad del modelo.

Posibles soluciones a las alucinaciones y errores de los modelos o3 y o4-mini

Frente a este desafío, una de las soluciones que OpenAI ha explorado es el acceso a búsquedas web en tiempo real. Modelos como GPT-4o, cuando integran esta capacidad, han demostrado una mejora notable en la precisión de sus respuestas. En el benchmark SimpleQA, por ejemplo, se logró un 90% de aciertos.

Si esta tecnología se aplica correctamente, podría ayudar a mitigar las alucinaciones en modelos de razonamiento como o3 y o4-mini, siempre que los usuarios estén dispuestos a permitir que sus consultas se conecten a motores de búsqueda externos.

Los modelos o3 y o4-mini representan una nueva etapa en la evolución de la inteligencia artificial, con capacidades de razonamiento mejoradas pero también con un precio inesperado: la generación de errores más frecuentes y sofisticados.

Vía TechCrunch