La carrera por liderar el desarrollo de inteligencia artificial ha convertido los benchmarks o pruebas de referencia en una especie de vitrina de prestigio. En este contexto, OpenAI, ha quedado bajo el escrutinio público tras revelarse que su modelo o3 rinde menos de lo que había insinuado meses antes.
Diferencias entre resultados internos y externos: El modelo o3 de OpenAI rinde menos de lo prometido
En diciembre, OpenAI presentó su modelo o3 como un avance significativo. Aseguró que podía resolver más del 25% de los problemas planteados en FrontierMath, un exigente conjunto de desafíos matemáticos.
Esta cifra superaba por amplio margen a otros modelos existentes, cuya capacidad no pasaba del 2%. Sin embargo, recientes evaluaciones realizadas por terceros muestran que este rendimiento estaba condicionado a un entorno de prueba específico que no se refleja en la versión pública del modelo.

Resultados inflados por condiciones específicas de prueba
La gran diferencia entre lo prometido y lo alcanzado en la práctica parece estar relacionada con el uso de un entorno técnico más potente durante las pruebas internas de OpenAI.
La organización Epoch AI, encargada de mantener el benchmark FrontierMath, evaluó de forma independiente el modelo o3. Determinó que su desempeño real rondaba apenas el 10%, muy por debajo del 25% anunciado. Esto revela que las condiciones de prueba internas pueden distorsionar la percepción real del modelo.
Posibles explicaciones técnicas para la discrepancia
Epoch AI sugirió que los resultados podrían deberse a diferencias en la versión de FrontierMath utilizada, el volumen de preguntas evaluadas, o el acceso a más recursos computacionales por parte de OpenAI durante sus pruebas internas. Esto pone en evidencia cómo pequeñas variaciones técnicas pueden generar grandes diferencias en los resultados.
¿El modelo o3 rinde menos porque es diferente al de las pruebas iniciales?
Otro aspecto clave que contribuye a esta discrepancia es que la versión pública de o3 no es exactamente la misma que se utilizó para las pruebas iniciales.
Según la Fundación ARC Prize, que también evaluó versiones preliminares del modelo, la versión pública está optimizada para el uso en productos y chats, y no para obtener las mejores puntuaciones en benchmarks técnicos. Además, sus niveles de cómputo son menores, lo cual incide directamente en su rendimiento.
La relevancia de los benchmarks en un contexto competitivo
Más allá del caso puntual del modelo o3, esta situación refleja un fenómeno cada vez más común en la industria de la IA. Las pruebas de rendimiento se han convertido en una herramienta de marketing, más que en una medición objetiva de capacidad.
Aunque OpenAI asegura que otros modelos como o3-mini-high y o4-mini ya superan al o3 en rendimiento, la situación deja en evidencia que los benchmarks pueden ser utilizados para generar expectativas que no siempre se cumplen en la práctica.
La diferencia entre lo prometido y lo entregado por el modelo o3 de OpenAI pone en evidencia los peligros de tomar los benchmarks de IA como una verdad absoluta. Aunque estos sirven como indicadores útiles, también pueden ser manipulados o malinterpretados si no se contextualizan correctamente.
Vía TechCrunch