OpenAI ha fechado el 11 de diciembre de 2025 la publicación en la que presenta GPT-5.2 como su modelo más avanzado hasta ahora para trabajos de ciencia y matemáticas.
La compañía enmarca este movimiento en una expectativa amplia sobre el papel de la inteligencia artificial en investigación: acelerar el trabajo científico para que los investigadores puedan explorar más ideas, comprobarlas con mayor rapidez y convertir los resultados en impacto. En ese contexto, OpenAI explica que durante el último año ha trabajado de cerca con científicos de áreas como matemáticas, física, biología y ciencia de la computación para identificar dónde la IA puede ayudar y dónde todavía se queda corta.
Ese recorrido reciente incluye, según indica el texto; la publicación el mes pasado de un artículo que recopilaba estudios de caso iniciales en disciplinas que van desde la astronomía a la ciencia de materiales. Con ejemplos de cómo GPT-5 ya estaba contribuyendo a trabajos científicos. A partir de ahí, OpenAI afirma que con GPT-5.2 empieza a observar que esas mejoras se vuelven más consistentes y más fiables.
Más precisión donde los errores importan
OpenAI señala que GPT-5.2 Pro y GPT-5.2 Thinking son sus modelos más avanzados hasta ahora para trabajo científico y matemático, y vincula esa evolución a la necesidad de mayor fiabilidad en tareas técnicas.
En su argumentario, la empresa sitúa el razonamiento matemático como base de esa fiabilidad: la capacidad de seguir lógicas de varios pasos, mantener cantidades coherentes y evitar fallos sutiles que, acumulados, pueden alterar análisis reales. OpenAI cita como ejemplos de ámbitos sensibles a ese tipo de errores las simulaciones, la estadística, la predicción y el modelado.
La publicación también conecta la mejora en razonamiento con el rendimiento en evaluaciones de referencia. Por un lado, menciona GPQA Diamond, un benchmark de preguntas y respuestas de nivel de posgrado con cuestiones de física, química y biología en formato de opción múltiple. OpenAI precisa que, en esa prueba; no se habilitaron herramientas y el esfuerzo de razonamiento se configuró al máximo.
En GPQA Diamond, GPT-5.2 Pro alcanzó un 93,2% y GPT-5.2 Thinking un 92,4%, en preguntas de física, química y biología sin herramientas activadas y con el esfuerzo de razonamiento al máximo.
Por otro lado, la compañía aporta datos de FrontierMath (Tier 1–3), una evaluación de matemáticas de nivel especialista. En este caso, OpenAI indica que sí se habilitó una herramienta de Python y, de nuevo, el esfuerzo de razonamiento se estableció al máximo.
En FrontierMath (Tier 1–3), GPT-5.2 Thinking resolvió el 40,3% de los problemas, con una herramienta de Python habilitada y el esfuerzo de razonamiento al máximo.
Además de los resultados numéricos, OpenAI afirma que este tipo de avances reflejan una capacidad de razonamiento y abstracción más general (no una destreza estrecha) y los relaciona con flujos de trabajo científicos como la programación, el análisis de datos o el diseño de experimentos. En el mismo hilo, la empresa liga estas capacidades con el avance hacia la inteligencia general artificial (AGI), un concepto que en este contexto se refiere a sistemas con habilidades amplias y transferibles de razonamiento entre dominios.
Un caso práctico en un problema abierto
Como estudio de caso, OpenAI describe un trabajo en teoría del aprendizaje estadístico en el que GPT-5.2 Pro ayudó a resolver un problema de investigación abierto, documentado en un nuevo artículo académico sobre la monotonicidad de curvas de aprendizaje en estimadores de máxima verosimilitud.
El punto de partida es una pregunta recurrente cuando se ajustan modelos con datos: si al incorporar más ejemplos los resultados mejoran de forma fiable. OpenAI resume esa idea con la noción de “curva de aprendizaje”, que sigue el error medio a medida que se añade información, y recuerda que la expectativa habitual es que más datos impliquen menos error de manera sostenida.
Sin embargo, el texto señala que en los últimos años esa intuición se ha visto cuestionada: investigadores han mostrado escenarios en los que la curva no es monótona y, al añadir datos, el error esperado puede aumentar. OpenAI sitúa el arranque de esa línea de trabajo en un problema abierto planteado en 2019 en la Conference on Learning Theory (COLT) por Viering, Mey y Loog, que dio pie a artículos posteriores con más ejemplos y métodos que buscaban recuperar el comportamiento monótono.
Según OpenAI, pese a ese avance, quedaba sin resolver un caso considerado básico: el escenario “de manual” en el que el modelo estadístico es correcto y los datos siguen una distribución de campana (gaussiana), con media conocida pero desviación estándar desconocida. La publicación afirma que el nuevo trabajo concluye que, en ese entorno, la intuición se cumple y aprender con más datos mejora de forma predecible.
El aspecto diferencial del caso, tal y como lo presenta la compañía, está en el proceso. OpenAI asegura que los autores no trasladaron al modelo un esquema de demostración ni un guion intermedio para que completara pasos, sino que le solicitaron abordar directamente el problema abierto y después verificaron con cuidado la demostración, incluyendo revisión y validación por expertos externos de la materia. A partir de ahí, siempre según el texto, plantearon preguntas de seguimiento y GPT-5.2 Pro extendió el resultado a escenarios de mayor dimensión y a otros modelos estadísticos habituales, manteniendo el papel humano centrado en verificar y redactar con claridad.
La lectura hacia adelante
OpenAI subraya que estos sistemas no son investigadores independientes y que el criterio experto, la verificación y la comprensión profunda del dominio siguen siendo imprescindibles para trabajar con fiabilidad.
En su apartado de perspectiva, la compañía interpreta el caso como una señal de cómo la IA puede apoyar la investigación, especialmente en campos con fundamentos teóricos axiomáticos, como las matemáticas y la computación teórica. A la vez, advierte de que incluso modelos muy capaces pueden equivocarse o apoyarse en supuestos no explicitados, por lo que el progreso “confiable” pasa por diseñar flujos de trabajo con validación, transparencia y colaboración en el centro.
Con ese marco, OpenAI describe un modo emergente de hacer investigación en el que modelos como GPT-5.2 actúan como herramienta de apoyo al razonamiento y de aceleración de la exploración inicial, mientras que la responsabilidad sobre la corrección, la interpretación y el contexto permanece en manos de los investigadores humanos.



