OpenAI anunciaba, el pasado día 19, GPT-5.1-Codex-Max, un nuevo modelo dedicado al desarrollo de código fuente con capacidades de agente orientado a asistir en tareas de desarrollo de software complejas y de larga duración, basado en la última iteración de su modelo de lenguaje, la versión 5.1 de GPT.
La compañía lo describe como una evolución de su modelo de razonamiento de base, entrenado en tareas de ingeniería de software, matemáticas y actividades de investigación, y ya lo ha puesto a disposición de los usuarios en los distintos entornos de Codex (CLI, extensión para IDE, nube y revisión de código) desde el primer momento, mientras prepara su acceso a través de API.
Según la información publicada por OpenAI, GPT-5.1-Codex-Max ha sido diseñado para trabajos prolongados y detallados, siendo el primer modelo de OpenAI entrenado de manera nativa para operar a través de varias ventanas de contexto mediante un proceso denominado compaction, que permite mantener la coherencia del trabajo sobre millones de tokens dentro de una misma tarea. Este enfoque se plantea para habilitar refactorizaciones a escala de proyecto, sesiones de depuración extensas y bucles de agente de varias horas sin perder el contexto relevante.
El nuevo modelo se ha entrenado con tareas de ingeniería de software procedentes de escenarios reales como la creación de pull requests, la revisión de código, el desarrollo de interfaces de usuario y la resolución de consultas técnicas.
Desde OpenAI indican que GPT-5.1-Codex-Max supera a sus predecesores en distintas pruebas de evaluación avanzadas y que, por primera vez, uno de sus modelos de Codex ha sido entrenado para operar en entornos Windows. Además, el entrenamiento incorpora tareas destinadas a mejorar el comportamiento colaborativo del modelo dentro del propio CLI de Codex, con el objetivo de que actúe como un acompañante de desarrollo más eficaz.
En el apartado de rendimiento y coste, la compañía destaca mejoras en la eficiencia de uso de tokens, que atribuye a un razonamiento más efectivo. En el conjunto de pruebas SWE-bench Verified, GPT-5.1-Codex-Max con esfuerzo de razonamiento medium consigue mejores resultados que GPT-5.1-Codex con el mismo nivel de esfuerzo, utilizando al mismo tiempo un 30% menos de tokens dedicados al razonamiento.
Para tareas que no son sensibles a la latencia, se introduce un nuevo nivel de esfuerzo de razonamiento Extra High (xhigh) que prolonga el tiempo de pensamiento del modelo para obtener respuestas potencialmente más detalladas, aunque OpenAI sigue recomendando el nivel medio como opción principal para el trabajo diario.
Desde OpenAI esperan que estas mejoras en eficiencia se traduzcan en ahorros reales para los desarrolladores y muestra ejemplos comparativos en los que GPT-5.1-Codex-Max genera diseños de front-end de calidad similar, pero con un coste inferior al de GPT-5.1-Codex en casos como CartPole, un sandbox de sistema solar, un tablero Kanban o visualizaciones de la ley de Snell.
La funcionalidad de compaction se presenta como respuesta a las limitaciones habituales de las ventanas de contexto en tareas prolongadas. En aplicaciones que utilizan Codex, GPT-5.1-Codex-Max compacta de manera automática la sesión cuando se aproxima al límite de contexto, liberando espacio para continuar la tarea sin perder la información considerada más relevante, y repite este proceso hasta completar el trabajo asignado.
En las evaluaciones internas, OpenAI afirma haber observado ejecuciones en las que el modelo trabaja de forma autónoma durante más de 24 horas, iterando sobre su propia implementación, corrigiendo fallos de pruebas y ofreciendo finalmente un resultado satisfactorio, por ejemplo al refactorizar el repositorio de código abierto del CLI de Codex.
Seguridad y gobernanza del modelo
OpenAI sitúa las capacidades de GPT-5.1-Codex-Max en el contexto de las tareas de razonamiento de largo recorrido y ciberseguridad. La compañía señala que el modelo ofrece mejores resultados en evaluaciones que requieren razonamiento sostenido en el tiempo, tanto en programación de largo horizonte como en pruebas de seguridad informática, y ha documentado su comportamiento en una tarjeta de sistema específica.
Al mismo tiempo, indica que el modelo no alcanza todavía el nivel de capacidad “High” en ciberseguridad según su propio marco de preparación, aunque lo presenta como el modelo de ciberseguridad más capaz que ha desplegado hasta la fecha, y sostiene que las capacidades de los agentes en este ámbito evolucionan con rapidez.
En previsión de una posible capacidad alta, OpenAI declara que está reforzando sus salvaguardas en el dominio ciber y tratando de garantizar que los equipos defensivos puedan beneficiarse de estas funciones, entre otros mecanismos mediante programas como Aardvark.
Desde el lanzamiento de GPT-5-Codex, la empresa afirma haber implantado mecanismos de monitorización específicos para ciberseguridad destinados a detectar y bloquear usos maliciosos de sus modelos. Según la información hecha pública por OpenAI, no se ha observado un incremento significativo de abusos a gran escala, pero se están preparando mitigaciones adicionales para capacidades avanzadas y se han interrumpido ya operaciones de ciberataque que pretendían aprovechar la tecnología de OpenAI. La actividad considerada sospechosa se deriva a los sistemas internos de monitorización de políticas para su posterior revisión.
En cuanto al diseño del entorno de ejecución, Codex se ejecuta por defecto en una sandbox: las escrituras en disco se limitan al espacio de trabajo del agente y el acceso a la red permanece desactivado salvo que el desarrollador decida habilitarlo. OpenAI recomienda mantener Codex en este modo restringido, ya que la conexión a Internet o las búsquedas web, pueden introducir riesgos de inyección de instrucciones (prompt injection) procedentes de contenido no fiable.
A medida que el modelo adquiere mayor capacidad para mantener tareas de larga duración, la compañía subraya la necesidad de que los desarrolladores revisen el trabajo del agente antes de aplicar cambios o desplegar en producción. Para facilitar esta revisión, Codex genera registros de terminal y referencias a las llamadas de herramientas y a los resultados de las pruebas ejecutadas, de modo que sus revisiones de código puedan considerarse una capa adicional de control, pero no un sustituto de las revisiones humanas.
En términos de disponibilidad comercial, GPT-5.1-Codex-Max se ofrece dentro de Codex a los clientes de ChatGPT con planes Plus, Pro, Business, Edu y Enterprise. Para los desarrolladores que utilizan el CLI de Codex mediante clave de API, OpenAI indica que tiene previsto habilitar el nuevo modelo a través de la API próximamente.
Desde el momento del anuncio, GPT-5.1-Codex-Max pasa a sustituir a GPT-5.1-Codex como modelo por defecto en las distintas superficies de Codex y la empresa recomienda utilizar tanto este modelo como el resto de la familia Codex exclusivamente para tareas de programación con agentes en Codex o entornos similares, diferenciándolos así de modelos de uso más general como GPT-5.1.
En sus conclusiones, OpenAI presenta GPT-5.1-Codex-Max como un ejemplo del avance de sus modelos a la hora de mantener tareas de programación de largo recorrido, gestionar flujos de trabajo complejos y producir implementaciones con menos tokens. Estas capacidades se combinan con actualizaciones continuas del CLI, la extensión para el IDE, la integración en la nube y las herramientas de revisión de código.
Según han informado desde la misma OpenAI, el 95% de sus ingenieros utilizan Codex semanalmente y, desde su adopción, estos equipos envían aproximadamente un 70% más de pull requests. Con este lanzamiento, la compañía de Sam Altman afirma que seguirá ampliando lo que sus agentes pueden hacer en el ámbito del desarrollo de software.



