OpenAI disponibiliza su nuevo modelo o3-mini

Incorporado ya a ChatGPT, sustituye a o1-mini como modelo de razonamiento rápido, y en las opciones de pago del chatbot tenemos una versión optimizada para matemáticas y programación.
3 de febrero, 2025
OpenAI disponibiliza su nuevo modelo o3-mini

Después del revuelo provocado por DeepSeek la semana pasada, y lo que le queda todavía -puesto que OpenAI ha denunciado públicamente que la compañía china ha utilizado material suyo protegido por derechos de propiedad intelectual-, la compañía de Sam Altman ha introducido el prometido nuevo modelo de lenguaje o3-mini en ChatGPT, después de que Altman hablara públicamente de él hace unas semanas.

Este nuevo modelo ya se encuentra disponible en la versión gratuita del chatbot (seleccionando la opción de razonamiento), así como en la de pago (Plus, Team, y Pro), e incorpora funcionalidades muy solicitadas por los desarrolladores, como la integración de function calling, salidas estructuradas y mensajes para desarrolladores, lo que permite conocer mejor su funcionamiento interno a nivel de razonamiento. También se ha mantenido la compatibilidad con la transmisión de datos (streaming), característica heredada de versiones anteriores.

Además, OpenAI o3-mini ofrece la posibilidad de elegir entre tres niveles de esfuerzo en el razonamiento -bajo, medio y alto- lo que permite ajustar el rendimiento en función de la complejidad del problema o de la necesidad de reducir la latencia.

Algo de lo que carece -al menos por el momento- el modelo, es de capacidad visual, lo que significa que no puede deducir nada del contexto de lo que se le pida a partir de una imagen, ya que no dispone de la capacidad de leerla. Si necesitamos trabajar sobre el contenido de una imagen, deberemos acudir al modelo o1.

De igual manera, si necesitamos trabajar sobre ficheros PDF o Word, tampoco podremos acudir a este modelo, deberemos recurrir al ya veterano GPT-4o, que es el más completo en este sentido.

En lo concerniente a la navegación por la web, este nuevo modelo dispone de dicha capacidad, que es útil para resumir los contenidos de páginas de actualidad y citar las fuentes consultadas que el modelo ha utilizado para responder a alguna pregunta sobre cuestiones de actualidad.

En cuanto a la disponibilidad, los usuarios de ChatGPT Plus, Team y Pro ya pueden acceder a o3-mini desde hace unos pocos días, mientras que el acceso para clientes Enterprise se habilitará a lo largo de lo que queda de este mes de febrero. Paralelamente, se ha incrementado el límite de mensajes diarios para los usuarios Plus y Team, pasando de 50 mensajes diarios con o1-mini a 150 con o3-mini. El modelo se integra en el Chat Completions API, Assistants API y Batch API para desarrolladores en los niveles de uso indicados.

La versión o3-mini-high, habilitada con limitaciones para los usuarios de pago con excepción de los Pro que la tienen de forma ilimitada, ofrece una capacidad de razonamiento algo mayor a costa de tardar un poco más a la hora de ofrecer una respuesta.

Optimizaciones para matemáticas y generación de código

El nuevo modelo ha sido optimizado para su mejor desempeño en tareas técnicas, alcanzando un rendimiento comparable al de su predecesor o1 en evaluaciones de matemáticas, codificación y ciencia, al emplear un esfuerzo de razonamiento medio. En pruebas específicas, incluyendo evaluaciones reconocidas como AIME y GPQA, o3-mini ha ofrecido respuestas claras y precisas en escenarios complejos.

Los evaluadores han registrado una preferencia por las respuestas generadas por o3-mini en el 56% de los casos, observándose además una reducción del 39% en errores importantes al abordar problemas reales de alta complejidad. Los resultados obtenidos reflejan una notable mejora en la velocidad, ya que las respuestas se han generado un 24% más rápido que las producidas por o1-mini, con tiempos promedio de 7,7 segundos frente a 10,16 segundos.

La posibilidad de seleccionar entre distintos niveles de esfuerzo de razonamiento permite a los desarrolladores ajustar el modelo según los requisitos de cada aplicación, logrando un equilibrio entre velocidad y precisión que responde a necesidades técnicas específicas.

Medidas de seguridad y evaluación del modelo

En materia de seguridad, OpenAI ha aplicado la técnica de deliberative alignment para entrenar a o3-mini, lo que implica que el modelo razona en función de especificaciones de seguridad redactadas por humanos antes de responder a las solicitudes de los usuarios. Este enfoque ha permitido que el modelo supere, en pruebas de seguridad y resistencia ante intentos de evasión, a otras configuraciones de mayor capacidad.

Las evaluaciones de seguridad, que han incluido procedimientos internos, pruebas de red-teaming y evaluaciones externas, han confirmado que el nivel de preparación de o3-mini es comparable al del modelo o1. Los detalles completos sobre la metodología de evaluación, el análisis de riesgos y las medidas de mitigación aplicadas, se encuentran disponibles en el documento denominado o3-mini system card.