Los agentes son la próxima frontera de la inteligencia artificial. Si hasta ahora los chatbots de IA solamente responden a preguntas o completan tareas simples relacionadas con la navegación online como, por ejemplo, recopilar noticias (podemos ver las tareas programadas de ChatGPT), un agente inteligente se define como algo capaz de realizar tareas completas, siendo consciente de su entorno y pudiendo controlarlo, lo cual significa tomar el control de un navegador web o, incluso, del sistema operativo de un ordenador.
Según algunos analistas, este 2025 será el año en el que veremos despegar los agentes de IA, y OpenAI ha querido tomar la delantera en esta carrera presentando su primera apuesta en este sentido, Operator, el cual tiene acceso a diversos elementos del sistema operativo del ordenador del usuario, como es la salida gráfica (lo que ve por pantalla), el puntero del ratón y la capacidad de realizar clics, así como la capacidad de leer textos o entrarlos como si estuviera tecleando.
Este enfoque pretende ofrecer mayor versatilidad y adaptabilidad a la hora de ejecutar tareas, que pueden ir desde completar formularios, hasta gestionar contenidos online, ya que Operator dispone del control para poder moverse libremente por el sistema y realizar acciones.
Lo que se busca al final con un agente, es que este pueda completar tareas enteras, sin que solamente se quede con partes de esta y que sea el usuario quien deba realizar las acciones sobre el contenido que genera el chatbot.
Funcionamiento de la nueva IA
El motor de la solución es CUA, un modelo que combina la visión de GPT-4o con técnicas de refuerzo por aprendizaje para razonar de forma escalonada, identificar errores y corregir sus acciones si ello fuera necesario. Según datos facilitados, se basa en la experiencia acumulada durante años en el campo de la comprensión y el razonamiento multimodal, con la intención de desplegar la IA en un abanico más amplio de casos de uso.
La característica principal de CUA es su habilidad para procesar datos de píxeles y controlar un ratón y teclado virtuales. El modelo no depende de bibliotecas o APIs específicas para cada sitio o sistema, ya que reconoce lo que aparece en pantalla de forma similar a un usuario humano. Así, puede completar acciones como búsquedas en la web, navegación por menús o validación de formularios.
CUA se encuentra actualmente en una etapa temprana de su desarrollo. Desde OpenAI señalan que el sistema todavía presenta limitaciones, aunque ha logrado resultados relevantes en varias pruebas, incluyendo el manejo de acciones en distintas plataformas y la capacidad de adaptarse a imprevistos propios del entorno digital.
La metodología de trabajo integra varias fases; primero, CUA obtiene una captura visual del entorno para formarse una idea de la situación. A continuación, el modelo emplea un sistema de cadena de razonamiento, analizando los cambios en pantalla paso a paso y siguiendo la lógica de la tarea. Finalmente, ejecuta la acción correspondiente —ya sea un clic, un desplazamiento o la introducción de texto— y, si detecta acciones delicadas como envíos de datos personales, solicita confirmación adicional al usuario.
Este mecanismo se traduce en la capacidad de resolver asignaciones con múltiples pasos, manejar posibles errores durante el proceso y adaptarse cuando se producen variaciones inesperadas. OpenAI busca obtener más retroalimentación de los usuarios para perfeccionar la forma en la que la IA gestiona estas acciones automáticas.
Rendimiento y evaluaciones
En la comparativa con otras tecnologías, CUA ha logrado hitos destacados: para navegación web, se han registrado tasas de éxito del 58,1% en WebArena y del 87% en WebVoyager, lo que supone una mejora frente a resultados anteriores. Ambas pruebas miden la eficacia de modelos de IA al explorar y utilizar plataformas de compras, foros y servicios conocidos como Amazon, GitHub o Google Maps.
Por otro lado, cuando se emplea en sistemas operativos como Ubuntu, Windows o macOS bajo el marco de OSWorld, el modelo alcanza una tasa del 38,1%. Aunque estas cifras aún difieren del desempeño humano, que ronda un 72,4%, los resultados reflejan avances en la capacidad de la IA para manejar entornos más complejos con un único sistema de acciones.
Seguridad y lanzamiento
El despliegue de Operator -donde se integra CUA– se está realizando mediante un programa de vista preliminar limitado a usuarios de la versión Pro en los Estados Unidos. La organización subraya que se trata de una liberación gradual para recopilar usos y valoraciones reales, con la intención de mejorar las funciones y reforzar los controles de seguridad antes de un lanzamiento más amplio.
Como parte de este proceso, OpenAI ha comunicado que se han aplicado distintos mecanismos para mitigar riesgos, entre ellos, solicitudes de confirmación al usuario en tareas sensibles, restricciones de acceso en determinados sitios, y revisión constante de la actividad para detectar comportamientos que puedan violar las normas de uso establecidas.
Además, se mantiene la publicación del Operator System Card como documento vivo donde se expone la estrategia de protección y los siguientes pasos en materia de prevención de abuso o errores del modelo.