Hasta ahora, en ChatGPT ya disponíamos de capacidad agéntica con Operator, pero esta carecía de algunas facilidades, como el uso simultáneo de Deep Research, de manera que no podíamos completar un trabajo basado en una investigación profunda, ni aprovechar las capacidades agénticas para hacer algo más con un trabajo realizado en profundidad, lo que ahora cambia con la introducción del Modo Agente de ChatGPT.
Este es capaz de ejecutar tareas complejas de principio a fin, utilizando para ello una máquina virtual en la que crea un entorno seguro en el que navegar y realizar acciones online.
Con la nueva funcionalidad, el modelo no solo responde preguntas, sino que también interactúa con sitios web, gestiona formularios y genera documentos elaborados, como presentaciones u hojas de cálculo, mientras el usuario hace otras cosas.
ChatGPT puede así, y según nos lo explican desde la misma OpenAI, realizar tareas como consultar la agenda y cruzarla con las noticias o analizar a las empresas competidoras y preparar una presentación comparativa. Para ello, el Agente recorre páginas, filtra resultados e incluso solicita inicios de sesión seguros antes de entregar un material editable.
Para construir esta herramienta, OpenAI ha combinado la navegación visual de Operator con la capacidad analítica de Deep Research en un único sistema. Hasta ahora, Operator podía hacer clics y desplazamientos en la web, mientras que la Investigación se centraba en sintetizar información. Unificadas, ambas habilidades permiten al modelo elegir en cada paso la vía más eficaz: API, navegador de texto o interfaz gráfica.
Y todo esto ocurre en la máquina virtual propia de ChatGPT, que conserva el contexto y ajusta su estrategia sobre la marcha para ganar velocidad y precisión.
El flujo de trabajo es colaborativo entre el chatbot y el usuario, ya que este último puede pausar la tarea, revisar lo que ya ha hecho, redefinir objetivos sobre la marcha, o retomar la conversación sin que se pierda el progreso. A su vez, el modelo pide detalles adicionales cuando lo considera necesario para mantener el rumbo.
Los conectores que permiten a ChatGPT interactuar con aplicaciones y servicios externos como Google Drive, GitHub, Gmail o Google Calendar (y que no todos se encuentran disponibles para el mercado europeo) se integran con el agente para resumir buzones de correo o cuadrar agendas, siempre tras la autenticación manual del usuario. El sitio de vista previa de Operator cerrará un mes después de la puesta en marcha del nuevo modo, aunque Deep Research seguirá disponible como opción independiente.
Control y seguridad del usuario
Antes de realizar acciones sensibles, el agente solicita permiso explícito y permite al usuario pausar o tomar el control en cualquier momento. Además, ciertas tareas críticas exigen supervisión paso a paso, y el modelo se niega a ejecutar operaciones de alto riesgo, como transacciones financieras delicadas.
Para protegerse de ataques de inyección de instrucciones, sigue una jerarquía estricta de órdenes y alerta al usuario si detecta ambigüedad.
La privacidad también se refuerza, y las cookies se gestionan según la política de cada sitio, siendo posible borrar el historial de navegación o cerrar todas las sesiones con un sólo clic del ratón. Cuando el usuario asume el control del navegador, sus datos permanecen fuera del alcance del modelo.
El despliegue de la primera versión del agente de ChatGPT empieza desde ya, aunque a Europa tardará un poco más en llegar, mientras que en Estados Unidos y Reino Unido ya empieza a estar disponible para los usuarios de los planes de pago del chatbot.
Cómo con las demás herramientas, estará regido por un modelo de pago por consumo, disponiendo los suscriptores Pro de un número prácticamente ilimitado de acciones mensuales, mientras que el resto de los planes de pago comienzan con cincuenta tareas pudiendo ampliar dicho cupo mediante créditos adicionales.
En esta etapa inicial encontramos limitaciones: por ejemplo, la creación de presentaciones se encuentra en fase beta, ya que si bien la estructura del documento es editable, el formato puede requerir retoques manuales. OpenAI ya trabaja en versiones que perfeccionen la maquetación y amplíen las capacidades, mientras continúa afinando la eficiencia y la profundidad del agente.
Además, la firma ya ha indicado que seguirá añadiendo mejoras y nuevas capacidades de forma iterativa y frecuente para que el Modo Agente sea más útil a todo el mundo.



