Hallan el primer agujero de seguridad inherente a su capacidad de IA en el navegador web Atlas de OpenAI

Un texto formateado como URL puede contener instrucciones que el navegador ejecuta, y que proporcionan acceso a datos sensibles a un ciberdelincuente.
29 de octubre, 2025

Ya lo expliqué hace unos días, cuando hablaba del lanzamiento de Atlas, el nuevo navegador web de OpenAI con IA agéntica imbuida mediante ChatGPT y que, al igual que el resto de navegadores de IA como el Comet de Perplexity, es susceptible de sufrir problemas de ciberseguridad inherentes a su condición de incorporar IA, como la inyección de prompts, lo que abre una posible nueva vía de ataque para los ciberdelincuentes.

Según han hallado en NeuralTrust (que me ha llegado vía The Hacker News), la caja de diálogo del nuevo browser de OpenAI puede ser utilizada como vía de entrada para una inyección de instrucciones, el prompt injection antes mencionado, y consistente en instrucciones manipuladas para, subrepticiamente, llevar al agente de IA a que haga algo que, en teoría, no le está permitido como exfiltrar datos a fuentes externas.

Dicha caja de diálogo, o cuadro de texto, recibe el nombre de Omnibox, y lo que hace es interpretar lo que teclea el usuario para distinguir si es la dirección de una página web (URL), o bien un comando en lenguaje natural. Es posible que, por ello, lo que se escribe en la Omnibox recibe, por parte del browser, menos atención para la seguridad que el contenido de la página que se visita.

Conociendo esto, un atacante malintencionado puede crear un texto con forma de enlace que contenga instrucciones que solamente la IA puede ver y ejecutar. Además, pensemos que la capacidad de ChatGPT en Atlas es agéntica, por lo que puede ejecutar acciones y, para llevarlas a cabo, entrar en cuentas de servicios online del usuario o realizar pagos, aunque sea con supervisión humana, lo cual redobla el peligro de que sea controlado por ciberdelincuentes.

El método que describre el hallazgo de NeuralTrust se apoya en la ausencia de límites estrictos entre la entrada “de confianza” del usuario, y el contenido no fiable; el atacante construye una cadena con apariencia de dirección web, con prefijo “https” y un nombre de dominio plausible, y añade a continuación órdenes en lenguaje natural dirigidas al agente.

Si el usuario introduce dicha cadena de texto la omnibox, o el atacante lo consigue de alguna manera, y no supera la validación de URL, el navegador la procesa como un prompt, y el agente ejecuta las instrucciones embebidas y puede redirigir al sitio mencionado o realizar acciones adicionales.

NeuralTrust plantea escenarios de abuso en los que un enlace de este tipo se oculte tras un botón de “copiar enlace”, conduciendo a sitios de phishing controlados por el atacante. El mismo enfoque podría incorporar órdenes para operar sobre cuentas vinculadas, como intentar eliminar ficheros en servicios de almacenamiento en la nube conectados, tales como Google Drive o Microsoft OneDrive.

Además de esta vulnerabilidad en Atlas, recordemos que SquareX Labs demostró que es posible burlar la seguridad de los navegadores web que incorporan capacidades de IA agéntica mediante la instalación de extensiones maliciosas capaces de superponer una barra lateral falsa sobre la legítima, con lo que el usuario cree interactuar con el panel real, pero sus entradas se desvían hacia un motor que devuelve instrucciones manipuladas cuando detecta ciertas frases.

Las inyecciones de prompt se han consolidado como una preocupación central en navegadores con asistentes de IA. Los atacantes pueden ocultar instrucciones en páginas utilizando texto blanco sobre fondo blanco, comentarios HTML o técnicas de CSS para que el agente las procese y actúe fuera de los márgenes de lo que tiene permitido hacer.

En las últimas semanas –sigue desgranando el artículo de The Hacker News– se han observado casos que afectan a otros navegadores con agente, como Perplexity Comet u Opera Neon. Brave ha descrito un método adicional que inserta órdenes en imágenes con texto de baja visibilidad, que después serían interpretadas mediante reconocimiento óptico de caracteres.

OpenAI ha reconocido que se trata de una área sobre la que está investigando y desplegando mitigaciones. La compañía indica que ha realizado ejercicios de prueba de intrusión, ha ajustado el entrenamiento de los modelos para ignorar instrucciones maliciosas y ha incorporado salvaguardas adicionales, si bien admite que la inyección de instrucciones sigue siendo un problema de seguridad no resuelto en este tipo de navegadores web.

Por su parte, Perplexity califica este vector como un reto que afecta a toda la industria y afirma aplicar capas múltiples de defensa frente a instrucciones ocultas en HTML/CSS, inyecciones basadas en imágenes, ataques de confusión de contenido, y desvío de objetivos, con detección en tiempo real, refuerzo de seguridad, controles para el usuario y notificaciones transparentes.

Para los responsables tecnológicos de las empresas, este descubrimiento deja claro que la integración de agentes de IA en el navegador introduce superficies de ataque específicas, donde entradas que parecen legítimas pueden activar acciones no deseadas. Por lo tanto, mucho cuidado en introducirlos en la empresa, y siempre controlando estríctamente su identidad digital y sus privilegios de acceso.