La popularidad de ChatGPT, que le ha llevado a concitar un gran número de usuarios, lo ha convertido también en un centro de interés para los ciberdelincuentes, que ven en él la posibilidad de llegar a miles de posibles víctimas. Y, en esta casuística, la capacidad del chatbot de conectarse con múltiples aplicaciones, juega en su contra.
Investigadores de Radware descubrieron, hace unos días, un adujero de seguridad en ChatGPT, al que denominaron ShadowLeak, que permite a un atacante obtener datos del usuario sin que este último tenga que llevar a cabo alguna acción.
Dicho ataque se aprovecha de la capacidad del chatbot de conectarse con una cuenta de correo Gmail, la cual puede utilizar para añadir contexto a las búsquedas del usuario, y que debe utilizarse con la funcionalidad Deep Research, además de utilizar la función de navegación en un browser del propio ChatGPT.
El atacante solamente debe crear un mensaje de correo, formateado de una manera determinada, y esperar que ChatGPT lo lea, sin que el usuario deba llevar a cabo otra acción, accediendo a datos privados del usuario y mandándolos a un servidor bajo control del atacante. Es decir, se trata de lo que técnicamente se conoce como una vulnerabilidad zero-click.
Según el análisis llevado a cabo por Radware, el atacante esconde inyecciones indirectas de prompts (instrucciones para el chatbot) dentro del propio mensaje mediante tipografías diminutas, texto blanco sobre fondo blanco o trucos de maquetación, de forma que el usuario no percibe el contenido oculto pero el agente sí lo interpreta y lo ejecuta.
De esta manera, y al ser simple texto contenido en el correo electrónico, puede pasar las medidas anti-malware instaladas por el usuario.
La clave diferencial de este frente a otros ataques consiste en que el lugar donde ocurre la exfiltración son los propios servidores de OpenAI, y no el dispositivo del usuario, lo cual también deja a ciegas las medidas de seguridad locales. Desde Radware comparan este enfoque con trabajos anteriores (centrados en filtraciones en el lado del cliente) y concluyen que ShadowLeak amplía la superficie de ataque al explotar lo que el agente procesa en el backend.
El alcance del vector de ataque no se restringe a Gmail, y la prueba de concepto descrita por Radware empleó dicho conector, pero la misma técnica se generaliza a cualquier integración de Deep Research que ingiera texto, como Google Drive, o GitHub. En un escenario así, el agente podría verse inducido a exfiltrar contratos, actas de reuniones, registros de clientes y otra documentación sensible.
Los conectores disponibles oficialmente para el mercado europeo son menos de los que pueden utilizar los usuarios estadounidenses, faltando en el viejo continente aquellos que permiten al chatbot de OpenAI acceder a contenidos de servicios online como Box, Outlook (correo y calendario), Canva o Dropbox entre otros, por lo que en EEUU, las posibilidades de encontrar uno de estos agujeros, crecen.
En cuanto a las medidas de mitigación, Radware sugiere sanear el correo antes de su ingestión por el agente: normalizar y eliminar CSS invisibles, caracteres ofuscados y elementos HTML sospechosos. No obstante, advierte que esta aproximación tiene eficacia limitada ante una clase de amenazas que instrumentaliza a un agente con permisos y contexto fiables.
Como refuerzo, propone un seguimiento continuo del comportamiento del agente, monitorizando acciones e intención inferida y validando su coherencia con los objetivos originales del usuario. Este control de alineamiento permitiría detectar y bloquear desviaciones en tiempo real aunque el agente haya sido redirigido por instrucciones ocultas.
No obstante, la principal lección que deben extraer de aquí los responsables de ciberseguridad de las empresas, es que vayan con cuidado con las integraciones mediante conectores que hagan con ChatGPT u otros chatbots de IA, limitándolas al menor número posible hasta que no se hayan implementado medidas de seguridad más sólidas por parte de las compañías prestadoras de estos servicios.
O esto, o estudiar la migración a soluciones realizadas a medida que trabajen con los datos en local.
Desde Radware notificaron el fallo el 18 de junio a través de bugcrowd.com, quien al día siguiente lo notificó a OpenAI. A partir de aquí, la corrección llegó a inicios de agosto, dándolo por resuelto la compañía de Sam Altman el 3 de septiembre. El informe de Radware sobre ShadowBox puede consultarse aquí.



