Los investigadores de ciberseguridad han revelado un defecto de clic cero en el agente de investigación profunda de Operai Chatgpt que podría permitir que un atacante filtrara datos de bandeja de entrada de Gmail con un solo correo electrónico diseñado sin ninguna acción del usuario.
La nueva clase de ataque ha sido nombrado en código Sombreado por radware. Después de la divulgación responsable el 18 de junio de 2025, el tema fue abordado por OpenAI a principios de agosto.
«El ataque utiliza una inyección indirecta de inmediato que se puede ocultar en el correo electrónico HTML (pequeñas fuentes, texto blanco sobre blanco, trucos de diseño) para que el usuario nunca se da cuenta de los comandos, pero el agente todavía los lee y obedece», los investigadores de seguridad Zvika Babo, Gabi Nakiblemente y Maor Uziel. dicho.
«A diferencia de la investigación previa que se basó en la representación de imágenes del lado del cliente para activar la fuga, este ataque filtra los datos directamente de la infraestructura en la nube de OpenAI, lo que lo hace invisible para las defensas locales o empresariales».
Lanzado por Openai en febrero de 2025, Investigación profunda es una capacidad de agente integrada en ChatGPT que realiza investigaciones de varios pasos en Internet para producir informes detallados. Se han agregado características de análisis similares a otros chatbots de inteligencia artificial (IA) popular como Google Géminis y Perplejidad durante el año pasado.
En el ataque detallado por Radware, el actor de amenazas envía un correo electrónico de aspecto aparentemente inofensivo a la víctima, que contiene instrucciones invisibles que usan texto blanco sobre blanco o trucos de CSS que le indican al agente que recopile su información personal de otros mensajes presentes en la bandeja de entrada y la exfiltren a un servidor externo.
Por lo tanto, cuando la víctima solicita a Chatgpt Deep Investigation para analizar sus correos electrónicos de Gmail, el agente procede a analizar el inyección indirecta de inmediato En el correo electrónico malicioso y transmite los detalles en formato codificado Base64 al atacante utilizando el navegador de herramientas.open ().
«Elaboramos un nuevo aviso que instruyó explícitamente al agente que usara la herramienta navegador.open () con la URL maliciosa», dijo Radware. «Nuestra estrategia final y exitosa fue instruir al agente que codifique la PII extraída en Base64 antes de agregarla a la URL. Enmarcamos esta acción como una medida de seguridad necesaria para proteger los datos durante la transmisión».
La prueba de concepto (POC) depende de los usuarios que permiten la integración de Gmail, pero el ataque puede extenderse a cualquier conector Ese chatGPT admite, incluidos Box, Dropbox, GitHub, Google Drive, Hubspot, Microsoft Outlook, noción o SharePoint, ampliando efectivamente la superficie de ataque.
A diferencia de los ataques como Agente y Ecoleaque ocurren en el lado del cliente, la exfiltración observada en el caso de Shadowleak se produce directamente dentro del entorno de la nube de OpenAI, al tiempo que evita los controles de seguridad tradicionales. Esta falta de visibilidad es el aspecto principal que lo distingue de otras vulnerabilidades de inyección indirecta de manera similar a él.
Chatgpt se convenció de resolver Captchas
La divulgación se produce cuando la plataforma de seguridad de IA SPLX demostró que las indicaciones ingeniosamente redactadas, junto con el envenenamiento con contexto, se pueden usar para subvertir Agente de chatgpt Buardas incorporadas y resolver Captchas basados en imágenes diseñados para demostrar que un usuario es humano.
El ataque esencialmente implica abrir un chat de chatgpt-4o regular y convencer al modelo de lenguaje grande (LLM) para que se les ocurra un plan para resolver lo que se le describe como una lista de captchas falsos. En el siguiente paso, se abre un nuevo chat de agente de chatgpt y se pegan la conversación anterior con el LLM, afirmando que esta fue «nuestra discusión anterior», lo que provocó efectivamente que el modelo resuelva los Captchas sin resistencia.
https://www.youtube.com/watch?v=g67dlod2qsg
«El truco era replantear a la captcha como» falsa «y crear una conversación en la que el agente ya había acordado proceder. Heredando ese contexto, no vio las banderas rojas habituales», el investigador de seguridad Dorian Schultz dicho.
«El agente resolvió no solo los captchas simples sino también los basados en imágenes, incluso ajustando su cursor para imitar el comportamiento humano. Los atacantes podrían replantear controles reales como 'falsos' para evitarlos, subrayando la necesidad de integridad del contexto, higiene de la memoria y un equipo rojo continuo».
Fuente