Riesgos de privacidad en asistentes de IA. Estudio técnico LeakyLM

El informe de investigación LeakyLM: Riesgos de privacidad en asistentes de IA, expone riesgos estructurales de privacidad en varios de los productos de Inteligencia Artificial generativa más importantes del mundo: Perplexity, Claude (Anthropic), Grok (xAI) y ChatGPT (OpenAI). Desde Data and Co compartimos el estudio técnico y sus conclusiones porque entendemos que es de vital importancia para nuestra comunidad.

La causa raíz de estas vulnerabilidades es la integración de rastreadores de terceros (third-party trackers) en las interfaces web de estos servicios, los cuales recopilan y filtran conversaciones completas, títulos de chats, identidades de usuarios y metadatos sensibles a redes de publicidad y analítica (como Meta, Google, Datadog y TikTok).

El estudio identifica tres vectores principales de amenaza para la privacidad del usuario:

A. Filtración de URLs de conversación (Permalinks)

Muchos servicios de LLM generan enlaces permanentes (permalinks) públicos para permitir que los usuarios compartan sus chats. Sin embargo, estas URLs se comparten por defecto con rastreadores de terceros como el Meta Pixel.

Dado que estos enlaces suelen tener mecanismos de control de acceso muy débiles (son accesibles por cualquiera que conozca la URL sin necesidad de iniciar sesión), los rastreadores obtienen la capacidad técnica de acceder e indexar el contenido completo de las conversaciones. En el caso de Grok, incluso se exponen capturas de pantalla de los chats en los metadatos de Open Graph recibidos por el rastreador de TikTok.

B. Vinculación con identidades de usuarios (Linkability)

Las URLs de las conversaciones se envían a los rastreadores junto con identificadores persistentes de usuario (como cookies de Meta _fbp o de TikTok _ttp) y, en algunos casos, hashes de correos electrónicos. Esto permite a las empresas publicitarias mapear las consultas de IA —que a menudo contienen datos altamente confidenciales o de salud— directamente con los perfiles e identidades reales de las personas.

C. Controles de privacidad engañosos

Las interfaces de consentimiento de cookies y las políticas de privacidad de estas plataformas suelen ser ambiguas. Aunque permiten «rechazar» cookies no esenciales, algunos rastreadores (como Google Analytics en Grok y ChatGPT, o Intercom en Claude) continúan enviando datos de las conversaciones sin importar la elección del usuario. Las políticas de privacidad ocultan este flujo de datos bajo términos amplios como «socios comerciales» o «contenido que envías».

Matriz de control de acceso por plataforma

El control de acceso por defecto de los enlaces permanentes varía significativamente entre los distintos niveles de suscripción de las herramientas:

Proveedor	Nivel Invitado (Guest)	Nivel Gratuito (Free)	Nivel de Pago (Paid)	Controles de Privacidad
Perplexity	Permalinks totalmente accesibles sin inicio de sesión.	Visibles solo para el propietario, a menos que se compartan explícitamente.	Soporta chats de incógnito que no se guardan en el historial, pero pueden compartirse.	Tres opciones para compartir: Privado, Lista blanca o Cualquiera. Si se comparte con cualquiera, el enlace público es igual al permalink.
Claude.ai	No soportado.	Visibles solo para el propietario, a menos que se compartan explícitamente.	Implementa mecanismos de control de acceso para compartir chats con otros.	No especifica controles avanzados adicionales.
ChatGPT	Visibles solo para el propietario, a menos que se compartan explícitamente.	Visibles solo para el propietario, a menos que se compartan explícitamente.	Ofrece control de acceso para compartir conversaciones con otros.	No especifica controles avanzados adicionales.
xAI Grok	Accesibles por defecto. Los chats de invitados siempre son públicos.	Permite la creación de chats de incógnito (similar a Perplexity).	Las conversaciones son accesibles por defecto, aunque los usuarios pueden limitar el acceso (opt-out).	Si un enlace se compartió antes de cambiar la configuración de visibilidad, el chat sigue siendo accesible a menos que se revoque de forma manual en ese chat específico.

Matriz de filtración de datos (Detalle técnico por plataforma)

A continuación se detalla qué datos se filtran, a qué plataformas de terceros llegan y bajo qué condiciones se activan:

Perplexity (Web)

Meta (Meta Pixel): Filtraba la cookie fbp y la URL de la conversación. Descontinuado el 3 de abril de 2026 (posiblemente como reacción a una demanda colectiva en EE. UU.).
Datadog: Filtra el correo electrónico del usuario (sin cifrar), la URL de la conversación y metadatos (zona horaria, ID de dispositivo). Se ejecuta siempre. La URL codifica el texto de la primera consulta del chat (ej. perplexity.ai/search/QUERY-slug), revelando el tema de conversación. El correo se filtra durante la interacción normal, no solo al registrarse.
Singular: Filtra el hash del correo electrónico del usuario y metadatos del sistema operativo y del navegador. Se ejecuta siempre.

Anthropic Claude.ai (Web)

Meta: Filtra la cookie fbp y metadatos del navegador. Se activa si se aceptan las cookies no esenciales. Carga el script de Meta en un iframe aislado (a.claude.ai), pero paralelamente envía el evento vía servidor al Facebook Conversions API compartiendo el mismo ID de Segment, permitiendo a Meta unificar ambas identidades. Bloquear el pixel en el navegador no detiene el envío de servidor a servidor.
Intercom: Filtra el correo electrónico del usuario y la URL de la conversación. Se ejecuta siempre que haya una sesión autenticada. Un WebSocket persistente envía la URL del chat cada 2 minutos a Intercom, permitiendo registrar cada interacción incluso si nunca se abre el widget de soporte (posible infracción del principio de minimización de datos del GDPR).
Datadog: Filtra el ID anónimo del usuario, datos de pantalla, URL de la página con el identificador del chat (GUID), estadísticas de uso y metadatos. Se activa si se aceptan las cookies no esenciales.
Reenvío Servidor a Servidor (Segment/x11): Envía el correo del usuario, UUID de la cuenta, plan de suscripción, URL con el identificador del chat, país e IDs de sesión. Se activa si se aceptan las cookies no esenciales. Aunque Anthropic bloquea explícitamente el envío del título del chat, reenvía los eventos de forma invisible para el navegador (evadiendo bloqueadores de anuncios de escritorio) a 11 plataformas de seguimiento:
1. Facebook Conversions API
2. LinkedIn Conversions API
3. TikTok Conversions API
4. Reddit Conversions API
5. Google Enhanced Conversions
6. Amplitude
7. Iterable
8. HubSpot
9. Pinterest Conversions API
10. Podscribe
11. DCM Floodlight

OpenAI ChatGPT (Web)

Google Analytics: Filtra la URL de la conversación y el título de la página (que contiene el tema del chat). Se ejecuta siempre en usuarios con cuenta gratuita que han iniciado sesión, independientemente de si aceptan o rechazan las cookies de la plataforma.
Otros (Meta, TikTok, LinkedIn, Bing, Reddit): Aunque el encabezado de seguridad Content-Security-Policy (CSP) de ChatGPT los tiene en su lista blanca de dominios permitidos, no se observó actividad de envío de datos durante las pruebas (su activación podría depender de pruebas A/B, geografía o tipo de cuenta).

xAI Grok (Web)

Google Analytics & Doubleclick: Filtra la URL de la conversación, el título de la página y metadatos. Se ejecuta siempre, sin importar el consentimiento de cookies configurado en el banner de OneTrust.
TikTok: Filtra el correo electrónico del usuario (hasheado), la URL de la conversación, el título del chat y la cookie ttp. Se activa si se aceptan las cookies no esenciales. TikTok asocia el hash del email capturado en la página de inicio de sesión con sus cookies de rastreo.
Meta: Filtra la URL de la conversación (incluyendo el UUID del chat), el título del chat y la cookie fbp. Se activa si se aceptan las cookies no esenciales. Se envía un evento de vista de página (PageView) con cada cambio de URL.
Google Tag Manager Servidor (sGTM): Filtra la URL de la conversación, el título y cookies de rastreo. Se activa si se aceptan las cookies no esenciales. Tras enviar tres mensajes en una sesión, un evento personalizado (sent_3_chat_messages) reenvía la URL y el título del chat al servidor de GTM, que a su vez lo retransmite a Meta Conversions API y TikTok Events API de forma invisible para el navegador.
TikTok (Captura de pantalla visual): Filtra la captura de pantalla de la conversación y el texto literal de los mensajes. Se activa si se aceptan las cookies no esenciales (solo en chats compartidos). Cuando un chat se comparte públicamente, Grok genera metadatos Open Graph (og:image) con una captura de pantalla del chat y etiquetas de texto alternativo (alt) con el contenido literal de los mensajes. El pixel de TikTok lee y transmite estos datos.

Metodología de las pruebas en el estudio

Los investigadores evaluaron las plataformas utilizando la consola de desarrollo de Google Chrome (pestaña Red / Network) para registrar todas las peticiones salientes (archivos HAR). Se probaron todas las combinaciones posibles de:

Estado de autenticación (invitado / con sesión iniciada).
Consentimiento de cookies (aceptado / rechazado).
Nivel de cuenta (gratuito / premium).
Modo de navegación (estándar / privado).

Para asegurar la uniformidad de las pruebas, se utilizó en todas las plataformas una consulta estándar de carácter médico/sensible:

«¿Cuáles son los síntomas del cáncer de hígado y qué opciones de tratamiento existen?»

Cronología de la divulgación del estudio en 2026

23 de marzo de 2026: Descubrimiento inicial de las filtraciones de rastreadores en Perplexity y Grok.
3 de abril de 2026: Perplexity retira de forma independiente la integración de Meta Pixel, coincidiendo con la presentación de la demanda colectiva Doe v. Perplexity AI, Meta Platforms, Google en EE. UU.
6 de abril de 2026: Comienzo de las pruebas de matriz sistemáticas en todas las plataformas.
13 de abril de 2026: Envío de los hallazgos a las Autoridades de Protección de Datos (DPAs) pertinentes para su revisión regulatoria.
17 de abril de 2026: Notificación formal a xAI sobre las vulnerabilidades de Grok (sin recibir respuesta).
4 de mayo de 2026: Divulgación pública de los resultados de la investigación.

Preguntas frecuentes para el usuario de agentes de IA

¿Me afecta esta filtración?

Si has utilizado Perplexity (antes de abril de 2026), Grok, Claude o ChatGPT con tu sesión iniciada, es muy probable que los títulos e incluso las URLs de tus chats hayan sido compartidos con Meta, Google o TikTok, asociándolos a tu identidad mediante cookies de publicidad.

¿Sirve de algo rechazar las cookies en los banners?

Ayuda de forma parcial. Detiene los píxeles de Meta y TikTok en Claude y Grok, así como los reenvíos de servidor a servidor de Anthropic. Sin embargo, no detiene el Google Analytics de Grok o ChatGPT, ni el rastreo de Intercom en Claude, que se ejecutan sin importar la configuración del usuario.

¿Un bloqueador de anuncios (Ad-blocker) soluciona el problema?

Solo bloquea los rastreadores que se ejecutan en el navegador del cliente. No puede detener las transmisiones de servidor a servidor (como las que usan Claude y Grok para enviar datos de su propia infraestructura directamente a las APIs de Meta y Google), las cuales son invisibles para el navegador.

Recomendaciones prácticas de configuración según el estudio de riesgos de privacidad en asistentes de IA

Perplexity: Configura siempre los chats compartidos como Privados y evita compartir chats de incógnito (una vez que sales de este modo, no se pueden dejar de compartir).
Grok: Desactiva en la configuración de la cuenta el uso compartido por defecto de las conversaciones. Si compartiste un chat, bórralo o revoca el acceso de forma individual.
Claude: Rechaza las cookies no esenciales de forma sistemática y ten precaución al utilizarlo con la sesión iniciada.
ChatGPT: Evita introducir información personal identificable (PII) o sensible si estás utilizando una cuenta gratuita con sesión iniciada.

Equipo de la investigación Riesgos de privacidad en asistentes de IA

El estudio es mantenido por un equipo multidisciplinar de investigadores y delegados de protección de datos:

IMDEA Networks / UC3M: Dr. Aniketh Girish, Guilherme Oliveira, Prof. Guillermo Suárez-Tangil, Miguel Sánchez, Prof. Narseo Vallina-Rodríguez, Tautvydas Jackevičius.
Legal / Privacidad: Jorge García Herrero (Abogado y DPO).

The Growth Company

Riesgos de privacidad en asistentes de IA. Estudio técnico LeakyLM

Riesgos de privacidad en asistentes de IA. Estudio técnico LeakyLM

A. Filtración de URLs de conversación (Permalinks)

B. Vinculación con identidades de usuarios (Linkability)

C. Controles de privacidad engañosos

Matriz de control de acceso por plataforma

Matriz de filtración de datos (Detalle técnico por plataforma)

Metodología de las pruebas en el estudio

Cronología de la divulgación del estudio en 2026

Preguntas frecuentes para el usuario de agentes de IA

¿Me afecta esta filtración?

¿Sirve de algo rechazar las cookies en los banners?

¿Un bloqueador de anuncios (Ad-blocker) soluciona el problema?

Recomendaciones prácticas de configuración según el estudio de riesgos de privacidad en asistentes de IA

Equipo de la investigación Riesgos de privacidad en asistentes de IA

Entradas recientes

Comentarios recientes

Archivos

Categorías

Meta

Oficina