La base centrada en los datos para la caza de amenazas moderna
En ciberseguridad, se nos dice que la IA es el futuro de la caza de amenazas. Pero el sucio secreto es que la mayoría de las IA funcionan con una mano atada a la espalda. Los investigadores han argumentado que los modelos de IA son tan buenos como su canal de datos. Ese principio no se limita al aprendizaje automático académico. Se aplica con la misma fuerza a la ciberseguridad. Búsqueda de amenazas impulsada por IA, automatización o investigación humana sólo será tan eficaz como la infraestructura de datos en la que se encuentra.
Con demasiada frecuencia, los equipos de seguridad se centran en crear IA sobre los lagos de datos existentes o en ajustar nuevos modelos de detección sin abordar la cuestión más fundamental: los datos en sí. Cuando la telemetría está aislada en sistemas desconectados, como terminales, nube, identidad, SaaS y repositorios de código, los analistas deben reconstruir el contexto a partir de fragmentos. Colocar todos los datos en la misma plataforma, sin una transformación adecuada, puede abrumar tanto a los humanos como a la IA. Incluso los algoritmos más avanzados no puede superar datos incompletos o inconsistentes. La IA que aprende u opera con insumos deficientes siempre sacará malas conclusiones. Y la caza de amenazas impulsada por humanos y mejorada por IA no es diferente.

Por qué son importantes los datos unificados
Una plataforma de datos unificada y correlacionada cambia las reglas del juego. Reunir todos los datos en un solo lugar reduce el ruido y permite ver patrones que los sistemas individuales oscurecen. La pretransformación y correlación de esta información también la hace más utilizable para grandes modelos de lenguaje y otras herramientas impulsadas por IA. En lugar de desperdiciar potencia de cálculo y tokens tratando de dar sentido a la estructura o el contexto, lo que a menudo conduce a malos resultados cuando el contexto es incorrecto o demasiado grande, la IA puede centrarse en comprender comportamientos reales.
Los datos unificados también permiten que las identidades conectadas surjan de forma natural. Un único usuario puede aparecer como principal de IAM en AWS, confirmador en GitHub y propietario de documento en Google Workspace, todos con nombres completamente diferentes. Mire cualquiera de esas señales y sólo tendrá una pizca de verdad. Mírelos juntos y tendrá claridad de comportamiento. Descargando docenas de archivos de Google Workspace puede parecer sospechoso de forma aislada, pero si esa misma identidad también crea un depósito S3 público minutos después y clona docenas de repositorios en una computadora portátil personal, la actividad se vuelve claramente maliciosa.

Caza de amenazas mediante correlación
Cuando los datos de registros, configuraciones, repositorios de códigos y sistemas de identidad se encuentran todos en un solo lugar, las correlaciones que antes tomaban horas o ni siquiera eran posibles se vuelven inmediatas. El movimiento lateral que se basa en credenciales robadas de corta duración, por ejemplo, a menudo cruza varios sistemas antes de ser detectado. Una computadora portátil de desarrollador comprometida podría asumir múltiples funciones de IAM, generar nuevas instancias y acceder a bases de datos internas. Los registros de los puntos finales revelan el compromiso local, pero sin IAM y datos de red, no hay manera de probar el alcance de la intrusión.
De manera similar, un atacante que utilice un token de acción de GitHub comprometido para crear una cuenta de administrador en la nube pasaría desapercibido sin conectar los registros de CI/CD con los cambios de configuración e identidad. Y cuando una aplicación de terceros con alcances de OAuth demasiado amplios filtra datos a través de una cuenta de usuario comprometida, solo los registros de acceso de SaaS unificados y los historiales de consentimiento de OAuth pueden revelar el verdadero vector.
Éstas no son hipótesis abstractas. La violación de Salesloft/Drift mostró cómo los atacantes inicialmente obtuvieron acceso a través de una cuenta de GitHub comprometida y luego obtuvieron tokens OAuth en el entorno AWS de Drift, que utilizaron para acceder a cientos de entornos de clientes conectados a través de la integración confiable de Drift-to-Salesforce. Los registros de cada plataforma probablemente parecían normales hasta que los equipos forenses correlacionaron la actividad en GitHub, identidad y entornos de nube.

Fidelidad y determinismo
La calidad de su canal de datos determina directamente la fidelidad de su búsqueda de amenazas. Si se hace correctamente, la canalización de datos adecuada reduce la duplicación y, por tanto, los costos sin sacrificar la fidelidad. Los sistemas impulsados por IA dependen de esa fidelidad para producir respuestas deterministas en lugar de conjeturas probabilísticas. Mejorar la calidad de los datos tiene un impacto mayor en el rendimiento de la IA que cualquier cambio arquitectónico. Lo mismo se aplica a la detección y la respuesta.
La caza de amenazas consiste fundamentalmente en hacer preguntas precisas y obtener respuestas confiables. Sin una base de datos conectada y de alta fidelidad, todas las consultas están incompletas. Una arquitectura de seguridad moderna debe priorizar la claridad sobre el volumen, garantizando que tanto los humanos como las máquinas operen desde una fuente única y precisa de verdad.
Almacenamiento estratégico y preparación para la IA
Su plataforma de búsqueda de amenazas también debe ser estratégica en cuanto a qué datos se encuentran en el almacenamiento en caliente y en el frío. No es necesario que todos los registros, rastreos o eventos puedan consultarse instantáneamente. La clave es garantizar que la telemetría de alto valor de los cambios de identidad, las configuraciones de la nube y la actividad de control de fuentes sea fácilmente accesible, mientras que los datos históricos o de baja señal se pueden clasificar en niveles para un uso forense más profundo. Cuanto más inteligente sea su estrategia de almacenamiento, más rápido podrán responder sus analistas y modelos sin desperdiciar computación ni costos en ruido irrelevante.
Cuando todos sus datos están en un solo lugar, también están inherentemente más preparados para los casos de uso de LLM. Una canalización de datos sólida es una forma de ingeniería de contexto eficaz. Como Los ingenieros de Anthropic han demostradolos mejores resultados de la IA provienen de plataformas que proporcionan los datos correctos, en el momento adecuado y en el contexto adecuado, pero no en exceso. Darle a un modelo un conjunto de información relevante y bien estructurado le permite centrarse en el razonamiento a través de un problema, en lugar de ahogarse en detalles innecesarios o carecer de hechos críticos. Lo mismo ocurre con los humanos: incluso los mejores analistas pierden eficacia cuando se ven abrumados por el ruido o privados de contexto. Cuando su canal de datos está diseñado para una precisión contextual, su búsqueda de amenazas de IA realmente puede escalar.
Convertir el conocimiento en ventaja
Cuando los adversarios se mueven más rápido que nunca, las organizaciones que ganan son aquellas que pueden ver sus entornos en tiempo real. Crear una plataforma de datos preparada para la IA para la búsqueda de amenazas no se trata solo de la velocidad de detección; se trata de transformar la incertidumbre en comprensión. Los datos unificados significan una visión unificada, y la visión unificada es la base de una defensa proactiva. Cuando el motor de datos está ajustado para lograr fidelidad, escala y preparación para la IA, su búsqueda de amenazas se vuelve más nítida, rápida y precisa.
Fuente


