TECHNOLOGY

Inteligencia artificial y aprendizaje automático en la ciberseguridad

Todos nuestros métodos de aprendizaje automático (ML) (conjuntos de árboles de decisiones, hash confidencial de la ubicación, modelos de comportamiento o agrupamiento en clúster de flujo entrante) de inteligencia artificial (IA) están diseñados para cumplir con los requisitos de seguridad del mundo real: bajo índice de falsos positivos, capacidad de interpretación y solidez frente a posibles adversarios.

Arthur Samuel, un pionero en la inteligencia artificial, describió la IA como un conjunto de métodos y tecnologías que "ofrecen a las computadoras la capacidad de aprender sin programas explícitos". En un caso particular de aprendizaje supervisado antimalware, la tarea se podía formular de la siguiente manera: dado un conjunto de características de objeto \( X \) y las etiquetas de objeto correspondiente \( Y \) como entrada, cree un modelo que produzca las etiquetas \( Y' \) correctas para los objetos de prueba \( X' \) desconocidos hasta entonces. \( X \) podían ser algunas funciones que representan el contenido o el comportamiento de un archivo (estadísticas de archivos, lista de funciones de API usadas, etc.) y las etiquetas \( Y \) podían ser simplemente "malware" o "elementos benignos" (en casos más complejos, podíamos interesarnos en una clasificación detallada como virus, descargador de troyanos, adware, etc.). En el caso de un aprendizaje sin supervisión, nos interesa más revelar una estructura oculta dentro de los datos, p. ej., encontrar grupos de objetos similares o funciones altamente correlacionadas.

La protección multicapa de última generación de Kaspersky usa enfoques de IA como el aprendizaje automático de forma extensiva en todas las etapas del proceso de detección, desde los métodos de agrupación en clúster escalables que se usan para el procesamiento preliminar de flujos de archivos entrantes hasta modelos de red neuronales profundos, resistentes y compactos para detectar comportamientos que funcionan directamente en las máquinas de los usuarios. Estas tecnologías están diseñadas para abordar varios requisitos importantes en las aplicaciones de ciberseguridad del mundo real, como una tasa de falsos positivos bajísima, la capacidad de interpretación de modelos y la resistencia ante posibles adversarios.

Consideremos algunas de las tecnologías de aprendizaje automático más importantes que se usan en los productos para endpoints de Kaspersky:

Conjunto de árbol de decisiones

En este enfoque, el modelo predictivo adopta la forma de un conjunto de árboles de decisiones (p. ej., bosques aleatorios o árboles con potenciación del gradiente). Cada nodo sin hojas de un árbol contiene preguntas con respecto a las características de un archivo, mientras que los nodos con hojas contienen la decisión final del árbol en el objeto. Durante la fase de prueba, el modelo recorre el árbol respondiendo las preguntas de los nodos con las funciones correspondientes del objeto en cuestión. En la etapa final, las decisiones de varios árboles se promedian de una manera que aplica algoritmos específicos para proporcionar una decisión final sobre el objeto.

El modelo beneficia la etapa de protección proactiva de ejecución previa en el sitio del endpoint. Una de nuestras aplicaciones de esta tecnología es Cloud ML para Android, que se usa para la detección de amenazas móviles.

Hash con similitud (hash sensible a la ubicación)

En el pasado, los hashes usados para crear "huellas" de malware eran confidenciales a cada pequeño cambio en un archivo. Los creadores de malware aprovechaban este inconveniente usando técnicas de ofuscación, como el polimorfismo en el servidor: cambios menores en el malware que pasaban inadvertidos. El hash con similitud (o hash confidencial de la ubicación) es un método de inteligencia artificial para detectar archivos maliciosos similares. Para ello, el sistema extrae las características del archivo y usa aprendizaje de proyección ortogonal para elegir las características más importantes. Luego, la compresión basada en el aprendizaje automático se aplica para que los vectores de valor de características similares se transformen en patrones similares o idénticos. Este método proporciona una buena generalización y reduce en gran medida el tamaño de la base de los registros de detección, ya que un registro ahora puede detectar a toda la familia de malware polimórficos.

El modelo beneficia la etapa de protección proactiva de ejecución previa en el sitio del endpoint. Se aplica en nuestro Sistema de detección de hash con similitud.

Modelo de comportamiento

Un componente de monitoreo proporciona un registro de comportamiento: la secuencia de eventos del sistema que ocurren durante la ejecución del proceso junto con los argumentos correspondientes. Para detectar actividad maliciosa en los datos de registro observados, nuestro modelo comprime la secuencia de eventos obtenida en un conjunto de vectores binarios y enseña a la red neuronal profunda a distinguir los registros maliciosos de los limpios.

Los módulos de detección estática y dinámica usan la clasificación de objetos realizada por el modelo de comportamiento de los productos Kaspersky del lado del endpoint.

La inteligencia artificial también desempeña un papel importante cuando se trata de crear una infraestructura adecuada del procesamiento de malware en el laboratorio. Kaspersky la usa para los siguientes fines de infraestructura:

Agrupación en clústeres de flujo entrante

Los algoritmos de agrupación en clústeres basados en el aprendizaje automático nos permiten separar eficazmente los grandes volúmenes de archivos desconocidos que ingresan a nuestra infraestructura en una cantidad razonable de clústeres, algunos de los cuales se pueden procesar de forma automática en función de la presencia de un objeto ya anotado en su interior.

Modelos de clasificación a gran escala

Algunos de los modelos de clasificación más potentes (como un gran bosque de decisiones aleatorias) requieren muchos recursos (tiempo de procesador, memoria) junto con costosos extractores de funciones (p. ej., el procesamiento a través del entorno de pruebas podría ser necesario para obtener registros detallados de comportamiento). Por lo tanto, es más eficaz mantener y ejecutar los modelos en un laboratorio y luego convertir el conocimiento obtenido por estos modelos mediante la capacitación de un modelo de clasificación ligero en las decisiones de salida del modelo más grande.

Seguridad en el uso de los aspectos del aprendizaje automático de la IA

Una vez liberados de los confines del laboratorio al mundo real, es posible que los algoritmos de aprendizaje automático sean vulnerables a muchas formas de ataques diseñados para forzar a los sistemas de aprendizaje automático a cometer errores deliberados. Un atacante puede contaminar un conjunto de datos de capacitación o aplicar ingeniería inversa en el código del modelo. Además, los hackers pueden forzar modelos de aprendizaje automático con la ayuda de un diseño especial de sistemas de "inteligencia artificial opositora" para generar automáticamente muchas muestras atacantes y lanzarlas contra la solución protectora o el modelo de aprendizaje automático extraído hasta descubrir un punto débil del modelo. El impacto de estos ataques en sistemas antimalware que usan inteligencia artificial podría ser devastador: un troyano no identificado por error significa que se pierden millones de dólares y se infectan millones de dispositivos.

Por este motivo, se deben aplicar algunas consideraciones clave al usar inteligencia artificial en sistemas de seguridad:

El proveedor de seguridad debe comprender y abordar con cuidado los requisitos esenciales para el rendimiento de los elementos de la inteligencia artificial en el mundo real y potencialmente hostil. Estos requisitos incluyen capacidad de resistencia contra los posibles adversarios. Las auditorías de seguridad específicas del aprendizaje automático, la inteligencia artificial y el “red teaming” deben ser un componente clave en el desarrollo de sistemas de seguridad que usan aspectos de la inteligencia artificial.
- Cuando se evalúa la seguridad de una solución que usa elementos de la inteligencia artificial, se debe considerar el grado de dependencia que tiene la solución respecto de datos y arquitecturas de terceros, ya que muchos ataques se originan en datos proporcionados por terceros (hablamos sobre fuentes de inteligencia de amenazas, conjuntos de datos públicos, modelos de inteligencia artificial previamente capacitados y externalizados).
- Los métodos de aprendizaje automático e inteligencia artificial no se deben considerar una solución milagrosa. Necesitan ser parte del enfoque de seguridad multicapa en el que las tecnologías de protección complementarias y el conocimiento humano trabajan en conjunto para cuidarse las espaldas mutuamente.

Es importante reconocer que, si bien Kaspersky tiene una amplia experiencia en el uso eficiente de aspectos de la inteligencia artificial como el aprendizaje automático y su subconjunto de aprendizaje profundo en sus soluciones de ciberseguridad, estas tecnologías no son la verdadera inteligencia artificial ni la inteligencia artificial general (AGI). Todavía queda un largo camino por recorrer hasta que las máquinas puedan funcionar de forma independiente y realizar la mayoría de las tareas de forma totalmente autónoma. Hasta entonces, casi todos los aspectos de la inteligencia artificial en ciberseguridad requerirán la orientación y la experiencia de profesionales humanos para desarrollar y perfeccionar los sistemas, aumentando sus capacidades con el tiempo.

Para obtener una descripción más detallada de los ataques más populares en algoritmos de aprendizaje automático e inteligencia artificial, y los métodos de protección contra estas amenazas, consulte nuestro informe técnico "Inteligencia artificial bajo ataque: cómo asegurar la inteligencia artificial en los sistemas de seguridad".