Aprendizaje unificado contra las amenazas del correo electrónico

Nuestro método de formación de modelos de filtrado de spam te permite mantener tu privacidad sin perder eficiencia.

¿Cuál es el modo más rápido de encontrar una amenaza, ya sea phishing o spam, en tu correo electrónico? Una variedad de encabezados técnicos y otros marcadores indirectos de mensajes no deseados pueden señalarte el camino, pero no debemos olvidar el más obvio: el mensaje de texto. Uno podría pensar que es lo primero por analizar; después de todo, el texto es lo que utilizan los cibercriminales o los publicistas sin escrúpulos para manipular a los destinatarios. La tarea no es tan sencilla, sin embargo. Si bien el análisis de firmas pudo hacer frente a la tarea en el pasado, ahora es necesario analizar el texto mediante algoritmos de aprendizaje automático. Y si vas a enseñarle al modelo de aprendizaje automatizado a clasificar mensajes correctamente, necesitas proporcionarle mensajes en cantidades considerables, lo cual no siempre es práctico por razones de privacidad. Hemos encontrado una solución.

¿Por qué el análisis de firmas ya no es eficaz?

Hace diez años, era relativamente fácil detectar una buena cantidad de correos no deseados basados puramente en el texto del mensaje porque los cibercriminales utilizaban las mismas plantillas: el texto de los mensajes de spam (y phishing) apenas si ha cambiado. Ahora, los cibercriminales mejoran continuamente la eficacia de sus correos y utilizan millones de ganchos: nuevos videojuegos, series de TV o modelos de smartphone; noticias políticas e incluso emergencias (por ejemplo, la abundancia de phishing y de spam relacionados con la COVID-19). La gran variedad de temas complica el proceso de detección. Además, los atacantes pueden variar el texto en una oleada de correos para evadir los filtros de correo electrónico.

Por supuesto, los métodos basados en firma siguen funcionando, aunque su éxito depende esencialmente de encontrar un texto que alguien más ya ha clasificado como no deseado o dañino. No pueden trabajar proactivamente porque las personas que envían spam pueden evitar esto al cambiar el texto del correo. El único modo de lidiar con este problema es mediante el aprendizaje automatizado.

¿Cuál es el inconveniente con el aprendizaje?

En los últimos años, los métodos de aprendizaje automatizado han mostrado buenos resultados al solucionar muchos problemas. Al analizar una enorme cantidad de datos, los modelos aprenden a tomar decisiones y a encontrar características comunes y relevantes en un flujo de información. Utilizamos las redes neurales entrenadas en encabezados técnicos de correo electrónico, junto con DMARC, para detectar las amenazas del correo electrónico. Entonces, ¿por qué no podemos hacer lo mismo con el texto del mensaje?

Según se dijo arriba, los modelos necesitan una cantidad enorme de datos. En este caso, los datos consisten en mensajes de correo y no sólo los maliciosos; necesitamos mensajes legítimos también. Sin ellos, sería imposible enseñarle a un modelo a distinguir un ataque de una correspondencia legítima. Tenemos varias trampas de correo que captan toda suerte de mensajes de correo indeseados (nosotros los utilizamos para hacer firmas), pero obtener mensajes legítimos para aprender es una tarea más complicada.

Normalmente, los datos se recogen en servidores de aprendizaje centralizado. Pero cuando hablamos de texto, existen dificultades adicionales : los mensajes de correo pueden contener datos confidenciales, así que almacenarlos y procesarlos en su forma original sería inaceptable. Entonces, ¿cómo podemos obtener una recopilación lo suficientemente grande de correos legítimos?

Aprendizaje unificado

Solucionamos ese problema mediante el método de aprendizaje unificado, que elimina por completo la necesidad de recopilar mensajes de correo y que en su lugar entrena modelos de una manera descentralizada. El entrenamiento de modelos ocurre directamente en los servidores del correo del cliente, y el servidor central recibe solamente los pesos de entrenamiento de los modelos de aprendizaje automatizado, pero no mensajes de texto. En el servidor central, los algoritmos combinan los datos con la versión que resulta del modelo, y entonces lo enviamos de nuevo a las soluciones del cliente, donde el modelo de nuevo procede a analizar el flujo de mensajes de correo.

Esta es una descripción levemente simplificada: antes de que el modelo recién entrenado se active para los mensajes reales, pasa por varias iteraciones de entrenamiento adicional. Es decir, dos modelos trabajan simultáneamente en el servidor de correo electrónico: uno en modo de entrenamiento, el otro en modo activo. Después de varias viajes al servidor central, el modelo reentrenado reemplaza al activo.

Es imposible recuperar el texto de los mensajes de correo específicos de los pesos del modelo; así se asegura la privacidad durante el procesamiento. Sin embargo, el entrenamiento con mensajes de correo verdaderos mejora perceptiblemente la calidad del modelo de detección.

Por el momento, estamos usando esta estrategia para clasificar spam, en modo de prueba, dentro de Kaspersky Security for Microsoft Office 365, y está mostrando resultados asombrosos. Pronto, se aplicará extensamente y se utilizará para identificar otras amenazas como el phishing, BEC y demás.

Consejos