Cómo la IA puede filtrar tus datos privados

Las redes neuronales generadoras de imágenes ya están en todas partes. ¿Qué riesgos para la privacidad plantean?

Tus redes (neuronales) tienen filtraciones

Investigadores de universidades de EE. UU. y Suiza, en colaboración con Google y DeepMind, han publicado un artículo que muestra cómo se pueden filtrar los datos de los sistemas de generación de imágenes que utilizan los algoritmos de aprendizaje automático DALL-E, Imagen o Difusión estable. Todos estos sistemas funcionan de la misma manera del lado del usuario: escribes una consulta de texto específica, por ejemplo, “un sillón con forma de aguacate” y a cambio obtienes una imagen generada.

Imagen generada por la red neuronal Dall-E.

Imagen generada por la red neuronal Dall-E. Fuente.

Todos estos sistemas están entrenados con un gran número (decenas o cientos de miles) de imágenes con descripciones preparadas previamente. La idea detrás de estas redes neuronales es que, cuando consumen una gran cantidad de datos de entrenamiento, pueden crear imágenes nuevas y únicas. Sin embargo, la conclusión principal del estudio nuevo es que estas imágenes no siempre son tan únicas. En algunos casos, es posible forzar la red neuronal para que reproduzca casi exactamente una imagen original utilizada previamente para el entrenamiento. Eso significa que las redes neuronales pueden revelar información privada sin saberlo.

Imagen generada por la red neuronal de difusión estable (derecha) y la imagen original del conjunto de entrenamiento (izquierda).

Imagen generada por la red neuronal de difusión estable (derecha) y la imagen original del conjunto de entrenamiento (izquierda). Fuente.

Más datos para el “dios de los datos”

El resultado de un sistema de aprendizaje automático en respuesta a una consulta puede parecer mágico para una persona que no es especialista: “¡Vaya, es como un robot que lo sabe todo!” Pero en realidad no hay ninguna magia…

Todas las redes neuronales funcionan más o menos de la misma manera: se crea un algoritmo que se entrena con un conjunto de datos, por ejemplo, una serie de imágenes de gatos y perros, con una descripción de lo que se representa exactamente en cada imagen. Después de la etapa de entrenamiento, se le muestra al algoritmo una nueva imagen y se le pide que averigüe si es un gato o un perro. Desde estos humildes comienzos, los desarrolladores de dichos sistemas pasaron a un escenario más complejo: el algoritmo entrenado con muchas imágenes de gatos crea una imagen de una mascota que nunca existió a pedido. Estos experimentos se llevan a cabo no solo con imágenes, sino también con texto, vídeo e incluso voz: ya hemos escrito sobre el problema de los ultrafalsos (por el cual los vídeos alterados digitalmente (en su mayoría) de políticos o celebridades parecen decir cosas que en realidad nunca dijeron).

Para todas las redes neuronales, el punto de partida es un conjunto de datos de entrenamiento: las redes neuronales no pueden inventar nuevas entidades de la nada. Para crear una imagen de un gato, el algoritmo debe estudiar miles de fotografías o dibujos reales de estos animales. Hay muchos argumentos para mantener la confidencialidad de estos conjuntos de datos. Algunos de ellos son de dominio público; otros conjuntos de datos son propiedad intelectual de la empresa desarrolladora que invirtió tiempo y esfuerzo considerables en su creación con la esperanza de lograr una ventaja competitiva. Otros, por definición, constituyen información confidencial. Por ejemplo, se están llevando a cabo experimentos para utilizar redes neuronales a fin de diagnosticar enfermedades a partir de rayos X y otros estudios médicos de diagnóstico por imágenes. Esto significa que los datos de entrenamiento algorítmicos contienen los datos de salud reales de personas reales que, por razones obvias, no deben caer en las manos equivocadas.

Difúndelo

Si bien los algoritmos de aprendizaje automático se ven iguales para una persona ajena al tema, de hecho son diferentes. En su artículo, los investigadores prestan especial atención a los modelos de difusión del aprendizaje automático. Funcionan así: los datos de entrenamiento (nuevamente imágenes de personas, coches, casas, etc.) se distorsionan al añadir ruido. Luego se entrena la red neuronal para restaurar dichas imágenes a su estado original. Este método permite generar imágenes de calidad decente, pero un posible inconveniente (en comparación con los algoritmos en redes generativas antagónicas, por ejemplo) es su mayor tendencia a filtrar datos.

Los datos originales se pueden extraer de allí de, al menos, tres maneras diferentes: primero, mediante consultas específicas, puedes forzar la salida de la red neuronal. No es una tarea única que está generada en función de miles de imágenes, sino una imagen de origen específica. En segundo lugar, la imagen original se puede reconstruir incluso si solo se dispone de una parte. En tercer lugar, es posible establecer simplemente si una imagen en particular está contenida o no dentro de los datos de entrenamiento.

Con mucha frecuencia, las redes neuronales son… perezosas y, en lugar de una nueva imagen, producen algo del conjunto de entrenamiento si este contiene múltiples duplicados de la misma imagen. Además del ejemplo anterior con la foto de Ann Graham Lotz, el estudio ofrece otros resultados similares:

Filas impares: las imágenes originales. Filas pares: imágenes generadas por la difusión estable v1.4.

Filas impares: las imágenes originales. Filas pares: imágenes generadas por la difusión estable v1.4. Fuente.

Si una imagen se duplica en el conjunto de entrenamiento más de cien veces, existe una probabilidad muy alta de que se filtre en su forma casi original. Sin embargo, los investigadores demostraron formas de recuperar imágenes de entrenamiento que solo aparecieron una vez en el conjunto original. Este método es mucho menos eficiente: de quinientas imágenes probadas, el algoritmo recreó aleatoriamente solo tres de ellas. El método más artístico de atacar una red neuronal implica recrear una imagen de origen utilizando solo un fragmento de ella como entrada.

Los investigadores pidieron a la red neuronal que completara la imagen, después de haber eliminado parte de ella. Esto se puede utilizar para determinar con bastante precisión si una imagen en particular estaba en el conjunto de entrenamiento o no. Si estaba, el algoritmo de aprendizaje automático genera una copia casi exacta de la foto o el dibujo original.

Los investigadores pidieron a la red neuronal que completara la imagen, después de haber eliminado parte de ella. Esto se puede utilizar para determinar con bastante precisión si una imagen en particular estaba en el conjunto de entrenamiento o no. Si lo fue, el algoritmo de aprendizaje automático genera una copia casi exacta de la foto o el dibujo original. Fuente.

En esta etapa, dirijamos nuestra atención al problema de las redes neuronales y los derechos de autor.

¿Quién le robó a quién?

En enero de 2023, tres artistas demandaron a los creadores de servicios de generación de imágenes que utilizaban algoritmos de aprendizaje automático. Afirmaron (con justificación) que los desarrolladores de las redes neuronales las habían capacitado con imágenes recopiladas en línea sin ningún respeto por los derechos de autor. De hecho, una red neuronal puede copiar el estilo de un artista en particular y, por lo tanto, privarle de ingresos. En el documento, se insinúa que, en algunos casos, los algoritmos pueden cometer plagio total por diversas razones al generar dibujos, fotografías y otras imágenes que son casi idénticas al trabajo de personas reales.

En el estudio, se incluyen recomendaciones para fortalecer la privacidad del conjunto de entrenamiento original:

  • Elimina los duplicados.
  • Vuelve a procesar las imágenes de entrenamiento, por ejemplo, al añadir ruido o cambiar el brillo; esto hace que la filtración de datos sea menos probable.
  • Prueba el algoritmo con imágenes de entrenamiento especiales y luego verifica que no se hayan reproducido con precisión de forma inadvertida.

¿Qué sigue?

La ética y la legalidad del arte generativo sin duda crean un debate interesante, en el que se debe buscar un equilibrio entre los artistas y los desarrolladores de la tecnología. Por un lado, se deben respetar los derechos de autor. Por otro lado, está el arte por ordenador, ¿tan diferente de los seres humanos? En ambos casos, los creadores se inspiran en los trabajos de colegas y competidores.

Sin embargo, enfrentemos la realidad y hablemos de seguridad. En el documento, se proporciona un conjunto específico de datos sobre un solo modelo de aprendizaje automático. Al ampliar el concepto a todos los algoritmos similares, llegamos a una situación interesante. No es difícil imaginar un escenario en el que un asistente inteligente de un operador móvil distribuye información corporativa confidencial en respuesta a la consulta de un usuario: después de todo, esta información se incluía en los datos de entrenamiento. O bien, por ejemplo, una consulta astuta engaña a una red neuronal pública para que genere una copia del pasaporte de alguien. Los investigadores destacan que estos problemas siguen siendo teóricos por el momento.

No obstante, otros problemas ya están con nosotros. Mientras hablamos, la red neuronal de generación de texto ChatGPT se está utilizando para escribir códigos maliciosos reales que (a veces) funcionan. Además, GitHub Copilot está ayudando a los programadores a escribir códigos utilizando una gran cantidad de software de código abierto como entrada. La herramienta no siempre respeta los derechos de autor ni la privacidad de los autores cuyo código terminó en el extenso conjunto de datos de entrenamiento. A medida que evolucionan las redes neuronales, también lo harán los ataques contra ellas, con consecuencias que todavía nadie comprende por completo.

Consejos