{"id":26274,"date":"2023-05-25T08:31:30","date_gmt":"2023-05-25T14:31:30","guid":{"rendered":"https:\/\/latam.kaspersky.com\/blog\/?p=26274"},"modified":"2023-05-25T08:31:30","modified_gmt":"2023-05-25T14:31:30","slug":"neural-networks-data-leaks","status":"publish","type":"post","link":"https:\/\/latam.kaspersky.com\/blog\/neural-networks-data-leaks\/26274\/","title":{"rendered":"C\u00f3mo la IA puede filtrar tus datos privados"},"content":{"rendered":"<h2>Tus redes (neuronales) tienen filtraciones<\/h2>\n<p>Investigadores de universidades de EE. UU. y Suiza, en colaboraci\u00f3n con Google y DeepMind, han publicado un <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"noopener nofollow\">art\u00edculo<\/a> que muestra c\u00f3mo se pueden filtrar los datos de los sistemas de generaci\u00f3n de im\u00e1genes que utilizan los algoritmos de aprendizaje autom\u00e1tico <a href=\"https:\/\/openai.com\/blog\/dall-e\/\" target=\"_blank\" rel=\"noopener nofollow\">DALL-E<\/a>, <a href=\"https:\/\/imagen.research.google\/\" target=\"_blank\" rel=\"noopener nofollow\">Imagen<\/a> o <a href=\"https:\/\/stablediffusionweb.com\/\" target=\"_blank\" rel=\"noopener nofollow\">Difusi\u00f3n estable<\/a>. Todos estos sistemas funcionan de la misma manera del lado del usuario: escribes una consulta de texto espec\u00edfica, por ejemplo, \u201cun sill\u00f3n con forma de aguacate\u201d y a cambio obtienes una imagen generada.<\/p>\n<div id=\"attachment_26276\" style=\"width: 1034px\" class=\"wp-caption aligncenter\"><img decoding=\"async\" aria-describedby=\"caption-attachment-26276\" class=\"wp-image-26276 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/87\/2023\/05\/08121652\/neural-networks-data-leaks-01.jpg\" alt=\"Imagen generada por la red neuronal Dall-E.\" width=\"1024\" height=\"1024\"><p id=\"caption-attachment-26276\" class=\"wp-caption-text\">Imagen generada por la red neuronal Dall-E. <a href=\"https:\/\/openai.com\/blog\/dall-e\/\" target=\"_blank\" rel=\"nofollow noopener\">Fuente<\/a>.<\/p><\/div>\n<p>Todos estos sistemas est\u00e1n entrenados con un gran n\u00famero (decenas o cientos de miles) de im\u00e1genes con descripciones preparadas previamente. La idea detr\u00e1s de estas redes neuronales es que, cuando consumen una gran cantidad de datos de entrenamiento, pueden crear im\u00e1genes nuevas y \u00fanicas. Sin embargo, la conclusi\u00f3n principal del estudio nuevo es que estas im\u00e1genes no siempre son tan \u00fanicas. En algunos casos, es posible forzar la red neuronal para que reproduzca casi exactamente una imagen original utilizada previamente para el entrenamiento. Eso significa que las redes neuronales pueden revelar informaci\u00f3n privada sin saberlo.<\/p>\n<div id=\"attachment_26277\" style=\"width: 1149px\" class=\"wp-caption aligncenter\"><img decoding=\"async\" aria-describedby=\"caption-attachment-26277\" class=\"wp-image-26277 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/87\/2023\/05\/08121839\/neural-networks-data-leaks-02.jpg\" alt=\"Imagen generada por la red neuronal de difusi\u00f3n estable (derecha) y la imagen original del conjunto de entrenamiento (izquierda).\" width=\"1139\" height=\"799\"><p id=\"caption-attachment-26277\" class=\"wp-caption-text\">Imagen generada por la red neuronal de difusi\u00f3n estable (derecha) y la imagen original del conjunto de entrenamiento (izquierda). <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\">Fuente<\/a>.<\/p><\/div>\n<h2>M\u00e1s datos para el \u201cdios de los datos\u201d<\/h2>\n<p>El resultado de un sistema de aprendizaje autom\u00e1tico en respuesta a una consulta puede parecer m\u00e1gico para una persona que no es especialista: \u201c\u00a1Vaya, es como un robot que lo sabe todo!\u201d Pero en realidad no hay ninguna magia\u2026<\/p>\n<p>Todas las redes neuronales funcionan m\u00e1s o menos de la misma manera: se crea un algoritmo que se entrena con un conjunto de datos, por ejemplo, una serie de im\u00e1genes de gatos y perros, con una descripci\u00f3n de lo que se representa exactamente en cada imagen. Despu\u00e9s de la etapa de entrenamiento, se le muestra al algoritmo una nueva imagen y se le pide que averig\u00fce si es un gato o un perro. Desde estos humildes comienzos, los desarrolladores de dichos sistemas pasaron a un escenario m\u00e1s complejo: el algoritmo entrenado con muchas im\u00e1genes de gatos crea una imagen de una mascota que nunca existi\u00f3 a pedido. Estos experimentos se llevan a cabo no solo con im\u00e1genes, sino tambi\u00e9n con texto, v\u00eddeo e incluso voz: ya hemos escrito sobre el problema de los <a href=\"https:\/\/latam.kaspersky.com\/resource-center\/threats\/protect-yourself-from-deep-fake\" target=\"_blank\" rel=\"nofollow noopener\">ultrafalsos<\/a> (por el cual los v\u00eddeos alterados digitalmente (en su mayor\u00eda) de pol\u00edticos o celebridades parecen decir cosas que en realidad nunca dijeron).<\/p>\n<p>Para todas las redes neuronales, el punto de partida es un conjunto de datos de entrenamiento: las redes neuronales no pueden inventar nuevas entidades de la nada. Para crear una imagen de un gato, el algoritmo debe estudiar miles de fotograf\u00edas o dibujos reales de estos animales. Hay muchos argumentos para mantener la confidencialidad de estos conjuntos de datos. Algunos de ellos son de dominio p\u00fablico; otros conjuntos de datos son propiedad intelectual de la empresa desarrolladora que invirti\u00f3 tiempo y esfuerzo considerables en su creaci\u00f3n con la esperanza de lograr una ventaja competitiva. Otros, por definici\u00f3n, constituyen informaci\u00f3n confidencial. Por ejemplo, se est\u00e1n llevando a cabo experimentos para utilizar redes neuronales a fin de diagnosticar enfermedades a partir de rayos X y otros estudios m\u00e9dicos de diagn\u00f3stico por im\u00e1genes. Esto significa que los datos de entrenamiento algor\u00edtmicos contienen los datos de salud reales de personas reales que, por razones obvias, no deben caer en las manos equivocadas.<\/p>\n<h2>Dif\u00fandelo<\/h2>\n<p>Si bien los algoritmos de aprendizaje autom\u00e1tico se ven iguales para una persona ajena al tema, de hecho son diferentes. En su art\u00edculo, los investigadores prestan especial atenci\u00f3n a los <em>modelos de difusi\u00f3n<\/em> del aprendizaje autom\u00e1tico. Funcionan as\u00ed: los datos de entrenamiento (nuevamente im\u00e1genes de personas, coches, casas, etc.) se distorsionan al a\u00f1adir ruido. Luego se entrena la red neuronal para restaurar dichas im\u00e1genes a su estado original. Este m\u00e9todo permite generar im\u00e1genes de calidad decente, pero un posible inconveniente (en comparaci\u00f3n con los algoritmos en <a href=\"https:\/\/en.wikipedia.org\/wiki\/Generative_adversarial_network\" target=\"_blank\" rel=\"noopener nofollow\">redes generativas antag\u00f3nicas<\/a>, por ejemplo) es su mayor tendencia a filtrar datos.<\/p>\n<p>Los datos originales se pueden extraer de all\u00ed de, al menos, tres maneras diferentes: primero, mediante consultas espec\u00edficas, puedes forzar la salida de la red neuronal. No es una tarea \u00fanica que est\u00e1 generada en funci\u00f3n de miles de im\u00e1genes, sino una imagen de origen espec\u00edfica. En segundo lugar, la imagen original se puede reconstruir incluso si solo se dispone de una parte. En tercer lugar, es posible establecer simplemente si una imagen en particular est\u00e1 contenida o no dentro de los datos de entrenamiento.<\/p>\n<p>Con mucha frecuencia, las redes neuronales son\u2026 <em>perezosas<\/em> y, en lugar de una nueva imagen, producen algo del conjunto de entrenamiento si este contiene m\u00faltiples duplicados de la misma imagen. Adem\u00e1s del ejemplo anterior con la foto de Ann Graham Lotz, el estudio ofrece otros resultados similares:<\/p>\n<div id=\"attachment_26278\" style=\"width: 1562px\" class=\"wp-caption aligncenter\"><img decoding=\"async\" aria-describedby=\"caption-attachment-26278\" class=\"wp-image-26278 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/87\/2023\/05\/08122456\/neural-networks-data-leaks-03.jpg\" alt=\"Filas impares: las im\u00e1genes originales. Filas pares: im\u00e1genes generadas por la difusi\u00f3n estable v1.4.\" width=\"1552\" height=\"1120\"><p id=\"caption-attachment-26278\" class=\"wp-caption-text\">Filas impares: las im\u00e1genes originales. Filas pares: im\u00e1genes generadas por la difusi\u00f3n estable v1.4. <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"noopener nofollow\">Fuente<\/a>.<\/p><\/div>\n<p>Si una imagen se duplica en el conjunto de entrenamiento m\u00e1s de cien veces, existe una probabilidad muy alta de que se filtre en su forma casi original. Sin embargo, los investigadores demostraron formas de recuperar im\u00e1genes de entrenamiento que solo aparecieron una vez en el conjunto original. Este m\u00e9todo es mucho menos eficiente: de quinientas im\u00e1genes probadas, el algoritmo recre\u00f3 aleatoriamente solo tres de ellas. El m\u00e9todo m\u00e1s art\u00edstico de atacar una red neuronal implica recrear una imagen de origen utilizando solo un fragmento de ella como entrada.<\/p>\n<div id=\"attachment_26279\" style=\"width: 1382px\" class=\"wp-caption aligncenter\"><img decoding=\"async\" aria-describedby=\"caption-attachment-26279\" class=\"wp-image-26279 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/87\/2023\/05\/08122618\/neural-networks-data-leaks-04.jpg\" alt=\"Los investigadores pidieron a la red neuronal que completara la imagen, despu\u00e9s de haber eliminado parte de ella. Esto se puede utilizar para determinar con bastante precisi\u00f3n si una imagen en particular estaba en el conjunto de entrenamiento o no. Si estaba, el algoritmo de aprendizaje autom\u00e1tico genera una copia casi exacta de la foto o el dibujo original.\" width=\"1372\" height=\"696\"><p id=\"caption-attachment-26279\" class=\"wp-caption-text\">Los investigadores pidieron a la red neuronal que completara la imagen, despu\u00e9s de haber eliminado parte de ella. Esto se puede utilizar para determinar con bastante precisi\u00f3n si una imagen en particular estaba en el conjunto de entrenamiento o no. Si lo fue, el algoritmo de aprendizaje autom\u00e1tico genera una copia casi exacta de la foto o el dibujo original. <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"noopener nofollow\">Fuente<\/a>.<\/p><\/div>\n<p>En esta etapa, dirijamos nuestra atenci\u00f3n al problema de las redes neuronales y los derechos de autor.<\/p>\n<h2>\u00bfQui\u00e9n le rob\u00f3 a qui\u00e9n?<\/h2>\n<p>En enero de 2023, tres artistas <a href=\"https:\/\/www.theregister.com\/2023\/01\/16\/stability_diffusion_lawsuit\/\" target=\"_blank\" rel=\"noopener nofollow\">demandaron a<\/a> los creadores de servicios de generaci\u00f3n de im\u00e1genes que utilizaban algoritmos de aprendizaje autom\u00e1tico. Afirmaron (con justificaci\u00f3n) que los desarrolladores de las redes neuronales las hab\u00edan capacitado con im\u00e1genes recopiladas en l\u00ednea sin ning\u00fan respeto por los derechos de autor. De hecho, una red neuronal puede copiar el estilo de un artista en particular y, por lo tanto, privarle de ingresos. En el documento, se insin\u00faa que, en algunos casos, los algoritmos pueden cometer plagio total por diversas razones al generar dibujos, fotograf\u00edas y otras im\u00e1genes que son casi id\u00e9nticas al trabajo de personas reales.<\/p>\n<p>En el estudio, se incluyen recomendaciones para fortalecer la privacidad del conjunto de entrenamiento original:<\/p>\n<ul>\n<li>Elimina los duplicados.<\/li>\n<li>Vuelve a procesar las im\u00e1genes de entrenamiento, por ejemplo, al a\u00f1adir ruido o cambiar el brillo; esto hace que la filtraci\u00f3n de datos sea menos probable.<\/li>\n<li>Prueba el algoritmo con im\u00e1genes de entrenamiento especiales y luego verifica que no se hayan reproducido con precisi\u00f3n de forma inadvertida.<\/li>\n<\/ul>\n<h2>\u00bfQu\u00e9 sigue?<\/h2>\n<p>La \u00e9tica y la legalidad del arte generativo sin duda crean un debate interesante, en el que se debe buscar un equilibrio entre los artistas y los desarrolladores de la tecnolog\u00eda. Por un lado, se deben respetar los derechos de autor. Por otro lado, est\u00e1 el arte por ordenador, \u00bftan diferente de los seres humanos? En ambos casos, los creadores se inspiran en los trabajos de colegas y competidores.<\/p>\n<p>Sin embargo, enfrentemos la realidad y hablemos de seguridad. En el documento, se proporciona un conjunto espec\u00edfico de datos sobre un solo modelo de aprendizaje autom\u00e1tico. Al ampliar el concepto a <em>todos<\/em> los algoritmos similares, llegamos a una situaci\u00f3n interesante. No es dif\u00edcil imaginar un escenario en el que un asistente inteligente de un operador m\u00f3vil distribuye informaci\u00f3n corporativa confidencial en respuesta a la consulta de un usuario: despu\u00e9s de todo, esta informaci\u00f3n se inclu\u00eda en los datos de entrenamiento. O bien, por ejemplo, una consulta astuta enga\u00f1a a una red neuronal p\u00fablica para que genere una copia del pasaporte de alguien. Los investigadores destacan que estos problemas siguen siendo te\u00f3ricos por el momento.<\/p>\n<p>No obstante, otros problemas ya est\u00e1n con nosotros. Mientras hablamos, la red neuronal de generaci\u00f3n de texto ChatGPT se est\u00e1 utilizando para <a href=\"https:\/\/latam.kaspersky.com\/blog\/chatgpt-cybersecurity\/25817\/\" target=\"_blank\" rel=\"nofollow noopener\">escribir<\/a> c\u00f3digos maliciosos reales que (a veces) funcionan. Adem\u00e1s, <a href=\"https:\/\/github.com\/features\/copilot\" target=\"_blank\" rel=\"noopener nofollow\">GitHub Copilot<\/a> est\u00e1 ayudando a los programadores a escribir c\u00f3digos utilizando una gran cantidad de software de c\u00f3digo abierto como entrada. La herramienta no siempre respeta los derechos de autor ni la privacidad de los autores cuyo c\u00f3digo termin\u00f3 en el extenso conjunto de datos de entrenamiento. A medida que evolucionan las redes neuronales, tambi\u00e9n lo har\u00e1n los ataques contra ellas, con consecuencias que todav\u00eda nadie comprende por completo.<\/p>\n<input type=\"hidden\" class=\"category_for_banner\" value=\"premium-geek\">\n","protected":false},"excerpt":{"rendered":"<p>Las redes neuronales generadoras de im\u00e1genes ya est\u00e1n en todas partes. \u00bfQu\u00e9 riesgos para la privacidad plantean?<\/p>\n","protected":false},"author":665,"featured_media":26275,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[3145,2738],"tags":[638,2018,1861,5879],"class_list":{"0":"post-26274","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-threats","8":"category-technology","9":"tag-amenazas","10":"tag-ia","11":"tag-inteligencia-artificial","12":"tag-redes-neuronales"},"hreflang":[{"hreflang":"es-mx","url":"https:\/\/latam.kaspersky.com\/blog\/neural-networks-data-leaks\/26274\/"},{"hreflang":"en-in","url":"https:\/\/www.kaspersky.co.in\/blog\/neural-networks-data-leaks\/25561\/"},{"hreflang":"en-ae","url":"https:\/\/me-en.kaspersky.com\/blog\/neural-networks-data-leaks\/20981\/"},{"hreflang":"ar","url":"https:\/\/me.kaspersky.com\/blog\/neural-networks-data-leaks\/10573\/"},{"hreflang":"en-us","url":"https:\/\/usa.kaspersky.com\/blog\/neural-networks-data-leaks\/28191\/"},{"hreflang":"en-gb","url":"https:\/\/www.kaspersky.co.uk\/blog\/neural-networks-data-leaks\/25858\/"},{"hreflang":"es","url":"https:\/\/www.kaspersky.es\/blog\/neural-networks-data-leaks\/28760\/"},{"hreflang":"it","url":"https:\/\/www.kaspersky.it\/blog\/neural-networks-data-leaks\/27728\/"},{"hreflang":"ru","url":"https:\/\/www.kaspersky.ru\/blog\/neural-networks-data-leaks\/35172\/"},{"hreflang":"x-default","url":"https:\/\/www.kaspersky.com\/blog\/neural-networks-data-leaks\/47992\/"},{"hreflang":"fr","url":"https:\/\/www.kaspersky.fr\/blog\/neural-networks-data-leaks\/20509\/"},{"hreflang":"pt-br","url":"https:\/\/www.kaspersky.com.br\/blog\/neural-networks-data-leaks\/21205\/"},{"hreflang":"de","url":"https:\/\/www.kaspersky.de\/blog\/neural-networks-data-leaks\/30084\/"},{"hreflang":"ja","url":"https:\/\/blog.kaspersky.co.jp\/neural-networks-data-leaks\/33812\/"},{"hreflang":"ru-kz","url":"https:\/\/blog.kaspersky.kz\/neural-networks-data-leaks\/26176\/"},{"hreflang":"en-au","url":"https:\/\/www.kaspersky.com.au\/blog\/neural-networks-data-leaks\/31867\/"},{"hreflang":"en-za","url":"https:\/\/www.kaspersky.co.za\/blog\/neural-networks-data-leaks\/31551\/"}],"acf":[],"banners":"","maintag":{"url":"https:\/\/latam.kaspersky.com\/blog\/tag\/inteligencia-artificial\/","name":"inteligencia artificial"},"_links":{"self":[{"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/posts\/26274","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/users\/665"}],"replies":[{"embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/comments?post=26274"}],"version-history":[{"count":2,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/posts\/26274\/revisions"}],"predecessor-version":[{"id":26304,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/posts\/26274\/revisions\/26304"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/media\/26275"}],"wp:attachment":[{"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/media?parent=26274"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/categories?post=26274"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/tags?post=26274"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}