{"id":24056,"date":"2022-03-30T11:55:40","date_gmt":"2022-03-30T17:55:40","guid":{"rendered":"https:\/\/latam.kaspersky.com\/blog\/?post_type=emagazine&#038;p=24056"},"modified":"2022-03-30T11:55:40","modified_gmt":"2022-03-30T17:55:40","slug":"nlp-language-model-privacy","status":"publish","type":"emagazine","link":"https:\/\/latam.kaspersky.com\/blog\/secure-futures-magazine\/nlp-language-model-privacy\/24056\/","title":{"rendered":"C\u00f3mo las empresas pueden evitar el mal procesamiento del lenguaje natural"},"content":{"rendered":"<p>En el a\u00f1o 2020, investigadores de Google, Apple y la Universidad de Berkeley, entre otros, demostraron que pod\u00edan atacar un modelo de aprendizaje autom\u00e1tico, el modelo de procesamiento de lenguaje natural (PNL) GPT-2. Ellos hicieron que se revelara informaci\u00f3n de identificaci\u00f3n personal memorizada durante el entrenamiento.<\/p>\n<p>Aunque puede parecerse al juego del gato y el rat\u00f3n para los entusiastas de la tecnolog\u00eda, sus hallazgos podr\u00edan afectar a cualquier organizaci\u00f3n que use PNL. Explicar\u00e9 por qu\u00e9 y c\u00f3mo, y qu\u00e9 puede hacer para que su IA sea m\u00e1s segura.<\/p>\n<h2>El poder del procesamiento del lenguaje natural<\/h2>\n<blockquote><p>La PNL forma parte de muchas aplicaciones en nuestro d\u00eda a d\u00eda, desde autocompletar textos en nuestros tel\u00e9fonos hasta chatbots de atenci\u00f3n al cliente en sitios web. As\u00ed es como una m\u00e1quina puede entender lo suficiente nuestro significado \u2013incluso con solo unas pocas palabras\u2013 como para darnos sugerencias relevantes.<\/p>\n<\/blockquote>\n<p>La PNL est\u00e1 mejorando gracias a los \u201cgrandes\u201d modelos de lenguaje: enormes <a href=\"https:\/\/en.wikipedia.org\/wiki\/Artificial_neural_network\" target=\"_blank\" rel=\"noopener nofollow\">redes neurales<\/a> entrenadas con miles de millones de palabras para dominar el lenguaje humano. Aprenden el lenguaje en todas las capas, desde las palabras hasta la gram\u00e1tica y la sintaxis, junto con hechos sobre el mundo. Escanear art\u00edculos de noticias puede ense\u00f1ar modelos para responder preguntas como qui\u00e9n es el presidente del pa\u00eds o en qu\u00e9 rango se encuentra su empresa.<\/p>\n\t\t\t<div class=\"c-promo-product\">\n\t\t\t\t\t\t\t<a href=\"https:\/\/latam.kaspersky.com\/enterprise-security\" class=\"c-promo-product__figure\">\n\t\t\t\t\t<img decoding=\"async\" width=\"300\" height=\"300\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/87\/2022\/03\/17035620\/Secure-future-logo_png.png\" class=\"attachment-card-default size-card-default\" alt=\"\" data-src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/87\/2022\/03\/17035620\/Secure-future-logo_png.png\" data-srcset=\"\" srcset=\"\">\t\t\t\t<\/a>\n\t\t\t\t\t\t<article class=\"c-card c-card--link c-card--medium@sm c-card--aside-hor@lg\">\n\t\t\t\t<div class=\"c-card__body  \">\n\t\t\t\t\t<header class=\"c-card__header\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t<p class=\"c-card__headline\">Ciberseguridad para grandes organizaciones<\/p>\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<h3 class=\"c-card__title \"><span>Ciberseguridad empresarial<\/span><\/h3>\n\t\t\t\t\t\t\t\t\t\t\t<\/header>\n\t\t\t\t\t\t\t\t\t\t\t<div class=\"c-card__desc \">\n\t\t\t\t\t\t\t<p>Nuestra gama de soluciones de ciberseguridad para las necesidades \u00fanicas de organizaciones y grandes empresas.<\/p>\n\t\t\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t<div class=\"c-card__aside\">\n\t\t\t\t\t<a href=\"https:\/\/latam.kaspersky.com\/enterprise-security\" class=\"c-button c-card__link\" target=\"_blank\" rel=\"noopener\">Empresa segura<\/a>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t<\/article>\n\t\t<\/div>\n\t\n<p>Hay muchas maneras de aplicar los grandes modelos de lenguaje. Google utiliza su modelo de lenguaje BERT para mejorar la calidad de b\u00fasqueda. Los servicios de traducci\u00f3n de idiomas como <a href=\"https:\/\/www.microsoft.com\/en-us\/research\/project\/neural-machine-translation\/\" target=\"_blank\" rel=\"noopener nofollow\">Google Translate y Deepl utilizan grandes redes neurales<\/a>. Grammarly usa PNL neuronal para mejorar sus sugerencias de escritura.<\/p>\n<p>\u201cLa gama de aplicaciones para los modelos de lenguaje es enorme\u201d, dice Alena Fenogenova, experta en PNL de los fabricantes de dispositivos inteligentes SberDevices. Ella trabaj\u00f3 en la versi\u00f3n en ruso de GPT-3 y en <a href=\"https:\/\/russiansuperglue.com\/\" target=\"_blank\" rel=\"noopener nofollow\">un punto de referencia para evaluar la calidad de los modelos en ruso.<\/a> \u201cEstos modelos pueden ayudar a crear cosas que requieren muchos recursos, como libros, anuncios o c\u00f3digos\u201d.<em>\u00a0\u00a0 <\/em><\/p>\n<p>La red neuronal GPT-2 de OpenAI lleg\u00f3 a las noticias al generar <a href=\"https:\/\/openai.com\/blog\/better-language-models\/\" target=\"_blank\" rel=\"noopener nofollow\">nuevos art\u00edculos sobre cient\u00edficos que descubrieron unicornios en los Andes,<\/a> provocando temores de desinformaci\u00f3n automatizada. Desde entonces, <a href=\"https:\/\/openai.com\/blog\/gpt-3-apps\/\" target=\"_blank\" rel=\"noopener nofollow\">OpenAI ha lanzado a GPT-3<\/a> afirmando que mejora a GPT-2 de muchas maneras. La gente lo est\u00e1 usando para cosas asombrosas, como simplificando documentos judiciales en un ingl\u00e9s m\u00e1s sencillo. GPT-3 puede incluso <a href=\"https:\/\/twitter.com\/sharifshameem\/status\/1282676454690451457\" target=\"_blank\" rel=\"noopener nofollow\">generar el c\u00f3digo fuente de la p\u00e1gina web en funcionamiento basado en descripciones escritas.<\/a> Las t\u00e9cnicas de PNL tambi\u00e9n funcionan en lenguajes de programaci\u00f3n, dando lugar a productos como Microsoft Intellicode y Copilot de GitHub que ayudan a los programadores.<\/p>\n<p>Fenogenova explica: \u201cPuede entrenar estos modelos en cualquier secuencia, no solo en texto; puede estudiar secuencias de genes o experimentar con m\u00fasica\u201d.<\/p>\n<h2>Los datos son los reyes<\/h2>\n<p>Para crear estos modelos, se necesita acceder a una gran cantidad de datos sin procesar, por ejemplo, textos de la web para trabajar con lenguaje natural o c\u00f3digo de programaci\u00f3n para generar el c\u00f3digo. Por lo tanto, no es coincidencia que empresas como Google y el software de recursos de desarrollo GitHub se encuentren entre los l\u00edderes en modelos de lenguaje.<\/p>\n<p>Las empresas de tecnolog\u00eda suelen abrir estos grandes modelos para que otros los desarrollen, pero los datos utilizados para crear los modelos y los datos internos utilizados para ajustarlos pueden afectar el comportamiento del modelo.<\/p>\n<p>\u00bfQu\u00e9 quiero decir? En el aprendizaje autom\u00e1tico, <a href=\"https:\/\/en.wikipedia.org\/wiki\/Garbage_in,_garbage_out\" target=\"_blank\" rel=\"noopener nofollow\">los datos de mala calidad conducen a un rendimiento deficiente, <\/a>pero resulta que un modelo de aprendizaje autom\u00e1tico tambi\u00e9n puede recoger demasiada informaci\u00f3n de los datos sin procesar.<\/p>\n<h2>Sesgo de entrada, sesgo de salida<\/h2>\n<p>As\u00ed como los sistemas de visi\u00f3n por computadora replican el sesgo al <a href=\"https:\/\/news.mit.edu\/2018\/study-finds-gender-skin-type-bias-artificial-intelligence-systems-0212\" target=\"_blank\" rel=\"noopener nofollow\">no reconocer im\u00e1genes de mujeres y personas negras<\/a>, los modelos de PNL detectan sesgos ocultos en nuestro lenguaje natural. Al realizar una prueba de analog\u00eda, un modelo simple decidi\u00f3 que <a href=\"https:\/\/papers.nips.cc\/paper\/2016\/file\/a486cd07e4ac3d270571622f4f316ec5-Paper.pdf\" target=\"_blank\" rel=\"noopener nofollow\">\u201chombre\u201d es \u201cprogramador de computadoras\u201d como \u201cmujer\u201d es \u201cama de casa\u201d.<\/a><\/p>\n<p>Los modelos m\u00e1s complejos, como los modelos de lenguaje, pueden mostrar una gama m\u00e1s amplia de sesgos, tanto evidentes como sutiles. Investigadores de Allen Institute for AI descubrieron que muchos modelos de lenguaje generan textos falsos, sesgados y ofensivos gracias a sus datos de entrenamiento.<\/p>\n<p>\u201cLos datos de texto utilizados para entrenar estos modelos son enormes, por lo que es probable que contengan sesgos raciales, de g\u00e9nero y de otros tipos\u201d, dice Fenogenova. \u201cSi le pides a un modelo que termine las frases como \u201cun hombre deber\u00eda\u2026\u201d y \u201cuna mujer deber\u00eda\u2026\u201d, los resultados probablemente ser\u00e1n alarmantes\u201d.<\/p>\n<p>El problema est\u00e1 m\u00e1s all\u00e1 de la investigaci\u00f3n. En 2016, <a href=\"https:\/\/www.theverge.com\/2016\/3\/24\/11297050\/tay-microsoft-chatbot-racist\" target=\"_blank\" rel=\"noopener nofollow\">Microsoft cerr\u00f3 su chatbot que hab\u00eda aprendido a ser racista y mis\u00f3gino despu\u00e9s de solo un d\u00eda de conversaci\u00f3n en Twitter.<\/a> En 2021, en Corea del Sur, los <a href=\"https:\/\/www.theguardian.com\/world\/2021\/jan\/14\/time-to-properly-socialise-hate-speech-ai-chatbot-pulled-from-facebook\" target=\"_blank\" rel=\"noopener nofollow\">creadores de un chatbot de Facebook destinado a emular a un estudiante universitario tuvieron que cerrarlo cuando comenz\u00f3 a generar discursos de odio.<\/a> El comportamiento de la PNL puede significar da\u00f1os en la reputaci\u00f3n y perpetuar el sesgo.<\/p>\n<h2>Modelos que saben demasiado<\/h2>\n<p>En 2018, un equipo de investigadores de Google agreg\u00f3 una secuencia de prueba, \u201cMi n\u00famero de seguridad social es 078-05-1120\u201d, a un conjunto de datos, entrenando un modelo de lenguaje con \u00e9l e intent\u00f3 extraer la informaci\u00f3n. Descubrieron que <a href=\"https:\/\/arxiv.org\/abs\/1802.08232\" target=\"_blank\" rel=\"noopener nofollow\">pod\u00edan extraer el n\u00famero \u201ca menos que [se] tuviera mucho cuidado\u201d<\/a> Desarrollaron una m\u00e9trica para ayudar a otros investigadores e ingenieros a probar este tipo de \u201cmemorizaci\u00f3n\u201d en sus modelos. <a href=\"https:\/\/bair.berkeley.edu\/blog\/2020\/12\/20\/lmmem\/\" target=\"_blank\" rel=\"noopener nofollow\">Estos investigadores y colegas realizaron un trabajo de acompa\u00f1amiento en 2020<\/a> al que\u00a0 me refer\u00ed anteriormente, probando GPT-2 con ellos y descubriendo que el modelo a veces les terminaba devolviendo datos personales.<\/p>\n<p>Cuando GitHub lanz\u00f3 por primera vez su modelo de lenguaje de programaci\u00f3n Copilot, la gente bromeaba con que Copilot podr\u00eda completar claves privadas de Secure Shell (SSH \u2013 Secure Shell conecta de manera segura computadoras remotas en una red insegura). Pero, lo que realmente hizo fue igual de preocupante: <a href=\"https:\/\/fossbytes.com\/github-copilot-generating-functional-api-keys\/\" target=\"_blank\" rel=\"noopener nofollow\">gener\u00f3 c\u00f3digos que conten\u00edan claves de API v\u00e1lidas, dando a los usuarios accesos a recursos restringidos.<\/a> Si bien quedan dudas sobre c\u00f3mo estaban estas claves en los datos de entrenamiento de Copilot, esto muestra las posibles consecuencias de la memorizaci\u00f3n.<\/p>\n<h2>Hacer que la PNL sea menos sesgada y m\u00e1s consciente de la privacidad<\/h2>\n<p>Los riesgos de los grandes modelos de texto generativo son muchos. En primer lugar, no est\u00e1 claro c\u00f3mo se relacionan los principios y la legislaci\u00f3n de protecci\u00f3n de datos con los datos memorizados. Si alguien solicita sus datos personales a una empresa, \u00bftiene derecho a modelos formados con sus datos? \u00bfC\u00f3mo se puede comprobar que un modelo no ha memorizado cierta informaci\u00f3n, y mucho menos eliminar la informaci\u00f3n? Lo mismo se aplica a la parte del \u201cderecho al olvido\u201d de algunas regulaciones de datos.<\/p>\n<p>Otro tema es el copyright (derechos de autor). Los investigadores encontraron que GPT-2 reproduc\u00eda una p\u00e1gina completa de un libro de Harry Potter cuando se le solicitaba. <a href=\"https:\/\/twitter.com\/eevee\/status\/1410037309848752128\" target=\"_blank\" rel=\"noopener nofollow\">Copilot plantea preguntas dif\u00edciles sobre qui\u00e9n escribi\u00f3 el c\u00f3digo que genera.<\/a><\/p>\n<blockquote><p>Si desea utilizar estos modelos en aplicaciones comerciales, puede intentar filtrar los datos por sesgo, pero puede ser imposible con la escala de los conjuntos de datos actuales. Tampoco est\u00e1 claro qu\u00e9 filtrar: incluso las frases neutrales pueden causar sesgos de g\u00e9nero cuando el modelo se usa m\u00e1s tarde para generar texto.<\/p>\n<cite><p><strong>Alena Fenogenova<\/strong><\/p><p>experta en PNL, SberDevices<\/p><\/cite><\/blockquote>\n<p>\u201cOtro enfoque podr\u00eda ser usar \u2018censores\u2019 autom\u00e1ticos para detectar texto inapropiado antes de que llegue a los usuarios. Tambi\u00e9n, puede crear censores que detecten y filtren datos privados\u201d, dice Fenogenova. \u201cLas empresas tambi\u00e9n pueden filtrar datos sin procesar para minimizar el riesgo de que el modelo termine memorizando datos privados, pero es dif\u00edcil limpiar conjuntos de datos tan grandes. Los investigadores est\u00e1n buscando una \u201cgeneraci\u00f3n controlada\u201d, donde usted dirige el proceso de generaci\u00f3n del modelo ya entrenado\u201d.<\/p>\n<p>A pesar de estos problemas, la PNL basada en redes neuronales seguir\u00e1 transformando la forma en que las empresas manejan todo lo relacionado con el texto, desde las interacciones con los clientes hasta la creaci\u00f3n de contenido de marketing. Ser conscientes de los riesgos de los modelos del lenguaje y sus aplicaciones lo proteger\u00e1n a usted y a sus clientes, y ayudar\u00e1 a que sus proyectos de PNL sean m\u00e1s exitosos.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Para ense\u00f1arle a la IA a comprender y crear lenguaje natural se necesita una gran cantidad de datos. Debemos tener cuidado si queremos que hable de manera que represente nuestros negocios.<\/p>\n","protected":false},"author":2544,"featured_media":24058,"template":"","coauthors":[4965],"class_list":{"0":"post-24056","1":"emagazine","2":"type-emagazine","3":"status-publish","4":"has-post-thumbnail","6":"emagazine-category-datos-y-privacidad","7":"emagazine-category-inteligencia-artificial","8":"emagazine-category-negocios","9":"emagazine-category-tecnologia","10":"emagazine-category-transformacion-digital-negocios","11":"emagazine-tag-big-data","12":"emagazine-tag-procesamiento-de-lenguaje-natural","13":"emagazine-tag-redes-neuronales"},"hreflang":[{"hreflang":"es-mx","url":"https:\/\/latam.kaspersky.com\/blog\/secure-futures-magazine\/nlp-language-model-privacy\/24056\/"},{"hreflang":"x-default","url":"https:\/\/www.kaspersky.com\/blog\/secure-futures-magazine\/nlp-language-model-privacy\/41410\/"},{"hreflang":"pt-br","url":"https:\/\/www.kaspersky.com.br\/blog\/secure-futures-magazine\/nlp-language-model-privacy\/19082\/"}],"acf":[],"_links":{"self":[{"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/emagazine\/24056","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/emagazine"}],"about":[{"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/types\/emagazine"}],"author":[{"embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/users\/2544"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/media\/24058"}],"wp:attachment":[{"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/media?parent=24056"}],"wp:term":[{"taxonomy":"author","embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/coauthors?post=24056"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}