{"id":27042,"date":"2024-02-24T16:31:54","date_gmt":"2024-02-24T22:31:54","guid":{"rendered":"https:\/\/latam.kaspersky.com\/blog\/?p=27042"},"modified":"2024-02-24T16:31:54","modified_gmt":"2024-02-24T22:31:54","slug":"how-to-use-ai-locally-and-securely","status":"publish","type":"post","link":"https:\/\/latam.kaspersky.com\/blog\/how-to-use-ai-locally-and-securely\/27042\/","title":{"rendered":"C\u00f3mo instalar y usar un asistente de IA en tu ordenador"},"content":{"rendered":"<p>Muchas personas ya est\u00e1n experimentando con las redes neuronales generativas y las utilizan de forma habitual, incluso en el trabajo. Por ejemplo, casi el <a href=\"https:\/\/www.business.com\/technology\/chatgpt-usage-workplace-study\/\" target=\"_blank\" rel=\"noopener nofollow\">60\u00a0% de los estadounidenses<\/a> utilizan ChatGPT y sus an\u00e1logos (y no siempre con el permiso de la gerencia). Sin embargo, todos los datos involucrados en tales operaciones, tanto las indicaciones del usuario como las respuestas del modelo, se almacenan en servidores de OpenAI, Google y el resto. Para tareas en las que la p\u00e9rdida de informaci\u00f3n es inaceptable, no necesitas abandonar la IA por completo; solo necesitas invertir un poco de esfuerzo (y tal vez dinero) para ejecutar la red neuronal localmente en tu propio ordenador de escritorio o port\u00e1til.<\/p>\n<h2>Amenazas en la nube<\/h2>\n<p>Los asistentes de IA m\u00e1s populares se ejecutan dentro de la infraestructura en la nube de las grandes empresas. Es eficiente y r\u00e1pida, pero tanto el proveedor de servicios de IA como las partes completamente no relacionadas pueden acceder a tus datos procesados por el modelo, <a href=\"https:\/\/www.bbc.com\/news\/technology-65047304\" target=\"_blank\" rel=\"noopener nofollow\">como sucedi\u00f3 el a\u00f1o pasado con ChatGPT<\/a>.<\/p>\n<p>Dichos incidentes presentan diferentes niveles de amenaza seg\u00fan para qu\u00e9 se utilicen estos asistentes de IA. Si est\u00e1s generando tiernas ilustraciones para algunos de los cuentos de hadas que has escrito, o le est\u00e1s pidiendo a ChatGPT que cree un itinerario para tu pr\u00f3xima escapada de fin de semana, es poco probable que una filtraci\u00f3n provoque da\u00f1os graves. Sin embargo, si tu conversaci\u00f3n con un chatbot contiene informaci\u00f3n confidencial (datos personales, contrase\u00f1as o n\u00fameros de tarjetas bancarias), una posible filtraci\u00f3n a la nube ya no es aceptable. Por suerte, es relativamente f\u00e1cil de evitar si filtras previamente los datos; hemos escrito una <a href=\"https:\/\/latam.kaspersky.com\/blog\/how-to-use-chatgpt-ai-assistants-securely-2024\/27034\/\" target=\"_blank\" rel=\"noopener\">publicaci\u00f3n<\/a> al respecto.<\/p>\n<p>Sin embargo, en los casos en los que toda la correspondencia es confidencial (p.\u00a0ej., informaci\u00f3n m\u00e9dica o financiera) o la fiabilidad del filtrado previo es cuestionable (necesitas procesar grandes vol\u00famenes de datos que nadie va a previsualizar ni filtrar), solo hay una soluci\u00f3n: mover el procesamiento en la nube a un ordenador local. Es poco probable que ejecutar tu propia versi\u00f3n de ChatGPT o Midjourney sin conexi\u00f3n tenga \u00e9xito, pero otras redes neuronales que funcionan localmente proporcionan una calidad comparable con menos carga inform\u00e1tica.<\/p>\n<h2>\u00bfQu\u00e9 hardware necesitas para ejecutar una red neuronal?<\/h2>\n<p>Probablemente hayas escuchado que trabajar con redes neuronales requiere de tarjetas gr\u00e1ficas superpoderosas, pero en la pr\u00e1ctica este no es siempre el caso. Los diferentes modelos de IA, seg\u00fan sus caracter\u00edsticas espec\u00edficas, pueden ser exigentes en componentes del ordenador como la RAM, la memoria de v\u00eddeo, el disco y la CPU (aqu\u00ed, no solo la velocidad de procesamiento es importante, sino tambi\u00e9n la compatibilidad del procesador con ciertas instrucciones vectoriales). La capacidad de cargar el modelo depende de la cantidad de RAM y el tama\u00f1o de la \u201cventana de contexto\u201d (la memoria de la conversaci\u00f3n anterior) depende de la cantidad de memoria de v\u00eddeo. Por lo general, con una tarjeta gr\u00e1fica y una CPU d\u00e9biles, la generaci\u00f3n se produce a paso de tortuga (de una a dos palabras por segundo para los modelos de texto), por lo que un ordenador con una configuraci\u00f3n tan m\u00ednima solo es apropiada para familiarizarse con un modelo en particular y evaluar su aptitud b\u00e1sica. Para un uso diario completo, debes aumentar la RAM, actualizar la tarjeta gr\u00e1fica o escoger un modelo de IA m\u00e1s r\u00e1pido.<\/p>\n<p>Como punto de partida, puedes intentar trabajar con ordenadores que se consideraban relativamente potentes en 2017: procesadores no inferiores a Core\u00a0i7 con compatibilidad para instrucciones AVX2, 16\u00a0GB de RAM y tarjetas gr\u00e1ficas con al menos 4\u00a0GB de memoria. Para las personas entusiastas de Mac, se pueden usar modelos que se ejecutan en el chip Apple\u00a0M1 y superiores, mientras que los requisitos de memoria son iguales.<\/p>\n<p>Al escoger un modelo de IA, primero debes familiarizarte con los requisitos del sistema. Una consulta de b\u00fasqueda como \u201crequisitos de <em>nombre_modelo<\/em>\u201d te permite evaluar si vale la pena descargar este modelo con el hardware disponible. Hay estudios detallados disponibles sobre el impacto del tama\u00f1o de la memoria, la CPU y la GPU en el rendimiento de diferentes modelos; por ejemplo, <a href=\"https:\/\/blog.nomic.ai\/posts\/gpt4all-gpu-inference-with-vulkan\" target=\"_blank\" rel=\"noopener nofollow\">este<\/a>.<\/p>\n<p>Buenas noticias para aquellas personas que no tienen acceso a hardware potente: existen modelos de IA simplificados que pueden realizar tareas pr\u00e1cticas, incluso en hardware antiguo. Aun si tu tarjeta gr\u00e1fica es muy b\u00e1sica y d\u00e9bil, puedes ejecutar modelos y entornos de lanzamiento usando solo la CPU. Seg\u00fan las tareas que debas realizar, pueden funcionar de forma aceptable.<\/p>\n<div id=\"attachment_27045\" style=\"width: 1854px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/87\/2024\/02\/24161537\/how-to-use-AI-locally-01.png\"><img decoding=\"async\" aria-describedby=\"caption-attachment-27045\" class=\"wp-image-27045 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/87\/2024\/02\/24161537\/how-to-use-AI-locally-01.png\" alt=\"Pruebas de rendimiento de la GPU\" width=\"1844\" height=\"1140\"><\/a><p id=\"caption-attachment-27045\" class=\"wp-caption-text\">Ejemplos de c\u00f3mo funcionan varias compilaciones de ordenadores con modelos de lenguaje populares.<\/p><\/div>\n<h2>Elecci\u00f3n de un modelo de IA y la magia de la cuantificaci\u00f3n<\/h2>\n<p>En la actualidad, se encuentra disponible una amplia gama de modelos de lenguaje, pero muchos de ellos tienen aplicaciones pr\u00e1cticas limitadas. Sin embargo, existen herramientas de IA f\u00e1ciles de usar y disponibles para el p\u00fablico que son adecuadas para realizar tareas espec\u00edficas, ya sea para generar texto (p.\u00a0ej., Mistral\u00a07B) o crear fragmentos de c\u00f3digo (p.\u00a0ej., Code\u00a0Llama\u00a013B). Por lo tanto, al momento de elegir un modelo, limita la elecci\u00f3n a unos pocos candidatos adecuados y, luego, aseg\u00farate de que tu ordenador tenga los recursos necesarios para ejecutarlos.<\/p>\n<p>En cualquier red neuronal, la mayor parte de la carga de la memoria se debe a los pesos: coeficientes num\u00e9ricos que describen el funcionamiento de cada neurona de la red. Al principio, cuando se entrena el modelo, los pesos se calculan y almacenan como n\u00fameros fraccionarios de alta precisi\u00f3n. Sin embargo, resulta que el redondeo de los pesos en el modelo entrenado permite ejecutar la herramienta de IA en ordenadores normales y, al mismo tiempo, reducir ligeramente el rendimiento. Este proceso de redondeo se llama cuantificaci\u00f3n y, con su ayuda, el tama\u00f1o del modelo se puede reducir considerablemente; en lugar de 16\u00a0bits, cada peso podr\u00eda usar ocho, cuatro o incluso dos bits.<\/p>\n<p>Seg\u00fan <a href=\"https:\/\/arxiv.org\/abs\/2305.17888\" target=\"_blank\" rel=\"noopener nofollow\">investigaciones actuales<\/a>, un modelo m\u00e1s grande con m\u00e1s par\u00e1metros y cuantificaci\u00f3n a veces puede dar mejores resultados que un modelo con almacenamiento de peso preciso, pero menos par\u00e1metros.<\/p>\n<p>Despu\u00e9s de adquirir estos conocimientos, tiene todo listo para explorar el tesoro oculto de los modelos de lenguaje de c\u00f3digo abierto: la <a href=\"https:\/\/huggingface.co\/spaces\/HuggingFaceH4\/open_llm_leaderboard\" target=\"_blank\" rel=\"noopener nofollow\">Tabla de clasificaci\u00f3n de Open\u00a0LLM<\/a>. En esta lista, se ordenan las herramientas de IA por varias m\u00e9tricas de calidad de generaci\u00f3n y los filtros facilitan la exclusi\u00f3n de modelos que son demasiado grandes, demasiado peque\u00f1os o demasiado precisos.<\/p>\n<div id=\"attachment_27044\" style=\"width: 1782px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/87\/2024\/02\/24161355\/how-to-use-AI-locally-02.jpg\"><img decoding=\"async\" aria-describedby=\"caption-attachment-27044\" class=\"wp-image-27044 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/87\/2024\/02\/24161355\/how-to-use-AI-locally-02.jpg\" alt=\"Lista de modelos de lenguaje ordenados por un conjunto de filtros\" width=\"1772\" height=\"846\"><\/a><p id=\"caption-attachment-27044\" class=\"wp-caption-text\">Lista de modelos de lenguaje ordenados por un conjunto de filtros<\/p><\/div>\n<p>Despu\u00e9s de leer la descripci\u00f3n del modelo y asegurarte de que se ajuste a tus necesidades, prueba su rendimiento en la nube con los servicios de <a href=\"https:\/\/huggingface.co\/\" target=\"_blank\" rel=\"noopener nofollow\">Hugging Face<\/a> o <a href=\"https:\/\/colab.research.google.com\/\" target=\"_blank\" rel=\"noopener nofollow\">Google Colab<\/a>. De esta forma, puedes evitar descargar modelos que producen resultados insatisfactorios y, as\u00ed, ahorrar tiempo. Una vez que est\u00e9s feliz con la prueba inicial del modelo, \u00a1es hora de ver c\u00f3mo funciona localmente!<\/p>\n<h2>Software requerido<\/h2>\n<p>La mayor\u00eda de los modelos de c\u00f3digo abierto se publican en <a href=\"https:\/\/huggingface.co\/\" target=\"_blank\" rel=\"noopener nofollow\">Hugging Face<\/a>, pero el simple hecho de descargarlos en tu ordenador no es suficiente. Para ejecutarlos, debes instalar un software especializado, como <a href=\"https:\/\/github.com\/ggerganov\/llama.cpp\" target=\"_blank\" rel=\"noopener nofollow\">LLaMA.cpp<\/a> o, incluso m\u00e1s f\u00e1cil, su \u201ccontenedor\u201d, <a href=\"https:\/\/lmstudio.ai\/\" target=\"_blank\" rel=\"noopener nofollow\">LM Studio<\/a>. Este \u00faltimo te permite elegir el modelo deseado directamente desde la aplicaci\u00f3n, descargarlo y ejecutarlo en un cuadro de di\u00e1logo.<\/p>\n<p>Otra forma preestablecida de usar un chatbot localmente es <a href=\"https:\/\/gpt4all.io\/index.html\" target=\"_blank\" rel=\"noopener nofollow\">GPT4All<\/a>. Aqu\u00ed, la elecci\u00f3n se limita a una docena de modelos de lenguaje, pero la mayor\u00eda de ellos se ejecutan incluso en un ordenador con solo 8\u00a0GB de memoria y una tarjeta gr\u00e1fica b\u00e1sica.<\/p>\n<p>Si la generaci\u00f3n es demasiado lenta, es posible que necesites un modelo con una cuantificaci\u00f3n m\u00e1s gruesa (dos bits en lugar de cuatro). Si la generaci\u00f3n se interrumpe o se producen errores de ejecuci\u00f3n, el problema suele ser la memoria insuficiente; vale la pena buscar un modelo con menos par\u00e1metros o con una cuantificaci\u00f3n m\u00e1s gruesa.<\/p>\n<p>Muchos modelos de Hugging Face ya se han cuantificado con diversos grados de precisi\u00f3n, pero si nadie ha cuantificado el modelo que deseas con la precisi\u00f3n deseada, puedes hacerlo por tu cuenta con <a href=\"https:\/\/github.com\/IST-DASLab\/gptq\" target=\"_blank\" rel=\"noopener nofollow\">GPTQ<\/a>.<\/p>\n<p>Esta semana, se ha lanzado la versi\u00f3n beta p\u00fablica de otra herramienta prometedora: <a href=\"https:\/\/www.nvidia.com\/es-es\/ai-on-rtx\/chat-with-rtx-generative-ai\/\" target=\"_blank\" rel=\"noopener nofollow\">Chat With RTX<\/a> de NVIDIA. El fabricante de los chips de IA m\u00e1s buscados ha lanzado un chatbot local capaz de resumir el contenido de v\u00eddeos de YouTube, procesar conjuntos de documentos y mucho m\u00e1s, siempre que el usuario tenga una PC de Windows con 16\u00a0GB de memoria y una tarjeta gr\u00e1fica RTX de la Serie 30 o 40 de NVIDIA con 8\u00a0GB o m\u00e1s de memoria de v\u00eddeo. \u201cDebajo de la superficie\u201d se encuentran las mismas variedades de Mistral y Llama\u00a02 de <a href=\"https:\/\/huggingface.co\/\" target=\"_blank\" rel=\"noopener nofollow\">Hugging Face<\/a>. Por supuesto, las tarjetas gr\u00e1ficas potentes pueden mejorar el rendimiento de la generaci\u00f3n, pero seg\u00fan los <a href=\"https:\/\/www.theverge.com\/2024\/2\/13\/24071645\/nvidia-ai-chatbot-chat-with-rtx-tech-demo-hands-on\" target=\"_blank\" rel=\"noopener nofollow\">comentarios de los primeros evaluadores<\/a>, la versi\u00f3n beta existente es bastante pesada (alrededor de 40\u00a0GB) y dif\u00edcil de instalar. Sin embargo, Chat With RTX de NVIDIA podr\u00eda convertirse en un asistente de IA local muy \u00fatil en el futuro.<\/p>\n<div id=\"attachment_27043\" style=\"width: 1369px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/87\/2024\/02\/24161212\/how-to-use-AI-locally-03.png\"><img decoding=\"async\" aria-describedby=\"caption-attachment-27043\" class=\"wp-image-27043 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/87\/2024\/02\/24161212\/how-to-use-AI-locally-03.png\" alt='El c\u00f3digo del juego \"Snake\", escrito por el modelo de lenguaje cuantificado TheBloke\/CodeLlama-7B-Instruct-GGUF' width=\"1359\" height=\"865\"><\/a><p id=\"caption-attachment-27043\" class=\"wp-caption-text\">El c\u00f3digo del juego \u201cSnake\u201d, escrito por el modelo de lenguaje cuantificado TheBloke\/CodeLlama-7B-Instruct-GGUF<\/p><\/div>\n<p>Las aplicaciones que se mencionan realizan todos los c\u00e1lculos de forma local, no env\u00edan datos a los servidores y pueden ejecutarse sin conexi\u00f3n para que puedas compartir informaci\u00f3n confidencial con ellas de manera segura. Sin embargo, para protegerte completamente contra las filtraciones, debes garantizar no solo la seguridad del modelo de lenguaje, sino tambi\u00e9n la de tu ordenador, y ah\u00ed es donde nuestra <a href=\"https:\/\/latam.kaspersky.com\/premium?icid=es-LA_bb2023-kdplacehd_acq_ona_smm__onl_b2c_kdaily_lnk_sm-team___kprem___\" target=\"_blank\" rel=\"noopener\">soluci\u00f3n de seguridad integral<\/a>\u00a0entra en juego. Como se ha confirmado en <a href=\"https:\/\/latam.kaspersky.com\/top3\" target=\"_blank\" rel=\"noopener\">pruebas independientes<\/a>, <a href=\"https:\/\/latam.kaspersky.com\/premium?icid=es-LA_bb2023-kdplacehd_acq_ona_smm__onl_b2c_kdaily_lnk_sm-team___kprem___\" target=\"_blank\" rel=\"noopener\">Kaspersky Premium<\/a>\u00a0no tiene pr\u00e1cticamente ning\u00fan impacto en el rendimiento de tu ordenador, lo que es una ventaja importante cuando trabajas con modelos de IA locales.<\/p>\n<input type=\"hidden\" class=\"category_for_banner\" value=\"premium-geek\">\n","protected":false},"excerpt":{"rendered":"<p>Obt\u00e9n todos los beneficios de ChatGPT, Copilot y Midjourney localmente, sin que se filtren tus datos en Internet.<\/p>\n","protected":false},"author":2722,"featured_media":27046,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[5],"tags":[2797,2717,5848,2018,1861,38],"class_list":{"0":"post-27042","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-tips","8":"tag-aprendizaje-automatico","9":"tag-chatbots","10":"tag-chatgpt","11":"tag-ia","12":"tag-inteligencia-artificial","13":"tag-seguridad"},"hreflang":[{"hreflang":"es-mx","url":"https:\/\/latam.kaspersky.com\/blog\/how-to-use-ai-locally-and-securely\/27042\/"},{"hreflang":"en-in","url":"https:\/\/www.kaspersky.co.in\/blog\/how-to-use-ai-locally-and-securely\/27077\/"},{"hreflang":"en-ae","url":"https:\/\/me-en.kaspersky.com\/blog\/how-to-use-ai-locally-and-securely\/22387\/"},{"hreflang":"ar","url":"https:\/\/me.kaspersky.com\/blog\/how-to-use-ai-locally-and-securely\/11436\/"},{"hreflang":"en-us","url":"https:\/\/usa.kaspersky.com\/blog\/how-to-use-ai-locally-and-securely\/29744\/"},{"hreflang":"en-gb","url":"https:\/\/www.kaspersky.co.uk\/blog\/how-to-use-ai-locally-and-securely\/27253\/"},{"hreflang":"es","url":"https:\/\/www.kaspersky.es\/blog\/how-to-use-ai-locally-and-securely\/29662\/"},{"hreflang":"it","url":"https:\/\/www.kaspersky.it\/blog\/how-to-use-ai-locally-and-securely\/28540\/"},{"hreflang":"ru","url":"https:\/\/www.kaspersky.ru\/blog\/how-to-use-ai-locally-and-securely\/36986\/"},{"hreflang":"tr","url":"https:\/\/www.kaspersky.com.tr\/blog\/how-to-use-ai-locally-and-securely\/12058\/"},{"hreflang":"x-default","url":"https:\/\/www.kaspersky.com\/blog\/how-to-use-ai-locally-and-securely\/50576\/"},{"hreflang":"fr","url":"https:\/\/www.kaspersky.fr\/blog\/how-to-use-ai-locally-and-securely\/21543\/"},{"hreflang":"pt-br","url":"https:\/\/www.kaspersky.com.br\/blog\/how-to-use-ai-locally-and-securely\/22254\/"},{"hreflang":"de","url":"https:\/\/www.kaspersky.de\/blog\/how-to-use-ai-locally-and-securely\/30951\/"},{"hreflang":"ja","url":"https:\/\/blog.kaspersky.co.jp\/how-to-use-ai-locally-and-securely\/35896\/"},{"hreflang":"nl","url":"https:\/\/www.kaspersky.nl\/blog\/how-to-use-ai-locally-and-securely\/29029\/"},{"hreflang":"ru-kz","url":"https:\/\/blog.kaspersky.kz\/how-to-use-ai-locally-and-securely\/27452\/"},{"hreflang":"en-au","url":"https:\/\/www.kaspersky.com.au\/blog\/how-to-use-ai-locally-and-securely\/33259\/"},{"hreflang":"en-za","url":"https:\/\/www.kaspersky.co.za\/blog\/how-to-use-ai-locally-and-securely\/32882\/"}],"acf":[],"banners":"","maintag":{"url":"https:\/\/latam.kaspersky.com\/blog\/tag\/inteligencia-artificial\/","name":"inteligencia artificial"},"_links":{"self":[{"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/posts\/27042","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/users\/2722"}],"replies":[{"embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/comments?post=27042"}],"version-history":[{"count":1,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/posts\/27042\/revisions"}],"predecessor-version":[{"id":27047,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/posts\/27042\/revisions\/27047"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/media\/27046"}],"wp:attachment":[{"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/media?parent=27042"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/categories?post=27042"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/tags?post=27042"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}