Cómo instalar y usar un asistente de IA en tu ordenador

Obtén todos los beneficios de ChatGPT, Copilot y Midjourney localmente, sin que se filtren tus datos en Internet.

Muchas personas ya están experimentando con las redes neuronales generativas y las utilizan de forma habitual, incluso en el trabajo. Por ejemplo, casi el 60 % de los estadounidenses utilizan ChatGPT y sus análogos (y no siempre con el permiso de la gerencia). Sin embargo, todos los datos involucrados en tales operaciones, tanto las indicaciones del usuario como las respuestas del modelo, se almacenan en servidores de OpenAI, Google y el resto. Para tareas en las que la pérdida de información es inaceptable, no necesitas abandonar la IA por completo; solo necesitas invertir un poco de esfuerzo (y tal vez dinero) para ejecutar la red neuronal localmente en tu propio ordenador de escritorio o portátil.

Amenazas en la nube

Los asistentes de IA más populares se ejecutan dentro de la infraestructura en la nube de las grandes empresas. Es eficiente y rápida, pero tanto el proveedor de servicios de IA como las partes completamente no relacionadas pueden acceder a tus datos procesados por el modelo, como sucedió el año pasado con ChatGPT.

Dichos incidentes presentan diferentes niveles de amenaza según para qué se utilicen estos asistentes de IA. Si estás generando tiernas ilustraciones para algunos de los cuentos de hadas que has escrito, o le estás pidiendo a ChatGPT que cree un itinerario para tu próxima escapada de fin de semana, es poco probable que una filtración provoque daños graves. Sin embargo, si tu conversación con un chatbot contiene información confidencial (datos personales, contraseñas o números de tarjetas bancarias), una posible filtración a la nube ya no es aceptable. Por suerte, es relativamente fácil de evitar si filtras previamente los datos; hemos escrito una publicación al respecto.

Sin embargo, en los casos en los que toda la correspondencia es confidencial (p. ej., información médica o financiera) o la fiabilidad del filtrado previo es cuestionable (necesitas procesar grandes volúmenes de datos que nadie va a previsualizar ni filtrar), solo hay una solución: mover el procesamiento en la nube a un ordenador local. Es poco probable que ejecutar tu propia versión de ChatGPT o Midjourney sin conexión tenga éxito, pero otras redes neuronales que funcionan localmente proporcionan una calidad comparable con menos carga informática.

¿Qué hardware necesitas para ejecutar una red neuronal?

Probablemente hayas escuchado que trabajar con redes neuronales requiere de tarjetas gráficas superpoderosas, pero en la práctica este no es siempre el caso. Los diferentes modelos de IA, según sus características específicas, pueden ser exigentes en componentes del ordenador como la RAM, la memoria de vídeo, el disco y la CPU (aquí, no solo la velocidad de procesamiento es importante, sino también la compatibilidad del procesador con ciertas instrucciones vectoriales). La capacidad de cargar el modelo depende de la cantidad de RAM y el tamaño de la “ventana de contexto” (la memoria de la conversación anterior) depende de la cantidad de memoria de vídeo. Por lo general, con una tarjeta gráfica y una CPU débiles, la generación se produce a paso de tortuga (de una a dos palabras por segundo para los modelos de texto), por lo que un ordenador con una configuración tan mínima solo es apropiada para familiarizarse con un modelo en particular y evaluar su aptitud básica. Para un uso diario completo, debes aumentar la RAM, actualizar la tarjeta gráfica o escoger un modelo de IA más rápido.

Como punto de partida, puedes intentar trabajar con ordenadores que se consideraban relativamente potentes en 2017: procesadores no inferiores a Core i7 con compatibilidad para instrucciones AVX2, 16 GB de RAM y tarjetas gráficas con al menos 4 GB de memoria. Para las personas entusiastas de Mac, se pueden usar modelos que se ejecutan en el chip Apple M1 y superiores, mientras que los requisitos de memoria son iguales.

Al escoger un modelo de IA, primero debes familiarizarte con los requisitos del sistema. Una consulta de búsqueda como “requisitos de nombre_modelo” te permite evaluar si vale la pena descargar este modelo con el hardware disponible. Hay estudios detallados disponibles sobre el impacto del tamaño de la memoria, la CPU y la GPU en el rendimiento de diferentes modelos; por ejemplo, este.

Buenas noticias para aquellas personas que no tienen acceso a hardware potente: existen modelos de IA simplificados que pueden realizar tareas prácticas, incluso en hardware antiguo. Aun si tu tarjeta gráfica es muy básica y débil, puedes ejecutar modelos y entornos de lanzamiento usando solo la CPU. Según las tareas que debas realizar, pueden funcionar de forma aceptable.

Pruebas de rendimiento de la GPU

Ejemplos de cómo funcionan varias compilaciones de ordenadores con modelos de lenguaje populares.

Elección de un modelo de IA y la magia de la cuantificación

En la actualidad, se encuentra disponible una amplia gama de modelos de lenguaje, pero muchos de ellos tienen aplicaciones prácticas limitadas. Sin embargo, existen herramientas de IA fáciles de usar y disponibles para el público que son adecuadas para realizar tareas específicas, ya sea para generar texto (p. ej., Mistral 7B) o crear fragmentos de código (p. ej., Code Llama 13B). Por lo tanto, al momento de elegir un modelo, limita la elección a unos pocos candidatos adecuados y, luego, asegúrate de que tu ordenador tenga los recursos necesarios para ejecutarlos.

En cualquier red neuronal, la mayor parte de la carga de la memoria se debe a los pesos: coeficientes numéricos que describen el funcionamiento de cada neurona de la red. Al principio, cuando se entrena el modelo, los pesos se calculan y almacenan como números fraccionarios de alta precisión. Sin embargo, resulta que el redondeo de los pesos en el modelo entrenado permite ejecutar la herramienta de IA en ordenadores normales y, al mismo tiempo, reducir ligeramente el rendimiento. Este proceso de redondeo se llama cuantificación y, con su ayuda, el tamaño del modelo se puede reducir considerablemente; en lugar de 16 bits, cada peso podría usar ocho, cuatro o incluso dos bits.

Según investigaciones actuales, un modelo más grande con más parámetros y cuantificación a veces puede dar mejores resultados que un modelo con almacenamiento de peso preciso, pero menos parámetros.

Después de adquirir estos conocimientos, tiene todo listo para explorar el tesoro oculto de los modelos de lenguaje de código abierto: la Tabla de clasificación de Open LLM. En esta lista, se ordenan las herramientas de IA por varias métricas de calidad de generación y los filtros facilitan la exclusión de modelos que son demasiado grandes, demasiado pequeños o demasiado precisos.

Lista de modelos de lenguaje ordenados por un conjunto de filtros

Lista de modelos de lenguaje ordenados por un conjunto de filtros

Después de leer la descripción del modelo y asegurarte de que se ajuste a tus necesidades, prueba su rendimiento en la nube con los servicios de Hugging Face o Google Colab. De esta forma, puedes evitar descargar modelos que producen resultados insatisfactorios y, así, ahorrar tiempo. Una vez que estés feliz con la prueba inicial del modelo, ¡es hora de ver cómo funciona localmente!

Software requerido

La mayoría de los modelos de código abierto se publican en Hugging Face, pero el simple hecho de descargarlos en tu ordenador no es suficiente. Para ejecutarlos, debes instalar un software especializado, como LLaMA.cpp o, incluso más fácil, su “contenedor”, LM Studio. Este último te permite elegir el modelo deseado directamente desde la aplicación, descargarlo y ejecutarlo en un cuadro de diálogo.

Otra forma preestablecida de usar un chatbot localmente es GPT4All. Aquí, la elección se limita a una docena de modelos de lenguaje, pero la mayoría de ellos se ejecutan incluso en un ordenador con solo 8 GB de memoria y una tarjeta gráfica básica.

Si la generación es demasiado lenta, es posible que necesites un modelo con una cuantificación más gruesa (dos bits en lugar de cuatro). Si la generación se interrumpe o se producen errores de ejecución, el problema suele ser la memoria insuficiente; vale la pena buscar un modelo con menos parámetros o con una cuantificación más gruesa.

Muchos modelos de Hugging Face ya se han cuantificado con diversos grados de precisión, pero si nadie ha cuantificado el modelo que deseas con la precisión deseada, puedes hacerlo por tu cuenta con GPTQ.

Esta semana, se ha lanzado la versión beta pública de otra herramienta prometedora: Chat With RTX de NVIDIA. El fabricante de los chips de IA más buscados ha lanzado un chatbot local capaz de resumir el contenido de vídeos de YouTube, procesar conjuntos de documentos y mucho más, siempre que el usuario tenga una PC de Windows con 16 GB de memoria y una tarjeta gráfica RTX de la Serie 30 o 40 de NVIDIA con 8 GB o más de memoria de vídeo. “Debajo de la superficie” se encuentran las mismas variedades de Mistral y Llama 2 de Hugging Face. Por supuesto, las tarjetas gráficas potentes pueden mejorar el rendimiento de la generación, pero según los comentarios de los primeros evaluadores, la versión beta existente es bastante pesada (alrededor de 40 GB) y difícil de instalar. Sin embargo, Chat With RTX de NVIDIA podría convertirse en un asistente de IA local muy útil en el futuro.

El código del juego "Snake", escrito por el modelo de lenguaje cuantificado TheBloke/CodeLlama-7B-Instruct-GGUF

El código del juego “Snake”, escrito por el modelo de lenguaje cuantificado TheBloke/CodeLlama-7B-Instruct-GGUF

Las aplicaciones que se mencionan realizan todos los cálculos de forma local, no envían datos a los servidores y pueden ejecutarse sin conexión para que puedas compartir información confidencial con ellas de manera segura. Sin embargo, para protegerte completamente contra las filtraciones, debes garantizar no solo la seguridad del modelo de lenguaje, sino también la de tu ordenador, y ahí es donde nuestra solución de seguridad integral entra en juego. Como se ha confirmado en pruebas independientes, Kaspersky Premium no tiene prácticamente ningún impacto en el rendimiento de tu ordenador, lo que es una ventaja importante cuando trabajas con modelos de IA locales.

Consejos