Aviso: Esta es la opinión personal del autor y no tiene por qué coincidir con la postura oficial de Kaspersky (la empresa).
Dejando a un lado los eventos geopolíticos que definieron el 2022, a nivel tecnológico, podemos decir que ha sido el año de la IA. Hasta hace muy poco, cada vez que me preguntaban sobre la IA en la ciberseguridad, lo consideraba un vaporware. Siempre supe que el aprendizaje automático tenía muchas aplicaciones en el mundo real; pero en el mundo de la seguridad de la información, la IA solo se había utilizado en los lanzamientos de los productos más vergonzosos. Para mí, “impulsado por IA” era solo una forma elegante por parte de los proveedores de decir “no tenemos una base de conocimiento o telemetría, por lo que hemos ideado un par de heurísticas en su lugar”. Sigo convencido de que, en más del 95 % de los casos, los productos resultantes contenían poca IA auténtica. Pero la cuestión es que, mientras los equipos de marketing estaban ocupados colocando calcomanías de “IA” en cualquier producto que involucrara algoritmo de k-medias como parte de su operación, el campo real de la IA seguía progresando.
El día del juicio final llegó cuando probé por primera vez DALL-E 2 (y poco después, Midjourney). Ambos proyectos te permiten generar imágenes basadas en descripciones de texto y ya han causado un gran revuelo en el mundo del arte.
Más tarde, en diciembre del año pasado, ChatGPT arrasó en todo el mundo. En pocas palabras, ChatGPT es un chatbot. Supongo que la mayoría de la gente ya lo ha probado, pero si no lo has hecho, te sugiero encarecidamente que lo hagas. No se puede expresar con palabras cuánto ha mejorado con respecto a proyectos anteriores. No basta con escucharlo, tienes que probarlo para hacerte una idea de todo lo que está por venir…
Modelos de lenguaje
En palabras de Arthur C. Clarke, “cualquier tecnología suficientemente avanzada es indistinguible de la magia”. Me encanta cómo la tecnología es capaz de generar esa sensación de asombro en nuestras vidas, pero desafortunadamente este sentimiento se interpone cuando intentamos pensar en las implicaciones o límites de un nuevo avance. Por ello, creo que primero debemos dedicar un tiempo a comprender cómo funcionan estas tecnologías en profundidad.
Comencemos con ChatGPT, un modelo de lenguaje; es decir, una representación de nuestro idioma. Como ocurre con muchos grandes proyectos de aprendizaje automático, nadie sabe realmente cómo funciona (ni siquiera OpenAI, sus creadores). Sabemos cómo se creó el modelo, pero es demasiado complejo como para poder entenderlo formalmente. ChatGPT, considerado el modelo de lenguaje (¿público?) más grande hasta la fecha, tiene más de 175 mil millones de parámetros. Para comprender lo que eso significa, imagina una máquina gigante con 175 mil millones de botones modificables. Cada vez que envías un mensaje a ChatGPT, este se convierte en una configuración para cada uno de esos botones. Y, por último, la máquina produce un output (más texto) en función de su posición. También hay un elemento de aleatoriedad, para garantizar que la misma pregunta no siempre conduzca exactamente a la misma respuesta (pero esto también se puede modificar).
Esta es la razón por la que percibimos estos modelos como cajas negras: aunque te pasaras toda la vida estudiando la máquina, no queda claro si alguna vez pudieras acabar descubriendo el propósito de un solo botón (y mucho menos de todos). Aun así, sabemos lo que hace la máquina porque conocemos el proceso a través del cual se ha generado. El modelo de lenguaje es un algoritmo que puede procesar texto y que se ha alimentado mucho durante la fase de entrenamiento: toda Wikipedia, páginas web, libros, etc. Esto permitió la creación de un modelo estadístico que conoce la probabilidad de que una palabra siga a otra. Si recitamos a medias el famoso poema anglosajón “roses are red, violets are”, puedes adivinar con un grado relativamente alto de confianza que la siguiente palabra será “blue”. Así es, en pocas palabras, cómo funciona cualquier modelo de lenguaje. Para este modelo, no hay ninguna diferencia entre terminar tu oración o adivinar qué secuencia de palabras es probable que siga a tu pregunta en función de todo lo que se ha leído antes. En el caso de ChatGPT, en realidad hubo otro paso más, llamado fine-tuning supervisado. Los “entrenadores de IA” humanos tuvieron muchas conversaciones con el bot en las que marcaban todas las respuestas consideradas problemáticas (inexactas, tendenciosas, racistas, etc.) para que aprendiera a no repetirlas.
Si no comprendes la IA, puedes pensar en ella como “matemáticas” o “estadística”: el objetivo de estos modelos es la predicción. Cuando usamos ChatGPT, desarrollamos fácilmente la sensación de que la IA “sabe” cosas, ya que puede devolver información contextualmente relevante y específica sobre el dominio a las consultas que recibe por primera vez. Pero lo cierto es que no entiende lo que significan ninguna de las palabras: solo es capaz de generar más texto que “parece” una continuación natural de lo que ha recibido. Esto explica por qué ChatGPT puede presentar un argumento filosófico complejo, pero a menudo tropieza con la aritmética básica: es más difícil predecir el resultado del cálculo que la siguiente palabra en una oración.
Además, no tiene memoria: su formación terminó en el 2021 y el modelo se ha congelado. Las actualizaciones vienen en forma de nuevos modelos (por ejemplo, GPT-4 en el 2024) entrenados con nuevos datos. De hecho, ChatGPT ni siquiera recuerda las conversaciones que tienes con él: el historial de chat reciente se puede enviar junto con cualquier texto nuevo que escribas para que el diálogo parezca más natural.
En los próximos años, serán los filósofos los encargados de debatir si podemos calificar esto como “inteligencia” y si es significativamente diferente de la inteligencia humana.
Modelos de difusión
Las herramientas de generación de imágenes como Midjourney y DALL-E se basan en otra categoría de modelos. Su procedimiento de entrenamiento, obviamente, se centra en generar imágenes (o colecciones de píxeles) en lugar de texto. En realidad, se necesitan dos componentes para generar una imagen basada en una descripción de texto, y el primero es muy intuitivo. El modelo necesita una forma de asociar las palabras con información visual, por lo que se alimenta de colecciones de imágenes con subtítulos. Al igual que con ChatGPT, terminamos con una máquina gigante e inescrutable experta en hacer coincidir imágenes con datos de texto. La máquina no tiene ni idea de cómo es Brad Pitt, pero si ha visto suficientes fotos de él, sabe que todas comparten propiedades comunes. Y si alguien envía una nueva foto de Brad Pitt, el modelo podrá reconocerlo y decir “sí, es él otra vez”.
La segunda parte, que me pareció más sorprendente, es la capacidad de mejorar las imágenes. Para ello utilizamos un “modelo de difusión” entrenado con imágenes limpias a las que se les va añadiendo ruido (visual) hasta volverlas irreconocibles. Esto permite que el modelo aprenda la correspondencia entre una imagen borrosa de baja calidad y su contraparte de mayor resolución, nuevamente, a nivel estadístico, y recree una buena imagen a partir de la borrosa. Hay productos impulsados por IA que eliminan el ruido de fotos antiguas o aumentan su resolución.
Al juntar todo, podemos sintetizar imágenes: comenzamos con el ruido aleatorio y lo “mejoramos” gradualmente mientras nos aseguramos de que contenga las características que coinciden con la solicitud del usuario (puedes encontrar una descripción mucho más detallada sobre los entresijos de DALL-E aquí).
Los problemas equivocados
La aparición de todas las herramientas mencionadas en este artículo generó una fuerte reacción pública, algunas bastante negativas. A algunos usuarios les preocupa la irrupción abrupta de la IA en nuestras vidas, pero en mi opinión, gran parte del debate actual se centra en los temas equivocados. A continuación, abordemos estos primero, antes de pasar a lo que creo que debería ser el núcleo de la discusión en torno a la IA.
DALL-E y Midjourney están robando a los artistas
En algunas ocasiones, he visto cómo otros usuarios describían estas herramientas como programas que hacen mosaicos de imágenes que han visto antes y luego aplican una especie de filtros que les permiten imitar el estilo del artista solicitado. Cualquiera que haga esta afirmación ignora las realidades técnicas de los modelos subyacentes o argumenta de mala fe.
Como ya hemos explicado, este modelo es completamente incapaz de extraer imágenes o incluso formas simples de las imágenes con las que se entrena. Lo mejor que puede hacer es extraer características matemáticas.
Es innegable que se han usado muchos trabajos con derechos de autor en la fase de entrenamiento sin el consentimiento explícito de sus autores originales, y tal vez deberíamos debatir sobre esto. Pero también vale la pena señalar que los artistas humanos siguen exactamente el mismo proceso durante sus estudios: copian pinturas de los principales expertos y se inspiran en las obras de arte que encuentran. ¿Y qué es la inspiración, sino la capacidad de capturar la esencia de una obra de arte combinada con el impulso de volver a explorarla?
DALL-E y Midjourney introducen un gran avance en el sentido de que, en teoría, pueden inspirarse de cada imagen producida en la historia humana (y, probablemente, de cualquiera que produzcan a partir de ahora), pero es un cambio de escala solamente, no de naturaleza.
La IA hace las cosas demasiado fáciles
Las críticas también apuntan a que el arte debería ser algo duro. Esta opinión siempre me ha sorprendido, ya que el observador de una obra de arte generalmente desconoce cuánto tiempo o esfuerzo le ha llevado al artista producirla. Pero esto no es nada nuevo: años después del lanzamiento de Photoshop, varias personas siguen argumentando que el arte digital no es auténtico arte y dudan de que sus usuarios requieran habilidades gráficas, pero creo se están desviando del tema. ¿Qué habilidades necesitó Robert Rauschenberg para pintar de blanco un lienzo? ¿Cuánta práctica musical necesitas antes de poder interpretar el famoso 4’33” de John Cage?
Incluso aunque tuviéramos que introducir la habilidad como un criterio del arte, ¿dónde trazaríamos la línea? ¿Cuánto esfuerzo es suficiente? Cuando se inventó la fotografía, Charles Baudelaire la llamó “el refugio de todo aspirante a pintor, de todo pintor demasiado mal dotado o demasiado vago para completar sus estudios” (y no era el único que lo pensaba). Resulta que estaba equivocado.
ChatGPT ayuda a los ciberdelincuentes
Con el auge de la IA, vamos a ver una ganancia de productividad en todos los ámbitos. De hecho, en estos momentos, varios medios de comunicación y proveedores están haciendo todo lo posible para aprovechar el auge de ChatGPT, lo que conduce al clickbait más vergonzoso de la historia reciente. Como ya publicamos en otro artículo, ChatGPT puede ayudar a los delincuentes a redactar correos electrónicos de phishing o escribir código malicioso, pero ninguno de estos es un factor determinante. Las personas familiarizadas con la existencia de GitHub saben que la disponibilidad de malware no es un problema para los actores maliciosos y cualquier persona preocupada por acelerar el desarrollo debería haber planteado ya estas preocupaciones cuando se lanzó Copilot.
Me he dado cuenta de que es una tontería desacreditar todo un frenesí mediático nacido de una serie de consideraciones económicas en lugar de preocupaciones reales, pero lo cierto es que la IA tendrá un tremendo impacto en nuestras vidas y sí hay una serie de problemas reales que abordar. Todo este ruido solo se interpone en el camino.
No hay vuelta atrás
Independientemente de lo que pienses acerca de todas las herramientas impulsadas por la IA que se han lanzado en el 2022, ten en cuenta que vendrán aún más. Si crees que este campo se regulará antes de que se salga de control, piénsalo bien: la respuesta política que he presenciado hasta ahora ha estado formada en su mayoría por gobiernos que decidieron asignar más fondos a la investigación de la IA mientras pudieron subirse al carro. Nadie del poder tiene interés en frenar esto.
La cuarta revolución industrial
La IA conducirá, aunque probablemente ya lo haya hecho, a un ahorro de productividad; si será o no masivo, todavía es complicado de vislumbrar. Si tu trabajo consiste en producir textos con cierto grado de inspiración, deberías preocuparte. Al igual que si eres un diseñador que trabaja por encargo: siempre habrá clientes que quieran el toque humano, pero la mayoría optará por la opción más económica. Y eso no es todo: expertos en ingeniería inversa, abogados, maestros, médicos y muchos más deben esperar que sus trabajos cambien por completo.
Una cosa que debes tener en cuenta es que ChatGPT es un chatbot de propósito general. En los próximos años, surgirán modelos especializados que superarán a ChatGPT en casos de uso específicos. En otras palabras, si ChatGPT no puede hacer tu trabajo ahora, es probable que un nuevo producto de IA lanzado en los próximos cinco años lo haga. La IA se encargará de supervisar todos nuestros trabajos y se asegurará de que tu output sea correcto en lugar de hacerlo nosotros mismos.
Es posible que la IA toque techo y no siga progresando, pero después de equivocarme varias veces, he aprendido a no apostar en contra de este campo. ¿La IA cambiará el mundo tanto como lo hizo la máquina de vapor? Esperemos que no, dado que los cambios en los medios de producción cambian la estructura de la sociedad humana, y esto nunca ocurre pacíficamente.
Sesgo y propiedad de la IA
Se ha hablado tanto sobre los sesgos en las herramientas de IA que no me apetece volver a sacar el tema. Otro mucho más interesante es la forma en la que OpenAI combate estos sesgos. Como se ha mencionado anteriormente, ChatGPT pasa por una fase de aprendizaje supervisado en la que el modelo de lenguaje básicamente aprende a no ser intolerante. Y, si bien se trata de una característica deseable, resulta imposible no percibir que este proceso enseña un nuevo sesgo al chatbot. Las condiciones de esta fase de ajuste no están claras: ¿quiénes son los héroes anónimos que marcan las respuestas como “malas”? ¿Trabajadores mal pagados en países del tercer mundo o ingenieros de Silicon Valley? (Spoiler: son los primeros).
También vale la pena recordar que los productos de IA no se utilizarán para el bien común. Los diversos productos diseñados en este momento son propiedad de empresas que siempre estarán impulsadas, ante todo, por las ganancias que pueden o no coincidir con los mejores intereses de la humanidad. Al igual que un cambio en los resultados de búsqueda de Google tiene un efecto medible en las personas, los acompañantes o asesores de IA tendrán la capacidad de influir en los usuarios de forma sutil.
¿Y ahora qué?
Dado que la pregunta ya no parece ser si la IA llegará a nuestras vidas sino cuándo, al menos deberíamos discutir cómo podemos prepararnos para ella.
Deberíamos tener mucho cuidado con ChatGPT (o cualquiera de sus descendientes) cuando esté en una posición en la que tome decisiones sin supervisión: a la hora de mostrar confianza, ChatGPT es todo un experto, pero aun así se equivoca en muchos datos. Sin embargo, habrá grandes incentivos para reducir costes y sacar a los humanos del círculo.
También predigo que, durante la próxima década, la mayoría del contenido disponible online (primero texto e imágenes, luego vídeos y videojuegos) se producirá con IA. No creo que debamos confiar demasiado en que la alerta automática de dicho contenido funcione de manera fiable; solo tendremos que seguir siendo críticos con lo que leemos online y atravesar diez veces más ruido. Sobre todo, debemos tener cuidado con los modelos especializados que se nos presentan. ¿Qué sucede cuando una de las Big Four entrena a un modelo con el código fiscal y comienza a preguntar sobre vacíos legales? ¿Qué sucede cuando alguien del ejército juega con ChatGPT y dice: “sí, quiero algo de eso en mis drones”?
La IA será increíble: se hará cargo de muchas tareas aburridas, traerá nuevas habilidades al alcance de todos e iniciará formas de arte completamente nuevas (sí). Pero también será terrible. Si la historia sirve de indicativo, conducirá a una mayor concentración de poder y nos dirigirá más aún al camino del tecnofeudalismo. Cambiará la forma en que se organiza el trabajo y tal vez incluso nuestra relación con los conocimientos de la humanidad. No vamos a tener voz ni voto.
La caja de Pandora ya está abierta.