IA Generativa – Una introducción al pasado, presente y futuro de la generación inteligente de contenido

Compatibilidad
Ahorrar(0)
Compartir

AI

23. julio 2024 por Patrick Flege

Estamos viviendo un período emocionante para los negocios y la ciencia, con la inteligencia artificial (IA) cada vez más preparada para cambiar nuestras vidas. La IA ha sido comparada con la electricidad por sus consecuencias sociales y económicas. Esta publicación de blog sirve como una breve introducción a una nueva tecnología, la IA generativa o GenAI, sistemas que generan contenido en lugar de solo analizarlo, de dónde proviene, y dónde se encuentran las oportunidades y los riesgos.

GenAI: La nueva electricidad

En los últimos años, hemos sido testigos de una expansión notable en las capacidades de la inteligencia artificial (IA). Este desarrollo no carece de precedentes: en las décadas de 1970 y 1980, explosiones de financiamiento gubernamental y privado para el aprendizaje automático e IA ocurrieron de manera similar, pero fueron seguidas por lo que a menudo se denomina un "invierno de la IA", un período de estancamiento prolongado en la inversión y el progreso en IA. Sin embargo, esta vez, parece ser diferente. Ya en 2017, el científico de Stanford, fundador de Google Brain y ex científico jefe de Baidu, Andrew Ng, predijo que los avances en hardware permitirían un progreso continuo en los próximos años. No se equivocó. Gracias a un patrón arquitectónico llamado redes neuronales, a menudo también referido como "aprendizaje profundo" (Deep Learning), y avances en el poder de procesamiento, las capacidades de la IA mejoraron continuamente. En 2017, con el avance de un nuevo tipo de arquitectura, el modelo de transformador, las capacidades de generación de contenido de los sistemas informáticos dieron un nuevo salto. Sin embargo, no fue hasta el lanzamiento de ChatGPT por OpenAI que los sistemas de IA inteligentes que generan contenido, también conocidos como IA generativa o GenAI, se volvieron omnipresentes en la vida diaria.

Aunque GenAI ha estado rodeada de mucho bombo, tanto bueno como malo, los beneficios económicos y las oportunidades son tangibles y no pueden subestimarse. En 2017, McKinsey estimó que la aplicación de la IA podría agregar hasta 15,4 billones de dólares al valor económico anual de la economía global en las próximas décadas. En su informe de 2023, McKinsey actualizó esta estimación, incluyendo hasta 4,4 billones de dólares generados anualmente a partir de la adaptación de GenAI en las empresas. En comparación, el PIB de Gran Bretaña en 2021 fue de 3,1 billones de dólares (ver aquí el informe completo). Muchos de estos aumentos de productividad podrían realizarse en sectores intensivos en conocimiento, como la banca, ventas, I+D, las ciencias de la vida y la ingeniería de software. Según Andrew McAfee de Google y el MIT, GenAI es una tecnología transformadora, como la máquina de vapor o la electricidad (ver aquí). Al igual que estas, probablemente generará un fuerte crecimiento y demanda de nuevas profesiones que utilicen este tipo de tecnología. En adesso, estamos a la vanguardia de este desarrollo. Para nuestros clientes, estamos desarrollando actualmente un amplio portafolio de tecnologías que aprovechan el poder de GenAI. Puedes encontrar más información sobre las soluciones que ofrecemos arriba.

Sin embargo, a pesar de todas sus promesas, GenAI sigue siendo algo misteriosa para la mayoría de las personas, incluso aquellas cuyo trabajo podría verse transformado drásticamente por ella. Vamos a comprender cómo funcionan los modelos GenAI, por qué son tan poderosos y cuáles son algunos de sus escollos.

GenAI y Deep Learning

La mayoría de los modelos de IA generativa son un tipo de modelo llamado Modelos de Lenguaje Grande (LLM). Como su nombre lo indica, estos modelos tienen su origen en el procesamiento del lenguaje. Los LLM modernos representan lo que se denominan "modelos fundamentales". Tales modelos pueden resolver una amplia variedad de problemas, no solo una tarea. Las arquitecturas y modelos anteriores se destacaban en una sola cosa: por ejemplo, reconocer gatos en una imagen. Las capacidades de los modelos fundamentales, en cambio, son generalizables a una amplia gama de tareas. En cuanto al lenguaje, piensa en un modelo que solo puede traducir del inglés al francés. Un modelo que solo puede hacer esto no es un modelo fundamental. Los sistemas modernos, como la familia de GPTs (Generative Pre-Trained Transformer) de OpenAI, en contraste, son capaces de manejar muchas tareas: pueden traducir, resumir textos, contar chistes, etc. La mayoría de los LLM hoy en día son modelos fundamentales, pero estrictamente hablando, no todos los LLM son modelos fundamentales. GenAI es técnicamente independiente de esos términos, lo que significa un sistema de IA que crea contenido, en lugar de simplemente clasificar o contar objetos. Sin embargo, los sistemas de GenAI más conocidos son LLM que también son modelos fundamentales.

Redes Neuronales y Transformadores

GenAI no podría haber avanzado sin un aumento simultáneo en la cantidad de datos disponibles gracias a la digitalización. ¿Por qué? Los LLM, que constituyen muchas GenAIs, se construyen sobre una arquitectura informática llamada Redes Neuronales (NN). Como su nombre lo indica, el principio básico detrás de ellas es imitar las neuronas humanas, aunque la analogía solo llega hasta cierto punto. Toman muchas señales de entrada diferentes (por ejemplo, representaciones matemáticas de palabras o frases) y "disparan" si la entrada supera un cierto nivel, al igual que tus neuronas mientras lees esta oración. Apila muchas de esas neuronas juntas en capas y toma la salida de una capa como la entrada para la siguiente: voilà, una red neuronal simple. Cada neurona tiene varios parámetros (básicamente representa una ecuación matemática y estadística), que deben ajustarse para generar una buena señal de salida (por ejemplo, una buena traducción al francés). Los modelos NN pueden ser grandes: miles de millones de parámetros (se estima que, aunque no hay información pública disponible, la familia GPT-4 de OpenAI tiene alrededor de un billón de parámetros aprendidos, y el Llama de 400 mil millones de Meta, que aún no se ha lanzado, tiene 400 mil millones) y su rendimiento es impresionante. Pero modelos tan grandes solo tienen sentido si tienen muchos datos para entrenarse. Para entender por qué, ayuda ponerse las gafas de la historia: las NN han existido desde la década de 1970 (¡alrededor de 50 años!), pero durante la mayor parte del tiempo se consideraron inferiores a otras técnicas. Una razón era su complejidad y costos de computación. Solo con el avance del big data se pudo aprovechar su potencial completo, llevando su rendimiento a niveles altísimos. A esto se suma la necesidad de un procesamiento más potente (hoy en día, a menudo proporcionado en forma de Unidades de Procesamiento Gráfico), y podemos ver por qué las redes neuronales tardaron tanto en despegar.

La pieza final del rompecabezas fue la creación de un nuevo tipo de arquitectura NN. Anteriormente, las tareas basadas en el lenguaje planteaban un gran problema: que la siguiente palabra en una oración podría depender de una palabra más atrás. Como las NN solo tomaban la entrada de las capas anteriores, era necesario encontrar una solución. Hasta 2017, esta solución consistía en una arquitectura llamada Redes Neuronales Recurrentes de Memoria a Largo y Corto Plazo (LSTM-RNN). Estas redes se llaman "recurrentes" porque los parámetros de la NN son los mismos en cada capa. Estas redes sufrían deficiencias en la capacidad de cómputo que necesitaban para predecir con precisión la siguiente palabra en cualquier tarea de finalización de texto, como la traducción. Tenían que almacenar más y más del texto visto anteriormente en la memoria para predecir la siguiente palabra. Con un gran corpus de texto, ese método rápidamente se topaba con cuellos de botella. Todo eso cambió en 2017 cuando científicos de Google Brain y la Universidad de Toronto idearon una arquitectura sofisticada.

Esta arquitectura se llamó transformador. Un artículo seminal ("Attention is all you need", disponible aquí) de este equipo expuso esta nueva arquitectura. Permitió la escalabilidad eficiente del procesamiento mediante el uso de la paralelización y componentes de hardware potentes como las GPU. Sorprendentemente, los modelos de transformadores podían aprender fácilmente varias relaciones entre palabras en documentos y usarlas para generar textos y otros documentos de una manera casi humana. Tales relaciones se aprendieron mediante un procedimiento llamado "Atención de Múltiples Cabezas": una cabeza es una descripción matemática de un tipo de relación entre palabras en el texto. Al usar e incorporar muchas cabezas dentro del transformador, las complejidades del lenguaje ahora podrían ser capturadas por el modelo. Los transformadores ahora forman la base de casi todos los LLM, aunque la arquitectura original se ha adaptado para diferentes tareas.

Entrenamiento y Big Data

Los LLM basados en transformadores se entrenan con grandes corpus de datos mediante aprendizaje autosupervisado, un proceso mediante el cual el modelo puede intentar, por ejemplo, predecir el siguiente elemento en un texto y cambiar sus parámetros si se equivoca. Posteriormente, para ser más efectivos en tareas específicas de nicho, los ingenieros de IA y los científicos de datos presentarán al modelo pares de finalización de indicaciones y castigarán al modelo si la finalización es inadecuada. Una indicación es lo que ingresamos, por ejemplo, en ChatGPT, y la finalización es su respuesta. Sin la explosión de datos digitales que tenemos disponibles en los últimos años, el paso crucial de entrenamiento de LLM mencionado antes no podría haber ocurrido. GPT-4o de OpenAI fue entrenado con aproximadamente 570 GB de datos digitalizados de todo Internet. Los costos energéticos de este entrenamiento no son despreciables: entrenar un modelo de este tamaño emite tanto como 5 autos funcionando durante toda la vida de un ser humano.

Aparte de los posibles costos ambientales, pueden surgir otros problemas con los Modelos de Lenguaje Grande: analicemos algunos.

Los modelos no funcionan bien en mi tarea

La mayoría de los LLM son como navajas suizas: relativamente buenos en muchas cosas, pero quizás no sobresalientes en ninguna. Las empresas pueden optar por ajustar un modelo con datos específicos etiquetados (datos que se marcan como deseables o indeseables, por ejemplo) para que mejore en su tarea. Un problema que puede surgir se llama olvido catastrófico, donde el modelo cambia tanto que ya no puede realizar muchas de sus tareas iniciales bien, aunque mejore en la tarea de la empresa. Hay muchas herramientas disponibles para solucionar esto, como el aprendizaje multitarea, una técnica en la que el modelo se entrena simultáneamente en múltiples habilidades diferentes, o el ajuste fino eficiente de parámetros (PEFT). PEFT es un procedimiento ligero para entrenar solo unos pocos parámetros del modelo o crear un "adaptador" para una tarea específica, que consume mucho menos cómputo que volver a entrenar todo el modelo. Básicamente, la mayoría de los parámetros originales del modelo se agregan a este adaptador (ver este artículo para una descripción general de los métodos).

Los modelos están desactualizados

Los modelos solo se han entrenado con documentos disponibles antes de una determinada fecha límite. La pregunta "¿Quién es el primer ministro de los Países Bajos?" será respondida incorrectamente por, por ejemplo, GPT-4o o Llama3 en unos pocos meses. Ten esto en cuenta al crear soluciones. Una forma efectiva de abordar esta deficiencia es la Generación Aumentada con Recuperación (RAG), donde el conocimiento estático del modelo se enriquece con documentos específicos para tu caso de uso. Adesso implementa varias soluciones de GenAI que utilizan RAG para resolver las necesidades de nuestros clientes.

Sesgo en los modelos

El viejo adagio de la programación GIGO (Garbage-in, Garbage-out) también es válido para los LLM. Como muchos modelos también se entrenan con textos de décadas o incluso siglos de antigüedad, estereotipos perjudiciales sobre, por ejemplo, el género, pueden infiltrarse en las evaluaciones del modelo. En 2017, un equipo de investigadores de Microsoft descubrió que los modelos de lenguaje tienden a asociar profesiones lucrativas de ingeniería con hombres y trabajos domésticos y peor remunerados con mujeres (ver este trabajo). Si bien existen formas de abordar este problema utilizando procedimientos matemáticos que ajustan las representaciones matemáticas de texto para los LLM, todavía pueden generar respuestas sesgadas hacia ciertos grupos (ver aquí). Es alentador que la magnitud del sesgo parece disminuir con modelos más nuevos y más grandes.

Uso de lenguaje tóxico y respuestas inapropiadas

Los LLM son solo modelos matemáticos y, por lo tanto, a menudo no pueden distinguir qué respuestas se consideran "malas" o poco éticas según los estándares humanos. Un modelo puede dar respuestas "útiles" a indicaciones poco éticas ("¿Cómo puedo hackear mejor el WiFi de mi vecino?"). Para abordar este problema, una técnica llamada Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), donde el modelo es recompensado por finalizaciones de indicaciones deseadas y castigado por las no deseadas, puede aliviar este problema (ver aquí). En el aprendizaje por refuerzo, un agente (el LLM) aprende nuevos comportamientos (parámetros actualizados) basados en la retroalimentación, o refuerzo, del entorno. Si está disponible, los humanos son los mejores jueces para castigar o recompensar a un modelo, pero hoy en día, existen LLM específicos para supervisar LLM más grandes y otorgar recompensas o castigos.

Alucinaciones

Los LLM se entrenan con grandes corpus de datos, pero pueden no distinguir entre hecho y ficción. Es importante que los profesionales de GenAI y el público en general se den cuenta de que GenAI se basa simplemente en patrones estadísticos en los datos de entrada y, a veces, puede generar contenido que suena plausible pero que es incorrecto. Este comportamiento se conoce como alucinación (ver aquí). La alucinación puede ocurrir porque los LLM tienden a generalizar en exceso a partir de los datos que han encontrado. Los LLM no tienen una comprensión real del contenido. Las soluciones a este problema en curso, que puede tener consecuencias perjudiciales si se difunde contenido inventado rápidamente, incluyen RAG con sistemas backend actualizados, RHLF u otras formas de auditoría humana, o entrenar el modelo con datos más precisos.

Direcciones futuras

GenAI es un área de desarrollo emocionante y puede beneficiar enormemente a las empresas y la sociedad civil. Algunas direcciones de investigación y desarrollos prometedores incluyen esfuerzos para hacer que GenAI sea más explicable para el público y los profesionales por igual: los modelos a menudo se perciben como cajas negras que generan contenido. Además, GenAI se ha expandido recientemente a otras modalidades, como video, audio e incluso películas completas. Los esfuerzos continuos para reducir el tamaño de los modelos y mejorar simultáneamente su eficiencia ofrecerán los mismos o mejores servicios a costos más bajos y con menor consumo de energía. Por último, nuevas herramientas especializadas que utilizan GenAI liberarán a los trabajadores de muchas tareas arduas y ampliarán el tiempo disponible para actividades más creativas y atractivas, abriendo una nueva era de productividad. En adesso, estamos emocionados de estar activamente comprometidos en esta nueva frontera.

Detalles de contacto
Autor Patrick Flege