A palabras necias

Un debate en torno de la inteligencia artificial revive un problema muy antiguo: ¿Pueden las palabras dar cuenta del mundo? ¿Es el lenguaje suficiente para representar la realidad?

Rhoda, el alter ego de Virginia Woolf en Las Olas, cena con sus amigos para despedir a Percival antes de un largo viaje. Todos cambian anécdotas con el homenajeado, ríen, chocan las copas, participan de un ritual que es familiar para cualquiera menos para Rhoda, que percibe la escena con una precisión alucinante, se aferra a los objetos que tiene enfrente, toca el mantel y el cuchillo, pero no logra poner en palabras el significado de la noche que la rodea. “No puedo hacer que un momento se fusione con el siguiente. Para mí son todos violentos, todos separados”, sufre. Experimenta el mundo como un conjunto de elementos dispersos y en el momento mismo en que lo verbaliza, en que le da forma a un narrador separado del mundo, siente que construye un relato ajeno. Lo que le pasa a Rhoda no debería resultar extravagante. Cualquiera que haya tenido que explicar a un amigo cómo está, probablemente haya fracasado en el intento de darle cohesión y sentido a una masa amorfa de emociones y recuerdos recientes sin procesar, dando una respuesta que recopila los hechos sin llegar ni de cerca a describir la experiencia.

Bernard, en cambio, se para en la vereda opuesta. En la misma cena, proyecta en la partida de Percival un momento canónico en sus vidas que será recordado. “Finjamos que la vida es un globo que giramos entre nuestros dedos. Finjamos que podemos distinguir una historia clara y lógica”. Para Bernard el todo es más que la suma de las partes y la experiencia es aquello que somos capaces de narrar.

Un siglo después, en el maravilloso mundo de Silicon Valley, Yann LeCun revive la polémica. Yann fue director del departamento de inteligencia artificial de Meta (hasta irse enojado con Zuckerberg y fundar su propia empresa) con un largo track record de investigación en la frontera del conocimiento que le valió el premio Turing (el Nobel de la informática). Es responsable de muchos avances en el mundo de los modelos de lenguaje que Meta sigue publicando open source con su modelo Llama. Sin embargo, en los últimos tiempos se cansó de repetir que los LLM ya no tienen nada nuevo que aportar. Podrán volverse marginalmente mejores en la medida en que les tiremos más y más poder de cómputo, pero su principal problema (según LeCun) no es de escala sino de diseño: la inteligencia humana no se compone de palabras.

LeCun#

Yann siempre está un poco desaliñado, conserva un fuerte acento francés, habla rápido, sonríe mucho y detesta los consensos que considera equivocados. Es sarcástico, un poco insufrible y no tiene problema en responder al académico más renombrado o a un estudiante de primer año como iguales.

Abordó por primera vez las redes neuronales en su tesis de doctorado y en 1989, ya como parte del equipo de AT&T en Estados Unidos, desarrolló su principal aporte al campo de la inteligencia artificial: las CNN o redes neuronales convolucionales. A vuelo de pájaro, consisten en darle a la máquina un conjunto de datos y permitirle identificar por sí misma los patrones que se mantienen inmutables cuando todo lo demás se modifica. Son, por lo tanto, el santo grial para que la computadora entienda qué está viendo, escuchando, tocando.

Lo más importante del aporte de LeCun era también su talón de Aquiles. Las CNN funcionan sin intervención humana, actualizando sus propias redes neuronales para aprender cuáles son los datos importantes y adivinar lo que sigue. No había en esa época suficiente memoria para poder escalarlas y en cambio, para desgracia de Yann, se impusieron métodos más modestos con especialistas de carne y hueso que le indicaban al algoritmo qué tipo de patrones buscar y clasificar. No era el momento de los robots. Las redes convolucionales fueron dejadas de lado, consideradas un callejón sin salida en la academia y condenadas a un uso mucho más modesto: digitalizar millones de cheques y cartas, convirtiendo letras y números manuscritos en pixeles.

Más de veinte años después, en 2012, una CNN con el nombre de AlexNet ganaría el ImageNet Large Scale Visual Recognition Challenge al clasificar imágenes a la perfección. El corazón de AlexNet eran las redes de LeCun, que ahora volvía a ser considerado un pionero visionario, y lo que había cambiado en esos años no era otra cosa que la aparición de las GPUs (esas placas de video que hoy sostienen la economía mundial). Había demostrado que el camino a seguir para lograr inteligencia artificial con aplicación práctica era el aprendizaje automático. Aunque las especulaciones contrafácticas tienen mala prensa, podemos arriesgar que sin LeCun y las CNN hoy no habría ChatGPT.

Mapas de energía#

Reconocer qué es lo que cambia de un momento a otro no es lo mismo que entenderlo. ¿Cuáles son las leyes subyacentes a la realidad que nos rodea? Y aún más importante, en este caso, ¿cómo hacer que una máquina lo entienda?

Hoy la respuesta unánime de los gigantes tecnológicos coincide, sorprendentemente, con la de cualquier psicoanalista silvestre: a través del lenguaje. Construimos el mundo a través de las palabras, y por lo tanto el secreto de la inteligencia consiste en contar con un tren de pensamiento ordenado, una historia clara y lógica como fantaseaba Bernard, que traiga de nuestra base de datos inconsciente aquello que se encuentra oculto y desordenado. Es lo que hacen los modelos de lenguaje, adivinando las palabras correctas de a una para encadenar un relato que les permita accionar una tarea, sea escribir código, manejar un auto o cuidar a la abuela.

LeCun, en cambio, hace ya dos décadas propone una alternativa: los modelos basados en energía (EBM). La idea es (para variar) ambiciosa: en vez de pedirle al robot que relate lo que ve y a un humano que lo califique (como sucede al entrenar modelos de lenguaje), se lo entrena para que aprenda por sí mismo, a partir de su experiencia, los principios que guían el comportamiento de las cosas. En vez de leer en qué consiste la gravedad hasta poder repetirlo, el robot genera el código que explique que todo lo que sube, eventualmente tenga que bajar.

Supongamos que nuestra IA mirara todos los partidos de Messi. Un LLM como los que conocemos, analizaría cada punto de cada imagen y aprendería los contrastes de luz y sombra, la forma de la pelota, la expresión seria de Leo mirando el arco. Pero no tendría la menor idea de cómo funciona la parábola de un tiro libre. Si le diéramos la mitad de un tiro libre y le pidiéramos la siguiente escena, podría darnos una imagen completamente verosímil en la que la pelota de pronto se sale de su trayecto y vuelve hacia quien patea. Mientras la pelota siga siendo redonda y el pasto verde, el resultado es válido.

Un EBM, en cambio, generaría durante el entrenamiento expresiones matemáticas que expliquen lo que ve. Si la pelota se mueve en una parábola desde la zurda de Leo hasta el arco, hay leyes de la naturaleza que lo explican y nuestro modelo puede, sin conocerlas de antemano, intuir. Por supuesto, el modelo no sabría qué es la física, pero tampoco lo sabe un niño que aprende muy rápido, y sin necesidad de palabras, que cuando tira algo para arriba va a volver a caerse. O que si se corre al borde de la pileta, la pátina de agua bajo sus pies le va a jugar una mala pasada.

Cualquier niño de cuatro años lleva procesada unas 50 veces más información que los LLM más avanzados, sólo a través de sus sentidos. Es cierto, para tranquilidad de los lacanianos, que los niños no crecen en el vacío y están atravesados por el lenguaje. Pero pensemos en un gato saltando en un estante diminuto. Las contorsiones aéreas del animal para aterrizar con toda dignidad y sin tirar casi nada (o nada que a él le importe) constituyen un análisis inteligentísimo del espacio y de las fuerzas que lo gobiernan. Y el gato no tuvo que ir a la facultad de ingeniería ni escuchar a nadie que le explique cómo tiene que saltar. Entre lo que heredó y lo que aprendió a través de los sentidos le alcanzó para calcular cómo funcionan las cosas.

Modelos de mundo#

LeCun comparte la preocupación de todo Silicon Valley: llegar a la inteligencia artificial general. Esta es la palabra clave, repetida hasta el hartazgo, que las grandes tecnológicas le dan, sin saber bien qué es o con qué se come, a la idea de una máquina que pueda superar al ser humano en todo. En realidad, odia el término desde su concepción. Su argumento, siempre polémico, es que los humanos tampoco somos inteligencias generales. Somos seres profundamente especializados a partir del aprendizaje por repetición. Mientras que cantidades inconmensurables de dinero y atención apuestan a que los modelos de lenguaje terminen por volverse un Dios artificial con una biblioteca infinita, él sostiene que deberíamos estar construyendo modelos basados en energía (EBM) que comprendan las leyes subyacentes de tareas específicas para poder transformar el entorno como nosotros queramos, sin decir una palabra. A estos les llama modelos de mundo (world models).

Como LeCun es matemático y no filósofo, sus razones son muy pragmáticas. La cantidad de información necesaria para resolver las tareas más concretas es tan grande que pensarla palabra por palabra es una locura. Los LLM se mueven en espacios discretos: entidades separadas y bien delimitadas, como los números enteros (1, 2, 3, 4) o el abecedario. Su único recurso para interpretar su entorno es dividirlo en trillones de pequeñas cajas bien etiquetadas y, por lo tanto, se vuelven un embudo incapaz de absorber la complejidad del mundo. A la hora de procesar datos visuales, auditivos, táctiles, la cantidad de cajas crece muy rápido hasta volverse improcesable, lo cual resulta en los bloopers a los que son sometidos los robots que supuestamente deberían revolucionar el trabajo humano, y terminan frustrándose con un lavaplatos. Los modelos de mundo, en cambio, se mueven en espacios continuos, como los números racionales (todos los que existen entre el 0 y el infinito, o entre el 10 y el 11), o todos los colores del arcoíris con sus tonos intermedios, o las variaciones de temperatura. Eso les permite ver más allá de aquello que puede ser definido y explicado y tomar lo real tal como es en vez de intentar ordenarlo artificialmente. Abren la puerta a inteligencias capaces de descubrir las sucesivas capas de complejidad que la realidad nos depara, sin tutoriales ni recetas, redescubriendo a su propia manera los secretos que nosotros mismos fuimos develando al crecer.

Vivir o contarlo#

Hasta ahora, los robots que venimos creando (y los que imaginamos para futuros muy cercanos) son espectaculares máquinas de narrar. Los límites de su lenguaje son los límites de su mundo. Como la de Macedonio Fernández en La ciudad ausente, novela de Ricardo Piglia, que con la voz de su esposa muerta recibe relatos y los transforma, multiplicando las historias que nos contamos sobre nosotros mismos y creando realidades paralelas, simulaciones en forma de texto, que compiten con la oficial. Los cyborgs cuyo cerebro digital esté construido sobre estas arquitecturas podrán pensar, cada vez que pongan la mesa un domingo, en todas las mesas de todos los domingos, en todas las anécdotas de sobremesa, con familias riendo y discutiendo a la vez y el ritual del diario y de la siesta. En la adolescente trasnochada que se levanta justo antes del almuerzo y en el abuelo que salió muy temprano a comprar el pan. Pero, quizás, se le escape lo mismo que a nosotros. Que alguien está triste porque el cielo está gris y el olor a humedad le hace sentir la pérdida de alguien que no está, y lo que verdaderamente necesita no es que la apuren a sentarse ni que la consuelen, en un trajín de palabras que nada le dicen, sino que todos se callen y la dejen en paz.

Percival muere durante su viaje. Bernard intenta narrar la tragedia, darle sentido describiendo una vida, con sus virtudes y azares. Envejece en esa búsqueda, se frustra, encuentra los límites del lenguaje para incorporar lo intangible pero, a su manera, atraviesa un duelo. Rhoda no tiene esa opción. Sin palabras, no hay duelo posible. La ausencia se vuelve intolerable y su mundo se desarticula por completo.

Hay partes de la vida para las que, por suerte, contamos con palabras para darle forma a lo que de otra manera sería intolerable. El lenguaje es, sin dudas, la mejor tecnología. Pero creer que aquella idea que podemos formular es una representación fiel del mundo y de nosotros mismos quizás sea un acto de soberbia que nos juegue en contra. Si nos damos la licencia de considerar al amor, por ejemplo, una forma de inteligencia (al menos de inteligencia humana) entonces tenemos que admitir que gran parte de él no se compone de palabras. Por supuesto, lo que entendemos por amor está sujeto a contextos culturales, pero hay algo primitivo que iguala lo que sentían Cleopatra por Antonio y Borges por Estela Canto. Lo mismo aplica a emociones mucho más mundanas, como el cansancio de haber trabajado todo el día y cómo nos traiciona al hacernos enojar con las personas que queremos. Comprender esto es fundamental para crear herramientas que nos entiendan y nos sean provechosas. Permitirle a las máquinas aprender por sí mismas, crear sus propios mitos hechos de números y matrices, puede ser la mejor forma de conseguir robots verdaderamente útiles, que sin tanta verborragia nos ayuden a arreglar nuestro propio desorden.