Sistemas de IA que pueden aprender como lo hacen las personas

Por: Jean Remi King (investigador científico), Charlotte Caucheteux (asistente de investigación), Théo Desbordes (asistente de investigación) y Alexandre Défossez (investigador científico)

La inteligencia artificial (IA) ha logrado avances impresionantes en los últimos años, pero aún está lejos de aprender el lenguaje con la misma eficacia que los humanos. Por ejemplo, los niños aprenden que «naranja» se refiere tanto a una fruta como a un color a partir de unos pocos ejemplos, pero los sistemas modernos de IA no pueden hacerlo con tanta eficacia como las personas. Esto ha llevado a muchos investigadores a preguntarse: ¿Puede el estudio del cerebro humano ayudar a construir sistemas de IA que puedan aprender y razonar como las personas?

Hoy, Meta AI anuncia una iniciativa de investigación a largo plazo para comprender mejor cómo el cerebro humano procesa el lenguaje. En colaboración con el centro de neuroimagen NeuroSpin (CEA) y INRIA, haremos una comparación de cómo los modelos lingüísticos y el cerebro responden a las mismas oraciones orales o escritas. Usaremos los conocimientos de este trabajo para orientar el desarrollo de la IA que procesa la voz y el texto con la misma eficacia que las personas. En los últimos dos años, aplicamos técnicas de aprendizaje profundo a conjuntos de datos públicos de neuroimagen para analizar cómo el cerebro procesa las palabras y oraciones.

Varias instituciones académicas, que incluyen al Instituto Max Planck de Psicolingüística y a la Universidad de Princeton, recopilaron y compartieron los conjuntos de datos. Cada institución recopiló y compartió los conjuntos de datos con el consentimiento informado de los voluntarios de acuerdo con las políticas legales aprobadas por sus respectivos comités éticos, incluido el consentimiento de los participantes en el estudio.

Nuestra comparación entre los cerebros y los modelos lingüísticos ya generaron conocimientos valiosos:

• Los modelos lingüísticos que más se asemejan a la actividad cerebral son aquellos que predicen mejor la próxima palabra a partir del contexto (por ejemplo, “érase una… vez”). La predicción basada en entradas parcialmente observables es el centro del aprendizaje auto-supervisado en la IA y puede ser la clave de cómo se adquiere el lenguaje.

• Sin embargo, descubrimos que regiones específicas en el cerebro descifran palabras e ideas con mayor anticipación, mientras que la mayoría de los modelos lingüísticos actuales suelen estar entrenados para predecir la siguiente palabra. Habilitar esta capacidad de previsión de gran alcance podría ayudar a mejorar los modelos lingüísticos modernos de IA.

Por supuesto, solo tenemos una idea superficial: todavía hay muchas cosas que no entendemos sobre el funcionamiento del cerebro y nuestra investigación continúa. Ahora, nuestros colaboradores en NeuroSpin están creando un conjunto original de datos de neuroimagen para ampliar esta investigación. Abriremos el conjunto de datos, los modelos de aprendizaje profundo, el código y los artículos de investigación resultantes de este esfuerzo para estimular los descubrimientos en las comunidades de inteligencia artificial y neurociencia. Todo este trabajo es parte de las descifran palabras e ideas con mayor anticipación que aprenda con una supervisión limitada o nula.

Utilizando aprendizaje profundo para analizar señales cerebrales complejas

Nuestro trabajo forma parte del esfuerzo más amplio de la comunidad científica de usar la IA para comprender mejor al cerebro. Históricamente, los neurocientíficos se enfrentaron a grandes limitantes al analizar las señales cerebrales, sin contar las que se pueden sumar al compararlas con modelos de inteligencia artificial. Estudiar la actividad neuronal y obtener imágenes cerebrales es un proceso que requiere mucho tiempo y recursos, así como maquinaria pesada para analizar la actividad neuronal, que suele ser poco clara y ruidosa. El diseño de experimentos lingüísticos para medir las respuestas cerebrales de una forma controlada también puede ser complejo. Por ejemplo, en los estudios de lenguaje clásicos, las oraciones deben coincidir en complejidad y las palabras deben coincidir en frecuencia o número de letras, para permitir una comparación significativa de las respuestas cerebrales.

El auge del aprendizaje profundo, en el que múltiples capas de redes neuronales trabajan juntas para aprender, está mitigando rápidamente estos problemas. Este enfoque resalta dónde y cuándo se generan en el cerebro las representaciones perceptivas de palabras y oraciones cuando un voluntario lee o escucha una historia.

Los sistemas de aprendizaje profundo requieren muchos datos para garantizar precisión. Los estudios de Imagen por resonancia magnética funcional (fMRI) captan solo algunas instantáneas de las actividades cerebrales, normalmente a partir de una muestra de tamaño pequeño. Para afrontar la gran cantidad de datos que requiere el aprendizaje profundo, nuestro equipo no solo modela miles de escaneos cerebrales registrados a partir de conjuntos de datos públicos mediante fMRI, sino que también los modela simultáneamente a través de magnetoencefalografía (MEG), un escáner que toma instantáneas de la actividad cerebral cada milisegundo, más rápido que un parpadeo. En combinación, estos dispositivos de neuroimagen proporcionan los grandes volúmenes de datos de neuroimagen necesarios para detectar dónde y en qué orden se producen las activaciones en el cerebro. Esto es clave para analizar el algoritmo de la cognición humana.

En varios estudios descubrimos que el cerebro está organizado de forma sistemática en una jerarquía que es sorprendentemente similar a los modelos de IA (aquí, aquí y aquí). Por ejemplo, los lingüistas predicen desde hace mucho que el procesamiento del lenguaje se caracteriza por una secuencia de cálculos sensoriales y léxicos, antes que las palabras puedan combinarse en oraciones con sentido. Nuestra comparación entre los modelos de aprendizaje profundo y el cerebro validan con precisión esta secuencia de cálculos. Al leer una palabra, el cerebro primero produce representaciones que son similares a las redes convolucionales profundas entrenadas para reconocer caracteres en las primeras cortezas visuales. Luego, en toda la jerarquía visual, estas activaciones cerebrales se transforman en representaciones léxicas similares a las incrustaciones de palabras. Por último, una red cortical distribuida genera representaciones neuronales que se correlacionan con las capas intermedia y final de los modelos de lenguaje profundo. Las herramientas de aprendizaje profundo permitieron aclarar la jerarquía del cerebro de una forma que antes no era posible.

Predecir más allá de la siguiente palabra

Una comparación sistemática entre decenas de modelos de lenguaje profundo muestra que mientras mejor predicen las palabras a partir del contexto, más se correlacionan sus representaciones con el cerebro. Descubrimos esto luego de analizar las activaciones cerebrales de 200 voluntarios en una simple tarea de lectura. Un equipo del Instituto Tecnológico de Massachusetts hizo un descubrimiento similar de forma independiente una semana después del nuestro, lo que valida aún más esta interesante dirección. Estos estudios similares garantizan que la comunidad de la IA va por buen camino con el uso de aprendizaje auto-supervisado hacia una IA de nivel humano.

Pero encontrar similitudes no es suficiente para entender los principios de la comprensión del lenguaje. Las diferencias computacionales entre las redes neuronales biológicas y las artificiales son clave para mejorar los modelos actuales y construir nuevos modelos lingüísticos más inteligentes. Recientemente, revelamos pruebas de la existencia de predicciones de gran alcance en el cerebro, una capacidad que aún desafía a los modelos lingüísticos actuales. Por ejemplo, consideremos la frase «Érase una…». La mayoría de los modelos lingüísticos actuales suelen predecir la siguiente palabra, «vez», pero su capacidad de anticipar ideas complejas, tramas y narraciones, como hacen las personas, sigue siendo limitada.

Para explorar este problema, junto con INRIA, comparamos una variedad de modelos lingüísticos con las respuestas cerebrales de 345 voluntarios, que escucharon narraciones complejas mientras se grababan con fMRI. Mejoramos esos modelos con predicciones de gran alcance para hacer un seguimiento de las previsiones en el cerebro. Nuestros resultados muestran que regiones específicas del cerebro, como las cortezas prefrontal y parietal, son las que mejor se explican mediante modelos lingüísticos mejorados con representaciones profundas de palabras lejanas en el futuro. Estos resultados aclaran la organización computacional del cerebro humano y su naturaleza intrínsecamente predictiva y allanan el camino hacia la mejora de los modelos de IA actuales.

Hacia una IA de nivel humano

En general, estos estudios respaldan una posibilidad interesante: existen, de hecho, similitudes cuantificables entre los cerebros y los modelos de IA. Y estas similitudes pueden ayudar a generar nuevos conocimientos sobre cómo funciona el cerebro. Esto abre nuevas posibilidades, en las que la neurociencia orientará el desarrollo de una IA más inteligente y, a su vez, la inteligencia artificial ayudará a descubrir las maravillas del cerebro.