Cómo los bebés aprenden lenguaje: IA usa videos de niños para avanzar

El proceso de cómo los bebés adquieren el lenguaje ha sido objeto de debate, con teorías que van desde el aprendizaje asociativo hasta características innatas de la mente humana

Brenden Lake está estudiando cómo los niños aprenden el lenguaje. Con su hija Luna, su esposa e hijo.

dom 16 de junio de 2024 a las 20:45

Por Oliver Whang | The New York Times

Nos pedimos mucho cuando somos bebés. De alguna manera debemos pasar de masas sensoriales a comunicadores móviles, racionales y atentos en tan sólo unos años. Ha habido mucho debate sobre cómo logran esto los bebés. Algunos científicos han argumentado que la mayor parte de nuestra adquisición del lenguaje puede explicarse mediante el aprendizaje asociativo, ya que relacionamos los sonidos con la sensibilidad, de forma muy parecida a como los perros asocian el sonido de una campana con la comida. Otros dicen que hay características integradas en la mente humana que han moldeado las formas de todo lenguaje. Otros más dicen que los niños pequeños desarrollan su comprensión de nuevas palabras encima de su comprensión de otras palabras.

Este discurso avanzó hace poco, cuando Tammy Kwan y Brenden Lake llevaron moras de un tazón a la boca de su hija, Luna, de casi 2 años. Una cámara estaba sujeta a su gorrito.

“Babooga”, dijo, señalando las bayas. Kwan le dio el resto y la luz de una cámara parpadeó.

Durante una hora cada semana durante el año pasado, Lake, psicólogo de la Universidad de Nueva York cuya investigación se centra en la inteligencia humana y artificial, ha estado sujetando una cámara a Luna y grabando cosas desde su punto de vista mientras juega. Su objetivo es utilizar los videos para entrenar un modelo de lenguaje utilizando la misma información sensorial a la que está expuesto un niño pequeño. Espera crear mejores herramientas para comprender tanto la IA y nosotros mismos.

“Vemos esta investigación como estableciendo finalmente ese vínculo entre esas dos áreas de estudio”, dijo Lake.

Hay muchos retos en usar modelos de IA para entender la mente. Los dos son marcadamente diferentes. Los modelos multimodales y de lenguaje moderno —como GPT-4 de OpenAI y Gemini de Google— se ensamblan en redes neuronales con poca estructura incorporada y han mejorado como resultado de una mayor potencia computacional y mayores conjuntos de datos de entrenamiento.

Estos modelos pueden analizar pixeles en imágenes, pero no pueden saborear las bayas ni sentir hambre, tipos de experiencias de aprendizaje importantes para los niños.

Los investigadores pueden hacer todo lo posible para convertir en código todo el flujo sensorial de un niño, pero sin duda se pasarán por alto aspectos cruciales del fenómeno.

“Lo que estamos viendo es sólo el residuo de un aprendiz activo”, dijo Michael Frank, psicólogo de la Universidad de Stanford, en California, que ha estado tratando de capturar la experiencia humana en cámara. Su laboratorio está trabajando con más de 25 niños en todo EU, incluyendo a Luna, para registrar sus experiencias.

Los humanos tampoco somos simples receptáculos de datos, como lo son las redes neuronales, sino animales intencionales. Todo lo que vemos, cada objeto que tocamos, cada palabra que escuchamos se combina con las creencias y deseos que tenemos en el momento.

“Existe una relación profunda entre lo que intentas aprender y los datos que llegan”, dijo Linda Smith, psicóloga en la Universidad de Indiana. “Estos modelos simplemente predicen. Toman lo que se les ingresa y dan el siguiente mejor paso”.

En febrero, Lake y sus colaboradores crearon el primer modelo de IA entrenado en las experiencias de un niño. El modelo fue publicado en Science y a partir de 60 horas de video pudo relacionar diferentes momentos con palabras. Escriba “auto” y el modelo mostrará un video en primera persona del niño sentado en su asiento para auto.

Para Lake y otros, preguntas entrelazadas —¿Qué tan humano podemos hacer a la IA? ¿Qué nos hace humanos?— presentan la investigación más interesante. Tratar de responder a la primera pregunta, modelando las interacciones sociales, las intenciones y los prejuicios, recopilando imágenes de video de una cámara frontal, es acercarse a responder a la segunda.

“Si el campo puede llegar al punto en que los modelos se entrenan únicamente con los datos que vio un solo niño, y funcionan bien en un gran conjunto de tareas, eso sería un gran logro científico”, dijo Lake.

© 2024 The New York Times Company

Notas Relacionadas