El MIT desarrolló una IA que puede localizar el lugar exacto de un sonido

Neurocientíficos del MIT desarrollaron un modelo informático que puede reconocer de dónde vienen los sonidos, igual de bien que lo hacen los humanos. Enterate más en ¡esta nota!

Una de las tantas funciones que cumple nuestro cerebro es reconocer sonidos particulares y saber de dónde vienen, ya que las ondas sonoras que llegan a nuestros oídos tienen intensidades diferentes y eso nos ayuda a identificar de qué dirección proviene la bocina de un auto, por ejemplo. Esta tarea, conocida como localización, también la podrá realizar una inteligencia artificial que desarrollaron investigadores del MIT.

Los neurocientíficos del MIT desarrollaron un modelo informático que también puede localizar sonidos. El modelo, que consiste en varias redes neuronales convolucionales, no solo realiza la tarea como nosotros, sino que también lucha de la misma manera que los humanos.

Ahora tenemos un modelo que puede localizar sonidos en el mundo real”, dijo Josh McDermott, profesor asociado de ciencias cerebrales y cognitivas y miembro del Instituto McGovern para la Investigación del Cerebro del MIT. “Y cuando tratamos al modelo como un participante experimental humano y simulamos este gran conjunto de experimentos en los que la gente había probado a los humanos en el pasado, lo que encontramos una y otra vez es que el modelo recapitula los resultados que se ven en las personas”, añadió McDermott.

Los hallazgos del nuevo estudio también sugieren que la capacidad de los humanos para percibir la ubicación se adapta a los desafíos específicos de nuestro entorno, dice McDermott, quien también es miembro del Centro de Cerebros, Mentes y Máquinas del MIT.

Tanto McDermott como el estudiante graduado del MIT Andrew Francl son los autores del artículo que detalla toda la investigación, el cual aparece en Nature Human Behavior.

Los científicos buscaron por mucho tiempo construir modelos informáticos que puedan localizar sonidos igual que lo hace el cerebro humano. Sin embargo, estos modelos a veces funcionan bien en espacios sin ruido de fondo, pero nunca en entornos del mundo real, con los ruidos y ecos que suele haber.

Para llegar a desarrollar un modelo de localización más sofisticado, los neurocientíficos recurrieron a las redes neuronales convolucionales. Este tipo de modelado artificial se utilizó ampliamente para modelar el sistema visual humano y, más recientemente, McDermott y otros científicos también comenzaron a aplicarlo a la audición.

Estas redes neuronales convolucionales se pueden diseñar con muchas arquitecturas diferentes, por lo que, para encontrar las que funcionarían mejor para la localización, el equipo del MIT usó una supercomputadora que les permitió entrenar y probar alrededor de 1500 modelos diferentes. Esa búsqueda identificó 10 que parecían los más adecuados para la localización.

Para entrenar a esos 10 modelos, los investigadores crearon un mundo virtual en el que pueden controlar el tamaño de la habitación y las propiedades de reflexión de las paredes. Usaron más de 400 sonidos (voces humanas, animales, máquinas y sonidos naturales), originados en algún lugar de una de esas salas virtuales, para alimentar a los modelos.

También, los investigadores se aseguraron de que la IA comenzara con la misma información proporcionada por los oídos humanos. Para hacer eso, los neurocientíficos simularon el efecto que tiene nuestro oído externo (con muchos pliegues que reflejan el sonido y alteran las frecuencias que ingresan al oído) y ejecutaron cada sonido a través de una función matemática especializada antes de ingresarlo al modelo de computadora.

Después de entrenar los modelos, los investigadores los probaron en un entorno del mundo real. Colocaron un maniquí con micrófonos en sus oídos en una habitación real y reprodujeron sonidos de diferentes direcciones, luego agregaron esas grabaciones a la IA. A la hora de pedirles que localizaran esos sonidos, los modelos actuaron de manera muy similar a los humanos. “Aunque el modelo fue entrenado en un mundo virtual, cuando lo evaluamos, podía localizar sonidos en el mundo real”, dijo Francl.

Los investigadores además demostraron que cuando dificultaron las tareas de localización, agregando varias fuentes de sonido reproducidas al mismo tiempo, el rendimiento de la IA disminuyó, simulando también los patrones de falla humanos en las mismas circunstancias.

A medida que se agrega más y más sonidos, se obtiene un patrón específico de disminución en la capacidad de los humanos para juzgar con precisión la cantidad de fuentes presentes y su habilidad para localizar esas fuentes”, explicó Francl. “Los seres humanos parecen estar limitados a localizar unas tres fuentes a la vez, y cuando realizamos la misma prueba en el modelo, vimos un patrón de comportamiento muy similar“.

Los investigadores ahora están aplicando este tipo de modelado a otros aspectos de la audición, como la percepción del tono y el reconocimiento del habla. Además, según McDermott, creen que también podría usarse para comprender otros fenómenos cognitivos, como los límites que tiene una persona a la hora de prestar atención o recordar.

Posteos relacionados

Jake Gyllenhaal sobre Road House: “usamos una nueva técnica en la que realmente se puede ver el impacto de un golpe en la cara y en el cuerpo”

Superman: James Gunn compartió la primera imagen de David Corenswet como Kal-EL

Doctor Who: te contamos todo lo que tenés que saber sobre el esperado regreso del personaje

1 comentario

Nikola: cómo es el nuevo androide que puede expresar emociones con movimientos faciales – Flipr 30 mayo, 2022 - 18:18
[…] “incorporar la psicología, la ciencia del cerebro, la ciencia cognitiva y la investigación de IA hacia una sociedad futura donde los humanos, la IA y los robots puedan coexistir de manera […]
Add Comment