Investigadores del Laboratorio de Inteligencia Artificial (CSAIL) del MIT han desarollado un algoritmo que ha aprendido a predecir sonidos, y es capaz de engañar a los humanos que los escuchan.
Cuando se muestra un clip de vídeo en silencio de un objeto siendo golpeado, el algoritmo puede producir un sonido para ese golpe que es lo suficientemente realista como para engañar a los espectadores humanos.
Esta ‘prueba de Turing para el sonido’ –una prueba de la habilidad de una máquina de exhibir un comportamiento inteligente similar, o indistinguible, del de un humano– representa mucho más que un inteligente truco de ordenador. Los investigadores prevén futuras versiones de algoritmos similares que se utilizan para producir automáticamente efectos de sonido para películas y programas de televisión, así como para ayudar a los robots a entender mejor las propiedades de los objetos.
“Cuando pasas el dedo por una copa de vino, el sonido refleja la cantidad de líquido que hay en su interior”, dice el estudiante de doctorado CSAIL Andrew Owens, autor principal en un próximo artículo que describe el trabajo. “Un algoritmo que simula tipo de sonidos puede revelar información clave acerca de las formas de los objetos y la naturaleza del material, así como la fuerza y el movimiento de sus interacciones con el mundo.”
El equipo utilizó el campo de la tecnología de “aprendizaje profundo”, que consiste en enseñar a los ordenadores a tamizar enormes cantidades de datos para encontrar patrones por su cuenta. Los enfoques de aprendizaje profundos son especialmente útile porque liberan a los científicos informáticos de tener que diseñar algoritmos a mano y supervisar su progreso.
El estudio se presentará a finales de este mes en la conferencia anual de Visión por Computador y Reconocimiento de Patrones (CVPR) en Las Vegas. Ha sido publicado en arxiv.org.
El primer paso para la formación de un algoritmo de producción de sonido es compilar sonidos para estudiar. Durante varios meses, los investigadores registraron cerca de 1.000 vídeos de 46.000 sonidos, que representan varios objetos siendo golpeados, raspados, y pinchados con una baqueta. (Se utilizó un muslo de pollo porque proporcionaba una manera coherente de producir un sonido.)
A continuación, el equipo aplicó esos vídeos a un algoritmo profundo de aprendizaje que deconstruye los sonidos y analiza su tono, volumen y demás características.
“Para predecir el sonido de un nuevo video, el algoritmo analiza las propiedades de sonido de cada fotograma de dicho vídeo y reproduce los sonidos más similares en la base de datos”, dice Owens. “Una vez que el sistema dispoe de esos bits de audio, se cosen juntos para crear un sonido coherente”.
El resultado es que el algoritmo puede simular con precisión las sutilezas de diferentes golpes. El tono no es problema tampoco, ya que puede sintetizar sonidos de tono bajo a otros agudos.
“Los enfoques actuales en Inteligencia Artificial sólo se centran en una de las cinco modalidades sensoriales, con investigadores de la visión que usan imágenes, investigadores del habla que usan audio, y así sucesivamente”, dice Abhinav Gupta, profesor asistente de la robótica en la Universidad Carnegie Mellon, que no participó en el estudio. “Este trabajo es un paso en la dirección correcta de aprender a imitar la forma en que lo hacen los humanos, mediante la integración del sonido y de la vista.”
Para poner a prueba el grado de realismo de los sonidos falsos, el equipo realizó un estudio en línea en sujetos que vieron dos vídeos de colisión: uno con el sonido grabado real, y otro con el propuesto por el algoritmo como si fuera el real.
El resultado: Los sujetos tomaron el sonido falso sobre el real dos veces más que un algoritmo de línea de base. Fueron particularmente engañados por materiales como hojas o suciedad que tiende a tener sonidos menos ‘limpios’ que, por ejemplo, madera o metal.
Además de eso, el equipo encontró que los sonidos materiales revelaron aspectos clave de sus propiedades físicas, ya que el algoritmo pudo discernir entre sonidos de materiales fuertes y blandos el 67 por ciento de las veces.
Comentarios recientes