Contenido creado por Gerardo Carrasco
Tecnología

Salado

Logran obtener sonido de videos sin audio, gracias a bolsa de papas fritas

Científicos del MIT logran obtener sonido ambiente desde filmaciones sin audio, analizando las vibraciones de una bolsa de papas fritas registrada en el video.

05.08.2014 14:46

Lectura: 4'

2014-08-05T14:46:00-03:00
Compartir en

Montevideo Portal

Investigadores del MIT, Microsoft y Adobe desarrollaron un algoritmo que puede reconstruir una señal de audio mediante el análisis de las vibraciones de los objetos grabados en vídeo. Hicieron un conjunto de experimentos con el que fueron capaces de recuperar conversaciones inteligibles gracias a las vibraciones de una bolsa de papitas que había sido grabada tras un cristal de insonorización.

También probaron el experimento con otras señales de audio e imágenes, como videos de papel aluminio, la superficie de un vaso lleno de agua o las hojas de una planta. Los investigadores mostrarán todos sus resultados en la conferencia Siggraph, a realizarse en breve.

Abe Davis, autor principal del estudio, y graduado en el MIT en eléctrica y Ciencias de la computación explica: "Cuando el sonido golpea un objeto, causa que el objeto vibre. El movimiento de esta vibración crea una señal visual muy sutil que es generalmente invisible al ojo humano. La gente no se da cuenta que esta información está allí", dijo en declaraciones recogidas por ABC.

En la investigación participan Frédo Durand y Bill Freeman, profesores de computación e ingeniería en el MIT, Neal Wadhwa, estudiante del MIT, Michael Rubinstein de Microsoft Research y Gautham Mysore de Adobe.

La reconstrucción de audio a partir de un video requiere que el número de fotogramas captados por segundos sea mayor que la frecuencia del audio. En algunos de sus experimentos, los investigadores utilizaron una cámara de alta velocidad que capturó entre 2.000 a 6.000 cuadros por segundo.

Mucho más rápido que la velocidad con la que se puede grabar en algunos móviles pero mucho menor que las mejores cámaras de a la velocidad del mercado que puede filmar por encima de los 100.000 cuadros por segundo.

Pero también utilizaron hardware cotidiano, como una cámara digital común. De hecho, lograron inferir información acerca de las vibraciones a partir de un video grabado a 60 cuadros por segundo. Aunque se puede reconstruir audio con cámaras de menor calidad, el sonido no suele ser tan fiel al real, pero señalan que se puede reconocer el sexo de la persona que habla o el número de participantes en una conversación. Eso sí, es necesario que la cámara grabe en modo "rolling shutter" (captura gelatina) que permite el registro de la imagen a través de la exploración de la toma.

"De Hollywood"

Davies califica este experimento como un "nuevo tipo de proyección de imagen". "Estamos recuperando sonidos de objetos. Eso nos da mucha información sobre el sonido alrededor del objeto, pero también nos da mucha información sobre el objeto en sí, porque diferentes objetos van a responder al sonido de diferentes maneras", expresó.

Según los objetos medidos, los movimientos que logran captar las cámaras y que luego se reconstruyen medían una décima parte del micrómetro. Eso quiere decir, a cinco milésimas de un píxel de una imagen de primer plano.

No es nueva la técnica de "levantar" audio a través de vibraciones. Ya los espías en los años 70 usaban esta técnica con micrófonos externos láser, que se usan para reconstruir audio en base a micromovimientos. Por eso la Casa Blanca tiene ventanas a prueba de vibración para evitar este tipo de registro. Sin embargo, este tipo de reconstrucción se tiene que realizar en el momento que se graba, en esta nueva técnica se puede reconstruir el audio a partir de imágenes de archivo.

"Somos científicos y a veces vemos estas películas, como James Bond, y pensamos, ‘esto es teatro de Hollywood. No es posible hacerlo. Esto es ridículo'. Y de repente, ahí lo tienen. Esto está totalmente sacado de un thriller de Hollywood. ¿Sabes que el asesino ha admitido su culpabilidad porque hay imágenes de vigilancia de su bolsa de patatas fritas vibrante?", cuenta Alexei Efros, profesor asociado de ingeniería eléctrica y Ciencias de la computación en la Universidad de California en Berkeley, quien espera que se puede hace un buen uso de esta técnica.

Montevideo Portal