El Tao de la Física: El micrófono visual: recuperando audio por medio de videos #nota140

Hay investigaciones científicas que parecen extraídas de una película del espía 007, James Bond. Imagina que ahora debes cuidar que dices porque una planta de ornato o una bolsa de papas te pueden delatar.

De cierto, que cuando hablas los objetos reciben las ondas sonoras y tienden a vibrar ―algunos más que otros. La tecnología más comercial es la que utiliza a las ventanas, que vibran al ritmo del sonido en el cuarto, mientras que un láser (por lo general infrarrojo) se refleja en su superficie y regresa a un sensor, donde comienza la reconstrucción del audio. Estos aparatos son afectivos. Pero ¿y sin ventanas se puede hacer algo parecido?, ¿qué tal analizar objetos que vibran pero son pésimos espejos?

Abe Davis (del MIT) y cuates han presentado un algoritmo, en Siggraph de este mes, para recuperar el audio de videograbaciones de bolsas arrugadas de papas que ligeramente vibran por el sonido de alrededor.

"Cuando el sonido alcanza un objeto, causa que el objeto vibre" Abe Davis explica en un video, "El movimiento de esta vibración crea una muy sutil señal visual que es usualmente invisible para el ojo desnudo. La gente no se da cuenta que la información está ahí.”

Los investigadores, financiados gracias al MIT, Microsoft y Adobe, recuperaron señales de audio analizando las diminutas vibraciones producidas por el sonido en una variedad de objetos: hojas de aluminio, la superficie del agua en un vaso, y las hojas de una planta de ornato. En uno de estos experimentos alguien recito el poema infantil: “Mary Had a Little Lamb” (María tiene un corderito) a través de las bocinas en un cuarto dentro de una bolsa de papas tirada en el suelo. El equipo fue capaz de recuperar la recitación usando solo el video de la bolsa filmada a 5 metros de distancia y a través de un vidrio a prueba de sonido.

Para extraer el sonido de la información del video, la frecuencia del video (el número de cuadros capturados por segundo) tiene que ser mayor que la frecuencia de la señal de audio. Las mejores cámaras de alta velocidad capturan 100 000 cuadros por segundo. Pero el equipo en sus experimentos utiliza una cámara que captura 6 000 cuadros por segundo. Incluso utilizando una cámara de smartphone que captura 60 cuadros por segundo, es suficiente para identificar el género del hablante, el número de hablantes, e incluso su identidad.

Y es que el equipo puede medir movimientos de alrededor de una décima de micrómetro. Eso corresponde a cinco milésimas de píxel. Cuando miras una imagen, usualmente un borde entre dos zonas diferentes (una azul y la otra roja, por ejemplo), y de la frontera en sí misma, el sensor de la cámara recibe entradas de ambos. Analizando cuadros sucesivos de video, se monitorea la variación entre los colores. Filtrando estos cuadros, y usando el algoritmo que combine la salida de los filtros, los investigadores pueden medir las fluctuaciones. Con lo que se infiere el sonido que alcanza al objeto en movimiento.

Imagen con el efecto
de obturador rodante

El equipo también ha producido una variación de su algoritmo para usarse en cámaras de video de baja velocidad y que usan sensores de "obturador rodante". Estos sistemas barren el cuadro a una fila a la vez. Es solo un problema cuando tratas de tomar la imagen de un movimiento rápido (como las hélices de un helicóptero). Este fallo en realidad es una ventaja para los investigadores. Las diminutas distorsiones en las orillas de los objetos en un video pueden contener información sobre vibraciones a altas frecuencias, que se pueden usar para recuperar la señal de audio.

Finalmente, Aquí dejo el video que muestra el proceso de extracción de audio de las vibraciones de una planta, una bolsa de papas, unos audífonos grabados envueltos, y otros objetos.