Alguien se aproxima | Blas Payri

Relato sonoro basado en El Horla de Maupassant, con la voz de Fidel Almansa (protagonista) y José Nieto (interlocutor).

Una exploración del sonido biaural 3D a través de la narración sonora

El sonido 3D, también llamado sonido holofónico, sonido binaural o biaural, es una técnica de reproducción del sonido espacializado que recrea la percepción espacial del oído humano y permite percibir el sonido en las diferentes direcciones: delante-detrás, izquierda-derecha y arriba-abajo. Requiere una escucha por auriculares de sonido grabado con una técnica binaural o procesado con un filtrado binaural llamado HRTF (human related transfer function) (Hammershøi & Møller 2005).

Esta técnica se ha ido desarrollando desde hace décadas (Blauert 1997) pero conoce actualmente un auge por la disponibilidad comercial de micrófonos binaurales (Soundman OKM, Cabezas artificiales de Neumann…) y también de software de espacialización 3D del sonido como el Binaural Panner de Logic Pro (Payri 2010; Apple 2013a, 2013b), o el Spat del Ircam (2012).

Un elemento esencial es la utilización de auriculares con los dispositivos portátiles actuales que hacen que se pueda utilizar el sonido 3D en un amplio abanico de productos musicales y audiovisuales, introduciendo realmente el sonido envolvente con más riqueza espacial que el clásico estéreo.

El énfasis de la investigación se ha centrado en aspectos psicofísicos como la localización, los ángulos mínimos de separación de fuentes, y la fiabilidad de la percepción espacial en función de los tipos de estímulo sonoro, utilizando condiciones de laboratorio tanto en la fabricación de los estímulos (sonidos sintéticos calibrados), como las condiciones de escucha (sonidos aislados que aparecen durante una duración determinada) que no tienen relación con la escucha en condiciones reales, o las condiciones de mezcla de cualquier producto audiovisual (ver revisión en Cengarle 2012; Rodríguez Mariño 2011).

La práctica profesional en grabación y mezclas de sonido y música, por otra parte, ha llevado a una serie de conocimientos empíricos y reglas generalmente implícitas sobre el modo de procesar los elementos sonoros y que se desarrollan de manera aislada respecto a las investigaciones psicoacústicas. En el caso del sonido 3D binaural, estas reglas empíricas están todavía por establecer dada su novedad. La disponibilidad reciente de la tecnología binaural, conlleva un uso creciente en los siguientes campos:

grabación de ambientes: la grabación binaural para ambientes/paisajes sonoros conoce un auge por su capacidad para ser reproducida como un fichero estéreo clásico o como sonido 3D guardando una gran calidad de reproducción (Avni et al. 2013). Por ejemplo la base de sonidos www.freesound.org dispone de unas 1800 grabaciones etiquetadas como binaurales.
arte sonoro, soundscape: por su capacidad de inmersión y las ventajas mencionadas para la grabación de ambientes, el sonido binaural se utiliza también en la exploración artística del paisaje sonoro.
grabación musical: la técnica binaural se ha ido introduciendo por su capacidad de inmersión, restitución del espacio y mejor separación de las fuentes sonoras, aunque todavía es incipiente en el mercado.
el espacio como recurso en composición musical electroacústica: la música electroacústica utiliza la espacialización multicanal como elemento expresivo en la difusión (Vande Gorne 2002; Otondo 2007, 2008; Payri 2010, 2008a, 2008b). Esta espacialización puede ser codificada como sonido binaural 3D para reproducción por auriculares, y hay colecciones de CDs que utilizan esta técnica (e.g. Empreintes Digitales). El espacio puede estar directamente utilizado como elemento de la composición.
uso narrativo y expresivo del espacio 3D en relatos sonoros y audiovisuales (Boldt et al. 2013; Gampe 2009; Mariette 2013): existen relatos sonoros que utilizan la espacialización binaural como elemento esencial en la narración, siendo “Virtual Barber Shop Hair Cut – 3D Sound” () el ejemplo prototípico, donde el guión sirve básicamente para demostrar la eficacia de los efectos sonoros, utilizando fuentes sonoras muy puntuales así como la distancia al micrófono (auricularización subjetiva muy marcada). La ficción sonora radiofónica actual, que vuelve a resurgir como género, suele utilizar recursos y modos de producción propios de las décadas doradas de la ficción radiofónica, sin tener en cuenta todo el poder expresivo del espacio sonoro. También se está explorando el uso del sonido 3D en productos audiovisuales, en particular en juegos de vídeo donde seguimos al personaje en visión subjetiva. Para delimitar el campo de investigación, este proyecto se centra principalmente en la percepción sonora.

https://www.youtube.com/results?search_query=the+virtual+barber+shop
The Virtual Barber Shop Hair Cut: ejemplos efectistas de sonido 3D.

Grabación real de un corte de pelo utilizando micrófonos binaurales en la cabeza de Blas Payri

Página de Blas Payri en freesound.org con numerosas grabaciones binaurales https://freesound.org/people/bpayri/

En el marco del máster en postproducción digital de la Universitat Politécnica de València, se han dirigido varios trabajos en los que se explora el uso del sonido binaural y la relación entre la imagen y el sonido (distancia, posición) o de las mezclas musicales o audiovisuales (Rodríguez Mariño 2011; Sanz Garijo 2011; Fernández Aznárez 2013; Roszko 2013; Mahé Duque 2011; Navarro Aguado 2014).

Con el fin de explorar el uso del sonido 3D más allá de la demostración efectista, se ha realizado una ficción sonora, Alguien se aproxima http://bpayri.blogs.upv.es/creacion-sonora/alguien-se-aproxima/ basada en el relato El Horla de Guy de Maupassant, en la que todos los elementos sonoros han sido grabados con micrófonos binaurales colocados en el pabellón auditivo de los personajes, utilizando espacios naturales con su reverberación y creando el espacio y el movimiento con el desplazamiento real de los personajes. La meta es la realización de una ficción sonora con un interés narrativo, donde prime la trama del relato sobre el efecto, para entender las aplicaciones fuera del efecto de sorpresa del sonido 3D.

El Horla: del diario al estilo dialogado

En el cuento de El Horla, Guy de Maupassant utiliza el recurso de un diario en el que el narrador-protagonista va contando en primera persona los acontecimientos que ocurren: un ser invisible y todopoderoso va invadiendo la voluntad del protagonista y va absorbiendo su vida. El protagonista se ve obligado a cometer acciones en contra de su voluntad y se ve invadido por una angustia creciente. Maupassant tiene la habilidad de nunca dejar del todo claro si se trata de una pura alucinación esquizofrénica del protagonista o si en realidad existe ese ser invisible, el Horla. Precisamente, el hecho de que el Horla sea un ser invisible permite que una ficción sonora insista sobre la ambigüedad de la existencia de ese ser, ya que toda la representación es acusmática (la situación de escucha acusmática es cuando se oye el sonido sin ver la causa de su origen, Chion 2012 §84) y la imagen no tiene que tomar partido sobre lo que representa.

El relato en forma de diario suele dar lugar en las obras audiovisuales a una voz-pensamiento, que corresponde a un monólogo interior con un tono vecino pero no igual a la voz-texto. Respecto al Horla, Neefs (1980) comenta que “el diario no se encierra en la intimidad de una reflexión, pero se ofrece como despellejado hacia la ausencia de una conciencia próxima capaz de estar de acuerdo” e insiste sobre el hecho de que la narración en El Horla va más dirigida hacia un lector del diario, intentando convencerlo, que hacia sí-mismo. Por eso este relato se puede realizar utilizando diferentes modos de voz, desde la voz pensamiento que sería lo más obvio para reflejar los pensamientos que se van escribiendo en el diario, hasta una voz dialogada hacia un interlocutor implícito.

En la adaptación de Alguien se aproxima, se ha utilizado el recurso del interlocutor implícito al que habla al protagonista para dar pie a una puesta en escena sonora del texto, y utilizar el estilo del monólogo interior puntualmente, junto con el resto de recursos que se exploran en el relato. Pero es muy importante clarificar que lo esencial de la información del relato pasa a través de la narración del personaje, y no se representa “teatralmente”: la narración verbal (diégesis en el sentido de Aristóteles) predomina sobre la representación (mímesis) de la acción (Payri 2014). La teatralización sonora sirve para dar vida al locutor y sus estados de ánimo, no para representar lo narrado. De hecho, los resultados científicos muestran que la actividad cortical para los sujetos que escuchan un ficción sonora sugieren que los sonidos de la diégesis se procesan en dos redes separadas, una dedicada al procesamiento del habla, y otra que se dedica al procesamiento de todos los sonidos (incluyendo la voz) como fuentes sonoras (Boldt et al. 2013): un relato basado únicamente en un monólogo grabado en estudio (sin una “corporeización” sonora) dejaría de lado una parte de las capacidades de procesamiento del sonido.

Auricularización, modo de escucha y modo de locución

Para poder nombrar los diferentes recursos es necesario adaptar o precisar los términos que suelen utilizarse para el sonido audiovisual. Por ejemplo Chion (2012 §55) define el habla texto de manera un poco ambigua, refiriéndose tanto al valor iconógeno de la narración hablada, al valor en sí del texto que se está hablando, pero indica que suele corresponder a la voz en off de la narración pero también puede pertenecer a un personaje en acción.

Preferimos separar el modo de locución o tono (tono de diálogo, monólogo, lectura, discurso, declamación …) que está relacionado con las instrucciones que se indican al actor, de la auricularización y/o punto de escucha, que tiene que ver con la manera en que se graba y se procesa el sonido, y donde interviene precisamente esta exploración del sonido biaural.

La auricularización (que corresponde a la ocularización en la imagen según los términos de narrativa audiovisual) se refiere al punto de escucha desde el que oímos una escena, particularmente cuando ese punto de escucha se hace obvio para el oyente y forma parte de la narración (Payri 2014b). Podemos proponer estas categorías generales:

auricularización exterior, donde los micrófonos se sitúan en un punto de la sala o en el interlocutor y se graba la voz como se oiría en esa sala. Es el modo por defecto.
auricularización subjetiva, donde los micrófonos se sitúan sobre el locutor, y se graba la voz tal y como el locutor se oye a sí mismo y al entorno.
voz/sonido de proximidad (voz al oído, voz en la nuca) que es posibilitada por la utilización de auriculares en la escucha combinada con la grabación binaural. Este efecto es muy expresivo y eficaz narrativamente, aunque puede resultar en un recurso-gadget.
auricularización interior: sonido monofónico dentro de la cabeza. Este caso de auricularización sólo se puede dar con una escucha con auriculares y corresponde con lo que definimos como voz-pensamiento (Payri 2009, 2014) y que guarda relación con lo que Chion define como voz-yo (2012 §56).

Se analizan pues las nuevas posibilidades de auricularización, haciendo referencia a algunos resultados de la literatura psicoacústica, e indicando las limitaciones perceptivas (y por consiguiente narrativas) en cuanto a la distinción de los niveles de auricularización por el oyente. Se reflexiona sobre las ventajas de creación de la espacialización binaural en postproducción respecto a la grabación.

Auricularización del locutor

En el momento de la grabación de la escena, el locutor lleva puestos los micrófonos biaurales, con lo que lo que oímos es realmente la escucha subjetiva del locutor, y estamos oyendo “en primera persona”. Lo que además introduce la grabación biaural es la posibilidad de oír la voz del locutor tal y como se oye a sí mismo: como anécdota personal, las primeras grabaciones biaurales que realicé y en las que aparece mi propia voz me sorprendieron porque precisamente reconocía mi propia voz (tal y como me oigo) lo que no suele ser completamente el caso cuando oigo mi voz grabada con técnicas habituales.

Una de las cuestiones importantes es saber si un oyente cualquiera va a poder discernir entre la auricularización del locutor respecto a una auricularización externa, y para eso planeamos hacer estudios de percepción. Nuestra hipótesis basada en la escucha de grabaciones es que no hay unos indicios suficientemente claros que distingan a la auricularización del locutor (subjetiva) con lo que su efecto narrativo es limitado y no se puede basar la narración en la percepción de este recurso de grabación.

En Alguien se aproxima, encontramos la auricularización del locutor en la primera intervención de la voz y precisamente la obra juega con la posible esquizofrenia del protagonista, pasando del punto de escucha del protagonista-narrador al punto de escucha externo (del interlocutor).

Alguien se aproxima: extracto de auricularización del locutor.

Auricularización externa

En el audiovisual solemos tener una auricularización “neutra” en la que la voces se oyen como si el micrófono estuviese en un lugar indefinido de la escena de modo que las voces suenan todas como a distancia de conversación. En el caso del binaural se puede utilizar una posición “neutra” del punto de grabación, y en el caso concreto de Alguien se aproxima, se ha utilizado la grabación con la cabeza del interlocutor (implícito) y una distancia de conversación habitual.

Alguien se aproxima: extracto de auricularización externa.

Auricularización externa marcada

En este caso se vuelve a utilizar el punto de escucha del interlocutor pero haciendo variar la distancia y marcando desplazamientos del locutor. Al estar además grabado en una sala con bastante reverberación, los cambios sonoros se acentúan. Igualmente se marca las variaciones de distancia en un sonido ambiente de exterior, donde el viento y otros elementos van cambiando de intensidad respecto a la voz según la distancia de los interlocutores.

En este caso, es importante disponer de un actor con una buena articulación para que la inteligibilidad no disminuya: en el caso de Alguien se aproxima, el actor Fidel Almansa tiene una formación y una larga trayectoria como actor de teatro y por consiguiente tiene un control importante sobre la proyección de la voz y la articulación.

Alguien se aproxima: extracto de auricularización externa marcada.

Voz de proximidad

Esta voz es grabada susurrando cerca de la oreja o de la cabeza que lleva los micrófonos biaurales. La sensación de proximidad es muy marcada para el oyente esencialmente por la utilización de auriculares, que al estar próximos al oído del oyente restituyen mucho más marcadamente la proximidad que unos altavoces.

En la voz de proximidad, también aumenta la agudeza de la localización, y de hecho los montajes sonoros de “demostración” de los efectos binaurales suelen utilizar sonidos próximos por su espectacularidad y la sensación de realmente tener algo que nos está tocando al escuchar la grabación. Este efecto funciona muy bien y puede ser utilizado para sobresaltar o sorprender al oyente.

Alguien se aproxima: extracto de voz de proximidad.

Auricularización de voz transmitida: teléfono

Al grabar el sonido transmitido por teléfono directamente por micrófonos biaurales se obtiene un filtrado real, una distancia real y un acercamiento hacia el teléfono mientras suena el timbre, y el proceso de descolgar y contestar lo que crea un naturalismo muy marcado. Como anécdota, la primera grabación que realicé con los micrófonos binaurales se vio interrumpida por una llamada al móvil: al volver a escuchar la grabación fortuita de la llamada me sorprendió el realismo de ese recurso tan fácil de conseguir. En alguien se aproxima se oye pues la voz del protagonista a través del punto de escucha del interlocutor implícito grabada a través de una llamada telefónica real.

Alguien se aproxima: extracto de voz transmitida por teléfono.

Superposición de diégesis

El único momento donde se representa la acción (sonidos de puertas y cerrojos metálicos) se superpone con la narración/explicación de esa acción (el protagonista indica que ha instalado persianas metálicas para apresar al Horla). Se han utilizado lugares con acústicas diferentes y distancias al micrófono diferentes para grabar cada escena, y la acústica (respuesta de sala) de cada lugar hace diferenciar los dos espacios superpuestos, con lo que superponemos dos diégesis citar de manera inteligible para el oyente. Este recurso está relacionado con lo que Chion llama la voz iconogénica (2012 §57) que es la que parece generar las imágenes mostradas en pantalla en el producto audiovisual. En este caso podemos considerar una similaridad con la voz iconogénica aunque la representación de los descrito sea sonora y no visual. Por oposición, la voz o narración no-iconogénica (Chion 2012 §59) corresponde a un relato en el que vemos al narrador y a sus oyentes pero ninguna imagen ilustra la narración: Chion comenta que este tipo de relato corresponde al “momento de la verdad”, donde lo que cuenta es la explicación que por fin nos dan de lo ocurrido.

Alguien se aproxima: extracto con superposición de diégesis.

Voz-pensamiento

Chion define la voz-yo (2012 §56) de manera similar a lo que definimos como voz-pensamiento (Payri 2009, 2014): una voz que representa a los pensamientos del personaje, que suele sonar en un espacio anecoico y con cercanía al micrófono. En el caso del relato sonoro, se ha utilizado una grabación monofónica (aunque utilizando el mismo tipo de micrófono que los binaurales) grabado en cercanía en un espacio no reverberante. El sonido monofónico escuchado a través de auriculares genera el sonido “dentro de la cabeza”, lo que corresponde más fielmente a la voz-pensamiento. Un sonido puramente monofónico por auriculares suele considerarse casi como un defecto, que en este caso es un recurso narrativo más.

Alguien se aproxima: extracto de voz-pensamiento

Conclusiones

Con esta aproximación a las aplicaciones del sonido 3D biaural a través de la realización de un relato sonoro, constatamos que las grabaciones biaurales aportan una mayor definición espacial y mejor restitución de los espacios, inmersión, naturalidad y una excelente reproducción de distancia y lateralidad. Esto permite una mayor expresividad general, y en particular añade el efecto expresivo de proximidad y una mayor inteligibilidad y correcta restitución gracias al uso de auriculares.

La cuestión es si estas ventajas del binaural pueden reflejarse en nuevos recursos narrativos sonoros, que sean inmediatamente interpretables por los oyentes. Podemos considerar que la indefinición del sonido, lo que Michel Chion llama “flou narratif” (borroso narrativo) del sonido acusmático (2012, §86) hace que la comprensión de la escena siempre es mucho más parcial con sonido que con la adjunción de la imagen:

“La plupart du temps, un son ne donne par lui-même qu’une information faible ou floue, voire dans certains cas nulle, sur sa cause – ce qui permet, dès lors qu’il est acousmatique et non-identifié, de créer des énigmes acousmatiques et des devinettes sonores. D’autre part, des événements ou causes très différents peuvent créer des sons très voisins, voire identiques. Le flou narratif n’est donc pas imputable, ou pas seulement, aux capacités limitées de détection de notre é́coute” (Chion 2012 § 86)

El borroso narrativo puede aplicarse no solamente a la comprensión de la causa (escucha causal) sino también a la localización y el espacio de la escena (escucha espacial) (Payri 2014b) , y en particular los modos de auricularización nunca van a tener la precisión que pueda tener la imagen. Es necesaria, pues, una investigación de tipo experimental sobre la percepción de las escenas sonoras (auricularización, superposición de diégesis). Un análisis subjetivo de Alguien se aproxima, tiende a indicar que el sonido binaural enriquece el relato sonoro clásico, pero aún así, la información debe quedar clara y para ello debe ser transmitida a través del relato verbal. La diferenciación entre puntos de escucha y auricularización no parece lo suficientemente marcada como para permitir un relato similar al audiovisual; sin embargo, el propio borroso narrativo del sonido como indica Chion puede permitir de narrar de manera muy expresiva gracias al sonido 3D relatos basados en “enigmas acusmáticos y adivinanzas sonoras”.

Bibliografía

APPLE Inc. Ayuda de Logic Pro X: Introducción a la panorámica binaural. En línea: http://help.apple.com/logicpro/mac/10/#lgcp8e81655e, 2013a.

APPLE Inc. Panorámica binaural en el mezclador. En: Logic Pro X: Manual del usuario. Pp. 487-491. En línea: http://manuals.info.apple.com/MANUALS/1000/MA1648/es_ES/logic_pro_x_manual_del_usuario.pdf, 2013b.

BLAUERT, Jens. An introduction to binaural technology. En: Gilkey R H, Anderson T R (eds) Binaural and spatial hearing in real and auditory environments, pp. 93–609, Lawrence Erlbaum, Mahwah NJ, 1997.

BOLDT, Robert; MALINEN, Sanna; SEPPÄ, Mika; TIKKA, Pia; SAVOLAINEN, Petri; et al. Listening to an Audio Drama Activates Two Processing Networks, One for All Sounds, Another Exclusively for Speech. PLoS ONE 8(5): e64489. doi:10.1371/journal.pone.0064489. 2013.

CENGARLE, G. 3D Audio Technologies: Applications To Sound Capture, Post-Production And Listener Perception, Tesis Doctoral Universitat Pompeu Fabra, Barcelona, 2012

CHION, Michel. Audiovision: glossaire. 100 Concepts pour penser et décrire le cinéma sonore. 2012. En línea: http://www.michelchion.com/glossaire/michel-chion-glossaire.pdf

FERNÁNDEZ AZNÁREZ, Gonzalo. Comparación de la espacialización estereofónica, multicanal envolvente y binaural para un producto de ficción sonora. Trabajo de fin de máster. Máster de Postproducción Digital. Universitat Politècnica de València. Dir. Blas Payri, 2013. En línea: http://riunet.upv.es/handle/10251/33690

HAMMERSHØI, Dorte y MØLLER, Henrik. Binaural Technique – Basic Methods for Recording, Synthesis, and Reproduction. En: Blauert, J. (Ed.) Communication Acoustics, pp. 223-254. Berlin: Springer-Verlag, 2005.

IRCAM. Spatialisateur: User Manual. En línea: http://forumnet.ircam.fr/wp-content/uploads/2012/10/Spat4-UserManual1.pdf, 2012

MAHÉ DUQUE, Carlos Felipe. Música original y sonido para el cortometraje de animación «Capitán y Cabo». Trabajo de fin de máster. Máster de Postproducción Digital. Universitat Politècnica de València. Dir. Blas Payri, 2011. En línea: http://riunet.upv.es/handle/10251/14730

NEEFS Jacques. La représentation fantastique dans « Le Horla » de Maupassant. En: Cahiers de l’Association internationale des études francaises, N°32. pp. 231-245, 1980.

PAYRI, Blas. Voz pensamiento. http://politube.upv.es/play.php?vid=8516 [Video docente, 14m], 2009

PAYRI, Blas. Espacialización binaural con Logic Pro 9. http://politube.upv.es/play.php?vid=47148 [Video docente, 13m], 2010

PAYRI, Blas. Voz pensamiento. http://sonido.blogs.upv.es/voz/voz-pensamiento/ En: Recursos Sonoros Audiovisuales [Web Docente] 2014.

PAYRI, Blas. Focalización y auricularización. http://sonido.blogs.upv.es/presentacion/focalizacion-y-auricularizacion/ En: Recursos Sonoros Audiovisuales [Web Docente] 2014b.

PAYRI, Blas. Tipos de escucha. http://sonido.blogs.upv.es/presentacion/tipos-de-escucha/ En: Recursos Sonoros Audiovisuales [Web Docente] 2014c.

RODRIGUEZ MARIÑO, Ramón. Técnicas de sonido binaural en la postproducción audiovisual. Trabajo de fin de máster. Máster de Postproducción Digital. Universitat Politècnica de València. Dir. Blas Payri, 2011. En línea: http://riunet.upv.es/handle/10251/14096

ROSZKO, Bartosz. Estudio teórico-práctico de las posibilidades y limitaciones de las técnicas binaurales en la postproducción cinematográfica. Trabajo de fin de máster. Máster de Postproducción Digital. Universitat Politècnica de València. Dir. Blas Payri, 2013. En línea: http://riunet.upv.es/handle/10251/33635

SANZ GARIJO, Rut. Percepción biaural de la voz audiovisual: grabación con micrófonos biaurales versus procesamiento de señal monofónica. Realización y validación. Trabajo de fin de máster. Máster de Postproducción Digital. Universitat Politècnica de València. Dir. Blas Payri, 2011. En línea: http://riunet.upv.es/handle/10251/14789