“Me he escuchado a mí misma y hay frases que cuelan muchísimo”. Así llegan las voces artificiales al mundo de la locución

Las fotos, los vídeos y los textos hechos con robots logran ya calidades humanas. La industria dedicada al audio también avanza por ese camino

Dos mujeres graban en un estudio de podcasts. La aparición de voces sintéticas será cada vez más normal dentro del sector.Zero Creatives (Getty Images/Image Source)

Jordi Pérez Colomé

21 jul 2022 - 05:20CEST

La actriz y locutora Begonya Ferrer dejó escuchar a unos amigos unos mensajes de audio que había recibido de una empresa de locución. Era su voz, pero en realidad no era ella: “Me escuché a mí misma y hay muchas frases que cuelan muchísimo”, dice. “Se lo enseñé a unos amigos y me decían lo mismo”. Ferrer había escuchado montones de veces su voz grabada. Pero era la primera vez que se escuchaba “sintetizada”. En los siguientes audios puede verse la escasa diferencia para el oído no entrenado.

Como en otros campos de la inteligencia artificial, hay docenas de empresas que trabajan en mejorar la reproducción artificial de la voz humana. Sus avances son notables, aunque no perfectos aún. La diferencia entre el inglés y el resto de lenguas es también destacable. Ya se usa para voces que no requieran tonos, acentos o emociones sofisticadas, como contestadores automáticos o vídeos y juegos de internet, pero todo llegará. “Tienen que acabar de perfilar algunos sonidos y entonaciones, o comas. Pero ya da para pensar mucho si es pan para hoy y hambre para mañana”, dice Ferrer.

La empresa que la contrató para sintetizar su voz es Voces en la Red. “Hasta 2018, la voz sintética era mala. Ahora ha ido evolucionando, sobre todo con Amazon, Microsoft y Google y entre 2020 y 202 ha dado un salto. Sin embargo, aún queda por hacer estamos ya como cuando salió el primer iPhone”, dice Javier de Alfonso, fundador de Voces en la Red. La ventaja de disponer de una voz sintetizada es, obviamente, que no se requiere de un humano que locute cada nuevo vídeo o cada cambio en el contestador automático. Pronto incluso la máquina será capaz de “leer” lo que el generador de textos cree, sin apenas latencia. Es decir, hablará improvisando de cualquier tema, casi como en una conversación telefónica natural.

Voces en la Red colabora con una start-up canadiense, Resemble, para que mejore su catálogo de español y poder comercializarlo. Todos estos avances son casi reales en inglés, pero en español aún queda mucha edición y retoques. A preguntas de este periódico, en Resemble lo explican así: “La mayor parte del trabajo de modelado de idiomas con inteligencia artificial es específico del inglés. Nuestro enfoque principal ahora es mejorar la naturalidad y la prosodia del español. También por el tipo de nuestros clientes, a menudo encontramos que el spanglish es común. El cambio de idioma es un área clave de investigación para nosotros”, dicen.

Para esa mejora de la máquina, el trabajo de profesionales como Begonya Ferrer es indispensable. Explica que cada vez recibe más peticiones de este tipo de grabaciones asépticas, sin saber muy bien para de quién son ni para qué. “Trabajo para mucha gente”, dice Ferrer. “Hago cada vez más proyectos para entrenar a robots. No dan mucha información a los locutores. Trabajo online con gente de todo el mundo. Me han pedido incluso bastantes proyectos desde China. Te hacen leer fragmentos de audiolibros y si faltan fonemas te mandan más textos. Las condiciones técnicas son muy específicas, muy diferentes a la publicidad, sonido muy seco, limpio, que no suba de tantos decibelios”, añade.

A veces le hacen repetir frases enteras tantas veces como palabras tenga esa frase, haciendo énfasis en una palabra distinta en cada lectura. Es fácil pensar que el acceso a las horas de grabación que tienen Amazon, Google y Microsoft es un orden de magnitud distinto. Microsoft, por ejemplo, ya ofrece a clientes preseleccionados servicios de este tipo: “Los clientes deben cargar los datos de entrenamiento de su locutor preferido junto a un archivo de audio con el locutor expresando su consentimiento verbal. El entrenamiento personalizado de Neural Voice comienza con aproximadamente 30 minutos de datos de voz (o 300 oraciones grabadas) y el tamaño de datos que recomendamos es aproximadamente 2 a 3 horas, o 2000 expresiones grabadas”, explican fuentes de Microsoft a preguntas de este periódico.

A partir de ahí, empresas como WarnerBros, la BBC o Duolingo lo van usando para algunos de sus servicios. Este tipo de soluciones ya están disponibles. De Alfonso, de Voces en la Red, cree que pronto podrá usarse para locuciones más complejas pero igualmente sencillas, como una noticia de un informativo o un boletín de radio. Pero aún queda para proezas mayores como la “lectura de un relato erótico”.

Años para el doblaje profesional

Desde el sector más centrado en el doblaje, ven este progreso como una amenaza cierta, pero aún a años vista. “Hemos visto demos espectaculares, pero las aplicaciones reales aún están lejos”, dice Ángel Martín, director de la empresa de doblaje Eva Localisation. “No hay herramientas aún para poner tu serie original y que te la devuelva adaptada a otra lengua”.

Dicho esto, sin embargo, sí hay espacio para otro tipo de aplicaciones, según Martín: “Hay millones de horas en redes en YouTube o TikTok con contenido personal donde los derechos son menos significativos o que no requieren tanta precisión porque lo que quieren es llegar a cuanto más público sea posible”, dice, en referencia a productos que por sus exigencias menores ya pueden usar este tipo de voces.

¿Algo de todo esto hace poner nerviosos a actores de doblaje? De momento, no. “La industria no está preparada aunque estas herramientas estén disponibles. Eso no significa que no estemos todos interesados en ver cómo evoluciona”, añade Martín. La futura capacidad de la inteligencia artificial de encajar las palabras más adecuadas en otra lengua en los labiales de un actor parece inevitable. Pero por ahora no es inminente.

El sector vive además un momento de “vacas gordas”, dice Alex Mohamed, director técnico y de seguridad de los estudios Deluxe. “Hay una cantidad de trabajo ingente y hay poco tiempo de ver qué ocurre. Además, no ha aparecido ningún ejemplo para que nadie se preocupe. Ocurrirá con los años. Es probable”, añade.

Hay también pendiente un debate legal más complejo probablemente que con otros productos salidos de la inteligencia artificial: “Las voces están sujetas a derechos. ¿Qué ocurrirá cuando una persona fallezca? ¿Qué ocurrirá si cojo la voz de alguien que acaba de fallecer, cambió ligeramente el timbre y la uso?”, dice Mohamed. La combinación de varios timbres humanos dará una voz original que no tendrá derechos. Una cosa es clonar una voz de una actriz concreta, que está de acuerdo y puede reclamar sus derechos, y otra usar su timbre en un cóctel que produce algo nuevo.

Puedes seguir a EL PAÍS TECNOLOGÍA en Facebook y Twitter o apuntarte aquí para recibir nuestra newsletter semanal.

Regístrate gratis para seguir leyendo

Si tienes cuenta en EL PAÍS, puedes utilizarla para identificarte

INICIA SESIÓN REGÍSTRATE

O suscríbete para leer sin límites

Sobre la firma

Jordi Pérez Colomé

Es reportero de Tecnología, preocupado por las consecuencias sociales que provoca internet. Escribe cada semana una newsletter sobre los jaleos que provocan estos cambios. Fue premio José Manuel Porquet 2012 e iRedes Letras Enredadas 2014. Ha dado y da clases en cinco universidades españolas. Entre otros estudios, es filólogo italiano.