¿Escuchan nuestras conversaciones Alexa, Google o Siri?

Un vídeo viral en redes sociales muestra cómo el altavoz de Amazon graba algunos fragmentos de voz en los que no se mencionaba la palabra de activación. ¿Hasta qué punto es esto posible?

El dispositivo Alexa de Amazon dentro de una casa.MIKE BLAKE (Reuters / ContactoPhoto)

29 mar 2024 - 05:21CET

“Alexa, pon la alarma a las ocho”, “Alexa, reproduce la película Oppenheimer” o “Alexa, dime qué tiempo hará en Semana Santa”. Todas estas interacciones con el altavoz inteligente se graban y están a disposición de cualquier usuario que las pida a Amazon. Eso fue lo que hizo la criminóloga María Aperador. Su sorpresa fue descubrir que algunos audios no iban precedidos de la palabra de activación, “Alexa”, y así lo denunció hace unos días en un vídeo en TikTok e Instagram que se ha convertido en viral. ¿Cómo es esto posible?

La política de Amazon es clara al respecto: no se almacenan ni se envían a la nube audios, a menos que el dispositivo detecte la palabra de activación. Así lo confirman desde la compañía. Y añaden que el usuario sabrá cuándo Alexa envía su petición a la nube por un indicador luminoso azul o un sonido del altavoz.

Teniendo esto presente, David, Arroyo, investigador del CSIC especializado en ciberseguridad y datos, ofrece una alternativa: “El sistema que ellos tienen solo se activa cuando alguien pronuncia la palabra de activación. Pero, por varios motivos, puede tener falsos positivos. Ahí lo que tendríamos que ver es hasta qué punto es robusto frente a elementos que estén perturbando lo que es la interpretación de esa palabra de activación”.

A los sistemas de aprendizaje automático de interpretación de voz, como los que utilizan Alexa o los altavoces de Google o Apple, se incorporan elementos dispares para mejorar su funcionamiento. Pero, aun así, no es tarea fácil. “Estos sistemas están diseñados para identificar todo lo que son elementos de variabilidad por pronunciación”, señala Arroyo en referencia a los distintos acentos y formas de hablar, pero también a los cambios en la resonancia o la reverberación de la estancia en la que se encuentra el dispositivo. “Habría que saber en detalle cuál es la tasa de precisión y de falsos positivos que tiene en concreto el algoritmo que emplea Amazon”.

EL PAÍS ha hablado con María Aperador para conocer un poco más sobre las grabaciones, que duran alrededor de 6 segundos. Son fragmentos de conversaciones casuales, de ella o de personas que estaban en su casa. La criminóloga no ha revisado los más de 500 archivos de audio que le envió Amazon, pero en unos 50 que ha escuchado encontró dos en los que no había palabra de activación.

@mariaperadorcriminologia
🚨Cuidado con la estafa en #amazon #ciberseguridad #proteccion #criminología #timo #ciberdelincuencia
♬ sonido original - María Aperador

Un estudio elaborado por investigadores de la Universidad Ruhr de Bochum y el Instituto Max Planck para la Seguridad y la Privacidad pone de relieve la importancia de las activaciones accidentales en altavoces inteligentes. Tras analizar 11 dispositivos de ocho fabricantes diferentes, publicaron información sobre más de 1.000 activaciones involuntarias. “Estamos hablando de sistemas de reconocimiento de voz, que depende de cómo estén implementados, pueden funcionar mejor o peor”, apunta sobre la posibilidad de falsos positivos Josep Albors, director de Investigación y Concienciación en la firma de ciberseguridad ESET España.

Cómo detectan los altavoces la palabra de activación

Para activarse cuando escuchan la palabra Alexa o las frases “ok, Google” o “hey, Siri”, los altavoces inteligentes cuentan con un sistema en permanente rastreo de ese término. “Al final son dispositivos que están a la escucha constantemente. Pero esto también lo hacen los smartphones o muchos porteros automáticos. No es exclusivo de Alexa”, cuenta Albors.

Arroyo también hace esta apreciación. “Cuando pones el altavoz en espera activa, eso involucra que está en todo momento absorbiendo lo que hablas. No lo graba. Pero el algoritmo está procesándolo, porque tiene que ver qué palabras se están pronunciando”.

Se trata de un algoritmo que funciona a nivel local, en el propio dispositivo, buscando los patrones acústicos correspondientes a la palabra de activación. Fuentes de Amazon apuntan que su tecnología solo se basa en la información procedente de las ondas de sonido para detectar el término. Además, destacan que el altavoz también permite activarlo con un botón, con lo que se evitaría la monitorización del sonido. En el caso de las grabaciones, que se producen cuando se activa el dispositivo, los usuarios pueden escoger no almacenarlas en sus opciones de privacidad.

¿Qué problema tiene este rastreo permanente de la palabra de activación? Los dos especialistas en ciberseguridad coinciden en que, si el sonido se procesara para extraer datos más allá de la búsqueda de la palabra clave, los problemas de privacidad serían muy graves. Pero también coinciden en que no hay evidencia de que esto sea así. “Hay muchos intereses para que eso no suceda, porque supondría la pérdida de confianza en todos los dispositivos y un perjuicio económico muy considerable para estas empresas”, indica Albors.

Puedes seguir a EL PAÍS Tecnología en Facebook y X o apuntarte aquí para recibir nuestra newsletter semanal.