El 62% del contenido en línea está en inglés: cómo la tecnología protege las lenguas marginales en internet
Diferentes redes de académicos y expertos trabajan para preservar idiomas, algunos con millones de hablantes, que tienen poco a ningún registro en la web
Antes de realizar una búsqueda en Google o hacer una pregunta a ChatGPT en inglés, español, mandarín o ruso, nadie se cuestiona si estas plataformas entenderán el idioma. Se trata de lenguas que stán sobrerrepresentadas en la web. Más del 99% del contenido en línea está en solo 35 idiomas de los aproximadamente 7.000 que existen en el mundo (de los que más de la mitad son orales), y solo el inglés representa el 62%. Esto deja a miles de lenguas relegadas a un lugar marginal o, incluso, a la inexistencia en internet.
Por esta razón, grupos de expertos de todo el mundo se dedican a la tarea de preservar digitalmente las lenguas. Uno de estos es The Missing Scripts, una iniciativa que busca codificar todos los sistemas de escritura del mundo en el estándar Unicode, el sistema informático universal permite identificar las formas de escritura para que puedan ser procesadas por diversos tipos de software. Las plataformas de inteligencia artificial, por ejemplo, dependen en gran medida del Unicode para el procesamiento de texto. Sin una lengua no está en el Unicode, esta no puede ser utilizada en un ordenador.
De los 292 sistemas de escritura que existen, 146 no están en el Unicode. Entre estos se encuentran no solo escrituras antiguas, algunas de las cuales aún no se han descifrado en su totalidad, sino también un gran número de escritos de grupo étnicos minoritarios que siguen utilizando una lengua propia en la actualidad.
“Cada cultura debería formar parte de Unicode”, señala por videollamda Johannes Bergerhausen, profesor de tipografía en Universidad de Ciencias Aplicadas de Mainz (Alemania), y cofundador de The Missing Scripts junto a Thomas Huot-Marchand, director del Taller Nacional de Investigación Tipográfica (ANRT) en Nancy, Francia. El proyecto nace de una alianza entre sus respectivos centros de estudios y el Script Encoding Initiative de la Universidad de California, Berkeley. The Missing Scripts además recibió el patrocionio de la UNESCO en el contexto de la Década de las Lenguas Indígenas (2022-2032).
Para la UNESCO, la “negligencia de la industria digital” hacia los idiomas minoritarios representa una “amenaza de extinción”. Por esto, considera la digitalización y la presencia en la web como “herramientas de empoderamiento”. Sin embargo, la relegación de lenguas va más allá de solo los grupos minoritarios. Hay casos como el del urdu, el décimo idioma con más hablantes nativos del mundo (cerca de 80 millones), principalmente ubicados en Pakistán y la India, que enfrentan dificultades para usar el idioma en un teclado de ordenador. Los hablantes nativos deben recurrir a la versión romanizada mediante la transliteración fonética. Casos como este ponen en peligro la transmisión del idioma a futuras generaciones.
“Cuando muere el último hablante de un idioma, perdemos la cultura, perdemos todo el patrimonio. Por eso es realmente importante registrar y que estos idiomas vivan en internet y en el espacio digital para poder difundirlos”, explica Huot-Marchand. Los expertos, sin embargo, hacen una aclaración importante: no se debe confundir idiomas y sistemas de escritura. Hay alrededor de 7.000 idiomas en el mundo, pero solo 292 sistemas escritura en la historia de la humanidad. The Missing Scipts trabaja exclusivamente en el ámbito de la lengua escrita.
Un trabajo minucioso
El proyecto es un esfuerzo colectivo que trasciende el trabajo de los tres centros de estudios involucrados. Los fundadores explican que cooperan con expertos en diferentes campos, desde diseño y tipografía hasta lingüística. “Pero también tenemos que trabajar con hablantes nativos, con científicos de computación, con ingenieros e incluso con empresas”, afirma Huot-Marchand, que enfatiza que los resultados del trabajo deben ser abiertos porque es “la única forma” de hacer una contribución. Ambos expertos defienden la importancia de involucrar en el trabajo a hablantes nativos cuando se trata de lenguajes aún vivos.
De acuerdo con Bergerhausen, su expectativa es tener todos los 292 sistemas de escritura en el Unicode para el año 2047. El académico, no obstante, admite que el objetivo es “un poco ingenuo” porque todos los años aparecen “uno o dos” sistemas de escritura nuevos. Esto sucede principalmente en África Occidental, según explican, ya que muchas lenguas se registraron con el alfabeto latino debido a la colonización europea y cada vez hay más comunidades que quieren tener su propio sistema de escritura para expresar sus idiomas.
Al registrar los sistemas, además, surgen dificultades inesperadas. Por ejemplo, el investigador que está trabajando con el sistema del idioma Lampung, de la isla del mismo nombre en Indonesia, descubrió que esta lengua, que hablan aproximadamente 1,5 millones de personas, tiene una docena de escrituras diferentes. “Entonces tienes la diferencia entre escrituras manuscritas y de tipografías. Así que debes decidir sobre la forma de la letra que vas a registrar. Sería como decidir en inglés o español cuál es la letra ‘A’ o la letra ‘E’ perfecta que se debe incluir en el Unicode”, apunta Huot-Marchand.
En el caso del Lampung, es una lengua viva con hablantes nativos que pueden contribuir a solventar estas cuestiones. Pero en The Missing Scripts también están registrando sistemas de escritura de lenguas muertas que pueden suscitar problemas similares. Noemí Moncunill, profesora de Filología Latina de la Universidad de Barcelona, trabajó con The Missing Scripts para codificar el sistema de escritura paleohispánico (utilizado en la península ibérica entre los siglo VII A.C y I D.C).
Este proyecto, sin embargo, muestra las limitaciones del Unicode, según explica Moncunill por videollamada: “Registrar en el Unicode se nos quedaba corto, porque nosotros cuando estudiamos los textos históricos, escritos a mano, vemos una variación de la escritura que también nos interesa”. Por esa razón, según la académica, su equipo emprendió una “doble vía” para crear un alfabeto estándar que se codificaría en Unicode y fuera útil para la divulgación, pero registrando por aparte las fuentes que representaran toda la variación de la escritura paleohispánica.
“En investigación tú necesitas poder expresar toda la variación de la escritura. Pero, en cambio, no tener un Unicode también es problemático. Entonces, desde nuestro punto de vista, lo ideal es tener un doble sistema”, señala Moncunill.
Más allá de la escritura
The Missing Scripts planteó el ambicioso objetivo de registrar todo lo refrente al ámbito del lenguaje escrito, pero hay otras iniciativas que también quieren recuperar los idiomas más allá de la escritura. Uno de estos es el Living Tongues Institute for Endangered Languages, en Estados Unidos, que además de publicar trabajos científicos, elabora diccionarios multimedia en línea para preservar los idiomas indígenas en colaboración con miembros de la comunidades que los hablan.
Fundado en 2005, este proyecto organiza talleres para capacitar a “activistas lingüísticos” sobre cómo grabar y editar frases en su idioma para registrarlos en sus “Living Dictionaries” (diccionarios vivos) que contienen decenas de miles de palabras, imágenes y audios de lenguas de todo el mundo.
“Aunque hay muchos académicos trabajando con lenguas en peligro, no siempre tienen el tiempo para realmente hacer un trabajo profundo con las comunidades. Así que esa es una de las principales razones detrás nuestra organización: no solo sumergirnos en el lado científico, sino también intentar crear recursos que puedan ser útiles para las comunidades”, explica por videollamada Anna Luisa Daigneault, directora de programas para Norteamérica y Sudamérica de The Living Tongues Institute for Endangered Languages.
De acuerdo con Daigneault, este método de trabajo evita “malinterpretaciones culturales” y ayuda a que el resultado sea “más auténtico y lingüísticamente rico”. El trabajo de la organización incluye desde proyectos con la comunidad de habla bretona en el norte de Francia hasta comunidades indígenas en Bolivia y colaboraciones con hablantes de lenguas minoritarias de la India.
La experta hace hincapié en que el trabajo está siempre respaldado de “una documentación rigurosa, bien realizada y exhaustiva” a la que luego se le da un uso práctico creando, además de los diccionarios, cursos en línea, libros o incluso subtítulos para películas. “Es algo tangible que podemos llevar al mundo”, expresa Daigneault.
Actualmente la plataforma en línea de los diccionarios multimedia tiene unos 1.000 usuarios “dispersos por todo el mundo” y cuenta con más de 400 idiomas. Para finales de este año, Daigneault espera tener “más de 500″.
Recientemente, Living Tongues Institute for Endangered Languages ha estado realizando talleres en la Amazonía brasileña con la comunidad Werikyana, quienes están creando sus propios diccionarios multimedia. “Nuestros colaboradores de Werikyana recopilan listas de palabras y frases y las discuten en grupo antes de agregarlas al diccionario digital. Los hablantes nativos luego graban sus propias voces usando sus dispositivos y las suben al diccionario”, detalla Daigneault.
La experta destaca la importancia de la parte multimedia en casos en los que no hay un sistema de escritura estándar y existen varias escrituras “en competencia”, razón por la cual la plataforma ofrece el espacio para múltiples sistemas de escritura para un mismo idioma con apoyo visual y auditivo.
Aprendizaje generacional
Según la UNESCO, cada dos semanas muere un idioma indígena. “La definición de peligro tiene varios factores, y el más importante es si un idioma se está transmitiendo o no a los jóvenes y a los niños. Un idioma puede tener un millón de hablantes, pero si no se está transmitiendo a los niños, entonces todavía se considera en peligro”, explica Daniel Kaufman, fundador de The Endangered Languages Project, una organización sin fines de lucro que trabaja con comunidades indígenas y migrantes de todo el mundo para “documentar, describir y promover sus idiomas”.
Desde Nueva York, esta ONG actúa como un “centro colaborativo” dedicado a fortalecer los idiomas en peligro de desaparición. En el sito web, los colaboradores cargan muestras de idiomas en formato de texto, audio o vídeo en el sistema. También organizan actividades culturales y educativas que sirven para divulgar el trabajo con las distintas lenguas. “No estamos tratando de crear un museo del lenguaje o un archivo que la gente pueda mirar, el núcleo es llevar el idioma a los niños de alguna manera. Y eso es algo que todavía estamos trabajando y expandiendo”, afirma Kaufman.
Según el experto, como la mayoría de la lenguas del mundo son solo orales, hay muchas personas con las que trabajan que no tienen experiencia escribiendo y es necesario recurrir a otras técnicas: “Escribir o hacer un blog no es nuestra primera prioridad porque muy pocos se sienten cómodos con eso. Para ellos, no es realmente así como crecieron con el idioma”. Por esa razón, Kaufman destaca la importancia de dotar a las comunidades de las herramientas para que registren y propaguen su lengua de la forma en que se sientan más cómodos. Todo para que el mundo digital sea poco a poco un reflejo más preciso de la diversidad lingüística del mundo real.