Un grupo de investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del Instituto Tecnológico de Massachusetts (MIT) han desarrollado un sistema de Inteligencia Artificial capaz de traducir lenguas ‘muertas’.
El objetivo de este sistema, que ha sido desarrollado por el MIT con apoyo de la Actividad de Proyectos de Investigación Avanzada de Inteligencia (IARPA) y dirigido por la profesora del MIT Regina Barzilay, es ayudar a los lingüistas a descifrar los idiomas que se han perdido en la historia.
Según investigaciones recientes, la mayoría de los idiomas que han existido ya no se hablan y decenas de lenguas muertas están perdidas o no han sido descifradas, ya que no se conoce suficiente sobre su gramática, vocabulario o sintaxis.
En este sentido, el sistema de IA desarrollado por los investigadores del MIT es capaz de descifrar automáticamente lenguas muertas sin necesidad de tener conocimientos avanzados de su relación con otras lenguas.
El sistema también puede determinar por sí mismo las relaciones entre varias lenguas y ha sido empleado, entre otras cosas, para corroborar los estudios recientes que sugieren que la lengua ibérica no está relacionada con el vasco, según explica un artículo del MIT.
Este sistema se basa en conocimientos de la lingüística histórica, como el hecho de que los idiomas suelen evolucionar de ciertas formas predecibles.
A pesar de que un idioma determinado rara vez añade o elimina un sonido completo, se pueden producir ciertas sustituciones de sonido y, por ejemplo, una palabra con una «p» puede cambiar a una «b» en el idioma descendiente, pero es menos probable que cambie a una «k».
El algoritmo desarrollado por Barzilay y el estudiante de doctorado del MIT Jiaming Luo aprende a incrustar los sonidos del lenguaje en un espacio multidimensional donde las diferencias en la pronunciación se reflejan en la distancia entre los vectores correspondientes.
Esto permite encontrar patrones de cambio del lenguaje y segmentar palabras en una lengua muerta y asignarlas a un idioma actual.
El equipo de investigadores busca expandir sus esfuerzos más allá de conectar textos con palabras relacionadas en un idioma conocido y enfocarse en identificar el significado semántico de las palabras incluso sin saber cómo se leen.
«Estos métodos de ‘reconocimiento de entidades’ se usan comúnmente en varias aplicaciones de procesamiento de texto en la actualidad y son altamente precisos, pero la cuestión clave de la investigación es si la tarea es factible sin datos de entrenamiento en la lengua antigua», ha indicado Barzilay.