Nace en UPV un spin-off especializada para acceder a información contenida en manuscritos

Explotar tecnología de transcripción e indexación de la información contenida en imágenes digitalizadas de documentos manuscritos. Este es el ámbito de trabajo de la spin-off Transkriptorium, que se ha constituido este miércoles formalmente y que surge de la Universitat Politècnica de València (UPV).

La tecnología desarrollada está basada en métodos estadísticos y consiste en obtener un mapa de probabilidades de una imagen determinada. Con las técnicas de inteligencia artificial y aprendizaje automático (machine learning), Transkriptorium ha conseguido acceder a los contenidos de miles de páginas antiguas manuscritas.

El equipo promotor de la spin-off está formado por Joan Andreu Sánchez Peiró y Enrique Vidal, profesores del Departamento de Sistemas Informáticos y Computación y miembros del Centro Tecnológico de Reconocimiento de Patrones y Lenguaje Humano (PRHLT, por sus siglas en inglés).

Igualmente, forman parte de Transkriptorium Vicente Bosch, técnico superior también del PRHLT; Alejandro Héctor Toselli, investigador científico asociado de la Northeastern University (Boston, EE UU) y Verónica Romero, profesora de la Universidad de Valencia. Por último, el consultor privado Luis Antonio Morró se incorpora a la iniciativa como CEO de la empresa.

Para Joan Andreu Sánchez, «la tecnología desarrollada supera cualquier solución actual basada en el trabajo humano experto sobre el texto. «El desarrollo y la comercialización de estos procesos en diversos ámbitos (administrativos, culturales, económicos, legales, etc.) es una clara oportunidad económica. No existen más de tres o cuatro empresas en todo el mundo que se dediquen comercialmente a ello», añade.

Sánchez ha explicado que «son más de 20 años de trabajo los que han propiciado la tecnología que ahora se transfiere a esta spin-off». «Son infinidad de casos de uso, trabajando con instituciones tanto públicas como privadas. Todo ello nos ha dado la experiencia necesaria», añade.

KILÓMETROS DE DOCUMENTOS POR EXPLORAR

Por su parte, Enrique Vidal ha destacado el «enorme» mercado potencial que suponen los archivos y bibliotecas de todo el mundo. «Se especula que, actualmente, hay más texto manuscrito que texto automático, por todo lo que se ha acumulado a lo largo de la historia. Y todo ello está pendiente de ser leído y explorado.»

En este sentido, Sánchez ha apuntado a que «se cuentan por kilómetros la cantidad de documentos manuscritos que quedan por transcribir e indexar». Por poner un ejemplo, apunta, «si la Biblioteca Nacional alineara los documentos que atesora se superarían los 100 km de papel».

Durante décadas, los investigadores de PRHLT han afinado la tecnología gracias a los proyectos europeos concedidos a su equipo. Un antecedente es Himanis que, en 2017, permitió indexar la colección de registros del Trèsor des Chartes, el Tesoro de las Cartas, antiguos archivos de la Corona de Francia, denominados también Chancery. La colección contiene más de 70.000 páginas de registros de actos de la cancillería real francesa de los siglos XIII y XIV.

En 2019, llegó el proyecto Carabela, desarrollado durante los últimos dos años y que ha permitido acceder a los contenidos de más de 130.000 imágenes del Archivo General de Indias y el Archivo Histórico Provincial de Cádiz. Gracias a estos proyectos, ha salido a la luz información que constituye un tesoro arqueológico de primera magnitud, debido a la gran riqueza histórica y cultural de su contenido.

Con esta, son ya 17 las spin-offs participadas por la Universitat Politècnica de València y otras 7 más constituidas como empresas no participadas. Para la institución valenciana, las spin-offs son el mecanismo más completo y eficaz de transferencia de tecnología, puesto que aúnan no solo unos resultados de investigación explotables, sino también el talento y la capacidad de sus creadores.