VA | EN

Nuevas herramientas para la transcripción automática de manuscritos antiguos

Proyecto READ IILa Universitat Politècnica de València (UPV), a través del centro Pattern Recognition and Human Language Technologies (PHRLT), es uno de los socios de READ, un proyecto europeo cuyo objetivo es desarrollar avanzadas herramientas para la transcripción e indexación automática de manuscritos antiguos. El proyecto está financiado por el programa Horizon2020 de la UE y se extenderá durante los próximos tres años y medio.

Este proyecto permitirá acceder a la transcripción de documentos que datan desde el siglo XIV hasta la actualidad. Entre ellos, destacan manuscritos de Lope de Vega, pertenecientes a la colección de la Biblioteca Nacional; correspondencia de los Hermanos Grimm, que pertenece al Archivo Estatal de Marburgo o una gran cantidad de documentos de la historia de Venecia recopilados desde hace cientos de años.

“Estos son posiblemente los más llamativos, pero también nos proponemos poner al alcance de investigadores, historiadores, lingüistas, genealogistas y del público en general una gran cantidad de documentos civiles, como registros matrimoniales, partidas de nacimiento o defunción, sentencias judiciales, etc. que, en conjunto, tienen un gran valor para estudios demográficos, genealógicos…”, apunta Joan Andreu Sánchez, investigador del centro PRHLT de la UPV.

El proyecto trabaja con documentos procedentes de países como España, Italia, Alemania, Reino Unido, Países Bajos o Finlandia, entre otros. Además, permitirá transcribir originales escritos en latín, alemán, holandés, inglés, castellano, italiano, finlandés…

“La idea es que, en el futuro, las bibliotecas y los archivos sean capaces de facilitar el acceso a los contenidos para que la gente pueda buscar dentro de los documentos, y no con los metadatos únicamente, tal como se hace actualmente”, apunta Joan Andreu Sánchez.

Aprendizaje automático 

Según explican desde el centro PHRLT de la UPV, uno de los problemas de los documentos antiguos es la ausencia de unos patrones de escritura y edición estándar, por lo que la variabilidad es enorme. Dichos documentos no pueden ser transcritos por técnicas de OCR, puesto que los caracteres no se pueden aislar automáticamente. Por ello el reconocimiento debe basarse en técnica holísticas que reconocen caracteres, palabras y frases como “un todo”.

“Hay documentos con anotaciones en los márgenes, palabras interlinia añadidas, tachones, textos con muchísimas abreviaturas, gran variabilidad en el tipo de escritura, etc., etc. El proyecto lo que se plantea es procesar esta heterogeneidad y hacer accesible toda la información, bien transcribiéndola, bien indexándola haciendo uso de nuevas herramientas”, añade Joan Andreu Sánchez.

Así, los socios de READ trabajan ya en nuevas soluciones de Reconocimiento de Textos Manuscritos (HTR, siglas en inglés de “Handwritten Text Recognition”), que se incorporarán a Transkribus, software libre desarrollado en el marco de otro proyecto europeo, denominado Transcriptorium.

“READ coge el testigo de este proyecto y va un paso más allá: en Transcriptorium nos encargamos de madurar la tecnología HTR y darla a conocer a los proveedores de contenidos, esto es, archivos y bibliotecas. En READ, el propósito es extender el uso de la tecnología HTR a gran escala y dar servicio a los principales proveedores de contenidos”, apunta Joan Andreu Sánchez.  El trabajo de la UPV en READ se centra en el módulo de reconocimiento e indexación de Transkribus.

La clave de las herramientas en las que trabajan los investigadores de READ reside en su capacidad de obtener modelos que aprenden automáticamente a partir de ejemplos. Dichos modelos necesitan una cantidad de datos de aprendizaje relativamente pequeña para obtener resultados muy satisfactorios. “Una vez aprendidos los modelos, se utilizan técnicas muy eficientes de transcripción que emplean lo que se denominan redes de estados finitos. Un aspecto importante de todo el proceso es el uso de “modelos de lenguaje” que utilizan el contexto para restringir el proceso de búsqueda de la transcripción”, explica Joan Andreu Sánchez.

Las herramientas permiten editar y corregir posibles errores de la transcripción automática mediante técnicas interactivas. Una de las aplicaciones de las técnicas que se van a desarrollar en READ permitirá indexar grandes colecciones de documentos sin necesidad de obtener la transcripción del documento.

Transcripción a la carta 

Además, en un futuro, los usuarios podrán subir una colección de imágenes y solicitar que el sistema proporcione una transcripción. “Este servicio, que estará disponible a través Transkribus, será gratuito para los usuarios para una carta de servicios estándar, mientras que para problemas más complejos se podrán buscar soluciones ad hoc”, concluye Joan Andreu Sánchez.

El proyecto READ comenzó el pasado mes de enero y se extenderá hasta junio de 2019.

Fuente: UPV