VA | EN

CEF Automated Translation ahorrará tiempo reciclando traducciones existentes la web

La Universidad de Alicante (UA), a través del grupo de investigación Transducens del Departamento de Lenguajes y Sistemas Informáticos, será uno de los socios de la acción 2016-EU-IA-0114 Provision of web-scale parallel corpora for official European languages, concedida en el marco de la convocatoria CEF-TC-2016-3 – Automated Translation.

El proyecto, de dieciocho meses de duración, comienza a mediados de septiembre de 2017 y finalizará el 31 de diciembre de 2018. Está coordinado por la Universidad de Edimburgo y tiene como socios a la empresa TAUS y Prompsit Language Engineering, empresa surgida del grupo Transducens.

El componente Automated Translation de la Connecting Europe Facility (CEF) proveerá a la Comisión Europea de colecciones de textos traducidos entre cualquiera de las veinticuatro lenguas oficiales de la Unión Europea. En los primeros seis meses, se prevé tener disponibles recursos para doce de estas veinticuatro lenguas.

Los recursos más importantes para construir un servicio de traducción automática son los corpus paralelos, es decir, las colecciones de textos traducidos. Hasta el momento, recursos de este tipo solo están disponibles a gran escala para determinados sitios web como el Parlamento Europeo, las Naciones Unidas, o para algunas iniciativas voluntarias como las traducciones de las charlas TED o de Open Subtitles, y sólo para algunas lenguas de Europa. Sin embargo, la traducción automática comercial (Google, Microsoft) se basa en corpus basados en los textos de millones de sitios web y que tratan con unos rangos más amplios de géneros, temáticos y estilos.

En este proyecto los investigadores van a aplicar las últimas tecnologías disponibles para la cadena de procesamiento completa, desde la identificación de los sitios web con texto traducido hasta la obtención de corpus paralelos limpios masivos para todas las lenguas de Europa. Estos textos, que cubrirán una amplia variedad de estilos, géneros y temáticas, estarán listos tanto para ser usados como datos de entrenamiento en el CEF Automated Translation, como para servir de memorias de traducción para la Dirección General de Traducción de la Comisión Europea.

El proyecto se entregará a la Comisión Europea y las herramientas serán publicadas mediante licencias de software libre o de código fuente abierto, el software que permitirá continuar con la cosecha en Internet de colecciones de textos traducidos, de forma que puedan ser usadas tanto por CEF Automated Translation como por toda persona o institución interesada.

Empresas al servicio de las TICs

Prompsit Language Engineering es una empresa del sector de las TIC especializada en tecnologías de la lengua, creada en 2006 como spin off del grupo de investigación Transducens de la UA. Prompsit nació como respuesta a la necesidad comercial generada por la aparición de la plataforma de traducción automática de código abierto Apertium. Entre los socios fundadores de Prompsit están el doctor Felipe Sánchez Martínez, los profesores Rafael C. Carrasco Jiménez, Juan Antonio Pérez-Ortiz y Mikel L. Forcada, todos ellos pertenecientes al Departamento de Lenguajes y Sistemas Informáticos de la UA.

TAUS es una empresa que fue fundada en enero de 2005 por un consorcio de compañías TIC y cuyo foco era la automatización de la traducción. Inicialmente era un think tank; actualmente comercializa una plataforma para la colaboración entre traductores, la gestión y compartición de recursos de traducción y evaluación de la calidad de la misma.

Fuente: UA