La Universidá d'Uviéu presenta un sistema de traducción automática neuronal pa les llingües minorizaes peninsulares

Raúl Alonso REDACCIÓN

AGORA

Edificio Histórico de la Universidad de Oviedo
Edificio Histórico de la Universidad de Oviedo

L'aragonés, l'aranés y l'asturianu son les llingües que protagonicen esti proyectu nuevu de la universidá asturiana

01 may 2025 . Actualizado a las 05:00 h.

Nos últimos años, el númberu y l'eficacia de les tecnoloxíes de traducción automática disparáronse. Gracies a la intelixencia artificial (IA), llevamos nel nuesu bolsu potentes ferramientes que traducen con facilidá cualesquier de les llingües mayoritaries. Pero ¿qué pasa con aquelles que tienen menos falantes y menos recursos? ¿Cómo puede llegar a entendeles una IA? La respuesta podría tar nel aprendizaxe por tresferencia y l'entrenamientu de sistemes multilingües pa les llingües romániques de la península ibérica. El proyectu Traducción automática neuronal pa les llingües romániques de la península ibérica (TAN-IBE), financiáu pol Ministeriu de Ciencia, Innovación y Universidaes, coordináu pola Universitat Oberta de Catalunya (UOC) y cola participación de les universidaes d'Uviéu, Lleida y Zaragoza, esplora les técniques más efectives pa entrenar sistemes de traducción automática basaos en redes neuronales (un tipu d'IA) aplicaes a delles llingües romániques de la península ibérica: español, aragonés, aranés y asturianu.  

Cristina Valdés, profesora del Departamentu de Filoloxía Inglesa, Francesa y Alemana de la Universidá d'Uviéu, sorraya que la traducción automática neuronal, tamién conocida poles sos sigles TAN, ye una tecnoloxía qu'emplega redes neuronales artificiales pa xenerar traducciones d'un idioma a otru. «La gran diferencia colos sistemes de traducción automática tradicionales ta en que la TAN deprende patrones complexos de grandes cantidaes de datos y puede producir traducciones más naturales y coherentes», indica esta investigadora.   

D'esta manera, los sistemes de traducción basaos en redes neuronales entrénense a partir de millones d'oraciones nuna llingua cola so traducción n'otra llingua. Ye lo que se conoz como corpus paralelos, inmensos conxuntos de datos disponibles en dos llingües. Una vegada que la rede neuronal ta entrenada, ye capaz de traducir con eficacia cualquier testu neses llingües. «El problema ye que, con idiomes como l'español o'l portugués, ye cenciello atopar esos corpus paralelos, pero con aquelles llingües que tienen menos material disponible —como'l aranés, l'aragonés o'l nuesu asturianu— ye complicao tener abondos datos pa entrenar a la intelixencia artificial», añede Valdés.  

«Lo bono ye que los sistemes neuronales pueden deprender coses d'una llingua a partir d'otra que se-y paeza», esplica Antoni Oliver, coordinador del proyectu TAN-IBE y profesor de los Estudios d'Artes y Humanidaes de la UOC. «Por eso escoyimos les llingües romániques. El procesu tendrá de ser capaz d'aprender por tresferencia utilizando un modelu ente dos llingües pa construyir el sistema de traducción ente otres dos. Asina, por casu, cuando tea terminada, la ferramienta de traducción español-aranés deprendería en parte gracies al sistema español-catalán o al español portugués», añede.

La construcción del modelu de traducción nun ye l'únicu oxetivu del proyectu d'investigación, que busca, amás:

-Compilar corpus paralelos y monollingües pa les siete llingües romániques que s'inclúin na propuesta, dedicando un mayor esfuerzu al asturianu, l'aragonés y l'aranés.

-Esplorar nueves técniques pal entrenamientu de sistemes de traducción automática neuronal. Amás del deprendizaxe per tresferencia, va estudiase la traducción automática multillingüe, la traducción automática autosupervisada y la traducción automática non supervisada.

-Entrenar sistemes de traducción automática neuronal ente l'español y el restu de les llingües del proyectu, en dambes direcciones.

-Entrenar sistemes multillingües capaces de traducir dende y hacia toles llingües del proyectu.

-Crear guíes y scripts que faciliten l'entrenamientu de sistemes de traducción automática neuronal polo xeneral y, más en concretu, pa les llingües del proyectu.

-Publicar los resultaos del proyectu con llicencies llibres. Esto inclúi los corpus compilaos, los modelos y motores de traducción automática y les guíes y scripts.

«En xeneral, el proyectu consiste, de primeres, n'arrexuntar tolos corpus pa les llingües con menos material (asturianu, aragonés y aranés), y, de segundes, n'entrenar los sistemes de traducción», añede Antoni Oliver. «El resultáu final del proyectu va ser la publicación llibre de los recursos, na midida que seya posible, y la creación d'un sistema de traducción automática neuronal llibre d'usu», esplica.