MADRID, 11 Nov. (EUROPA PRESS) -
La nueva versión del proyecto MarIA, el sistema de modelos de lengua creado en el Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS) a partir de los archivos web de la Biblioteca Nacional de España (BNE) ya permite resumir textos existentes y crear nuevos textos a partir de titulares o de palabras.
Impulsado por la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA) en el marco del Plan de Tecnologías del Lenguaje, el proyecto MarIA es el primer sistema de inteligencia artificial masivo y experto en comprender y escribir en lengua española.
En los modelos del lenguaje, el número de parámetros con los que se entrena el sistema es el elemento que les aporta mayor capacidad de generalización y, por tanto, inteligencia. Los datos de la Biblioteca Nacional con los que se ha entrenado MarIA están constituidos por más de 135 mil millones de palabras (135.733.450.668, concretamente), que ocupan un total de 570 Gigabytes.
Para crear y entrenar a MarIA se ha utilizado el superordenador MareNostrum del BSC y ha sido necesaria una potencia de cálculo de 9,7 trillones de operaciones (969 exaflops). Un flop (operación de coma flotante) es la unidad de medida con que se expresa la capacidad de cálculo de un superordenador por segundo y exa es el prefijo que expresa 1018, es decir, un trillón.
Por su volumen y capacidades, MarIA ha situado a la lengua española en el tercer puesto de los idiomas que disponen de modelos masivos de acceso abierto, después del inglés y el mandarín. Se ha construido a partir del patrimonio documental digital de la BNE, que rastrea y archiva las webs elaboradas en español y se ha entrenado con el superordenador MareNostrum 4.
Además, se publica en abierto para que los desarrolladores de aplicaciones, compañías, grupos de investigación y la sociedad en general lo puedan utilizar en infinidad de uso.
Estas nuevas capacidades convierten a MarIA en una herramienta que, con entrenamientos 'ad hoc' adaptados a tareas específicas, puede ser de gran utilidad para desarrolladores de aplicaciones, empresas y administraciones públicas.
Por ejemplo, los modelos que hasta ahora se han desarrollado en inglés se utilizan para generar sugerencias de texto en aplicaciones de escritura, para resumir contratos o los complicados documentos que detallan las prestaciones de un producto, en función de lo que quiere saber cada usuario, y para buscar informaciones concretas dentro de grandes bases de datos de texto y relacionarlas con otras informaciones relevantes.
"Con proyectos como MarIA, que se verán incorporados al 'PERTE para el desarrollo de una economía digital en español,' damos pasos firmes hacia una inteligencia artificial que piense en español, lo que multiplicará las oportunidades económicas para las empresas y la industria tecnológica española", ha señalado la secretaria de Estado de Digitalización e Inteligencia Artificial, Carme Artigas.