La UOC participa en el diseño de un lenguaje estándar para indexar los datos que entrenan a la IA

Ha sido diseñado en colaboración con empresas del sector tecnológico como Google, Meta o Amazon
Ha sido diseñado en colaboración con empresas del sector tecnológico como Google, Meta o Amazon - UNSPLASH.COM - UOC
Publicado: jueves, 18 abril 2024 11:00

Ya lo han incorporado los principales repositorios y buscadores de datos

BARCELONA, 18 Abr. (EUROPA PRESS) -

La Universitat Oberta de Catalunya (UOC) ha participado en el diseño de un nuevo lenguaje estándar internacional, llamado 'Croissant', para indexar los datos que entrenan a la Inteligencia Artificial (IA), ha informado en un comunicado de este jueves.

Se trata de un nuevo formato de metadatos diseñado en colaboración entre los equipos de investigación de empresas como Google, Meta y Amazon, y universidades como la de Harvard (Estados Unidos), el King's College de Londres (Reino Unido) y la UOC, y ya lo han adoptado los principales repositorios y buscadores de datos.

El investigador del Internet Interdisciplinary Institute (IN3) de la UOC, Joan Giner, ha contribuido en el proyecto implementando la parte de IA responsable, "que minimiza el riego de sesgos y decisiones erróneas de les máquinas".

Según Giner, la iniciativa se puede "comparar con la que permitió poder buscar cualquier cosa en Internet mediante el buscador de Google hace 20 años, pero adaptada al campo de la Inteligencia Artificial".

'Croissant' no cambia el formato en el que se presentan los datos --archivos de imagen, audio o texto--, sino que "proporciona una forma estándar de describirlos y organizarlos".

NUEVO LENGUAJE

El nuevo lenguaje expande Schema.org, un estándar legible para las máquinas para describir datos estructurados, que ya se utiliza en más de 40 millones de conjuntos de datos en la web y permite que los conjuntos de datos se puedan descubrir con motores de búsqueda como Google Dataset Search.

'Croissant' tiene capas de información muy útiles en cuanto a la estructura, el tipo de atributos o cómo descargar estos datos, por lo que "hará que sea mucho más fácil buscar e integrar estos conjuntos de datos en las aplicaciones de IA sin necesidad de buscar los datos una por una en los distintos repositorios".

"Esto supone un cambio muy relevante, porque la diferencia entre una IA muy buena y una regular es que la primera está entrenada con un conjunto de datos mucho mayor. Ahora que estamos en la era del Big Data y que se la publican muchas a diario, era crucial poner orden para poder acceder de forma más fácil", apunta Giner.

Los mayores repositorios de datos para IA del mundo --HuggingFace, Kaggle, OpenML-- también han formado parte del proyecto y ya tienen todos sus conjuntos de datos descritos con 'Croissant' e indexados en Google Dataset Search.