HiTZ zentroaren Latxa euskararentzako hizkuntza ereduari buruzko lanak saria jaso du nazioartean

HiTZ zentroko ikerlaria den Julen Etxaniz saria jasotzen
UPV/EHU
Actualizado: martes, 1 octubre 2024 12:25

BILBO, 1 (EUROPA PRESS)

Association for Computational Linguistics hizkuntzaren teknologiari buruzko elkarte zientifikoak Euskal Herriko Unibertsitateko (EHU) HiTZ Hizkuntza Teknologiako Zentroak eraiki duen Latxa euskararentzako hizkuntza ereduari buruzko artikulua saritu dubere azken biltzarrean. Gainera, topaketa berean egindako aurkezpen batean, euskarak ikerkuntzan duen pisua aipatu da, 1.200 artikulu baina gehiagotan aipatzen baitira bere inguruko esperimentuak.

EHUko iturriek jakinarazi dutenez, Association for Computational Linguistics elkarteak Bangkoken antolatu duen biltzarrak 4.400 artikulutik gora jaso ditu, eta 5.000 ikuskatzailek baino gehiagok osatutako batzordeak 940 besterik ez ditu onartu ditu, "argitalpen gune prestigiotsuena izanda, kalitate hobereneko artikuluak besterik ez baititu argitaratzen".

Egileen artean unibertsitate, ikerketa zentro eta enpresa nagusietako ikerlariak izaten dira, hala nola Microsoft, Meta eta Apple. Onartutako ikerkuntza lanetatik 14 artikulu aukeratu dituzte sarietarako, tartean Latxa hizkuntza ereduari buruzkoa. Sari banaketa biltzarrera hurbildutako 4.000 ikerlarien aurrean egin zen.

Hizkuntza eredu handi bat (LLM ingelesez), adimen artifizialeko eredu bat da, giza hizkuntza ulertu eta sortzeko ikaskuntza automatikoko teknikak erabiltzen dituena, datu multzo masiboetatik sortutako ezagutzan oinarrituta.

EHUko HiTZ zentroak garatutako Latxa euskararentzako hizkuntza ereduen familia bat da eta lizentzia libreko testuen corpus handienarekin eta hizkuntza gaitasunari, irakurmenari, kultura orokorrari eta azterketa profesionalei buruzko zenbait proba bankurekin banatzen da.

Latxak duela bi urte abiarazitako jatorrizko ChatGPT bertsioa gainditzen du (orain GPT 3.5 gisa ezaguna), eta baliabide digital urriko hizkuntza baten eredu ireki batentzat lehenengo aldiz, GPT-4 gainditzen du hizkuntza gaitasunean. Latxa deskribatzen duen artikulu zientifikoan, corpusak nola bildu diren, eredua nola entrenatu den eta ebaluaziorako datu multzoen eraikuntza deskribatzen dira.

EGILEAK

Julen Etxaniz egile nagusietako bat da, Naiara Parezekin eta Oscar Sainzekin batera, eta Bangkoken izan da lana aurkezten eta saria jasotzen. "Saria ematean azpimarratu izan da Latxa ereduetatik haratago doala, baliabide urriko beste hizkuntzatara hedatu daitekeen metodologia eta ingurune esperimentala planteatzen baititu, zientzia irekiaren ildoa jarraituz", azaldu du Etxanizek.

Halaber, Oscar Sainzek azpimarratu du sarituen artean unibertsitate eta ikerkuntza zentro entzutetsuenak zeudela, eta bertan EHU aipatu izanak "zirrara berezia" ematen duela.

Era berean, Naiara Perezek gaineratu du Interneten dauden testuen arabera, euskara munduko hizkuntzen 50. postuan dagoela. "Euskarari aplikatutako teknikak kopuru antzekoa duen beste hizkuntza askori ere aplika dakizkieke, eta Latxarekin batera eraiki dugun azpiegiturak aukera ematen die ikertzaileei teknika hobeagoetan ikertzeko, hizkuntza guzti horien onurarako", azaldu du.

EUSKARA

Bestalde, biltzarrean aipatu izan da hizkuntza guztiak ez dutela arreta bera jasotzen ikerlarien aldetik, jakina dela hizkuntza nagusienetan egiten direla esperimentu gehienak, eta, horrela, beste hizkuntza batzuek arreta gutxiago jasotzen dutela, batez ere hiztun kopurua edo hiztunen aberastasuna txikia direnean. Horrek hizkuntza horietarako merkaturatzen den teknologian eduki dezakeen eragin negatiboa azpimarratu da Cohere enpresak egin duen hitzaldian.

Salbuespenak egon badaude, eta horien artean euskara aipatu da. Nahiz eta ingelesa izan artikulu zientifikoetako esperimentuetan gehien erabiltzen dena, hizlari gutxiko hizkuntza batzuk atentzioa deitu dute, tartean euskara, 1.200 artikulu baina gehiagok erabiltzen baitute beraien esperimentuetan.

EHUko HiTZ zentroko zuzendaria den Eneko Agirre artikuluaren autoreetako bat ere bada, eta erabilera horren garrantzia nabarmendu du: "Latxaren inguruan banatu diren corpus eta ebaluaziorako datu irekiak bultzada berria emango diote euskarak eta euskarearen inguruan egindako ikerketak duen prestigio eta zabalkundeari. Eta horri esker kanpoko eta bertako ikertzaileek euskaraz lortzen dituzten emaitzak hobetzen joatea espero dugu".

Contador