BILBO, 1 (EUROPA PRESS)
EHU Euskal Herriko Unibertsitatea Eusko Jaurlaritzak sustatu duen Euskorpora elkarteko bazkide berria da, eta euskararen corpus digitala sortzeko misioaren baitan, unibertsitateak egingo duen ekarpena Euskara eta Hizkuntza Plangintzarako Errektoreordetzak eta HiTZ zentroak lideratuko dute, "anitz urteko ibilbidea, jakintza eta eskarmentua nahiz egungo ikerketa lerroak oinarri hartuta".
Igone Zabala EHUko Euskara eta Hizkuntza Plangintzarako errektoreordeak adierazi duenez, "funtsezkoa da corpus digitala sortzea eta modu aktibo eta metodikoan garatzea euskara eraldaketa digitaletik kanpo ez geratzeko".
Bere iritziz, EHUk "ekarpen handia" egin dezake zeregin horretan, alorreko ezagutzatik ez ezik, azken hamarkadetan aurrera eraman duen corpusgintza lanetik ere.
EHUko Euskara Institutuak 2013. urtean aurkeztu zuen ordura arte euskararen corpusik handiena zena, eta Euskal Hizkuntza eta Komunikazioa Sailak HiTZ zentroko Ixa taldearekin eta Elhuyar Fundazioarekin batera hamarkada bat baino gehiago darama egun 26 milioi hitz baino gehiago dituen Garaterm corpus akademikoa elikatzen.
Ildo horretan, Zabalak nabarmendu duenez, "EHU eragile aktiboa izan behar da euskarazko corpusaren garapenean eta ustiapenean eta, horretarako, urrats garrantzitsua egin du Euskorpora elkarteko kide eginez".
Era berean, HiTZ zentroko zuzendari Eneko Agirrek adierazi duenez, "EHUk euskarazko hizkuntza teknologia hizkuntza nagusien pare jarri nahi du abangoardiako ikerkuntzaren bidez. Eta horretarako ezinbestekoa da corpusen lanketarako estrategian asmatzea, eta horretan ere lagundu nahi dio Euskorporari".
Izan ere, bere hitzetan, "adimen artifizial sortzailearen teknikek errotik aldatu dute hizkuntzaren teknologia eta corpusen lanketa garai berrietara egokitzea beharrezkoa da".
Ildo horretan, HiTZ zentroak ahotseko eta idatzizko corpus irekiak bildu eta lantzen dihardu, horrekin eredu libreak eraiki ahal izateko. https://huggingface.co/HiTZ webgunean ikus daitezke atzigarri dauden corpus eta ereduak, milaka aldiz jaitsi izan direnak kanpoko eta barruko eragileen aldetik.
Agirreren iritziz "oso garrantzitsua dira corpus libre horiek, edozein enpresak euskara ahal den denbora motzenean eta errazenean bere produktuetan integratu eta erabili dezan".
Adibide bezala, euskarazko ahotsaren transkripziorako dagoen corpus libre handiena dago bertan, 400.000 aldiz jaitsi izan dena, eta Latxa hizkuntza eredua entrenatzeko erabiltzen den corpusa, miloi bat aldiz jaitsi izan dena.