NAIZ
BILBO

EHUko Hizkuntzen Arteko Corpusak lau hizkuntza eta 20 milioi hitz biltzen ditu

EHUko Euskara Institutuak 65 milioi hitz gehitu dizkio azken eguneraketan Egungo Testuen Corpusari, eta, modu honetan, 270 milioi hitz ditu XXI. mendeko testuekin egindako eta bilaketak lemaka edo hitzeka egiteko aukera ematen duen corpusak. Halaber, Hizkuntzen Arteko Corpusa aurkeztu dute, corpus «berezi eta berritzailea», lau hizkuntza parekatzen dituena (euskara, gaztelania, frantsesa eta ingelesa), eta 20 milioi hitz biltzen dituena.

Patxi Baztarrika eta Pello Salaburu, Hizkuntzen Arteko Corpusaren aurkezpenean. (IREKIA)
Patxi Baztarrika eta Pello Salaburu, Hizkuntzen Arteko Corpusaren aurkezpenean. (IREKIA)

Pello Salaburu EHUko Euskara Institutuaren zuzendariak aurkeztu ditu, Bilboko Bizkaia Aretoan, Egungo Testuen Corpusaren eguneraketa eta Hizkuntzen Arteko Corpusa, Euskal Adizkitegi Automatikoa eta Euskal Kasutegi Automatikoa aplikazio berriekin batera, ondoan Patxi Baztarrika Lakuako Hizkuntza Politikarako sailburuordea zuela.

Salaburuk azaldu duenez, hizkuntza corpus bat formatu elektronikoan bildutako testu multzo bat da, «erreminta paregabea hizkuntza bat ikertzeko eta kontsultak egiteko orduan». Esaldi edota hizkuntza baten alderdi konkreturen bat ikertzerakoan erreferentziazko elementua izatea da hizkuntza corpusen helburua.

EHUko Euskara Institutuak zenbait corpus ditu, eta ostiral honetan nobedadeak aurkeztu ditu. Horrela, Egungo Testuen Corpusa (ETC) XXI. mendeko testuekin egindako corpusa da, eta bilaketak lemaka edo hitzeka egiteko aukera ematen du, modu oso errazean. Gordeta dituen testuak espresuki aukeratuak dira, alegia, ez dira estatistikaz hautatu, baizik eta argitaratzen diren testuen kalitateagatik. Iturriak askotarikoak dira: liburuak, eleberriak, egunkariak, aldizkariak eta abar.

Salaburuk nabarmendu duenez, dagoeneko 270 milioi hitz ditu Egungo Testuen Corpusak. Hasiera batean 205 milioi hitz zituen, eta azken eguneratzea dela eta, beste 65 milioi hitz gehitu zaizkio. «Corpus honen hitz kopurua izugarri handia da. Izan ere, euskaraz dagoen corpusik handiena da. RAEren mende honetako testuen corpusarekin alderatuta, Egungo Testuen Corpusak hitz kopuru gehiago dauka. 2015ean egin zuten azken eguneratzea eta garai hartan 215 milioi hitz zituen RAEk», azaldu du.

Hizkuntzen Arteko Corpusa

Bestalde, Hizkuntzen Arteko Corpus (HAC) «berezi eta berritzaileak», 20 milioi hitzekin, lau hizkuntza parekatzen ditu: euskara, gaztelania, frantsesa eta ingelesa. Parekoak diren testuetan idazle bakoitzak hitza nola erabili duen ikusten da, eta, horrela, itzulpenak egiteko, adibidez, oso baliagarria da. Aldi berean, Salaburuk azaldu duenez, itzultzaileen lan egokia zein batzuetan ezinbestean egin behar diren «tranpatxoak» agerian uzten ditu.

Euskaraz, gaztelaniaz, frantsesez eta ingelesez idatzita dauden liburu eta testuak jasotzen ditu, hau da, berdin du jatorrizko hizkuntza zein den. Izan ere, Aristotelen ‘Metafisika’ edota Jonathan Swiften ‘Gulliver-en bidaiak’ moduko lanak ditu, beste hainbat hizkuntzara egokitu direnak, baina frantsesez, euskaraz, ingelesez eta gaztelaniaz daudenez, tokia dute corpus honetan.

Honela, Salaburuk adibide modura azaldu duenez, bilatzailean «etxea» hitza idazten bada, testu hauetan zehar «etxea» hitza agertzen diren esaldi guztiak agertuko dira eta itzultzaileak esaldi horiek nola itzuli dituzten ikusi ahal izango da. «Erreminta paregabea da hizkuntza lan tresnatzat duten profesionalentzako, alegia, oso baliagarria da beste itzultzaileen erreferentziak izateko», adierazi du.

Bi aplikazio

Bestalde, batez ere ikasleei begira egin diren bi aplikazio berri ere aurkeztu ditu EHUko Euskara Institutuak: Euskal Adizkitegi Automatikoa (ordenagailu, telefono eta tabletetan) eta Euskal Kasutegi Automatikoa (ordenagailuan).

Lehenak euskal adizkien berri ematen du. Aditz formanteak (nor-nori-nork), aldia (oraina, iragana) eta ahala (bai, ez) aukeratu eta modu automatikoan sortzen ditu adizkiak; edo alderantziz, adizkia eman eta osagaiak ateratzen ditu kolore ezberdinetan.

Bigarrenari dagokionez, nahi den hitza hartu, numeroa (singularra, plurala), kasua edo posposizio mota aukeratu, eta berehala ematen du adibide bat, eta esteka egiten du datu baseetan dauden gainerako adibidez guztietara. Hitzen definizioa ere ematen du.

Ahalegin «errentagarria»

Patxi Baztarrika Hizkuntza Politikarako sailburuordeak gogorarazi du 2008an sinatu zutela lehen lankidetza hitzarmena EHUko Euskara Institutuarekin, eta azpimarratu du Lakuaren aldetik egiten den ahalegin ekonomikoa «benetan oso errentagarria» dela, baita euskararentzat eta euskal hiztunentzat ere.

Horrela, jakinarazi du Hizkuntza Politikarako Sailburuordetzak 28.700 euroko diru laguntza eman diola aurten EHUko Euskara Institutuari lan hauek eta beste batzuk egiteko.