M.A.
BILBO

Euskaltzaindiaren corpus berria, euskararen erabilera errealaren ispilu

Euskaltzaindiak euskararen garai digitalerako tresna estrategikoa jarri du abian, Euskararen Erreferentzia Corpusa (EEC). Lau urteko lan mardularen emaitza da, eta 2000-2023 aldian euskaraz idatzitako testu multzo zabal eta askotarikoa bildu du; orotara, 123.000 dokumentu baino gehiago eta 154 milioi hitz.

Euskaltzaindiaren Bilboko egoitzan egindako aurkezpena.
Euskaltzaindiaren Bilboko egoitzan egindako aurkezpena. (GARA)

Corpus berria ez da soilik datu-biltegi bat, baizik eta XXI. mendeko euskararen erabilera errealaren argazkia. Martxoan Bilbon egindako aurkezpenean, Andres Urrutia euskaltzainburuak azaldu zuen corpusak euskararen eguneroko bizitzaren erregistroa osatzen duela, eta halaber, komunitatearen lan kolektibotik sortu dela: «Euskara bizia, askotarikoa eta etengabe aldatzen ari dena jaso nahi izan dugu. Hori da gure hizkuntzaren benetako indarra».

Corpusak testu mota ugaritako laginak biltzen ditu, besteak beste, testu literarioak, hedabideetakoak, webguneetakoak, eta abar. Edonola ere, Euskaltzaindiko ordezkariek nabarmendu nahi izan zuten proiektua irekia eta eguneragarria dela; urtean behin berrituko da, azken 25 urteetako testuak gordez.

EECren helburua ez da soilik ikertzaileei tresna tekniko bat eskaintzea; irakasleek, itzultzaileek, sortzaileek eta teknologia arloko garatzaileek ere baliatu ahal izango dute. Hain justu, euskararen erabilera aztertzeko, hizkuntza ereduak sortzeko edota adimen artifizialeko aplikazioetan txertatzeko balioko du.

Bestalde, Euskaltzaindiko Iker sailaren arduradun Miriam Urkiak corpusaren diseinuaren ezaugarriak azaldu zituen xehe-xehe. Haren arabera, proiektuaren muina oreka eta ordezkagarritasuna dira: «Corpusak dialekto, erregistro eta eduki moten arteko oreka zaindu du. Gai sozialak, zientifikoak, literarioak eta teknikoak elkarrekin agertzen dira, euskararen erabilera errealaren mosaikoa osatzeko».

HIZKUNTZAREN MAPA BIZIA

Era berean, esan beharra dago Corpusak ez duela ahozko transkripziorik jasotzen, baina bai ahozko erabilerarako sortutako testuak; hala nola irratiko eta telesailetako gidoiak. Horiei esker, euskararen erregistro naturalagoak ere aintzat hartzen dira.

Euskaltzaindiak azpimarratu du EEC ez dela soilik erakunde bakar baten ekimena: 68 erakunde publiko eta pribatu, komunikabide nagusiak eta hainbat eta hainbat eragile sozial aritu dira datuak eta testuak eskaintzen. Horregatik, Urrutiaren arabera, «ez da akademiaren tresna hutsa, baizik eta euskararen komunitatearen adierazpen kolektiboa».