NAIZ

‘Latxa’ euskarazko hizkuntza eredurik handiena garatu du EHUren HiTZ zentroak

Hizkuntza bat ulertzen eta testua sortzen ikasten duen tresna adimentsuak dira hizkuntza ereduak. EHUren HiTZ zentroari esker, euskarazko handiena jaio da: ‘Latxa’. Etorkizunean ChatGPT bezalako txatbot-ak sortzeko baliagarria izan daiteke.

‘Latxa’ izena jarri diote sortu berri den euskarazko hizkuntza ereduari.
‘Latxa’ izena jarri diote sortu berri den euskarazko hizkuntza ereduari. (UPV/EHU)

Euskal Herriko Unibertsitateko HiTZ zentroak ‘Latxa’ hizkuntza ereduaren lehenengo bertsioa garatu du, hizkuntza bat ulertzen eta testua sortzen ikasten duen Adimen Artifizialeko tresna.

Datu multzo masiboetatik sortutako ezagutzan oinarritzen dira LLM ingelesezko siglekin ezagutzen diren tresna hauek eta ‘Latxa’ Meta-ren LLaMA ereduan oinarrituta dago, 7 eta 70 milioi parametro arteko ereduak biltzen dituena.

LLMak, esate baterako, ChatGPT edo Bard izeneko txatbot-en funtzionamendurako erabiltzen dira. Txatbotak Adimen Artifizialaren bidez elkarrizketak simulatzen dituen programa informatikoak dira, interneteko konexioa behar dutenak.

EHUk ohar batean azaldu duenez, euskara bezalako baliabide urriko hizkuntzetan, txat mota honen errendimendua «ausazko asmatzetik hurbil dago» eta «honek baliabide ugariko eta urriko hizkuntzen arteko arrakala teknologikoa handitu egiten du, tresna digitalei dagokienez behinik behin».

Ez dira publiko orokorrarentzat

‘Latxa’ren ereduak aldez aurretik trebatutako oinarrizko ereduak dira eta erabiltzaileari zuzendutako jarraibide eta hobespenetan ez dira findu. Beraz, ohartarazten dute ez direla publiko orokorrak zuzenean erabiltzeko.

«Eredu ireki hauek kaleratzen ditugu teknikari adituek produktuak garatzeko erabil ditzaten edo eredua bera aplikatzeko jakinetara doitu dezaten», azaldu du Eneko Agirrek, HiTZ zentroko zuzendariak. «Dagoeneko erabiltzaileen jarraibideak segitzeko gai diren ereduak lantzen ari gara, baina oraindik ez dago garbi publiko orokorrak GPTrekin gazteleraz edo ingelesez lortzen duen adinako kalitatea duten ereduak eraiki daitezkeenik euskararentzat», gaineratu du, ikerketaren jomuga hori dela zehaztuz.

1,72 milioi dokumenturekin

Ereduak garatzeko GPU motako zerbitzariak erabili dituzte, eta azken ereduak CINECAko Leonardo superordenagailuan entrenatu dituzte EuroHPC Joint Undertaking barruan (EHPC-EXT-2023E01-013 proiektua).

Eredua eraikitzeko testu multzoari dagokionez, EusCrawl erabili dute, euskarazko testuez osatutako testu multzoa, 1,72 milloi dokumentu eta 288 miloi hitz dituena. EusCrawl kalitatezko edukia duten 33 webguneetatik erauzi zen, internetetik corpusak osatzeko beste teknikak baino kalitate hobea eskainiaz.

Kalitatearen ebaluazioa

Ereduen kalitatea ebaluatzeko, hainbat gaitasun linguistikotan ereduek duten gaitasuna neurtzen dute, hala nola, irakurketen ulermena, sen ona eta arrazoibidea, sentimenduen analisia, jarreren hautematea, gaien sailkapena, korreferentzia, inferentzia eta hitzen adierak.

Irudiak eredu ezberdinen errendimendua erakusten dute atazaz ataza, eta emaitzen batez bestekoa eskuineko aldean. «Ingelesezko LLaMA ereduak eta orain arteko euskara biltzen duten hizkuntza eredu onenetariko batzuk probatu ditugu, gure ereduekin buruz buruko alderaketa ahalbidetzen dutenak. Bertan argi ikusten da gure hiru ereduak direla hoberenak, eta tamaina handitu ahala emaitzak ere hobetzen doazela», azaldu du Agirrek.