NAIZ

Latxa euskararentzako hizkuntza eredu handienak jatorrizko ChatGPT gainditu du

Latxa euskararentzako hizkuntza ereduen familia bat da. Lizentzia libreko testuen corpus handienarekin eta hizkuntza gaitasunari, irakurmenari, kulturari eta azterketa profesionalei buruzko zenbait proba bankurekin banatzen da. Jatorrizko ChatGPT bertsioa (orain GPT 3.5 gisa ezaguna) gainditu du.

Latxaren logoa.
Latxaren logoa. (EHU)

«ChatGPT atera zenean imajinaezina zen hura gaindituko zuen euskarazko eredu irekia lor zitekeenik», azpimarratu du EHUren HiTZ zentroko zuzendari Eneko Agirrek. Bada, Latxak lortu egin du. Gainera, baliabide digital urriko hizkuntza baten eredu ireki batentzat lehenengo aldiz, azken bertsioa (GPT-4) hobetu du hizkuntza gaitasunean.

Unibertsitatearen ‘Campusa’ aldizkariak dakar berria. Bertan azaltzen denez, hizkuntza eredu handi bat (LLM ingelesez) adimen artifizialeko eredu bat da, giza hizkuntza ulertu eta sortzeko ikaskuntza automatikoko teknikak erabiltzen dituena, datu multzo masiboetatik sortutako ezagutzan oinarrituta. Euskarak ere badu bere hizkuntza eredu handia: Latxa. Meta-ren LLaMA ereduetan oinarrituta dago, eta 7-70 mila milioi parametro arteko ereduak biltzen ditu.

Gaur egungo LLMek errendimendu harrigarria dute baliabide ugariko hizkuntzetan, adibidez ingeleserako ChatGPT edo gaztelaniarako Geminik dituztenak. Euskara eta baliabide urriko beste hizkuntzen kasuan, ordea, haien errendimendua askoz baxuagoa da. Horrek handitu egiten du baliabide ugariko eta urriko hizkuntzen arteko arrakala teknologikoa, tresna digitalei dagokionez behinik behin.

EHUko HiTZ Hizkuntza Teknologiako Zentroak Latxa garatu du, muga horiek gainditzeko eta euskarazko ikerketa, berrikuntza eta produktuen garapena sustatzeko.

Bertsio berriak 1.200 milioi hitz ditu

Latxaren bertsio berria euskarazko corpus publiko handienaren gainean entrenatu da, eta corpus hori ereduekin batera banatzen da. Corpus horrek hedatu egiten du aurretik dagoena, gehienbat interneteko eduki publikoarekin sortutako corpusak darabiltzan EusCrawl. Guztira lau milioi dokumentu baino gehiago dira eta 1.200 milioi hitz, aurretik zeuden corpusak baino bi aldiz gehiago.

Ereduen kalitatea ebaluatzeko, hizkuntza gaitasunari, irakurmenari, kultura orokorrari eta azterketa profesionalei buruzko zenbait proba banku osatu dira.

Agirrek honako hau adierazi du: «Ingeleseko Llama ereduak probatu ditugu, bai eta GPT-3.5 Turbo eta GPT-4 Turbo ere, eta argi ikusten da Latxaren eredu onenak gainditu egiten dituela Llamak eta GPT-3.5 Turbo, proba kasu guztietan. Eredu onenak gainditu egiten du, halaber, GPT-4 Turbo hizkuntza gaitasunari dagozkionez, baina ez gainerako proba bankuetan. Latxa tamainan handitzen ari den neurrian, emaitzak ere hobeak dira».

Itxaropena ematen duen emaitza

Julen Etxanizek, Naiara Perezekin eta Oscar Sainzekin batera Latxaren egile nagusiak, nabarmendu duenez, pozgarria da hain corpus txikiarekin halako emaitza onak lortzea. «Aukera ematen digu teknologia berriak ikertu ahala hobekuntza gehiago egin ahal izateko. Oso emaitza esperantzagarria da, euskararentzat ez ezik baliabide digital urriko gainerako hizkuntzentzat ere bai».

Perezek gaineratu du «euskara munduko hizkuntzen 50. postuan dagoela interneten dauden testuen arabera. Badira dozenaka hizkuntza testuen antzeko kopuruak dituztenak; hortaz, euskarari aplikatutako teknikak beste hizkuntza horiei ere aplika dakizkieke, eta emaitzak antzekoak izango direla pentsatu».

Sainzek azpimarratu du GPT-4 Turbo gainditu dela hizkuntza gaitasunari dagokionez baina ez gainerako probetan. «Horrek esan nahi du hizkuntza jakin bateko tamaina handiko hizkuntza ereduen gaitasunak ez dituztela soilik haien hizkuntza gaitasunek mugatzen. Baliabide digital urriko hizkuntzen (besteak beste, euskara) emaitzak hobetzeko aukera ematen du, ingelesarentzat eredu ireki hobeak garatzen diren heinean. Arlo horretako lehia gero eta handiagoa denez, nahikoa litzateke Llama baino eredu ireki hobeen zain egotea, eta orduan GPT-4 gaindituko lukeen Latxa entrenatu ahal izango genuke».

Tresna arrakastatsuen oinarria

Argitu dutenez, Latxa ereduak oinarrizko ereduak dira, erabiltzaileentzako jarraibideak edo lehentasunak doitu gabekoak. Hortaz, eredu horiek ez dira publiko orokorrak zuzenean erabiltzeko modukoak. Hala ere, funtsezkoak dira euskararentzako hizkuntza teknologia erabiliko duten tresna arrakastatsuak eraikitzeko.

«Eredu ireki horiek argitaratu ditugu teknikari adituek erabil ditzaten produktuak egiteko edo interesatzen zaizkien aplikazioetara doitzeko. Aldi berean, erabiltzaileen jarraibideei jarraitzeko gai diren ereduak lantzen ari gara, baina oraindik ez dago argi euskaraz gaztelaniaren edo ingelesaren antzeko kalitatea izango duten elkarrizketa ereduak eraiki daitezkeen ala ez», esplikatu du Agirrek. Horixe da, hain zuzen ere, beren ikerketen helburuetako bat.

HiTZ ikerguneko zuzendariak erran du 70B eredua Estatuko edozein hizkuntzatarako entrenatutako eredurik handiena dela eta horrek sendotu egiten duela zentroak tamaina handiko hizkuntza ereduetan duen lidergoa.