NAIZ

Euskara da Wikidatako hizkuntza guztien artean esanahi kopururik handiena duena

Wikidatan dauden hizkuntza guztien artean, euskara seigarrena da hitz-erroen (lexemen) kopuruan, bigarrena hitz-formen kopuruan (hitz-erro bakoitza deklinatuta sortzen diren forma guztiak kontuan hartuta), eta hizkuntza nagusia da esanahi kopuruari dagokionez.

Wikidata elkarlanean editatzen den datu-base erraldoi bat da. (ELHUYAR)
Wikidata elkarlanean editatzen den datu-base erraldoi bat da. (ELHUYAR)

Euskal Wikilarien Kultur elkartearen eta Elhuyarren lankidetzari esker, Wikidatako hizkuntza guztien artean, euskara seigarrena da hitz-erroen (lexemen) kopuruan, bigarrena hitz-formen kopuruan (hitz-erro bakoitza deklinatuta sortzen diren forma guztiak kontuan hartuta), eta hizkuntza nagusia da esanahi kopuruan, ingelesaren, gaztelaniaren eta frantsesaren aurretik, besteak beste.

Wikidata elkarlanean editatzen den datu-base erraldoi bat da. Wikimedia Fundazioak kudeatzen du, bere proiektuetan erabili ahal izateko, adibidez Wikipedia elikatzeko.

«2012an Wikidata abian jarri zenetik, pixkanaka elikatuz joan gara. Besteak beste, duela ia bi urte, Zientzia eta Teknologiaren Hiztegi Entziklopedikoko 6.500 kontzeptu inguru txertatu genituen, baita Teknopolis telebista-saioko hainbat bideo ere», azaldu du Elhuyarrek prentsa ohar batean.

Datu mota berriak

Azken urteotan, datu mota berriak gordetzen hasi da Wikidata, hizkuntza askotan, hiztegien antzeko egitura batean. Informazio hori guztia hiru multzotan sailkatuta gordetzen da: hitz-erroak (hiztegi-sarrerak edo lexemak), formak (hitz bakoitzak deklinabide-kasuaren arabera har ditzakeen formak), eta esanahiak edo definizioak.

Euskal Wikilarien Kultur Elkartearen eta Elhuyarren arteko lankidetzari esker, Elhuyarren Ikaslearen Hiztegiko hainbat hitz edo lexema (izen kategoriakoak) gehitu dituzte Wikidatan. Guztira, 10.000 lexema, bakoitzaren 65 forma (deklinabideko kasu guztietakoak, singularrean, pluralean eta mugagabean) eta haien definizioak erantsi dituzte.

Lan honi esker, orain errazagoa da euskarazko hitzak identifikatzea Wikipediako testuetan esate baterako, eta laster aukera izango da garapen teknologiko berriak egiteko datu-base horietatik abiatuta.

Lan honetarako Elhuyarreko I+Gko lantaldeak garatu duen programazio-kodea erabilgarri dago GitHub-en.