2017/01/28

Arantza Diaz de Ilarraza
EHUko Informatika Fakultateko irakaslea
Hizkuntza prozesamenduaren teknikaz balia gaitezke

Interneten aurki ditzakegun dokumentuen kantitatea ikaragarria da, eta, gainera, esponentzialki handitzen da urtero. Hori dela-eta, gure eskura testu-informazio bolumen itzela dugu, eta hazten doa. Hala ere, testu-informazio hori erabiltzea ez da erraza; laguntza behar dugu, eta konputagailuek lagun diezagukete zeregin horretan. Gaur egun sistema informatikoek datuak erraz prozesatzen dituzte, baina testua prozesatzea ez da lan erraza. Testua prozesatzea esaten dugunean, funtsean, testua ulertzea adierazi nahi dugu.

Hizkuntza prozesamenduaren arloaren (natural language processing) azken helburua hizkuntza automatikoki ulertzea da. Horretarako, hizkuntzaren mailak automatikoki tratatu behar dira: morfologikoa, sintaktikoa, semantikoa eta pragmatikoa. Arlo horretako ikerketa 1930ean hasi zen. Garai hartako ikertzaileen lehen helburuak itzulpen automatikoarekin lotuta zeuden, baina urte gutxiren buletan konturatu ziren ezarritako helburu horiek ez zirela hain lorgarriak, eta 1960ko hamarkadan beste norabide bat hartu zuten. Gaur egun hizkuntzaren prozesamendua pil-pilean dagoen arloa da, konputagailuaren eta gizakiaren arteko edo gizakien arteko komunikazioaren garrantzia gero eta handiagoa baita.

Historikoki, hiru lan-paradigma identifikatu dira hizkuntzaren prozesamenduan: ezaguera linguistikoan edo erregeletan oinarritua, datuetan oinarritua eta hibridoa (bai ezagueran eta bai datuetan oinarritua). Azkeneko urteetan, datuetan oinarritutako paradigma da gehien erabiltzen dena, gero eta datu gehiago ditugulako, eta hori da paradigma horren oinarria: datuetatik ikastea; zenbat eta datu gehiago, orduan eta hobeto ikasiko du sistemak.

Jende askok ez daki teknologia hori zertan datzan, baina gure bizitzaren alderdi funtsezkoa bilakatu dela esan behar dugu. Egunero ditugu teknologia hori erabiltzen deneko adibideak, edo haren erabilerak gure zeregin askoren garapena erraztuko ligukeen kasuak.

Aipatutako adibide bat akats ortografikoak eta gramatikalak saihesteko erabiltzen ditugun zuzentzaileak ditugu. Gaur egun zuzentzaile ortografikoak, estilo zuzentzaileak edo gramatikalak erabiltzea oso arrunta da, edozein testu gure hizkuntzan edo ondo menperatzen ez dugun hizkuntza batean idatzi behar dugunean.

Itzulpen automatikoa, berriz, baliagarri gertatzen ari da beste hizkuntza batean idatzita dagoen testu baten ulermen orokorra lortzeko, eta zenbait hizkuntzaren artean lortzen diren emaitzak nahiko onak dira, batez ere domeinu espezifikoetan (meteorologia, arlo juridikoa, osasungintza…); ez dira, noski, perfektuak, baina lagundu laguntzen dute itzulpenean, postedizioa erraztuz eta produktibitatea hobetuz. Sistemok historikoki erregeletan oinarritutako paradigma jarraitu dute, baina badira urte batzuk datuetan oinarritutako teknikak gailendu direna, batez ere itzulgai diren hizkuntzetan idatzitako testu paralelo kopuru handiak eskuragarri direnetik.

Bestalde, hizkuntzaren prozesamenduko teknikak gero eta gehiago erabiltzen dira bilatzaileetan, galderen erantzun egokiagoak lortzeko. Gure galderari erantzuteko, bilatzaileek galderaren eta testuen arteko adostasuna aztertzen dute (zati komunak), eta gehien hurbiltzen diren dokumentuak itzultzen dituzte emaitza gisa. Antzekotasun hori detektatzeko, oso baliagarriak dira hizkuntzaren prozesamenduko teknika aurreratuak (semantikan oinarritutakoak).

Oraindik, baina, ez dira lortzen guk nahiko/beharko genituzkeen emaitzak. Galdera baten erantzunean, galderako hitzak agertzen diren dokumentuak ez ezik, hitz horiekin semantikoki erlazionatukoak dauzkatenak ere eskuratu nahiko genituzke; adibidez, “neurtzeko tresnei” buruz jakin nahi baldin badugu, erantzun gisa “barometroak”, “termometroak”, “higrometroak” eta abar dauzkaten web orriak ere eskuratu nahiko genituzke.

Datozen urteetan teknologia honen baliagarritasuna gero eta nabarmenagoa izango da eguneroko beharretan. Konputagailuak gero eta hobeto dabiltza itzulpen automatikoan, dokumentuen sailkapenean, bilaketetan eta baita ahotsaren ezagutzan eta hizketaren sintesian ere, baina oraindik ez dute hizkuntzaren esanahia ulertzen. Bitartean, baina, balia gaitezke lagungarriak izan daitezkeen aplikazioez. •