Itziar Irigoien
EHUko Informatika Fakultateko irakasle eta ikerlaria

«Big data»

Egunero egiten ditugun ekintza arruntekin etengabe datuak sortzen ari gara ia ohartu gabe: autobusa txartel bakarrekin ordaindu dugu eta erregistratuta gelditu dira eguna, ordua, bidaia, ordaindutako prezioa... Edo Twitter sare sozialean zer dioten begiratu dugu, Whatsapp aplikazioan lagun batekin «hitz egiten» aritu gara, supermerkatuan fidelitate txartela erabili dugu, ospitalean erradiografia atera digute... Bada, jarduera horietan guztietan datu ugari pilatzen joan gara.

Orain urte gutxi arte datuak diseinu jakin bati jarraituz, modu ordenatu batean bakarrik biltzen genituen. Datuak lortzea zaila zen, askotan zeregin neketsua eta oro har zenbakizko datuak biltzen ziren. Egun, ordea, industria, medikuntza eta salerosketa prozesuetatik datu pila bil ditzakegu gero eta ahaltsuagoak diren ordenagailuen bidez, eta, gainera, datuok oso era desberdinetakoak izan daitezke. Izan daitezke zenbakizkoak, baina baita bideoak, irudiak edo testuak ere. Gainera, datuok denboran zehar biltzen joan gaitezke. Dagoeneko “big data” ingelesezko terminoa erabiltzen da datu masiboen biltze, kudeaketa eta prozesamenduaz hitz egiteko. Hori guztia, besteak beste, estatistika eta datu analisi alorretan jarduten dugunontzat erronka berriak sortzen ari da, izan ere, estatistika klasikoan erabilgarriak diren hainbat metodo ez dira egokiak datu multzo ikaragarriak aztertzeko. Horren adibide eta ondorio dugu aztertu beharreko datu multzoa ikaragarria denean, milioika datu puntu eta test asko eginez gero, ez dela harritzekoa horien artean faltsu positiboak topatzea.

Datu multzo ikaragarriak sortu, jaso eta aztertu behar dituzten diziplinak asko eta anitzak dira. Hortxe dugu puri-purian neurozientzia, garunaren egituran eta funtzionamenduan sakontzeko erresonantzia magnetikoen irudiekin (MRI) lanean. Irudi horiek aztertzeko konputazio ahalmen handia behar da, are gehiago DNAtik eratorritako datu-baseekin batera aztertu nahi badira. Bi arlo horiek elkarrekin aztertzeak, hasiera batean, gaixotasun genetikoen eta garunaren arteko erlazioa aztertzeko aukera ematen du. Onura nabarmena izan daiteke, baina datu multzo horiek handiegiak dira metodo estandarrekin kudeatu eta elkar partekatzeko. Gainera, zenbaitetan pribatutasunaren inguruko arazoak ere sortzen dira. Argi dago, ordea, diziplina desberdinetatik eratorritako datu baseak elkarrekin uztartzeak informazioan urrats kualitatiboa ekar dezakeela. Adibide bat jartzearren, osasun zentro eta administrazioetan jasotako datu-baseak ingurumenaren arloan jasotakoekin uztartzeak, esate baterako airearen kalitatearen ingurukoekin, epidemiologian erabaki eraginkorragoak hartzea ekar dezake datu horiek egoki aztertu ahal izanez gero.

Erronkak asko izanik ere, baditugu jada eguneroko bilakatu zaizkigun hainbat aplikazio datu andana horiek aztertzetik eskuragarri ditugunak: Google beraren itzulpen automatikorako aplikazioa, eskaintza orokorrak egitetik bezero bakoitzari egin ohi dituen erosketen araberako eskaintza pertsonalak egiteko supermerkatuentzako aplikazioak, trafikoaren kudeaketarako aplikazioak... Adituek diotenez, norbanakoari egokitutako mediku tratamenduak ere hortik etorriko dira. Txanponak, ordea, beti ditu bi alde, eta, txanponaren beste aldean, pribatutasuna galtzearen arriskuak daude. Zalantza gabe pribatutasuna bermatu beharra dago arau egokiak jarriz, pertsonaren eta gizartearen onura bilatzen duten arauak beste arrazoi guztien gaindi jarriz. Eta noski, gure aukera eta ardura ere bada gure datu pertsonalak non eta nori ematen ari garen arretaz aztertzea eta nahi badugu ezetz esatea. •