U prethodnom članku opisani su analitički pristupi u obradi podataka i to prvenstveno prema načinu provođenja obrade te stupnju kompleksnosti.
Zašto u tekstu nisam krenuo opširno pojašnjavati suštinsku pojavu Big Data fenomena leži u činjenici da bi u pravilu analitičke (statističke) metode trebale biti glavni cilj obrade ogromnih količina podataka te u konačnici služiti kao ispomoć kod donošenja različitih odluka. Stoga su u prvom koraku bili jasno oslikani neki od procesa koji se apliciraju u iskorištavanju podataka iz Big Data okruženja kako se ne bi stekao dojam da su "veliki podaci" svrha sami sebi.
To nas dovodi do dvije činjenice - prediktivne statističke metode nisu nikakva novina (npr. koriste se za razvijanje ekonomskih modela), a još manje silni podaci generirani u IT sustavima. Tako postavljeno, Big Data fama mogla bi podsjećati na izmišljanje tople vode, no istina je daleko od toga.
U inicijalnom članku stoji da se obujam nastalih podataka konstantno mijenja što ujedno predstavlja i ključ cijele priče. Naime, u recentnoj prošlosti količina generiranih podataka nije bila nimalo blizu tako velika kao danas, a kao najbitnija stavka - nisu bile razvijene tehnologije poput paralelne obrade podataka, distribuirane pohrane na velikom broju servera, koncept poslovanja u oblaku, itd.
Big Data kao trendovski pojam koji malo ljudi razumije - III. dio
Upravo zato današnji napredak omogućuje iskorištavanje nesagledive količine podataka koji su se prije smatrali "otpadom". Pod tim u prvom redu podrazumijevamo nestrukturirane i polustrukturirane podatke poput slika, videa, zvučnih zapisa, različitih internet logova, itd. - dakle zapisa koji se ne mogu smjestiti u relacijske baze podataka. U takvoj okolini pojavljuju se gore spomenuti koncepti paralelne obrade (MapReduce) i distribuiranog skladištenja (HDFS). Odličan primjer za to je Hadhoop kojeg nikako ne bi trebalo promatrati kroz sferu postojećih tradicionalnih baza, već kao jedan posve novi koncept spremanja podataka.
Na sljedećoj infografici prikazno je more različitih softverskih rješenja koja služe za prebacivanje i obradu podataka u Big Data okruženje. Tek tada možemo razmišljati o upotrebi statističkih metoda opisanih u prethodnom tekstu.
Big Data kao trendovski pojam koji malo ljudi razumije - II. dio
Primjeri koji život znače
Konkretni primjeri implementacije mogu se naći u svim sferama ljudskog djelovanja - biznisu (internet trgovine, pretraživači, društvene mreže, proizvodna industrija, itd.), sportu, poljoprivredi, politici, obavještajnim agencijama, snagama sigurnosti... nastavite niz po želji.
Tako je primjerice dežurni holivudski alfa muškarac i scijentološki prvak Tom Cruise još 2002. djelomično nagovijestio aplikaciju nečeg što bi danas najlakše mogli smjestiti u sferu Big Data miljea i prediktivne analitike. U odličnom SF spektaklu Minority Report snage sigurnosti provode sistem preventivnih uhićenja osoba prije nego iste postanu zločinci - ubojice, provalnici, silovatelji i slično. Kako se danas prediktivna analitika koristi vjerojatnostima nastanka nekih događaja (dakle ne može sa 100% točnošću predvidjeti rezultat kao što sugerira film), američka policija i srodne institucije već naveliko koriste softverska rješenja koja temeljem različitih inputa projiciraju mogućnost nastanka zločina u određenim kvartovima velikih gradova te tamo preventivno upućuju snage reda. Čime tek raspolažu njihove obavještajne službe uopće je bespredmetno razgovarati. U tom pogledu dovoljno je posjetiti stranice tvrtki kao što su Booz Allen Hamilton i Palantir pa da stvari postanu mnogo jasnije.
Nadalje, opće je znano da su internet kompanije jedne od najvećih generatora podataka - osim sveprisutnog Googlea, Yahooa i sličnih, Facebook je već 2012. uz pomoć Hadoopa imao spremljeno preko 100 petabajta podataka (1 petabajt = 1000 terabajta). Tako posloženi sustavi zatim "hrane" različite druge alate, između ostalog solucije poput AdWordsa ili Analyticsa koje svojom uporabom omogućavaju visoku razinu najučinkovitije individualizirane propagande.
Telekom kuće, financijske institucije, energetske kompanije te općenito tvrtke i sektori koji generiraju velike količine transakcija predstavljaju odlične primjere implementacije Big Data rješenja. Raznim metodama telekomi mogu povećati učinkovitost medijskih kampanja i prihvaćanja ponuda od strana korisnika, banke i osiguravajuće kuće stimulirati kreditnu potrošnju ili otkriti prevare, a energetski sustavi učinkovitost prijenosa energije. Kombinacije i mogućnosti su zaista neograničene i nabrajanje bi moglo teći unedogled.
Big Data kao trendovski pojam koji malo ljudi razumije - II. dio
Hrvatska zbilja
Kako je cijela priča konkretni zamah dobila tek unatrag nekoliko godina, previše ne čudi da je Hrvatska i ovdje na začelju kolone. Neke domaće tvrtke koje se prvenstveno bave BI sustavima poput Poslovne Inteligencije, Neosa i Koiosa počele su eksperimentirati s "velikim podacima", pri čemu ne treba zaboraviti niti na hrvatsko predstavništvo IBM-a. Prema javno dostupnim podacima, u implementaciju takvih sustava krenula su poduzeća iz kategorija već spomenutih primjera - telekomunikacijske tvrtke, banke i maloprodajni lanci - u prvom redu Vipnet, Hrvatski Telekom i Agrokor (Konzum).
U pogledu domaćih sigurnosnih i obavještajnih snaga u kuloarima se može saznati da MUP i SOA koriste tek neke načelno "jednostavnije" alate koji nemaju doticaj s prediktivnom analitikom. Tu prije svega valja navesti softverski paket I2 kojeg je IBM akvizicijom dodatno razvio i unaprijedio. Isti se između ostalog može koristiti za razradu povezanosti praćenih telefonskih brojeva različitih osoba koje provodi domaći OTC (operativno-tehnički centar).
Postavlja se pitanje kakve bi šokantne (ali očekivane) rezultate mogli dobiti o radu hrvatske javne uprave kada bi u nekom suludom scenariju vlasti implementirale sustave o kojima ovdje pričamo?
Američka politička sfera
Jedna od najupečatljivijih Big Data priča je svakako ona koja se veže uz američke predsjedničke izbore iz 2012. kada je Obama potvrdio svoj drugi mandat. O tome više u trećem, ujedno i završnom članku ove sage.