U zadnje vrijeme nasumično smo izloženi kontinuiranom bombardiranju medija pojmom Big Data, što na stručnim informatičkim portalima, što u dnevnim i tjednim novinama.
Određeni broj menadžera pomodno koristi spomenutu frazu bez da uopće shvaća sami koncept navedenog, što i ne čudi budući da je i sami naziv Big Data u određenom dijelu također i medijski nusprodukt. Da bi shvatili kompletnu paradigmu bitno je zagrepsti po površini i napraviti temeljnu raščlambu nečega što je već neko dulje vrijeme oko nas, ali u kombinaciji novih tehnologija predstavlja jedan posve novi način razmišljanja i djelovanja.
Različita istraživanja govore u prilog rasta Big Data industrije na razvijenim zapadnim tržištima između 20% pa sve do 60% zavisno o sektoru primjene. Samo na području SAD-a govorimo o milijardama dolara pa sve rečeno u prvom odlomku previše i ne čudi.
Suštinski gledano, ogromna količina podataka koja se svake sekunde generira u našem okruženja jest ništa drugo doli Big Data. Specifično za ovaj pojam jest to da se obujam tih podataka stalno mijenja - ono što je danas bilo „big“, za pola godine može biti laički rečeno „small“ - zavisno o IT alatima koje se koriste za obradu, količini generiranih informacija, stupnju strukturiranosti, itd.
Big Data kao trendovski pojam koji malo ljudi razumije - I. dio
Business Intelligence i deskriptivna analitika
No kako bi pobliže pojasnili što se zapravo krije iza ovog fenomena potrebno je krenuti od nečeg što se danas (na sreću) uvelike koristi i u Hrvatskoj, a zove se business intelligence. Kako su svi navedeni pojmovi gotovo povezani pupčanom vrpcom bitno ih je promatrati i analizirati zajedno budući da jedno bez drugog najčešće ne mogu postojati i funkcionirati. U startu se je potrebno pozvati na statističke metode koje su neizostavni element ove teme - deskriptivnu, prediktivnu i preskriptivnu analitiku.
Najveće domaće korporacije iz sektora bankarstva, telekomunikacija i maloprodaje koriste business intelligence alate koji podrazumijevaju raščlambu značajnih količina podataka (npr. prodajne transakcije), njihovu transformaciju i pohranjivanje u skladišta podataka. Upravo ovdje svoju ulogu dobiva deskriptivna statistika koja pokazuje što se dogodilo u prošlosti, opisuje svojstva promatranih podataka i omogućuje uvid u trendove. Procesi poput korištenja OLAP-a (postavljanje upita unutar višedimenzionalnih baza podataka - npr. Cognos) ili rudarenja podataka (otkrivanja trendova i povezanih uzoraka - npr. Statistica) predstavljaju osnovne radnje za business intelligence i često početni korak u implementaciji sustava za analitiku.
Ako mislite da je sadržaj na policama supermarketa i dostupnost voća više kvalitete u centru Zagreba spram dostupnosti u centru Koprivnice - slučajan, grdno se varate. U tom pogledu niti kartice lojalnosti ne postoje da vi ostvarite popust pri kupnji, već da trgovački lanac sazna što je više moguće informacija o vama i shodno tome prilagodi svoju ponudu. Isto primjerice vrijedi i za različite alate kojima se prate metrike na društvenim mrežama ili internet stranicama (Google Analytics).
Big Data i prediktivna analitika
Sljedeći nivo čini prediktivna analitika i upravo se ona najčešće veže uz Big Data fenomen, dakle ogromnu količinu podataka koje nastaju određenim radnjama i moguće ih je „uhvatiti“, odnosno bilježiti (između ostalog koristiti i nestrukturirane podatke te ih prilagodbom iskorištavati). Kao što sama riječ govori, prediktivna analitika predstavlja predviđanje budućnosti (ne u smislu tarota i Vidovitog Milana, već u pogledu vjerojatnosti koliko je neki događaj izgledan) i sljedeći je korak koji dolazi nakon uporabe klasičnog business intelligencea koji se bavi prošlošću.
Za razliku od deskriptivne, prediktivna analitika spada u kategoriju induktivne (inferencijalne) statistike i bavi se metodama koje se zasnivaju na teoriji vjerojatnosti, a koje pak omogućuju donošenje zaključaka o populaciji pomoću uzoraka iz iste. Korištenjem metoda poput multivarijatne analize u programima kao što je IBM SPSS moguće je s određenom vjerojatnošću predvidjeti više različitih ishoda koji se vežu uz tekuće trendove, međusobnu povezanost varijabli, itd.
Figurativno rečeno, sukus priče leži u poanti da od šume podataka uvidimo nama krucijalno važne informacije.
Preskriptivna analitika kao finalni cilj
Big Data kao trendovski pojam koji malo ljudi razumije - I. dio
Najviši i najkompleksniji stupanj analize kojeg nazivamo i preskriptivnom analitikom predstavlja postupak optimizacije poslovnog odlučivanja - tj. govori nam što bi u danim uvjetima nečeg što smo predvidjeli u prethodnom koraku bilo najbolje učiniti. Ipak, ranije opisana prediktivna analitika također se koristi i za odlučivanje jer SPSS ima širok spektar specijaliziranih „podalata“ - primjerice što će se dogoditi s jednom varijablom ako se promijeni druga povezana. Tu u konačnici dolazimo do zbunjujuće činjenice da se područja prediktivne i prerskriptivne analitike često zapravo preklapaju, iako nerijetko jedno (prediktivno) čini input za drugo (preskriptivno).
Iako ovo što ćemo navesti nije univerzalno pravilo, razliku možemo najlakše objasniti naglašavajući činjenicu se prediktivni pristup putem alata kao što su SPSS koristi za donošenje pojedinačnih odluka koje najčešće nisu povezane - npr. kojem korisniku telekomunikacijskih usluga vrijedi ponuditi promociju da ga se zadrži kao pretplatnika. Druga skupina alata koji spadaju u preskriptivnu skupinu poput ILOG-a svoju primjenu najčešće pronalazi kod skupnog odlučivanja, tj. postupka u kojem jedna odluka direktno utječe na drugu. To je npr. proces tvorničkog sklapanja automobila - kada, kako i na koji način će određene komponente biti proizvedene da bi se zajedno upotrijebile u nastavku procesa. U tom slučaju kašnjenje ili komponenta manjkave kvalitete direktno utječe na cjelokupan proces sklapanja vozila.
Big Data kao trendovski pojam koji malo ljudi razumije - I. dio
Budući da je tematika obrađena u ovom tekstu široke primjenjivosti na niz područja od ljudskog interesa, u SAD-u već postoji značajna količina studija koji educiraju stručnjake za the next big thing - posao data scientista. Takva naobrazba kombinira ono što se danas najčešće traži od kadrova - multidisciplinarnost - prije svega aplikaciju ekonomije, informatike, statistike, programiranja (npr. statistički jezik R), itd.
Kako je u Hrvatskoj kroz neki fakultet moguće steći edukaciju samo iz osnova gore navedenog (npr. rudarenje podataka na smjeru menadžerske informatike na EFZG) nije potrebno dva puta reći da i na ovom polju zaostajemo poveći broj godina za razvijenim tržištima. Bacanjem letimičnog pogleda na članke poput ovog postaje jasno koliko pažnje američki koledži već danas posvećuju ovom fenomenu i nude širok spektar najrazličitijih edukacijskih baccalaureus i master programa.
Jasno je da Big Data nije samo floskula, a to ćemo pokazati u nastavku koji slijedi.
PROČITAJTE: Big Data kao trendovski pojam koji malo ljudi razumije - II. dio