Big Data, IoT snímače, zariadenia generujúce údaje, ktoré exponenciálne rastú. Všetko už môže byť pripojené na internet. Problém však je, čo robiť s takým množstvom údajov a ako ho spracovať. Ak sa firma rozhodne reálne zaoberať takou témou, ako je spracovanie údajov, má to asi pádny dôvod. Aký bol teda ten váš?

V Instarea už roky pracujeme a pomáhame mobilným operátorom tzv. monetizovať dáta, čo znamená nájsť pre dáta ďalšie využitie – či už interne, alebo externe. V praxi si pod tým môžete predstaviť analýzu pohybu SIM kariet, aby ste porozumeli pohybu obyvateľstva, alebo koľko ľudí reálne býva či pracuje v nejakej oblasti. Na spracovanie takejto analýzy sa používajú reálne miliardy dátových bodov aj v takej malej krajine, ako je Slovensko. Ako sme tieto riešenia implementovali vo väčších krajinách, prišli sme na limity klasických komerčných databázových technológií a rozhodli sa v rámci nášho R&D spojiť sily s FIIT STU a pustiť sa cestou výskumu a vývoja vlastného prístupu založeného na grafických kartách.

Hardvérovú akceleráciu možno zabezpečiť aj inými spôsobmi, využitím FPGA alebo Quantum. Prečo ste sa rozhodli pre GPU, keď existujú aj iné spôsoby?

Dôvodov prameniacich z našich požiadaviek na databázu je hneď niekoľko, aj keď sme zvažovali rôzne prístupy. Štandardne sa výpočty odohrávajú v CPU, a teda aj databázové technológie vo svojej architektúre s CPU počítajú. Zrýchľovať takto postavenú databázu sa dá buď pridávaním nodov, alebo natlačením všetkého do pamäte a počítaním z tejto pamäte. Na naozaj veľké dátové sety však ani toto nestačí a škálovanie začne byt extrémne drahé. Jedna možnosť je napríklad ísť cestou FPGA a mať „jednoúčelový“ čip na konkrétne použitie. Problémom je však špecifickosť, teda aj dostupnosť takéhoto hardvéru. Ďalšou alternatívou je čakať a dúfať v skorú aplikovateľnosť Quantum. Realisticky to však nevidím skôr ako o 10 až 15 rokov. Jedna vec je mať dostatočnú kontrolu nad HW konceptom, druhá bude následné prepojenie, čiže realita komerčného využitia. Rozhodnutie pre GPU definitívne padlo, keď sme sa na to pozreli nielen cez prizmu výpočtového výkonu, ale aj z pohľadu dostupnosti v cloude, v štandardnom HW a za rozumnú cenu, v neposlednom rade z hľadiska schopnosti prepojenia s Tensor Cores (TPU) na umelú inteligenciu. Dostatočne silné GPU majú mnohé developerské počítače aj laptopy, sú široko dostupné v cloude a vďaka klesajúcej cene sa už aj ekonomicky vyrovnávajú CPU vďaka vysokej efektivite paralelizovaného výpočtu.

Aké sú hlavné prínosy využitia grafických kariet pri spracovaní údajov v porovnaní s CPU a na čo by sa potenciálni záujemcovia mali sústrediť, aby vyťažili z GPU maximum?

Je to práve tá schopnosť extrémnej paralelizácie výpočtu. Grafická karta je vlastne tiež procesor, ale s inou architektúrou a zameraním. Klasický CPU alebo to, čo si pod slovnom procesor väčšinou predstavíme, má 4 až 16 jadier, v ktorých prebiehajú výpočty. Grafická karta má svoje jadrá síce jednoduchšie, ale má ich často vyše 5 000. Ak vieme náš výpočet rozložiť na mnoho parciálnych výpočtov bežiacich paralelne, môže ho GPU veľmi urýchliť. Pri programovaní GPU je teda nutné sústrediť sa na paralelizáciu – hovorí sa, že algoritmy na GPU musia byť zahanbujúco paralelné.

Spracovanie údajov v reálnom čase nie je jednoduchá záležitosť. Stanovili ste si požiadavky pred výberom spôsobu spracovania dát a využívania databázového systému? Dosiahli ste tak štandardizovaný prístup, ktorý možno využívať kdekoľvek na svete?

Na začiatku sme riešili najmä náš vlastný problém a až časom sme si uvedomili presah a že riešenie, ktoré staviame, by mohlo byť užitočné pre mnoho ďalších oblastí. Našou primárnou požiadavkou bola schopnosť veľmi rýchleho plnenia dát do databázy, čo je nevyhnutné pre IoT a iné smerovanie toku údajov, tzv. data streaming. Ďalej to bola limitácia predagregácií, rýchle spracovanie odpovede na dotazy nad multimiliardovými dátovými setmi, štandardizovaný prístup a syntax, aby sme sa vedeli do databázy pripojiť napríklad cez Python, ODBC či C# a aby sme dáta vyťahovali z databázy cez „čistú“ SQL syntax, ktorú každý vývojár a dátový analytik ovláda. A práve tieto predpoklady umožnili zamýšľať sa nad širokou aplikovateľnosťou v rôznych odvetviach.

Grafické karty využívate teda na spracovanie údajov v reálnom čase a na projekte spolupracujete s STU FIIT, kde vznikla qikkDB. Čo je qikkDB a na čo slúži?

QikkDB sa zrodila ako ročníkový projekt v spolupráci s extrémne šikovným tímom z FIIT STU, kde s týmto projektom takmer vyhrali ročníkovú súťaž pod dohľadom dekanky profesorky Bielikovej. QikkDB je teda výskumný projekt stĺpcovej databázy akcelerovanej grafickými kartami. Slúži pre vývojárov a dátových analytikov, ktorí potrebujú v milisekundách spracúvať mnohomiliardové dátové zdroje.

Počas VSE unIT Conference 2020 ste použili formuláciu „rýchle spracovanie údajov“. Čo to znamená byť rýchly a ako rýchlo to je?

Ako príklad si predstavte, že ste distribútor elektrickej energie a máte pripraviť informačnú obrazovku, ktorá ukáže dáta jedného odberného miesta elektriny. Máte tabuľku s 10 miliardami jednotlivých záznamov z rôznych inteligentných meracích systémov. Zbehnúť takýto „výber“ na štandardnej CPU databáze ako Oracle alebo MS SQL Server pri normálnom HW by mohlo znamenať dlhé minúty až hodiny čakania, s našou qikkDB by to boli desiatky až stovky milisekúnd. Vieme si predstaviť, že je mnoho prípadov, kde si nemôžete dovoliť ten luxus čakať hodiny na výsledok nejakého výpočtu, napríklad pri platbe kartou sa nemôže banka rozhodovať hodinu, či zamietne alebo schváli transakciu, lebo chce prejsť rizikový model, či pri platbe nejde o podvod. Ani analytik nechce čakať 10 hodín na to, aby zistil, že má chybu vo výpočte, alebo že sa chce pozrieť na inú skupinu zákazníkov.

Cieľom každého podniku je vytvárať zisky a optimalizovať výrobu. Aké kroky by mal podnik podniknúť, ak sa rozhodne implementovať GPU do svojej stratégie? V akých oblastiach priemyslu vidíte potenciál využitia GPU?

GPU majú svoje špecifické využitie a oblasti, kde pomôžu. Určite je to technológia, po ktorej by som pozeral, ak sa firma už borí, alebo vie, že ju v strednodobom horizonte čaká práca s naozaj veľkými dátami, s ktorými aj plánuje aktívne pracovať. Oblasťami, kde sa treba nad využitím tejto technológie zamyslieť, je logistika, energetika, automobilový priemysel či operátori TELCO – jednoducho všade, kde nejaká forma IoT skokovo nafúkne objem dát, ale aj vytvorí biznis príležitosti na ich využitie. Nakoľko spoločnosti v týchto odvetviach sú už na cloudovej vlne, adaptácia riešení postavených na GPU nie je problém – viac-menej všetky veľké cloudové spoločnosti poskytujú aj GPU HW.

Priemysel 4.0 vstupuje do ďalšej fázy a čoraz viac sa skloňuje spojenie umelá inteligencia, konkrétne strojové učenie. Je GPU databáza vhodná napríklad aj na machine learning?

Machine learning a umelá inteligencia sa spájajú s množstvom dát – a áno, GPU vie zásadne pomôcť vďaka rýchlemu dopytovaniu a rýchlemu (pre)trénovaniu. Nové karty NVIDIA GPU navyše už majú aj Tensor processor (TPU) priamo integrovaný práve na urýchľovanie UI.

V štandardnom BI svete sú dostupné rôzne nástroje na analýzu údajov, vy ste však neostali iba pri tom, ako rýchlo posúvať dáta do týchto nástrojov. Pozerali ste sa na to, ako dáta lepšie spracovať a pracovať s nimi, keď ich už máte k dispozícii v surovej podobe. Ako teda údaje rozprávajú príbeh bez toho, aby som bol skúsený programátor, ktorý sa hrabe v údajoch? Ako možno prezentovať údaje v zrozumiteľnej podobe pomocou TellStory?

Na jednej strane sa s qikkDB snažíme zrýchľovať existujúce BI nástroje ako PowerBI, Tableau či Microstrategy. Máme však za to, že dnešné BI nie je optimálny stav – na to, aby som si niečo z informačnej obrazovky PowerBI odniesol, musím rozumieť tomu, na čo sa pozerám, prácne to tam hľadať a spájať si informácie smerujúce k nejakému biznis rozhodnutiu. Na to má manažér často málo času, prípadne mu chýba analytická zručnosť. Preto veríme v posun od BI k tzv. data story telling, teda rozprávaniu dátového príbehu ľudskou rečou a zvýrazňovaním dôležitých faktov – vo forme rolovacieho webového príbehu alebo vygenerovaného videa či vo forme notifikácie s najdôležitejšími faktami (napríklad celkové tržby boli včera 12 546 eur, čo je o 10 % viac oproti bežnému utorku). S týmto presvedčením sme vytvorili www.tellstory.cloud, aby vedel takéto dátové príbehy vytvárať aj nevývojár. Jeden príklad za všetky, pozrite si dátový príbeh o priebehu koronavírusu vo svete, kde sa každý deň všetky dáta automaticky prerátavajú vrátane textových faktov: https://tellstory.cloud/covid19_datastory/.

TellStory poskytne príbeh analytikom alebo aj bežným ľudom na základe vlastných preferencií. Plánujete v TellStory využiť umelú inteligenciu? Čo by mala robiť?

Zárodky umelej inteligencie sme už v rámci akademického projektu s FIIT STU zakomponovali. Keď sa dostanem k nejakému dátovému zdroju, nemám úplne predstavu, čo v ňom je, alebo aké zaujímavé ukazovatele by sa tam našli. Použili sme umelú inteligenciu na to, aby sa na základe minulých použití grafov na obrovskej vzorke naučila odporúčať vhodné grafy pre akýkoľvek dátový zdroj. Takýmto spôsobom vznikne akoby „obrys“ grafov, ktoré si potom ako používateľ viem upravovať, čo opäť prispieva k zlepšovaniu odporúčacích schopností umelej inteligencie.

Dnešné BI nástroje sú poháňané aj umelou inteligenciou, ktorá napomáha rýchlejšiemu spracovaniu údajov. Aké zmeny myslenia sú dnes potrebné, aby podniky zostali konkurencieschopné?

Aj keď si uvedomujeme, že by naše rozhodnutia mali byť riadené údajmi, v realite toto často iba proklamujeme. V rámci našej rannej pracovnej rutiny, nech už máme na starosti čokoľvek, by mal byť pohľad na našu prácu predošlého dňa v dátach – či to je pohľad našu informačnú obrazovku PowerBI a rozmýšľanie nad ňou, alebo prečítanie si dátového príbehu zhŕňajúceho výrobu, predaj, starostlivosť atď. A práve o tieto dátové podklady sa majú opierať všetky naše rozhodnutia. Túto reaktívnosť musíme potom obohatiť o proaktívnosť a musíme začať hľadať ľudí a prediktívne riešenia. Takto musí fungovať celý manažment firmy, inač takáto digitálna transformácia ostane iba na papieri.

Ako vidíte stav, že Big Data ovplyvnia priemysel v nasledujúcich 5 – 10 rokoch? Aké sú vaše budúce kroky?

V oblasti priemyslu sa nechcem pasovať za odborníka a už vôbec predpovedať budúcnosť v takom horizonte. Čo však viem, že Big Data a digitálna transformácia neminú žiadnu oblasť, a teda určite ani priemysel. My k tomu chceme prispieť svojou troškou, napríklad aj prostredníctvom qikkDB – práve hľadáme pokročilých používateľov z rôznych oblastí, ktorí by nám pomohli nájsť tie správne príklady použitia, kde by sa ukázal prínos využívania GPU. Títo pokročilí používatelia budú formovať aj naše kroky z pohľadu nášho ďalšieho rozvoja.

Ďakujeme za rozhovor.