Blog: Deep learning alias Teória „hlbokého“ tresku

Matej Veverka, Analytika, Blog, 11. 11. 2019

Je to už nejaký ten fúzatý piatok, čo sme si pri jednom z mnohých interných brainstormingových „dejchánkov“ o smerovaní nášho odvetvia uvedomili, že špičková digitálna analytika budúcnosti sa nezaobíde bez znalosti a využitia machine learningu.

Za posledných pár rokov sme v Optimicse vymysleli niekoľko zaujímavých projektov s využitím tradičných „shallow“ techník strojového učenia. Nástroje webovej analytiky umožňujúce prístup k raw dátam sú pri správnej implementácii kvalitným zdrojom štruktúrovaných dát, ktoré k takýmto operáciám priam nabádajú.

V poslednom čase však stále viac a viac otvárame pri diskusiách s klientami možnosti využitia neštruktúrovaných dát, napr. textu a obrázkov. A sú to veľmi zaujímavé diskusie. Natoľko zaujímavé, že sme si predsavzali ešte viac sa ponoriť do týchto vôd. A keďže sú to vody pomerne hlboké, potrebovali sme do nášho arzenálu schopností zaradiť poriadny kanón s príznačným názvom – deep learning.

Deep learning je špecifickým podoborom strojového učenia. Predstavuje nový prístup, ako sa z dát učiť ich užitočné reprezentácie pomocou neurónových sietí. Tieto modely si môžeme zjednodušene predstaviť ako na seba nadväzujúce vrstvy, ktoré filtrujú vstupy a destilujú z nich užitočné generalizované vzory typické pre skúmaný jav. Pojem neurónové siete je referenciou na neurobiológiu a vzdialenú podobnosť s princípom fungovania neurónov v ľudskom mozgu. Jedná sa o pomerne jednoduchý koncept, ktorý však pri dostatočne veľkom rozsahu dosahuje pozoruhodné výsledky predovšetkým v oblastiach ako Computer Vision či Natural Language Processing.

Nejaké povedomie o problematike sme už mali, každopádne vývoj v oblasti je nesmierne rýchly. Rozhodli sme sa preto urobiť malý experiment v podobe návratu do školských lavíc s cieľom načerpať inšpiráciu a najnovšie poznatky z akademického prostredia. Pretože okrem JavaScriptu máme radi Python a hľadali sme inštitúciu zvučnejšieho mena, voľba padla na University of Essex v Brexitom zmietanom Spojenom kráľovstve.

Miestna Analytics & Data Science Summer School otvorila svoje brány študentom z celého sveta už po piaty krát. Osadenstvo bolo skutočne rôznorodé a právom sľubovalo veľmi inšpiratívnu atmosféru. Možnosť vymeniť si postrehy a skúsenosti s výskumníkom z CERNu, akademikmi z Mexika ci analytikmi zo Singapuru sa ukázala ako jeden z najužitočnejších benefitov nášho experimentu.

Nemenej užitočným benefitom bolo stretnutie s miestnymi odborníkmi z praxe, ktorí nadhodili do pléna 5 praktických problémov, ktoré by potrebovali pomôcť vyriešiť. Tímy nadšených účastníkov (nie, to skutočne nemyslím ironicky) tak po večeroch po lekciách dávali hlavy dohromady, aby na záver letnej školy odprezentovali zadávateľom návrhy svojich riešení, poniektoré dokonca na úrovni funkčných PoCs. Okrem zážitkov, kontaktov, notebookov s ukážkovými kódmi a zoznamov s odporúčanou literatúrou sme si odniesli zopár hlavných myšlienok do našej práce, ktoré môžeme zhrnúť do troch bodov:

  1. Najpálčivejším problémom aktuálne nie sú ani tak samotné techniky modelovania, ale získavanie dát, ktoré do modelov vstupujú a následné využitie predikcií v produkčnom prostredí. Data engineering rastie na význame.
  2. Spolupráca akademickej sféry s verejným sektorom (polícia, štátna a miestna správa) a firmami je v UK na vysokej úrovni a benefitujú z nej všetky zúčastnené strany. Závideniahodné, treba si brať príklad.
  3. Akademická oblasť je napriek svojim špecifikám a odlišnostiam obrovským zdrojom vedomostí a inšpirácie pre súkromnú sféru. Využime to, na učenie nie je človek nikdy starý.

Predovšetkým prvý bod krásne zapadá do našej aktuálnej vášne pre Google Cloud Platform, ktorá nám umožňuje vytvárať pre klientov komplexné end-to-end dátové pipeliny. Naše nadšenie pre využitie neštruktúrovaných dát v online marketingu po návrate ešte viac nakopol článok o kampani No Need to Fly – Around the World in Germany, v ktorej agentúry pre Deutsche Bahn využívajú lookalike algoritmy na obrázkoch dovolenkových destinácií. Pokiaľ ste tento výtvor nezachytili, stručné predstavenie nájdete napríklad zde . Ak bude niekto v budúcnosti vytvárať podobne kreatívnu kampaň v Čechách, chceme byť pri tom! Pokiaľ by ste potrebovali pomôcť s flexibilnou dátovou architektúrou v GCP či samotnou analytikou, dajte vedieť ;-)

My v Optimicse medzičasom pomáhame u klienta s nasadením prvého natrénovaného modelu na báze neurónových sietí a finišujeme s GCP certifikáciou. Pretože zvedavosť a túžbu posúvať veci vpred máme zakorenené v našej firemnej DNA. A to poriadne hlboko.

Co si přečíst dál?

Přidejte se do diskuze!

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *