Google Analytics: Jak vám může vzorkování dat zlomit vaz

Jan Sehnal, Analytika, 29. 1. 2015

Retenční kampaně jsou u našich klientů, kterým poskytujeme chytrý e-mailing, poslední dobou v kurzu. A není se čemu divit – pracují automaticky, každý den, bez jakéhokoliv úsilí, probouzí spící zákazníky, zapojují je zpět do nákupního procesu a zejména: generují tržby! Nástrahy na vás však mohou čekat ještě před vyhodnocením kampaně – nechat se svést z cesty a dojít k zavádějícím manažerským rozhodnutím je totiž tak jednoduché.

Stejně jako se to mohlo stát jednomu z našich klientů, který nám do Optimics poslal dotaz:

Dobrý den,
v srpnu nám hodně klesla průměrná hodnota objednávky u retenční kampaně. Je pro to nějaké vysvětlení?

Součástí byl i přiložený export reportu z Google Analytics, který si klient vygeneroval a v němž meziměsíčně srovnával vybrané metriky retenční kampaně. Pomiňme nyní nepříliš vhodné srovnávání relativně krátkých časových úseků u čerstvé kampaně a zaměřme se na samotný report.

GA_report_sampling

Ten je poměrně jednoznačný a na první pohled skutečně v srpnu došlo ke snížení průměrné hodnoty objednávky (-40,93 % wow), která klienta překvapila. Trendové šipky v červené barvě nemá nikdo rád, začali jsme proto pátrat, jak klient daného přehledu vůbec dosáhl. Měli jsme podezření, které nám vzápětí potvrdilo samotné záhlaví reportu. Totiž první a vůbec nejdůležitější specifikum, které je nutné brát v potaz při práci s Google Analytics, je sampling neboli vzorkování dat.

Vzorkování dat je aplikováno za účelem urychlení analytického nástroje. Spočívá v použití statistických metod pro odhady jednotlivých metrik na základě menšího vzorku dat. Zpracování pak má pozitivní vliv na rychlost generování reportů, na druhou stranu negativně ovlivňuje jejich přesnost a spolehlivost. Ke vzorkování dochází zejména tehdy, kdy je překročen počet 250 000 návštěv pro vytvoření požadovaného ad-hoc reportu.

Vytvoříte-li si tedy ad-hoc report jako náš klient (aplikujete segmenty na standardní přehledy, využíváte sekundární dimenze apod.), pro jehož sestavení Google Analytics potřebují více než 250 000 návštěv, použije se jen vzorek z těchto dat – jednotlivé hodnoty pak budou dopočítány, resp. statisticky odhadnuty. Lze si tak snadno dovodit, že tento fakt může mít – a reálně má – dopad na data.

Zpět do reportu retenční kampaně; do reportu, na základě kterého klient usoudil, že průměrná hodnota objednávky spadla meziměsíčně o polovinu; do reportu, který mohl být pro klienta předzvěstí prostého stopnutí kampaně, radikálních řezů v marketingovém plánu či dokonce vyhlášení války!

(OK, takovou pohromu by špatné vyhodnocení kampaně asi nepřineslo, ale při nejmenším byste si jako marketingový specialista mohl ve firmě lehce zlámat vaz, že?)

Pamatujete na již zmíněné záhlaví přehledu? Tak přesně tuto část stránky je potřeba mít na mysli a koutkem oka sledovat. Informuje vás o tom, zda vůbec a případně jakou měrou, bylo potřeba při generování reportu využít sampling. Pokud aplikujete segmenty na standardní přehledy, použijete sekundární dimenze nebo třeba spustíte personalizované přehledy, sampling je zpravidla na světě – seznamte se.

Suma sumárum: pro vygenerování reportu, který nám zaslal klient, bylo použito pouze 12,94 % z celkového počtu návštěv (viz žlutý řádek). Zbytek byl statisticky odhadnut… Zkreslení prezentovaných hodnot tedy nemusí být pouze naší hypotézou, ale čirým faktem.

Nesklánějte hlavu, nesklápějte uši, nestahujte ocas mezi nohy – existuje několik variant, jak se s tímto omezením částečně, či zcela vypořádat, a jak jít tomu štěstíčku trochu naproti:

  1. Nastavit velikost vzorku / vlastní přesnost reportu, resp. navýšit počet reálných návštěv, které budou použity pro vygenerování daného reportu.
  2. Snížit počet návštěv pod 250 000 potřebných pro vytvoření ad-hoc reportu (např. zkrácením období či zúžením segmentu).
  3. Obejít vzorkování přes Google Analytics API
  4. Přejít na skvělé Google Analytics Premium!
  5. Zamyslet se, zda nemůžete najít odpověď na svou otázku v některém ze standardních reportů (bez použití segmentů či sekundárních dimenzí).

První možnost je poměrně jednoduchá a efektivní – stačí jeden klik a počáteční hladinu vzorkování můžete posunout až na 500 000 návštěv. Výměnou za tento luxus je zpomalení generování reportu a zejména fakt, že počátek samplování jsme pouze odsunuli… Jak ad-hoc vypadá report po manuálním navýšení přesnosti reportu?

GA_adhoc_precision

Zdvojnásobili jsme vzorek = měli bychom dostat přesnější data! Bylo tomu ale skutečně tak? Z přesnějšího reportu jsme zjistili, že propad průměrné hodnoty objednávky se probloubil dokonce na 52,36 %, zvýšil se však i počet uživatelů (a otočil trend). Žádná sláva, pojďme k dalším možným řešením.

Druhý bod pro nás nebyl vhodný – snížením počtu návštěv by se klient nedomohl meziměsíčního srovnání. Třetí varianta je skvělá a zábavná, ale z důvodu vyšší pracnosti pro potřebu klienta nevhodná. Bod čtyři by byl pro klienta z dlouhodobého hlediska zcela nejefektivnější, pro aktuální potřebu ale nebyl dostupný.

Fanfáry! Jako ideální se tak ukázala možnost č. 5, ta vůbec nejjednodušší aktivita, kterou by měl každý marketingový specialista využít v první řadě – zamyslet se. Zamyslet se, zda nemůže získat odpověď na svou otázku v některém ze standardních reportů a elegantně se tak vyhnout samplingu. (Přiznáváme, ve skutečnosti bylo pořadí možných řešení jiné, ale chtěli jsme vás napínat do poslední chvíle.)

A protože našeho klienta v danou chvíli zajímal skutečně jen údajný propad průměrné hodnoty objednávky, nebylo nic snazšího, než se podívat do standardního přehledu Akvizice –> Kampaně (nově Akvizice –> Kampaně –> Všechny kampaně), pro který se vzorkování dat neuplatňuje, pokud nezačnete segmentovat.

GA_campaign

V meziměsíčním srovnání nedošlo k avizovanému snížení průměrné hodnoty objednávky o 40,93 % ani 52,36 %, ale jen o 17,19 %, což se vzhledem k nízkému počtu transakcí (44 a 64) dá přisuzovat zcela běžné rozkolísanosti dat. (Ano, mohli bychom pokračovat dál a zjistit, zda v předchozím období neproběhla například nějaká extrémně vysoká objednávka, která by průměrnou hodnotu objednávek zkreslila, podívat se na čísla z mailingového nástroje či segmentovat, ale vyhodnocení kampaně si necháme na další článek.)

Bingo!

Pokud Google Analytics použijí vzorkování, nepřesnost dat je citelná zejména na malých číslech (např. transakce). To může vést k zavádějícímu pohledu na výsledky a následná managerská rozhodnutí. Mějte to na paměti, pokud vyhodnocujete metriky malých čísel, nebo – jako v našem případě – testujete čerstvou marketingovou kampaň. A nepanikařte – jedna červená metrika ještě neznamená, že něco musí být zákonitě špatně.

Teprve teď se náš klient dostal na správnou startovní čáru, ze které může začít odkrývat další čísla retenční kampaně, dolovat data a postupně vyhodnocovat. Samozřejmě, čím déle a hlouběji se bude v analýze pohybovat, neobejde se bez použití segmentů či sekundárních metrik. Ale to už je jiná písnička, kterou si dnes nepustíme.

Tento příběh ze života agentury vám může být malou ukázkou toho, jak jednoduché je se ještě před samotným vyhodnocením kampaně splést; jak snadné je dívat se na jiná data; jak prosté je chybně vyhodnotit metriky a učinit špatné rozhodnutí, pokud se jako marketingový specialista alespoň nezamyslíte.

Zlomte vaz!

Co si přečíst dál?

Přidejte se do diskuze!

2 reakce na Google Analytics: Jak vám může vzorkování dat zlomit vaz

Petros | 23. 2. 2015 20:08

Velmi hezká ukázka, nedávno jsem řešil přesně stejný problém :)

Jan Sehnal | 24. 2. 2015 23:03

Díky! A vyřešil jste jej stejnou cestou? :-)

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *