CDR.cz - Vybráno z IT

Mají se datoví vědci bát?

Stačilo pouhých deset let a média jsou zase plná článků, které se snaží říkat, proč už datové vědce nepotřebujeme. Z čeho pramení jejich pesimismus a je práce datových vědců stále relevantní? Pojďme si posvítit na fakta.

Foto: Markus Winkler na Unsplash

„Datový vědec: nejvíc sexy povolání 21. století“. Tak zněl titulek článku v časopisu Harvard Business Review z roku 2012. Jednalo o oslavu toho, jak tato profese dokáže vykřesat poklad z chaotických, nestrukturovaných dat, a tezi předkládanou tímto článkem sdílel zástup odborníků.

Vyhořelí zaměstnavatelé

Datová věda se jako obor saturovala. A to právě díky humbuku, který se kolem této niky v posledním desetiletí strhnul – přispěly k tomu i přemrštěné průměrné platy v zahraničí prezentované zprávami společností Glassdoor a McKinsey, ale v Česku na tom datoví vědci taky nejsou špatně. Řada majitelů firem a vedoucích pracovníků si tím vším nechala zamotat hlavy a řekla si, že umělá inteligence a datová analytika budou pro jejich firmy zázračným lékem. Rozvášnili se tedy v přijímání nových zaměstnanců. Někteří kvůli tomu, aby podpořili růst a zvýšili prodeje, jiní proto, aby ukázali, že dokážou držet krok s nejnovějšími technologickými trendy.

Datová analytika ale bohužel nemusí nutně přinášet řešení za dvakrát kratší dobu, a to ani s těmi správnými odborníky. Často je provázena dlouhou fází experimentování, potřebujete nespočet iterací a zhusta musíte spoléhat na metodu pokus-omyl, abyste dospěli ke smysluplnému výsledku. A je třeba mít na zřeteli i to, že tahle analytická práce obvykle trvá měsíce, někdy i roky.

Zaměstnavatelům, kteří očekávali rychlá řešení, tedy zůstaly oči pro pláč. Na své datové specialisty vyvíjeli tlak a ti začali propadat frustraci. A situaci nepomohla ani nedostatečná zkušenost s řízením datových specialistů, což vedlo k problémům v komunikaci a neochotě schvalovat rozpočty. Tím ale problémy zdaleka nekončí. Datoví specialisté byli v některých organizacích vnímáni jako ti chytří technici, kteří dokážou leccos zařídit, takže se z nich stali lidé, kteří řeší problémy. A to i z těch, kteří by byli užitečnější jinde.

Společnosti s tímto uspořádáním pak po chvíli přestávají význam datových vědců vnímat. Buď jsou datové týmy předelegovány na něco jiného, nebo zaměstnanci odcházejí, protože nesnesou vágně definovanou náplň práce nebo neustálé škrty provázené pochopitelnou frustrací.

Zaměstnavatelé ale do těchto datově orientovaných týmů investovali obrovské množství peněz. Jen když viděli, že se jim investice nevrací, cítili se podvedeni a vsaďte se, že si na datové vědce neváhali došlápnout.

Podobnost problémů a automatizace řešení

Pokud se společnost nezabývá výhradně problematikou dat, bude ji vždy sužovat podobné problémy jako ostatní firmy. Pracovní postupy související s daty jsou ve všech organizacích víceméně stejné, z čehož vyplývá, že většina firem najímá lidi, kteří pořád dokola řeší stejné typy problémů. Logický závěr tedy zní, že většina přístupů, které datový vědec používá, již byla v minulosti uplatněna.

Vezměme si například odvětví hazardních her. Online kasina se při určování nejvhodnějších her, kurzů, bonusů, věrnostních odměn a marketingových strategií do značné míry spoléhají na poznatky založené na datech. Nabízejí různé varianty stejných produktů a služeb, tudíž je pro ně efektivnější a levnější nasadit raději automatizovaný software než datového vědce. A tahle analogie by se dala použít na jakékoli jiné odvětví.

Velké firmy, jako je Google a Amazon, této uniformnosti problémů využívají napříč všemi společnostmi. S podporou armády těch nejpovolanějších datových vědců zavádějí po celém systémy strojového učení a cloudové platformy připravené k použití – například Google AutoML. Stačí, když do jejich systému naťukáte svá data, a hned můžete začít čerpat ze znalostí všech těch prvotřídních odborníků, které živí.

Platformu může pochopitelně využívat jak datový vědec, tak jakýkoli jiný tým se základními znalostmi vlivu hyperparametrů na algoritmy. Takový inženýr strojového učení by to zvládl levou zadní.

Přímočaré lekce a návody, které poskytovatelé softwaru Automatic ML nabízejí, nejsou v tomto případě příliš užitečné, protože se v nich stírá potřeba rozsáhlých znalostí v oblasti datové vědy. Třeba kurz Professional Machine Learning Engineer Certification od Googlu toho nemá s tradiční datovou vědou mnoho společného a dotýká se pouze základů statistiky. Přesto vám to stačí k tomu, abyste mohli s pomocí jejich automatizačního softwaru začít působit jako datoví specialisté.

Je datová věda oborem na ústupu

Mnoho lidí se domnívá, že pokroky v oblasti AutoML, platformy pro zpracování velkých dat a nástroje s nízkým kódem / bez kódu, dokáží práci datových vědců nahradit. Technologie sice odjakživa způsobovaly disrupci v nejrůznějších odvětvích, ale s podepsáním ortelu datové vědě bychom se neunáhlovali. Koneckonců, už léta máme k dispozici špičkový účetní software, ale stále máme účetní, nebo ne?

V každém oboru je vždy zapotřebí lidský přístup. Jakkoli se většina problémů protíná, vždy se najde problém, který automatizované nástroje nedokážou vyřešit. Nástroje sice nabízejí výběr sady algoritmů, ale pokud někdy budete nuceni vypořádat se s problémy, které vyžadují kombinaci různých přístup, nejvíc muziky vám přinese poctivá ruční práce.

Každý datový specialista ví, že neexistuje nic jako vyřešený problém. Minimálně ne na dlouho. Soubor dat sice může být stejný, ale často budete mít za úkol dosáhnout unikátního obchodního cíle. Automatizační software, jako je třeba DataRobot, navíc nezvládá přípravné zpracování a další náročné úkoly, které sestavení modelu předcházejí.

Nezapomínejme, že datový vědec není cenný jen pro své technické nebo modelovací dovednosti, které zvládne kdejaký inženýr strojového učení. Vytváření vazeb mezi čísly a řešenými problémy se zkrátka neobejde bez statistického vzdělání a hluboké znalosti dat, ergo datové vědy.

Datoví vědci si tedy vždycky svoje místo najdou, pokud budou umět pracovat s daty a řešit problémy –⁠ například při vytváření doporučovacích systémů, segmentačních modelů nebo vyhodnocování potenciálu potenciálních i zavedených zákazníků. Z toho ale zároveň vyplývá, že datový vědec nemá pro organizaci žádný skutečný přínos, pokud nejsou výsledky jeho práce vidět.

Faktem je, že za většinou úkolů, které datoví vědci dělají, přichází fáze automatizace, takže pro odborníky v tomto oboru je velmi důležité, aby si neustále rozšiřovali své kompetence, a to zejména v oblastech, kde automatizace není možná. Skvělým začátkem můžou být například aplikované odborné znalosti v daném oboru, vytváření hodnoty pro firmy z hlediska příjmů a komunikační dovednosti.