Nestrukturovaných dat přibývá, HP hledá řešení v Autonomy
Za to nejzajímavější osobně považuji povídání o akvizici do společnosti Autonomy, proběhnuvší na konci minulého kalendářního roku. Ta vyšla giganta na částku převyšující 10 miliard dolarů, což rozhodně není žádný malý a bezvýznamný obchod. Nejvíce pak na celém nákupu překvapuje investování tak vysoké částky na poměrně malou softwarovou společnost.
Zpočátku se mohl nákup zdát spíše dalším krokem vedle, ale opak by mohl být v nejbližších letech pravdou. Dnešní obrovské objemy dat, které vytvoří (nejen) rozsáhlá internetová komunita, nás staví před problém, kdy je těžké najít v nich užitečné a relevantní informace. Valná většina lidmi vytvořeného obsahu se již dnes nachází v tzv. nestrukturované podobě, tedy v takové podobě, kterou nelze vtěsnat do tabulek databází. Jednat se může o běžná data zábavního průmyslu (hudba, filmy, fotografie apod.), nebo uživateli nahraná videa a fotografie na sociálních sítích typu Facebook.
Právě Facebook se nedávno pochlubil tím, že na jeho servery přibývá 750 milionů obrázků za pouhé dva dny. V takovém počtu nestrukturovaných - nezařazených dat je těžké něco vyhledat, natož s nimi efektivně pracovat. Jedním z příkladů by mohla být diskusní fóra, na nichž se baví nespočet uživatelů. Zjistit z publikovaných příspěvků nejčastější názor a zájmy lze jen těžko, neboť nejsou v žádné přehledně roztříděné formě.
Zde se dostáváme zpět k technologii společnosti Autonomy, jejíž hlavním zakladatelem je matematik Dr. Michael Lynch. Společnost, nyní divize spadající pod HP, se zabývá právě vývojem nástrojů pro zpracování dat v nestrukturované podobě (nutno podotknout, že tato řešení již nějakou dobu nabízí svým klientům). Poskytované řešení zvládá zpracování nestrukturovaných dat v nejrůznější podobě a vedle toho dokáže nabídnout funkce, jako je "chytré" vyhledávání. To funguje na jiném principu, než tradiční vyhledávání pomocí klíčových slov. Řešení Autonomy si všímá souvislostí mezi vyhledávaným dotazem a obsahem i v situaci, kdy data neodpovídají "přímo". Na pozadí všeho běží nespecifikovaný algoritmus, nebo dokonce vícero algoritmů.
To má velký potenciál, neboť strukturování dat je poměrně nákladné a jejich počet výrazně klesá. Dnes se podle některých studií pouze 15% všech dat nachází v roztříděných databázích a během několika příštích měsíců/let má toto číslo klesnout až na 5%. Jedním z příkladů využití je situace, kdy máme výše zmiňovaná diskusní fóra plná různých názorů a informací. Chceme-li například získat odpověď na dotaz, jaké je převládající hodnocení současné vlády, dokáže algoritmus Autonomy snadno a rychle zjistit převládající názor a předložit výsledky v různých výstupech, např. v podobě grafů. Tím je zřejmé, jakou mají podobné technologie hodnotu a potenciál. A jejich důležitost poroste…