CDR.cz - Vybráno z IT

Nový nástroj Datavzrd: Čitelné datové sady bez programování

Datavzrd je nový open-source nástroj z Univerzity Duisburg Essen, který ze složitých tabulek automaticky vytvoří interaktivní HTML report. Bez nutnosti programování, bez serveru – přehledný výsledek přímo do e mailu, vědeckého manuskriptu nebo webu.

Ve vědě je práce s tabulkovými daty všudypřítomná – ať už v medicíně, sociálních vědách nebo archeologii – přesto je často obtížné je přehledně sdílet. Problém je v tom, že formát jako CSV nebo Excel nepodporuje filtrování, třídění ani navigaci, takže sdílení větších datových sad rychle ztrácí smysl. Datavzrd se snaží tento problém elegantně vyřešit.

Nový nástroj z Institute for Artificial Intelligence in Medicine (IKIM) na Univerzitě Duisburg‑Essen vůči běžným vizualizačním aplikacím jako R Shiny představuje rozhodně jednodušší přístup. S Datavzrdem stačí obyčejný YAML soubor, ve kterém uživatel jednoduše popíše, jaké sloupce chce zobrazit, jaké grafy nebo filtrování má obsahovat a kam směřovat odkazy mezi daty. Není potřeba psát program ani provozovat webový server. Výsledkem je samostatný HTML report — bohatý na interaktivitu a zároveň lehce sdílitelný, třeba mailem nebo jako doplněk k publikaci.

Zdroj: Shutterstock

Datavzrd zvládne datasety od desítek až po miliony řádků. Umožňuje propojovat různé tabulky, hierarchicky je procházet či zobrazovat sloupce jako heatmapy, histogramy nebo „pill plots“. Takový report zvládne každý prohlížeč, bez nutnosti online připojení nebo backendu.

Jeho síla spočívá v uživatelské přátelskosti: konfiguraci klidně zvládne i vědec bez kódovacího backgroundu. Stačí napsat, jaké datové soubory obsahují CSV, TSV, JSON či Parquet formáty, a nechat program vytvořit interaktivní výstup. To vývojáři dělali v Rustu, nástroj je open-source (MIT licence) a dostupný přes GitHub, Cargo či Conda.

IKIM tým v článku publikovaném v PLOS ONE představuje praktické příklady jeho využití. Například v molekulární tumor board interaktivně zpřístupnili genetické nálezy a léčebné možnosti pro konkrétní pacienty. Jindy zase v archeologii vizualizovali zdobené textilní fragmenty z různých lokalit – vzájemně svázané a snadno prozkoumatelné.

Stručně řečeno, Datavzrd přináší sadu nástrojů pro komunikaci vědeckých dat, která je intuitivní, flexibilní a udržitelná. Vykresluje složité vztahy, umožňuje rychlou interaktivitu a je použitelný napříč všemi obory – od výuky, přes výzkum až po zhodnocení projektů.