Data Quality CZ

Data Quality CZ - portál věnující se tématu kvalitních dat

Úloha vizualizace při řízení datové kvality

[1.10.2013] D. Pejčoch

Úvod

V rámci řízení kvality dat lze identifikovat několik různých typických činností. Patří mezi ně:

Profilace dat, poskytujcící základní pohled na nekvalitní data;
Verifikace dat proti etalonům (pravidlům, externím datovým zdrojům);
Doplňování chybějících pozorování;
Standardizace;
Obohacování o externí datové zdroje (dodatečné atributy, geokódy, informace o vztazích mezi entitami, ...);
Unifikace záznamů a následná deduplikace;
Permanentní monitoring;
Hledání původních příčin zjištěných defektů.

Při realizaci řady z nich lze uplatnit více či méně pokročilé vizualizační techniky. Cílem tohoto článku je představit jejich zástupce. V následujících odstavcích se soustředím na techniky využitelné při profilaci, validaci, doplňování chybějících hodnot a identifikaci původních příčin nekvality dat.

Techniky pro vizualizaci v rámci profilace dat

Technický profiling je činnost spočívající v aplikaci deskriptivních statistických metod na zdrojová data za účelem získání základní představy o stavu dat. Abstrahujme nyní od polemik, do jaké míry je vhodné spoléhat na výsledky profilingu a do jaké míry dává smysl vycházet od analýzy procesů. Dle mého názoru mají v procesu řízení kvality dat místo oba tyto přístupy. Soustřeďme se však na konkrétní metody vizualizace, které je možné pro účel získání prvotního pohledu na data použít. Intuitivně bychom nejspíš uhodli, že se jedná o grafické metody pro identifikaci odlehlých pozorování, např. formou Box-Whiskers grafu (viz Obrázek, č. 1). Podezřelá data leží mimo interval <BPD;BPH>, kde BPH a BPD lze spočíst na základě dolního (resp. horního) kvartilu a 1,5násobku jejich rozpětí.

Obrázek 1: Box-Whiskers graf

Dalším příkladem vizualizačních metod použitelných při profilaci je maticový graf korelace, jehož cílem je graficky znázornit závislost hodnot dvou a více proměnných. Typickým grafickým výstupem řady nástrojů je histogram četností kategoriální proměnné. Za vhodný doplněk této funkcionality považuji histogram četností identifikovaných syntaktických vzorů v datech. Pro detekci odlehlých pozorování je možné použít rovněž grafické výstupy hierarchického nebo nehierarchického shlukování (dendrogram, grafické znázornění shluků). Jen na okraj lze zmínit, že součástí výstupů profilace je v případě řady nástrojů pro podporu řízení datové kvality též grafické znázornění podílu úplných, chybějících, duplicitních a unikátních pozorování formou krabičkového nebo koláčového grafu.

Techniky pro vizualizaci chybějících pozorování

Z pohledu řešení problematiky chybějících pozorování je vhodné identifikovat skryté vzory výskytu chybějících hodnot. K tomuto účelu je možné použít např. graf znázorněný na Obrázku 2. Tento graf je součástí výstupu analýzy chybějících pozorování nástroje Amelia dostupného ve formě balíčku pro jazyk R. Graf porovnává jednotlivé záznamy (pořadové číslo záznamu je zaneseno na ose y) v rámci jednotlivých proměnných data setu. Na základě tohoto grafu si lze udělat základní představu o výskytu chybějících pozorování v čase a o souvislosti s výskytem chybějících pozorování v rámci dalších proměnných.

Obrázek 2: Znázornění mechanismů výskytu chybějících pozorování

Techniky pro validaci pomocí vizualizace

Použití vizualizačních technik při validaci dat je do značné míry podobné již popsaným příkladům z odstavce věnujícího se profilaci dat. Vesměs se jedná o detekci anomálií od standardu. Příkladem může být detekce odchylek ve vícerozměrných grafech reprezentujících kauzality extrahované z dat. Příklad takové formy vizualizace znázorňuje Obrázek č. 3. Jednotlivé silné paprsky přestavují dominantní vzory, zatímco řídké hodnoty mezi nimi a na jejich koncích představují anomálie.

Obrázek 3: Příklad grafického znázornění detekce odchylek

Techniky pro hledání původních příčin nekvalitních dat

Hledání původních příčin nekvalitních dat je v současné době ve větší či menší míře zmíněno jako doporučná praktika snad v každé publikaci zabývající se problematikou nekvalitních dat. Nedává přeci smysl vynakládat úsilí a peněžní prostředky na ex post fixaci chyb, když příčina zůstává. Grafické znázornění vazby jednotlivých aspektů může potom mít např. formu sémantické sítě, kde hrany mezi uzlovými body představují jejich vztahy, případně grafickou reprezentaci bayesovských sítí, kdy je jednotlivým uzlovým bodům přiřazena podmíněná pravděpodobnost, anebo prostých kauzálních map, jejichž příklad z oblasti pojišťovnictví je znázorněn na Obrázku 4.

Obrázek 4: Zobrazení kauzálních závislostí příčin a dopadů nekvalitních dat

Jiným příkladem vizualizace kauzálních příčin a následů je graf použitý v práci Kaz-Haas a Lee, znázorněný na Obrázku č. 5, reflektující časovou dimenzi vlastností dat.

Obrázek 5: Jiná forma znázorenění dopadů a příčin nekvalitních dat

Závěr

Stejně jako v dalších oblastech Informatiky, i v případě řízení kvality dat mají vizualizační techniky svou nezastupitelnou roli metody umožňující srozumitelné znázornění reality a současně nástroje pro identifikaci podezřelých jevů pouhým lidským okem. Jejich použití není limitováno pouze na oblast identifikace odlehlých pozorování, případně zobrazení histogramu kategoriální proměnné, ale táhne se jako pomyslná červená nit napříč většinou činností typických pro říízení kvality dat. Významu vizualizačních technik si povšimli i poskytovatelé softwarových řešení v této oblasti. Nástroj firmy Talend tak např. obsahuje komponentu pro modelování procesů, který lze použít i pro vizualizaci kauzálních příčin a důsledků nekvalitních dat. S vizualizací mechanismů chybějících pozorování jsem se zatím setkal pouze v rámci specializovaných nástrojů pro tuto oblast. Příčinou nejspíš je ta skutečnost, že problematika chybějících pozorování je především v centru zájmu přípravy dat pro modelování a tudíž logicky spíš spadá do funkcionality poskytované analytickými nástroji pro získávání znalostí z databází a statistickými pakety. Tento článek rozhodně nepopsal všechny možnosti vizualizace nekvalitních dat, nicméně znamená první vlaštovku v této v odborné literatuře dosud komplexně nepopsané oblasti.

Použitá literatura

KATZ-HAAS, R., LEE, Y. Understanding Hidden Interdependencies Between Infromation and Organizational Process in Practice. In: Proceedings of the Seventh International Conference on Information Quality (ICIQ-02). Dostupné pod odkazem: http://ssm-vm030.mit.edu/ICIQ/Documents/IQ%20Conference%202002/Papers/UnderstandHiddenInterdependBetweenInfonOrg.pdf

Komentáře ke článku

Stránka byla naposledy aktualizována dne 4.5.2015