Data Quality CZ

Data Quality CZ - portál věnující se tématu kvalitních dat

Dopad nekvalitních dat na úlohy získávání znalostí z databází: interview s Petrem Mášou

[1.1.2012] D. Pejčoch

Mnohým čtenářům Vás není třeba představovat, přesto mohl byste na úvod o sobě stručně říci pár slov?

Posledních 10 let se zabývám analýzami dat především pro velké společnosti. Mám za sebou možná stovku projektů pro několik desítek firem nejen v Evropě, ale i v Asii a Severní Americe. Působil jsem především na straně konzultačních společností, ale také na straně firem, které plně outsourcovaly jisté procesy organizací a zpracování dat bylo plně v naší režii.

V rámci jakých vertikál jste se projektů získávání znalostí z databází (někdy zkráceně uváděném jako data mining) účastnil?

Především v oblasti finančních institucí – tedy banky, pojišťovny, splátkové společnosti, penzijní fondy, stavební spořitelny, ale také v telekomunikacích (pevných, mobilních i IP) a maloobchodě.

Zlí jazykové tvrdí, že v rámci objemu všech prací se příprava dat podílí cca 80%. Je tomu skutečně tak?

Na tuto otázku odpovím jinou otázkou, kterou vždy na začátku data miningového projektu pokládám – co z přípravy dat je již uděláno? V mnoha firmách existují datové sklady se specializovanými datamarty, které přípravu dat usnadní - takže to nemusí být celých 80% času. Jindy máte k dispozici pouze provozní systémy (zažil jsem i nezálohované), často se špatně vedenou historií a pak je analýza dat složitější. V těchto případech je příprava dat 99% času a je to nutné i třeba k tomu, abyste získali základní čísla správně. Ale přípravu dat doporučuji nepodceňovat – v data miningu vidíte méně do toho, jak modely fungují a proč přesně rozhodují jak rozhodují (oproti základním souhrnným reportům) – a musíte si být jisti, že neuděláte nějakou podstatnou chybu. To přípravu dat prodlužuje. Ze zkušenosti právě kvalitní příprava dat zajistí dobrou prediktivní schopnost výsledného modelu.

Mohl byste čtenářům přiblížit, s jakými typy defektů v datech se lze v rámci přípravy dat nejčastěji setkat?

O tom by se dala napsat celá kniha. Začíná to definicemi – např. kdo je a kdo není klient – v různých datových zdrojích máte různé definice (je disponent v bance klient? A ručitel? Klient směnárny?), různá definice co je produkt a pak vám vychází různé číslo průměrný počet produktů na klienta. Druhá oblast jsou špatně vložená data (např. v roce 2000 psali všichni rok 00, což někde systémy doplňovaly jako 1900. Do roku 1999 to fungovalo, v roce 2000 již ne). Pak také ne všude se uchovává celá historie, takže se historická data odhadují z dat, která jsou. Také ne vždy se všechna data uchovávají (ve zpracovatelné podobě), takže když nemáte data o zrušených smlouvách, těžko se vám pracuje s životním cyklem klienta. Číselníky jsou neudržované a neslouží všem účelům, stejní klienti jsou zadaní v různých systémech vícekrát (nebo i ve stejném systému vícekrát). Firmy se také vzájemně kupují a každá z nich uchovává trochu jiná data, jak tedy spojit historii? Toto je jen pár oblastí z datové kvality.

Jaké jsou podle Vás hlavní příčiny vzniku těchto defektů?

Jak jsem již řekl, různými definicemi stejného pojmu, neexistence historie, neevidence údajů, spojováním firem, rozšiřováním systémů, špatnou správou číselníků apod.

Jaké používáte v praxi metody pro doplňování chybějících pozorování? Preferujete spíše tradiční metody jako je listwise / parwise, anebo upřednostňujete spíše imputaci na základě modelu?

Vždy záleží na účelu použití. Někdy stačí vynechat, někdy doplnit, někdy je nutné tato data speciálně zpracovávat.

Jaké nástroje pro řešení doplňování chybějících pozorování používáte?

Ruční práci. Špatné vyplnění chybějících hodnot vám může zanést do modelu znalosti a pravidla, která v datech nejsou.

Jaké používáte v praxi metody pro řešení ostatních defektů?

Vždy záleží na situaci. Na to není univerzální návod.

Domníváte se, že dává spíše smysl vyvíjet algoritmy odolné vůči datům, anebo více dbát na datovou kvalitu zdrojů, na nichž probíhá modelování?

Jsem zastáncem práce nad kvalitními daty. A i ze zkušenosti – model založený na jediné proměnné, který vznikl kontingenční tabulkou nad správnými daty mi dal výrazně lepší výsledek než sebelepší algoritmus nad horšími daty. Kvalitu dat žádný automat nevyřeší. Jak má poznat, jaké kódy číselníků znamenají storno a jaké neznamenají? A jak má najít chybu v business logice? To žádný algoritmus nenajde. Špatnou přípravou dat zahraňujete odcházející klienty, ale tito klienti už stejně dávno odešli – lepším modelem jste jich našli o 50% více v oslovené skupině díky super algoritmu, ale k čemu Vám to je ...

Který typ defektů má podle Vás největší vliv na kvalitu výsledného modelu?

To nelze jednoznačně říci, každý defekt se projeví jinak a může zkazit výsledek.

Setkal jste se někdy s případem, kdy vlivem špatné datové kvality nebylo vůbec možné projekt data miningu uskutečnit?

Už mnohokrát jsem se setkal s daty, u kterých bylo lepší říci dělejte to expertním úsudkem, z dostupných dat závislost nezískáte nebo je zavádějící.

V poslední době nabývá na popularitě získávání znalostí z nestrukturovaných dat. Učastnil jste se někdy takového projektu? Existují podle Vás nějaké specifické defekty pro nestrukturovaná data?

Měl jsem několik takových projektů. Na tuto otázku není jednoznačná odpověď – máme nestrukturovaná data a otázka je co je defekt nebo co už brát jako plus – například řádky v textovém logu web serveru – už to, že chybové hlášky jsou označeny jako error: a dá se to vyhledávat, pokud se spolehnete na tu dvojtečku, už to je plus. Jak ale měřit kvalitu dat v textových log souborech? Tam se dá měřit třeba to, že kus neupadl. A jak se s tím vyrovnat?

Máte pocit, že se úroveň kvality dat ve firmách v posledních letech mění k lepšímu?

Myslím si, že je to o osvětě a ukázání, co mohou kvalitní data přinést. Kvalita dat se dlouhodobě zlepšuje, stejně tak jako strukturované zpracování čím dál tím většího rozsahu položek dat a převodu nestrukturovaných informací na strukturované.

Co pokládáte za hlavní driver těchto změn?

Vidina, co vše lze z kvalitních dat získat. Gartner dokonce tvrdí, že většina manažerských meetingů se týká diskuse o kvalitě dat a jejich interpretaci místo toho, aby se věnovali rozhodování nad kvalitními daty. Toto hovoří za vše a mohu to potvrdit z vlastní zkušenosti.

Komentáře ke článku

Stránka byla naposledy aktualizována dne 4.5.2015