Data Quality CZ - portál věnující se tématu kvalitních dat

Výzkum v oblasti řízení datové kvality

Benchmark metod pro doplňování chybějících pozorování

[7.12.2013] D. Pejčoch

Popis záměru

Se stále rostoucí mírou používání dat, nejen pro účely zajištění běžného provozu firmy, ale i jako podkladů pro rozhodování, se do popředí zájmu dostala otázka kvality dat, které firma uchovává ve svých databázích. Míru kvality dat lze ztotožnit s mírou naplnění vlastností dat jako je např. jejich správnost, důvěryhodnost, úplnost, unikátnost, s ohledem na jejich potenciální využití. Tato studie se soustřeďuje na úplnost dat a to zejména z pohledu využití dat pro statistickou analýzu a získávání znalostí z databází. Klade si za cíl zmapovat možné příčiny vzniku neúplných dat, upozornit na možné negativní důsledky tohoto jevu a poskytnout stručný výčet metod použitelných pro odstranění těchto důsledků. V případě metod poukazuje na jejich přednosti a nedostatky a současně hledá náměty pro další výzkum v této oblasti.

Klasifikace porovnávaných metod podle metodiky CADAQUES

Úroveň 1	Úroveň 2	Úroveň 3	Úroveň 4	Příklady metod	Mechanismy
Ponechání status quo	Ignorování / smazání pozorování			Stepwise	NA
Ponechání status quo	Maximální využití dostupných dat			Pairwise	NA
Databázové techniky	Lookup				MCAR, MNAR
	Přesný Join
	Fuzzy match / merge	Fuzzy Join
		Metody založené na kalkulaci nákladů
		Metody založené na tokench
		Hybridní metody
		Porovnávací kódy
Procedury založené na imputaci	Přístupy nezaložené na modelu			Nepodmíněný průměr	MCAR, MNAR, MAR
				Buckova metoda
				Midrange
	Přístupy založené na modelu	Implicitní model	Faktoriální techniky	PCA	MCAR, MAR
			Faktoriální techniky	Vícerozměrná korespondenční analýza
			Metody založené na podobnosti	Hot-deck
				Cold-deck
				Nearest Neighbour
		Explicitní model	Parametrické modely	GLM	MAR
				Naïve Bayes
				Neuronové sítě
				Vícenásobná imputace
				EM algoritmus
			Neparametrické modely	Neparametrická regrese
			Neparametrické modely	Metody založené na stromech

Popis benchmarku

Popis použitých dat

Symbolický odkaz	Název datového souboru	Link na původní zdroj	Odkaz na data	Odkaz na popis dat	Popisné statistiky	Oddělovač
DS001	Australian Credit Approval (STATLOG)	UCI data	dat	txt	html	space
DS002	German Credit (STATLOG)	UCI data	dat	txt	html	space
DS003	Heart Disease (STATLOG)	UCI data	dat	txt	html	space
DS004	Vehicle Silhouettes (STATLOG)	UCI data	dat	txt	html	space
DS005	Landsat Satellite (STATLOG)	UCI data	dat	txt	html	space
DS006	Shuttle (STATLOG)	UCI data	dat	txt	html	space
DS007	Adult	UCI data	dat	txt	html	comma
DS008	Bank Marketing	UCI data	csv	txt	html	semicolon
DS009	Nursery	UCI data	dat	txt	html	comma
DS010	Wine Quality	UCI data	csv	txt	html	semicolon
DS011	Auto MPG Data Set	UCI data	dat	txt	html	tab
DS012	Parkinsons Telemonitoring Data Set	UCI data	csv	txt	html	semicolon

Použitý software

Pro účely realizace experimentu byl použit software SAS licencován na VŠE Praha.

Original site validation data
Site name:    'VYSOKA SKOLA EKONOMICKA V PRAZE'.
Site number:  70090733.
Expiration:   14DEC2014.
Grace Period:  62 days (ending 14FEB2015).
Warning Period: 31 days (ending 17MAR2015).
System birthday:   29NOV2013.
Operating System:   WX64_WKS.

Komentáře k přípravě dat

DS006: původní trénovací a testovací data sloučena do jednoho datového souboru
DS007: použita pouze trénovací data
DS010: použit pouze data set s bílými víny
DS011: pro účely importu do SAS změněn oddělovač na semicolon a nahrazeny symbol pro stávající chybějící hodnoty otazníkem

Citační požadavky autorů datových souborů

DS001, DS002, DS005, DS007, DS009, DS011: Bache, K. & Lichman, M. (2013). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.
DS003: Hungarian Institute of Cardiology. Budapest: Andras Janosi, M.D.; University Hospital, Zurich, Switzerland: William Steinbrunn, M.D.; University Hospital, Basel, Switzerland: Matthias Pfisterer, M.D.; V.A. Medical Center, Long Beach and Cleveland Clinic Foundation:Robert Detrano, M.D., Ph.D.
DS004: Turing Institute, Glasgow, Scotland
DS006: Thanks to NASA for allowing us to use the shuttle datasets.
DS008: S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarales, Portugal, October, 2011. EUROSIS.
DS010: P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. Modeling wine preferences by data mining from physicochemical properties. In Decision Support Systems, Elsevier, 47(4):547-553, 2009.
DS012: A Tsanas, MA Little, PE McSharry, LO Ramig (2009) 'Accurate telemonitoring of Parkinson’s disease progression by non-invasive speech tests', IEEE Transactions on Biomedical Engineering (to appear).

Rapid Miner

Rapid Miner data flows

Referenční model (PROC GENMODE)

DS1 | DS2 | DS3 | DS4 | DS5 | DS6 | DS7 | DS8 | DS9 | DS10 | DS11 | DS12

Dostupnost balíčků pro imputaci v R 3.1.0

Balíček	Popis	Dostupnost	Dokumentace
Amelia	Bootstrap + EM (Expectation Maximization) algoritmus	CRAN	Amelia.pdf
HotDeckImputation	Implementace Hot Deck strategie pomocí metody nejbližšího souseda	CRAN	HotDeckImputation.pdf
DMwR	kNNImputation() = implementace kNN s využitím váženého průměru a mediánu	CRAN	DMvR.pdf
imputeR	Framework pro imputaci: generování chybějících pozorování, imputace pomocí Cubist, Boosting Tree, Boosting Regression, PC Regression, PLS Regression, LDA, Ridge Regression, klasifikačních stromů, variant Pairwise	CRAN	imputeR.pdf
DMwR	Implementace kNN	CRAN	DMvR.pdf

Publikované výstupy

PEJČOCH, D. Metody řešení problematiky neúplných dat[online]. 2011-01-13 Přednáška č. 4 v rámci Data Quality Tutorial. Dostupné pod odkazem: http://www.dataquality.cz/tutorial/tutorial_04.pdf.

Další výstupy

Knowledge Engeneering Group Seminar: Comparison of methods for imputation of missing values: David Pejčoch (Raiffeisen Bank ČR). Date and time: June 2 2011 (10:30 – 12:00). Room: 403 NB.