Data Quality CZ

Data Quality CZ - portál věnující se tématu kvalitních dat

Linked Data Quality – 1. díl

[13.4.2013] D. Pejčoch

Úvod

Pojem Linked Data úzce souvisí s konceptem sémantického webu. Podle (Heath & Bizer, 2001) se jedná o koncept nejlepších praktik pro publikování a vzájemné provázání strukturovaných dat na Webu. Základní principy Linked Data jsou zakotveny v práci „vynálezce“ sémantického webu Tima Berners-Lee (Berners-Lee, 2006).

Patří mezi ně:

Užití URI (Unified Resource Identifier) jako návzu předmětů (objektů reálného světa, abstraktních konceptů, dokumentů, digitálního obsahu),
Užití HTTP (Hypertext Trasfer Protocol) URI co by standardního přístupového mechanismu webu, aby bylo možné popsané objekty dohledat,
URI má směřovat na užitečnou informaci poskytovanou s využitím standardů RDF (Resource Description Framework) a SPARQL (SPARQL Protocol and RDF Query Language),
Zahrnutí odkazů na další URI (ne pouze webové dokumenty).

Standard RDF představuje model pro reprezentaci webové infrastruktury pomocí trojice subjekt – predikát – objekt. Pro lepší porozumění konceptu lze uvést příklad publikovaný v základní literatuře věnující se problematice sémantického webu (Allemang & Hendler, 2011), kdy je informace, že hra Mackbeth byla napsána Williamem Shakespearem, vyjádřena pomocí RDF trojice Shakespeare – Wrote – Mackbeth. RDF však není jediným jazykem používaným v rámci sémantického webu. Patří sem též např. jazyky RDFS (RDF schéma), SKOS (Simple Knowledge Organization System)a OWL (Web Ontology Language).

Koncept Linked Data je založen na vzájemné provázanosti datových zdrojů převedených do forem reprezentace typických pro sémantický web. Za jednu z nejvýznamnějších aktivit v oblasti Linked Data lze považovat LOD (Linked Open Data), resp. LOD2, kladoucí si za cíl zmapování volně dostupných dat a jejich převedení do formátu RDF. Aktuální stav tohoto projektu lze nalézt např. na webu www.lod-cloud.net. Provázáním těchto datových zdrojů vzniká globální datová báze, která s sebou přináší některé specifické problémy v oblasti řízení datové kvality. Primární příčinou těchto problémů je samotná filosofie sémantického webu, založená na principu: „Anyone can say Anything about Any topic“ (Allemang & Hendler, 2011). V praxi to znamená, že neexistuje žádný princip Governance, který by řídil pravidla publikování prolinkovaných zdrojů.

Vlastnosti Linked Data

(Semanticweb, 2010) uvádí s odkazem na (McDonald, 2010) základní problémy z oblasti kvality dat, s nimiž se lze v případě Linked Data setkat. Patří mezi ně:

Správnost (Accuracy) – chápe jí spíš ale ve smyslu Přesnosti, tj. zda jsou fakta korektní
Srozumitelnost (Intelligibility) – ve smyslu, zda jsou data trojice opatřeny pro člověka „čitelnými“ popisky
Referenční shoda – zda existuje pouze jeden jediný zdroj, který slouží pro reálný objekt jako referenční
Úplnost – ve smyslu úplného pokrytí všech možných reprezentantů (např. všechny země)
Ohraničenost (Boundedness) – ve smyslu existence jasně ohraničené sady reprezentantů „neznečištěné“ něčím, co do ní nepatří
Korektní zápis (Typing) – názvy elementů bez překlepů / znaků navíc
Správnost modelování – logická struktura datového modelu
Granularita modelování – ve smyslu postačující granularity datového modelu
Propojitelnost (Connectedness) – ve smyslu preciznosti napojení datových zdrojů, které jsou jinak oddělené
Isomorfismus – ve smyslu sladění modelů různých datových zdrojů, běžně oddělených
Aktuálnost
Směrovost (Directionality) – ve smyslu snadnosti navigace v hierarchii modelu
Určitelnost původu (Attribution) – ve smyslu snadnosti určení původu dat (z jakého zdroje, od jakého autora)
Historie – ve smyslu míry evidence historie změn v datech různými autory
Interní konzistentnost – ve smyslu, zda neexistují vnitřní rozpory v rámci dat
Licence – ve smyslu srozumitelnosti licence použití dat (pokud existuje)
Udržovatelnost (Sustainable) – ve smyslu míry prokazatelné údržby datového zdroje
Autoritativnost – ve smyslu míry kredibility autora dat

Jak sám autor přiznává, seznam uvedených vlastností nepokrývá vyčerpávající měrou všechny potenciální problémy Linked Data Quality. I tak by bylo zajímavé pokusit se porovnat tento seznam s konvenčními vlastnostmi dat zmiňovanými různými autory v souvislosti s kvalitou běžných strukturovaných dat uchovávaných v databázích a pokusit se o jejich klasifikaci.

Je zřejmé, že část uvedených vlastností je specifická pro typ zápisu prolinkovaných dat, tj. souvisí s URI a syntaxí RDF (nebo jiného jazyka sloužícího pro reprezentaci dat). Do této skupiny patří např. Ohraničenost či Směrovost. Další skupinu vlastností lze ztotožnit s konveční skupinou Endogenních vlastností dat. Sem je možné zařadit Správnost, Referenční shodu (vzhledem k podobnosti s vlastností Unikátnost), Autoritativnost (obdoba Důvěryhodnosti dat), Historie a Určitelnost původu (obdoba existence rodokmenu dat, angl. Data Lineage). Do Kontextuální dimenze vlastností dat je možné zařadit Interní konzistentnost a Úplnost. Do Časové dimenze lze zařadit Aktuálnost a Udržovatelnost (koresponduje s Volatilitou dat). Další skupina vlastností odpovídá kvalitě návrhu datového modelu. Představuje analogii ke konvenčně uvažované kvalitě datové architektury. Do této skupiny vlastností by bylo možné zařadit Isomorfismus, Propojitelnost, Správnost modelování, Granularitu modelování a Ohraničenost. Další skupinu vlastností lze chápat jako dimenzi Užití dat. Sem patří vlastnosti jako je Licence, Směrovost a Srozumitelnost.

Jiný typ klasifikace vlastností poskytuje (Sourceforge, 2010). Uvažuje 4 kategorie: Obsah (Konzistentnost, Aktuálnost, Ověřitelnost), Reprezentace (Jednotnost, Univerzálnost, Srozumitelnost), Užití (Validita dokumentů, Množství dat, Licence) a Systém (Dostupnost, Výkonnost). Z výčtu názvů vlastností je patrné, že v několika případech existuje shoda s (Semanticweb, 2010) (např. Aktuálnost, Srozumitelnost a Licence). Některé vlastnosti uvažované v rámci obou uvedených zdrojů jsou si podobné, ale mají různé názvy (např. Validita dokumentů vs. Korektní zápis). (Sourceforge, 2010) navíc uvažuje celou kategorii reflektující systémové omezení publikace dat.

Disproporce různých přístupů k vlastnostem Linked Data si povšimnul (Zaveri, 2013) a ve své práci poskytuje syntézu z celkem 21 zdrojů různých autorů. Výsledkem je klasifikace vlastností do 6 dimenzí. V rámci Kontextuální dimenze uvažuje vlastnosti jako je Úplnost (ve smyslu úplnosti hodnot, použitých elementů, potenciálních propojení a pokrytí reálných objektů), Množství dat (z pohledu pokrytí reálných objektů a adekvátního množství) a Relevantnost. Z pohledu dimenze Důvěry rozlišuje Původ, Ověřitelnost, Reputaci, Důvěryhodnost a Licenci. Z pohledu Vnitřní dimenze rozslišuje Správnost, Objektivnost (ve smyslu nezkreslenosti informací a objektivnosti zdroje), Validitu (syntaktickou, použití nadefinovaných tříd a vlastností, ...), míru Prolinkování, Konzistentnost (uvažuje celkem 15 různých dílčích vlastností) a Stručnost (ve smyslu absence redundance). Do dimenze Přístupnosti řadí vlastnosti jako je Dostupnost, Výkonnost, Bezpečnost a Doba odezvy. V rámci dimenze Reprezentace uvažuje Výstižnost reprezentace, Konzistentnost reprezentace, Srozumitelnost, Interoperabilitu a Univerzálnost. Poslední uvedená dimenze reflektuje časové hledisko a obsahuje známé vlastnosti z řízení kvality konvenčních datových zdrojů jako je Aktuálnost, Volatilita a Včasnost. K jednotlivým vlastnostem (Zaveri, 2013) uvádí způsob jejich měření a jeho praktický příklad.

Závěr

Z uvedeného je zřejmé, že Linked Data Quality se dosud potýká s problémem své jednoznačné definice. Chybí jednotný rámec, který by definoval jaké vlastnosti Linked Data má smysl řídit a které již ne. Existuje řada dílčích přístupů v publikacích jednotlivých autorů, které (Zaveri, 2013) pouze syntetizoval do jednotné klasifikace. Výsledkem je enormní množství vlastností, které se mi jeví jako v praxi neuříditelné. Zejména z důvodu, že většina uvedených vlastností je reálně ovlivňována jinými subjekty než jsou ty, které data konzumují. V celém konceptu Linked Data Quality mi chybí to podstatné: přechod od prostého měření vlastností k reálnému zlepšení procesů vzniku těchto dat jako příčině neuspokojivé úrovně těchto vlastností. Obávám se však, že skutečné zlepšení kvality „prolinkovaných“ dat by vyžadovalo ústoupení z výše uvedeného dogmatu sémantického webu o svobodném publikování čehokoliv jakýmkoliv způsobem a přechod na striktní pravidla Data Governance alespoň na úrovni dodržování jednotného formátu pro reprezentaci dat, používání kanonického datového modelu a syntaktických pravidel definovaných pro jednotlivé jeho elementy. Otázkou je, zda je současný sémantický web na takovou změnu základní filosofie připraven.

Literatura

HEATH, T., BIZER, CH. Linked Data: Evolving the Web into a Global Data Space. Morgan & Claypool, 2011. ISBN: 97816084543.
BERNERS-LEE, T. Linked Data – Design Issues, 2006. http://www.w3.org/DesignIssues/LinkedData.html. 7,26,82.
ALLEMANG, D., HENDLER, J. Semantic Web for the Working Ontologist: Effective Modeling in RDFS and OWL. Waltham MA: Elsevier, 2011. ISBN: 978-0-12-385965-5.
Semanticweb.com. Quality Indicators for Linked Data Datasets [online]. 24.6.2010 23:52. [Cit. 6.4.2013]. Dostupné pod odkazem: http://answers.semanticweb.com/questions/1072/quality-indicators-for-linked-data-datasets.
McDONALD, G. W3C.org. 15 Ways to Think About Data Quality (Just for a Start) [online] 8.4.2010 21:10:05. [cit. 6.4.2013]. Dostupné pod odkazem: http://lists.w3.org/Archives/Public/public-lod/2011Apr/0140.html.
Quality Criteria for Linked Data Sources. Sourceforge.net [online]. 15.12.2010 18:47 [cit. 6.4.2013]. Dostupné pod odkazem: http://sourceforge.net/apps/mediawiki/trdf/index.php?title=Quality_Criteria_for_Linked_Data_sources
ZAVERI, A., RULA, A., MAURINO, A. PIETROBON, R., LEHMANN, J., AUER, S. Quality Assessment Methodologies for Linked Open Data. [online] 2012. [cit. 6.4.2013]. Dostupné pod odkazem: http://www.semantic-web-journal.net/content/quality-assessment-methodologies-linked-open-data

Komentáře ke článku

Stránka byla naposledy aktualizována dne 4.5.2015