Data Quality CZ - portál věnující se tématu kvalitních dat

Linked Data Quality – 2. díl

[18.5.2013] D. Pejčoch

Úvod

V minulém dílu série článků na téma Linked Data Quality byla uvedena řada vlastností, které je možné v rámci řízení kvality propojených dat uvažovat. Uvedl jsem práci (Zaveri, 2013), která shrnuje různé přístupy k auditu propojených dat. Výsledkem tohoto shrnutí je seznam celkem 109 vlastností členěných do 6 dimenzí. Pokud se v souvislosti s řízením rizik v odborné literatuře uvádí, že firmy jsou schopny řídit pouze maximálně několik desítek rizik, je zřejmé, že zlepšování 109 vlastností je nutně nad její síly. V tomto dílu bych se jednak rád zamyslel nad uvedeným sloganem sémantického webu, že „Anybody can write Anything about Any topic“. Platí beze zbytku? Neexistuje přeci jenom nějaká forma regulace publikovaného obsahu, nějaké doporučené praktiky?

Svět ontologií a slovníků

Při publikování dat prostředky sémantického webu je doporučeno vycházet z některých z existujících ontologií a slovníků. Pojem ontologie pochází původně z filosofie a označuje nauku o bytí. V prostředí sémantického webu označuje soubor termínů z určité předmětné oblasti a jejich vztahů. Právě zachycení vztahů odlišuje ontologie od „pouhých“ slovníků. Ontologií existuje celá řada. Jako příklad lze uvést:

Tento přehled nelze v žádném případě považovat za úplný. Svět ontologií je opravdu velmi košatý. Ještě více toto tvrzení platí ve vztahu ke slovníkům. Ty nejvýznamnější pro oblast Linked Data shrnuje Linked Open Vocabularies.

Tak kde je tedy problém? Teoreticky by autoři mohli použít termíny z existujících ontologií nebo slovníků a RDF model by mohl být svým způsobem standardizován. Problémů je bohužel celá řada. Pokud bychom se pokusili nalézt vlastnosti optimální ontologie / slovníku napadlo by nás zcela jistě smysluplnost (obsahuje smysluplné pojmy a vazby), minimální míra redundance (obsahuje neduplicitní termíny a vztahy jednak ve vztahu k sobě samé a jednak ve vztahu k ostatním ontologiím / slovníkům) , je správná (obsahuje věcně správně pojmy a vazby) , je v dostatečné míře aktualizovaná a je dobře zdokumentovaná. Splňují ale všechny dostupné ontologie a slovníky všechny tyto vlastnosti? Zcela jistě ne. Jsou duplicitní, chybné, nevalidované autoritami, mnohé spravovány pouze komunitami nadšenců bez zaručené kontinuality. Na stánkách konsorcia W3C zabývajícími se „dobrými“ ontologiemi (W3C, 2012) s úžasem nalezneme pouze pět ontologií, které jsou podle W3C zcela zdokumentované, „dereferencable“, používané nezávislými poskytovateli dat a zřejmě podporovány existujícími nástroji. Jsou to: The Dublin Core ontology, FOAF, SIOC, Good Relations a The Music Ontology.

S problematikou různých použitých pojmů je spojeno mapování slovníků. Teoretickým východiskem pro vytváření metaslovníků a metaontologií nad těmi stávajícími je standard SKOS (Simple Knowledge Organization Systém) vycházející, jak jinak, z dílny konsorcia W3C. Představuje obecný datový model pro sdílení a provazování znalostí napříč systémy. K vyjádření vazeb mezi termíny slouží konstrukty jako skos:exactMatch, skos:narrowMatch, skos:broadMatch a skos:closeMatch.

Pokud bychom se zamysleli, jaká všechna možná témata je možné v souvislosti s Linked Data uvažovat, dospěli bychom nejspíš k následujícím pěti:

Tvorba pravidel a nejlepších praktik

Můžeme se setkat s celou řadou publikovaných dokumentů poskytujících ve větší či menší míře návod pro správné vytváření RDF dokumentů a jejich vzájemné propojování. Z nejvýznamnějších publikací lze zmínit Linked Data: Evolving the Web into a Global data Space (Heath a Bizer, 2011) poskytující mimojiné návody 1) jakým způsobem vytvářet „cool URIs“ s využitím přirozených klíčů a abstrakce od detailů implementace, 2) jakým způsobem publikovat metadata (s využitím Dublin Core, konkrétně dc:creator, dc:publisher, dc:date nebo s využitím Open Provenance Model) a informace o licencích užití prolinkovaných dat a 3) pro používání existujících termínů ze slovníků a jejich mapování pomocí RDFS a OWL (owl:equivalentClass, owl:equivalentProperty, rdfs:ClassOf, rdfs:subPropertyOf). V neposlední řadě poskytuje tento zdroj „Linked Data Publishing Checklist“, osm bodů, které lze považovat za kontrolu s nejlepšími praktikami pro poblikování.

Z dalších návodů lze uvést Linked Data Paterns od Leigh Dodds a Ian Davis nebo Initial Best Practice Guide publikovaný v rámci projektu LATC (Linked Open Data Around The Clocks) jednoho z tvůrců dat LOD Cloud. Za soubor nejlepších praktik lze považovat rovněž dokument „Frequently Observed Problems publikovaný v rámci tzv. „Pedant Web Group“.

Audit kvality prolinkovaných dat

Audit datové kvality, byť takto specifického typu dat, se neobejde bez měření vlastností / charakteristik dat. V této souvislosti navážeme na členění vlastností uvedené v rámci 1. dílu této série a přikročíme k demonstraci konkrétních technik použitelných pro audit prolinkovaných dat. V případě standarních dat uložených v relační databázi by naším základním nástrojem nejspíš byl jazyk SQL (Structured Query Language). Tento jazyk však logicky nelze použít pro dotazy nad RDF dokumenty. Naštěstí v prostředí sémantického webu existuje jeho alternativa v podobě jazyka SPARQL (SPARQL Protocol and RDF Query Language). Tento jazyk umožňuje vytvářet validační pravidla na libovolné úrovni komplexnosti. Např. pomocí konstrukce ASK WHERE {...} získáme jednoznačnou odpověď Y / N. S využitím SPQRQL lze vytvářet jak pravidla pro úplnost (např. typu IF A son of B THEN b father of a), jednak logická pravidla (např. IF a = man AND man = mortal THEN a = mortal), definice a produkční (akční) pravidla. Pomocí jazyka SPIN (SPARQL Inferencing Notation) lze pravidla definovaná pomocí SPQRL uchovávat společně s RDF daty. Praktickou aplikací SPARQL / SPIN se budu zabývat v příštím dílu této série.

Na jazyku SPIN je založena tzv. „Data Quality Constraints Library“ spojená především s osobou Christiana Fürbera. Svým obsahem pokrývá především jednoduchá obecně použitelná syntaktická pravidla (např. kontrolu EAN13, ZIP), omezení rozsahu přípustných hodnot, kontrolu obecných závislostí a kontrolu unikátnosti.

Dalším nástrojem použitelným pro validaci je relativně nový RIF (Rule Interchange Format) představující jakýsi metaformát pro sdílení pravidel implementovaných v různých jazycích napříč různými systémy. Pro sdílení jazyků jsou navrženy dva typy dialektů: 1) Logic-based dialects zastoupený Basic Logic Dialect (RIF-BLD) a 2) Dialekty pro akční (produkční) pravidla, zastoupený Production Rule Dialect (RIF-PRD). Otázkou je praktické využití tohoto metajazyka. Teoreticky by umožňoval použití pravidel nadefinovaných v rámci jednotlivých aplikací a jejich znovupoužití v rámci jiných aplikací (např. při verifikaci RDF odvozených z dat produkovaných touto aplikací). S jeho praktickou implementací jsem se však dosud nesetkal. Především také z toho důvodu, že specifikace dialektů tohoto jazka pochází teprve z února letošního roku.

Závěr

V příštím dílu série článků věnující se tématu řízení kvality prolinkovaných dat se budu kromě praktických příkladů využití jazyků SPARQL / SPIN věnovat popisu konkrétních rámců pro audit datové kvality, problematice obohacování běžného typu dat o Linked Data a možnosti využití Linked Data pro validaci běžného typu dat.

Relevantní odkazy

Literatura

Komentáře ke článku

Stránka byla naposledy aktualizována dne 4.5.2015
Powered by HOLOPAGE
©2011 - 2021 D. Pejčoch