Základní informace o kurzu
Základní charakteristiky
- Způsob ukončení a počet kreditů: zkouška ECTS (6 kreditů)
- Jazyk výuky: čeština
- Garant předmětu: prof. J. Rauch
- Výchozí předměty (prerekvizity): žádné
- Doporučené výchozí znalosti: základy SQL
Stručné představení kurzu
Předmět představuje průnik témat přednášených na katedrách KIZI, KIT a KSA. Klade si za cíl seznámit studenty s rolí dat ve firmě, problémy, které mohou plynout z nedostatečné kvality těchto dat, a metodami, pomocí kterých lze kvalitu dat zlepšovat. Semestrální práce spočívá v simulaci skutečných činností realizovaných v praxi v oblasti řízení kvality dat. Pokrývá jak audit současného stavu kvality dat, tak implementaci nápravných opatření. Použitá data jsou sice uměle vygenerována, ale s využitím znalostí o datech reálných.
Podrobná osnova kurzu
- Klasifikace dat (kmenová, transakční, historická, metadata, strukturovaná, ...)
- Vztah dat, informací, znalostí a moudrosti – Pyramida (hierarchie) znalostí a její modifikovaná podoba dávající jednotlivým úrovním význam systémů pracujících s danou úrovní znalostí
- Jednotlivé dimenze řízení dat podle DAMA, pozice řízení dat v rámci řízení IT/ICT (koncept ITGPM)
- Hierarchie řízení dat (Data Quality, Master Data Management, Data Governance, IT Governance)
- Příčiny vzniku nekvalitních dat
- Důsledky nekvalitních dat, klasifikace nákladů na nekvalitní data (přímé ekonomické důsledky, reputační riziko, analytické důsledky - modifikovaná pyramida znalostí, dopad do metrik výkonnosti IT, dopad do metrik výkonnosti firmy, ...)
- Mapování příčin nekvalitních dat a důsledků pomocí tzv. Root-Cause metody
- Typické činnosti v rámci procesu řízení datové kvality
- Profilace dat (využití popisných statistických metod a regulárních výrazů)
- Standardizace (aplikace standardizačních schémat a pravidel)
- Verifikace (využití regulárních výrazů, metod pro porovnávání řetězců a metod strojového učení)
- Doplňování chybějících záznamů – ponechání status quo (stepwise, pairwise), databázové technky (lookup, join, merge), metody imputace nezaložené na modelu (midrange, Buckova metoda, nepodmíněný průměr, ...), metody imputace založené na modelu (hot-deck, cold-deck, nejbližší soused, GLM, rozhodovací stromy, neuronové sítě, ...)
- Unifikace / Deduplikace (využití metod pro porovnávání a shlukování záznamů, porovnávacích kódů, výběr nejlepšího kandidáta pro „přeživší záznam“, fonetické algoritmy pro optimalizaci metod pro porovnávání záznamů, výkonnostní problémy metod pro porovnávání záznamů a jejich řešení)
- Obohacování dat o externí datové zdroje (význam dodatečné informace, využití externích dat pro verifikaci)
- Geokóding (zaměření adres s využitím registru UIR-ADR)
- Monitoring datové kvality (zjišťování odchylek od stanovených pravidel, zjišťování potenciálních námětů pro nová pravidla, příp. modifikaci stávajících)
- Vytváření QKB (Quality Knowledge Base) jako základní stavební kámen řízení datové kvality
- Definice a implementace byznys pravidel
- Alternativní pohledy na proces řízení datové kvality
- Modely pro datovou kvalitu (konceptuální, logický, IP-MAP)
- Audit datové kvality – alternativní přístupy / doporučení
- Specifické formy datové kvality – Real-time datová kvalita, kvalita metadat
- Nástroje pro řízení datové kvality – klasifikace nástrojů, na cvičeních praktické příklady užití. Pro výuku zamýšlím použít primárně volně dostupné nástroje firmy Talend. Jako doplňek k výuce uvažuji demonstraci funkcionality komerčních nástrojů.
Požadavky na úspěšné absolvování kurzu
Písemný test / zkouška z témat probíraných na přednáškách a cvičeních (40%)
- Příklady otázek ze zkouškového testu
- Popis procesu závěrečného testu:
- Přístupový kód a heslo pro test bude studentům zaslán emailem
- Na portálu ClassMarker se zaregistrujte s uvedeným přístupovým kódem (po kliknutí na odkaz Register vyberte volbu Register here to take a test)
- Přihlašte se pod uživatelským jménem a heslem uvedeným při registraci
- Test je dostupný po celé zkouškové období
- Na jeho vypracování máte časový limit 60 min
- O výsledku testu budete informováni emailem
- V případě celkového skóre (test + semestrální práce) na 50 - 60 bodů bude nabídnuto ústní přezkoušení
Semestrální práce (60%)
Struktura semestrální práce
- 1. část: Audit datové kvality
- Profilace a verifikace dat (popisné statistiky, verifikace regulárními výrazy)
- Kalkulace metrik výkonnosti řízení dat
- Na modelové firmě stanovení nákladů na nekvalitní data vs. přínosů z nápravy
- Návrh doporučení pro řízení datové kvality
- 2. část: Aplikace nápravných opatření
- Standardizace
- Obohacení o externí zdroje
- Odstranění chybějících hodnot
- Unifikace a deduplikace
- Návrh byznys pravidel pro předcházení vzniku chyb v datech
Literatura ke studiu
Základní literatura
- Materiály z přednášek a cvičení
- Tutoriály a články na portálu DataQuality.cz
Doporučená literatura
- LOSHIN, D. The Practitioner’s Guide to Data Quality Improvement. Burlington: Morgan Kaufmann as inprint of Elsevier, 2011. ISBN 978-0-12-373717-5.
- ENGLISH, Larry P. Improving Data Warehouse and Business Information Quality: Methods for Reducing Costs and Increasing Profits. Wiley & Sons, 1999. xxvi, 518 s. ISBN-10 0-471-25383-9.
- McGILVRAY, D. Executing Data Quality Projects: Ten Steps to Quality Data and Trusted Information. Morgan Kaufmann, 2008. xviii, 325 s. ISBN 978-0-12-374369-5.
- LEE, Yang W., PIPINO, Leo L., FUNK, James D., WANG, Richard Y. Journey to Data Quality. The MIT Press, 2006. 240 s. ISBN-10 02-621-2287-1.
- BATINI, Carlo, SCANNAPIECO, Monica. Data Quality: Concepts, Methodologies and Techniques. Berlin: Springer-Verlag, 2006. xix, 262 s. ISBN-10 3-540-33172-7.
- BERSON, Alex, DUBOV, Larry. Master Data Management and Customer Data Integration for a Global Enterprise. McGraw-Hill Companies, 2007. xxi, 393 s. ISBN-10 0-07-226349-0.
- DYCHÉ, Jill, LEVY, Evan. Customer data integration: Reaching a Single Version of the Truth. SAS Institute Inc., Wiley & Sons, 2006, xxiv, 294 s. ISBN-10 0-471-91697-8.
- REDMAN, T. Data Quality: The Field Guide. Boston: Butterworth-Heinemann MA, 2001. xviii, 241. ISBN-10 1-55558-251-6.
- ZELENÝ M.: Management Support Systems: Towards Integrated Knowledge Management. Human Systems Management, Vol. 7 no. 1 (1987) 59 – 70.
- VOŘÍŠEK J. a kol. Principy a modely řízení podnikové informatiky. Oeconomica, 2008. s. 226. ISBN 978-80-245-1440-6.
- DAMA International: The DAMA Guide to the Data Management Body of Knowledge (DAMA-DMBOK). Technics Publication, LLC, 2009. ISBN 978-1-9355040-2-3.
- WEILL, Peter, ROSS, Jeanne W. IT Governance: How Top Performers Manage IT Decision Rights for Superior Results. Harward Business School Press, 2004. xiv, 269 s. ISBN-10 1-59139-253-5.
- Chaudhuri S., Ganjam K., Ganti V., Motwani R.: Robust and Efficient Fuzzy Match for Online Data Cleaning, SIGMOD 2003, June 9-12, 2003 San Diego, CA.
- D'Ambrosio A. Boosted Incremental Tree-based Imputation of Missing Data, PhD. thesis, Universitá degli Studi di Napoli Federico II. 2007.
- Bruce, Thomas R., and Diane I. Hillmann. (2004). The kontinuum of metadata quality: Defining, expressing, exploiting. In Dianne. I. Hillmann and Elaine L. Westbrooks (Eds.), Metadata in practice, (pp. 238-256). Chicago: ALA.
- PEJČOCH, D. Metody řešení problematiky neúplných dat [online]. 2011-01-13 Přednáška č. 4 v rámci Data Quality Tutorial. Dostupné pod odkazem: http://www.dataquality.cz/tutorial/tutorial_04.pdf.
- PEJČOCH, D. Benchmark přístupů k Fuzzy Match / Merge. Sborník prací účastníků vědeckého semináře doktorského studia. Fakulta informatiky a statistiky VŠE. Praha 2009. ISBN 978-80-245-1524-3.