Co je to "datový trezor" a proč ho potřebujeme? | Talend Cloud Integration

Systémy EDW (Enterprise Data Warehouse) mají za cíl poskytovat skutečnou Business Intelligence (BI) pro podniky založené na datech. Podniky se musí zabývat kritickými ukazateli zakořeněnými v těchto životně důležitých a živých datech. Klíčovým cílem těchto systémů Enterprise Data Warehouse je zajištění základního procesu integrace dat, který nakonec podporuje různé požadavky na reporting. Jejich budování vyžaduje značné úsilí při návrhu, vývoji, správě a provozu. Když se předchozí podnikové systémy, struktury nebo pravidla změní, neposkytují konzistentní data nebo vyžadují nová řešení systémové integrace, minimální požadavky na reengineering nás staví před problém č. 1: Jedinou konstantou je změna; jak dobře se tedy řešení EDW/BI dokáže přizpůsobit?“

„Nepřežije nejsilnější z druhů, ani nejinteligentnější. Je to ten, který je nejlépe přizpůsobivý změnám.“ Charles Darwin

Spotřeba a analýza podnikových dat různými komunitami uživatelů se stala kritickou skutečností pro udržení konkurenční výhody, avšak technologická realita dnes často vyžaduje vysoce kvalifikované koncové uživatele. Zachycení, zpracování, transformace, čištění a reportování těchto dat může být pochopitelné, ale ve většině případů může být samotný objem dat ohromující; ano, problém č. 2: Opravdu velká data; často charakterizovaná jako:

Vytvoření efektivních a účinných systémů EDW/BI, zjednodušených pro použitelnost a reporting těchto dat, se rychle stává skličující a často obtížnou technickou zkouškou i pro zkušené inženýrské týmy. Je zapotřebí několik integrovaných technologií od databázových systémů, nástrojů pro zpracování dat (ETL), jako je Talend, různých programovacích jazyků, softwaru pro správu, reporting a interaktivní grafiku až po vysoce výkonné sítě a výkonné počítače s velmi velkou úložnou kapacitou. Návrh, tvorba, dodávka a podpora robustních a bezproblémových systémů EDW/BI pro zjednodušené a inteligentní používání jsou, hádáte správně; problém č. 3: Složitost!“

Často se setkáváme s komplexními a elegantními řešeními dodávanými podnikovým uživatelům, kteří nerozumí skutečným potřebám podniku. Je nám řečeno, že to tak prostě je kvůli technickým požadavkům (omezení; mrk, mrk) a/nebo návrhovým parametrům (nedostatek funkcí; šťouch, šťouch). Z toho vyplývá problém č. 4: Doména podnikání; přizpůsobte data potřebám podnikání, ne naopak!“

Navíc, jak se mění systémy v předchozích fázích (a to se bude dít), jak technologie EDW/BI postupují vpřed (a to musí), jak převládá (neúprosně) dynamická složitost, je třeba každou chvíli přidávat nové zdroje dat. Ty jsou obvykle nepředvídatelné a neplánované. Dopad integrace může být obrovský, často vyžaduje kompletní obnovu agregovaných dat; proto problém č. 5:

Jak tedy tyto problémy řešit?

Bill Inmon, který je považován za otce datových skladů, definuje datový sklad jako:

„Věcně orientovaný, nevolatilní, časově proměnlivý soubor dat na podporu rozhodování managementu“
(http://en.wikipedia.org/wiki/Bill_Inmon)
Hvězdné schéma Ralph Kimball (http://en.wikipedia.org/wiki/Ralph_Kimball), průkopník architektury datových skladů, vyvinul metodiku „dimenzionálního modelování“, která je dnes považována za de facto standard v oblasti podpory rozhodování. Dimenzionální model (nazývaný „hvězdicové schéma“) se liší od Inmanovy metodiky „normalizovaného modelování“ (někdy nazývané „schéma sněhové vločky“). V Kimballově hvězdicovém schématu jsou transakční data rozdělena na agregovaná „fakta“ s referenčními „dimenzemi“, které obklopují a poskytují deskriptory definující fakta. Normalizovaný model (3NF neboli „třetí normální forma“) ukládá data do souvisejících „tabulek“ podle pravidel návrhu relačních databází stanovených E. F. Coddem a Raymondem F. Boycem na počátku 70. let, která eliminují redundanci dat. Obě tyto metodiky, které podporují živou diskusi mezi architekty EDW/BI o tom, která z nich je nejlepší, mají slabiny při řešení nevyhnutelných změn v systémech, které napájejí datový sklad, a při čištění dat tak, aby odpovídala přísným požadavkům metodiky.

Dále, kostka OLAP (pro „online analytické zpracování“) je datová struktura, která umožňuje rychlou analýzu dat z více pohledů. Struktura kostky je vytvořena buď ze schématu Star, nebo Snowflake uloženého jako metadata, z nichž lze data různými způsoby zobrazovat nebo „otáčet“. Obecně mají kostky jednu časovou dimenzi, která podporuje historickou reprezentaci dat. Vytváření kostek OLAP může být velmi nákladné a často vytváří značné množství dat, která jsou málo nebo vůbec nepoužitelná. Zdá se, že v mnoha případech platí pravidlo 80/20 (kdy je užitečných pouze 20 % dat z kostky OLAP), což vyvolává otázku: Přináší kostka OLAP, postavená na tradiční architektuře, skutečně dostatečnou návratnost investic? Často je odpověď jednoznačná: NE! Trvanlivé systémy EDW/BI musí přinášet skutečnou hodnotu.

Přečtěte si, jak Talend pomohl společnosti Tipico transformovat oceány dat na špičkovou business intelligence.

Svěží přístup
Adaptabilní
Big Data
Zjednodušení
Vaše podnikání
Flexibilní
Závěr

Svěží přístup

Datový trezor je hybridní metodika modelování dat poskytující reprezentaci historických dat z různých zdrojů navržená tak, aby byla odolná vůči změnám prostředí. Dan Linstedt, její tvůrce, původně koncipovaný v roce 1990 a vydaný v roce 2000 jako veřejně dostupná metodika modelování, popisuje výslednou databázi Data Vault jako:

„Detailně orientovanou, historicky sledovanou a jednoznačně propojenou sadu normalizovaných tabulek, které podporují jednu nebo více funkčních oblastí podnikání. Jedná se o hybridní přístup zahrnující to nejlepší mezi 3NF a hvězdicovými schématy. Návrh je flexibilní, škálovatelný, konzistentní a přizpůsobitelný potřebám podniku.“
(http://en.wikipedia.org/wiki/Data_Vault_Modeling)

Datový trezor, zaměřený na obchodní procesy, má jako architektura datové integrace robustní standardy a definiční metody, které sjednocují informace tak, aby dávaly smysl. Model datového trezoru se skládá ze tří základních typů tabulek:

Datový trezor HUB (modrý): obsahuje seznam jedinečných obchodních klíčů, které mají vlastní náhradní klíč. Jsou zde uložena také metadata popisující původ obchodního klíče neboli „zdroj“ záznamu, aby bylo možné sledovat, kde a kdy data vznikla.

LNK (červená): vytvářející vztahy mezi obchodními klíči (typicky huby, ale odkazy mohou odkazovat na jiné odkazy); v podstatě popisuje vztah mnoho k mnoha. Odkazy se často používají k řešení změn v granularitě dat, což snižuje dopad přidání nového obchodního klíče do propojeného uzlu.

SAT (žlutá): držení popisných atributů, které se mohou měnit v čase (podobně jako pomalu se měnící dimenze Kimballova typu II). Tam, kde Huby a Odkazy tvoří strukturu datového modelu, Satelity obsahují časové a popisné atributy včetně metadat, která je spojují s jejich nadřazenými tabulkami Hubů nebo Odkazů. Metadatové atributy v tabulce Satelit obsahující datum, kdy záznam začal platit, a datum, kdy jeho platnost vypršela, poskytují výkonné historické možnosti umožňující dotazy „zpět v čase“.

Přístup datového trezoru má několik klíčových výhod:

– Zjednodušuje proces přijímání dat

– Odstraňuje požadavek na čištění hvězdicového schématu

– Okamžitě zajišťuje auditovatelnost pro HIPPA a další předpisy

– Zaměřuje se na skutečný problém místo programování kolem něj

– Snadno umožňuje přidávat nové zdroje dat bez narušení stávajícího schématu

Zjednodušeně řečeno, datový trezor je technika i metodika modelování dat, která pojme historická data, audit a sledování dat.

„Datový trezor je optimální volbou pro modelování EDW v rámci DW 2.0“
Bill Inmon

Adaptabilní

Díky oddělení obchodních klíčů (protože jsou obecně statické) a asociací mezi nimi od jejich popisných atributů čelí datový trezor problému změny prostředí. Pomocí těchto klíčů jako strukturální páteře datového skladu lze kolem nich uspořádat všechna související data. Tyto uzly (obchodní klíče), odkazy (asociace) a SAT (popisné atributy) podporují vysoce přizpůsobivou strukturu dat při zachování vysoké míry integrity dat. Dan Linstedt často přirovnává datový trezor ke zjednodušenému pohledu na mozek, kde jsou neurony spojeny s Huby a Satelity a kde jsou dendrity Links (vektory informací). Některé Links jsou jako synapse (vektory v opačném směru). Mohou být vytvářeny nebo rušeny za běhu, jak se mění obchodní vztahy, automaticky morfují datový model podle potřeby bez dopadu na stávající datové struktury. Problém č. 1 vyřešen!“

Big Data

Data Vault v2.0 přišel na scénu v roce 2013 a zahrnuje bezproblémovou integraci technologií Big Data spolu s metodikou, architekturou a implementací osvědčených postupů. Díky tomuto přijetí lze do datového trezoru určeného k ukládání pomocí produktů, jako jsou Hadoop, Infobright, MongoDB a mnoho dalších možností NoSQL, snadno začlenit velmi velké objemy dat. Díky eliminaci požadavků na čištění v případě návrhu s hvězdicovým schématem vyniká datový trezor při práci s obrovskými soubory dat tím, že zkracuje dobu vkládání a umožňuje paralelní vkládání, které využívá sílu systémů Big Data. Problém č. 2 vyřešen!

Zjednodušení

Vytvoření efektivního a účinného modelu Data Vault lze provést rychle, jakmile pochopíte základy 3 typů tabulek: Rozbočovač, Satelit a Odkaz! Identifikace obchodních klíčů 1. a definice Hubů je vždy nejlepším místem, kde začít. Následně Huby-Satelity představují sloupce zdrojové tabulky, které se mohou měnit, a nakonec Odkazy vše spojují dohromady. Nezapomeňte, že je také možné mít tabulky Link-Satellite. Jakmile si tyto pojmy osvojíte, je to snadné. Po dokončení modelu datového trezoru je další běžnou věcí sestavení procesu integrace dat ETL pro jeho naplnění. Datový model datového trezoru se sice neomezuje pouze na řešení EDW/BI, ale kdykoli potřebujete dostat data z nějakého zdroje dat do nějakého cíle, je zpravidla nutný proces integrace dat. Posláním společnosti Talend je propojit podnik založený na datech.

Svojí sadou integračního softwaru Talend zjednodušuje proces vývoje, snižuje křivku učení a snižuje celkové náklady na vlastnictví díky jednotné, otevřené a předvídatelné platformě ETL. Talend, který je osvědčenou technologií ETL, lze jistě použít k naplnění a údržbě robustního systému EDW/BI postaveného na datovém modelu Data Vault. Problém č. 3 vyřešen!“

Vaše podnikání

Datový trezor v podstatě definuje ontologii podniku v tom smyslu, že popisuje obchodní doménu a vztahy v ní. Před naplněním hvězdicového schématu musí dojít ke zpracování obchodních pravidel. Pomocí datového trezoru je můžete předat následně, po požití EDW. Další filozofií Data Vaultu je, že všechna data jsou relevantní, i když jsou chybná. Dan Linstedt naznačuje, že chybná data jsou obchodním, nikoli technickým problémem. Souhlasím! EDW skutečně není vhodným místem pro opravu (čištění) špatných dat. Jednoduchým předpokladem datového trezoru je pojmout 100 % zdrojových dat ve 100 % případů; dobrých, špatných nebo ošklivých. V dnešním světě je relevantní, že auditovatelnost a sledovatelnost všech dat v datovém skladu se tak stává standardním požadavkem. Tento datový model je navržen speciálně pro potřeby dnešních systémů EDW/BI. Problém č. 4 vyřešen!“
„Pochopit datový trezor znamená pochopit byznys“

(http://danlinstedt.com)

Flexibilní

Metodika datového trezoru vychází z osvědčených postupů SEI/CMMI Level 5 a zahrnuje mnoho jeho součástí, které kombinuje s osvědčenými postupy Six Sigma, TQM a SDLC (Agile). Projekty Data Vault mají krátké řízené cykly vydání a mohou se skládat z produkčního vydání každé 2 nebo 3 týdny, čímž se automaticky přejímají opakovatelné, konzistentní a měřitelné projekty očekávané na úrovni CMMI 5. Když je třeba přidat nové zdroje dat, je pravděpodobné, že podobné obchodní klíče, lze přidat nové Huby-Satelity-Linky a ty pak dále propojit se stávajícími strukturami Data Vault bez jakékoli změny stávajícího datového modelu. Problém č. 5 vyřešen!

Závěr

Závěrem lze říci, že modelování a metodika Data Vault řeší prvky problémů, které jsme identifikovali výše:

– Přizpůsobuje se měnícímu se podnikovému prostředí

– Podporuje velmi rozsáhlé datové soubory

– Zjednodušuje složitost návrhu EDW/BI

– Zvyšuje použitelnost pro podnikové uživatele, protože je modelován podle podnikové domény

– Umožňuje přidávat nové zdroje dat bez dopadu na stávající návrh

Tento technologický pokrok se již nyní ukazuje jako vysoce efektivní a účinný. Datový trezor, který se snadno navrhuje, vytváří, naplňuje a mění, je jasným vítězem. Velmi skvělé! Chcete ho?“

Navštivte http://learndatavault.com nebo http://www.keyldv.com/lms, kde se dozvíte mnohem více o modelování a metodice Data Vault.

Když už budete u toho, stáhněte si bezplatnou zkušební verzi platformy Talend Cloud Integration Platform, abyste zjistili, co vaše data skutečně umí.

Virtual world

Co je to „The Data Vault“ a proč ho potřebujeme?