Wat is “The Data Vault” en waarom hebben we het nodig?

Enterprise Data Warehouse (EDW) systemen zijn bedoeld om echte Business Intelligence (BI) te bieden voor de data-gedreven onderneming. Bedrijven moeten zich bezighouden met kritische kengetallen die zijn ingebakken in deze vitale, levendige gegevens. Het bieden van een essentieel data-integratieproces dat uiteindelijk een verscheidenheid aan rapportage-eisen ondersteunt, is een belangrijk doel voor deze Enterprise Data Warehouse-systemen. Het bouwen ervan vergt aanzienlijke ontwerp-, ontwikkelings-, beheers- en operationele inspanningen. Wanneer stroomopwaartse bedrijfssystemen, -structuren of -regels veranderen, geen consistente gegevens leveren, of nieuwe systeemintegratieoplossingen vereisen, stellen de minimale reengineeringvereisten ons voor probleem nummer 1: De enige constante is verandering; dus hoe goed kan een EDW/BI-oplossing zich aanpassen?

“Het is niet de sterkste van de soort die overleeft, noch de intelligentste die overleeft. Het is degene die zich het best kan aanpassen aan veranderingen.” Charles Darwin

Consumptie en analyse van bedrijfsgegevens door diverse gebruikersgemeenschappen is een kritieke realiteit geworden om een concurrentievoordeel te behouden, maar de technologische realiteit van vandaag vereist vaak hoog opgeleide eindgebruikers. Het vastleggen, verwerken, transformeren, zuiveren en rapporteren van deze gegevens kan begrijpelijk zijn, maar in de meeste gevallen kan het volume van de gegevens overweldigend zijn; Yup, probleem #2: Really Big Data; vaak gekarakteriseerd als: Volume, Velocity, Variety, Variability, Veracity, Visualization, & Value!

Het ontwerpen van effectieve en efficiënte EDW/BI systemen, vereenvoudigd voor bruikbaarheid en rapportage over deze data, wordt al snel een ontmoedigende en vaak moeilijke technische beproeving, zelfs voor veteraan engineering teams. Verschillende geïntegreerde technologieën zijn vereist, van databasesystemen, dataverwerking (ETL) tools zoals Talend, verschillende programmeertalen, administratie, rapportage en interactieve grafische software tot high performance netwerken en krachtige computers met zeer grote opslagcapaciteiten. Het ontwerp, de creatie, levering en ondersteuning van robuuste, moeiteloze EDW/BI systemen voor vereenvoudigd, intelligent gebruik zijn, u raadt het al; probleem #3: Complexiteit!

Vaak zien we uitgebreide en elegante oplossingen geleverd aan de zakelijke gebruiker die er niet in slagen de werkelijke behoeften van het bedrijf te begrijpen. We krijgen te horen dat het nu eenmaal zo is vanwege technische eisen (beperkingen; knipoog, knipoog) en/of ontwerp parameters (gebrek aan functies; nudge, nudge). Vandaar probleem #4: Het Business Domein; pas de data aan aan de behoeften van de business, niet andersom!

Daarnaast, als upstream systemen veranderen (en dat zullen ze), als EDW/BI technologie doorschiet (en dat moet), als de dynamische complexiteit de overhand krijgt (meedogenloos), moeten er zo nu en dan nieuwe data bronnen aan de mix worden toegevoegd. Deze zijn meestal niet voorzien en niet gepland. De integratie-impact kan enorm zijn en vereist vaak een volledige vernieuwing van de geaggregeerde gegevens; vandaar probleem #5: Flexibiliteit; of het gebrek daaraan!

Dus hoe lossen we deze problemen op? Nou …

Bill Inmon, algemeen beschouwd als de vader van data warehousing, definieert een data warehouse als:

“Een onderwerpgerichte, niet-vluchtige, tijdsvariërende verzameling van gegevens ter ondersteuning van de beslissingen van het management.”
(http://en.wikipedia.org/wiki/Bill_Inmon)
Star schemaRalph Kimball (http://en.wikipedia.org/wiki/Ralph_Kimball), een baanbrekende data warehousing architect, ontwikkelde de “dimensionale modellering” methodologie die nu wordt beschouwd als de de-facto standaard op het gebied van beslissingsondersteuning. Het dimensionale model (een “sterrenschema” genoemd) verschilt van Inman’s “genormaliseerde modellering” (soms een “sneeuwvlokschema” genoemd) methodologie. In Kimball’s sterrenschema worden transactiegegevens opgedeeld in geaggregeerde “feiten” met referentiële “dimensies” die de feiten omgeven en voorzien van descriptoren die de feiten definiëren. Het Genormaliseerde Model (3NF of “derde normale vorm”) slaat gegevens op in gerelateerde “tabellen” volgens relationele databaseontwerpregels die in het begin van de jaren zeventig zijn opgesteld door E.F. Codd en Raymond F. Boyce en die redundantie in de gegevens elimineren. Beide methoden hebben zwakke punten bij het omgaan met onvermijdelijke veranderingen in de systemen die het data warehouse voeden en bij het opschonen van gegevens om te voldoen aan strikte methodologie-eisen.

Daarnaast is de OLAP-kubus (voor “online analytical processing”) een gegevensstructuur die snelle analyse van gegevens vanuit meerdere perspectieven mogelijk maakt. De kubusstructuur wordt gecreëerd op basis van een ster- of sneeuwvlokschema dat als metagegevens is opgeslagen en van waaruit men de gegevens op verschillende manieren kan bekijken of “pivotten”. Over het algemeen hebben kubussen één op tijd gebaseerde dimensie die een historische weergave van gegevens ondersteunt. Het maken van OLAP-kubussen kan zeer kostbaar zijn en levert vaak een aanzienlijke hoeveelheid gegevens op die weinig of geen nut hebben. De 80/20 regel lijkt in veel gevallen op te gaan (waarbij slechts 20% van de OLAP kubus gegevens nuttig blijken te zijn), wat de vraag oproept: Levert een OLAP kubus, gebouwd op een traditionele architectuur, werkelijk voldoende ROI op? Vaak is het antwoord een volmondig NEE! Duurzame EDW/BI systemen moeten echte waarde leveren.

Lees hoe Talend Tipico heeft geholpen om oceanen van gegevens om te zetten in geavanceerde business intelligence.

Een frisse aanpak

De Data Vault is een hybride datamodelleringsmethode die historische gegevens uit meerdere bronnen weergeeft, ontworpen om bestand te zijn tegen veranderingen in de omgeving. Dan Linstedt, de bedenker ervan, beschrijft een resulterende Data Vault-database als volgt:

“Een detailgeoriënteerde, historisch traceerbare en uniek gekoppelde set van genormaliseerde tabellen die een of meer functionele bedrijfsgebieden ondersteunen. Het is een hybride aanpak die het beste van het ras tussen 3NF en Star Schemas omvat. Het ontwerp is flexibel, schaalbaar, consistent en aanpasbaar aan de behoeften van de onderneming.”
(http://en.wikipedia.org/wiki/Data_Vault_Modeling)

Gericht op het bedrijfsproces, heeft de Data Vault als een data-integratie architectuur, robuuste standaarden en definitionele methoden die informatie samenbrengen om er iets zinnigs van te maken. Het Data Vault-model bestaat uit drie basistabeltypes:

De data vaultHUB (blauw): bevat een lijst van unieke bedrijfssleutels met een eigen surrogaatsleutel. Metagegevens die de oorsprong van de bedrijfssleutel of de recordbron beschrijven, worden ook opgeslagen om na te gaan waar en wanneer de gegevens vandaan komen.

LNK (rood): legt relaties tussen bedrijfssleutels (meestal hubs, maar links kunnen ook naar andere links verwijzen); beschrijft in wezen een veel-op-veel-relatie. Links worden vaak gebruikt om veranderingen in de granulariteit van gegevens op te vangen, waardoor de impact van het toevoegen van een nieuwe bedrijfssleutel aan een gekoppelde Hub wordt beperkt.

SAT (geel): bevat beschrijvende attributen die in de loop van de tijd kunnen veranderen (vergelijkbaar met een Kimball Type II langzaam veranderende dimensie). Waar Hubs en Links de structuur van het gegevensmodel vormen, bevatten Satellites temporele en beschrijvende attributen, met inbegrip van metadata die hen verbinden met hun bovenliggende Hub- of Link-tabellen. Metadata-attributen in een satelliettabel die een datum bevatten waarop het record geldig werd en een datum waarop het afliep, bieden krachtige historische mogelijkheden die query’s mogelijk maken die “back-in-time” kunnen gaan.

Er zijn verschillende belangrijke voordelen van de Data Vault-benadering:

– Vereenvoudigt het data ingestion proces

– Verwijdert de opschoningseis van een Star Schema

– Biedt onmiddellijk auditeerbaarheid voor HIPPA en andere voorschriften

– Legt de focus op het echte probleem in plaats van er omheen te programmeren

– Maakt het gemakkelijk om nieuwe databronnen toe te voegen zonder verstoring van het bestaande schema

Eenvoudig gezegd, de Data Vault is zowel een gegevens modellering techniek en methodologie die historische gegevens, auditing, en het bijhouden van gegevens tegemoet komt.

“De Data Vault is de optimale keuze voor het modelleren van het EDW in het DW 2.0 raamwerk.”
Bill Inmon

Aanpasbaar

Door de scheiding van bedrijfssleutels (aangezien deze over het algemeen statisch zijn) en de associaties tussen hen en hun beschrijvende attributen, confronteert een Data Vault het probleem van verandering in de omgeving. Door deze sleutels te gebruiken als de structurele ruggengraat van een data warehouse kunnen alle gerelateerde gegevens rond hen worden georganiseerd. Deze Hubs (bedrijfssleutels), Links (associaties), en SAT (beschrijvende attributen) ondersteunen een zeer aanpasbare gegevensstructuur met behoud van een hoge mate van gegevensintegriteit. Dan Linstedt vergelijkt de Data Vault vaak met een simplistisch beeld van de hersenen waar neuronen geassocieerd worden met Hubs en Satellieten en waar dendrieten Links zijn (vectoren van informatie). Sommige Links zijn als synapsen (vectoren in tegengestelde richting). Zij kunnen on the fly worden gecreëerd of verwijderd als de zakelijke relaties veranderen, waardoor het gegevensmodel automatisch wordt aangepast aan de behoefte, zonder impact op de bestaande gegevensstructuren. Probleem 1 is opgelost!

Big Data

Data Vault v2.0 kwam in 2013 op het toneel en omvat een naadloze integratie van Big Data-technologieën, samen met methodologie, architectuur en best practice-implementaties. Dankzij deze integratie kunnen zeer grote hoeveelheden gegevens gemakkelijk worden opgenomen in een Data Vault die is ontworpen voor opslag met producten zoals Hadoop, Infobright, MongoDB en vele andere NoSQL-opties. De Data Vault elimineert de opschoningvereisten van een Star Schema ontwerp en blinkt uit in het omgaan met enorme datasets door de inslagtijden te verminderen en parallelle invoegingen mogelijk te maken die de kracht van Big Data systemen benutten. Probleem #2 opgelost!

Simplification

Het maken van een effectief en efficiënt Data Vault model kan snel worden gedaan als je de basis van de 3 tabel types begrijpt: Hub, Satellite, en Link! Het identificeren van de business keys als eerste en het definiëren van de Hubs is altijd de beste plaats om te beginnen. Van daar Hub-Satellites vertegenwoordigen bron tabel kolommen die kunnen veranderen, en tenslotte Links binden het allemaal samen. Vergeet niet dat het ook mogelijk is om Link-Satellite tabellen te hebben. Als je deze concepten eenmaal kent, is het eenvoudig. Nadat je je Data Vault model hebt voltooid, is het volgende wat je moet doen het ETL data integratie proces bouwen om het te vullen. Hoewel een Data Vault data model niet beperkt is tot EDW/BI oplossingen, is een data integratie proces over het algemeen vereist wanneer je data uit een databron moet halen en in een doel moet plaatsen. Talend’s missie is om de data-gedreven onderneming te verbinden.

Met zijn suite van integratie software, vereenvoudigt Talend het ontwikkelingsproces, vermindert de leercurve en verlaagt de total cost of ownership met een verenigd, open en voorspelbaar ETL platform. Talend is een bewezen ETL-technologie en kan zeker worden gebruikt om een robuust EDW/BI-systeem te vullen en te onderhouden, gebouwd op een Data Vault datamodel. Probleem #3 Opgelost!

Uw Business

De Data Vault definieert in wezen de Ontologie van een Enterprise in die zin dat het het business domein en de relaties daarbinnen beschrijft. Het verwerken van bedrijfsregels moet gebeuren alvorens een sterrenschema te vullen. Met een Data Vault kun je ze stroomafwaarts duwen, na EDW ingestion. Een andere Data Vault filosofie is dat alle data relevant is, zelfs als ze fout is. Dan Linstedt suggereert dat foutieve data een business probleem is, geen technisch probleem. Daar ben ik het mee eens! Een EDW is echt niet de juiste plaats om slechte data te repareren (cleanen). Het eenvoudige uitgangspunt van de Data Vault is om 100% van de brondata 100% van de tijd binnen te halen; goed, slecht, of lelijk. In de wereld van vandaag zijn controleerbaarheid en traceerbaarheid van alle gegevens in het data warehouse dus een standaardvereiste geworden. Dit datamodel is speciaal ontworpen om te voldoen aan de behoeften van hedendaagse EDW/BI systemen. Probleem #4 Opgelost!
“De Data Vault begrijpen is de business begrijpen”

(http://danlinstedt.com)

Flexibel

De Data Vault methodologie is gebaseerd op SEI/CMMI Level 5 best practices en omvat veel van zijn componenten door ze te combineren met best practices van Six Sigma, TQM, en SDLC (Agile). Data Vault projecten hebben korte gecontroleerde releasecycli en kunnen bestaan uit een productie-release elke 2 of 3 weken, automatisch de herhaalbare, consistente en meetbare projecten overnemend die verwacht worden op CMMI Level 5. Wanneer nieuwe gegevensbronnen moeten worden toegevoegd, soortgelijke business keys waarschijnlijk zijn, nieuwe Hubs-Satellites-Links kunnen worden toegevoegd en vervolgens verder gekoppeld aan bestaande Data Vault structuren zonder enige wijziging aan het bestaande datamodel. Probleem #5 opgelost!

Conclusie

In conclusie, de Data Vault modellering en methodologie adresseert de elementen van de problemen die we hierboven hebben geïdentificeerd:

– Het past zich aan een veranderende bedrijfsomgeving aan

– Het ondersteunt zeer grote datasets

– Het vereenvoudigt de EDW/BI ontwerp complexiteiten

– Het verhoogt de bruikbaarheid voor zakelijke gebruikers omdat het is gemodelleerd naar het bedrijfsdomein

– Het maakt het mogelijk nieuwe gegevensbronnen toe te voegen zonder het bestaande ontwerp te beïnvloeden

Deze technologische vooruitgang blijkt nu al zeer effectief en efficiënt te zijn. Gemakkelijk te ontwerpen, bouwen, vullen en veranderen, de Data Vault is een duidelijke winnaar. Erg Cool! Wil je er een?

Bezoek http://learndatavault.com of http://www.keyldv.com/lms voor veel meer over Data Vault modellering en methodologie.

Nadat je toch bezig bent, download een gratis trial van Talend Cloud Integration Platform om te zien wat je data echt kan doen.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.