Mi a “The Data Vault” és miért van rá szükségünk?

A vállalati adattárház (EDW) rendszerek célja, hogy valódi üzleti intelligenciát (BI) biztosítsanak az adatvezérelt vállalatok számára. A vállalatoknak foglalkozniuk kell az ezekben a létfontosságú, élénk adatokban rejlő kritikus mérőszámokkal. Ezeknek a vállalati adattárház-rendszereknek az egyik legfontosabb célja, hogy olyan alapvető adatintegrációs folyamatot biztosítsanak, amely végül támogatja a különféle jelentési követelményeket. Megépítésük jelentős tervezési, fejlesztési, adminisztrációs és üzemeltetési erőfeszítéseket igényel. Amikor az upstream üzleti rendszerek, struktúrák vagy szabályok megváltoznak, nem tudnak konzisztens adatokat szolgáltatni, vagy új rendszerintegrációs megoldásokat igényelnek, a minimális áttervezési követelmények az 1-es számú problémát jelentik számunkra: Az egyetlen állandó a változás; tehát mennyire képes egy EDW/BI megoldás alkalmazkodni?

“Nem a faj legerősebbje marad fenn, nem a legintelligensebb marad fenn. Hanem az, amelyik a legjobban alkalmazkodik a változásokhoz.” Charles Darwin

Az üzleti adatok különböző felhasználói közösségek általi fogyasztása és elemzése kritikus valósággá vált a versenyelőny fenntartásához, ugyanakkor a technológiai realitások ma már gyakran magasan képzett végfelhasználókat igényelnek. Ezeknek az adatoknak a rögzítése, feldolgozása, átalakítása, tisztítása és jelentése érthető lehet, de a legtöbb esetben az adatok puszta mennyisége nyomasztó lehet; Igen, a 2. probléma: Valóban nagy adat; gyakran jellemzik:

A hatékony és eredményes EDW/BI-rendszerek kialakítása, a használhatóság és az adatokról való jelentéstétel érdekében egyszerűsítve, gyorsan ijesztő és gyakran nehéz technikai megpróbáltatássá válik még a veterán mérnöki csapatok számára is. Számos integrált technológiára van szükség az adatbázis-rendszerektől kezdve az adatfeldolgozó (ETL) eszközökön, mint például a Talend, a különböző programozási nyelveken, az adminisztrációs, jelentési és interaktív grafikai szoftvereken át a nagy teljesítményű hálózatokig és a nagy teljesítményű, igen nagy tárolókapacitású számítógépekig. A robusztus, erőfeszítés nélküli EDW/BI rendszerek tervezése, létrehozása, szállítása és támogatása az egyszerűsített, intelligens használat érdekében, kitalálta; 3. probléma: Komplexitás!

Gyakran látjuk, hogy olyan átfogó és elegáns megoldásokat szállítanak az üzleti felhasználóknak, amelyek nem értik meg az üzlet valódi igényeit. Azt mondják nekünk, hogy a technikai követelmények (korlátozások; kacsintás, kacsintás) és/vagy a tervezési paraméterek (funkciók hiánya; bökkenő, bökkenő) miatt van ez így. Ezért; 4. probléma: Az üzleti terület; az adatokat az üzleti igényekhez kell igazítani, nem pedig fordítva!

Továbbá, ahogy az upstream rendszerek változnak (és változni fognak), ahogy az EDW/BI technológia halad előre (és haladniuk kell), ahogy a dinamikus összetettség érvényesül (könyörtelenül), minden egyes alkalommal új adatforrásokat kell hozzáadni a keverékhez. Ezek általában előre nem láthatóak és nem tervezettek. Az integráció hatása óriási lehet, ami gyakran az összesített adatok teljes megújítását igényli; innen az 5. probléma: Rugalmasság; vagy annak hiánya!

Hogyan oldjuk meg tehát ezeket a problémákat? Nos …

Bill Inmon, akit széles körben az adattárházak atyjának tartanak, a következőképpen definiálja az adattárházat:

“A menedzsment döntéseinek támogatására szolgáló, témaorientált, nem illékony, időben változó adatgyűjtemény”
(http://en.wikipedia.org/wiki/Bill_Inmon)
Star schemaRalph Kimball (http://en.wikipedia.org/wiki/Ralph_Kimball), az adattárházépítés egyik úttörője, kidolgozta a “dimenzionális modellezés” módszertanát, amelyet ma a döntéstámogatás területén de facto szabványnak tekintenek. A dimenziós modell (amelyet “csillagsémának” neveznek) különbözik Inman “normalizált modellezési” (néha “hópehelysémának” nevezett) módszertanától. A Kimball-féle csillagsémában a tranzakciós adatok aggregált “tényekre” vannak felosztva, amelyeket referenciális “dimenziók” vesznek körül, és a tényeket meghatározó leírókkal látják el. A normalizált modell (3NF vagy “harmadik normál forma”) az adatokat összefüggő “táblákban” tárolja az E. F. Codd és Raymond F. Boyce által az 1970-es évek elején létrehozott relációs adatbázis-tervezési szabályok szerint, amelyek kiküszöbölik az adatredundanciát. Az EDW/BI-architektek között heves vita alakult ki arról, hogy melyik módszertan a legjobb, mivel mindkettőnek vannak gyengeségei az adattárházat tápláló rendszerek elkerülhetetlen változásainak kezelésében és az adatoknak a szigorú módszertani követelményeknek való megfelelés érdekében történő tisztításában.

Az OLAP kocka (az “online analitikus feldolgozásért”) egy olyan adatszerkezet, amely lehetővé teszi az adatok gyors elemzését több nézőpontból. A kockaszerkezetet egy metaadatként tárolt Star- vagy Snowflake-sémából hozzák létre, amelyből az adatokat különböző módon lehet megtekinteni vagy “pivotolni”. A kockák általában egy időalapú dimenzióval rendelkeznek, amely támogatja az adatok történeti ábrázolását. Az OLAP-kockák létrehozása nagyon költséges lehet, és gyakran jelentős mennyiségű, kevéssé vagy egyáltalán nem használható adatot hoz létre. A 80/20-as szabály sok esetben igaznak tűnik (amikor az OLAP-kocka adatainak csak 20%-a bizonyul hasznosnak), ami felveti a kérdést: A hagyományos architektúrára épülő OLAP-kocka valóban elegendő megtérülést biztosít? A válasz gyakran hangzatos: NEM! A tartós EDW/BI rendszereknek valódi értéket kell nyújtaniuk.

Tudja meg, hogy a Talend hogyan segített a Tipicónak a tengernyi adatot élvonalbeli üzleti intelligenciává alakítani.

Egy friss megközelítés

A Data Vault egy hibrid adatmodellezési módszertan, amely több forrásból származó historikus adatok reprezentációját biztosítja, és úgy tervezték, hogy ellenálló legyen a környezeti változásokkal szemben. Az eredetileg 1990-ben kitalált és 2000-ben nyilvánosságra hozott modellezési módszertan megalkotója, Dan Linstedt így írja le az eredményül kapott Data Vault adatbázist:

“Egy részletorientált, historikus nyomon követést biztosító és egyedileg összekapcsolt, normalizált táblákból álló, az üzleti élet egy vagy több funkcionális területét támogató, részletorientált halmaz. Ez egy hibrid megközelítés, amely magában foglalja a 3NF és a Star Schemas közötti legjobbat. A kialakítás rugalmas, skálázható, konzisztens és a vállalat igényeihez igazítható.”
(http://en.wikipedia.org/wiki/Data_Vault_Modeling)

Az üzleti folyamatokra összpontosító Data Vault, mint adatintegrációs architektúra, robusztus szabványokkal és definíciós módszerekkel rendelkezik, amelyek egyesítik az információkat annak érdekében, hogy azok értelmet nyerjenek. A Data Vault modell három alapvető táblázattípusból áll:

A data vaultHUB (kék): egyedi üzleti kulcsok listáját tartalmazza, amelyeknek saját helyettesítő kulcsuk van. Az üzleti kulcs eredetét vagy a rekord “forrását” leíró metaadatokat is tárolják, hogy nyomon követhető legyen, honnan és mikor származik az adat.

LNK (piros): az üzleti kulcsok (jellemzően hubok, de a linkek más linkekhez is kapcsolódhatnak) közötti kapcsolatok létrehozása; lényegében egy sok-sok kapcsolat leírása. A linkeket gyakran használják az adatok granularitásában bekövetkező változások kezelésére, csökkentve egy új üzleti kulcs hozzáadásának hatását egy kapcsolódó hubhoz.

SAT (sárga): olyan leíró attribútumok tárolása, amelyek idővel változhatnak (hasonló a Kimball II. típusú, lassan változó dimenzióhoz). Míg a hubok és linkek az adatmodell szerkezetét alkotják, a műholdak időbeli és leíró attribútumokat tartalmaznak, beleértve a metaadatokat, amelyek összekapcsolják őket a szülő hub vagy link tábláikkal. A műhold táblán belüli metaadat-attribútumok, amelyek tartalmazzák a rekord érvényessé válásának és lejártának dátumát, erőteljes historikus képességeket biztosítanak, lehetővé téve az “időben visszamenőleges” lekérdezéseket.

A Data Vault megközelítésnek számos kulcsfontosságú előnye van:

– Egyszerűsíti az adatbeviteli folyamatot

– Megszünteti a Star séma tisztítási követelményét

– Azonnali ellenőrizhetőséget biztosít a HIPPA és más szabályozásokhoz

– A valódi problémára helyezi a hangsúlyt a körülötte történő programozás helyett

– Könnyen lehetővé teszi új adatforrások hozzáadását a meglévő séma megszakítása nélkül

Egyszerűbben fogalmazva, az Adatszéf egy olyan adatmodellezési technika és módszertan, amely lehetővé teszi a historikus adatok, az auditálást és az adatok nyomon követését.

“A Data Vault az optimális választás az EDW modellezésére a DW 2.0 keretrendszerben”
Bill Inmon

Adaptálható

A Data Vault az üzleti kulcsok (mivel ezek általában statikusak) és a köztük lévő asszociációk leíró attribútumaiktól való elválasztásával szembeszáll a környezet változásának problémájával. Ezeket a kulcsokat az adattárház szerkezeti gerinceként használva minden kapcsolódó adat ezek köré szervezhető. Ezek a hubok (üzleti kulcsok), linkek (asszociációk) és SAT (leíró attribútumok) támogatják a nagymértékben adaptálható adatstruktúrát, miközben magas fokú adatintegritást biztosítanak. Dan Linstedt gyakran hozza összefüggésbe a Data Vaultot az agy leegyszerűsített nézetével, ahol az idegsejtek a Hubokhoz és a Satellitekhez kapcsolódnak, a dendritek pedig a Linkek (információvektorok). Néhány Link olyan, mint a szinapszisok (ellentétes irányú vektorok). Ezek menet közben is létrehozhatók vagy elhagyhatók, ahogy az üzleti kapcsolatok változnak, az adatmodell szükség szerint automatikusan átalakul, a meglévő adatszerkezetek befolyásolása nélkül. Az 1. probléma megoldva!

Big Data

Data Vault v2.0 2013-ban érkezett a színre, és a Big Data technológiák zökkenőmentes integrációját tartalmazza a módszertan, az architektúra és a legjobb gyakorlatok megvalósításával együtt. Az átvétel révén nagyon nagy mennyiségű adat könnyen beépíthető egy olyan Data Vaultba, amelyet olyan termékek használatával terveztek tárolásra, mint a Hadoop, az Infobright, a MongoDB és számos más NoSQL lehetőség. A Star Schema kialakítás tisztítási követelményeinek kiküszöbölésével a Data Vault kiemelkedik a hatalmas adathalmazok kezelése során azáltal, hogy csökkenti a betöltési időt, és lehetővé teszi a párhuzamos beillesztést, ami kihasználja a Big Data rendszerek erejét. Probléma #2 Megoldva!

Egyszerűsítés

Egy hatékony és eredményes Data Vault modell kialakítása gyorsan elvégezhető, ha megértette a 3 táblatípus alapjait: Hub, Satellite és Link! Az üzleti kulcsok 1. azonosítása és a Hubok meghatározása mindig a legjobb kiindulópont. Ezután a hub-szatellitek képviselik a forrástábla oszlopait, amelyek változhatnak, és végül a linkek kötik össze az egészet. Ne feledje, hogy Link-Satellit táblák is lehetnek. Ha már ismeri ezeket a fogalmakat, könnyű dolga van. Miután elkészült a Data Vault modellje, a következő közös teendő az ETL-adatintegrációs folyamat megalkotása annak feltöltéséhez. Bár a Data Vault adatmodell nem korlátozódik az EDW/BI megoldásokra, bármikor, amikor adatokat kell valamilyen adatforrásból valamilyen célba juttatni, általában szükség van egy adatintegrációs folyamatra. A Talend küldetése, hogy összekapcsolja az adatvezérelt vállalatot.

A Talend integrációs szoftvercsomagjával egyszerűsíti a fejlesztési folyamatot, csökkenti a tanulási görbét, és egy egységes, nyílt és kiszámítható ETL platformmal csökkenti a teljes tulajdonlási költséget. A Talend bizonyított ETL-technológia, a Talend természetesen használható a Data Vault adatmodellre épülő robusztus EDW/BI rendszer feltöltésére és karbantartására. Probléma #3 Megoldva!

Az Ön vállalkozása

A Data Vault lényegében meghatározza a vállalat ontológiáját, mivel leírja az üzleti tartományt és az azon belüli kapcsolatokat. Az üzleti szabályok feldolgozásának meg kell történnie a Star séma feltöltése előtt. A Data Vault segítségével ezeket az EDW felvétele után a downstream felé tolhatja. A Data Vault további filozófiája, hogy minden adat releváns, még akkor is, ha téves. Dan Linstedt szerint a hibás adatok üzleti problémát jelentenek, nem pedig technikai problémát. Egyetértek! Az EDW valóban nem a megfelelő hely a rossz adatok javítására (tisztítására). A Data Vault egyszerű előfeltevése az, hogy a forrásadatok 100%-át 100%-ban be kell fogadni, legyen az jó, rossz vagy csúnya. A mai világban releváns, az adattárházban lévő összes adat auditálhatósága és nyomon követhetősége így szabványos követelménnyé válik. Ezt az adatmodellt kifejezetten a mai EDW/BI rendszerek igényeinek megfelelően tervezték. Probléma #4 Megoldva!
“Az adatbolt megértése az üzlet megértését jelenti”

(http://danlinstedt.com)

Flexibilis

A Data Vault módszertan a SEI/CMMI 5. szintű legjobb gyakorlatokon alapul, és számos összetevőjét a Six Sigma, a TQM és az SDLC (agilis) legjobb gyakorlataival kombinálva tartalmazza. A Data Vault projektek rövid, ellenőrzött kiadási ciklusokkal rendelkeznek, és 2-3 hetente egy termelési kiadásból állhatnak, automatikusan átvéve a CMMI 5. szintjén elvárt megismételhető, következetes és mérhető projekteket. Ha új adatforrásokat kell hozzáadni, hasonló üzleti kulcsok valószínűsíthetőek, új Hubok-Satellitek-Linkek adhatók hozzá, majd tovább kapcsolhatók a meglévő Data Vault struktúrákhoz a meglévő adatmodell módosítása nélkül. Az 5. probléma megoldva!

Következtetés

Összefoglalva, a Data Vault modellezés és módszertan megoldja a fent azonosított problémák elemeit:

– Alkalmazkodik a változó üzleti környezethez

– Támogatja a nagyon nagy adathalmazokat

– Egyszerűsíti az EDW/BI tervezés bonyolultságát

– Növeli az üzleti felhasználók használhatóságát, mert az üzleti terület után van modellezve

– Lehetővé teszi új adatforrások hozzáadását a meglévő design befolyásolása nélkül

Ez a technológiai fejlesztés már most is rendkívül hatékonynak és eredményesnek bizonyul. Könnyen tervezhető, építhető, feltölthető és módosítható, az Adatszéf egyértelmű győztes. Nagyon király! Szeretne egyet?

Látogasson el a http://learndatavault.com vagy a http://www.keyldv.com/lms oldalra, ahol még többet megtudhat a Data Vault modellezéséről és módszertanáról.

Ha már itt van, töltse le a Talend Cloud Integration Platform ingyenes próbaverzióját, hogy megtudja, mire képesek valójában az adatai.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.