Ce este "The Data Vault" și de ce avem nevoie de el? | Talend Cloud Integration

Sistemele Enterprise Data Warehouse (EDW) urmăresc să ofere o adevărată inteligență de afaceri (BI) pentru o întreprindere bazată pe date. Companiile trebuie să abordeze parametrii critici înrădăcinați în aceste date vitale și vibrante. Furnizarea unui proces esențial de integrare a datelor care să susțină în cele din urmă o varietate de cerințe de raportare este un obiectiv cheie pentru aceste sisteme Enterprise Data Warehouse. Construirea lor implică un efort semnificativ de proiectare, dezvoltare, administrare și operare. Atunci când sistemele, structurile sau regulile de afaceri din amonte se schimbă, nu reușesc să furnizeze date coerente sau necesită noi soluții de integrare a sistemelor, cerințele minime de retehnologizare ne pun în fața problemei nr. 1: Singura constantă este schimbarea; așadar, cât de bine se poate adapta o soluție EDW/BI?

„Nu supraviețuiește cel mai puternic dintre specii, nici cel mai inteligent. Este cel care este cel mai adaptabil la schimbare.” Charles Darwin

Consumul și analiza datelor de afaceri de către diverse comunități de utilizatori a devenit o realitate critică pentru a menține un avantaj competitiv, însă realitățile tehnologice de astăzi necesită adesea utilizatori finali foarte bine pregătiți. Captarea, procesarea, transformarea, curățarea și raportarea acestor date poate fi de înțeles, dar, în cele mai multe cazuri, volumul pur și simplu de date poate fi copleșitor; da, problema nr. 2: Datele cu adevărat mari; adesea caracterizate ca fiind: Volum, Viteză, Varietate, Variabilitate, Veridicitate, Vizualizare, & Valoare!

Crearea unor sisteme EDW/BI eficiente și eficace, simplificate pentru utilizare și raportare pe aceste date, devine rapid o încercare tehnică descurajantă și adesea dificilă chiar și pentru echipele de ingineri veterani. Sunt necesare mai multe tehnologii integrate, de la sisteme de baze de date, instrumente de procesare a datelor (ETL) precum Talend, diverse limbaje de programare, software de administrare, raportare și grafică interactivă până la rețele de înaltă performanță și computere puternice cu capacități de stocare foarte mari. Proiectarea, crearea, livrarea și susținerea unor sisteme EDW/BI robuste și fără efort pentru o utilizare simplificată și inteligentă reprezintă, ați ghicit; problema nr. 3: Complexitatea!

De multe ori vedem soluții cuprinzătoare și elegante livrate utilizatorului de afaceri care nu reușesc să înțeleagă adevăratele nevoi ale afacerii. Ni se spune că așa stau lucrurile din cauza cerințelor tehnice (limitări; wink, wink) și/sau a parametrilor de proiectare (lipsa de caracteristici; nudge, nudge). Prin urmare; problema nr. 4: Domeniul de afaceri; adaptați datele pentru a satisface nevoile afacerii, nu invers!

În plus, pe măsură ce sistemele din amonte se schimbă (și o vor face), pe măsură ce tehnologia EDW/BI avansează (și trebuie să o facă), pe măsură ce complexitatea dinamică implicată prevalează (neîncetat), din când în când trebuie adăugate noi surse de date în amestec. Acestea sunt, de obicei, neprevăzute și neplanificate. Impactul integrării poate fi enorm, necesitând adesea o regenerare completă a datelor agregate; de aici, problema nr. 5: Flexibilitatea; sau lipsa acesteia!

Deci, cum rezolvăm aceste probleme? Ei bine …

Bill Inmon, considerat pe scară largă ca fiind părintele depozitării de date, definește un depozit de date ca fiind:

„O colecție de date orientată pe subiect, nevolatilă, variabilă în timp, în sprijinul deciziilor managementului”
(http://en.wikipedia.org/wiki/Bill_Inmon)
Schema stelară Ralph Kimball (http://en.wikipedia.org/wiki/Ralph_Kimball), un arhitect pionier în domeniul depozitării de date, a dezvoltat metodologia de „modelare dimensională”, considerată acum ca fiind standardul de-facto în domeniul suportului decizional. Modelul dimensional (numit „schemă în stea”) este diferit de metodologia de „modelare normalizată” a lui Inman (numită uneori „schemă în fulg de zăpadă”). În schema în stea a lui Kimball, datele tranzacționale sunt împărțite în „fapte” agregate, cu „dimensiuni” referențiale care înconjoară și furnizează descriptori care definesc faptele. Modelul normalizat (3NF sau „a treia formă normală”) stochează datele în „tabele” legate între ele, conform regulilor de proiectare a bazelor de date relaționale stabilite de E. F. Codd și Raymond F. Boyce la începutul anilor 1970, care elimină redundanța datelor. Promovând o dezbatere viguroasă în rândul arhitecților EDW/BI cu privire la care metodologie este cea mai bună, ambele au puncte slabe atunci când se confruntă cu schimbările inevitabile ale sistemelor care alimentează depozitul de date și în curățarea datelor pentru a se conforma cerințelor stricte ale metodologiei.

În plus, cubul OLAP (pentru „online analytical processing”) este o structură de date care permite analiza rapidă a datelor din mai multe perspective. Structura cubului este creată fie dintr-o schemă Star, fie dintr-o schemă Snowflake stocată ca metadate, din care se pot vizualiza sau „pivota” datele în diferite moduri. În general, cuburile au o dimensiune bazată pe timp care permite o reprezentare istorică a datelor. Crearea de cuburi OLAP poate fi foarte costisitoare și deseori creează o cantitate semnificativă de date care nu sunt de folos sau sunt puțin folositoare. Regula 80/20 pare să se adeverească în multe cazuri (în care doar 20% din datele cubului OLAP se dovedesc a fi utile), ceea ce ridică întrebarea: Construit pe o arhitectură tradițională, un cub OLAP oferă cu adevărat un ROI suficient? Adesea, răspunsul este un NU răsunător! Sistemele EDW/BI durabile trebuie să ofere o valoare reală.

Aflați cum Talend a ajutat Tipico să transforme oceane de date în informații de afaceri de ultimă oră.

O abordare proaspătă
Adaptabilitate
Big Data
Simplificare
Afacerea dumneavoastră
Flexibil
Concluzie

O abordare proaspătă

The Data Vault este o metodologie hibridă de modelare a datelor care oferă o reprezentare a datelor istorice din mai multe surse, concepută pentru a fi rezistentă la schimbările de mediu. Concepută inițial în 1990 și lansată în 2000 ca o metodologie de modelare de domeniu public, Dan Linstedt, creatorul său, descrie o bază de date Data Vault rezultată ca fiind:

„Un set de tabele normalizate orientate pe detalii, cu urmărire istorică și legate în mod unic, care sprijină unul sau mai multe domenii funcționale ale afacerii. Este o abordare hibridă care înglobează cea mai bună combinație între 3NF și Star Schemas. Concepția este flexibilă, scalabilă, consecventă și adaptabilă la nevoile întreprinderii.”
(http://en.wikipedia.org/wiki/Data_Vault_Modeling)

Concentrată pe procesul de afaceri, Data Vault, ca arhitectură de integrare a datelor, are standarde robuste și metode de definire care unesc informațiile pentru a le da sens. Modelul Data Vault este alcătuit din trei tipuri de tabele de bază:

Tabloul Data Vault HUB (albastru): care conține o listă de chei unice de afaceri având propria cheie surogat. Metadatele care descriu originea cheii de afaceri sau „sursa” înregistrării sunt, de asemenea, stocate pentru a urmări de unde și când provin datele.

LNK (roșu): care stabilește relații între cheile de afaceri (de obicei hub-uri, dar legăturile se pot lega de alte legături); în esență, descrie o relație de tip mulți-la-mulți. Legăturile sunt adesea utilizate pentru a face față schimbărilor în granularitatea datelor, reducând impactul adăugării unei noi chei de afaceri la un hub legat.

SAT (galben): păstrarea atributelor descriptive care se pot schimba în timp (similar cu o dimensiune Kimball de tip II cu schimbare lentă). În cazul în care Hub-urile și legăturile formează structura modelului de date, Sateliții conțin atribute temporale și descriptive, inclusiv metadate care le leagă de tabelele Hub sau Link părinte. Atributele de metadate din cadrul unui tabel Satellite, care conțin data la care înregistrarea a devenit valabilă și data la care a expirat, oferă capacități istorice puternice, permițând interogări care pot merge „înapoi în timp”.

Există mai multe avantaje cheie ale abordării Data Vault:

– Simplifică procesul de ingestie a datelor

– Îndepărtează cerința de curățare a unei scheme stelare

– Oferă instantaneu auditabilitate pentru HIPPA și alte reglementări

– Pune accentul pe problema reală în loc să programeze în jurul ei

– Permite cu ușurință adăugarea de noi surse de date fără a perturba schema existentă

Simplu spus, Data Vault este atât o tehnică de modelare a datelor, cât și o metodologie care găzduiește date istorice, audit și urmărire a datelor.

„Data Vault este alegerea optimă pentru modelarea EDW în cadrul DW 2.0”
Bill Inmon

Adaptabilitate

Prin separarea cheilor de afaceri (deoarece acestea sunt în general statice) și a asociațiilor dintre ele de atributele lor descriptive, un Data Vault se confruntă cu problema schimbării mediului. Utilizând aceste chei drept coloana vertebrală structurală a unui depozit de date, toate datele conexe pot fi organizate în jurul lor. Aceste Hub-uri (chei de afaceri), Legături (asociații) și SAT (atribute descriptive) susțin o structură de date foarte adaptabilă, menținând în același timp un grad ridicat de integritate a datelor. Dan Linstedt corelează adesea Data Vault cu o viziune simplistă a creierului, în care neuronii sunt asociați cu Hub-uri și Sateliți, iar dendritele sunt Link-uri (vectori de informații). Unele Legături sunt precum sinapsele (vectori în sens opus). Acestea pot fi create sau eliminate din mers, pe măsură ce relațiile de afaceri se schimbă, transformând automat modelul de date în funcție de necesități, fără impact asupra structurilor de date existente. Problema #1 rezolvată!

Big Data

Data Vault v2.0 a intrat în scenă în 2013 și încorporează integrarea perfectă a tehnologiilor Big Data, împreună cu metodologia, arhitectura și implementările de bune practici. Prin această adoptare, cantități foarte mari de date pot fi încorporate cu ușurință într-un Data Vault conceput pentru a stoca folosind produse precum Hadoop, Infobright, MongoDB și multe alte opțiuni NoSQL. Eliminând cerințele de curățare ale unui design de tip Star Schema, Data Vault excelează atunci când are de-a face cu seturi uriașe de date, reducând timpii de ingerare și permițând inserții paralele care valorifică puterea sistemelor Big Data. Problema nr. 2 rezolvată!

Simplificare

Crearea unui model Data Vault eficient și eficace se poate face rapid, odată ce ați înțeles elementele de bază ale celor 3 tipuri de tabele: Hub, Satellite și Link! Identificarea cheilor de afaceri în primul rând și definirea Hub-urilor este întotdeauna cel mai bun punct de plecare. De acolo, Hub-Sateliții reprezintă coloanele tabelelor sursă care se pot schimba și, în final, legăturile leagă totul. Nu uitați că este posibil să aveți și tabele Link-Satelit. Odată ce ați înțeles aceste concepte, este ușor. După ce ați finalizat modelul Data Vault, următorul lucru obișnuit de făcut este să construiți procesul de integrare a datelor ETL pentru a-l popula. În timp ce un model de date Data Vault nu se limitează la soluțiile EDW/BI, de fiecare dată când trebuie să obțineți date dintr-o sursă de date și să le introduceți într-o țintă, este în general necesar un proces de integrare a datelor. Misiunea Talend este de a conecta întreprinderea bazată pe date.

Cu suita sa de software de integrare, Talend simplifică procesul de dezvoltare, reduce curba de învățare și scade costul total de proprietate cu o platformă ETL unificată, deschisă și previzibilă. O tehnologie ETL dovedită, Talend poate fi folosită cu siguranță pentru a popula și menține un sistem EDW/BI robust construit pe un model de date Data Vault. Problema nr. 3 rezolvată!

Afacerea dumneavoastră

Data Vault definește în esență ontologia unei întreprinderi, în sensul că descrie domeniul de afaceri și relațiile din cadrul acestuia. Prelucrarea regulilor de afaceri trebuie să aibă loc înainte de popularea unei Star Schema. Cu un Data Vault puteți să le împingeți în aval, după ingestia EDW. O filozofie suplimentară a Data Vault este aceea că toate datele sunt relevante, chiar dacă sunt greșite. Dan Linstedt sugerează că datele greșite reprezintă o problemă de afaceri, nu una tehnică. Sunt de acord! Un EDW nu este chiar locul potrivit pentru a repara (curăța) datele greșite. Premisa simplă a Data Vault este de a ingera 100% din datele sursă 100% din timp; bune, rele sau urâte. Relevante în lumea de astăzi, auditabilitatea și trasabilitatea tuturor datelor din depozitul de date au devenit astfel o cerință standard. Acest model de date este conceput special pentru a răspunde nevoilor sistemelor EDW/BI de astăzi. Problema #4 Rezolvată!
„A înțelege Data Vault înseamnă a înțelege afacerea”

(http://danlinstedt.com)

Flexibil

Metodologia Data Vault se bazează pe cele mai bune practici SEI/CMMI Level 5 și include multe dintre componentele sale combinându-le cu cele mai bune practici din Six Sigma, TQM și SDLC (Agile). Proiectele Data Vault au cicluri de lansare scurte și controlate și pot consta într-o lansare de producție la fiecare 2 sau 3 săptămâni, adoptând automat proiectele repetabile, consecvente și măsurabile așteptate la nivelul 5 CMMI. Atunci când este necesar să se adauge noi surse de date, sunt probabile chei de afaceri similare, se pot adăuga noi Hub-uri-Sateliți-Link-uri și apoi se pot lega în continuare la structurile Data Vault existente fără nicio modificare a modelului de date existent. Problema nr. 5 rezolvată!

Concluzie

În concluzie, modelarea și metodologia Data Vault abordează elementele problemelor pe care le-am identificat mai sus:

– Se adaptează la un mediu de afaceri în schimbare

– Suportă seturi de date foarte mari

– Simplifică complexitatea proiectării EDW/BI

– Crește gradul de utilizare de către utilizatorii de afaceri deoarece este modelat după domeniul de afaceri

– Permite adăugarea de noi surse de date fără a afecta proiectarea existentă

Acest progres tehnologic se dovedește deja a fi foarte eficient și eficace. Ușor de proiectat, construit, populat și modificat, Data Vault este un câștigător clar. Foarte tare! Vreți unul?

Vizitați http://learndatavault.com sau http://www.keyldv.com/lms pentru mult mai multe informații despre modelarea și metodologia Data Vault.

În timp ce sunteți aici, descărcați o versiune de încercare gratuită a Talend Cloud Integration Platform pentru a vedea ce pot face cu adevărat datele dumneavoastră.

Virtual world

Ce este „The Data Vault” și de ce avem nevoie de el?