Mikä on "tietovarasto" ja miksi tarvitsemme sitä? | Talend Cloud Integration

Enterprise Data Warehouse (EDW) -järjestelmien tavoitteena on tarjota todellista Business Intelligence (BI) -tiedonhallintaa (Business Intelligence) tietoon perustuville yrityksille. Yritysten on käsiteltävä kriittisiä mittareita, jotka sisältyvät tähän elintärkeään, elinvoimaiseen dataan. Keskeinen tavoite näille Enterprise Data Warehouse -järjestelmille on tarjota olennainen tietojen integrointiprosessi, joka lopulta tukee erilaisia raportointitarpeita. Niiden rakentaminen edellyttää huomattavaa suunnittelu-, kehitys-, hallinto- ja käyttöpanosta. Kun tuotantoketjun alkupään liiketoimintajärjestelmät, rakenteet tai säännöt muuttuvat, eivät pysty tarjoamaan johdonmukaisia tietoja tai vaativat uusia järjestelmäintegraatioratkaisuja, vähimmäisvaatimukset uudelleensuunnittelulle tuovat mukanaan ongelman nro 1: Ainoa vakio on muutos, joten kuinka hyvin EDW/BI-ratkaisu pystyy sopeutumaan?

”Ei lajin vahvin selviydy eikä älykkäin selviydy hengissä”. Se on se, joka pystyy parhaiten sopeutumaan muutokseen.”” Charles Darwin

Yritystietojen kulutuksesta ja analysoinnista erilaisten käyttäjäyhteisöjen toimesta on tullut kriittinen realiteetti kilpailuedun säilyttämiseksi, mutta teknologiset realiteetit edellyttävät nykyään usein hyvin koulutettuja loppukäyttäjiä. Tämän datan kerääminen, käsittely, muuntaminen, puhdistaminen ja raportointi voi olla ymmärrettävää, mutta useimmissa tapauksissa pelkkä datan määrä voi olla ylivoimainen; Jep, ongelma nro 2: Todella suuri data; usein luonnehditaan seuraavasti:

Tehokkaiden ja tehokkaiden EDW/BI-järjestelmien luominen, joita on yksinkertaistettu käytettävyyden ja raportoinnin kannalta, muuttuu nopeasti pelottavaksi ja usein vaikeaksi tekniseksi koettelemukseksi jopa veteraanisuunnittelutiimeille. Tarvitaan useita integroituja tekniikoita tietokantajärjestelmistä, Talendin kaltaisista tietojenkäsittelytyökaluista (ETL), erilaisista ohjelmointikielistä, hallintakielistä, raportointi- ja interaktiivisista grafiikkaohjelmistoista suorituskykyisiin verkkoihin ja tehokkaisiin tietokoneisiin, joilla on erittäin suuri tallennuskapasiteetti. Vankkojen, vaivattomien EDW/BI-järjestelmien suunnittelu, luominen, toimittaminen ja tukeminen yksinkertaistettuun, älykkääseen käyttöön on, arvasittehan, ongelma nro 3: Monimutkaisuus!

Usein näemme, että liiketoimintakäyttäjälle toimitetaan kattavia ja tyylikkäitä ratkaisuja, jotka eivät ymmärrä liiketoiminnan todellisia tarpeita. Meille kerrotaan, että näin se vain on teknisten vaatimusten (rajoitukset; vink, vink) ja/tai suunnitteluparametrien (ominaisuuksien puute; nudge, nudge) vuoksi. Ongelma nro 4: liiketoiminta-alue; sovita data vastaamaan liiketoiminnan tarpeita, ei päinvastoin!

Lisäksi, kun tuotantoketjun alkupään järjestelmät muuttuvat (ja ne muuttuvat), kun EDW/BI-teknologia etenee (ja sen on pakko), kun dynaamiset monimutkaisuudet lisääntyvät (hellittämättömästi), aina silloin tällöin yhdistelmään on lisättävä uusia tietolähteitä. Nämä ovat yleensä ennalta arvaamattomia ja suunnittelemattomia. Integroinnin vaikutus voi olla valtava, mikä usein edellyttää yhdistettyjen tietojen täydellistä uudistamista; tästä johtuu ongelma nro 5:

Miten nämä ongelmat siis ratkaistaan? No …

Bill Inmon, jota pidetään yleisesti tietovarastoinnin isänä, määrittelee tietovaraston seuraavasti:

”Aineistolähtöinen, haihtumaton, ajassa muuttuva tietokokoelma johdon päätösten tueksi.”
(http://en.wikipedia.org/wiki/Bill_Inmon)
Ralph Kimball (http://en.wikipedia.org/wiki/Ralph_Kimball), tietovarastoarkkitehti, joka oli tietovarastoarkkitehtuurin edelläkävijä, kehitti ”ulottuvuusmallinnusmenetelmän” (dimensional modeling method), jota nykyään pidetään päätöksenteon tukemisen de-facto-standardina. Dimensiomalli (jota kutsutaan ”tähtikaavioksi”) eroaa Inmanin ”normalisoidun mallintamisen” (jota joskus kutsutaan ”lumihiutalekaavioksi”) menetelmästä. Kimballin tähtikaaviossa transaktiotiedot jaetaan aggregoituihin ”tosiseikkoihin”, joita ympäröivät ja kuvaavat tosiseikkoja määrittelevät viittaavat ”ulottuvuudet”. Normalisoidussa mallissa (3NF eli ”kolmas normaalimuoto”) tiedot tallennetaan toisiinsa liittyviin ”taulukoihin” E. F. Coddin ja Raymond F. Boycen 1970-luvun alussa laatimien relaatiotietokantojen suunnittelusääntöjen mukaisesti. EDW/BI-arkkitehtien keskuudessa käydään vilkasta keskustelua siitä, kumpi menetelmä on paras, mutta molemmilla on heikkouksia, kun on kyse tietovarastoa ruokkivien järjestelmien väistämättömistä muutoksista ja tietojen puhdistamisesta tiukkojen menetelmävaatimusten mukaisiksi.

Lisäksi OLAP-kuutio (englanninkielinen lyhenne sanoista ”online-analyyttinen tietojenkäsittely” (online analytical processing, OLAP cube = online analyyttinen tietojenkäsittely)) on tietorakenne, joka mahdollistaa tietojen nopean analyysin useista eri näkökulmista. Kuutiorakenne luodaan joko Star- tai Snowflake-skeemasta, joka on tallennettu metatietona, josta tietoja voidaan tarkastella tai ”kääntää” eri tavoin. Yleensä kuutioilla on yksi aikapohjainen ulottuvuus, joka tukee tietojen historiallista esittämistä. OLAP-kuutioiden luominen voi olla hyvin kallista, ja usein syntyy huomattava määrä tietoa, josta on vain vähän tai ei lainkaan hyötyä. 80/20-sääntö näyttää monissa tapauksissa pitävän paikkansa (vain 20 prosenttia OLAP-kuution tiedoista osoittautuu hyödylliseksi), mikä herättää kysymyksen: Tuottaako perinteisen arkkitehtuurin pohjalta rakennettu OLAP-kuutio todella riittävän ROI:n? Usein vastaus on selvä EI! Kestävien EDW/BI-järjestelmien on tuotettava todellista arvoa.

Lue, miten Talend auttoi Tipicoa muuttamaan tietomassat huippuluokan liiketoimintatiedusteluksi.

Uusi lähestymistapa
Adaptiivinen
Big Data
Yleistäminen
Your Business
Joustava
Johtopäätös

Uusi lähestymistapa

Dataholvi on hybridi tietomallinnusmenetelmä, joka tarjoaa historiallisten tietojen esittämisen useista lähteistä ja joka on suunniteltu kestämään ympäristön muutoksia. Alun perin vuonna 1990 suunniteltu ja vuonna 2000 julkaistu julkisesti saatavilla oleva mallinnusmenetelmä, jonka luoja Dan Linstedt kuvailee tuloksena syntyvää Data Vault -tietokantaa seuraavasti:

”Yksityiskohtiin suuntautuva, historianseurantaan perustuva ja yksiselitteisesti linkitetty joukko normalisoituja taulukoita, jotka tukevat yhtä tai useampaa toiminnallista liiketoiminta-aluetta. Se on hybridi lähestymistapa, joka kattaa 3NF:n ja Star Schemojen parhaat puolet. Suunnittelu on joustavaa, skaalautuvaa, johdonmukaista ja mukautettavissa yrityksen tarpeisiin.”
(http://en.wikipedia.org/wiki/Data_Vault_Modeling)

Dataholvi keskittyy liiketoimintaprosesseihin, ja dataintegraatioarkkitehtuurina sillä on vankat standardit ja määritelmämenetelmät, jotka yhdistävät tietoa, jotta siitä saadaan järkevää. Data Vault -malli koostuu kolmesta perustaulukkotyypistä:

Dataholvi HUB (sininen): Sisältää luettelon yksilöllisistä liiketoiminta-avaimista, joilla on oma sijaisavain. Tallennetaan myös metatietoja, jotka kuvaavat liiketoiminta-avaimen alkuperää eli tietueen ”lähdettä”, jotta voidaan seurata, mistä ja milloin tiedot ovat peräisin.

LNK (punainen): luo suhteita liiketoiminta-avainten välille (tyypillisesti hubeja, mutta linkit voivat linkittää toisiin linkkeihin); kuvaa olennaisesti monien välistä suhdetta. Linkkejä käytetään usein käsittelemään tietojen rakeisuuden muutoksia, mikä vähentää uuden liiketoiminta-avaimen lisäämisen vaikutusta linkitettyyn keskittimeen.

SAT (keltainen): kuvailevien attribuuttien säilyttäminen, jotka voivat muuttua ajan mittaan (samanlainen kuin Kimballin tyypin II hitaasti muuttuva ulottuvuus). Siinä missä keskittimet ja linkit muodostavat tietomallin rakenteen, satelliitit sisältävät ajallisia ja kuvailevia attribuutteja, mukaan lukien metatiedot, jotka yhdistävät ne emotauluihinsa keskittimiin tai linkkeihin. Satelliittitaulussa olevat metatietoattribuutit, jotka sisältävät päivämäärän, jolloin tietue tuli voimaan, ja päivämäärän, jolloin sen voimassaolo päättyi, tarjoavat tehokkaat historialliset ominaisuudet, jotka mahdollistavat kyselyt, joilla voidaan palata ajassa taaksepäin.

Data Vault -lähestymistavassa on useita keskeisiä etuja:

– Yksinkertaistaa tietojen syöttöprosessia

– Poistaa Star Schema -kaavion puhdistusvaatimuksen

– Tarjoaa välittömästi tarkastettavuuden HIPPA:n ja muiden säännösten mukaisesti

– Keskittyy todelliseen ongelmaan sen sijaan, että ohjelmoitaisiin sen ympärille

– Mahdollistaa helposti uusien tietolähteiden lisäämisen ilman, että olemassa olevaa kaaviota tarvitsee häiritä

Lyhyesti sanottuna, dataholvi on sekä tietomallinnustekniikka että -menetelmä, joka mahdollistaa historiatiedot, tilintarkastuksen ja tietojen seurannan.

”Data Vault on optimaalinen valinta EDW:n mallintamiseen DW 2.0:n puitteissa”
Bill Inmon

Adaptiivinen

Tietoholvissa erotetaan liiketoiminta-avaimet (koska ne ovat yleensä staattisia) ja niiden väliset assosiaatioyhteydet niiden kuvailevista attribuuteista, ja näin vastataan ympäristön muuttumisen ongelmaan. Kun näitä avaimia käytetään tietovaraston rakenteellisena selkärankana, kaikki niihin liittyvät tiedot voidaan järjestää niiden ympärille. Nämä keskittimet (liiketoiminta-avaimet), linkit (assosioinnit) ja SAT (kuvailevat attribuutit) tukevat erittäin mukautuvaa tietorakennetta säilyttäen samalla tiedon eheyden korkean tason. Dan Linstedt vertaa usein tietovarastoa yksinkertaistettuun näkemykseen aivoista, jossa neuronit liittyvät Hubeihin ja Satelliitteihin ja jossa dendriitit ovat Linkkejä (informaatiovektoreita). Jotkin Linkit ovat synapsien kaltaisia (vastakkaissuuntaisia vektoreita). Niitä voidaan luoda tai poistaa lennossa liikesuhteiden muuttuessa, jolloin tietomalli muuntuu automaattisesti tarpeen mukaan ilman vaikutusta olemassa oleviin tietorakenteisiin. Ongelma #1 ratkaistu!

Big Data

Data Vault v2.0 saapui markkinoille vuonna 2013, ja se sisältää Big Data -teknologioiden saumattoman integroinnin sekä metodologian, arkkitehtuurin ja parhaiden käytäntöjen toteutukset. Tämän käyttöönoton ansiosta hyvin suuret tietomäärät voidaan helposti sisällyttää Data Vault -tietovarastoon, joka on suunniteltu tallennettavaksi käyttämällä tuotteita, kuten Hadoop, Infobright, MongoDB ja monet muut NoSQL-vaihtoehdot. Koska Star Schema -suunnittelun puhdistusvaatimukset poistuvat, Data Vault erottuu edukseen käsiteltäessä valtavia tietokokonaisuuksia lyhentämällä sisäänsyöttöaikoja ja mahdollistamalla rinnakkaiset lisäykset, jotka hyödyntävät Big Data -järjestelmien tehoa. Ongelma nro 2 ratkaistu!

Yleistäminen

Tehokkaan ja tehokkaan Data Vault -mallin luominen onnistuu nopeasti, kunhan ymmärrät kolmen taulukkotyypin perusteet: Hub, Satellite ja Link! Liiketoiminta-avainten tunnistaminen 1. ja Hubien määrittely on aina paras paikka aloittaa. Sen jälkeen Hub-satelliitit edustavat lähdetaulukon sarakkeita, jotka voivat muuttua, ja lopuksi Linkit sitovat kaiken yhteen. Muista, että myös Link-Satelliitti-taulukot ovat mahdollisia. Kun olet oppinut nämä käsitteet, se on helppoa. Kun olet saanut valmiiksi Data Vault -mallin, seuraava yleinen tehtävä on rakentaa ETL-tiedon integrointiprosessi sen täyttämiseksi. Vaikka Data Vault -tietomalli ei rajoitu pelkästään EDW/BI-ratkaisuihin, dataintegraatioprosessia tarvitaan yleensä aina, kun tietoja on saatava jostain tietolähteestä johonkin kohteeseen. Talendin tehtävänä on yhdistää dataan perustuva yritys.

Integraatio-ohjelmistopakettinsa avulla Talend yksinkertaistaa kehitysprosessia, lyhentää oppimiskäyrää ja pienentää kokonaiskustannuksia yhtenäisen, avoimen ja ennustettavan ETL-alustan avulla. Talend on todistettu ETL-teknologia, ja sitä voidaan varmasti käyttää Data Vault -tietomalliin perustuvan vankan EDW/BI-järjestelmän täyttämiseen ja ylläpitoon. Ongelma #3 ratkaistu!

Your Business

Dataholvi määrittelee olennaisesti yrityksen ontologian siten, että se kuvaa liiketoiminta-alueen ja sen sisäiset suhteet. Liiketoimintasääntöjen käsittelyn on tapahduttava ennen Star Scheman täyttämistä. Data Vaultin avulla ne voidaan työntää tuotantoketjun loppupäähän EDW:n käyttöönoton jälkeen. Data Vaultin filosofiaan kuuluu myös se, että kaikki tieto on merkityksellistä, vaikka se olisi väärin. Dan Linstedt ehdottaa, että tietojen virheellisyys on liiketoimintaongelma, ei tekninen ongelma. Olen samaa mieltä! EDW ei todellakaan ole oikea paikka korjata (puhdistaa) huonoja tietoja. Data Vaultin yksinkertaisena lähtökohtana on, että siihen syötetään 100 % lähdetiedoista 100 % ajasta; hyvät, huonot tai rumat tiedot. Nykymaailmassa kaikkien tietovarastossa olevien tietojen tarkastettavuudesta ja jäljitettävyydestä on tullut vakiovaatimus. Tämä tietomalli on suunniteltu erityisesti vastaamaan nykypäivän EDW/BI-järjestelmien tarpeita. Ongelma #4 ratkaistu!
”Data Vaultin ymmärtäminen tarkoittaa liiketoiminnan ymmärtämistä”

(http://danlinstedt.com)

Joustava

Data Vault -menetelmä perustuu SEI/CMMI Level 5:n parhaisiin käytäntöihin, ja se sisältää monia sen osatekijöitä yhdistäen ne Six Sigman, TQM:n ja SDLC:n (Ketterä) parhaisiin käytäntöihin. Data Vault -hankkeilla on lyhyet, kontrolloidut julkaisusyklit, ja ne voivat koostua 2-3 viikon välein tapahtuvasta tuotantojulkaisusta, jolloin otetaan automaattisesti käyttöön toistettavat, johdonmukaiset ja mitattavat hankkeet, joita odotetaan CMMI-tasolla 5. Kun uusia tietolähteitä on lisättävä, samankaltaiset liiketoiminta-avaimet ovat todennäköisiä, uusia Hubs-Satelliitteja-Linkkejä voidaan lisätä ja linkittää edelleen olemassa oleviin Data Vault -rakenteisiin ilman muutoksia olemassa olevaan tietomalliin. Ongelma #5 ratkaistu!

Johtopäätös

Johtopäätöksenä voidaan todeta, että Data Vault -mallinnus ja -menetelmät ratkaisevat edellä tunnistamiemme ongelmien osatekijät:

– Se mukautuu muuttuvaan liiketoimintaympäristöön

– Se tukee erittäin suuria tietokokonaisuuksia

– Se yksinkertaistaa EDW/BI-suunnittelun monimutkaisuutta

– Se lisää liiketoiminnan käyttäjien käytettävyyttä, koska se on mallinnettu liiketoiminta-alueen mukaan

– Se mahdollistaa uusien tietolähteiden lisäämisen vaikuttamatta nykyiseen suunnitteluun

Tämä teknologinen kehitys on jo nyt osoittautunut erittäin tehokkaaksi ja toimivaksi. Data Vault on helppo suunnitella, rakentaa, täyttää ja muuttaa, ja se on selkeä voittaja. Erittäin siistiä! Haluatko sellaisen?

Käy http://learndatavault.com tai http://www.keyldv.com/lms saadaksesi paljon lisää tietoa Data Vaultin mallintamisesta ja metodologiasta.

Lataa samalla Talend Cloud Integration Platformin ilmainen kokeiluversio, jotta näet, mitä datasi todella voi tehdä.

Virtual world

Mikä on ”The Data Vault” ja miksi tarvitsemme sitä?