Qué es "The Data Vault" y por qué lo necesitamos? | Talend Cloud Integration

Los sistemas Enterprise Data Warehouse (EDW) tienen como objetivo proporcionar una verdadera Business Intelligence (BI) para la empresa impulsada por los datos. Las empresas deben abordar las métricas críticas arraigadas en estos datos vitales y vibrantes. Proporcionar un proceso de integración de datos esencial que eventualmente apoye una variedad de requisitos de informes es un objetivo clave para estos sistemas de almacén de datos empresariales. Construirlos implica un importante esfuerzo de diseño, desarrollo, administración y operación. Cuando los sistemas, estructuras o reglas empresariales anteriores cambian, no proporcionan datos coherentes o requieren nuevas soluciones de integración de sistemas, los requisitos mínimos de reingeniería nos plantean el problema nº 1: la única constante es el cambio; así que, ¿hasta qué punto puede adaptarse una solución EDW/BI?

«No es la más fuerte de las especies la que sobrevive, ni la más inteligente la que sobrevive. Es la que es más adaptable al cambio». Charles Darwin

El consumo y el análisis de los datos empresariales por parte de diversas comunidades de usuarios se ha convertido en una realidad crítica para mantener una ventaja competitiva, pero las realidades tecnológicas de hoy en día suelen requerir usuarios finales altamente capacitados. La captura, el procesamiento, la transformación, la limpieza y la elaboración de informes sobre estos datos pueden ser comprensibles, pero en la mayoría de los casos el gran volumen de datos puede ser abrumador; Sí, el problema #2: Realmente Big Data; a menudo caracterizado como: Volumen, Velocidad, Variedad, Variabilidad, Veracidad, Visualización, & ¡Valor!

La elaboración de sistemas EDW/BI eficaces y eficientes, simplificados para la usabilidad y la presentación de informes sobre estos datos, se convierte rápidamente en una prueba técnica desalentadora y a menudo difícil incluso para los equipos de ingeniería veteranos. Se necesitan varias tecnologías integradas, desde sistemas de bases de datos, herramientas de procesamiento de datos (ETL) como Talend, varios lenguajes de programación, software de administración, de elaboración de informes y de gráficos interactivos hasta redes de alto rendimiento y potentes ordenadores con capacidades de almacenamiento muy grandes. El diseño, la creación, la entrega y el soporte de sistemas EDW/BI robustos y sin esfuerzo para un uso simplificado e inteligente son, lo ha adivinado; el problema nº 3: ¡Complejidad!

A menudo vemos soluciones completas y elegantes entregadas al usuario de la empresa que no comprenden las verdaderas necesidades del negocio. Se nos dice que es así debido a los requisitos técnicos (limitaciones; guiño, guiño) y/o parámetros de diseño (falta de características; codazo, codazo). Por lo tanto, el problema nº 4: el dominio del negocio; ¡adapte los datos a las necesidades del negocio, no al revés!

Además, a medida que los sistemas ascendentes cambian (y lo harán), a medida que la tecnología EDW/BI avanza (y debe hacerlo), a medida que las complejidades dinámicas implicadas prevalecen (implacablemente), de vez en cuando hay que añadir nuevas fuentes de datos a la mezcla. Estas suelen ser imprevistas y no planificadas. El impacto de la integración puede ser enorme y a menudo requiere una regeneración completa de los datos agregados; de ahí el problema nº 5: Flexibilidad, o la falta de ella

¿Cómo resolvemos estos problemas? Bueno …

Bill Inmon ampliamente considerado como el padre del data warehousing, define un data warehouse como:

«Una colección de datos orientada a temas, no volátil y variable en el tiempo para apoyar las decisiones de la gerencia»
(http://en.wikipedia.org/wiki/Bill_Inmon)
Esquema estelar Ralph Kimball (http://en.wikipedia.org/wiki/Ralph_Kimball), un arquitecto pionero del data warehousing, desarrolló la metodología de «modelado dimensional» ahora considerada como el estándar de facto en el área de apoyo a la decisión. El modelo dimensional (llamado «esquema de estrella») es diferente de la metodología de «modelado normalizado» de Inman (a veces llamada «esquema de copo de nieve»). En el esquema en estrella de Kimball, los datos transaccionales se dividen en «hechos» agregados con «dimensiones» referenciales que rodean y proporcionan descriptores que definen los hechos. El modelo normalizado (3NF o «tercera forma normal») almacena los datos en «tablas» relacionadas, siguiendo las reglas de diseño de las bases de datos relacionales establecidas por E. F. Codd y Raymond F. Boyce a principios de los años 70, que eliminan la redundancia de datos. Aunque los arquitectos de EDW/BI debaten enérgicamente sobre cuál es la mejor metodología, ambas tienen puntos débiles a la hora de hacer frente a los inevitables cambios en los sistemas que alimentan el almacén de datos y a la hora de limpiar los datos para que se ajusten a los estrictos requisitos de la metodología.

Además, el cubo OLAP (de «procesamiento analítico en línea») es una estructura de datos que permite un rápido análisis de los datos desde múltiples perspectivas. La estructura del cubo se crea a partir de un esquema Star o Snowflake almacenado como metadatos a partir de los cuales se pueden ver o «pivotar» los datos de varias maneras. Generalmente los cubos tienen una dimensión basada en el tiempo que soporta una representación histórica de los datos. La creación de cubos OLAP puede ser muy costosa y a menudo crea una cantidad significativa de datos que son de poca o ninguna utilidad. La regla del 80/20 parece ser cierta en muchos casos (en los que sólo el 20% de los datos del cubo OLAP resultan útiles), lo que nos lleva a preguntarnos: Construido sobre una arquitectura tradicional, ¿un cubo OLAP ofrece realmente un ROI suficiente? A menudo, la respuesta es un rotundo ¡NO! Los sistemas EDW/BI duraderos deben ofrecer un valor real.

Aprenda cómo Talend ayudó a Tipico a transformar océanos de datos en inteligencia empresarial de vanguardia.

Un nuevo enfoque
Adaptable
Big Data
Simplificación
Su empresa
Flexible
Conclusión

Un nuevo enfoque

La bóveda de datos es una metodología híbrida de modelado de datos que proporciona una representación de datos históricos de múltiples fuentes diseñada para ser resistente a los cambios del entorno. Concebida originalmente en 1990 y lanzada en el año 2000 como una metodología de modelado de dominio público, Dan Linstedt, su creador, describe una base de datos Data Vault resultante como:

«Un conjunto de tablas normalizadas orientadas al detalle, con seguimiento histórico y vinculadas de forma única que dan soporte a una o más áreas funcionales del negocio. Se trata de un enfoque híbrido que engloba lo mejor de la clase entre 3NF y Star Schemas. El diseño es flexible, escalable, consistente y adaptable a las necesidades de la empresa»
(http://en.wikipedia.org/wiki/Data_Vault_Modeling)

Centrado en el proceso de negocio, el Data Vault como arquitectura de integración de datos, cuenta con estándares robustos y métodos de definición que unen la información para darle sentido. El modelo de Data Vault se compone de tres tipos de tablas básicas:

La bóveda de datos HUB (azul): contiene una lista de claves de negocio únicas que tienen su propia clave sustituta. También se almacenan metadatos que describen el origen de la clave de negocio, o la «fuente» del registro, para rastrear dónde y cuándo se originaron los datos.

LNK (rojo): establece relaciones entre claves de negocio (normalmente hubs, pero los enlaces pueden enlazar con otros enlaces); esencialmente describe una relación de muchos a muchos. Los enlaces se utilizan a menudo para hacer frente a los cambios en la granularidad de los datos reduciendo el impacto de la adición de una nueva clave de negocio a un Hub vinculado.

SAT (amarillo): mantener los atributos descriptivos que pueden cambiar con el tiempo (similar a una dimensión Kimball Tipo II que cambia lentamente). Mientras que los Hubs y los Links forman la estructura del modelo de datos, los Satélites contienen atributos temporales y descriptivos, incluyendo metadatos que los vinculan a sus tablas parentales de Hub o Link. Los atributos de metadatos dentro de una tabla Satélite que contienen una fecha en la que el registro se hizo válido y una fecha en la que expiró proporcionan potentes capacidades históricas que permiten realizar consultas que pueden ir «hacia atrás en el tiempo».

El enfoque de Data Vault tiene varias ventajas clave:

– Simplifica el proceso de ingestión de datos

– Elimina el requisito de limpieza de un Star Schema

– Proporciona instantáneamente la auditabilidad para HIPPA y otras regulaciones

– Pone el foco en el problema real en lugar de programar alrededor de él

– Permite fácilmente la adición de nuevas fuentes de datos sin interrumpir el esquema existente

En pocas palabras, el Data Vault es tanto una técnica de modelado de datos como una metodología que da cabida a los datos históricos, la auditoría y el seguimiento de los datos.

«La Bóveda de Datos es la opción óptima para modelar el EDW en el marco del DW 2.0»
Bill Inmon

Adaptable

A través de la separación de las claves de negocio (ya que generalmente son estáticas) y las asociaciones entre ellas de sus atributos descriptivos, una Bóveda de Datos afronta el problema del cambio en el entorno. Utilizando estas claves como columna vertebral de un almacén de datos, todos los datos relacionados pueden organizarse en torno a ellas. Estos Hubs (claves de negocio), Links (asociaciones) y SAT (atributos descriptivos) soportan una estructura de datos altamente adaptable a la vez que mantienen un alto grado de integridad de los datos. Dan Linstedt suele correlacionar la Bóveda de Datos con una visión simplista del cerebro en la que las neuronas se asocian con Hubs y Satélites y donde las dendritas son Links (vectores de información). Algunos Enlaces son como sinapsis (vectores en sentido contrario). Pueden ser creados o eliminados sobre la marcha a medida que las relaciones de negocio cambian, transformando automáticamente el modelo de datos según sea necesario sin afectar a las estructuras de datos existentes. Problema nº 1 resuelto

Big Data

Data Vault v2.0 llegó a la escena en 2013 e incorpora una perfecta integración de las tecnologías de Big Data junto con la metodología, la arquitectura y las mejores prácticas de implementación. Gracias a esta adopción, cantidades muy grandes de datos pueden incorporarse fácilmente a un Data Vault diseñado para almacenar utilizando productos como Hadoop, Infobright, MongoDB y muchas otras opciones NoSQL. Al eliminar los requisitos de limpieza de un diseño de esquema de estrella, la bóveda de datos sobresale cuando se trata de enormes conjuntos de datos al disminuir los tiempos de ingestión y permitir inserciones paralelas que aprovechan la potencia de los sistemas de Big Data. Problema #2 Resuelto

Simplificación

La elaboración de un modelo de Data Vault eficaz y eficiente puede hacerse rápidamente una vez que se entienden los fundamentos de los 3 tipos de tablas: Hub, Satélite y Enlace. Identificar las claves de negocio en primer lugar y definir los Hubs es siempre el mejor punto de partida. A partir de ahí, los Hubs-Satélites representan las columnas de la tabla de origen que pueden cambiar, y finalmente los Enlaces lo unen todo. Recuerde que también es posible tener tablas Enlace-Satélite. Una vez que tengas estos conceptos, es fácil. Una vez que haya completado su modelo de Data Vault, lo siguiente que hay que hacer es construir el proceso de integración de datos ETL para rellenarlo. Aunque un modelo de datos Data Vault no se limita a las soluciones EDW/BI, siempre que se necesite sacar datos de alguna fuente de datos y meterlos en algún destino, suele ser necesario un proceso de integración de datos. La misión de Talend es conectar la empresa impulsada por los datos.

Con su suite de software de integración, Talend simplifica el proceso de desarrollo, reduce la curva de aprendizaje y disminuye el coste total de propiedad con una plataforma ETL unificada, abierta y predecible. Una tecnología ETL probada, Talend puede ciertamente utilizarse para poblar y mantener un sistema EDW/BI robusto construido sobre un modelo de datos Data Vault. Problema #3 ¡Resuelto!

Su empresa

El Data Vault define esencialmente la ontología de una empresa en el sentido de que describe el dominio del negocio y las relaciones dentro de él. El procesamiento de las reglas de negocio debe ocurrir antes de poblar un esquema de estrella. Con un Data Vault se pueden empujar hacia abajo, después de la ingestión EDW. Una filosofía adicional de Data Vault es que todos los datos son relevantes, incluso si son erróneos. Dan Linstedt sugiere que el hecho de que los datos sean erróneos es un problema empresarial, no técnico. Estoy de acuerdo. Un EDW no es realmente el lugar adecuado para arreglar (limpiar) los datos erróneos. La simple premisa del Data Vault es ingerir el 100% de los datos de origen el 100% de las veces; buenos, malos o feos. En el mundo actual, la auditabilidad y la trazabilidad de todos los datos del almacén de datos se han convertido en un requisito estándar. Este modelo de datos está diseñado específicamente para satisfacer las necesidades de los sistemas EDW/BI actuales. Problema #4 ¡Resuelto!
«Entender el Data Vault es entender el negocio»

(http://danlinstedt.com)

Flexible

La metodología de Data Vault se basa en las mejores prácticas de SEI/CMMI Nivel 5 e incluye muchos de sus componentes combinándolos con las mejores prácticas de Six Sigma, TQM y SDLC (Agile). Los proyectos de Data Vault tienen ciclos de lanzamiento cortos y controlados y pueden consistir en un lanzamiento de producción cada 2 o 3 semanas, adoptando automáticamente los proyectos repetibles, consistentes y medibles que se esperan en el nivel 5 de CMMI. Cuando es necesario añadir nuevas fuentes de datos, es probable que haya claves de negocio similares, se pueden añadir nuevos Hubs-Satélites-Enlaces y luego vincularlos a las estructuras existentes de Data Vault sin ningún cambio en el modelo de datos existente. Problema #5 ¡Resuelto!

Conclusión

En conclusión, el modelado y la metodología de Data Vault abordan los elementos de los problemas que hemos identificado anteriormente:

– Se adapta a un entorno empresarial cambiante

– Soporta conjuntos de datos muy grandes

– Simplifica las complejidades del diseño de EDW/BI

– Aumenta la usabilidad por parte de los usuarios de negocio porque permite añadir nuevas fuentes de datos sin afectar al diseño existente

Este avance tecnológico ya está demostrando ser muy eficaz y eficiente. Fácil de diseñar, construir, poblar y cambiar, el Data Vault es un claro ganador. ¡Muy guay! ¿Quiere uno?

Visite http://learndatavault.com o http://www.keyldv.com/lms para saber mucho más sobre el modelado y la metodología de Data Vault.

Mientras tanto, descargue una prueba gratuita de Talend Cloud Integration Platform para ver lo que realmente pueden hacer sus datos.

Virtual world

¿Qué es «The Data Vault» y por qué lo necesitamos?