Arquitectura de datos y Data Warehouse
Cloud

Kimball vs Data Vault 2.0: ¿qué modelo DWH elegir?

Por Antonio Moro15 Ene 20259 min lectura

He implementado ambas metodologías en proyectos reales: Kimball en retailers y empresas de consumo, Data Vault en banca y telecomunicaciones. La pregunta no es cuál es mejor en abstracto, sino cuál es mejor para tu contexto. Esta guía te da los criterios para tomar esa decisión.

Historia y filosofía

Kimball: dimensional modeling desde los 90

Ralph Kimball publicó su metodología en 1996 con el libro The Data Warehouse Toolkit. Su idea central es simple y poderosa: organizar los datos en torno a cómo los usuarios de negocio los piensan. Las tablas de hechos contienen métricas numéricas (ventas, transacciones, eventos) y las dimensiones contienen el contexto descriptivo (quién, qué, cuándo, dónde).

-- Esquema estrella tipico de Kimball
            dim_fecha
               |
dim_cliente -- fct_ventas -- dim_producto
               |
            dim_vendedor

-- fct_ventas (tabla de hechos)
venta_id, fecha_id, cliente_id, producto_id, vendedor_id,
cantidad, precio_unitario, descuento, importe_neto

-- dim_cliente (dimension)
cliente_id, nombre, ciudad, segmento, canal_adquisicion,
fecha_alta, edad, genero

Data Vault 2.0: auditabilidad enterprise

Dan Linstedt desarrolló Data Vault en los años 90 para la Marina de EE.UU. La versión 2.0 (2013) lo adaptó al cloud y al Big Data. Su premisa: los datos de negocio son históricamente correctos, auditables y nunca se borran. La arquitectura se basa en tres tipos de tabla:

-- Hub de Cliente (Data Vault)
hub_cliente_id (PK), cliente_bk (business key), load_date, record_source

-- Satellite de Cliente (atributos + historial)
hub_cliente_id (FK), load_date, load_end_date, hash_diff,
nombre, ciudad, segmento, canal_adquisicion, record_source

-- Link entre Cliente y Producto
link_venta_id (PK), hub_cliente_id (FK), hub_producto_id (FK),
load_date, record_source

Comparativa detallada

CriterioKimballData Vault 2.0
Complejidad de implementaciónMedia — intuitivo para equipos pequeñosAlta — requiere disciplina y automatización
Rendimiento para BIExcelente — star schema optimizadoRequiere capa de presentación (Business Vault)
Flexibilidad ante cambiosLimitada — añadir una nueva fuente puede romper el modeloAlta — nuevas fuentes sin romper lo existente
Auditabilidad históricaParcial — requiere SCD tipo 2 en dimensionesTotal — toda la historia queda en Satellites
Curva de aprendizajeBaja — cualquier analista SQL entiende star schemaAlta — requiere formación específica
Tiempo de implementación inicialRápido (semanas)Lento (meses para proyectos grandes)
EscalabilidadBuena, pero puede engordar con múltiples fuentesExcelente — diseñado para escalar
Coste de mantenimientoBajo si el negocio no cambia muchoBajo a largo plazo gracias a la modularidad

Cuándo usar Kimball

Kimball es la elección correcta cuando:

Caso de uso ideal para Kimball

Un retailer de tamaño mediano que quiere analizar ventas, clientes y producto. Los datos vienen de un solo ERP y un sistema de e-commerce. El equipo tiene 3 personas de datos y el CEO quiere dashboards en Power BI en 6 semanas.

Cuándo usar Data Vault 2.0

Data Vault 2.0 brilla en escenarios enterprise:

El enfoque híbrido: Business Vault

En proyectos enterprise modernos, la arquitectura más adoptada combina lo mejor de ambos mundos:

“Data Vault sin una capa de presentación en star schema es como tener el mejor almacén del mundo al que nadie puede entrar. El Business Vault es la llave.”

Experiencias reales

En un proyecto de banca para una entidad con 8 sistemas fuente (core bancario, tarjetas, hipotecas, seguros, inversiones, banca online, TPV y datos de mercado), implémenté Data Vault 2.0. La decisión fue correcta: 18 meses después, se añadieron 3 nuevas fuentes sin tocar ninguna tabla existente. El auditor interno podía rastrear cualquier dato hasta su origen con fecha y hora exactas.

En contraste, para una cadena de restaurantes con datos de un solo POS y un sistema de fidelización, usamos Kimball puro. El equipo de 4 personas tenía dashboards funcionando en 3 semanas. Data Vault habría sido un exceso brutal de ingeniería para ese contexto.


Plantilla de arquitectura DWH lista para empezar

Documentación de arquitectura, diagramas de modelo de datos, y scripts SQL de creación de tablas para proyectos Kimball y Data Vault en BigQuery y Snowflake.

Ver recursos →