Data Vault Optimierung für einen globalen Lebensmittelzulieferer
Herausforderung
Ein globaler Lebensmittelzulieferer mit rund 800 Mitarbeitern hatte Data Vault als Data-Warehouse-Architektur eingeführt. Die ursprüngliche Implementierung vermischte jedoch verschiedene Ansätze: quellbasierte Data-Vault-Elemente ohne klaren Bezug zu Geschäftsprozessen, dimensionale Elemente, die zu stark auf einzelne Auswertungen zugeschnitten waren, und fehlende Hard Rules für die Quelldatenbereinigung. Das Ergebnis war ein unnötig komplexes Modell, das die Grenzen zwischen Datenintegration und Datenarchitektur verwischte.
Ein Architektur-Review deckte die Konsequenzen auf: Das Modell war auf über 3.500 Elemente im Datavault Builder angewachsen, exzessiver Einsatz von Soft Rules kompensierte die fehlenden Hard Rules, und inkonsequente Modellierungsstandards machten das Datenmodell intransparent. Entwickler kämpften mit langen Verarbeitungszeiten, hohen Fehlerquoten bei der Erweiterung des Modells für neue Anforderungen und schlechter Wartbarkeit. Die Exasol-Analytics-Datenbank lieferte aufgrund der ungünstigen Datenstrukturen aus dem überkomplexen Modell unbefriedigende Performance.
Lösungsansatz
Alligator Company führte eine umfassende Restrukturierung der Datenarchitektur und Modellierungspraktiken durch. Den Anfang bildeten Ensemble Logical Modeling (ELM) Workshops mit den Fachbereichen, um das Data-Vault-Modell an der tatsächlichen Sprache und den Anforderungen der Geschäftsprozesse auszurichten. Damit ersetzte das Team den bisherigen quellgetriebenen Ansatz durch ein geschäftsorientiertes Modell.
Aufbauend auf dem fachlichen Modell strukturierte Alligator Company die Architektur nach dem Divide-&-Conquer-Prinzip: Hard Rules übernehmen die Quelldatenbereinigung, Data Vault die Integration, Soft Rules die Geschäftslogik. Daten aus Standorten mit identischen ERP-Systemen (Personal, Aufträge, Buchhaltung, Logistik) kombinierte das Team mittels Hard Rules bereits vor dem Data-Vault-Layer und integrierte sie mit einheitlichem Regelwerk.
Zudem führte Alligator Company dbt ein, um Transformationen (Hard Rules und Soft Rules) modular zu verwalten. Das Team nutzte dabei die metadatengetriebene Code-Generierung in dbt-core, um den manuellen Programmieraufwand zu reduzieren. Automatisierte Tests in der CI-Pipeline erhöhten die Pipeline-Qualität und lieferten Dokumentation als Code. Ergänzend erstellte das Team dbt-Model-Proxies für die Datavault-Builder-Modellelemente und schuf damit eine End-to-End-Datalineage über die gesamte Pipeline, von der Quelle über den Raw Vault bis zur Ausleitung. Dies gab den Anwendern volle Transparenz über Datenherkunft und -nutzung und beschleunigte die Ursachenforschung bei Datenqualitätsproblemen erheblich.
Zudem etablierte das Team DataOps-Praktiken: Disposable Entwicklungsumgebungen mit automatisierten CI-Pipelines ermöglichen Entwicklern, unabhängig voneinander an verschiedenen Teilen des Modells zu arbeiten. Der zuvor manuelle Deployment-Prozess wurde automatisiert, wodurch Releases schneller und zuverlässiger ablaufen. Verbessertes Monitoring bietet klarere Einblicke in die Laufzeiten der Datenpipelines.
Ergebnis
Das restrukturierte Data-Vault-Modell bildet nun die tatsächlichen Geschäftsprozesse ab, ist verständlicher und deckt einen breiteren fachlichen Anforderungsumfang ab als das ursprüngliche Modell. Die vereinfachten Datenstrukturen verbesserten in Kombination mit Konfigurationsoptimierungen die Exasol-Datenbankperformance spürbar.
Interne Mitarbeiter können neue oder geänderte Anforderungen in der Datenintegration eigenständig umsetzen und Daten für Fachanwender nutzbar machen, ohne externe Unterstützung.
- Modellkomplexität um 84 % reduziert: von 3.500 Datavault-Builder-Elementen auf 550
- Breiterer fachlicher Anforderungsumfang trotz einfacherem Modell
- Exasol-Datenbankperformance verbessert durch Konfigurationsoptimierung und sauberere Datenstrukturen
Spotlights
Modellkomplexität um 84 % reduziert: von 3.500 Datavault-Builder-Elementen auf 550
Breiterer fachlicher Anforderungsumfang trotz einfacherem Modell
Exasol-Datenbankperformance verbessert durch Konfigurationsoptimierung und sauberere Datenstrukturen