Data-Warehouse nach Inmon & Kimball

Zwei Sichten auf Data-Warehousing, nach Bill Inmon und Ralph Kimball.

Bill Inmon (entwickelte das Konzept der Informationsfabrik (Corporate Information Factory, CIF):

  • Top-Down Design (Anfangen mit Data-Warehouse, in 3 Normalform, erst danach builden die Data-Marts.
  • Informationsfabrik besteht aus zwei getrennten Komponenten – Data-Repositorium (Data-Warehouse) und Data-Marts.
  • Operative Daten aus verschiedenen Quellen werden zuerst ins Data-Repositorium geladen.
  • Daten im Data-Repositorium sind in dritter Normalform, historisiert und werden niemals gelöscht oder überschrieben.
  • Daten aus Data-Repositorium werden vorbereitet (Filtration, Aggregation, zusätzliche Informationen usw.) und ins Data-Marts geladen, um spezifische Analysen zu beschleunigen.
  • Data-Marts sind im Stern-Schema.

Vorteile von dem Top-Down Design sind sehr konsistente und effiziente Data-Marts. ETL-Prozesse meistens einfacher im Vergleich zum Bottom-Up Design, dafür sind extra ETL-Prozesse nötig um die Data-Marts mit Data-Repositorium zu synchronisieren. Generation von neuen oder Anpassungen von bestehenden Data-Marts kann relative leicht durchgeführt werden.
Nachteile von Top-Down Ansatz sind höhere Anfangskosten und längere Projektzeiten. Data-Repositorien müssen bereits bei der Planung vom Projekt möglichst vielen zukünftigen Anforderungen genügen. Top-Down Design hat auch höhere Speicher-Anforderungen, weil Daten physikalisch mehrfach im System vorhanden sind (in DWH und DataMarts).

Ralph Kimball (Guru der Data-Warehouse, Missionar der „dimensionaler Modellierung“)

  • Bottom-Up Design (anfangen mit Data-Marts, die dank „Bus“ architektur in ein Enterprise DWH integriert werden).
  • Data-Warehouse besteht aus Data-Marts.
  • Verschiedene Data-Marts verwenden gemeinsam uniforme Dimensionen (Zeit, Produkt, Organisations-Struktur), dadurch entsteht eine „Bus“ Architektur.
  • Daten aus operativen Systemen werden durch ETL-Prozesse direkt in die Data-Marts geladen.

Sobald das erste Data-Mart fertig gestellt, kann es sofort verwendet werden, was beim heutigen Agilität-Anforderungen positiv ausfällt.
Dimensionen werden von Data-Marts gemeinsam benutzt, daher die wichtigste Aufgabe ist die Erhaltung der Konsistenz und Flexibilität der Dimensionen.
Business-Veränderungen können zu den aufwändigen Anpassungen der ETL-Prozessen und Data-Marts führen.
Normale Benutzer können Daten in dimensionaler Form besser verstehen, analysieren, aggregieren als in der relationaler Form.

Die meisten Data-Warehouse Lösungen werden nach dem Bottom-Up Design gebaut, weil Data-Warehouse Projekte oft als einfache Analytische Projekte mit Verwendung von Data-Marts und OLAP Technologien gestartet sind und mit der Zeit um weitere Data-Marts erweitert werden.

Veröffentlicht in DWH