Data Warehouse & Lakes

Business Intelligence

Business Intelligence(BI) bedeutet, Entscheidungen mit Hilfe von Informationssystemen zu unterstützen, einschließlich Managementunterstützungssystemen. Das Data-Warehouse-Konzept zielt darauf ab, eine integrierte Datenbasis für die Entscheidungsunterstützung zu schaffen und Daten aus operativen Systemen zusammenzuführen.

Architektur (ETL-Prozess)

Data Marts (hier werden die Daten in dimensionalen Datenräumen dargestellt)

Core Data Warehouse (meist relational, um Redundanzen zu vermeiden)

Load (Initial Load = Alle Datensätze werden gelöscht und ersetzt, Incremental Load = ergänzt, Snapshot Load)

Staging Area (Transform)

Extract (Full E. oder Delta Extraction)

Operative Quellsysteme

Implementierung von ETL-Prozessen

ETL-Prozesse können mit SQL-Skripten oder speziellen ETL-Werkzeugen implementiert werden.

Dimensionale Datenmodelle

  • Star-Schema: Nicht normalisierte Dimensionstabellen, einfachere Abfragen.
  • Snowflake-Schema: Weniger Redundanz und geringerer Speicherbedarf, komplexer als das Star-Schema.

Data Lake (oder Data Swamp)

Ein Data Lake ist ein zentrales Repository, das Rohdaten in ihrem ursprünglichen Format speichert. Dies ermöglicht eine flexible und skalierbare Datenhaltung, die sich für große Mengen an unstrukturierten Daten eignet. Wenn die Daten jedoch nicht ordnungsgemäß verwaltet werden, kann ein Data Lake zu einem “Data Swamp” werden, in dem Daten schwer zu finden und zu nutzen sind.