Big Data vs. Data Warehouse?

Laut eines Berichts des Data Warehousing Institutes (TDWI) ist es in den meisten Unternehmen Zeit für die Modernisierung der Data-Warehouse-Lösung. Die Gründe dafür reichen von Ansprüchen an den Nutzen von Big Data und Echtzeitdaten bis hin zu Open-Source-Komponenten in heutigen Data-Warehouse-Systemen. Die Bereithaltung, zentrale, einheitliche Ablage und Echtzeit-Auswertung gerade auch von immer größer werdenden Datenmengen ist demzufolge Aufgabe einer „modernen“ Data-Warehouse-Lösung. Zudem gilt es, heterogene Daten zu integrieren und zu validieren – möglichst schnell und ohne Performance-Einbußen. Ziel ist es darüber hinaus, Daten auch so zu analysieren und zu nutzen, dass sie sich in gesteigerter Produktivität, mehr Umsatz und sinkenden Kosten niederschlagen.

Trotz einer veränderten Nutzerstruktur – neben IT-Leitern und Geschäftsführern interessieren sich vermehrt auch Fachabteilungen für das Thema – hat sich an den Kernaufgaben eines Data Warehouse in den letzten zwei Jahrzehnten wenig geändert: Es bereitet Daten auf, legt diese zentral sowie zielgerichtet ab und erzeugt Statistiken. Diese müssen dann nicht nur rund um die Uhr, sondern auch weltweit zur Verfügung stehen.

Eine Neuerung ist allerdings der Einsatz von Frameworks wie Hadoop, das auf Java und Googles MapReduce-Algorithmus basiert und die Verarbeitung unstrukturierter Daten ermöglicht. Mit MapReduce können Anwender rechenintensive Aufgaben mit Dateimengen im Petabyte-Bereich auf viele Rechner verteilen und parallel bearbeiten lassen. Der Markt für solche Frameworks wächst. Eine kürzlich veröffentlichte Studie ergab, dass 60 Prozent der Befragten voraussichtlich schon nächstes Jahr Hadoop einsetzen werden. Ein Grund dafür ist das Innovationspotenzial, das sich fast alle der Teilnehmer davon erhoffen. Bereits heute werden Workloads, bei denen sich die Einsatzmöglichkeiten beider Systeme überschneiden, von traditionellen Data-Warehouse-Systemen zu Hadoop migriert.

Doch werden derartige Technologien das Data Warehouse nicht vollkommen verdrängen. „Es handelt sich dabei nicht um einen Ersatz für das klassische Data Warehouse, sondern vielmehr um eine Ergänzung, die es ermöglicht, auch große Mengen an unstrukturierten Daten zu speichern und zu verarbeiten“, erklärt Markus Ruf, Geschäftsführer der mip GmbH. „Hadoop wird diejenigen Workloads übernehmen, für die es besser geeignet ist. Die Zielgruppe sind hier allerdings ganz klar Experten, die diese Daten dann auswerten können.“

Mehr Info