6 Kriterien, die eine gute Enterprise Data Fabric Lösung auszeichnen

Damit Unternehmen auch in hybriden Multi-Cloud-Landschaften ihre Daten optimal nutzen können, bedarf es einer leistungsstarken Datenstrategie. Immer mehr Unternehmen setzten daher heute auf das Konzept der „Logical Data Fabric“. Otto Neuer, Regional VP Sales bei Denodo, hat die sechs wichtigsten Kriterien zusammengestellt, an denen sich eine gute Enterprise Data Fabric Lösung erkennen lässt.

Ein moderner Ansatz, um Daten in verteilten Umgebungen zuverlässig managen und analysieren zu können ist eine Logical Data Fabric. Hierbei handelt es sich nicht um eine singuläre Out-of-the-box Lösung sondern vielmehr um ein Konzept, welches auf die virtuelle Integration, Management und Governance von Unternehmensdaten über alle Datenquellen von on-premises bis Multi-Cloud setzt.

1. Multi-Cloud-Umgebungen meistern
In Unternehmen wachsen derzeit hybride Landschaften heran, die nicht nur Skalierbarkeit und Performance versprechen, sondern auch die Freiheit vom klassischen Vendor Lock-in. Allerdings bringt die Verteilung der Unternehmensdaten auf mehrere Cloud-Domains und Anbieter auch eine steigende Komplexität mit sich, die von herkömmlichen BI-Systemen nicht umfänglich abgedeckt wird.

Eine logische Data Fabric bietet die Möglichkeit, unterschiedliche Cloud-Quellen zu integrieren, damit am Ende alle Daten einer logischen Schicht aggregiert werden. Eine Data Fabric für den Enterprise-Einsatz platziert separate Instanzen in jeder Cloud-Domain (z. B. AWS, Azure, GCP). Alle Virtualisierungsinstanzen verbinden sich wiederum mit einer übergeordneten Instanz, die den Zugriff koordiniert und einheitliche Analysen in Echtzeit ermöglicht.

2. Aufgaben automatisieren
Data Lakes erstrecken sich in Multi-Cloud-Umgebungen über mehrere Plattformen. Business-Nutzer wie Data Scientists können dabei schnell den Überblick verlieren. Die steigende Zahl externer Quellen sorgt zudem für ein wachsendes Risiko: Datenobjektmodelle und Layouts können ungeplant und unangekündigt geändert werden. Und die Datenabfrage von verschiedenen Plattformen mit unterschiedlichen Performance-Charakteristiken und Latenzen kann schnell Bottlenecks schaffen. All diese Herausforderungen wurden bisher „von Hand“ angegangen.

Eine Enterprise Data Fabric kann aber in der Lage sein, automatisierte Lösungen anzubieten, um zukünftig steigenden Anforderungen gerecht zu werden. Logical Data Fabrics setzen Machine Learning oder andere moderne Technologien ein, um manuelle Aufgaben zu automatisieren. Vorteile sind etwa automatische Vorschläge von Datensätzen, die sich zur Analyse eignen (basierend auf den Mustern der Nutzer) oder intelligentes Caching, das die Performance in der gesamten Datenarchitektur verbessert.

3. Rapid Data Delivery ermöglichen
80 Prozent der befragten Unternehmen im TDWI-Report 2020 wünschen sich schnellere Analysen. 77 Prozent sagen „Echtzeit oder Nahe-Echtzeit“ sei wichtig für ihren Unternehmenserfolg. Dabei muss die Datenlatenz gesenkt werden – mit Rapid Data Delivery. Drei Beispiele für den Einsatz dieser Technik sind Pushdown Optimization, Caching und Data Shipping.

Pushdown Optimization nutzt untergeordnete Systeme wie Datenbanksysteme des Cloud-Hosters, um Teile der Query auszuführen. Caching sorgt dafür, dass die meistgenutzten Datensätze und Ergebnisse lokal auf der rechenstärksten Plattform gespeichert werden. Data Shipping bedeutet, dass Datenquellen nicht immer gleich, sondern je nach Größe und Bedeutung behandelt und somit schneller verarbeitet werden.

Eine Data Fabric mit diesen drei Funktionen bietet dynamische Query-Optimierung und unterstützt massive Parallel Processing Engines – und steigert so die Performance des gesamten Data Managements.

4. Data Discovery und Data Science unterstützen
Unternehmen setzen verstärkt auf Data Science und benötigen Technologien, die moderne Analytics-Ansätze unterstützen. Die iterative Natur von Analysemodellen verlangt danach, dass zu jeder Zeit klar ist, welche Daten wo im Unternehmen verfügbar sind. Eine Übersicht reicht jedoch nicht aus.

Nutzer müssen auch die passende Autorisierung haben, um die Daten via Self-Service nutzen zu können. Zudem sollten die Quelldaten einfach in flexible Datenmodelle überführt werden können. So lassen sich verschiedene Auswertungen einfacher durchführen.

Eine Enterprise Data Fabric sollte Zugang zur gesamten Datenlandschaft bieten und alle Datensätze an das jeweilige Data-Science-Projekt ausliefern, sei es via BI-Frontend, APIs oder Notebooks. Der Vorteil der Data Fabric liegt darin, dass sie es erlaubt, logische Modelle über die Quelldaten zu legen. So können Data Scientists dieselben Quelldaten in verschiedenen Anwendungskontexten nutzen und ihre Analysemodelle iterativ verbessern und untereinander teilen.

5. Historische Daten und Datenströme analysieren
Bisher war der Großteil der zu analysierenden Daten „Data-at-Rest“. Doch heute kommen zunehmend dynamische und Streaming-Quellen hinzu. Daten wie Sensorinformationen, News oder Wetterdaten werden nach und nach im Data Management und in der Analyse von Unternehmen auftauchen. Dabei werden sie mit den vorhandenen gespeicherten Daten kombiniert. Ein Anwendungsbeispiel sind IoT-Applikationen, die historische Daten mit Datenströmen kombinieren, um Analysemodelle zu schaffen.

Wenn diese Modelle im Unternehmen zum Einsatz kommen, lassen sich manuelle Eingriffe reduzieren und maschinelle Entscheidungen zuverlässiger gestalten. Berücksichtigen Sie bei der Konzeption der Data Fabric, dass Data-in-Motion mit Data-at-Rest kombiniert werden kann. Merkmale sind etwa die vereinfachte Nutzung von Data-Streaming-Tools wie Apache Kafka mit strukturierten Daten in einem Data Warehouse.

6. Daten katalogisieren
Wer Daten aus vielen unterschiedlichen Quellen nutzt, sollte sich um eine unternehmensweit einheitliche Definition (semantisches Modell) kümmern. Wenn ein Data Scientist etwa wissen will, welche Produkte ein Kunde erworben hat, in welchem Channel, und welche Auswirkung dabei die Garantie-Laufzeit hatte – dann zählt es, wie „ein Kunde“ definiert wird. Ohne dokumentierte Definitionen von Begriffen und einer Auflistung der logischen Abhängigkeiten der Begriffe wird es schnell zu unbrauchbaren Ergebnissen kommen.

Eine Data Fabric sammelt Daten aus dem gesamten Unternehmen und ist das beste Tool, um das vorhandene Wissen im Unternehmen in einem semantischen Modell abzubilden. Dabei kann die Data Fabric auch als Katalog dienen, um Ort, Typ und Format der Daten ebenso aufzulisten wie die Beziehung der Datensätze zueinander.

So lassen sich Daten, Datensätze und Beziehungen einfach und zentral erkunden. Eine intelligente Suche ist daher ein wichtiges Feature einer guten Data Fabric – die Suche erleichtert das Verständnis der Daten und lässt Business User leichter und zuverlässiger mit den Daten arbeiten und Wert aus ihnen schöpfen.

6 Kriterien, die eine gute Enterprise Data Fabric Lösung auszeichnen

Weitere Beiträge....

Redgate erweitert SQL Prompt um KI-gestützte Funktionen

Gründe, warum Datenbankentwickler nachts schlecht schlafen

Neo4j stellt neue Graphdatenbank Infinigraph vor

Predictive Analytics gegen Lebensmittelverschwendung

Datenmigration neu definiert: Unternehmensdaten transformieren

Self-Service Data Analytics erfolgreich implementieren