Seite auswählen

Big Data beim Banking

Eine der größten polnischen Banken entschied sich zum Start eines Big Data – Projekts. Ziel war die Stärkung der Marktposition durch neue Möglichkeiten, mittels Datenanalysen Mehrwert zu schaffen. Dies wurde ermöglicht durch die Auswertung von hunderten Terabytes an Daten aus dutzenden verschiedenen IT-Systemen.

Durch unsere Erfahrung und Kompetenz aus früheren Projekten mit der Apache Hadoop Technologie wurden wir von der Bank beauftragt, einen HDP – Cluster zu planen und zu entwickeln, der als Schlüsselkomponente des Analytics – Bereichs dienen sollte.

Einen Data Lake Cluster zu entwickeln, der Daten aus unterschiedlichen Quellsystemen konsolidiert und Data Scientists den umfassendem Zugriff darauf erlaubt, erforderte die Berücksichtigung einiger Vorgaben (insbesondere des Datenschutzes) gemäß den strengen Regulierungsvorgaben der Finanzindustrie. Die Design-Phase des Clusters führte zur Auswahl einiger Komponenten des Hadoop – Ökosystems, welche nach der Installation und Inbetriebnahme als Grundlage für den Betrieb weiterer analytischen Modelle dienten, und gleichzeitig Data Scientists erlaubten, zügig analytische Hypothesen damit zu verifizieren.

Die multi-tenancy Anforderung für das Hadoop Ökosystem wurde erreicht durch:

  • Konfiguration von YARN schedulers welche spezifische Level für Ressourcen für verschiedene Operationsarten bereitstellen
  • Integration in die Active Directory – Struktur
  • Implementierung von Werkzeugen und Richtlinien für den Zugriff auf Daten, die auf HDFS gespeichert sind und über Hive verfügbar gemacht wurden
  • Konfiguration von Überwachungsmechanismen über Benutzeraktivitäten innerhalb des Clusters.

Die Data Lake – Architektur ermöglicht die Vereinfachung des sogenannten “analytical life cycle”, z.B. die Dauer von der Aufstellung einer Hypothese, über die Implementierung des analytischen Modells, bis zu dessen Ausführbarkeit und der Auswertung. Dies wird möglich durch die Verfügbarkeit von Daten, die an einem Ort gesammelt und konzentriert werden, und der Zurverfügungstellung von ausreichenden Ressourcen für Prozesse aus der Produktionsumgebung.

Von 3Soft erbrachte Leistungen

Datenmodellierung und -analyse
  • Workshops zur Daten-Nutzung mit Fachleuten der verschiedenen Abteilungen
  • erarbeiten der Nutzungs-Berechtigungen an den Daten, die mit Hadoop gesammelt werden zur analytischen Auswertung
  • festhalten der Anforderungen an die NoSQL – Datenbanken, die innerhalb des Hadoop Ökosystems laufen (z.B. HBase)
  • Datenstrukturen auf HDFS definieren
  • die Codierung von Dateien auf HDFS spezifizieren, und optimale Dateigrößen für die Daten-Cluster festlegen
  • Spezifizierung von Anforderungen an die Sicherheit und Verfügbarkeit der Cluster
Befüllen der Cluster mit Daten aus Domänensystemen und Data Warehouses
  • Spezifikation der Datenbeschaffung aus den Domänensystemen
  • Design und Implementierung von Kommunikations-Interfaces mit externen Systemen
  • archivierte Datenmigration
Implementierung und Tests der verteilten Datenverarbeitungs-Prozesse
  • Staging der Daten, die im Cluster gespeichert werden
  • stream data processing (z.B. mit Apache Spark)
  • Implementierung und Verifikation der Datenprozesse und Mechanismen in der Testumgebung, inklusive Unit Tests
  • Messung der Performance des Hadoop – Frameworks
Apache Hadoop Administration
  • Konfiguration der Rollen der Hadoop Ökosystem – Komponenten (NameNode, DataNode, RegionServer, usw.)
  • Implementierung des Hochverfügbarkeitsbetriebs für einzelne Dienste
  • Implementierung der Zugriffs-Mechanismen (Datenzugriffe auf HDFS und Hive, Integration im Active Directory, Konfiguration mit Apache Ranger, usw.)
  • Prinzipielle Datenprozesse festlegen (Workflow-Verarbeitung mit Oozie und Luigi)
  • Verteilung von Scripts für die Einrichtung des Datenschutzes und der Archivierungs-Regeln
Messung und Kontrolle der Apache Hadoop Cluster - Infrastruktur
  • Monitoring von Netzwerk und Hardware
  • Maintenance der Betriebssysteme (Einhaltung von OSG, patchen, konsistente Zustände sicherstellen, etc.).
  • Maintenance der Hadoop – Komponenten (HDFS, Hive, YARN, HBase, Kafka, Spark, etc.), einschließlich Upgrades auf neue Versionen von HDP
  • Maintenance der individuellen Anwendungen, die auf der Hadoop Plattform laufen
  • Monitoring des Cluster-Status und Wartungs-Dienstleistungen mit einem vereinbarten SLA

Die Vorteile der Hadoop-Implementierung

CIO / CTO

  • neue geschäftliche Anforderungen werden schneller verfügbar gemacht
  • niedrige Einstiegskosten, und leichtere Skalierbarkeit
  • schnelle Ergebnisse (iterative Modell-Entwicklung)

Data Scientist

  • schneller Zugriff auf alle Unternehmensdaten, konsolidiert an einem zentralen Ort
  • einheitliche Schnittstellen (z.B. JDBC) ermöglichen den Zugang zu den Daten mit eigenen favorisierten Tools
  • sofortige Verifikation von Hypothesen durch ad-hoc queries (z.B. HiveQL)

Data Steward

  • eingebaute Data Governance tools
  • Mechanismen zur Durchsetzung von Datenschutz-Richtlinien
  • Datenzugriffe werden überwacht und auditiert

Architekt

  • die integrierte Datenplattform basiert auf einer einheitlichen Richtlinie und harmonisierten Standards
  • unkomplizierte technische Architektur, Software-Mechanismen zum Absichern von Datenkonsistenz und -Verfügbarkeit
  • einfache Skalierbarkeit mit niedrigen TCO (total cost of ownership)