Zaznacz stronę

Big Data w bankowości

W jednym z największych banków w Polsce zapadła decyzja o uruchomieniu projektu w obszarze Big Data. Celem projektu jest umocnienie pozycji rynkowej banku przez umożliwienie departamentom biznesowym wypracowania dodatkowej wartości dzięki analizie danych. Nie byłoby to możliwe bez kompleksowego dostępu do danych, które są generowane przez dziesiątki systemów informatycznych w setkach terabajtów.

Dzięki posiadanym kompetencjom oraz doświadczeniom z wcześniejszych projektów zrealizowanych w technologii Apache Hadoop firma 3Soft została wybrana przez Bank do zaprojektowania i uruchomienia klastra HDP, mającego stanowić kluczowy element środowiska analitycznego.

Uruchomienie klastra w architekturze Data Lake, konsolidującego dane z wielu systemów źródłowych i zapewniającego zunifikowany dostęp do nich dla Data Scientist’ów, wymagało uwzględnienia specyficznych wymagań (np. dotyczących bezpieczeństwa), związanych z charakterystyką branży finansowej. Na etapie projektowania klastra wybrane zostały niezbędne komponenty ekosystemu Hadoop, które po instalacji i konfiguracji stanowią podstawę dla operacyjnego uruchamiania kolejnych modeli analitycznych oraz równolegle zapewniają dostęp do danych na potrzeby szybkiej weryfikacji hipotez analitycznych przez Data Scientist’ów. Zrealizowany w ten sposób postulat multi-tenancy dla ekosystemu Hadoop możliwy był do osiągnięcia dzięki:

  • konfiguracji scheduler’ów YARN gwarantujących określone poziomy zasobów dla poszczególnych typów operacji,
  • integracji z centralnym dostawcą poświadczeń (Active Directory),
  • implementacji narzędzi i polityk dostępu do danych zgromadzonych na HDFS i dostępnych przez Hive,
  • konfiguracji mechanizmów monitorowania i audytowania działań użytkowników w ramach klastra.

Architektura Data Lake pozwala na skrócenie tzw. analitycznego cyklu życia, a więc czasu od postawienia hipotezy, przez implementację modelu analitycznego, po jego operacjonalizację i ewaluację. Jest to możliwe dzięki zapewnieniu dostępu do danych zgromadzonych w jednym miejscu oraz zagwarantowaniu dla uruchamianych produkcyjnie procesów odpowiedniego poziomu dostępnych zasobów.

Zakres usług świadczonych przez 3Soft

Projektowanie i analiza modeli danych
  • warsztaty z przedstawicielami departamentów pod kątem wykorzystania danych
  • określenie sposobu dostępu do danych zgromadzonych na platformie Hadoop na potrzeby systemów analitycznych
  • określenie wymagań pod kątem NoSQL baz danych implementowanych w ramach ekosystemu Hadoop (np. HBase)
  • zdefiniowanie struktur danych na HDFS
  • określenie sposobu kodowania danych plików na HDFS oraz optymalnego rozmiaru plików pod kątem ilości danych w klastrze
  • określenie wymagań w zakresie bezpieczeństwa i dostępności klastra
Zasilanie klastra danymi z systemów dziedzinowych i hurtowni danych
  • określenie sposobu pobierania danych z systemów dziedzinowych
  • zaprojektowanie i implementacja interfejsów komunikacyjnych z systemami zewnętrznymi
  • migracja danych archiwalnych
Implementacja i testowanie rozproszonych algorytmów przetwarzania danych
  • realizacja procesów staging’u danych składowanych w ramach klastra
  • strumieniowe przetwarzanie danych (m. in. za pomocą Apache Spark)
  • implementacja i weryfikacja mechanizmów przetwarzania danych w środowisku testowym, z uwzględnieniem testów jednostkowych
  • weryfikacja wydajności framework’ów wchodzących w skład ekosystemu Hadoop
Administrowanie ekosystemem Apache Hadoop
  • konfiguracja ról komponentów ekosystemu Hadoop (NameNode, DataNode, RegionServer, itp.)
  • wdrożenie trybu High Availability dla poszczególnych usług
  • implementacja mechanizmów uprawnień (dostęp do danych na HDFS i Hive, integracja z Active Directory, konfiguracja Apache Ranger, itp.)
  • zasady przetwarzania danych (realizacja workflow w Oozie oraz Luigi)
  • implementacja skryptów odpowiedzialnych za realizację polityki retencji i archiwizacji danych
Monitorowanie i utrzymywanie infrastruktury klastra Apache Hadoop
  • utrzymanie warstwy sprzętowo-sieciowej
  • utrzymanie warstwy systemu operacyjnego (zgodność z OSG, patchowanie, utrzymywanie spójności, itp.)
  • utrzymanie komponentów platformy Hadoop (HDFS, Hive, YARN, HBase, Kafka, Spark, itp.), w tym realizacja procesów upgrade’u do nowszych wersji HDP
  • utrzymanie dedykowanych aplikacji uruchamianych na platformie Hadoop
  • monitorowanie stanu klastra i świadczenie usług maintenance’owych z wymaganym SLA

Korzyści z wdrożenia ekosystemu Hadoop

CIO/CTO

  • skrócenie czasu potrzebnego na implementację nowych potrzeb biznesu
  • niski koszt wejścia (łatwa późniejsza skalowalność)
  • szybko widoczne efekty (iteracyjne wdrażanie modeli)

Data Scientist

  • szybki dostęp do wszystkich danych wytworzonych przez organizację, zgromadzonych w jednym miejscu
  • zunifikowane interfejsy (np. JDBC) pozwalają na podłączenie się do danych za pomocą ulubionego narzędzia
  • błyskawiczna weryfikacja hipotez dzięki zapytaniom ad-hoc (np. HiveQL)

Data Steward

  • wbudowane narzędzia Data Governance
  • mechanizmy pozwalające na realizację polityk retencji
  • monitorowanie i audytowanie dostępu do danych

Architekt

  • zintegrowana platforma danych, zrealizowana w oparciu o spójną politykę i ujednolicone standardy
  • nieskomplikowana architektura fizyczna, mechanizmy zapewniające spójność i dostępność danych zrealizowane software’owo
  • łatwa skalowalność przy niskim TCO