Zaznacz stronę

Big Data

Rozwiązania w obszarze BIG DATA odpowiadają na problem stale rosnącej liczby danych pochodzących z różnych źródeł. Korelacja informacji i efektywne przetwarzanie – to sposób na pełne wykorzystanie zasobów posiadanych przez firmę.

Big Data in search of value

 

Współczesny świat generuje coraz więcej danych. Są to dane mocno zróżnicowane, nieustrukturyzowane i zmienne, np. dane z systemów operacyjnych i transakcyjnych, z systemów skanowania i zarządzania obiektami, maile, wiadomości na stronach WWW, wpisy w portalach społecznościowych.  Jeszcze parę lat temu przetwarzanie tych danych technologicznie nie było możliwe. Obecnie dzięki platformom Big Data takim jak Hadoop możliwe i efektywne kosztowo jest przetwarzanie nawet petabajtów danych. Dlaczego więc, zgodnie z badaniem Forrester Research, tylko 12% danych gromadzonych przez organizacje jest przez nie analizowanych w poszukiwaniu wartości biznesowej?

Sieć średniej wielkości sklepów obsługuje w Polsce około 50 milionów transakcji rocznie, przy czym generowane jest ponad 400 milionów pozycji paragonowych.

Ogólnopolski bank obsługuje 3 mln klientów. Zachowanie i historia każdego klienta opisywane są przez kilka tysięcy atrybutów. W skali banku wymaga to analizy ponad 3 mld danych.

Internetowy kanał sprzedaży w modelu B2C obsługuje 250 tys. odwiedzających dziennie. Przy średniej ilości 6 do 7 odsłon na odwiedzającego oraz prezentowaniu około 100 produktów na stronie, generowane są miliony zdarzeń („clickstreamów”) zawierające informacje o jakości kanału sprzedaży i preferencjach kupujących. Analiza tych danych w czasie rzeczywistym pozwala budować efektywne modele rekomendacji.

Wykorzystanie wielkich zbiorów danych

 

Technologia już dzisiaj pozwala organizacjom nie tylko gromadzić każdy bajt danych, ale co ważniejsze, zrozumieć wielkie zbiory danych i wykorzystać ich wartość do podejmowania lepszych decyzji biznesowych.

Zaawansowana analityka

 

Wraz z lawinowym wzrostem generowanych, gromadzonych i przetwarzanych przez przedsiębiorstwa  danych, nastąpił dynamiczny rozwój analityki biznesowej.

Do czego wykorzystać Hadoop?

 

Platforma Hadoop może być uzupełnieniem heterogenicznej infrastruktury informatycznej przedsiębiorstwa, pozwalając w efektywny sposób gromadzić i przetwarzać duże ilości różnorodnych i zmiennych danych.

Hadoop został zaprojektowany jako środowisko rozproszone w formie klastra, który pełni dwie podstawowe funkcje:

gromadzenie (przechowywanie) danych

efektywne przetwarzanie danych

Ze względu na ciągły przyrost danych w klastrze niezwykle ważna jest jego skalowalność, polegająca na dokładaniu kolejnych maszyn, które w założeniu wcale nie muszą być high-endowymi serwerami. Istotne jest również bezpieczeństwo danych, które w przypadku klastra hadoopowego dotyczy zarówno dostępu do danych, jak i odpowiedniego ich zabezpieczenia przed utratą w przypadku awarii infrastruktury sprzętowej.

Szczegółowy wykaz kompetencji 3Soft i Netology

 

1. Projektowania architektury i sizing klastra pod kątem wymagań klienta
1.1.     Zdefiniowanie i opisanie wymagań pod kątem:

  • zapewnienia wydajności (przetwarzanie batch’owe, strumieniowe, agregaty danych, itp.)
  • polityki bezpieczeństwa (grupy użytkowników, poziom dostępu do danych, narzędzia analityczne i kwestie bezpieczeństwa, itp.)
  • standardów technologicznych i architektonicznych

1.2.     Zaprojektowanie architektury klastra

  • Na poziomie fizycznym (konfiguracja sprzętowa serwerów, architektura sieci)
  • Na poziomie logicznym (podział ról komponentów – Name Node’ów, Data Node’ów, Edge Node’ów oraz rozmieszczenie komponentów klastra Hadoop)

1.3.     Sizing klastra

  • Rozbudowa pojemności klastra
2. Projektowanie i implementacja mechanizmów przetwarzania danych w ramach klastra
2.1.     MapReduce

2.2.     Hive

2.3.     Pig

2.4.     Spark

2.5.     Storm

2.6.     Narzędzia analityczne (np. SAS, w tym 4GL)

2.7.     Dedykowane rozwiązania

3. Projektowanie i implementacja mechanizmów integracji i zasilania klastra danymi
3.2.     ETL

  • określenie sposobu pobierania danych z systemów dziedzinowych
  • zaprojektowanie i implementacja interfejsów komunikacyjnych z systemami zewnętrznymi
  • migracja danych archiwalnych

3.2.     Modele danych

  • Kolumnowe (HBase)
  • Full-text search (Solr, Elasticsearch)
  • Key-value, in-memory (Redis)
  • Niestrukturalne (HDFS)
  • Kanoniczne modele danych

3.3.     Data Ingesting

  • Flume
  • Sqoop
  • Logstash
  • Dedykowane rozwiązania
4. Administracja klastrem Hadoop
4.1.     Administracja komponentami klastra (HDFS, YARN, Zookeeper, Ambari, Hive, Pig, Storm, Solr, Knox, Ranger, Oozie)

  • Mechanizmy zarządzania zasobami (Fair Scheduler, Capacity Scheduler)
  • Patchowanie i upgrade wersji komponentów (także kompleksowo na poziomie dystrybucji Hortonworks, Cloudera)
  • Uprawnienia i grupy użytkowników (dostęp do danych na HDFS, integracja z AD, LDAP, itp.)
  • Zasady przetwarzania danych (work flow)

4.2.     Administracja na poziomie systemu operacyjnego węzłów klastra

4.3.     Aspekty security

  • Projektowanie architektury bezpieczeństwa danych
  • Knox (tzw. perimeter security)
  • Ranger (dawniej XA Secure)
  • Integracja z AD/LDAP

4.4.     Monitoring klastra w obszarze

  • hardware (procesory, pamięć operacyjna, dyski twarde, zasoby sieciowe)
  • system operacyjny (zgodność z OSG, patchowanie, utrzymywanie spójności, itp.)
  • komponenty Hadoop (HDFS, MapReduce, Oozie, Hue, HBase, Flume, itp.)
  • dedykowanych aplikacji uruchamianych na platformie Hadoop (taski, joby)

4.5.     Wykorzystanie systemów monitorujących

  • Ambari
  • Ganglia
  • Nagios
  • Integracja z zewnętrznymi systemami monitorującymi
5. Warsztaty z użytkownikami technicznymi i biznesowymi
5.1.     Burze mózgów (nowe use case’y)

5.2.     Optymalizacja lub przeniesienie istniejących rozwiązań na platformę Hadoop

5.3.     Wypracowanie architektury klastra i rozwiązań na nim realizowanych

5.4.     Dokumentacja architektury klastra

Etapy wdrożenia

 

Proces wdrażania technologii BIG DATA rozpoczyna się od projektowania i analizy modeli danych. Podczas tego etapu odbywają się warsztaty dla pracowników klienta, określane są wymagania dotyczące bezpieczeństwa i dostępności informacji oraz wymogów technicznych. Następnie Hadoop, czyli klaster gromadzący i przetwarzający dane, jest zasilany danymi z systemów dziedzinowych i hurtowni danych. Niezbędne jest tu określenie sposobu ich pobierania, jak również zaprojektowanie interfejsów komunikacyjnych. Kolejnymi etapami są implementacja i testowanie rozproszonych algorytmów MapReduce oraz administrowanie platformą Hadoop. W ramach usługi 3Soft zapewnia także monitorowanie i utrzymanie infrastruktury w obszarze sprzętu, systemu operacyjnego, komponentów klastra oraz dedykowanych aplikacji uruchamianych na platformie Hadoop.

Dzięki technologii BIG DATA można:

  • skorelować informacje z różnych źródeł i różnych modeli,
  • przechowywać i przetwarzać dane,
  • efektywnie wykorzystywać dane dzięki narzędziom analitycznym,
  • uzyskać większą liczbę danych o wartości biznesowej.

Pobierz ulotkę

Pobierz