WYWIAD: Jak pozbyć się silosów i w pełni wykorzystać potencjał biznesowy drzemiący w danych?
28 października 2019Wywiad z dr Kamilem Folkertem, CTO 3Soft
3Soft: Po co burzyć silosy danych?
W mojej ocenie, silosy danych stanowią największą przeszkodę we wprowadzaniu podejścia Data-Driven Business w organizacjach. Skostniałe struktury i utrwalone przez lata procesy hamują przepływ wartościowych danych, co negatywnie wpływa na realizowanie celów strategicznych i budowanie przewagi konkurencyjnej.
Poszczególne działy przedsiębiorstwa wykorzystują w swojej pracy jedynie fragmentaryczne informacje, które nie oddają rzeczywistej sytuacji. Prowadzi to do podejmowania złych decyzji, opartych o niekompletne dane.
Paradoksalnie, dla niektórych managerów, silosy stanowią pewnego rodzaju alibi, by nie udzielać kompletnych odpowiedzi na trudne pytania. W rozbudowanych organizacjach problemem staje się na przykład dokładne ustalenie liczby klientów. Dlatego, zamiast mozolnie łączyć ze sobą rozproszone informacje, ogranicza się zakres danych do stanu w danym dziale czy w danym regionie. Takie dane, mimo iż są prawdziwe, nie prezentują w pełni potencjału biznesowego i nie pozwalają na holistyczne spojrzenie na sytuację.
3Soft: Jak z silosami radzą sobie zespoły Data Science?
Transformacja w kierunku Data-Driven Business nie oznacza jedynie uruchomienia platformy, chaotycznego zasilenia jej surowymi danymi i udostępnienia zespołowi Data Science. Proces ten wymaga głębokich zmian w kulturze organizacyjnej, nakierowania organizacji na burzenie silosów, dzielenie się informacjami i dbanie o jakość danych.
Z punktu widzenia analityków, fragmentaryczne dane są przeszkodą w opracowywaniu modeli, identyfikowaniu wzorców, trendów i związków przyczynowo-skutkowych. Efektywne modelowanie skomplikowanych zdarzeń biznesowych przy użyciu zautomatyzowanych algorytmów jest możliwe jedynie w oparciu o wartościowe, kompletne i spójne dane.
Kluczem do sukcesu staje się więc prawidłowa integracja danych. Do dyspozycji mamy szereg rozwiązań technologicznych w zakresie konkretnych frameworków programistycznych, wykorzystywanych języków programowania i modeli przetwarzania rozproszonego. W ramach wdrożenia koncepcji Data Lake możemy w sposób elastyczny i efektywny kosztowo gromadzić w jednym miejscu wszystkie dane, jakie posiada organizacja.
3Soft: Dlaczego więc, mimo możliwości technologicznych, w wielu firmach wciąż istnieją silosy danych?
Myślę, że powodów jest kilka. Przede wszystkim, proces burzenia silosów jest długotrwały i wymaga crossdepartamentowego zaangażowania pracowników na wszystkich szczeblach struktury organizacyjnej. Niezbędne jest wprowadzenie szeregu nowych inicjatyw i procedur, które pomogą zmienić podejście do danych w organizacji. Przede wszystkim chodzi o zbudowanie kultury organizacyjnej opartej na dbaniu o spójność, jakość i aktualność danych, co gwarantuje, że będą one miały realną wartość biznesową.
Z technologicznego punktu widzenia, burzenie silosów również wymaga systemowego podejścia. Digitalizacja daje możliwość wykorzystywania wielu wyspecjalizowanych narzędzi, które pozwalają analizować dane z różnych źródeł. Jednak korzystanie z każdego z tych narzędzi wymaga innego zestawu kompetencji. Czasem dla osoby, która wyspecjalizowała się w jednej technologii, trudne albo wręcz niemożliwe jest szybkie nauczenie się innej technologii. W konsekwencji, brak odpowiednich kompetencji blokuje przekrojową analizę danych ze wszystkich obszarów.
Dodatkowo firmy borykają się z problemem długu technologicznego. Współczesne technologie dają wiele możliwości, jednak zamiana starych systemów na nowe na ogół jest kosztowna, a czasami wręcz niemożliwa z powodów organizacyjnych. W konsekwencji konieczne jest utrzymywanie zduplikowanych danych w kilku miejscach, co powoduje, że ich uzgodnienie i integracja stają się nie lada wyzwaniem.
3Soft: Jak zatem zacząć działać, by skutecznie zburzyć silosy?
Moim zdaniem odpowiedzią jest architektura Data Lake. Dzięki zastosowaniu tej koncepcji możemy mówić o ewolucji, a nie rewolucji w procesie burzenia silosów. Naszym klientom proponujemy wdrożenie platformy niejako obok istniejącej już architektury, co nie zakłóca pracy systemów dotychczas działających w organizacji. Takie podejście pozwala bezpiecznie i efektywnie uruchomić zintegrowaną platformę do zarządzania danymi. Decyzję o tym, kiedy dane procesy w całości przenieść na nową platformę i pozbyć się długu technologicznego pozostawiamy osobom odpowiedzialnym w organizacji za poszczególne procesy.
Budowane przez zespół 3Soft zintegrowane platformy do zarządzania danymi, umożliwiają strumieniowe i batchowe przetwarzanie ustrukturyzowanych i nieustrukturyzowanych danych na każdym etapie – od załadowania ich z systemów źródłowych, poprzez transformacje techniczne i biznesowe, czyszczenie danych i uzupełnienia braków (imputację), analizę eksploracyjną danych (wstępne wnioski) modelowanie statystyczne, automatyzację procesów (trenowanie modeli i ich codzienne wykorzystywanie w biznesie), aż po budowanie struktur pod raporty i dashboardy.
Dbamy o to, by cały proces odbywał się w sposób umożliwiający wydajne zarządzanie danymi. Tak, by można było identyfikować i opisywać nowe źródła danych, definiować metadane, przypisywać właścicieli konkretnych danych oraz zarządzać słownikiem pojęć biznesowych. Wszystko po to, by w razie potrzeby móc odpowiedzieć na pytania, skąd pochodzą konkretne dane oraz jak zmiana źródeł wpływa na wypracowane już modele machine learning i raporty.
3Soft: Jakie wyzwania wiążą się z budowaniem platformy?
Warto podkreślić, że do tej pory, silosy danych na ogół powstawały w systemach utrzymywanych w infrastrukturze zlokalizowanej w jednym lub kilku data center. Jednak coraz więcej firm zaczyna korzystać z rozwiązań chmurowych, w efekcie czego powstają silosy na zupełnie nowym poziomie – pomiędzy chmurami oferowanymi przez różnych dostawców. Pojawia się więc potrzeba budowania platform multicloudowych lub hybrydowych. W 3Soft wychodzimy naprzeciw tym wyzwaniom, oferując rozwiązania oparte na technologii Hadoop w dystrybucji firmy Cloudera – dostawcy, który skupia się na rozwoju swojego produktu w modelu any-cloud oraz cloud-firts. Dzięki temu zbudowaliśmy unikalny zespół kompetencji, który pozwala nam zarówno w pełni wykorzystywać potencjał machine learning i artificial intelligence, jak i czerpać z najnowszych zdobyczy technologicznych związanych z cloudem (w szczególności obserwujemy w Polsce coraz bardziej dynamiczną adopcję Microsoft Azure). Umożliwiają one dynamiczne skalowanie środowisk pod kątem dopasowania do aktualnego obciążenia, zwinne uruchamianie nowych klastrów na żądanie oraz realizowanie disaster recovery w oparciu o kilka połączonych data center chmurowych.
3Soft: Jak wygląda współpraca z klientami nad strategią burzenia silosów?
W pierwszym etapie, podczas warsztatów z właścicielami danych, omawiamy główne problemy i diagnozujemy sytuację. Wspólnie analizujemy czy systemy dziedzinowe zawierają kompletne dane, czy dane podlegają rekoncyliacji oraz jak wygląda integracja strumieni danych i przetwarzania strumieniowego. Pozwala nam to ocenić, które etapy pozyskiwania danych są najbardziej zaniedbane oraz gdzie znajdują się najniżej wiszące owoce. Na podstawie zebranych informacji projektujemy platformę do zarządzania danymi, mając na uwadze skalowalność i określone możliwości przetwarzania. Nasze rozwiązania są wdrażane w rozproszonych środowiskach, w zależności od potrzeb klienta – on-premise, w chmurze lub jako rozwiązania hybrydowe. Uwzględniają również funkcje dotyczące zabezpieczeń, zarządzania danymi oraz ciągłości działania. Przy opracowywaniu architektury danych i wdrażaniu platformy ściśle współpracujemy z zespołem klienta, gdyż zaproponowane rozwiązania dotykają indywidualnych problemów i potrzeb biznesowych. Proces wdrożenia realizujemy iteracyjnie z zachowaniem reżimu czasowego, w tym okien serwisowych oraz świadcząc usługę ciągłego nadzoru autorskiego.
3Soft: Jak powinien wyglądać pierwszy krok w drodze do zburzenia silosów danych w organizacji?
Zdecydowanie polecam spotkanie w formie warsztatu z ekspertami 3Soft. Umożliwi to szybkie zidentyfikowanie najważniejszych problemów i zaplanowanie dalszych kroków.