Nauka o danych obejmuje trzy główne dziedziny: statystykę, uczenie maszynowe i analitykę.
Projektowy proces analizy danych buduje się na pięciu logicznych krokach. Zaczyna się od zidentyfikowania problemu biznesowego. Potem przychodzi zaprojektowanie wymagań dotyczących danych. Na tej podstawie analityk definiuje cel. Określa też, jakie zasoby będą potrzebne. To pozwala płynnie przejść do technicznej pracy. Chodzi o wstępne przetwarzanie surowych informacji. To obejmuje czyszczenie i porządkowanie. Następnie następuje właściwa analiza. Szuka się w niej odpowiedzi na pytania.
Cykl ten różni się od modelu Google. Kończy się na etapie wizualizacji danych. Tam wyniki prezentuje się w graficznej formie. To ułatwia ich odbiór. Model ten pomija szóstą fazę działania. Skupia się ściśle na ścieżce od zdefiniowania problemu. Potem obróbka danych. W końcu generowanie czytelnych wykresów i raportów.
Inni dzielą proces analizy danych na więcej elementów np. Erl, Khattak i Buhler wyróżniają 9 kroków: Pierwszy to ocena uzasadnienia biznesowego. Business case evaluation. Potem identyfikacja danych. Dalej pozyskiwanie i filtrowanie danych. Ekstrakcja danych. Walidacja i czyszczenie danych. Agregacja i reprezentacja danych. Analiza danych. Wizualizacja danych. Na końcu wykorzystanie wyników analizy. Ten proces wygląda na taki, co ma trzy lub cztery kroki więcej niż te modele, o których mówiło się wcześniej. W rzeczywistości autorzy tylko podzielili to, co kiedyś nazywano ogólnie przygotowaniem. Prepare. I przetwarzaniem. Process. Na mniejsze, bardziej szczegółowe części. Model skupia się na tych pojedynczych zadaniach, które trzeba zrobić, żeby zebrać dane. Przygotować je. I oczyścić. Zanim dojdzie do właściwej analizy.
1. Ask, czyli definiowanie problemu i kwerenda. Ta początkowa faza stanowi metodologiczny fundament całego przedsięwzięcia. Służy głębokiej konceptualizacji wyzwania biznesowego. Nie chodzi tu o powierzchowną obserwację. Analityk nie działa w izolacji. Prowadzi proaktywną współpracę z interesariuszami. Celem jest rozróżnienie symptomów od rzeczywistej przyczyny źródłowej, czyli root cause. Trzeba precyzyjnie operacjonalizować pojęcie sukcesu. To wymaga ustalenia mierzalnych wskaźników, takich jak KPI. Na przykład docelowa stopa retencji pomoże w ewaluacji projektu później. Etap ten określa ramy badawcze. Formułuje pytania kierunkowe. Identyfikuje deficyty w doświadczeniach pracowników. Wszystko to dzieje się zanim zacznie się zbieranie danych.
2. Prepare, czyli przygotowanie i operacjonalizacja. Ten etap oznacza przejście od koncepcji do planowania logistycznego. Dotyczy też doboru narzędzi badawczych. Zespół musi stworzyć szczegółowy harmonogram. Może to być na przykład kwartał działań. Należy zmapować źródła danych do weryfikacji hipotez z fazy wstępnej. Wybór narzędzia, jak kwestionariusz ankiety online, musi być uzasadniony. W tym przypadku ewaluuje onboarding i satysfakcję z płac. Analizuje się adekwatność takiego narzędzia. Jednocześnie w ramach Data Governance ustala się procedury dostępu do danych. Tworzy protokoły ochrony prywatności. Pojawiają się wstępne pomysły na wizualizację wyników. To wszystko zapobiega chaosowi w późniejszych etapach.
3. Process, czyli przetwarzanie danych i ich czyszczenie. Zachowanie pełnej integralności całego zbioru jest tu absolutnie kluczowe. Musi się rygorystycznie trzymać zasad etyki w badaniach. Wszystko zaczyna się od zdobycia świadomej zgody od respondentów, co nazywa się informed consent. Dzięki temu całe badanie zyskuje pełną legitymację. Później bierze się surowy materiał z badań i obrabia go technicznie. Usuwa się błędy, które mogły się pojawić. Dopełnia luki w danych, gdzie coś brakuje. Sprawdza się też, czy wszystko jest spójne. To wszystko zapewnia solidność kolejnych analiz. W przypadku danych wrażliwych wprowadza się anonimizację oraz agregację. Na przykład konkretne kwoty wynagrodzeń zamienia się na przedziały pieniężne. Tak przygotowany zbiór danych trafia do bezpiecznej hurtowni, czyli Data Warehouse. Dostęp do niej jest mocno ograniczony i kontrolowany.
4. Analyze, czyli eksploracja i wnioskowanie. To faza, w której uporządkowane informacje stają się wiedzą operacyjną. Analitycy przesłuchują dane. Identyfikują ukryte wzorce i korelacje. Znajdują zależności przyczynowo-skutkowe. Te zależności wpływają na decyzje kadrowe. W analizie wyodrębniono kluczowe zmienne. Na przykład złożoność rekrutacji może negatywnie wpływać na retencję pracowników. Z kolei transparentny feedback pozytywnie koreluje z lojalnością pracowniczą. Obiektywizm badawczy jest tu niezwykle istotna - raportuje się pełne spektrum wyników. W przeciwnym razie taka analiza jest bezużyteczna. Ważna jest też transparentność metodologiczna buduje zaufanie do analiz.
5. Share, czyli dyssemina wyników. Zamiast rozsyłać surowe raporty, lepiej wdrożyć Data Storytelling. Osadza to wyniki w szerszym kontekście biznesowym. Prezentacja decydentom to nie tylko statystyki. Trzeba ułatwić zrozumienie istoty problemu. W dobrym modelu menedżerowie dostają kompletne dane. Potem przekazują informacje w dół struktury. Taka kaskadowa komunikacja buduje dialog w zespołach. Zwiększa zaangażowanie w proces naprawczy. Eliminuje ryzyko, że centrala narzuca interpretacje.
6. Act, czyli wdrażanie i ocena. To zakończenie całego cyklu. Wnioski z analizy przekłada się na decyzje na poziomie zarządzania. Następnie sprawdza się ich skuteczność np. optymalizuje rekrutację i ocenę pracowników z naciskiem na przejrzystość. Proces jest iteracyjny. Analiza nie odbywa się tylko raz. Ma charakter cykliczny. Regularne pomiary, takie jak roczne badania śledzące, umożliwiają porównania z roku na rok. To właśnie Year-over-Year. Empirycznie potwierdza efektywność podejmowanych interwencji. Pokazuje też rzeczywisty wzrost retencji.
Materiał przygotowani na podstawie kursu Google Certificate Data Analysis
Seria etapów, przez które przechodzą dane: od planowania i pozyskiwania, przez zarządzanie, analizę, archiwizację, aż po zniszczenie.
Analiza (Analyze) - Wykorzystywanie danych do rozwiązywania problemów i wspierania celów biznesowych.
Archiwizacja - Przechowywanie istotnych danych do celów długoterminowego wglądu lub referencji.
Zarządzanie - Utrzymywanie i dbanie o dane, w tym nadzór nad ich przechowywaniem oraz narzędziami do tego wykorzystywanymi.
Pozyskiwanie - Proces zbierania (gromadzenia) danych z różnych źródeł.
Planowanie - Etap początkowy, w którym określa się rodzaj potrzebnych danych oraz sposób zarządzania nimi.
Niszczenie - Końcowy etap, w którym dane są trwale usuwane z pamięci masowej.