Hurtownia danych staje się niezbędnym składnikiem systemu IT przedsiębiorstwa. Stanowi podstawę do wszelkiego rodzaju analiz, czy wręcz z czasem stają się głównym źródłem wszystkich informacji wykorzystywanych w przedsiębiorstwie. Poniższy artykuł omawia pewną metodologię która pozwala ocenić zyski płynące z implementacji hurtowni danych i uzasadnić celowość takiego wdrożenia.
Intuicyjnie środowisko hurtowni danych jest bardzo sensowne z szerszej perspektywy
zbierania i wykorzystywania informacji. Ale zwykle pojawiają się wątpliwości, gdy
poruszona zostaje kwestia efektywności hurtowni danych w stosunku do kosztów. Oczywiście,
że hurtownie danych nie są tworzone za darmo. Ale czy korzyści płynące z posiadania
takiej hurtowni są współmierne do kosztów? Czy rzeczywiście hurtownia danych jest
warta swojej ceny?
Wliczony w to wszystko jest długoterminowy koszt posiadania i obsługi środowiska
hurtowni danych. Biorąc to pod uwagę, SQL Serwer 2000 firmy Microsoft oferuje wysoką
wartość produktu za cenę umożliwiającą instalowanie hurtowni danych, zbiorczych
baz danych oraz kostek OLAP w całej firmie. Produkt ten dostarcza wiele mechanizmów
związanych z hurtowniami danych, włącznie z ETL (Extract-Transform-Load
- co pozwala pozyskiwać dane z różnych źródeł i łatwo umieszczać je w hurtowni),
magazynem meta-danych, rozbudowaną relacyjną bazą danych, zapytaniami w języku naturalnym
(English Query) oraz usługami analitycznymi (Analysis Services).
Usługi analityczne oferują zarówno mechanizmy eksploracji danych, jak i OLAP,
dzięki czemu stanowią najbardziej wszechstronną ofertą analityczną na rynku. Z powodu
niższej ceny oraz łatwości użycia wstępne oraz długoterminowe koszty związane z
Serwerem SQL czynią z niego bardzo atrakcyjną platformę, na której można budować
obszerne środowiska hurtowni danych oraz zbiorczych baz danych.
Koszty zmienne
Na wstępie należy zauważyć, że koszty hurtowni danych są bardzo zmienne. Jedna
organizacja buduje dużą hurtownię danych za dużą sumę pieniędzy. Inna tworzy dużą
hurtownię danych za istotnie niższą sumę pieniędzy. O ironio – organizacja, która
wydała na swoją hurtownię danych znacznie niższą sumę pieniędzy, jest zwykle bardziej
zadowolona niż organizacja, która wydała na swoją znacznie więcej pieniędzy.
Oto niektóre z czynników determinujących koszt oraz satysfakcję z posiadania
hurtowni danych:
- w przypadku dużych ilości danych znajdujących się w hurtowniach danych informacje
nie powinny być umieszczany na wysoko wydajnych i drogich pamięciach dyskowych;
- tworzenie centralnej hurtowni danych otoczonej zbiorczymi bazami danych
to na dłuższą metę najlepsze podejście,
- hurtownia danych musi być budowana w małych, szybkich krokach tworzenia,
zamiast za „jednym zamachem”,
- do intensywnej eksploracji potrzebna jest osobna struktura, tak zwana hurtownia
eksploracji,
- w celu uzyskania prawdziwego czasu dostępu OLTP potrzebna jest osobna struktura
zwana ODS,
Jeśli organizacja nie rozumie tych podstawowych kwestii architektonicznych, wtedy
koszt hurtowni gwałtownie się podniesie – wraz z niezadowoleniem z hurtowni. Pierwszym
i najważniejszym kluczem do kontroli kosztów hurtowni danych jest zrozumienie architektury
oraz otaczającego ją środowiska. Jednakże, nawet jeśli te architektoniczne kwestie
zostały dobrze zrozumiane, hurtownia danych nadal będzie kosztować.
Uzasadnienie kosztów
Istnieje wiele sposobów uzasadniania kosztów hurtowni danych. Kilka z nich zostanie
opisanych w niniejszym artykule przeglądowym.
Najprostszym i najbardziej bezpośrednim sposobem podejścia do kwestii uzasadnienia
kosztów w tym przypadku jest proste stwierdzenie, że hurtownie danych znacznie redukują
koszty dostarczania informacji wszystkim użytkownikom z danej organizacji. Dzięki
hurtowni danych koszt uzyskania informacji zdecydowanie się zmniejsza. Dla każdego.
I za każdym razem, gdy zaistnieje potrzeba zasięgnięcia informacji. Informacji każdego
rodzaju.
Innymi słowy, utrzymywanie hurtowni danych zdecydowanie też redukuje koszty dostępu
do informacji.
Informacja, tam gdzie nie ma hurtowni danych
Aby wyobrazić sobie efekt braku hurtowni danych, przyjrzyjmy się pokazanemu na
rysunku 1 klasycznemu środowisku.
Na rysunku 1 pokazano kilka systemów źródłowych, zwykle określanych mianem środowiska
tradycyjnego. Te systemy źródłowe dostarczają dane, których potrzebuje użytkownik
końcowy. Zwykle te tradycyjne systemy przetwarzają transakcje i odzwierciedlają
potrzeby firmy. Istnieje też zapotrzebowanie na informacje z tych tradycyjnych systemów,
co prezentowane jest jako żądanie raportu albo tablicy. Po otworzeniu dostępu do
systemu tradycyjnego zbierane są informacje, która następnie przesyłane są do raportu
lub tablicy. Taki prosty scenariusz ma miejsce w większości organizacji przed zbudowaniem
hurtowni danych.
Informacja, tam gdzie jest hurtownia danych
Teraz przyjrzyjmy się rysunkowi 2.
Na rysunku 2 pokazano umieszczenie hurtowni danych, która znajduje się pomiędzy
tradycyjnymi aplikacjami a raportem. Tradycyjne aplikacje dostarczają informacji
hurtowni danych, a hurtownia danych dostarcza dane do raportu lub tablicy.
Jedyną różnicą między rysunkiem 1 a rysunkiem 2 jest istnienie na tym drugim
hurtowni danych.
Różnica kosztów
Aby zrozumieć, skąd się bierze różnica kosztów między rysunkiem 1 a rysunkiem
2, trzeba przeanalizować pracę, jaką należy wykonać w celu utworzenia raportu. Rysunek
3 pokazuje, co musi być wykonane w systemach tradycyjnych, by powstał raport − w
przypadku braku hurtowni danych.
Na powyższym rysunku (rysunek 3) pokazano, że w celu dostarczenia danych muszą
być wykonane następujące czynności:
- lokalizacja danych koniecznych do opracowania raportu lub tablicy w tradycyjnym
środowisku,
- po zlokalizowaniu zgromadzenie danych; to oznacza konieczność korzystania
z różnych technologii, takich jak IMS, IDMS, VSAM, ADABAS, Oracle, DB2 itd.,
- po zgromadzeniu dane muszą być skonwertowane lub zintegrowane, tzn. muszą
być uzgodnione klucze, wewnętrzne wartości kodujące, tabele referencyjne, struktury
danych, systemy operacyjne itd.,
- po skonwertowaniu, jeśli istnieje kilka źródeł danych, dane muszą zostać
połączone, a na koniec
- tworzony jest raport.
W zależności od stanu tradycyjnego środowiska, liczby aplikacji, które muszą
zostać utworzone, oraz wielkości i złożoności raportu koszt wyprodukowania raportu
z tradycyjnego środowiska może wahać się:
- od 2 lub 3 miesięcy do 2 lub 3 lat, oraz
- od 100 tys. USD do 2 lub 3 mln USD.
W rzeczywistości koszt uzyskiwania informacji z tradycyjnych środowisk jest tak
wysoki, że wielu sfrustrowanych tym po prostu z tego rezygnuje.
Uzyskiwanie danych, tam gdzie jest hurtownia danych
Rozważmy teraz koszty i czynności niezbędne do uzyskania tego samego raportu
ze środowiska z hurtownią danych. Taki scenariusz został przedstawiony na rysunku
4, przy zastosowaniu hurtowni danych. Raporty tworzone są na podstawie hurtowni
danych.
Ale w celu utworzenia hurtowni danych konieczne jest:
- zlokalizowanie w tradycyjnym środowisku danych niezbędnych do utworzenia
raportu,
- po zlokalizowaniu dane są zbierane w celu przygotowania ich do przeniesienia
do hurtowni danych; to oznacza korzystanie z różnych technologii, takich jak
IMS, IDMS, VSAM, ADABAS, Oracle, DB2 itd.,
- po zgromadzeniu dane muszą one zostać skonwertowane lub zintegrowane, a
to wymaga uzgadniania kluczy, wewnętrznych wartości kodujących, tabel referencyjnych,
struktur danych, systemów operacyjnych itd.,
- łączenie danych, po zintegrowaniu, pochodzących z wielu źródeł.
Innymi słowy, na rysunku 4 pokazano takie same pierwsze cztery kroki, jak na
rysunku 3. Z tym że na rysunku 3 są to kroki przygotowawcze do wyprodukowania raportu.
Na rysunku 4 natomiast te same kroki są wykonywane w celu utworzenia hurtowni danych.
W zasadzie więc jedyną różnicą między rysunkiem 3 a rysunkiem 4 jest to, że na tym
drugim raport jest generowany z hurtowni danych, zamiast z tradycyjnego systemu,
jak to pokazano na rysunku 3.
Koszt lokalizacji, zbierania, konwersji oraz integracji jest taki sam na rysunku
3 i na rysunku 4. Skąd więc jakiekolwiek oszczędności, skoro te same czynności muszą
być wykonane w sytuacji z rysunku 3, jak i rysunku 4?
Wiele raportów
Odpowiedź jest prosta: gdyby tworzone były tylko pojedyncze raporty, utworzenie
hurtowni danych faktycznie nie przyniosłoby żadnych oszczędności. Ale w rzeczywistości
żadna korporacja nie opiera się tylko na pojedynczym raporcie. Korporacje potrzebują
wielu raportów i wielu tabel.
Rysunek 5 przedstawia rzeczywiste potrzeby korporacji dotyczące raportowania.
Pokazuje, że korporacje działają z wieloma formami informacji. Problem polega
na tym, że każdy raport potrzebuje własnego, unikatowego zbioru informacji. Innymi
słowy, za każdym razem konieczne jest wykonanie odrębnego zestawu czynności, obejmującego:
- lokalizowanie danych,
- zbieranie danych,
- konwersję/integrację danych,
- łączenie danych.
Koszt każdego raportu jest zatem bardzo wysoki, jeśli źródłem danych jest tradycyjne
środowisko.
Rozważmy teraz koszt tworzenia raportów przy obecności hurtowni danych. Rysunek
6 ilustruje takie właśnie okoliczności.
Na rysunku 6 dane są zbierane w hurtowni danych. Dane, raz zebrane w hurtowni
danych, są potem dostępne do opracowania wielu raportów. Wiele raportów jest tworzonych
na podstawie danych z jednej hurtowni danych.
Istnieje więc jednorazowy koszt zebrania i zorganizowania danych w hurtownię
danych. Przy raportowaniu dla potrzeb korporacji, ponosi się tylko koszty definiowania
struktury i wyglądu raportu. A kiedy dane znajdują się w hurtowni danych, lokalizowanie,
gromadzenie, integracja oraz łączenie danych wykonywane są tylko jednokrotnie. Ale
jeśli w hurtowni danych nie ma danych, lokalizowanie, gromadzenie, integracja oraz
łączenie danych muszą być wykonywane dla każdego raportu osobno. I to właśnie przez
to hurtownia danych daje tak ogromne oszczędności kosztów.
Załącznik A zawiera prosty przykład kalkulacji, który pozwala
obliczyć oszczędności wynikające ze zbudowania hurtowni danych.
Farmerzy i odkrywcy
Istnieje jeszcze jeden aspekt uzasadnienia kosztów hurtowni danych, który należy
rozważyć. Ten aspekt to: dla kogo w korporacji hurtownia danych jest potrzebna na
samym początku?
Aby odpowiedzieć na to pytanie, należy wziąć pod uwagę, że korporacja ma dwa
bardzo różne rodzaje użytkowników – farmerów oraz odkrywców.
Farmer to ktoś, kto wie, czego chce, zanim wyruszy to odnaleźć. Farmer jest przewidywalny.
Farmer z reguły znajduje to, czego szuka. Farmer wysyła małe zapytania. Farmer rzadko
kiedy znajduje ogromne bryły informacji, ale farmer często znajduje małe okruchy
złota.
Odkrywca bardzo różni się od farmera. Odkrywca to oryginalny, korporacyjny myśliciel.
Odkrywca jest nieprzewidywalny. Odkrywca może przez sześć miesięcy nie wysyłać żadnych
zapytań, a potem w jednym tygodniu wysłać ich bardzo wiele. Odkrywca wysyła za to
bardzo duże zapytania. Często odkrywca, mimo starań, niczego nie znajduje. Ale czasami
odkrywca znajduje bezcenną bryłę korporacyjnej wiedzy, która została przeoczona.
Istnieje więc bardzo istotna różnica między farmerami i odkrywcami, chociaż i
jedni, i drudzy wykorzystują hurtownię danych.
Rysunek 7 ilustruje farmerów i odkrywców.
Kwestia uzasadnienia kosztów hurtowni danych jest bardzo silnie powiązana z obydwoma
typami. Uzasadnianie kosztów dla hurtowni danych jest niemal zawsze analizowane
na podstawie wyników uzyskanych przez farmerów, a nie przez odkrywców. Inaczej mówiąc,
przeprowadzanie uzasadnienia kosztów hurtowni danych w oparciu o pracę odkrywców
jest bardzo ryzykowne i nie jest zalecane.
Farmerzy i odkrywcy a uzasadnianie kosztów
Rysunek 8 pokazuje, że uzasadnianie kosztów hurtowni danych najlepiej jest przeprowadzać
dla farmerów, a nie odkrywców.
Dlaczego uzasadnienia kosztów hurtowni danych nie przeprowadza się dla odkrywców?
Odpowiedź jest prosta: w przypadku odkrywców nigdy nie wiadomo, jaki wynik się uzyska.
Jeśli przypadkowo wyruszy on na poszukiwanie danych i uzyska spektakularny wynik,
zarząd firmy będzie przychylny dla kwestii finansowania hurtowni danych. Ale jeśli
po wyruszeniu na poszukiwania nie uzyska się żadnego rezultatu, zarząd nie będzie
skłonny płacić za hurtownię danych. W przypadku odkrywców nigdy nie wiadomo, jaki
będzie wynik. Są duże szanse, że za pierwszym razem odkrywca niczego nie znajdzie.
Zarząd nie lubi popierać postrzeganych jako przegranych. A zatem przy uzasadnianiu
kosztów hurtowni danych trzeba oprzeć się na oczekiwaniach farmerów, a nie odkrywców.
Oczywiście niektóre firmy rozumieją ryzyko. Wówczas hurtownie danych mogą być uzasadniane
również na podstawie oczekiwań odkrywców. Jednak poza tym opieranie uzasadnienia
hurtowni danych na odkrywcach jest bardzo ryzykowne.
Zbiorcze bazy danych oraz hurtownia danych
Kwestią równie istotną dla uzasadnienia kosztów hurtowni danych jest to, czy
korporacja powinna zbudować hurtownię danych, czy zbiorczą bazę danych. Aby to lepiej
zrozumieć, musimy najpierw wiedzieć czym jest hurtownia danych, a czym jest zbiorcza
baza danych i czym się one różnią.
Zbiorcza baza danych ma strukturę działową i z reguły zawiera działy: finansowy,
handlowy, marketingowy, księgowy i tak dalej. Dane w zbiorczych bazach danych są
uporządkowane pod kątem uzyskania optymalnego dostępu przez różnych użytkowników
zbiorczej bazy danych. Hurtownia danych natomiast tym się strukturalnie różni od
zbiorczej bazy danych, że zaspokaja potrzeby całej korporacji. Hurtownie danych
to prawdziwie korporacyjna struktura, zaspokajająca wiele różnych potrzeb.
Rysunek 9 pokazuje architektoniczne uporządkowanie danych w zbiorczych bazach
danych oraz w hurtowniach danych. Jak widać, zbiorcze bazy danych otrzymują dane
z hurtowni danych, zaś hurtownie danych otrzymują dane od tradycyjnych aplikacji.
Istnieje wiele zasadniczych różnic między zbiorczymi bazami danych oraz hurtowniami
danych − rysunek 10 obrazuje kilka najważniejszych, gdzie widzimy, że hurtownia
danych zawiera dane korporacyjne, dane szczegółowe oraz dane znormalizowane. Normalizacja
danych pozwala danym w hurtowniach danych obsługiwać wszystkich użytkowników. Natomiast
dane w zbiorczych bazach danych są streszczone i nieznormalizowane, co pozwala zaspokajać
potrzeby działu, ale nie całej korporacji.
Zbiorcze bazy danych oraz hurtownie danych
Dane w hurtowni danych zawierają głęboko sięgającą i obszerną historię, z reguły
do pięciu do dziesięciu lat. Zbiorcze bazy danych zawierają historię ograniczoną
– od jednego miesiąca do roku. Jeśli w zbiorczej bazie danych jest dłuższa historia,
musi być przechowywana na poziomie podsumowania.
Hurtownia danych zawiera ogromne ilości danych – zwykle do kilku terabajtów.
Zbiorcza baza danych zawiera znacząco mniej danych − około 5GB do 50GB.
Hurtownia danych jest projektowana głównie na podstawie modelu danych. Korporacyjny
model danych odzwierciedla potrzeby korporacji w dziedzinie informacji. Zbiorcze
bazy danych odzwierciedlają jedynie specyficzne potrzeby danego departamentu. Inne
zastosowania zbiorczej bazy danych oraz sposoby korzystania z danych przez użytkownika
kształtują projekt zbiorczej bazy danych. Zbiorcza baza danych jest więc kształtowana
potrzebami, podczas gdy hurtownia danych jest kształtowana danymi.
Hurtownia danych jest uniwersalna, może obsługiwać kolejno różnych użytkowników
i umożliwia spojrzenie na dane pod jednym kątem, a chwilę potem – pod innym. Zbiorcze
bazy danych pozwalają na optymalne oglądanie danych tylko w jeden sposób i przez
jedną grupę ludzi – na przykład z działu finansowego, podczas gdy korzystanie z
tych danych dla wszystkich innych – księgowości, handlowców, marketingu itd. – nie
będzie optymalnie dostępne.
Hurtownia danych jest oparta na ogólnej, uniwersalnej technologii DBMS − podstawowym
celem tej technologii jest obsługiwanie dużych ilości danych. Zbiorcza baza danych
natomiast oparta jest na technologii optymalizującej dostęp oraz analizowanie przez
użytkownika końcowego. Zwykle zbiorcza baza danych oparta jest na technologii wielowymiarowej
lub innej technologii przydatnej użytkownikowi przy tworzeniu raportów i analiz.
Poza tym istnieje cała grupa architektonicznych różnic między hurtownią danych
oraz zbiorczą bazą danych.
Które tworzyć najpierw?
Często powtarzanym pytaniem jest: co tworzyć najpierw – hurtownię danych, czy
zbiorczą bazę danych? Czy po stworzeniu zbiorczej bazy danych w ogóle trzeba tworzyć
hurtownię danych?
Tak naprawdę możliwe jest stworzenie zbiorczej bazy danych bez tworzenia hurtowni
danych. A dostawcy zbiorczych baz danych bardzo zachęcają do takiego układu.
Rysunek 11 pokazuje, że tworzenie zbiorczej bazy danych bez hurtowni danych jest
rzeczywiście możliwe. Na rysunku widzimy kilka tradycyjnych systemów dostarczających
dane do zbiorczej bazy danych. Taka konfiguracja da się względnie prosto uzyskać.
I jeśli istnieje tylko jedna lub dwie zbiorcze bazy danych, taka propozycja jest
do przyjęcia. Ale problem tkwi w tym, że korporacja nigdy nie tworzy tylko jednej
lub dwóch zbiorczych baz danych, gdyż istnieje w niej wiele działów organizacji
potrzebujących własnych zbiorczych baz danych:
- dział marketingu
- dział handlowy
- dział finansowy
- dział księgowy
- dział socjalny
- dział techniczny
- dział produkcji
- dział personalny
i tak dalej. Nie jest więc rozsądnie zakładać, że organizacja będzie posiadała
tylko jedną zbiorczą bazę danych. A zatem prosty diagram z rysunku 11 może być prawdziwy
tylko przez krótki czas, kiedy korporacja tworzy i używa jedną zbiorczą bazę danych.
Bardzo szybko diagram z rysunku 11 przestaje być aktualny.
Wiele zbiorczych baz danych
W miarę jak korporacja się rozrasta, diagram z rysunku 11 zamienia się w diagram
z rysunku 12.
Na rysunku 12 widać, że istnieje już wiele źródeł danych i wiele zbiorczych baz
danych. Interfejs pomiędzy zbiorczymi bazami danych oraz systemami źródłowymi robi
się bardzo złożony, co komplikuje dalsze prace. Jeśli istnieje m źródeł danych i
n zbiorczych baz danych, potrzeba będzie m x n programów-interfejsów.
Poza tym istnieją jeszcze inne problemy związane z architekturą z rysunku 12.
Ilość szczegółowych informacji wśród różnych zbiorczych baz danych jest naprawdę
znacząca. Poza tym każda zbiorcza baza danych zbiera i przechowuje wiele szczegółowych
informacji pokrywających się z danymi każdej innej zbiorczej bazy danych. Wynikiem
jest ogromna duplikacja szczegółowych danych pomiędzy zbiorczymi bazami danych.
Ale największą wadą architektury z rysunku 12 jest brak możliwości uzgadniania
danych. Na pytanie zarządu o wielkość dochodu w ostatnim kwartale, dział finansowy
odpowie − 10 milionów, dział handlowy − 12 milionów, a marketing − 15 milionów.
To prawdziwy koszmar dla zarządu próbować podejmować decyzje przy nierozwiązywalnym
konflikcie informacji.
Centryczna architektura hurtowni danych
Alternatywą dla architektury złożonej wyłącznie ze zbiorczych baz danych pokazanej
na rysunku 12 jest architektura zawierająca i zbiorcze bazy danych, i hurtownię
danych – pokazana na rysunku 13.
Na rysunku 13 widzimy systemy źródłowe oraz zbiorcze bazy danych. Ale jest tam
także hurtownia danych. Różne systemy źródłowe dostarczają dane do hurtowni danych.
Z danych z hurtowni danych tworzone są zbiorcze bazy danych. Ale istnieje kilka
zaskakujących różnic między architekturami z rysunku 12 i rysunku 13. Architektura
oparta na hurtowni danych potrzebuje minimalnej liczby programów-interfejsów. W
przypadku m systemów źródłowych oraz n aplikacji liczba niezbędnych programów-interfejsów
to m + n (w przeciwieństwie do m x n, jak przy architekturze na rysunku 12).
Nie ma potrzeby, żeby każda zbiorcza baza danych przechowywała nadmiar szczegółowych
danych. Takie dane zawiera hurtownia danych. Na rysunku 13 każda zbiorcza baza danych
opiera się na hurtowni danych w celu utworzenia swoich pogrupowanych i streszczonych
danych. Znacznie, znacznie mniej danych znajduje się na rysunku 13 niż na rysunku
12.
Także uzgadnianie danych jest łatwe dzięki hurtowni danych. Jeśli dwa lub więcej
działów ma niezgodne wyniki, jest hurtownia danych, dzięki której można uzgodnić
różnice.
Tak więc istnieją zasadnicze różnice między architekturą opartą na zbiorczych
bazach danych oraz architekturą opartą na hurtowni danych.
Różnice te ilustruje rysunek 14.
Różnica kosztów
Jakie są różnice w kosztach między architekturą złożoną wyłącznie ze zbiorczych
baz danych a architekturą z hurtownią danych?
W załączniku B te różnice zostały wyliczone.
Tworzenie hurtowni danych
Jednym z fałszywych twierdzeń głoszonych przez sprzedawców zbiorczych baz danych
jest twierdzenie, że hurtownie danych muszą być tworzone „za jednym zamachem”. Przy
takim podejściu stworzenie hurtowni danych faktycznie staje się niemożliwe. Ale
przy prawidłowym podejściu hurtowni danych nie tworzy się w taki sposób. Zorientowani
w temacie praktycy zajmujący się hurtowniami danych od początku ostrzegali przed
podejściem typu „wielki wybuch” przy tworzeniu hurtowni danych. Fachowcy ci zawsze
doradzali podejście iteracyjne.
Przy takim podejściu pierwsza część hurtowni danych jest szybko tworzona i zapełniana,
następnie budowana i zapełniana jest kolejna część hurtowni danych, i tak dalej.
Przez cały proces tworzenia użytkownik końcowy może używać hurtowni danych i przekazywać
swoje opinie jej twórcom.
Rysunek 15 obrazuje iteracyjne podejście do tworzenia hurtowni danych.
Na rysunku 15 widzimy, jak tworzona jest pierwsza część hurtowni danych. Potem
projektowana i zapełniana jest następna część hurtowni danych, później następna
i tak dalej. Tworzenie całej hurtowni danych „za jednym zamachem” jest całkowicie
sprzeczne z podstawowymi zasadami tworzenia hurtowni danych.
Uzasadnienie kosztów oparte na działalności firmy
Sposoby wyliczenia kosztów stworzenia i eksploatacji hurtowni danych poprzednio
skupiały się na kosztach „zaplecza”, tych widzianych przez developera IT. Ale istnieje
też całkowicie inny sposób podejścia do kwestii uzasadnienia kosztów hurtowni danych,
opartego na działalności firmy.
Jeśli hurtownia danych jest efektywna, pozwala firmie na:
- utrzymanie i zwiększenie udziału w rynku,
- maksymalizowanie zyskowności,
- zminimalizowanie wydatków.
Ponieważ hurtownie danych potencjalnie są w stanie umożliwić osiągnięcie tych
bardzo korzystnych celów, powinno być też możliwe określenie wartości hurtowni danych
na podstawie zmian powyższych mierników.
Weźmy pod uwagę zmienną mierzoną przez każdą korporację, tzn. przychód w danym
okresie czasu. Rysunek 16 pokazuje przykładowe liczenie wielkości przychodu w pewnym
okresie czasu.
Przypuśćmy teraz, że do korporacji w pewnym momencie czasu wprowadzono hurtownię
danych. Na rysunku 17 ten moment został wyróżniony (i dalej mówimy o nim jako o
punkcie n).
Administrator hurtowni danych przeprowadza dla zarządu ekstrapolację w celu pokazania
faktycznego przychodu oraz możliwości zwiększenia przychodu dzięki informacjom uzyskiwanym
z hurtowni danych. W taki sposób można przedstawić wyliczalny argument uzasadniający
koszty hurtowni danych.
Ale istnieje też kilka poważnych problemów związanych z tym argumentem, niezależnie
od tego, jak bardzo jest prawdziwy, na przykład:
- zwiększenie przychodu od punktu n w czasie mogło być spowodowane wprowadzeniem
nowego produktu,
- zwiększenie przychodu od punktu n w czasie mogło być spowodowane zmianami
w gospodarce,
- zwiększenie przychodu od punktu n w czasie mogło być spowodowane zmianą
stóp procentowych,
- zwiększenie przychodu od punktu n w czasie mogło być spowodowane wycofaniem
linii produktów przez konkurencję, i tak dalej.
Problem jest taki, że wszystkie powyższe czynniki mogą wpłynąć na zwiększenie
przychodu.
Może i faktycznie hurtownia danych przyczyniła się do istotnego zwiększenia przychodu,
ale może jednocześnie być tyle innych istotnych czynników wpływających na wysokość
przychodu, że wyliczenie efektów hurtowni danych może być praktycznie niemożliwe.
Specjalne aplikacje
Innym podejściem do wyliczenia wpływu hurtowni danych na działalność firmy jest
stworzenie specjalnych aplikacji wykorzystujących hurtownie danych jako podstawę
swego działania. Wyniki działania takich aplikacji mogą być łatwo wyliczone. Na
przykład jedną z popularnych skoncentrowanych na hurtowniach danych aplikacji jest
CRM (zarządzanie relacjami z klientami – ang. customer relationship management).
CRM wykorzystuje hurtownię danych m. innymi do stworzenia pełnej historii sprzedaży
i podstaw informacji o cechach klientów.
Niektóre z widoków znajdowanych w typowych aplikacjach CRM znajdują się na rysunku
18.
Po stworzeniu CRM z łatwością można wyliczyć:
- jak wielu nowych klientów włączono do systemu,
- jak duży zysk przynieśli nowi klienci,
- jakimi produktami interesują się ci nowi klienci,
- jak często dany klient kontaktuje się z firmą, i tak dalej.
Za pomocą specjalnych aplikacji opartych na hurtowniach danych można więc wyliczyć
wpływ hurtowni danych na interesy firmy.
Rysunek 18 pokazuje kilka prostych, typowych metod oceny systemu.
Podwójny efekt
Aplikacje opierające się na hurtowni danych są dobrą metodą wyliczenia wpływu
hurtowni danych, ale warto zauważyć, że te aplikacje są w stanie zmierzyć tylko
część wartości hurtowni danych. Hurtownia danych zawsze obniża koszt uzyskiwania
informacji. A zatem korzyści z hurtowni danych to ZARÓWNO oszczędności, zasygnalizowane
na początku niniejszego artykułu, JAK I zyski firmy uzyskane dzięki aplikacjom zbudowanym
wokół hurtowni danych.
W każdym razie żaden z tych scenariuszy nie dotyczy przydatności hurtowni danych
dla odkrywców. Możliwość odkrywania jest pozytywnym skutkiem ubocznym utworzenia
hurtowni danych. O ironio, w przypadku sukcesu odkrywania potencjalne korzyści są
znacznie większe od omawianych.
Podsumowanie
Niniejszy artykuł przeglądowy dotyczy wyliczania zysków płynących z hurtowni
danych oraz zbiorczych baz danych dla korporacji.
Pierwszym uzasadnieniem kosztów hurtowni danych jest wyliczenie ogólnych kosztów
wykorzystywania informacji. W przypadku braku hurtowni danych każda prośba o informacje,
zanim zostanie spełniona, wymaga zgromadzenia, zintegrowania oraz połączenia i podsumowania
danych. Ale jeśli istnieje hurtownia danych, dane są gromadzone, integrowane i łączone
tylko raz. Gdy hurtownia danych znajdzie się na miejscu (zostanie wdrożona), raporty
można tworzyć szybko i efektywnie.
Ogólny koszt korzystania z informacji korporacji dotyczy farmerów, nie odkrywców.
Odkrywcy w celu zdobycia informacji poruszają się po losowych ścieżkach, których
w żaden sposób nie można zoptymalizować za pomocą jakiegoś wstępnego uporządkowania
danych. A zatem ekonomika dostępu do danych w hurtowni danych dotyczy wyłącznie
farmerów używających przewidywalnych ścieżek dostępu.
Drugie uzasadnienie dotyczy tego, jak efektywność i ekonomika przechowywania
danych ma się do różnic między hurtowniami danych a zbiorowymi bazami danych. Tam,
gdzie jest hurtownia danych, tam jest także okazja do szybkiego i efektywnego stworzenia
zbiorowych baz danych. Ale tam, gdzie nie ma hurtowni danych, każda nowa zbiorcza
baza danych wymaga stworzenia kolejnej takiej samej konstrukcji, łączącej ze środowiskiem
tradycyjnych aplikacji, jak poprzednia zbiorcza baza danych. Patrząc na to z długoterminowej
perspektywy, stworzenie hurtowni danych umożliwia też tworzenie zbiorczych baz danych.
Trzecie podejście do kosztu to zmierzenie zysków uzyskanych dzięki hurtowni danych
z punktu widzenia interesów firmy. Hurtownia danych zawiera integrowane i historyczne
dane. Dla firmy wykorzystanie dla własnych korzyści zintegrowanych, historycznych
danych dzięki zwiększeniu udziału na rynku i zmniejszeniu kosztów to całkiem prosta
sprawa.
Załącznik A
Obliczanie wpływu hurtowni danych na dostęp do informacji:
1. Ile źródeł (aplikacji) zaspokaja zapotrzebowanie na raporty i tablice?
1.a____ Ile (średnio) baz danych/plików/zbiorów danych znajduje się w systemach
źródłowych (aplikacjach)?
1.b____ DS – różne źródła = 1.a x 1.b____
2. Jaki jest koszt lokalizowania informacji źródłowych na potrzeby tworzenia
raportów oraz tablic?
2.a____ (domyślnie = $ 1000)
Jaki jest koszt napisania kodu do zbierania informacji źródłowych?
2.b____ (domyślnie = $ 10 000)
Jaki jest koszt konwersji/integracji informacji źródłowych?
2.c____ (domyślnie = $ 10 000)
Jaki jest koszt łączenia danych po konwersji?
2.d____ (domyślnie = $ 1000)
GC – koszt zbierania danych z konkretnego źródła = 2.a x 2.b x 2.c x 2.d
3. Jaki jest koszt stworzenia raportu lub tablicy?
3.a____ (domyślnie = $ 2500)
CR - 3.a
4. Ile raportów/tablic będzie potrzebowała firma w ciągu najbliższych pięciu
lat?
4.a____
RS - 4.a
5. Obliczyć koszt infrastruktury hurtowni danych. Określić docelowy rozmiar hurtowni
danych w gigabajtach i pomnożyć przez $ 7500 (wartość z roku 2000).
5.a____
DWC - 5.a
6. Obliczyć koszt raportowania z tradycyjnych/działających aplikacji.
KOSZT RAPORTÓW = DS x (GC + CR) x RS
7. Obliczyć koszt raportowania z hurtowni danych.
KOSZT RAPORTÓW NA BAZIE HURTOWNI = (DS x GC) + (CR x RS) + DWC
Zwykle koszt raportowania z aplikacji tradycyjnych wychodzi tak wysoki, że żadna
rozsądna firma nie chciałaby wydawać takiej sumy. I rzeczywiście takiej sumy nie
wydają. Zamiast tego użytkownicy końcowi są sfrustrowani tym, że nigdy nie otrzymują
potrzebnych informacji.
Dlatego właśnie mówi się, że firmy bez hurtowni danych są bogate w dziedzinie
danych, ale ubogie w dziedzinie informacji.
Załącznik B
Obliczanie, czy jako pierwsza powinna być tworzona hurtownia danych, czy zbiorcza
baza danych (i czy w ogóle warto tworzyć hurtownię danych).
1. Ile istnieje źródeł (aplikacji) dostarczających dane do hurtowni danych/zbiorczych
baz danych?
1.a____ Ile (średnio) baz danych/plików/zbiorów danych znajduje się w systemach
źródłowych (aplikacjach)?
1.b____ DS – różne źródła = 1.a x 1.b____
2. Ile zbiorczych baz danych będzie na dłuższą metę potrzebnych?
2.a____ (domyślnie = 10) DM - 2.a
3. Ile programów-interfejsów będzie potrzebnych?
IP - DM x DS
4. Jaki jest koszt stworzenia przeciętnego programu-interfejsu?
4.a_____ (domyślnie = $ 20 000)
AIP - 4.a
5. Obliczyć koszt infrastruktury hurtowni danych. Określić docelowy rozmiar hurtowni
danych w gigabajtach.
5.a____ Pomnożyć gigabajty przez $ 7500 (wartość z roku 2000).
DWC - 5.a x 7500
6. Obliczyć koszt szczegółowych nadmiarowych danych, które będą znajdowały się
w każdej zbiorczej bazie danych. Każda zbiorcza baza danych będzie miała połowę
szczegółowych danych znajdujących się w hurtowni danych.
6.a____ = 5.a / 2.
7. Oszacować liczbę gigabajtów szczegółowych nadmiarowych danych w przeciętnej
zbiorczej bazie danych. Teraz pomnożyć to przez $ 7500 (wartość z roku 2000).
6.a = 5.a x 7’500
DMRD - 6.a
8. Obliczyć koszt środowiska skupiającego się wokół zbiorczych baz danych.
(IP x AIP) + (DM x DMRD)
9. Obliczyć koszt środowiska skupiającego się wokół hurtowni danych.
((DS + DM) x AIP) + DWC
Spis treści
Autor: W. H. Inmon