Artykuły

A A A
Drukuj Ekportuj do PDF
Opublikowane: 2002.06.22 18:05 | Jacek Kolonko | Aktualizacja: 2006.01.23 19:06

Środowisko hurtowni danych - uzasadnienie ponoszonych kosztów i sposób oceny zwrotu z inwestycji

Hurtownia danych staje się niezbędnym składnikiem systemu IT przedsiębiorstwa. Stanowi podstawę do wszelkiego rodzaju analiz, czy wręcz z czasem stają się głównym źródłem wszystkich informacji wykorzystywanych w przedsiębiorstwie. Poniższy artykuł omawia pewną metodologię która pozwala ocenić zyski płynące z implementacji hurtowni danych i uzasadnić celowość takiego wdrożenia.

Intuicyjnie środowisko hurtowni danych jest bardzo sensowne z szerszej perspektywy zbierania i wykorzystywania informacji. Ale zwykle pojawiają się wątpliwości, gdy poruszona zostaje kwestia efektywności hurtowni danych w stosunku do kosztów. Oczywiście, że hurtownie danych nie są tworzone za darmo. Ale czy korzyści płynące z posiadania takiej hurtowni są współmierne do kosztów? Czy rzeczywiście hurtownia danych jest warta swojej ceny?

Wliczony w to wszystko jest długoterminowy koszt posiadania i obsługi środowiska hurtowni danych. Biorąc to pod uwagę, SQL Serwer 2000 firmy Microsoft oferuje wysoką wartość produktu za cenę umożliwiającą instalowanie hurtowni danych, zbiorczych baz danych oraz kostek OLAP w całej firmie. Produkt ten dostarcza wiele mechanizmów związanych z hurtowniami danych, włącznie z ETL (Extract-Transform-Load - co pozwala pozyskiwać dane z różnych źródeł i łatwo umieszczać je w hurtowni), magazynem meta-danych, rozbudowaną relacyjną bazą danych, zapytaniami w języku naturalnym (English Query) oraz usługami analitycznymi (Analysis Services).

Usługi analityczne oferują zarówno mechanizmy eksploracji danych, jak i OLAP, dzięki czemu stanowią najbardziej wszechstronną ofertą analityczną na rynku. Z powodu niższej ceny oraz łatwości użycia wstępne oraz długoterminowe koszty związane z Serwerem SQL czynią z niego bardzo atrakcyjną platformę, na której można budować obszerne środowiska hurtowni danych oraz zbiorczych baz danych.

Koszty zmienne

Na wstępie należy zauważyć, że koszty hurtowni danych są bardzo zmienne. Jedna organizacja buduje dużą hurtownię danych za dużą sumę pieniędzy. Inna tworzy dużą hurtownię danych za istotnie niższą sumę pieniędzy. O ironio – organizacja, która wydała na swoją hurtownię danych znacznie niższą sumę pieniędzy, jest zwykle bardziej zadowolona niż organizacja, która wydała na swoją znacznie więcej pieniędzy.

Oto niektóre z czynników determinujących koszt oraz satysfakcję z posiadania hurtowni danych:

  • w przypadku dużych ilości danych znajdujących się w hurtowniach danych informacje nie powinny być umieszczany na wysoko wydajnych i drogich pamięciach dyskowych;
  • tworzenie centralnej hurtowni danych otoczonej zbiorczymi bazami danych to na dłuższą metę najlepsze podejście,
  • hurtownia danych musi być budowana w małych, szybkich krokach tworzenia, zamiast za „jednym zamachem”,
  • do intensywnej eksploracji potrzebna jest osobna struktura, tak zwana hurtownia eksploracji,
  • w celu uzyskania prawdziwego czasu dostępu OLTP potrzebna jest osobna struktura zwana ODS,

Jeśli organizacja nie rozumie tych podstawowych kwestii architektonicznych, wtedy koszt hurtowni gwałtownie się podniesie – wraz z niezadowoleniem z hurtowni. Pierwszym i najważniejszym kluczem do kontroli kosztów hurtowni danych jest zrozumienie architektury oraz otaczającego ją środowiska. Jednakże, nawet jeśli te architektoniczne kwestie zostały dobrze zrozumiane, hurtownia danych nadal będzie kosztować.

Uzasadnienie kosztów

Istnieje wiele sposobów uzasadniania kosztów hurtowni danych. Kilka z nich zostanie opisanych w niniejszym artykule przeglądowym.

Najprostszym i najbardziej bezpośrednim sposobem podejścia do kwestii uzasadnienia kosztów w tym przypadku jest proste stwierdzenie, że hurtownie danych znacznie redukują koszty dostarczania informacji wszystkim użytkownikom z danej organizacji. Dzięki hurtowni danych koszt uzyskania informacji zdecydowanie się zmniejsza. Dla każdego. I za każdym razem, gdy zaistnieje potrzeba zasięgnięcia informacji. Informacji każdego rodzaju.

Innymi słowy, utrzymywanie hurtowni danych zdecydowanie też redukuje koszty dostępu do informacji.

Informacja, tam gdzie nie ma hurtowni danych

Aby wyobrazić sobie efekt braku hurtowni danych, przyjrzyjmy się pokazanemu na rysunku 1 klasycznemu środowisku.

Środowisko tradycyjne

Na rysunku 1 pokazano kilka systemów źródłowych, zwykle określanych mianem środowiska tradycyjnego. Te systemy źródłowe dostarczają dane, których potrzebuje użytkownik końcowy. Zwykle te tradycyjne systemy przetwarzają transakcje i odzwierciedlają potrzeby firmy. Istnieje też zapotrzebowanie na informacje z tych tradycyjnych systemów, co prezentowane jest jako żądanie raportu albo tablicy. Po otworzeniu dostępu do systemu tradycyjnego zbierane są informacje, która następnie przesyłane są do raportu lub tablicy. Taki prosty scenariusz ma miejsce w większości organizacji przed zbudowaniem hurtowni danych.

Informacja, tam gdzie jest hurtownia danych

Teraz przyjrzyjmy się rysunkowi 2.

Środowisko z hurtownią danych

Na rysunku 2 pokazano umieszczenie hurtowni danych, która znajduje się pomiędzy tradycyjnymi aplikacjami a raportem. Tradycyjne aplikacje dostarczają informacji hurtowni danych, a hurtownia danych dostarcza dane do raportu lub tablicy.

Jedyną różnicą między rysunkiem 1 a rysunkiem 2 jest istnienie na tym drugim hurtowni danych.

Różnica kosztów

Aby zrozumieć, skąd się bierze różnica kosztów między rysunkiem 1 a rysunkiem 2, trzeba przeanalizować pracę, jaką należy wykonać w celu utworzenia raportu. Rysunek 3 pokazuje, co musi być wykonane w systemach tradycyjnych, by powstał raport − w przypadku braku hurtowni danych.

Tworzenie raportu w środowisku tradycyjnym

Na powyższym rysunku (rysunek 3) pokazano, że w celu dostarczenia danych muszą być wykonane następujące czynności:

  • lokalizacja danych koniecznych do opracowania raportu lub tablicy w tradycyjnym środowisku,
  • po zlokalizowaniu zgromadzenie danych; to oznacza konieczność korzystania z różnych technologii, takich jak IMS, IDMS, VSAM, ADABAS, Oracle, DB2 itd.,
  • po zgromadzeniu dane muszą być skonwertowane lub zintegrowane, tzn. muszą być uzgodnione klucze, wewnętrzne wartości kodujące, tabele referencyjne, struktury danych, systemy operacyjne itd.,
  • po skonwertowaniu, jeśli istnieje kilka źródeł danych, dane muszą zostać połączone, a na koniec
  • tworzony jest raport.

W zależności od stanu tradycyjnego środowiska, liczby aplikacji, które muszą zostać utworzone, oraz wielkości i złożoności raportu koszt wyprodukowania raportu z tradycyjnego środowiska może wahać się:

  • od 2 lub 3 miesięcy do 2 lub 3 lat, oraz
  • od 100 tys. USD do 2 lub 3 mln USD.

W rzeczywistości koszt uzyskiwania informacji z tradycyjnych środowisk jest tak wysoki, że wielu sfrustrowanych tym po prostu z tego rezygnuje.

Uzyskiwanie danych, tam gdzie jest hurtownia danych

Rozważmy teraz koszty i czynności niezbędne do uzyskania tego samego raportu ze środowiska z hurtownią danych. Taki scenariusz został przedstawiony na rysunku 4, przy zastosowaniu hurtowni danych. Raporty tworzone są na podstawie hurtowni danych.

Tworzenie raportu w środowisku z hurtownią danych

Ale w celu utworzenia hurtowni danych konieczne jest:

  • zlokalizowanie w tradycyjnym środowisku danych niezbędnych do utworzenia raportu,
  • po zlokalizowaniu dane są zbierane w celu przygotowania ich do przeniesienia do hurtowni danych; to oznacza korzystanie z różnych technologii, takich jak IMS, IDMS, VSAM, ADABAS, Oracle, DB2 itd.,
  • po zgromadzeniu dane muszą one zostać skonwertowane lub zintegrowane, a to wymaga uzgadniania kluczy, wewnętrznych wartości kodujących, tabel referencyjnych, struktur danych, systemów operacyjnych itd.,
  • łączenie danych, po zintegrowaniu, pochodzących z wielu źródeł.

Innymi słowy, na rysunku 4 pokazano takie same pierwsze cztery kroki, jak na rysunku 3. Z tym że na rysunku 3 są to kroki przygotowawcze do wyprodukowania raportu. Na rysunku 4 natomiast te same kroki są wykonywane w celu utworzenia hurtowni danych. W zasadzie więc jedyną różnicą między rysunkiem 3 a rysunkiem 4 jest to, że na tym drugim raport jest generowany z hurtowni danych, zamiast z tradycyjnego systemu, jak to pokazano na rysunku 3.

Koszt lokalizacji, zbierania, konwersji oraz integracji jest taki sam na rysunku 3 i na rysunku 4. Skąd więc jakiekolwiek oszczędności, skoro te same czynności muszą być wykonane w sytuacji z rysunku 3, jak i rysunku 4?

Wiele raportów

Odpowiedź jest prosta: gdyby tworzone były tylko pojedyncze raporty, utworzenie hurtowni danych faktycznie nie przyniosłoby żadnych oszczędności. Ale w rzeczywistości żadna korporacja nie opiera się tylko na pojedynczym raporcie. Korporacje potrzebują wielu raportów i wielu tabel.

Rysunek 5 przedstawia rzeczywiste potrzeby korporacji dotyczące raportowania.

Potrzeby korporacji dotyczące raportowania

Pokazuje, że korporacje działają z wieloma formami informacji. Problem polega na tym, że każdy raport potrzebuje własnego, unikatowego zbioru informacji. Innymi słowy, za każdym razem konieczne jest wykonanie odrębnego zestawu czynności, obejmującego:

  • lokalizowanie danych,
  • zbieranie danych,
  • konwersję/integrację danych,
  • łączenie danych.

Koszt każdego raportu jest zatem bardzo wysoki, jeśli źródłem danych jest tradycyjne środowisko.

Rozważmy teraz koszt tworzenia raportów przy obecności hurtowni danych. Rysunek 6 ilustruje takie właśnie okoliczności.

Zbieranie danych z hurtowni

Na rysunku 6 dane są zbierane w hurtowni danych. Dane, raz zebrane w hurtowni danych, są potem dostępne do opracowania wielu raportów. Wiele raportów jest tworzonych na podstawie danych z jednej hurtowni danych.

Istnieje więc jednorazowy koszt zebrania i zorganizowania danych w hurtownię danych. Przy raportowaniu dla potrzeb korporacji, ponosi się tylko koszty definiowania struktury i wyglądu raportu. A kiedy dane znajdują się w hurtowni danych, lokalizowanie, gromadzenie, integracja oraz łączenie danych wykonywane są tylko jednokrotnie. Ale jeśli w hurtowni danych nie ma danych, lokalizowanie, gromadzenie, integracja oraz łączenie danych muszą być wykonywane dla każdego raportu osobno. I to właśnie przez to hurtownia danych daje tak ogromne oszczędności kosztów.

Załącznik A zawiera prosty przykład kalkulacji, który pozwala obliczyć oszczędności wynikające ze zbudowania hurtowni danych.

Farmerzy i odkrywcy

Istnieje jeszcze jeden aspekt uzasadnienia kosztów hurtowni danych, który należy rozważyć. Ten aspekt to: dla kogo w korporacji hurtownia danych jest potrzebna na samym początku?

Aby odpowiedzieć na to pytanie, należy wziąć pod uwagę, że korporacja ma dwa bardzo różne rodzaje użytkowników – farmerów oraz odkrywców.

Farmer to ktoś, kto wie, czego chce, zanim wyruszy to odnaleźć. Farmer jest przewidywalny. Farmer z reguły znajduje to, czego szuka. Farmer wysyła małe zapytania. Farmer rzadko kiedy znajduje ogromne bryły informacji, ale farmer często znajduje małe okruchy złota.

Odkrywca bardzo różni się od farmera. Odkrywca to oryginalny, korporacyjny myśliciel. Odkrywca jest nieprzewidywalny. Odkrywca może przez sześć miesięcy nie wysyłać żadnych zapytań, a potem w jednym tygodniu wysłać ich bardzo wiele. Odkrywca wysyła za to bardzo duże zapytania. Często odkrywca, mimo starań, niczego nie znajduje. Ale czasami odkrywca znajduje bezcenną bryłę korporacyjnej wiedzy, która została przeoczona.

Istnieje więc bardzo istotna różnica między farmerami i odkrywcami, chociaż i jedni, i drudzy wykorzystują hurtownię danych.

Rysunek 7 ilustruje farmerów i odkrywców.

Farmerzy i odkrywcy

Kwestia uzasadnienia kosztów hurtowni danych jest bardzo silnie powiązana z obydwoma typami. Uzasadnianie kosztów dla hurtowni danych jest niemal zawsze analizowane na podstawie wyników uzyskanych przez farmerów, a nie przez odkrywców. Inaczej mówiąc, przeprowadzanie uzasadnienia kosztów hurtowni danych w oparciu o pracę odkrywców jest bardzo ryzykowne i nie jest zalecane.

Farmerzy i odkrywcy a uzasadnianie kosztów

Rysunek 8 pokazuje, że uzasadnianie kosztów hurtowni danych najlepiej jest przeprowadzać dla farmerów, a nie odkrywców.

Rysunek 8 pokazuje, że uzasadnianie kosztów hurtowni danych najlepiej jest przeprowadzać dla farmerów, a nie 
odkrywców.

Dlaczego uzasadnienia kosztów hurtowni danych nie przeprowadza się dla odkrywców? Odpowiedź jest prosta: w przypadku odkrywców nigdy nie wiadomo, jaki wynik się uzyska. Jeśli przypadkowo wyruszy on na poszukiwanie danych i uzyska spektakularny wynik, zarząd firmy będzie przychylny dla kwestii finansowania hurtowni danych. Ale jeśli po wyruszeniu na poszukiwania nie uzyska się żadnego rezultatu, zarząd nie będzie skłonny płacić za hurtownię danych. W przypadku odkrywców nigdy nie wiadomo, jaki będzie wynik. Są duże szanse, że za pierwszym razem odkrywca niczego nie znajdzie.

Zarząd nie lubi popierać postrzeganych jako przegranych. A zatem przy uzasadnianiu kosztów hurtowni danych trzeba oprzeć się na oczekiwaniach farmerów, a nie odkrywców. Oczywiście niektóre firmy rozumieją ryzyko. Wówczas hurtownie danych mogą być uzasadniane również na podstawie oczekiwań odkrywców. Jednak poza tym opieranie uzasadnienia hurtowni danych na odkrywcach jest bardzo ryzykowne.

Zbiorcze bazy danych oraz hurtownia danych

Kwestią równie istotną dla uzasadnienia kosztów hurtowni danych jest to, czy korporacja powinna zbudować hurtownię danych, czy zbiorczą bazę danych. Aby to lepiej zrozumieć, musimy najpierw wiedzieć czym jest hurtownia danych, a czym jest zbiorcza baza danych i czym się one różnią.

Zbiorcza baza danych ma strukturę działową i z reguły zawiera działy: finansowy, handlowy, marketingowy, księgowy i tak dalej. Dane w zbiorczych bazach danych są uporządkowane pod kątem uzyskania optymalnego dostępu przez różnych użytkowników zbiorczej bazy danych. Hurtownia danych natomiast tym się strukturalnie różni od zbiorczej bazy danych, że zaspokaja potrzeby całej korporacji. Hurtownie danych to prawdziwie korporacyjna struktura, zaspokajająca wiele różnych potrzeb.

Rysunek 9 pokazuje architektoniczne uporządkowanie danych w zbiorczych bazach danych oraz w hurtowniach danych. Jak widać, zbiorcze bazy danych otrzymują dane z hurtowni danych, zaś hurtownie danych otrzymują dane od tradycyjnych aplikacji.

Rysunek 9 pokazuje architektoniczne uporządkowanie danych w zbiorczych bazach danych oraz w hurtowniach danych.

Istnieje wiele zasadniczych różnic między zbiorczymi bazami danych oraz hurtowniami danych − rysunek 10 obrazuje kilka najważniejszych, gdzie widzimy, że hurtownia danych zawiera dane korporacyjne, dane szczegółowe oraz dane znormalizowane. Normalizacja danych pozwala danym w hurtowniach danych obsługiwać wszystkich użytkowników. Natomiast dane w zbiorczych bazach danych są streszczone i nieznormalizowane, co pozwala zaspokajać potrzeby działu, ale nie całej korporacji.

Zbiorcze bazy danych oraz hurtownie danych

Dane w hurtowni danych zawierają głęboko sięgającą i obszerną historię, z reguły do pięciu do dziesięciu lat. Zbiorcze bazy danych zawierają historię ograniczoną – od jednego miesiąca do roku. Jeśli w zbiorczej bazie danych jest dłuższa historia, musi być przechowywana na poziomie podsumowania.

Zbiorcze bazy danych oraz 
hurtownie danych

Hurtownia danych zawiera ogromne ilości danych – zwykle do kilku terabajtów. Zbiorcza baza danych zawiera znacząco mniej danych − około 5GB do 50GB.

Hurtownia danych jest projektowana głównie na podstawie modelu danych. Korporacyjny model danych odzwierciedla potrzeby korporacji w dziedzinie informacji. Zbiorcze bazy danych odzwierciedlają jedynie specyficzne potrzeby danego departamentu. Inne zastosowania zbiorczej bazy danych oraz sposoby korzystania z danych przez użytkownika kształtują projekt zbiorczej bazy danych. Zbiorcza baza danych jest więc kształtowana potrzebami, podczas gdy hurtownia danych jest kształtowana danymi.

Hurtownia danych jest uniwersalna, może obsługiwać kolejno różnych użytkowników i umożliwia spojrzenie na dane pod jednym kątem, a chwilę potem – pod innym. Zbiorcze bazy danych pozwalają na optymalne oglądanie danych tylko w jeden sposób i przez jedną grupę ludzi – na przykład z działu finansowego, podczas gdy korzystanie z tych danych dla wszystkich innych – księgowości, handlowców, marketingu itd. – nie będzie optymalnie dostępne.

Hurtownia danych jest oparta na ogólnej, uniwersalnej technologii DBMS − podstawowym celem tej technologii jest obsługiwanie dużych ilości danych. Zbiorcza baza danych natomiast oparta jest na technologii optymalizującej dostęp oraz analizowanie przez użytkownika końcowego. Zwykle zbiorcza baza danych oparta jest na technologii wielowymiarowej lub innej technologii przydatnej użytkownikowi przy tworzeniu raportów i analiz.

Poza tym istnieje cała grupa architektonicznych różnic między hurtownią danych oraz zbiorczą bazą danych.

Które tworzyć najpierw?

Często powtarzanym pytaniem jest: co tworzyć najpierw – hurtownię danych, czy zbiorczą bazę danych? Czy po stworzeniu zbiorczej bazy danych w ogóle trzeba tworzyć hurtownię danych?

Tak naprawdę możliwe jest stworzenie zbiorczej bazy danych bez tworzenia hurtowni danych. A dostawcy zbiorczych baz danych bardzo zachęcają do takiego układu.

Rysunek 11 pokazuje, że tworzenie 
zbiorczej bazy danych bez hurtowni danych jest rzeczywiście możliwe.

Rysunek 11 pokazuje, że tworzenie zbiorczej bazy danych bez hurtowni danych jest rzeczywiście możliwe. Na rysunku widzimy kilka tradycyjnych systemów dostarczających dane do zbiorczej bazy danych. Taka konfiguracja da się względnie prosto uzyskać. I jeśli istnieje tylko jedna lub dwie zbiorcze bazy danych, taka propozycja jest do przyjęcia. Ale problem tkwi w tym, że korporacja nigdy nie tworzy tylko jednej lub dwóch zbiorczych baz danych, gdyż istnieje w niej wiele działów organizacji potrzebujących własnych zbiorczych baz danych:

  • dział marketingu
  • dział handlowy
  • dział finansowy
  • dział księgowy
  • dział socjalny
  • dział techniczny
  • dział produkcji
  • dział personalny

i tak dalej. Nie jest więc rozsądnie zakładać, że organizacja będzie posiadała tylko jedną zbiorczą bazę danych. A zatem prosty diagram z rysunku 11 może być prawdziwy tylko przez krótki czas, kiedy korporacja tworzy i używa jedną zbiorczą bazę danych. Bardzo szybko diagram z rysunku 11 przestaje być aktualny.

Wiele zbiorczych baz danych

W miarę jak korporacja się rozrasta, diagram z rysunku 11 zamienia się w diagram z rysunku 12.

Na rysunku 12 widać, że istnieje 
już wiele źródeł danych i wiele zbiorczych baz danych.

Na rysunku 12 widać, że istnieje już wiele źródeł danych i wiele zbiorczych baz danych. Interfejs pomiędzy zbiorczymi bazami danych oraz systemami źródłowymi robi się bardzo złożony, co komplikuje dalsze prace. Jeśli istnieje m źródeł danych i n zbiorczych baz danych, potrzeba będzie m x n programów-interfejsów.

Poza tym istnieją jeszcze inne problemy związane z architekturą z rysunku 12. Ilość szczegółowych informacji wśród różnych zbiorczych baz danych jest naprawdę znacząca. Poza tym każda zbiorcza baza danych zbiera i przechowuje wiele szczegółowych informacji pokrywających się z danymi każdej innej zbiorczej bazy danych. Wynikiem jest ogromna duplikacja szczegółowych danych pomiędzy zbiorczymi bazami danych.

Ale największą wadą architektury z rysunku 12 jest brak możliwości uzgadniania danych. Na pytanie zarządu o wielkość dochodu w ostatnim kwartale, dział finansowy odpowie − 10 milionów, dział handlowy − 12 milionów, a marketing − 15 milionów. To prawdziwy koszmar dla zarządu próbować podejmować decyzje przy nierozwiązywalnym konflikcie informacji.

Centryczna architektura hurtowni danych

Alternatywą dla architektury złożonej wyłącznie ze zbiorczych baz danych pokazanej na rysunku 12 jest architektura zawierająca i zbiorcze bazy danych, i hurtownię danych – pokazana na rysunku 13.

Architektura zawierająca i zbiorcze bazy danych, i hurtownię danych

Na rysunku 13 widzimy systemy źródłowe oraz zbiorcze bazy danych. Ale jest tam także hurtownia danych. Różne systemy źródłowe dostarczają dane do hurtowni danych. Z danych z hurtowni danych tworzone są zbiorcze bazy danych. Ale istnieje kilka zaskakujących różnic między architekturami z rysunku 12 i rysunku 13. Architektura oparta na hurtowni danych potrzebuje minimalnej liczby programów-interfejsów. W przypadku m systemów źródłowych oraz n aplikacji liczba niezbędnych programów-interfejsów to m + n (w przeciwieństwie do m x n, jak przy architekturze na rysunku 12).

Nie ma potrzeby, żeby każda zbiorcza baza danych przechowywała nadmiar szczegółowych danych. Takie dane zawiera hurtownia danych. Na rysunku 13 każda zbiorcza baza danych opiera się na hurtowni danych w celu utworzenia swoich pogrupowanych i streszczonych danych. Znacznie, znacznie mniej danych znajduje się na rysunku 13 niż na rysunku 12.

Także uzgadnianie danych jest łatwe dzięki hurtowni danych. Jeśli dwa lub więcej działów ma niezgodne wyniki, jest hurtownia danych, dzięki której można uzgodnić różnice.

Tak więc istnieją zasadnicze różnice między architekturą opartą na zbiorczych bazach danych oraz architekturą opartą na hurtowni danych.

Różnice te ilustruje rysunek 14.

Różnice między architekturą opartą na zbiorczych bazach danych oraz architekturą 
opartą na hurtowni danych

Różnica kosztów

Jakie są różnice w kosztach między architekturą złożoną wyłącznie ze zbiorczych baz danych a architekturą z hurtownią danych?

W załączniku B te różnice zostały wyliczone.

Tworzenie hurtowni danych

Jednym z fałszywych twierdzeń głoszonych przez sprzedawców zbiorczych baz danych jest twierdzenie, że hurtownie danych muszą być tworzone „za jednym zamachem”. Przy takim podejściu stworzenie hurtowni danych faktycznie staje się niemożliwe. Ale przy prawidłowym podejściu hurtowni danych nie tworzy się w taki sposób. Zorientowani w temacie praktycy zajmujący się hurtowniami danych od początku ostrzegali przed podejściem typu „wielki wybuch” przy tworzeniu hurtowni danych. Fachowcy ci zawsze doradzali podejście iteracyjne.

Przy takim podejściu pierwsza część hurtowni danych jest szybko tworzona i zapełniana, następnie budowana i zapełniana jest kolejna część hurtowni danych, i tak dalej. Przez cały proces tworzenia użytkownik końcowy może używać hurtowni danych i przekazywać swoje opinie jej twórcom.

Rysunek 15 obrazuje iteracyjne podejście do tworzenia hurtowni danych.

Iteracyjne 
podejście do tworzenia hurtowni danych

Na rysunku 15 widzimy, jak tworzona jest pierwsza część hurtowni danych. Potem projektowana i zapełniana jest następna część hurtowni danych, później następna i tak dalej. Tworzenie całej hurtowni danych „za jednym zamachem” jest całkowicie sprzeczne z podstawowymi zasadami tworzenia hurtowni danych.

Uzasadnienie kosztów oparte na działalności firmy

Sposoby wyliczenia kosztów stworzenia i eksploatacji hurtowni danych poprzednio skupiały się na kosztach „zaplecza”, tych widzianych przez developera IT. Ale istnieje też całkowicie inny sposób podejścia do kwestii uzasadnienia kosztów hurtowni danych, opartego na działalności firmy.

Jeśli hurtownia danych jest efektywna, pozwala firmie na:

  • utrzymanie i zwiększenie udziału w rynku,
  • maksymalizowanie zyskowności,
  • zminimalizowanie wydatków.

Ponieważ hurtownie danych potencjalnie są w stanie umożliwić osiągnięcie tych bardzo korzystnych celów, powinno być też możliwe określenie wartości hurtowni danych na podstawie zmian powyższych mierników.

Weźmy pod uwagę zmienną mierzoną przez każdą korporację, tzn. przychód w danym okresie czasu. Rysunek 16 pokazuje przykładowe liczenie wielkości przychodu w pewnym okresie czasu.

Przykładowe liczenie wielkości przychodu w pewnym okresie czasu

Przypuśćmy teraz, że do korporacji w pewnym momencie czasu wprowadzono hurtownię danych. Na rysunku 17 ten moment został wyróżniony (i dalej mówimy o nim jako o punkcie n).

Punkt wprowadzenia hurtowni danych

Administrator hurtowni danych przeprowadza dla zarządu ekstrapolację w celu pokazania faktycznego przychodu oraz możliwości zwiększenia przychodu dzięki informacjom uzyskiwanym z hurtowni danych. W taki sposób można przedstawić wyliczalny argument uzasadniający koszty hurtowni danych.

Ale istnieje też kilka poważnych problemów związanych z tym argumentem, niezależnie od tego, jak bardzo jest prawdziwy, na przykład:

  • zwiększenie przychodu od punktu n w czasie mogło być spowodowane wprowadzeniem nowego produktu,
  • zwiększenie przychodu od punktu n w czasie mogło być spowodowane zmianami w gospodarce,
  • zwiększenie przychodu od punktu n w czasie mogło być spowodowane zmianą stóp procentowych,
  • zwiększenie przychodu od punktu n w czasie mogło być spowodowane wycofaniem linii produktów przez konkurencję, i tak dalej.

Problem jest taki, że wszystkie powyższe czynniki mogą wpłynąć na zwiększenie przychodu.

Może i faktycznie hurtownia danych przyczyniła się do istotnego zwiększenia przychodu, ale może jednocześnie być tyle innych istotnych czynników wpływających na wysokość przychodu, że wyliczenie efektów hurtowni danych może być praktycznie niemożliwe.

Specjalne aplikacje

Innym podejściem do wyliczenia wpływu hurtowni danych na działalność firmy jest stworzenie specjalnych aplikacji wykorzystujących hurtownie danych jako podstawę swego działania. Wyniki działania takich aplikacji mogą być łatwo wyliczone. Na przykład jedną z popularnych skoncentrowanych na hurtowniach danych aplikacji jest CRM (zarządzanie relacjami z klientami – ang. customer relationship management). CRM wykorzystuje hurtownię danych m. innymi do stworzenia pełnej historii sprzedaży i podstaw informacji o cechach klientów.

Niektóre z widoków znajdowanych w typowych aplikacjach CRM znajdują się na rysunku 18.

Niektóre z widoków 
znajdowanych w typowych aplikacjach CRM

Po stworzeniu CRM z łatwością można wyliczyć:

  • jak wielu nowych klientów włączono do systemu,
  • jak duży zysk przynieśli nowi klienci,
  • jakimi produktami interesują się ci nowi klienci,
  • jak często dany klient kontaktuje się z firmą, i tak dalej.

Za pomocą specjalnych aplikacji opartych na hurtowniach danych można więc wyliczyć wpływ hurtowni danych na interesy firmy.

Rysunek 18 pokazuje kilka prostych, typowych metod oceny systemu.

Podwójny efekt

Aplikacje opierające się na hurtowni danych są dobrą metodą wyliczenia wpływu hurtowni danych, ale warto zauważyć, że te aplikacje są w stanie zmierzyć tylko część wartości hurtowni danych. Hurtownia danych zawsze obniża koszt uzyskiwania informacji. A zatem korzyści z hurtowni danych to ZARÓWNO oszczędności, zasygnalizowane na początku niniejszego artykułu, JAK I zyski firmy uzyskane dzięki aplikacjom zbudowanym wokół hurtowni danych.

W każdym razie żaden z tych scenariuszy nie dotyczy przydatności hurtowni danych dla odkrywców. Możliwość odkrywania jest pozytywnym skutkiem ubocznym utworzenia hurtowni danych. O ironio, w przypadku sukcesu odkrywania potencjalne korzyści są znacznie większe od omawianych.

Podsumowanie

Niniejszy artykuł przeglądowy dotyczy wyliczania zysków płynących z hurtowni danych oraz zbiorczych baz danych dla korporacji.

Pierwszym uzasadnieniem kosztów hurtowni danych jest wyliczenie ogólnych kosztów wykorzystywania informacji. W przypadku braku hurtowni danych każda prośba o informacje, zanim zostanie spełniona, wymaga zgromadzenia, zintegrowania oraz połączenia i podsumowania danych. Ale jeśli istnieje hurtownia danych, dane są gromadzone, integrowane i łączone tylko raz. Gdy hurtownia danych znajdzie się na miejscu (zostanie wdrożona), raporty można tworzyć szybko i efektywnie.

Ogólny koszt korzystania z informacji korporacji dotyczy farmerów, nie odkrywców. Odkrywcy w celu zdobycia informacji poruszają się po losowych ścieżkach, których w żaden sposób nie można zoptymalizować za pomocą jakiegoś wstępnego uporządkowania danych. A zatem ekonomika dostępu do danych w hurtowni danych dotyczy wyłącznie farmerów używających przewidywalnych ścieżek dostępu.

Drugie uzasadnienie dotyczy tego, jak efektywność i ekonomika przechowywania danych ma się do różnic między hurtowniami danych a zbiorowymi bazami danych. Tam, gdzie jest hurtownia danych, tam jest także okazja do szybkiego i efektywnego stworzenia zbiorowych baz danych. Ale tam, gdzie nie ma hurtowni danych, każda nowa zbiorcza baza danych wymaga stworzenia kolejnej takiej samej konstrukcji, łączącej ze środowiskiem tradycyjnych aplikacji, jak poprzednia zbiorcza baza danych. Patrząc na to z długoterminowej perspektywy, stworzenie hurtowni danych umożliwia też tworzenie zbiorczych baz danych.

Trzecie podejście do kosztu to zmierzenie zysków uzyskanych dzięki hurtowni danych z punktu widzenia interesów firmy. Hurtownia danych zawiera integrowane i historyczne dane. Dla firmy wykorzystanie dla własnych korzyści zintegrowanych, historycznych danych dzięki zwiększeniu udziału na rynku i zmniejszeniu kosztów to całkiem prosta sprawa.

Załącznik A

Obliczanie wpływu hurtowni danych na dostęp do informacji:

1. Ile źródeł (aplikacji) zaspokaja zapotrzebowanie na raporty i tablice?

1.a____ Ile (średnio) baz danych/plików/zbiorów danych znajduje się w systemach źródłowych (aplikacjach)?

1.b____ DS – różne źródła = 1.a x 1.b____

2. Jaki jest koszt lokalizowania informacji źródłowych na potrzeby tworzenia raportów oraz tablic?

2.a____ (domyślnie = $ 1000)

Jaki jest koszt napisania kodu do zbierania informacji źródłowych?

2.b____ (domyślnie = $ 10 000)

Jaki jest koszt konwersji/integracji informacji źródłowych?

2.c____ (domyślnie = $ 10 000)

Jaki jest koszt łączenia danych po konwersji?

2.d____ (domyślnie = $ 1000)

GC – koszt zbierania danych z konkretnego źródła = 2.a x 2.b x 2.c x 2.d

3. Jaki jest koszt stworzenia raportu lub tablicy?

3.a____ (domyślnie = $ 2500)

CR - 3.a

4. Ile raportów/tablic będzie potrzebowała firma w ciągu najbliższych pięciu lat?

4.a____

RS - 4.a

5. Obliczyć koszt infrastruktury hurtowni danych. Określić docelowy rozmiar hurtowni danych w gigabajtach i pomnożyć przez $ 7500 (wartość z roku 2000).

5.a____

DWC - 5.a

6. Obliczyć koszt raportowania z tradycyjnych/działających aplikacji.

KOSZT RAPORTÓW = DS x (GC + CR) x RS

7. Obliczyć koszt raportowania z hurtowni danych.

KOSZT RAPORTÓW NA BAZIE HURTOWNI = (DS x GC) + (CR x RS) + DWC

Zwykle koszt raportowania z aplikacji tradycyjnych wychodzi tak wysoki, że żadna rozsądna firma nie chciałaby wydawać takiej sumy. I rzeczywiście takiej sumy nie wydają. Zamiast tego użytkownicy końcowi są sfrustrowani tym, że nigdy nie otrzymują potrzebnych informacji.

Dlatego właśnie mówi się, że firmy bez hurtowni danych są bogate w dziedzinie danych, ale ubogie w dziedzinie informacji.

Załącznik B

Obliczanie, czy jako pierwsza powinna być tworzona hurtownia danych, czy zbiorcza baza danych (i czy w ogóle warto tworzyć hurtownię danych).

1. Ile istnieje źródeł (aplikacji) dostarczających dane do hurtowni danych/zbiorczych baz danych?

1.a____ Ile (średnio) baz danych/plików/zbiorów danych znajduje się w systemach źródłowych (aplikacjach)?

1.b____ DS – różne źródła = 1.a x 1.b____

2. Ile zbiorczych baz danych będzie na dłuższą metę potrzebnych?

2.a____ (domyślnie = 10) DM - 2.a

3. Ile programów-interfejsów będzie potrzebnych?

IP - DM x DS

4. Jaki jest koszt stworzenia przeciętnego programu-interfejsu?

4.a_____ (domyślnie = $ 20 000)

AIP - 4.a

5. Obliczyć koszt infrastruktury hurtowni danych. Określić docelowy rozmiar hurtowni danych w gigabajtach.

5.a____ Pomnożyć gigabajty przez $ 7500 (wartość z roku 2000).

DWC - 5.a x 7500

6. Obliczyć koszt szczegółowych nadmiarowych danych, które będą znajdowały się w każdej zbiorczej bazie danych. Każda zbiorcza baza danych będzie miała połowę szczegółowych danych znajdujących się w hurtowni danych.

6.a____ = 5.a / 2.

7. Oszacować liczbę gigabajtów szczegółowych nadmiarowych danych w przeciętnej zbiorczej bazie danych. Teraz pomnożyć to przez $ 7500 (wartość z roku 2000).

6.a = 5.a x 7’500

DMRD - 6.a

8. Obliczyć koszt środowiska skupiającego się wokół zbiorczych baz danych.

(IP x AIP) + (DM x DMRD)

9. Obliczyć koszt środowiska skupiającego się wokół hurtowni danych.

((DS + DM) x AIP) + DWC

Spis treści

Autor: W. H. Inmon


Komentarze 0 Masz uwagi do tej strony? Napisz

Dodaj komentarz

avatar

Zaloguj się lub Zarejestruj się aby wykonać tę czynność.

Autor Jacek Kolonko
avatar VIP
 

What do you want to write today? ;)

Załóż konto
WSS to serwis, który łączy dziesiątki tysięcy specjalistów IT w Polsce, zajmujących się szeroko pojętymi technologiami Microsoft. Portal działa od 2003 roku, i oprócz setek publikacji technicznych, rozwijającego się forum - portal to ludzie, którzy go tworzą. To właśnie z myślą o nich warto codziennie nas odwiedzać.

Dowiedz się więcej o WSS

vGuru - Zostań Guru Wirtualizacji

 

MetroOne

Idź na górę strony