Microsoft SQL Server 2000 ma wbudowane dwa algorytmy przeznaczone do
eksploracji danych (data mining) - Microsoft Decision Trees (MDT) oraz Microsoft
Clustering.
Algorytm drzew decyzyjnych MDT pozwala m. innymi odkryć czynnik, który ma
największy wpływ na przewidywaną wartość. Doskonale potrafi np. wybrać z cech
klienta te, które określają największe prawdopodobieństwo że dany kredyt nie
zostanie w danym czasie spłacony. Może też pozwolić wykryć przyczynę wadliwego
działania urządzenia, czy umożliwi zlokalizowanie cechy, która najlepiej
charakteryzuje klientów kupujących dany towar.
Algorytm tworzenia klastrów jest iteracyjną metodą (bazującą na algorytmie EM),
która pozwala grupować rekordy wg. przewidywalnej charakterystyki. Algorytm
pozwoli stworzyć grupy klientów o podobnym zachowaniu, czy zbadać rozkład
demograficzny by określić strategię marketingową.
Jednak tego typu analiza wymaga zwykle dużej mocy obliczeniowej. W omawianym
artykule analizowane są główne czynniki mające wpływ na wydajność każdego z
algorytmów. Przedstawiane są też zasady w jaki sposób warto konstruować dane
źródłowe (treningowe) do algorytmów eksploracji danych tak by cały proces trwał
jak najkrócej. Warto też zauwazyć, że część problemów można rozwiązać zarówno
algorytmem MDT, jak i Microsoft Clustering - w artykule omówione są zasady,
kiedy warto wybrać konkretny algorytm.
Pełna treść artykułu (w języku angielskim) znajduje się tutaj