Techniki „Data Mining”

Eksploracja danych nie jest nowym wynalazkiem, który pojawił się w erze cyfrowej. Ta koncepcja istnieje od ponad wieku, ale w latach 30. XX wieku stała się bardziej publiczna. Eksploracja danych to proces odkrywania wzorców w dużych zestawach danych obejmujących wykorzystywanie algorytmów (zwane często tajemniczo "uczeniem maszynowym"),  statystyki i systemów baz danych. Pojęcie „eksploracja danych” jest mylące, ponieważ celem jest ekstrakcja wzorców i wiedzy z dużych ilości danych, a nie ekstrakcja samych informacji. Szukamy najczęściej wzorca nie gotowej informacji. Jest to również modne, pojemne hasło i jest często stosowane do dowolnej formy przetwarzania danych lub informacji.

Przejdźmy zatem przez spis najczęściej używanych technik stosowanych w eksploaracji danych („data mining”). Sam temat „data mining” jest na tyle pojemny że można by napisać o nim co najmniej kilka stron. Na nasze potrzeby przyjmijmy, że jest to po prostu praca z danymi. A w tej pracy stosujemy najczęściej techniki wymienione poniżej w akapicie „Techniki Data Mining”.

Mając ogólne pojęcie co kryje się za daną metodą pracy z danymi, przejdziemy do zastosowania tej wiedzy w praktyce. W innym artykule, „Machine learning na przykładach", pojawią się konkretne przypadki zastosowania algorytmów do rozwiązania z życia wziętych problemów i odpowiedzi na często stawiane pytania w biznesie.

1. Predykcja (prediction)

Klasyfikacja i Regresja to techniki eksploracji danych wykorzystywane do rozwiązywania podobnych problemów. Oba są używane w analizie predykcyjnej, ale regresja jest używana do przewidywania wartości numerycznej lub ciągłej, podczas gdy klasyfikacja używa etykiet by przypisać dane do odrębnych kategorii (klas).

Klasyfikacja

Klasyfikacja to przypisanie obiektu do określonej klasy na podstawie jego podobieństwa do poprzednich przykładów innych obiektów. Zazwyczaj klasy wzajemnie się wykluczają.

Przykładowym pytaniem klasyfikacyjnym byłoby „Którzy z naszych klientów odpowiedzą na naszą ofertę” i stworzenie dwóch klas: „zareagują na ofertę” oraz „odrzucą ofertę”.

Inny przykładowy model klasyfikacji - ryzyko kredytowe. Mogłoby zostać opracowane na podstawie obserwowanych danych dla wnioskodawców kredytowych w pewnym okresie czasu. Możemy śledzić historię zatrudnienia, posiadanie domu lub wynajem, długość zamieszkania, rodzaj inwestycji i tak dalej. Docelowymi klasami byłby rating kredytowy; np. „niski” i „wysoki”.

Atrybuty (np. historia zatrudnienia) nazwiemy mądrze „predyktorami” (albo „zmiennymi niezależnymi” a docelowe zmienne „zmiennymi zależnymi” lub po prostu „klasami”. Klasyfikacja należy do ‘nadzorowanych’ metod. Czym są metody nadzorowane czytaj w „Metody nadzorowane i metody nienadzorowane" poniżej.

Regresja

Regresja to „szacowanie wartości”. Jest to określenie związku pomiędzy różnymi wielkościami i na tej podstawie próbowanie oszacowania („przewidzenia”) nieznanych wartości. Na przykład: skoro znamy obrót firmy z poprzedniego roku, miesiąc po miesiącu, i znamy wydatki na reklamę w każdym miesiącu poprzedniego roku to jesteśmy w stanie, zakładając wydatkowanie pewnej kwoty na reklamę w następnym roku, oszacować wielkość przychodu.

Innym pytaniem na które możemy poznać odpowiedź używając regresji może być „Jak często  dany klient skorzysta z usługi?”

2. Współwystępowanie i połączenia

Odkrywanie grup lub odkrywanie asocjacji próbuje znaleźć powiązania między obiektami bazując na transakcjach tych obiektów. Dlaczego chcemy znaleźć takie wystąpienia? Reguły asocjacji podpowiedzą nam „klienci, którzy kupili nowy eWatch, kupili także głośnik Bluetooth.” Algorytmy wyszukiwania wzorców sekwencji mogą sugerować jak powinna być zorganizowana akcja serwisowa czy obsługa klienta.

Asocjacja

Asocjacja to metody odkrywania interesujących zależności lub korelacji, nazywanych ogólnie asocjacjami, pomiędzy danymi w zbiorach danych. Relacje między elementami są wyrażone jako reguły asocjacji. Reguły asocjacyjne są często używane do analizy transakcji sprzedaży. Na przykład można zauważyć że, „klienci, którzy kupują płatki zbożowe w sklepie spożywczym, często kupują mleko w tym samym czasie” (eureka!).

Na przykład w e-commerce reguły asocjacji mogą być używane do personalizacji stron internetowych. Model asocjacyjny może odkryć że, „użytkownik odwiedzający strony A i B może w 70% odwiedzić także stronę C w tej samej sesji”. Na podstawie tej reguły można utworzyć dynamiczne łącze dla użytkowników, którzy mogą być zainteresowani stroną C.

Wyszukiwanie wzorców

Wyszukiwanie wzorców (patterns), częściej konkretnie wzorców sekwencyjnych (sequential patterns), to wyszukiwanie uporządkowanych sekwencji. Ważna jest kolejność sekwencji między elementami. Wyszukane wzorce prezentowane są w kolejności ‘wsparcia’ czyli częstotliwości wystąpienia danego wzorca w zbiorze elementów w stosunku do ilości rozważanych transakcji.

3. Klastrowanie

Klastrowanie (clustering) to grupowanie obiektów o podobnych właściwościach. W wyniku tej operacji powstaje klaster lub klasa. Klastrowanie może udzielić nam odpowiedzi na pytanie „czy nasi klienci tworzą grupy lub segmenty?” I w konsekwencji „jak powinny wyglądać nasze zespoły obsługi klienta (lub zespoły sprzedaży) by do nich się dostosować?”.

Klastrowanie, podobnie jak klasyfikacja, służy do segmentowania danych. W przeciwieństwie do klasyfikacji, grupowanie modeli w segmenty dzieli dane na grupy, które nie były wcześniej zdefiniowane.

Klastrowanie należy do ‘nienadzorowanych’ metod. Czym są metody nienadzorowane czytaj w ‘Metody nadzorowane i metody nienadzorowane’ poniżej.

Metody nadzorowane i metody nienadzorowane.

Inaczej uczenie nadzorowane i uczenie nienadzorowane. W uczeniu nadzorowanym stawiamy konkretny cel – spodziewamy się określonego wyniku. Na przykład:

„Czy możemy znaleźć grupy klientów, którzy mają szczególnie wysokie prawdopodobieństwo anulowania ich usługi wkrótce po wygaśnięciu ich umów? ”

Albo:

„Podzielmy klientów ze względu na ryzyko niewypłacalności; małe, średnie, duże.”

Przykłady metod nadzorowanych to klasyfikacja i regresja. Używane tutaj często algorytmy to decision tree, logistic regression, random forest, support vector machine, K-nearest neighbors.

W uczeniu nienadzorowanym nie stawiamy sobie konkretnego celu – nie spodziewamy się określonego wyniku docelowego. Stawiane tutaj pytania to np:

„Czy nasi klienci tworzą różne grupy?”

Przykłady metod nienadzorowanych to grupowanie (clustering) i korelacja (association). W przenośni nauczyciel „nadzoruje” ucznia starannie dostarczając informacje o celu wraz z zestawem przykładów. Nienadzorowane zadanie edukacyjne może obejmować ten sam zestaw ćwiczeń ale nie zawiera informacji o celu - uczący się nie otrzyma informacji o celu nauki ale ma sformułować własne wnioski z informacji, które otrzymał.

Po prostu algorytmy

Cała tajemniczość „maszin lerning” narodziła się z braku łatwego dostępu do funkcji/algorytmów, które wykonują pracę opisaną powyżej. Same narzędzie są dostępne na rynku od lat. Co więcej, są często darmowe! By jednak z nich korzystać potrzebna jest choćby podstawowa wiedza z zakresu baz danych, programowania, języka SQL, parsowania plików – dane najczęściej wymagają sformatowania do odpowiedniej postaci, by móc z nich skorzystać.

Wszystkie te obliczenia możliwe są dzięki odpowiednim algorytmom. Większość z tych obliczeń mogła być dokonana dekady a nawet więcej lat wcześniej(!). Algorytm regresji ma ponad dwa wieki (jego początki to rok 1805). Algorytm j48 używany do klasyfikacji ma swoje korzenie w entropii informacji – praca Claude Shannon z roku 1948. Mamy algorytmy jeszcze starsze – k-means grupujący obiekty, bazuje na idei odległości euklidesowej która, wywodzi się ze starożytnej geometrii greckiej.

Jeśli ktoś miałby robić tu „lerning” to z pewnością nie maszyny ale człowiek. Komputer, jako doskonała maszyna licząca, policzy w sekundę to, co człowiek robiłby tygodniami. Nie nastąpiła żadna rewolucja w nauce – zyskaliśmy dostęp do szybkich maszyn liczących. Jeśli „maszin lerning” jest bazą „sztucznej inteligencji” to jak wygląda ona sama?

Eksploracja danych jest rzemiosłem. Polega na zastosowaniu znacznej ilości nauki i technologii, ale właściwe zastosowanie nadal obejmuje również sztukę. Żadna maszyna nie dobierze atrybutów w tak właściwy sposób jak zrobi to człowiek. Np. w handlu detalicznym atrybut „częstotliwość zakupów” może być bardziej miarodajny niż w relacjach B2B. W Stanach Zjednoczonych istnieją zawody w eksploracji danych (Data Mining Cup, GE-NFL Head Health Challenge, GEQuest) a nagrody za rozwiązanie konkretnych problemów ludzkości są bardzo wysokie (np. 10 milionów dolarów w wyzwaniu GE-NFL Head Health Challenge).