Postgres-Pentaho PDI PowerPack
Bazy danych oferują potężną moc błyskawicznego przetwarzania ustrukturyzowanych danych. Wszelkie obliczenia, poszukiwanie informacji, łączenie danych, wybieranie właściwych danych ze zbiorów dzięki bazom danych można wykonać znacznie szybciej niż z użyciem innych formatów. Ale bazy danych, jezyk SQL, nie jest tak elastyczny jak typowe języki programowania. Bazy danych nie oferują też najczęściej tak wygodnego, intuicyjnego GUI jakie oferują narzedzia typu ETL. Jest jeszcze inny problem do pokonania; tworzenie wyrafinowanych, szybko działających, zapytań czy procedur w językach baz danych wymaga ekspeckiej wiedzy którą nabywa się latami. Na szczęście istnieje możliwość połączenia tych dwóch technologii w jednym rozwiązaniu.
Elasticsearch w 15 minut
Początki z ElasticSearch są trudne dla nowincjuszy w temacie. Nie pomagają twórcy ktorzy reklamują swoj produkt (a raczej ich kilka) jako "narzędzie do analizy logów". Co może kreować błędną opinie że jest to system "dla informatyków". Tymczasem Elastic Stack (w skrócie Elk) to oprogramowanie które znakomicie nadaje się do przetwarzania danych w biznesie. Jeśli uświadomimy sobie że dane sprzedażowe, rejestry faktur, aktywności naszych klientów są właśnie "logami", szybko zrozumiemy że możemy zastosować ELK w naszej pracy.
Co to jest Elasticsearch?
Elasticsearch jest bazą danych. Jak MySQL, MSSQL, Posgres. Większość z nas wie do czego służy baza danych - nie miejse by to opisywać. Elasticsearch pełni właśnie taką rolę w środowisku ELK; przechowuje dane. Warto tylko wspomnieć że Elasticsearch jest bazą typy NoSQL. To oznacza wiele zalet ale też i ograniczeń. Wbrew ludowym legendom, Elasticsearch nie ma nadzwyczajnych możliwości precyzyjnego wyszykiwanie danych (nie jest to Google) - lepsze rezultaty osiągniemy w SQL. Potęga Elastic to błyskawiczne docieranie do wybranego zakresu danych czy agregacja danych spośrod dziesiątków milionów rekordów. Z samym Elasticsearch niewiele zdziałasz. Będziesz potrzebować interfejsu do bazy danych by nią zarządzać i wizualizować dane. Czyli Kibany. Potrzebować też będziesz narzędzia by załadować dane - Logstash.
Optyczne rozpoznawanie znaków (OCR) w Pentaho
Koncept
Pentaho PDI jest idealnym narzędziem do przetwarzania plików, formatowania danych, ekstrakcji informacji, separowania danych w zależności od ich przeznaczenia. Idealne narzędzie by użyć go do zarządzania dokumentami - np. stworzyć system do obiegu faktur. Jednak jednej rzeczy Pentaho nie ma - optycznego rozpoznawania znaków. A dokumenty często są w formie obrazów. Musimy dokonać OCR'owania by odczytać daty, nazwy, numery. Czy istnieje jakiś sposób by sobie z tym poradzić? Tak, istnieje.
Dlaczego moi klienci odchodzą?
Istnieje wiele powodów dlaczego klineci moga rezygnować z zakupu usługi lub produktów które sprzedaje Twoja firma. W artykule retencja klientów opisywaliśmy czym jest retencja, jak odczytywać sygnały o potencjalnym odejściu klienta i jak gromadzić wiedzę na ten temat. Każdy z potencjalnych, najczęściej występujących sygnałów jest miarodajny, ale rozpatrywany samodzielnie nie jest wystarczająco wyraźny by wyróżnić grupę klientów zagrożonych odejsciem i zareagować odpowiednio wcześniej nie dopuszczając do utraty klienta.
Zatem zdefiniowałęś kilka atrybutów których monitorowanie uznałeś za ważne i miarodajne i teraz chciałbyś wyciągnąć wnioski z ich analizy. Powiedzmy że podzieliłeś klientów na dwie klasy; tych których utraciłeś i tych którzy ciągle są klientami Twojej firmy. Masz też informację na temat częstotliwości zakupów klientów, ich wysokości, ilości kupowanych przez nich kategorii produktów.
Czy klienci którzy odchodzą wykazują inne zachowania niż aktywni klienci? Czy tworzą inną grupę niż ci którzy nadal kupują? Czy na tej podstawie stworzę model który mogę zastosować do wykrywania klienta zagrożonego utratą?
Według badania 3M przetwarzanie informacji zawartej w grafice jest aż 60 tysięcy razy szybsze niż przetwarzanie tekstu. Dlaczego by zatem prezentować wyniki podziału klientów na klastry wg powyższych założeń w postaci tekstu? Przezentacja ich w postaci wykresu pozwoli Ci te informację otrzymać w krótkiej chwili - w sekundy zorientujesz się co łączy klientów danej klasy i jakie są różnice miedzy tymi klasami (aktywni - utraceni).