
Algorytmy do wykorzystania w codziennej pracy
Uczenie maszynowe nie jest już magicznym trikiem
Sztuczna inteligencja, o której tak wiele słyszymy, w rzeczywistości wykorzystuje algorytmy. Powszechne jest określenie „uczenie maszynowe” (ML) i stwierdzenie, że komputery uczą się na podstawie otrzymanych danych. Tak naprawdę komputery niczego się nie uczą – to bezduszne maszyny, które jedynie wykonują polecenia. Komputery dostarczają nam wyników swojej pracy na dwa sposoby; podajemy komputerom przykład tego, czego mają szukać w danych ("uczenie się nadzorowane") lub mówimy im, aby uruchomiły algorytm, który ma z góry określone wyniki do dostarczenia („uczenie się bez nadzoru”).
Przeczytaj więcej o rodzajach algorytmów i ich zastosowaniu.
Zatem skończona liczba algorytmów może dać nam nieskończoną liczbę kombinacji ich zastosowania – zdumiewające, jak krótka jest lista funkcji i algorytmów, które tworzą dość złożone oprogramowanie realizujące różnorodne zadania. To jest jak język, którego używamy; liczba słów jest ograniczona, ale liczba dzieł literackich nigdy się nie skończy.
Czym są algorytmy?
Algorytm to skończona sekwencja jasno określonych działań niezbędnych do wykonania określonego rodzaju zadania. Przepis na zrobienie dania jest często przytaczany jako przykład algorytmu stosowanego w życiu codziennym.
ML wykorzystuje algorytmy pochodzące z lat 60tych, 50tych, a nawet starożytnej Grecji. Ich szerokie zastosowanie umożliwiły szybkie komputery. Prawdziwej rewolucji dokonały szybkie maszyny liczące, a nie same algorytmy.
Użycie algorytmów nie było zbyt trudne, ale jak dotąd wymagało pewnych umiejętności, takich jak umiejętność kodowania. Jednak to się zmieniło. Od jakiegoś czasu mamy dostęp do oprogramowania, w którym algorytmy mamy umieszczone pod prawym przyciskiem myszy. Co więcej, istnieje darmowe oprogramowanie takie jak Orange Data Mining – świetne środowisko, w którym możemy przetestować pewne hipotezy, poszukać informacji ukrytych w danych, uzyskać rekomendacje na podstawie których podejmiemy dalsze decyzje. Oto kilka przykładów kilku algorytmów „Machine Learning”, które możesz wykorzystać w swojej codziennej pracy.

Bibioteka Graph Data Science w bazie Neo4j - algorytmy Node Similarity & Louvain
Rekomendacje bazujące na poprzednich zakupach klientów
Algorytm podobieństwa węzłów porównuje zbiór węzłów na podstawie węzłów, z którymi są one połączone. Dwa węzły są uważane za podobne, jeśli mają wielu takich samych sąsiadów. Funkcja podobieństwa węzłów oblicza podobieństwa parami na podstawie metryki Jaccarda, znanej również jako wynik podobieństwa Jaccarda, lub współczynnika nakładania się, znanego również jako współczynnik Szymkiewicza-Simpsona.
Metoda Louvaina to algorytm służący do wykrywania społeczności w dużych sieciach. Maksymalizuje wynik modułowości dla każdej społeczności, gdzie modułowość określa ilościowo jakość przypisania węzłów do społeczności. Oznacza to ocenę, o ile gęściej połączone są węzły w obrębie społeczności, w porównaniu z tym, jak połączone byłyby w losowej sieci.
Algorytm Louvaina jest algorytmem hierarchicznego grupowania, który rekurencyjnie łączy społeczności w jeden węzeł i wykonuje grupowanie modułowości na skondensowanych grafach. Algorytm Louvaina jest niedeterministyczny i dlatego niektóre węzły czasami są grupowane w społeczności, a czasami nie. To oznacza że rezultaty mogą być różne w różnych uruchomieniach programu.
Algorytm został opracowany na beligijskim Universytecie Louvain niedaleko Brukseli.
Uruchomienie biblioteki GDS
Bibliotekę dla Neo4j Server można pobrać ze strony https://neo4j.com/deployment-center/#gds-tab
Po rozpakowaniu pliku *.zip kopiujemy JAR do katalogu 'plugins' i modyfikujemy plik konfiguracyjny Neo4j ($NEO4J_HOME/conf/neo4j.conf) wstawiając w nim linie:
dbms.security.procedures.unrestricted=gds.*
Następnie pozwalamy na wykonywanie procedur z użyciem tej biblioteki wstawiająć kolejną linie w tym samym pliku konfiguracyjnym:
dbms.security.procedures.allowlist=gds.*
Po wgraniu pliku uruchom serwer ponownie by załadowac bliblioteką.
Sprawdzanie wersji oraz listy dostępnych algorytmów
Jeśli chcesz sprawdzić wersję biblioteki GDS uruchom polecenie:
RETURN gds.version();
Listę dostępnych procedur i algorytmów sprawdzisz uruchamiając polecenie:
CALL gds.list();
Budowa procesu rekomendacji produktów
Naszym celem jest zbudowanie procesu/silnika rekomendacji produktów bazującego na poprzednich zakupach klientów. Docelowo chcemy wykryć klastry klientów [przeczytaj niżej czym różni się klastrowanie od segmentacji] których wspólną cechą są podobne zakupy; zakupili pewną ilość takich samych produktów (choć także kupili i inne artykuły). Mając klastry klientów, możemy sporządzić listę najczęściej artykułów przez tych klientów. A skoro wiemy co inni podobni klienci kupują i czego nie kupił nasz klient, możemy mu taki produkt/produkty zaproponować.
Krokiem pośrednim będzie znalezienie podobieństw między klientami; określenie który klient jest podobny do którego pod kątem dokonanych zakupów. Sama informacja o podobieństwie może być także użyta w procesie rekomendacji; wiemy co kupili podobni klienci ale także możemy poznać które produkty są w ich zakupach wykazują takie podobieństwo. Klient który kupił produkt X może być także zainteresowany produktem Y ponieważ były one kupowane często wspólnie. Co więcej, znając zakupiony artykuł, możemy dowiedzieć się co jeszcze najczęściej kupowane jest przy zakupie tego właśnie produktu.
Przeczytaj też artykuł "Jak zbudować wydajny system rekomendacji produktów" na naszym blogu w którym objaśniamy jak z pomocą Neo4j stworzymć system rekomendacji produktów bazujący na zakupach osób które dokonały podobnych wyborów jak klient któremu będziemy rekomendować produkty (collaborative filtering). System z dużą skutecznością podpowie produkty, którymi naprawdę może być zainteresowany nasz klient.

Algorithms to be used in daily work
Machine Learning are not a magical tricks anymore
The Artificial Intelligence we hear so much about is actually the use of algorithms. The phrase "Machine Learning" (ML) and the statement that computers learn from the data they receive are common. In fact, computers do not learn anything - they are soulless machines that only execute commands. Computers provide us with the results of their work in two ways; we tell the computers an example of what to look for in the data (supervised learning) or we tell them to run an algorithm that has predefined results to deliver ("unsupervised learning").
Read more about types of algorithms and their appliance.
Thus, a finite number of algorithms can give us an infinite number of combinations of their use – it is amazing how short is the list of functions and algorithms that create quite complex software that performs various tasks. It's like the language we use; the number of words is limited, but the number of literary works will never reach the end.
What are algorithms?
Algorithm a finite sequence of clearly defined actions necessary to perform a certain type of task. A recipe is often cited as an example of an algorithm used in everyday life.
ML uses algorithms that come from the 60s, 50s and even ancient Greece. Their wide use was made possible by fast computers. It is fast computing machines that have made a real revolution, not the algorithms themselves.
The use of algorithms was not overly difficult, but so far it required some skills, like coding ability. However, that has changed. Since some time we have access to software where we have algorithms on the right button of a mouse. What's more, there is free software like Orange Data Mining - a great environment in which we can test certain hypotheses, look for hidden information in data, get recommendations on the basis of which we will make further decisions. Here are several examples of several "Machine Learning" algorithms that you can use in your daily work.
Linear regression
Linear regression and especially the model that was built on that algorithm - Auto Regressive Integrated Moving Average (ARIMA). This is a statistical analysis model that uses time series data to either better understand the data set or to predict future trends.
What it can be used for:
- Stock price prediction
- Supply chain forecasts
- Procurement and production planning
Camunda 8 - czym się różni od wersji 7 i jak ją uruchomić
Camunda - wersja 7
Camundę w wersji siódmej można nadal pobrać ze strony - link. Ta wersja będzie utrzymywana i rozwijana przez co najmniej kolejnych pięć lat. Wersję 7 możemy pobrać w kilku edycjach:
- [Community Edition ] Camunda Platform 7 Run - do zainstalowania na działającym już serwerze Tomcat
- [Community Edition ] Camunda Platform 7 + Tomcat - instalacja zwiera Tomcat wraz z modułem Camundy
- [Community Edition ] Camunda Platform 7 Enterprise Edition - komercyjna wersja Camundy
Wersja Community Edition zawiera Tasklist oraz Cockpit Basic + silnik wykonywania procesów BPMN i DMN. Camunda w wersji 7 może np. zostać osadzona jako plik JAR w aplikacji Java [na etapie wczesnego rozwoju w wersji 8]. Domyślną bazą danych jest H2 którą w środowisku produkcyjnym można zamienić na inną relacyjną bazę danych.
Camunda - wersja 8
Camunda w wersji 8 nie jest kontunuacja wersji siódmej. To zupełnie inny produkt - choć oczywiście bardzo podobny do poprzedniego, ta sama idea i podobna logika [inna architektura na poziomie oprogramowania]. W Camunda Platform 8 domyślnym środowiskiem jest wersja SaaS - to był główny motywator napisania nowej edycji Camundy. Można tam tworzyć klastry gdzie "silnikami przepływów pracy" jest produkt nazwany "Zeebe". Camunda w wersji 8 jako bazę danych wykorzystuje Elasticsearch.
Camundę 8 mamy w dwóch edycjach:
- Camunda Platform 8 Self-Managed - kontener Docker lub Kubernetes
- Camunda Platform 8 SaaS
Architektura Camundy w wersji 8 wygląda następująco:
Komponenty oznaczone niebieskim kolorem są komponentami komercyjnymi. Choć wersja "Self-Managed" którą można pobrać zawiera je, producent jasno określa że nie możesz ich wykorzystywać w środowisku produkcyjnym: "If you want to put these components into production, you will need to buy a license (via enterprise subscription) from Camunda".
Komponenty oznaczone zielonymi paskami to komponenty na licencji "source-available" - możesz ich używać w produkcyjnej wersji bez opłat [to jest silnik przepływów, Zebe, oraz baza danych instalacji - Elasticsearch]. Co więcej, Camundę w wersji 8 możesz pobrać jako kontenery Docker lub Kubernetes [jedyne opcje na oficjalnej stronie pobierania Camundy w wersji 8] lub jako komponenty do instalacji bezpośrednio w systemie operacyjnym - do pobrania tutaj.
Taka Camunda, "Self-Managed", nie posiada też zarządzania użytkownikami i ich uprawnieniami - mogło to być przydatne jeśli firma wykorzystywała moduł Tasklists i formularze. Instalacja Camundy 8, "Self-Managed" w wersji "source-available" ma zatem póki co niewielki sens. W praktyce jest to tylko demo produktu.