Integracja aplikacji z ETL Pentaho
Każdy, kto pozna możliwości Pentaho zachwyci się tym programem. Pentaho Kettle (PDI) może integrować i analizować dane, eksplorować dane, tworzyć raporty itp. Narzędzie oferuje kompleksowy zestaw funkcji BI, które pozwalają usprawnić procesy i poprawić wydajność firmy. Jak połączyć łatwość tworzenia przepływów w Pentaho, szerokie możliwości i stabilność ETL z aplikacjami desktop, web, Android, IOS by wzbogacić ich funkcjonalność i budować aplikacje szybciej, z mniejszą ilością błędów?
Postgres-Pentaho PDI PowerPack
Bazy danych oferują potężną moc błyskawicznego przetwarzania ustrukturyzowanych danych. Wszelkie obliczenia, poszukiwanie informacji, łączenie danych, wybieranie właściwych danych ze zbiorów dzięki bazom danych można wykonać znacznie szybciej niż z użyciem innych formatów. Ale bazy danych, jezyk SQL, nie jest tak elastyczny jak typowe języki programowania. Bazy danych nie oferują też najczęściej tak wygodnego, intuicyjnego GUI jakie oferują narzedzia typu ETL. Jest jeszcze inny problem do pokonania; tworzenie wyrafinowanych, szybko działających, zapytań czy procedur w językach baz danych wymaga ekspeckiej wiedzy którą nabywa się latami. Na szczęście istnieje możliwość połączenia tych dwóch technologii w jednym rozwiązaniu.
Elasticsearch w 15 minut
Początki z ElasticSearch są trudne dla nowincjuszy w temacie. Nie pomagają twórcy ktorzy reklamują swoj produkt (a raczej ich kilka) jako "narzędzie do analizy logów". Co może kreować błędną opinie że jest to system "dla informatyków". Tymczasem Elastic Stack (w skrócie Elk) to oprogramowanie które znakomicie nadaje się do przetwarzania danych w biznesie. Jeśli uświadomimy sobie że dane sprzedażowe, rejestry faktur, aktywności naszych klientów są właśnie "logami", szybko zrozumiemy że możemy zastosować ELK w naszej pracy.
Co to jest Elasticsearch?
Elasticsearch jest bazą danych. Jak MySQL, MSSQL, Posgres. Większość z nas wie do czego służy baza danych - nie miejse by to opisywać. Elasticsearch pełni właśnie taką rolę w środowisku ELK; przechowuje dane. Warto tylko wspomnieć że Elasticsearch jest bazą typy NoSQL. To oznacza wiele zalet ale też i ograniczeń. Wbrew ludowym legendom, Elasticsearch nie ma nadzwyczajnych możliwości precyzyjnego wyszykiwanie danych (nie jest to Google) - lepsze rezultaty osiągniemy w SQL. Potęga Elastic to błyskawiczne docieranie do wybranego zakresu danych czy agregacja danych spośrod dziesiątków milionów rekordów. Z samym Elasticsearch niewiele zdziałasz. Będziesz potrzebować interfejsu do bazy danych by nią zarządzać i wizualizować dane. Czyli Kibany. Potrzebować też będziesz narzędzia by załadować dane - Logstash.
Optyczne rozpoznawanie znaków (OCR) w Pentaho
Koncept
Pentaho PDI jest idealnym narzędziem do przetwarzania plików, formatowania danych, ekstrakcji informacji, separowania danych w zależności od ich przeznaczenia. Idealne narzędzie by użyć go do zarządzania dokumentami - np. stworzyć system do obiegu faktur. Jednak jednej rzeczy Pentaho nie ma - optycznego rozpoznawania znaków. A dokumenty często są w formie obrazów. Musimy dokonać OCR'owania by odczytać daty, nazwy, numery. Czy istnieje jakiś sposób by sobie z tym poradzić? Tak, istnieje.