Uczestnicy szkolenia poznają różne metody przetwarzania danych i ich przygotowania w ustrukturyzowanej i nieustrukturyzowanej formie do analiz. Uczą się jak zapisywać te dane w różnych formatach w systemie plików Hadoopa (HDFS) tak, aby uzyskać jak największą wydajność przy ich przetwarzaniu za pomocą Apache Hive i Apache Pig. Zapoznają się z technologiami SAS, dostępnymi w SAS Base oraz SAS/ACCESS Interface to Hadoop, pozwalającymi na dostęp i wykorzystanie danych Hadoop.
Naucz się
- Przenosić dane do i z rozproszonego systemu plików Hadoop (HDFS).
- Tworzyć wydajne w przetwarzaniu formaty przechowywania danych Hadoop.
- Używać Hive, aby zaprojektować hurtownię danych na platformie Hadoop.
- Przeprowadzać analizę danych za pomocą języka zapytań Hive (HiveQL).
- Łączyć źródła danych za pomocą HiveQL.
- Tworzyć procesy ETL.
- Tworzyć efektywne w przetwarzaniu formaty pamięci masowej Hadoop i uzyskiwać do nich dostęp przy użyciu definicji tabel Hive.
- Przeprowadzać analizę nieustrukturyzowanych danych za pomocą Apache Pig.
- Łączyć ogromne zbiory danych za pomocą Pig.
- Używać funkcji zdefiniowanych przez użytkownika (UDF).
- Analizować duże zbiory danych za pomocą Pig.
- Używać oprogramowania SAS do przesyłania programów Hive i Pig, które są wykonywane na Hadoop i przechowują wyniki w Hadoop lub zwracają wyniki do SAS.
Kto powinien uczestniczyć
Analitycy danych, programiści, administratorzy baz danych, deweloperzy aplikacji oraz procesów ETL, którzy potrzebują dogłębnej wiedzy na temat zarządzania danymi dla środowisk Big Data.
Podstawowa wiedza i doświadczenie z zakresu systemów operacyjnych UNIX i języka zapytań SQL oraz umiejętność programowania.
To szkolenie wykorzystuje oprogramowanie Base SAS, SAS Data Connector to Hadoop