Kód kurzu: MOC 20775« Krok zpět

Zpracování velkých dat pomocí Microsoft HD Insight

Kurz je určen pro datové analytiky a specialisty zodpovědné za zpracování a analýzu velkých objemů dat, kteří chtějí místo klasických relačních databází využívat sadu technologií postavených na Apache Hadoop a jeho variantě HDInsight hostované v Microsoft Azure. Na kurzu se dozvíte, jak nasadit HDInsight cluster do Microsoft Azure a s pomocí něj kompletně zpracovávat velká data, od jejich načtení, přes uložení a provádění výpočtů. Současně se také naučíte používat nejen Apache Hadoop, ale seznámíte se i s Apache Spark, Interactive Hive, Apache Phoenix, Microsoft Azure Stream Analytics, Apache Storm, Kafka a Apache HBase, což vám poskytne ucelený přehled o aktuálně dostupných technologiích pro zpracování velkých dat, díky kterému budete schopni navrhovat vlastní řešení.

 DatumDnůCena kurzuCena materiálůJazyk výukyLokalita 
20.5.2019 5 36 350 CZK v ceně kurzu Český jazyk GOPAS Praha
 
2.9.2019 5 36 350 CZK v ceně kurzu Český jazyk GOPAS Praha
 
8.7.2019 5 36 350 CZK v ceně kurzu Český jazyk GOPAS Brno
 
23.4.2019 4 1 050,00 EUR 270,00 EUR Slovenský jazyk GOPAS Bratislava
 
21.10.2019 5 1 050,00 EUR 270,00 EUR Slovenský jazyk GOPAS Bratislava
 

PobočkaDnůCena kurzuCena materiálůITB
Praha5 36 350 CZK v ceně kurzu 50
Brno5 36 350 CZK v ceně kurzu 50
Bratislava5 1 050,00 EUR 270,00 EUR 50

Uživatelská náročnost

Co Vás naučíme

  • Seznámíte se s principy fungování Apache Hadoop
  • Naučíte se nasadit Apache Hadoop a řadu dalších služeb v podobě HDInsight clusteru do Microsoft Azure
  • Dozvíte se, jak zabezpečit a monitorovat HDInsight cluster
  • Seznámíte se s implementací dávkových řešení na zpracování dat s pomocí Apache Hive a Pig
  • Naučíte se implementovat dávková ETL řešení s pomocí Apache Spark
  • Vyzkoušíte si spouštět interaktivní dotazy s pomocí Interactive Hive a Apache Phoenix
  • Zjistíte, jak zpracovávat události v reálném čase s pomocí Azure Stream Analytics
  • Seznámíte se s proudovým zpracováním dat s pomocí Apache Kafka a HBase a naučíte se zpracovávat data v reálném čase s pomocí Apache Storm
  • Vytvoříte si komplexní přehled o používaných technologiích pro zpracování velkých dat a naučíte se vybrat vhodné technologie pro vaše scénáře použití.

Pro koho je kurz určen

Kurz je cílen na datové architekty zodpovědné za návrh systémů na zpracování dat, ale také pro datové analytiky a specialisty zodpovědné za zpracování a analýzu dat

Požadované vstupní znalosti

  • Základní znalost běžných statistických metod
  • Základní znalost relačních databází
  • Základní znalost jazyka R a nejčastěji používaných knihoven

Metody výuky

  • Odborný výklad s praktickými ukázkami, cvičení na počítačích

Studijní materiály

Doporučena je originální příručka firmy Microsoft, která není zahrnuta v ceně kurzu. Příručka je v anglickém jazyce.

Osnova kurzu

1 Úvod do Microsoft Azure HDInsight
  • Definice pojmu Big Data a seznámení s výzvami při jejich zpracování
  • Představení principů Apache Hadoop
  • Seznámení s principem MapReduce
  • Představení Microsoft Azure HDInsight
2 Nasazení HDInsight clusteru
  • Vysvětlení typů HDInsight clusterů
  • Vytvoření a správa HDInsight clusteru přes Azure portál
  • Vytvoření a správa HDInsight clusteru s pomocí PowerShellu
  • Ukázka vytvoření HDInsight clusteru využívajícího Azure Data Lake Storage
3 Zabezpečení clusteru
  • Přehled možností zabezpečení HDInsight clusterů, které nejsou připojené do domény
  • Seznámení se zabezpečením HDInsight clusterů, které jsou připojené do domény a jejich správa
  • Ukázka správy zabezpečení HDInsight clusteru
  • Vytvoření HDInsight clusteru připojeného do domény
4 Načítání dat do HDInsight clusteru
  • Přehled architektury úložiště HDInsight clusteru
  • Seznámení s možnostmi načítání dat do Azure Blob Storage a Azure Data Lake Storage pro následné zpracování
  • Ukázka použití nástrojů pro načítání dat
  • Vysvětlení komprese a serializace dat pro zrychlení jejich zpracování
5 Monitorování a odstranění potíží s HDInsight clusterem
  • Možnosti analýzy logů HDInsight clusteru
  • Analýza YARN logů
  • Monitorování zdrojů HDInsight clusteru s pomocí Operations Management Suite (OMS)
6 Implementace dávkových řešení
  • Seznámení s implementací dávkových řešení s pomocí Apache Hive a Pig
  • Přehled způsobů zpracování velkých dat v HDInsight
  • Seznámení s úložištěm dat Apache Hive
  • Dotazování na data v HDInsight clusteru s pomocí Apache Hive a Pig
  • Vysvětlení, jak využít Microsoft Azure Data Factory a Apache Oozie pro automatizaci procesu zpracování velkých dat
7 Návrh dávkových ETL řešení s pomocí Apache Spark
  • Představení Apache Spark a jeho klíčových vlastností a funkcionalit
  • Vysvětlení tvorby ETL řešení s pomocí Apache Spark
  • Doporučení pro zvýšení výkonu Apache Spark
8 Analýza dat pomocí Spark SQL
  • Seznámení s analýzou dat s pomocí Spark SQL, vysvětlení rozdílů mezi RDD, Dataset a Dataframe
  • Vysvětlení rozdílů mezi iterativními a interaktivními dotazy
  • Dotazování se na data za účelem jejich průzkumu
  • Seznámení s Apache Zeppelin a Jupyter notebooks
9 Analýza data s pomocí Hive a Phoenix
  • Seznámení se spouštěním interaktivních dotazů s pomocí Interactive Hive a Apache Phoenix
  • Ukázka průzkumu dat s pomocí Hive
  • Implementace interaktivního zpracování dat s pomocí Apache Phoenix
10 Microsoft Azure Stream Analytics
  • Představení služby Azure Stream Analytics a ukázka jejího použití pro zpracování událostí v reálném čase
  • Porovnání Azure Stream Analytics s možnostmi HDInsight clusteru, zejména Apache Storm
  • Ukázka propojení Azure Stream Analytics a Azure Event Hub za účelem načítání a zpracování dat v reálném čase s nízkou latencí
  • Správa běžících jobů v Azure Stream Analytics
11 Implementace proudového zpracování dat s pomocí Apache Kafka a HBase
  • Seznámení s technologií Apache Kafka používané pro zpracování proudů vstupních dat v reálném čase
  • Nasazení Apache Kafka clusteru
  • Konzumace, zpracování a publikace dat s pomocí Apache Kafka clusteru
  • Použití Apache Kafka pro uložení dat do HBase a jejich následné dotazování
  • Ukázka vizualizace živých dat v Power BI
12 Vývoj řešení na zpracování velkých dat v reálném čase s pomocí Apache Storm
  • Seznámení s Apache Storm a jeho použitím pro zpracování velkých dat v reálném čase
  • Možnosti dlouhodobého uložení dat
  • Konfigurace Apache Storm, návrh topologie služby
  • Ukázka zpracování dat s pomocí Apache Storm
13 Tvorba Spark Streaming aplikací
  • Představení Spark Streaming, vysvětlení konceptu discretized streams (DStreams)
  • Návrh a tvorba aplikací využívajících Spark Streaming
  • Trvalé uložení dat a tvorba vizualizací

Předchozí kurzy

žádný předchozí kurz

Navazující kurzy

žádný navazující kurz
Tištěná příručka MOC20775

Cena:
8750 CZK
Elektronická příručka MOC 20775

Cena:
7850 CZK
Tištěná příručka MOC20775

Cena:
345 EUR
Elektronická příručka MOC 20775

Cena:
270 EUR
Možnost volby materiálu v tištěné, nebo elektronické podobě.
Uvedené ceny jsou bez DPH.