Školení pro analýzu velkých dat pomocí Apache Spark zahrnuje přehled základních a pokročilých témat, praktická cvičení a diskuse k posílení znalostí o analýze velkých dat. Spark je výkonný nástroj pro zpracování velkých dat, který umožňuje [...]
  • PYTHON_DATAN3
  • Délka 5 dní
  • 50 ITK bodů
  • 6 termínů
  • ČR (26 500 Kč)

    SR (1 150 €)

  • Mírně pokročilý

Školení pro analýzu velkých dat pomocí Apache Spark zahrnuje přehled základních a pokročilých témat, praktická cvičení a diskuse k posílení znalostí o analýze velkých dat. Spark je výkonný nástroj pro zpracování velkých dat, který umožňuje rychlé provádění analýz a podporuje různé úkoly, včetně dávkového zpracování, streamování, interaktivních dotazů a strojového učení.

»
  • Data Scientist, datoví analytici, zejména v Big Data prostředí, jsou primárním auditoriem pro tento intenzivní kurz.
  • Software vývojáři, kteří ovládají jazyk Python alespoň na střední az pokročilé úrovni a kteří mají za cíl vytvářet data-intenzivní aplokace pomocí enginu SPARK v prostredi Big Dat (Cloud).
  • Datoví architekti

Požadované vstupní znalosti:

  • Znalosti jazyka Python a datové analýzy na úrovni kurzu PYTHON_ADV a PYTHON_DATAN2

Metody výuky:

  • Odborný výklad s praktickými ukázkami, cvičení na počítačích.

Studijní materiály:

  • Prezentace probírané látky v tištěné nebo online formě.

Osnova: Úvod do Apache Spark a ekosystému

  • Úvod do velkých dat a jejich význam.
  • Přehled ekosystému Apache Spark a jeho porovnání s jinými technologiemi elkých dat.
  • Instalace a konfigurace Apache Spark a příprava vývojového prostředí.
  • Základy RDD (Resilient Distributed Dataset) a jeho operace.
  • Praktické cvičení: Vytvoření prvního Spark aplikace s využitím RDD.
  • Diskuse o výhodách a nevýhodách RDD.
  • Úvod do Datasetů a DataFrames pro efektivnější práci s daty.

Pokročilé zpracování dat s Apache Spark

  • Podrobný pohled na DataFrames a operace s nimi.
  • SQL dotazy ve Sparku a práce s Spark SQL.
  • Praktické cvičení: Transformace dat a agregace pomocí Spark SQL a *taFrames.
  • Úvod do zpracování streamových dat s Apache Spark Streaming.
  • Praktické cvičení: Jednoduchá streamová aplikace.

Strojní učení a pokročilá analýza dat ve Sparku

  • Přehled MLlib (Machine Learning Library) ve Sparku.
  • Budování a evaluace modelů strojního učení.
  • Praktické cvičení: Klasifikace, regrese a shlukování s MLlib.
  • Integrace Sparku s jinými úložišti dat (např. HDFS, Amazon S3).

Optimalizace a tuning výkonu Spark aplikací

  • Monitorování a ladění Spark aplikací.
  • Práce s Spark UI pro analýzu výkonu aplikací.
  • Optimalizace výkonu pomocí particionování a persistence.
  • Praktické tipy a triky pro efektivní zpracování velkých dat.

Škálování a nasazení Spark aplikací

  • Architektura Spark clusteru a jeho konfigurace.
  • Skalování Spark aplikací vertikální a horizontální.
  • Nasazení Spark aplikací v produkčním prostředí.
  • Best practices pro práci s Apache Spark.
  • Závěrečná diskuse, odpovědi na otázky a zpětná vazba od účastníků.
Aktuální nabídka
Školicí místo
Jazyk kurzu

Uvedené ceny jsou bez DPH.

Školení na míru

Nenašli jste vhodný termín, nebo chcete školení přizpůsobit specifickým potřebám vašeho týmu? Rádi pro vás připravíme školení na míru.