Pokročilý Data Engineering v Microsoft Fabric

GOC681
Délka 3 dny
30 ITK bodů
2 termíny
ČR (29 600 Kč)

SR (1 250 €)

Pokročilé školení pro datové profesionály, kteří chtějí ovládnout moderní data engineering v Microsoft Fabric s důrazem na praktickou práci v Pythonu a PySparku. Většinu času strávíte psaním kódu v Notebooks - budete implementovat datové transformace pomocí Pythonu (Polars, DuckDB) nebo PySparku, automatizovat ETL procesy a pracovat s pokročilými technikami zpracování dat v distribuovaném prostředí. Naučíte se navrhovat a implementovat medaillon architekturu v prostředí Lakehouse. Prozkoumáte různé metody získávání dat - od Dataflows Gen2 přes orchestrační Pipelines až po vlastní kód v Notebooks. Zvládnete ukládání dat, pochopíte rozdíly mezi datovými sklady a Lakehouses, jejich dotazování a pokročilé komponenty jako stored procedures, functions a data masking. Automatizace a orchestrace datových workflow pomocí Pipelines vás naučí koordinovat komplexní procesy a integrovat jednotlivé vrstvy medaillon architektury. Zaměříte se na optimalizaci výkonu - partitioning, kompresi dat a optimalizaci Spark jobů. Naučíte se monitorovat kapacity Fabric a měřit efektivitu zpracování. Prakticky si vyzkoušíte verzování kódu a nasazování změn pomocí Git integrace a deployment pipelines. Toto školení spolu se školením Pokročilé techniky datové analýzy a reportingu v Microsoft Fabric [GOC682] tvoří přípravu na certifikační zkoušku DP-600: Fabric Analytics Engineer Associate.

Navrhovat a implementovat medaillon architekturu v Microsoft Fabric v prostředí Lakehouse
Implementovat datovou logiku a transformace pomocí Pythonu (Polars, DuckDB) a PySparku v Notebooks
Pracovat s různými metodami načítání dat – Dataflows Gen2, Pipelines a vlastní kód
Kopírovat a znovu využívat data v rámci OneLake
Profilovat, čistit a transformovat data pomocí kódu v různých praktických scénářích
Pracovat s Lakehouse a Data Warehouse včetně zabezpečení dat
Automatizovat a orchestrovat datová workflow pomocí Pipelines
Optimalizovat výkon (partitioning, komprese, optimalizace Spark jobů)
Verzovat kód a nasazovat změny pomocí Git integrace a deployment pipelines

Kurz je určen především pro datové inženýry a vývojáře, kteří chtějí pracovat s Microsoft Fabric na úrovni kódu a navrhovat, implementovat a provozovat datová řešení v produkčním prostředí. Kurz je vhodný také pro pokročilé analytiky a datové architekty, kteří mají zkušenost s Pythonem a chtějí se posunout směrem k data engineeringu a práci v distribuovaném prostředí.

Základní znalost prostředí Microsoft Fabric alespoň v rozsahu kurzu GOC680
Znalost Pythonu (pandas, list comprehensions, funkce, error handling) a PySparku alespoň v rozsahu kurzu GOC685
Základní znalost relačních databází a jazyka SQL
Základní zkušenost s data warehouses nebo data lakes
Porozumění konceptům extrakce, načítání, profilování a transformace dat
Zkušenost s nástroji pro datovou analýzu a integraci dat (ETL procesy, data pipelines)
Znalost verzování a Git integrace výhodou

1. Nastavení prostředí a základní principy

Medaillon architektura – principy a komponenty
- Lakehouse, Data Warehouse, analytické enginy, sémantické vrstvy
- Nastavení tenantu, volba kapacity, dopady na výkon a cenu

2. Načítání a kopírování dat

Metody načítání dat
- Dataflows Gen2
- Pipelines
- Vlastní ingest pomocí Python / PySpark v Notebooks
Kopírování a znovupoužití dat v OneLake
- Shortcuts
- Rozhodovací metodika a architektonické dopady
- Praktická implementace

3. Data profiling, čištění a transformace

Data profiling
- Principy a metody
- Implementace v Pythonu / PySparku (Notebooks)
Čištění a transformace dat
- Návrh čistících mechanismů na základě profilace
- Transformace dat pomocí kódu
- Slowly changing dimensions a pokročilé scénáře

4. Uložení dat

Lakehouse vs. Data Warehouse – rozdíly a použití
Dotazování nad daty
- SQL dotazy
- Dotazy nad Lakehouse a Warehouse
Pokročilé komponenty
- Stored procedures, functions, role, schémata
- RLS, CLS, data masking

5. Automatizace

Orchestrační Pipelines
- Koordinace a závislosti
- Integrace notebooků, dataflows a SQL objektů
Orchestrace notebooků
- Řízení návazných kroků v Python / PySpark
- Fail-over a error handling

6. Monitoring a optimalizace

Optimalizace výkonu Spark workloadů
Partitioning, komprese, V-order, vacuuming
Monitoring Fabric kapacit a efektivity zpracování

7. Verzování a nasazování změn

Git integrace
Deployment pipelines

Stáhnout PDF detail
Stáhnout PDF detail (bez termínů)

Uvedené ceny jsou bez DPH.

Školení na míru

Nenašli jste vhodný termín, nebo chcete školení přizpůsobit specifickým potřebám vašeho týmu? Rádi pro vás připravíme školení na míru.

Pokročilý Data Engineering v Microsoft Fabric

1. Nastavení prostředí a základní principy

2. Načítání a kopírování dat

3. Data profiling, čištění a transformace

4. Uložení dat

5. Automatizace

6. Monitoring a optimalizace

7. Verzování a nasazování změn

GOPAS Praha

GOPAS Brno

GOPAS Bratislava

Obchodní údaje

Pokročilý Data Engineering v Microsoft Fabric

1. Nastavení prostředí a základní principy

2. Načítání a kopírování dat

3. Data profiling, čištění a transformace

4. Uložení dat

5. Automatizace

6. Monitoring a optimalizace

7. Verzování a nasazování změn

Předchozí kurzy

GOPAS Praha

GOPAS Brno

GOPAS Bratislava

Obchodní údaje