Tag 1: Deep Dive Databricks Plattform & Performance
- Teil 1: Advanced Spark & Performance Tuning
- Analyse des Spark Execution Models in Databricks
- Optimierung von DataFrame- und SQL-Operationen
- Umgang mit Skew, Shuffle, Partitioning, Caching und Z-Order
- Nutzung des Databricks UIs für Fehleranalysen und Performance-Debugging
- Best Practices für skalierbare ETL/ELT-Pipelines
- Teil 2: Cluster Tuning & Ressourceneffizienz
- Vergleich von Cluster-Typen (Classic Compute, Serverless, Jobs-Clusters)
- Cluster Policies, Pools und Optimierungsstrategien
- Auto-Scaling korrekt konfigurieren und Monitoring sinnvoll nutzen
- Kostenkontrolle und FinOps-Praktiken im Umgang mit Databricks Lakehouse Architekturen
- Teil 3: Databricks Unity Catalog - Expertenfunktionen
- Erweiterte Governance-Konzepte mit dem Unity Catalog
- Arbeiten mit Metadaten, Data Lineage und Automatisierungsansätzen
- Feingranulare Berechtigungsverwaltung
- Umgang mit Primary Keys und Foreign Keys in Tabellen
- Erweiterte Delta-Funktionen: Optimize, Vacuum, Constraints, Expectations
Tag 2: Enterprise Features, Automation & GenAI
- Teil 4: Fortgeschrittene DataOps & Automatisierung
- Infrastrukturautomatisierung: Asset Bundles, CI/CD, Git-Workflows
- Abgrenzung: Terraform vs. Databricks Asset Bundles vs. Databricks Python SDK
- Jobs, Workflows und Pipelines für Enterprise DataOps
- Fehleranalyse und Monitoring für produktive Pipelines
- Deployment-Strategien für Data Products
- Teil 5: Enterprise Data Management & Data Quality
- Data Quality Patterns (z. B. Funnels, Wrangling-Prozesse) mit Delta Live Tables und Databricks AI/BI Dashboards
- Professioneller Einsatz von Constraints, Checks & Expectations
- Enterprise Metadatenmanagement und Katalogisierung
- Data Labeling im Kontext moderner Governance
- Teil 6: GenAI & Databricks Genie
- Optimierung von Tabellen-, Spalten- und Schema-Beschreibungen im Unity Catalog für präzise GenAI-Generierung
- Einsatz klarer Metadaten, damit Genie natürliche Sprache korrekt in SQL und Strukturvorschläge übersetzen kann
- Definition von Relationen, Constraints und Data Contracts zur besseren Orientierung für Genie
- Best Practices für konsistente Dokumentation, um Genies Query- und Code-Assistenz gezielt zu unterstützen
- Teil 7: Enterprise Sharing & Collaboration
- Erweiterte Nutzung von Delta Sharing (intern/extern)
- Best Practices für sichere Datenbereitstellungen
LernzieleNach diesen zwei Tagen beherrschen Sie fortgeschrittene Architektur- und Performance-Optimierungstechniken in Databricks. Sie analysieren das Spark Execution Model fundiert, optimieren Cluster-Strategien, setzen Governance mit dem Unity Catalog professionell um und automatisieren DataOps-Prozesse mit CI/CD und Asset Bundles. Darüber hinaus sind Sie in der Lage, Enterprise Data Quality sicherzustellen und produktive Data Products effizient zu deployen.
ZielgruppenDieses Advanced-Seminar richtet sich an erfahrene Data Engineers, DataOps Engineers, Analytics Engineers und Data Analysts, die bereits produktiv mit Databricks arbeiten.
Sie sind verantwortlich für Architekturentscheidungen, Performance-Optimierung, Governance oder den Betrieb produktiver Data Pipelines.
Sie benötigen fundierte Kenntnisse in Spark, SQL und Databricks sowie praktische Erfahrung mit Lakehouse-Architekturen.
Grundlegende Kenntnisse aus einer Databricks Foundation Schulung oder vergleichbare Projekterfahrung werden vorausgesetzt.