Operatoren
- Konzeptionelle Ansätze, Eigenbedarf analysieren
- Red Hats Operator SDK, OLM (Operator Lifecycle Manager)
- Capability-Level und Grenzen der Automatisierung
- Implementierung, Qualität, LTS
- Upgrades von Operatoren
- Erstellung eines Operators plus Bundle from Scratch, Operator-Catalogs verstehen, erzeugen und verwalten
Pipelines/GitOps
- GitOps Konzepte verstehen und einsetzen
- CI Pipelines effizient planen und maximal automatisieren
- Webhooks, Pipeline Trigger und EventListener verstehen und einsetzen
- Hands-On mit Tekton-CI
- CD Operator: GitOps mit ArgoCD
- ArgoCD Rollouts - Advanced Deployment Strategies: Blue/Green, Canary und mehr
Storage
- Storage-Anforderungen für Hyperscaler
- Containerized SDS (Ceph) mit Rook
- Architektur
- Bereitstellung von Block, Cluster-File FS (RWX) und ObjectStore (S3) Volumen
Skalierbare KI/ML -Infrastrukturen
- GPU-Accelerated KI/ML Systeme unter Kubernetes
- Datacenter taugliche NVIDIA GPUs
- NVIDIA GPUs auf Hyperscalern einsetzen
- vGPU vs MIG
- GPU-Worker Node Vollautomation per GPU-Operator
- Best-Practices und Strategien für Cloud- und On-Prem-Umgebungen
Container-Cluster Security
- NetworkPolicies verstehen und einsetzen, Multi Tenancy Problematiken
- Pod Security Admission Controls
- Sealed Secrets, HashiCorps Vault
- Security-Suiten: NeuVector, Stackrox & Co.
- Konkrete Security Checkliste: "Must haves" und Implementierungs-/Design-Ansätze
Alerting, Observability / APM
- Prometheus Alertmanager: Alertmanager-Configs und Alert-Receiver verstehen und implementieren
- Jaeger, Dynatrace, Instana
... und andere, wichtige Day 3 Operations
- Advanced De-/Scheduling / Eviction: Placement-Strategies, Topology-Awareness / Topology Spread Constraints, Taints und Tolerations, Pod Disruption Budgets und Pod Priorities
- Node Debugging
- Cluster Autoscaling
- Backup / Disaster Recovery
- Cluster Federation