Apache Spark 3 Grundlagen - Seminar / Kurs von GFU Cyrus AG

Inhalte

  • Einführung in Spark - Erste Schritte
    • Was ist Spark und was ist sein Zweck?
    • Komponenten des Spark-Unified-Stacks
    • Stabiler verteilter Datensatz (RDD)
    • Herunterladen und Installieren von Spark Standalone
    • Überblick über Scala und Python
    • Starten und Verwenden der Scala- und Python-Shell von Spark
  • Belastbarer verteilter Datensatz und DataFrames
    • Verstehen, wie man parallelisierte Sammlungen und externe Datensätze erstellt
    • Arbeiten mit RDD-Operationen (Resilient Distributed Dataset)
    • Gemeinsame Variablen und Schlüssel-Werte-Paare verwenden
  • Spark-Anwendungsprogrammierung
    • Verstehen des Zwecks und der Verwendung des SparkContextes
    • Initialisierung von Spark mit den verschiedenen Programmiersprachen
    • Beschreiben und Ausführen einiger Spark-Beispiele
    • Übergabe von Funktionen an Spark
    • Erstellen und Ausführen einer Standalone-Anwendung von Spark
    • Übertragen von Anwendungen an den Cluster
  • Spark Streaming
    • Einführung von Spark Streaming
    • Architektur von Spark Streaming
    • Verarbeitung verteilter Protokolldateien in Echtzeit
    • Diskretisierte Ströme RDD
    • Anwendung von Transformationen und Aktionen auf Streaming-Daten
    • Integration mit Flume und Kafka
    • Integration mit Cassandra
    • Überwachung von Streaming-Aufträgen
  • Spark-SQL
    • Einführung in Apache Spark SQL
    • Der SQL-Kontext
    • Importieren und Speichern von Daten
    • Verarbeitung von Textdateien, JSON und Parquet-Dateien
    • DataFrames
    • Benutzerdefinierte Funktionen
    • Die Verwendung von Hive
    • Lokaler Hive-Metastore-Server
  • Spark MLLib
    • Einführung in das maschinelle Lernen
    • Arten des maschinellen Lernens
    • Einführung in Apache Spark MLLib-Algorithmen
    • Datentypen des maschinellen Lernens und die Arbeit mit MLLib
    • Regressions- und Klassifikationsalgorithmen
    • Entscheidungsbäume in der Tiefe
    • Klassifizierung mit SVM, Naive Bayes
    • Clustering mit K-Means
    • Aufbau des Spark-Servers
  • Einführung in Spark - Erste Schritte
    • Was ist Spark und was ist sein Zweck?
    • Komponenten des Spark-Unified-Stacks
    • Stabiler verteilter Datensatz (RDD)
    • Herunterladen und Installieren von Spark Standalone
    • ...
Mehr Informationen >>

Lernziele

Nach diesem Seminar kennen sie die Apache Spark Architektur und wissen, welche Lösungen mit Spark in einem Big Data Umfeld entwickelt werden können. Nutzen Sie die Spark Streamingfähigkeiten und die Möglichkeiten von Machine Learning für Ihre Data Science-Anwendungen.
Nach diesem Seminar kennen sie die Apache Spark Architektur und wissen, welche Lösungen mit Spark in einem Big Data Umfeld entwickelt werden können. Nutzen Sie die Spark Streamingfähigkeiten und di ... Mehr Informationen >>

Zielgruppen

Analyst:innen, Software-Entwickler:innen, Software-Architekt:innen mit Kenntnissen in einer Programmiersprache, die Spark in einem Big Data und Data Science - Projekt nutzen wollen.

Termine und Orte

SG-Seminar-Nr.: 6908694

Anbieter-Seminar-Nr.: 2003

Termine

  • 04.07.2024 - 05.07.2024

    Köln, DE

  • 10.10.2024 - 11.10.2024

    Köln, DE

  • 16.01.2025 - 17.01.2025

    Köln, DE

  • 20.03.2025 - 21.03.2025

    Köln, DE

  • 26.05.2025 - 27.05.2025

    Köln, DE

Seminare mit Termin haben Plätze verfügbar. Rechnung erfolgt durch Veranstalter. Für MwSt. Angabe auf den Termin klicken.

Jetzt buchen ›
Seminar merken ›

Semigator berücksichtigt

  • Frühbucher-Preise
  • Last-Minute-Preise
  • Gruppenkonditionen

und verfügt über Sonderkonditionen mit einigen Anbietern.

Der Anbieter ist für den Inhalt verantwortlich.

Veranstaltungsinformation

  • Seminar / Kurs
  • Deutsch
    • Zertifikat
  • 14 h
  •  
  • Anbieterbewertung (113)

Ihre Vorteile mehr erfahren

  • Anbietervergleich von über 1.500 Seminaranbietern
  • Vollständige Veranstaltungsinformationen
  • Schnellbuchung
  • Persönlicher Service