- R und RStudio kennenlernen
- Unterschiede von R zu anderen Programmiersprachen verstehen
- Datenüberblick verschaffen und erste Diagramme erstellen
- Installation von Paketen und deren Laden
dplyr (tidyverse) – Grundlagen:
- Tidyverse kennenlernen
- Tibble als erweiterte Form von data.frames erkunden
- Grundlegende Funktionen von dplyr zur Spaltenauswahl kennenlernen
- Nutzung von select(), filter(), rename() und slice()
Datenmanipulation mit dplyr:
- Zeilen mit arrange() sortieren
- Neue Spalten mit mutate() berechnen
- Statistiken mit summarise() erstellen
- Verwendung des Pipe Operators %>%
- Daten mit group_by() gruppieren
- Umgang mit fehlenden Werten: drop_na() und replace_na()
Berechnung von Statistiken mit dplyr:
- Wesentliche deskriptive Statistiken anwenden
- Zufällige Stichproben ziehen
- Berechnung von Korrelationen
- Erstellung von Kontingenztabellen
Kontrollstrukturen:
- Eigene Funktionen erstellen
- Standardparameter für Funktionen festlegen
- Anwendung von For-Schleifen
- Implementierung von If-Else-Bedingungen
Datenvisualisierung mit ggplot2:
- Konzept der Grammar of Graphics verstehen
- Nutzung von ggplot2-Layern zur Diagrammerstellung und statistischen Visualisierung
- Variabilität oder Festsetzung von Darstellungen (Punktgröße, Farbe, Gruppierung) mithilfe einer Variable
- Erstellung mehrerer Subplots, Anpassung und Speicherung von Diagrammen
Daten einlesen und schreiben:
- Arbeitsverzeichnis in R und RStudio festlegen
- Einlesen und Schreiben von CSV-, Excel- und SPSS-Dateien
- Überblick über nützliche Parameter
- Verwendung der fread()-Funktion für große Datensätze
Machine Learning:
- Einführung
- Anwendungsbeispiele von Machine Learning kennenlernen
- Unterscheidung zwischen Künstlicher Intelligenz, Machine Learning und Deep Learning
- Unterschiede zwischen überwachtem und unüberwachtem Lernen verstehen
- Überfitting, Train-Test-Split und Kreuzvalidierung kennenlernen
Lineare Regression:
- Daten in Test- und Trainingsdaten aufteilen, Modell erstellen und validieren
- Grundlagen der linearen Regression verstehen
- Umsetzung der linearen Regression in R
- Ergebnisse validieren, z. B. durch die mittlere quadratische Abweichung (mean squared error)
Entscheidungsbaum in R:
- Daten in Test- und Trainingsdaten aufteilen, Modell erstellen und validieren
- Grundlagen von Entscheidungsbäumen verstehen
- Umsetzung eines Entscheidungsbaums in R
- Ergebnisse validieren, u. a. durch Verwendung der Verwirrungsmatrix, Sensitivität und Genauigkeit
- Anpassung von Hyperparametern während des Trainings
Weitere Machine Learning-Algorithmen in R:
- Überblick über Random Forest und K-means erhalten
- Umsetzung der Algorithmen in R kennenlernen
- Ergebnisse der Algorithmen validieren und interpretieren
MethodeIn diesem Data Mining Training liegt der Fokus auf der praktischen Anwendung. Die Teilnehmer haben die Möglichkeit, eigenständig mit RStudio zu programmieren, um das Gelernte zu üben und eventuelle Unklarheiten sofort zu klären. Der Trainer steht zur Verfügung, um bei Lösungen zu unterstützen und weiterführende Fragen zu beantworten.