Data Mining mit R - Seminar / Kurs von Dr. Haug Leuschner

Das Training führt in die Verfahren des Data Mining und deren Programmierung mit R anhand eines use cases ein.

Inhalte

Unter Data Mining wird die spezialisierte Anwendung bekannter statistischer Verfahren auf große Datenbestände (data warehouse) zur automatischen Generierung von Erkenntnissen über bestehende Datenbestände verstanden. Die im Data Mining eingesetzten multivariate Verfahren werden in Ihrer Analyse-Geschwindigkeit zu Ungunsten der Analyse-Genauigkeit angepasst, damit größere Datenmengen (big data) analysiert werden können. Die hierbei verwendeten Mining Verfahren und Mining Techniken (Ausreißererkennung, Clusteranalyse, Klassifikation, Assoziationsanalyse, Regressionsanalyse) finden vielfach auch Anwendung im Bereich des Machine Learning. In Abgrenzung zum Machine Learning geht es beim Data Mining jedoch um das Auffinden neuer Muster in bestehenden Datenbeständen, während es beim Machine Learning eher darum geht, bekannte Muster in neuen Datenbeständen zu finden. Die Inhalte dieses Seminars werden mit der statistischen Programmiersprache R vermittelt, die als eine der de-facto data science Programmiersprachen bereits mehr als zwei Millionen Nutzer und Nutzerinnen mit wachsender Tendenz hat. Aus diesem Grund bieten die meisten Anbieter von Software für data science bzw. predictive analytics Schnittstellen zu R an.Das 1tägige Vorbereitungs-Training Data Mining mit R wiederholt Grundlagen und führt in die Verwendung des R-Pakets data.table ein. Die mit diesem R-Paket erzeugten data.table entsprechen weitestgehend dem in R üblichen data.frame, können jedoch größere Datenmengen aufnehmen, sind wesentlich performanter, verkürzen die Rechenzeiten und lassen sich schneller programmieren.Das 2tägige Haupttraining Data Mining mit R vermittelt das theoretische Verständnis und die praktische Anwendung für wichtige der im Data Mining eingesetzten Verfahren. Für die Visualisierung der Ergebnisse werden die Grundlagen des graphischen R-Pakets ggplot2 vermittelt.

Inhalte:

Grundkenntnisse für Data Mining mit R
  • Hintergrund zu R und RStudio
  • Pakete installieren und laden
  • Datenstrukturen in R
  • Hilfe und weiterführende Informationen finden
  • Wie unterscheidet sich R von anderen Programmiersprachen
Das data mining Paket data.table
  • Struktur und Besonderheiten von data.table im Vergleich zum data.frame
  • Ähnlichkeit eines data.tables zu SQL Abfragen
  • Daten nach Zeilen und Spaltennamen abfragen
  • Berechnungen direkt auf Spalten durchführen
  • Abfragen gruppieren
Daten einlesen und konvertieren
  • Das Arbeitsverzeichnis zum Einlesen von Daten setzen
  • Daten aus verschiedenen Quellen einlesen (Websiten, txt, csv)
  • Daten aus fremden Quellen einlesen (SPSS)
  • fread(), um effizient große Datenmengen einzulesen
  • Daten als .RData speichern und laden
  • Abfragen aus einer Datenbank (SQLite)
Data handling (data.table)
  • Eine Spalte erzeugen, löschen, ändern
  • Zwischen Datentypen konvertieren
  • lapply() und die Anwendung in einem data.table (mit .SD und .SDcols)
Visualisierung von Daten mit dem Paket ggplot2
  • Grammar of Graphics und die grundlegende Idee dahinter
  • Scatterplot, Linienplot
  • Histogramm
  • Kerndichteschätzer
  • Barplot
  • Speichern von Grafiken
  • Darstellung (Größe der Datenpunkte, Farbe, Gruppierung) variable oder fest ändern
  • Subplots erzeugen (Facetting)
Grundlegende Statistiken
  • Deskriptive Statistiken
  • Korrelationen (Spearman, Pearson)
  • Zufallszahlen aus verschiedenen Verteilungen erzeugen
Fortgeschrittene Wege, ein data.table zu benutzen
  • Der := Operator in data.table zum Umformen von Daten
  • Eine Funktion auf eine Gruppe von Daten anwenden
  • Daten aggregieren
  • Filtern von Datensätzen anhand selbst gewählter Attribute
  • Ersetzen von fehlenden Werten
Control Flows
  • Schreiben einer eigenen Funktion
  • If und if-else
  • For Schleifen
  • While Schleife
Überblick über Machine Learning
  • Einführung in Machine Learning (Supervised – Unsupervised Learning. Overfitting, cross-validation)
  • Grundlegendes Konzept von den Algorithmen Support Vector Machine (SVM), Random Forest und K-means
  • Modelle der Algorithmen in R erstellen
  • Ergebnisse validieren
Detaillierte Umsetzung der Algorithmen Entscheidungsbaum und Logistische Regression
  • Grundlagen des Algorithmus
  • Train-Test Split der Daten
  • Ein Model in R erstellen
  • Validieren der Ergebnisse (u.a. confusion matrix, sensitivity, accuracy)
  • Hyperparameter im Training
  • cross-validation

Lernziele

Die Teilnehmer erhalten einen Überblick über R und die Entwicklungsumgebung RStudio und können erste Analysen mit R im Data Mining umsetzen. Die Schulung zielt darauf, die Einstiegshürde für die Anwendung von R im Data Science zu nehmen, indem die Teilnehmer überwiegend mit den eigenen Laptops und der Unterstützung des Trainers in R arbeiten, um das Erlernte direkt umzusetzen und anzuwenden. Ein selbstständiges Arbeiten als data scientist wird ermöglicht, indem die wesentlichen Konzepte von R vermittelt werden. Möglichkeiten weitergehende Algorithmen und Methoden zu finden werden aufgezeigt, um das Erlernte nach dem Seminar durch stetige Anwendung zu erweitern. Ein Überblick über bekannte Algorithmen im Machine Learning wird gegeben und die Teilnehmer können die verschiedenen Algorithmen voneinander differenzieren und in R benutzen.

Übungen: In den konkreten Beispielen und praktischen Übungen, welche selbstständig mit Unterstützung des Trainers bearbeitet werden, werden die vorhandenen Kenntnisse über die Programmiersprache R dahingehend ausgebaut, dass eine praktische Umsetzung und ein selbständiges Arbeiten im Bereich data science ermöglicht wird. Ein durchgehendes Datenbeispiel wird verwendet, um die wichtigsten Bibliotheken zu behandeln, welche in umfangreichen Übungen trainiert werden. Die Praxisbeispiele und Übungsaufgaben erfolgen mit der statistischen Programmiersprache R und der Entwicklungsumgebung RStudio, die auf dem eigenen Laptop installiert sein sollten.

Zielgruppen

Die Schulung richtet sich an Fachkräfte bzw. Projektleiter, zukünftige data scientists und Datenanalysten, die einen Einstieg in die R-Programmierung für Datenanalyse und Data-Mining wünschen, um eigenständig an data science Projekten mitarbeiten zu können oder ein Verständnis für R Code erhalten möchten.

Voraussetzungen: Es wird keine Erfahrung mit R vorausgesetzt. Grundlegende Erfahrung mit einer Programmiersprache erleichtert den Einstieg. Ein Basiswissen von einfachen statistischen Begriffen wie Mittelwert, Median, Perzentil, lineare Regression ist hilfreich (beispielsweise durch ein Besuch der Basis-Seminare von Grundlagen der Statistik mit R und Multivariate Datenanalyse mit R).

Termine und Orte

Datum Uhrzeit Dauer Preis
München, DE
16.10.2019 - 18.10.2019 09:00 - 17:00 Uhr 24 h Jetzt buchen ›
Stuttgart-Mitte, DE
09.12.2019 - 11.12.2019 09:00 - 17:00 Uhr 24 h Jetzt buchen ›

SG-Seminar-Nr.: 1785181

Anbieter-Seminar-Nr.: DMR-3

Termine

  • 16.10.2019 - 18.10.2019

    München, DE

  • 09.12.2019 - 11.12.2019

    Stuttgart-Mitte, DE

Preise inkl. MwSt. Es können Gebühren anfallen. Für eine exakte Preisauskunft wählen Sie bitte einen Termin aus.

Jetzt buchen ›
Seminar merken ›

Sie buchen immer automatisch den besten Preis für jeden Termin. Semigator berücksichtigt

  • Frühbucher-Preise
  • Last-Minute-Preise
  • Gruppenkonditionen

und verfügt über Sonderkonditionen mit einigen Anbietern.

Der Anbieter ist für den Inhalt verantwortlich.

Über Semigator mehr erfahren

  • Anbietervergleich von über 1.500 Seminaranbietern
  • Vollständige Veranstaltungsinformationen
  • Schnellbuchung
  • Persönlicher Service
Datum Uhrzeit Dauer Preis
München, DE
16.10.2019 - 18.10.2019 09:00 - 17:00 Uhr 24 h Jetzt buchen ›
Stuttgart-Mitte, DE
09.12.2019 - 11.12.2019 09:00 - 17:00 Uhr 24 h Jetzt buchen ›