Hadoop ist ein Framework zum verteilten Speichern und parallelen Verarbeiten von großen Datenmengen („Big Data“) in horizontal verteilten Umgebungen. Die horizontale Skalierung („Scale out“) ist dabei eines der Grundprinzipien von Hadoop. Diese ermöglicht es große Datenmengen sicher und fehlertolerant auf bis zu mehreren Tausend Servern innerhalb eines Clusters zu verteilen.
Dabei kommen nicht mehr teure und spezielle Server („Scale up“) zum Einsatz, sondern es wird auf kostengünstige „Commodity Hardware“ gesetzt. Neben dem Speichern von großen Datenmengen ist das verteilte und parallele Verarbeiten dieser Daten eine weitere Kernaufgabe von Hadoop. Im BigData Umfeld gilt Hadoop als De-Facto Standard für Big-Data-Anwendungen.Contents
- Erste Übersicht über Hadoop und das ÖkoSystem
- Grundlagen der Cluster Architektur
- Grundlagen HDFS & MapReduce
- Grundlagen der Cluster Planung
- Übersicht über die Installationsmöglichkeiten
- Cluster Maintenance
- Hadoop Job Scheduling
Methode
Verhältnis zwischen Theorie und Praxis liegt bei 60% zu 40%
Requirements
Grundlegendes Verständnis von IT Architekturen ist hilfreich.
Hadoop ist ein Framework zum verteilten Speichern und parallelen Verarbeiten von großen Datenmengen („Big Data“) in horizontal verteilten Umgebungen. Die horizontale Skalierung („Scale out“) i ...
Mehr Informationen >>