Trainings-Cluster mit Raspberry Pi, VirtualBox, AWS

Dieser erste Teil des Big Data Trainings zeigt in drei Tutorials drei verschiedene Möglichkeiten, eine solche Übungsumgebung zu schaffen:

  • mit Raspberry Pi
  • mit virtuellen Maschinen, z.B. mit VirtualBox
  • oder in der Cloud, beispielsweise bei AWS (Amazon).

Mit jedem der drei Tutorials wird eine Übungsumgebung so aufgebaut, dass die nachfolgenden Teile des Big Data Trainings für alle drei Umgebungstypen gleichermaßen gültig sind.

Tutorial 1 zeigt die Variante mit Raspberry Pi. Wer andere Single Board Computers vorzieht, kann das Vorgehen auch darauf adaptieren. Diese Variante kommt dem produktiven Aufbau einer eigenen Server-Farm am nächsten. Schritt für Schritt wird ein Cluster aus Raspberry Pi geplant, abgebaut und mit dem inhouse LAN verbunden.

Tutorial 2 baut eine Übungsumgebung mit virtuellen Maschinen anhand von Virtual Box. Das gezeigte Vorgehen kann auch auf andere Virtualisierungen angepasst werden. Diese Variante ist lediglich für den Übungsbetrieb sinnvoll und auch nur dann, wenn der dazu eingesetzte Laptop oder PC über genügend Ressourcen verfügt. Es wird gezeigt, wie ein Cluster aus virtuellen Maschinen aufgebaut wird und wie man vom Laptop/PC aus darauf zugreift.

Tutorial 3 zeigt den Aufbau einer Übungsumgebung in der Cloud, genauer bei AWS, Amazon Web Services. Es werden mehrere AWS Instanzen aufgebaut und miteinander vernetzt. Der in Tutorial 3 gezeigte Ansatz ist nur Mittel zum Zweck, um eine Grundlage für die folgenden Teile des Big Data Trainings zu schaffen. Wer mit seiner Big-Data-Anwendung in die Cloud geht, wird die vom Anbieter vorgefertigten Komponenten beziehen. Das Big Data Training jedoch erklärt, wie diese Komponenten funktionieren und zusammenhängen.

Alle drei Umgebungen sind hervorragend dazu geeignet Big Data Technologien hautnah kennen zu lernen, ohne gleich Datenmengen im Tera- oder Petabyte-Bereich zu verarbeiten. Das so Gelernte wird man einfach in der Praxis anwenden können.

Für wen ist das Buch?

Das Big Data Training richtet sich an Informatikerinnen und Informatiker die Grundkenntnisse in Linux mitbringen. Insbesondere wird die Fähigkeit, einen kommandozeilenorientierten Editors wie vi oder nano zu bedienen, wird vorausgesetzt. Ebenso vorausgesetzt wird das grundlegende Verständnis über den Aufbau von Computern und Netzwerken. Begriffe wie IP-Adressen, ssh sollten keine Fremdwörter sein.In den nachfolgenden Teilen des Big Data Trainings wird diese Übungsumgebung verwendet, um verschiedene Big Data Tools zu installieren und durch konkrete Trainings kennen zu lernen. So können die in der Theorie vermittelten Konzepte hands-on ausprobiert werden.

Der vorliegende erste Teil ist Grundlage für die praktischen Trainings in den folgenden Teilen des Big Data Trainings.