34-seitiger Leitfaden: So bauen Sie eine Infrastruktur für die Big-Data-Analyse - Technik - Heise Partnerzones Technik . Big Data, No SQL, Hadoop, Intel, Datenverarbeitung, Datenflut, Business Intelligence, BI . Mit den Technologien von Intel lassen sich große Mengen unstrukturierter Daten (Big Data) schnell und effizient analysieren. Details dazu erfahren Sie in dieser Partnerzone. /styles/zones/basis.css

Big Data - so beherrschen Sie die Datenflut

34-seitiger Leitfaden: So bauen Sie eine Infrastruktur für die Big-Data-Analyse

Apache Hadoop ist ein Open-Source-Framework, mit dem sich große Datenmengen verarbeiten und analysieren lassen. Dieser Leitfaden erklärt, wie die Infrastruktur dahinter aussehen muss und wie sich die Leistung der vorgestellten Referenz-Architektur messen lässt.

Für die Analyse riesiger Datenmengen - Big Data genannt - sind herkömmliche relationale Datenbanken auf SQL-Basis nur sehr bedingt geeignet. Es haben sich deshalb No-SQL-Konzepte wie das Open Source Framework Apache Hadoop etabliert, die sich durch eine optimierte Nutzung verteilter Infrastruktur auszeichnen und sehr robust gegen den Ausfall einzelner Komponenten oder Knoten sind.

Dieser Leitfaden beschreibt ausführlich, wie sich auf Basis von Intel-Hardware eine Cloud-Infrastruktur zur Big-Data-Analyse mit Apache Hadoop aufsetzen lässt. Sie erfahren unter anderem Details zum Hadoop-Framework sowie dessen Komponenten und System-Architektur. Anhand von Schaubilder erläutert das Whitepaper, wie ein Hadoop Cluster funktioniert und wie ein entsprechender Hardware-Setup aussehen muss. Die Autoren testen die Referenz-Architektur mithilfe des TeraSort-Workload-Benchmarks und dem Intel Benchmark Install and Test Tool. Sowohl die Testmethoden als auch die Setup-Konfiguration werden ebenso ausführlich beschrieben wie die Ergebnisse des Tests. Zahlreiche Diagramme sowie ein Fazit runden das Informationsangebot ab.

Vorschauseite:

 - Zum Vergrößern bitte anklicken

Zum Vergrößern bitte anklicken

Textprobe:

Apache Hadoop is a framework for running applications on large cluster built using standard hardware. The Hadoop framework transparently provides applications both reliability and data motion. Hadoop implements a computational paradigm named MapReduce, where the application is divided into many small fragments of work, each of which may be executed or re-executed on any node in the cluster. In addition, it provides a distributed file system that stores data on the compute nodes, providing very high aggregate bandwidth across the cluster. Both MapReduce and the Hadoop Distributed File System (HDFS) are designed so that node failures are automatically tolerated by the framework.

Hadoop framework consists of three major components:

• Common: Hadoop Common is a set of utilities that support the Hadoop subprojects. Hadoop Common includes FileSystem, RPC, and serialization libraries.

• HDFS: The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware. It has many similarities with existing distributed file systems. However, the differences from other distributed file systems are significant. HDFS is highly fault-tolerant and is designed to be deployed on low-cost hardware. HDFS provides high throughput access to application data and is suitable for applications that have large data sets. HDFS can stream file system data.

Den kompletten Text finden Sie im kostenlosen und registrierungsfreien Whitepaper-Download am Ende dieser Seite.

Whitepaper-Details
Dokumenten-Typ:PDF
Dateigröße:8,46 MB
Niveau:allgemeinverständlich
Zielgruppe:IT-Management/IT-Leitung

Download zu diesem Artikel:

Intel_Cloud_Builders_Hadoop.pdf