Die optimale Infrastruktur für die Big-Data-Analyse - Technik - Heise Partnerzones Technik . Big Data, No SQL, Hadoop, Intel, Datenverarbeitung, Datenflut, Business Intelligence, BI . Mit den Technologien von Intel lassen sich große Mengen unstrukturierter Daten (Big Data) schnell und effizient analysieren. Details dazu erfahren Sie in dieser Partnerzone. /styles/zones/basis.css

Big Data - so beherrschen Sie die Datenflut

Die optimale Infrastruktur für die Big-Data-Analyse

Dieses Whitepaper erläutert genau, wie Sie das Maximum an Leistung aus einer Hadoop-Installation für die Big-Data-Analyse herausholen und gleichzeitig die Gesamtkosten minimieren.

Das Open-Source-Framework Hadoop erfreut sich zunehmender Beliebtheit, wenn es um die Verarbeitung und Analyse extrem großer Datenmengen geht. Hadoop-Installationen können jedoch sehr hohe Anforderungen an die Infrastruktur stellen, falsche Entscheidungen bei der Wahl von Hard- und Software die Gesamtkosten erheblich in die Höhe treiben.

Wer seine Ressourcen für die Big-Data-Analyse optimal nutzen möchte, kommt deshalb um ein Feintuning seiner Hadoop-Cluster nicht herum. Intel hat umfassende Tests in seine Laboratorien durchgeführt und lässt mit diesem Whitepaper den Leser an den Erkenntnissen teilhaben. Sie erfahren unter anderem:

- Welche Server-Hardware Sie einsetzen sollten

- Welches Betriebssystem und welche Version der Java Virtual Machine für Hadoop am besten geeignet ist

- Welche Hadoop-Version die Richtige ist

- Wie Sie durch die richtige Konfiguration und durch das richtige Feintuning das Maximum aus Ihrer Hadoop-Installation herausholen.

Vorschauseite:

 - Zum Vergrößern bitte anklicken

Zum Vergrößern bitte anklicken

Textprobe:

3 Server Hardware Configurations

One of the most important decisions in planning a Hadoop infrastructure deployment is the number, type, and configuration of the servers to be installed in the cluster. While the hardware considerations in this section are generally applicable to all servers in the Hadoop cluster, the focus here is on the slave nodes, which represent the majority of the infrastructure.

As with other workloads, depending on the specific Hadoop application, computation may be bound by I/O, memory, or processor resources. System-level hardware must be adjusted on a case-by-case basis, but the general guidelines suggested in this section provide a point of departure for that fine-tuning.

3.1 Choosing a Server Platform

Typically, dual-socket servers are optimal for Hadoop deployments. Servers of this type are generally more efficient, from a per-node, cost-benefit perspective, than large-scale multi-processor platforms for massively distributed implementations such as Hadoop. Similarly, dual-socket servers more than offset the added per-node hardware cost relative to entry-level servers through superior efficiencies in terms of load-balancing and parallelization overheads. Choosing hardware based on the most current platform technologies available helps to ensure the optimal intra-server throughput and energy efficiency.

Den kompletten Text finden Sie im kostenlosen und registrierungsfreien Whitepaper-Download am Ende dieser Seite.

Whitepaper-Details
Dokumenten-Typ:PDF
Dateigröße:414 KB
Niveau:allgemeinverständlich
Zielgruppe:IT-Management/IT-Leitung