Wéi installéiere a konfiguréieren Apache Hadoop op engem eenzegen Node an CentOS 7


Apache Hadoop ass en Open Source Kader gebaut fir verdeelt Big Data Späicheren a Veraarbechtung vun Daten iwwer Computercluster. De Projet baséiert op de folgende Komponenten:

  1. Hadoop Common - et enthält d'Java Bibliothéiken an Utilities, déi vun aneren Hadoop Moduler gebraucht ginn.
  2. HDFS - Hadoop Distributed File System - E Java-baséiert skalierbare Dateiesystem verdeelt iwwer verschidde Noden.
  3. MapReduce - YARN Kader fir parallel Big Data Veraarbechtung.
  4. Hadoop YARN: E Kader fir Cluster Ressource Management.

Dësen Artikel wäert Iech guidéieren wéi Dir Apache Hadoop op engem eenzegen Node-Cluster an CentOS 7 installéiere kënnt (schafft och fir RHEL 7 a Fedora 23+ Versiounen). Dës Aart vu Konfiguratioun gëtt och als Hadoop Pseudo-Verdeelt Modus bezeechent.

Schrëtt 1: Installéiert Java op CentOS 7

1. Ier Dir mat der Java-Installatioun weidergeet, loggt Iech als éischt mat root Benotzer oder e Benotzer mat Root Privilegien Äre Maschinn Hostnumm mat dem folgenden Kommando op.

# hostnamectl set-hostname master

Füügt och en neie Rekord an der Hostdatei mat Ärer eegener Maschinn FQDN fir op Är System IP Adress ze weisen.

# vi /etc/hosts

Füügt déi ënnescht Linn derbäi:

192.168.1.41 master.hadoop.lan

Ersetzt den uewe genannte Hostnumm an FQDN records mat Ären eegenen Astellungen.

2. Als nächst gitt op d'Oracle Java Download Säit a gräift déi lescht Versioun vum Java SE Development Kit 8 op Ärem System mat der Hëllef vum Curl Kommando:

# curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Nodeems de Java binäre Download fäerdeg ass, installéiere de Package andeems Dir de folgende Kommando ausgitt:

# rpm -Uvh jdk-8u92-linux-x64.rpm

Schrëtt 2: Hadoop Framework an CentOS 7 installéieren

4. Als nächst erstellt en neie Benotzerkont op Ärem System ouni Root-Kraaft, déi mir et fir Hadoop Installatiounswee an Aarbechtsëmfeld benotzen. Den neie Kont Heemverzeechnes wäert am /opt/hadoop Verzeechnes wunnen.

# useradd -d /opt/hadoop hadoop
# passwd hadoop

5. Op de nächste Schrëtt besicht Apache Hadoop Säit fir de Link fir déi lescht stabil Versioun ze kréien an d'Archiv op Ärem System erofzelueden.

# curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz 

6. Extrait den Archiv d'Kopie vum Verzeechnes Inhalt op hadoop Kont Heemwee. Gitt och sécher datt Dir déi kopéiert Dateie Permissiounen deementspriechend ännert.

#  tar xfz hadoop-2.7.2.tar.gz
# cp -rf hadoop-2.7.2/* /opt/hadoop/
# chown -R hadoop:hadoop /opt/hadoop/

7. Als nächst loggt Dir Iech mam hadoop Benotzer un a konfiguréiert Hadoop a Java Ëmweltvariablen op Ärem System andeems Dir d'Datei .bash_profile ännert.

# su - hadoop
$ vi .bash_profile

Fügt déi folgend Zeilen um Enn vun der Datei un:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Elo initialiséiert d'Ëmfeldvariablen a kontrolléiert hire Status andeems Dir déi folgend Kommandoen ausginn:

$ source .bash_profile
$ echo $HADOOP_HOME
$ echo $JAVA_HOME

9. Endlech, konfiguréieren ssh Schlëssel baséiert Authentifikatioun fir hadoop Kont andeems Dir déi folgend Kommandoen ausféiert (ersetzt den Hostnumm oder FQDN géint de Kommando ssh-copy-id entspriechend).

Loosst och de Passphrase eidel loosst fir automatesch iwwer ssh aloggen.

$ ssh-keygen -t rsa
$ ssh-copy-id master.hadoop.lan