Wéi installéiere an installéieren Apache Spark op Ubuntu/Debian

Apache Spark ass en Open-Source verdeelt computational Kader deen erstallt ass fir méi séier computational Resultater ze bidden. Et ass en In-Memory Computational Motor, dat heescht datt d'Donnéeën an der Erënnerung veraarbecht ginn.

Spark ënnerstëtzt verschidde APIe fir Streaming, Grafikveraarbechtung, SQL, MLLib. Et ënnerstëtzt och Java, Python, Scala, a R als déi léifste Sproochen. Spark ass meeschtens an Hadoop Cluster installéiert, awer Dir kënnt och Spark am Standalone Modus installéieren an konfiguréieren.

An dësem Artikel wäerte mir kucken wéi Dir Apache Spark an Debian an Ubuntu-baséiert Verdeelungen installéiere wëllt.

Installéiert Java a Scala an Ubuntu

Fir Apache Spark an Ubuntu z'installéieren, musst Dir Java a Scala op Ärer Maschinn installéiert hunn. Déi meescht vun de modernen Verdeelunge kommen mat Java als Standard installéiert an Dir kënnt et verifizéieren mat dem folgenden Kommando.

$ java -version

Wann keen Ausgang, kënnt Dir Java mat eisem Artikel installéieren wéi Dir Java op Ubuntu installéiere wëllt oder einfach déi folgend Kommandoen ausféieren fir Java op Ubuntu an Debian-baséiert Verdeelungen z'installéieren.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

Als nächst kënnt Dir Scala vum apt Repository installéieren andeems Dir déi folgend Kommandoen ausféiert fir no Scala ze sichen an z'installéieren.

$ sudo apt search scala  ⇒ Search for the package
$ sudo apt install scala ⇒ Install the package

Fir d'Installatioun vu Scala z'iwwerpréiwen, fuert de folgende Kommando.

$ scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Installéiert Apache Spark an Ubuntu

Gitt elo op den offiziellen wget Kommando fir d'Datei direkt am Terminal erofzelueden.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Elo öffnen Ären Terminal a schalt op wou Är erofgeluede Datei plazéiert ass a lafen de folgende Kommando aus fir d'Apache Spark Tar Datei ze extrahieren.

$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Endlech, réckelt den extrahéierten Spark Verzeichnis op/opt Verzeechnes.

$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Konfiguréieren Ëmweltvariablen fir Spark

Elo musst Dir e puer Ëmweltvariablen an Ärem .profile-Datei setzen ier Dir de Spark starten.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Fir sécherzestellen datt dës nei Ëmfeldvariablen an der Shell erreechbar sinn a fir Apache Spark verfügbar sinn, ass et och obligatoresch fir de folgende Kommando auszeféieren fir rezent Ännerungen a Kraaft ze huelen.

$ source ~/.profile

All d'Spark-verbonne Binären fir d'Servicer ze starten an ze stoppen sinn ënner dem sbin-Ordner.

$ ls -l /opt/spark

Start Apache Spark an Ubuntu

Fëllt de folgende Kommando aus fir de Spark Master Service a Sklave Service ze starten.

$ start-master.sh
$ start-workers.sh spark://localhost:7077

Wann de Service gestart ass, gitt op de Browser a gitt déi folgend URL Zougang Spark Säit. Vun der Säit kënnt Dir gesinn datt mäi Meeschter a Sklave Service ugefaang ass.

http://localhost:8080/
OR
http://127.0.0.1:8080

Dir kënnt och kucken ob Spark-Shell gutt funktionnéiert andeems Dir de Spark-Shell Kommando lancéiert.

$ spark-shell

Dat ass et fir dësen Artikel. Mir fänken Iech geschwënn mat engem aneren interessanten Artikel.