Wéi installéiere an installéieren Apache Spark op Ubuntu/Debian
Apache Spark ass en Open-Source verdeelt computational Kader deen erstallt ass fir méi séier computational Resultater ze bidden. Et ass en In-Memory Computational Motor, dat heescht datt d'Donnéeën an der Erënnerung veraarbecht ginn.
Spark ënnerstëtzt verschidde APIe fir Streaming, Grafikveraarbechtung, SQL, MLLib. Et ënnerstëtzt och Java, Python, Scala, a R als déi léifste Sproochen. Spark ass meeschtens an Hadoop Cluster installéiert, awer Dir kënnt och Spark am Standalone Modus installéieren an konfiguréieren.
An dësem Artikel wäerte mir kucken wéi Dir Apache Spark an Debian an Ubuntu-baséiert Verdeelungen installéiere wëllt.
Installéiert Java a Scala an Ubuntu
Fir Apache Spark an Ubuntu z'installéieren, musst Dir Java a Scala op Ärer Maschinn installéiert hunn. Déi meescht vun de modernen Verdeelunge kommen mat Java als Standard installéiert an Dir kënnt et verifizéieren mat dem folgenden Kommando.
$ java -version
Wann keen Ausgang, kënnt Dir Java mat eisem Artikel installéieren wéi Dir Java op Ubuntu installéiere wëllt oder einfach déi folgend Kommandoen ausféieren fir Java op Ubuntu an Debian-baséiert Verdeelungen z'installéieren.
$ sudo apt update $ sudo apt install default-jre $ java -version
Als nächst kënnt Dir Scala vum apt Repository installéieren andeems Dir déi folgend Kommandoen ausféiert fir no Scala ze sichen an z'installéieren.
$ sudo apt search scala ⇒ Search for the package $ sudo apt install scala ⇒ Install the package
Fir d'Installatioun vu Scala z'iwwerpréiwen, fuert de folgende Kommando.
$ scala -version Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
Installéiert Apache Spark an Ubuntu
Gitt elo op den offiziellen wget Kommando fir d'Datei direkt am Terminal erofzelueden.
$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
Elo öffnen Ären Terminal a schalt op wou Är erofgeluede Datei plazéiert ass a lafen de folgende Kommando aus fir d'Apache Spark Tar Datei ze extrahieren.
$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
Endlech, réckelt den extrahéierten Spark Verzeichnis op/opt Verzeechnes.
$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark
Konfiguréieren Ëmweltvariablen fir Spark
Elo musst Dir e puer Ëmweltvariablen an Ärem .profile-Datei setzen ier Dir de Spark starten.
$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile $ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile $ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile
Fir sécherzestellen datt dës nei Ëmfeldvariablen an der Shell erreechbar sinn a fir Apache Spark verfügbar sinn, ass et och obligatoresch fir de folgende Kommando auszeféieren fir rezent Ännerungen a Kraaft ze huelen.
$ source ~/.profile
All d'Spark-verbonne Binären fir d'Servicer ze starten an ze stoppen sinn ënner dem sbin-Ordner.
$ ls -l /opt/spark
Start Apache Spark an Ubuntu
Fëllt de folgende Kommando aus fir de Spark Master Service a Sklave Service ze starten.
$ start-master.sh $ start-workers.sh spark://localhost:7077
Wann de Service gestart ass, gitt op de Browser a gitt déi folgend URL Zougang Spark Säit. Vun der Säit kënnt Dir gesinn datt mäi Meeschter a Sklave Service ugefaang ass.
http://localhost:8080/ OR http://127.0.0.1:8080
Dir kënnt och kucken ob Spark-Shell gutt funktionnéiert andeems Dir de Spark-Shell Kommando lancéiert.
$ spark-shell
Dat ass et fir dësen Artikel. Mir fänken Iech geschwënn mat engem aneren interessanten Artikel.