كيفية تثبيت Apache Spark وإعداده على نظام Ubuntu / Debian

instagram story viewer

اباتشي سبارك هو إطار عمل حسابي موزع مفتوح المصدر تم إنشاؤه لتوفير نتائج حسابية أسرع. إنه محرك حسابي في الذاكرة ، مما يعني أن البيانات ستتم معالجتها في الذاكرة.

شرارة يدعم واجهات برمجة التطبيقات المختلفة للدفق ، ومعالجة الرسم البياني ، SQL ، MLLib. كما أنه يدعم Java و Python و Scala و R كلغات مفضلة. يتم تثبيت Spark في الغالب في مجموعات Hadoop ولكن يمكنك أيضًا تثبيت وتكوين شرارة في الوضع المستقل.

في هذه المقالة ، سنرى كيفية التثبيت اباتشي سبارك في ديبيان و أوبونتوالتوزيعات المستندة.

قم بتثبيت Java و Scala في Ubuntu

لتثبيت اباتشي سبارك في Ubuntu ، يجب أن يكون لديك جافا و سكالا مثبتة على جهازك. تأتي معظم التوزيعات الحديثة مع تثبيت Java افتراضيًا ويمكنك التحقق من ذلك باستخدام الأمر التالي.

جافا $ الإصدار. 
تحقق من إصدار Java في Ubuntu
تحقق من إصدار Java في Ubuntu

إذا لم يكن هناك إخراج ، يمكنك تثبيت Java باستخدام مقالتنا على كيفية تثبيت Java على Ubuntu أو قم ببساطة بتشغيل الأوامر التالية لتثبيت Java على التوزيعات المستندة إلى Ubuntu و Debian.

sudo apt update. sudo apt install default-jre. جافا $ الإصدار. 
قم بتثبيت Java في Ubuntu
قم بتثبيت Java في Ubuntu

بعد ذلك ، يمكنك تثبيت سكالا من apt repository عن طريق تشغيل الأوامر التالية للبحث عن scala وتثبيته.

$ sudo apt search scala ⇒ ابحث عن الحزمة. sudo apt install scala ⇒ قم بتثبيت الحزمة. 
قم بتثبيت Scala في أوبونتو
قم بتثبيت Scala في أوبونتو

للتحقق من تثبيت سكالا، قم بتشغيل الأمر التالي.

سكالا - الإصدار إصدار Scala code runner 2.11.12 - حقوق الطبع والنشر 2002-2017 ، LAMP / EPFL

قم بتثبيت Apache Spark في Ubuntu

اذهب الآن إلى المسؤول صفحة تنزيل Apache Spark واحصل على أحدث إصدار (أي 3.1.1) في وقت كتابة هذا المقال. بدلاً من ذلك ، يمكنك استخدام ملف أمر wget لتنزيل الملف مباشرة في الجهاز.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz. 

افتح الآن الجهاز الطرفي وانتقل إلى المكان الذي يتم فيه وضع الملف الذي تم تنزيله وقم بتشغيل الأمر التالي لاستخراج ملف Apache Spark tar.

tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz. 

أخيرًا ، انقل الملف المستخرج شرارة دليل إلى /opt الدليل.

$ sudo mv spark-3.1.1-bin-hadoop2.7 / opt / spark. 

تكوين المتغيرات البيئية لـ Spark

الآن عليك تعيين بعض المتغيرات البيئية في ملف .الملف الشخصي ملف قبل بدء الشرارة.

$ echo "export SPARK_HOME = / opt / spark" >> ~ /. Profile. $ echo "export PATH = $ PATH: / opt / spark / bin: / opt / spark / sbin" >> ~ / .profile. $ echo "export PYSPARK_PYTHON = / usr / bin / python3" >> ~ / .profile. 

للتأكد من إمكانية الوصول إلى متغيرات البيئة الجديدة هذه داخل shell ومتاحة لـ Apache Spark ، من الضروري أيضًا تشغيل الأمر التالي لتفعيل التغييرات الأخيرة.

مصدر $ ~ /. Profile. 

جميع الثنائيات المتعلقة بالشرارة لبدء الخدمات وإيقافها هي ضمن سبين مجلد.

$ ls -l / opt / spark. 
ثنائيات شرارة
ثنائيات شرارة

ابدأ Apache Spark في Ubuntu

قم بتشغيل الأمر التالي لبدء تشغيل ملف شرارة الخدمة الرئيسية وخدمة الرقيق.

$ start-master.sh. $ start-workers.sh spark: // localhost: 7077. 
ابدأ خدمة Spark
ابدأ خدمة Spark

بمجرد بدء الخدمة ، انتقل إلى المتصفح واكتب صفحة شرارة الوصول إلى عنوان URL التالي. من الصفحة ، يمكنك رؤية بدء خدمة السيد والعبد الخاص بي.

http://localhost: 8080/ أو. http://127.0.0.1:8080.
Spark Web Page
Spark Web Page

يمكنك أيضًا التحقق مما إذا كان شرارة يعمل بشكل جيد من خلال إطلاق شرارة قيادة.

شرارة شل. 
سبارك شل
سبارك شل

هذا كل ما في هذا المقال. سنلحق بك بمقال آخر مثير للاهتمام في وقت قريب جدًا.

Teachs.ru