اباتشي سبارك مع Hadoop - لماذا يهم؟

يشير تنفيذ Apache Spark مع Hadoop على نطاق واسع من قبل كبرى الشركات إلى نجاحها وإمكاناتها عندما يتعلق الأمر بالمعالجة في الوقت الفعلي.

Hadoop ، إطار عمل معالجة البيانات الذي أصبح نظامًا أساسيًا في حد ذاته ، يصبح أفضل عندما يتم ربط المكونات الجيدة به. تشتهر بعض أوجه القصور في Hadoop ، مثل مكون MapReduce في Hadoop بكونه بطيئًا في تحليل البيانات في الوقت الفعلي.





أدخل Apache Spark ، محرك معالجة البيانات المستند إلى Hadoop المصمم لكل من أعباء العمل المجمعة والمتدفقة ، الآن في نسخته 1.0 ومجهز بميزات تجسد أنواع العمل الذي يتم دفع Hadoop لتضمينه. يعمل Spark فوق مجموعات Hadoop الحالية لتوفير وظائف محسنة وإضافية.

دعونا نلقي نظرة على ميزات سبارك الرئيسية وكيف تعمل مع Hadoop و .



فوائد Apache Spark الرئيسية:

img2-R

ميزات Spark الرائعة:

  • تكامل Hadoop - يمكن أن يعمل Spark مع الملفات المخزنة في HDFS.
  • سبارك التفاعلية شل - تمت كتابة Spark بلغة Scala ، ولها نسختها الخاصة من مترجم Scala.
  • جناح سبارك التحليلي - يأتي Spark مزودًا بأدوات لتحليل الاستعلام التفاعلي ومعالجة الرسوم البيانية وتحليلها على نطاق واسع والتحليل في الوقت الفعلي.
  • مجموعات البيانات الموزعة المرنة (RDD’s) - RDD هي كائنات موزعة يمكن تخزينها مؤقتًا في الذاكرة ، عبر مجموعة من العقد الحسابية. هم كائنات البيانات الأساسية المستخدمة في Spark.
  • الموزعين العاملين - إلى جانب MapReduce ، هناك العديد من العوامل الأخرى التي يمكن للمرء استخدامها على RDD.

مزايا استخدام Apache Spark مع Hadoop:

نوع بيانات التاريخ SQL
  • يناسب Apache Spark مجتمع Hadoop مفتوح المصدر ، بناء على نظام الملفات الموزعة Hadoop (HDFS). ومع ذلك ، لا يرتبط Spark بنموذج MapReduce ذي المرحلتين ، ويعد بأداء يصل إلى 100 مرة أسرع من Hadoop MapReduce لتطبيقات معينة.



  • مناسب تمامًا لخوارزميات التعلم الآلي - يوفر Spark أساسيات للحوسبة العنقودية في الذاكرة والتي تسمح لبرامج المستخدم بتحميل البيانات في ذاكرة المجموعة والاستعلام عنها بشكل متكرر.

  • تشغيل أسرع 100 مرة - Spark ، يمكن لبرنامج التحليل أيضًا تسريع المهام التي تعمل على نظام معالجة البيانات Hadoop. يوفر Apache Spark ، الذي يطلق عليه 'سكين الجيش السويسري Hadoop' ، القدرة على إنشاء وظائف تحليل البيانات التي يمكن تشغيلها أسرع 100 مرة من تلك التي تعمل على Apache Hadoop MapReduce القياسي. تم انتقاد MapReduce على نطاق واسع باعتباره عنق الزجاجة في مجموعات Hadoop لأنه ينفذ الوظائف في وضع الدُفعات ، مما يعني أن التحليل في الوقت الفعلي للبيانات غير ممكن.

  • بديل لـ MapReduce - يوفر Spark بديلاً لـ MapReduce. ينفذ الوظائف في دفعات قصيرة من الدفعات الصغيرة تفصل بينها خمس ثوانٍ أو أقل. كما أنه يوفر مزيدًا من الاستقرار مقارنة بأطر Hadoop في الوقت الفعلي والموجهة نحو التدفق مثل Twitter Storm. يمكن استخدام البرنامج لمجموعة متنوعة من الوظائف ، مثل التحليل المستمر للبيانات الحية وبفضل مكتبة البرامج ، وظائف أكثر عمقًا من الناحية الحسابية تتضمن التعلم الآلي ومعالجة الرسم البياني.

  • دعم للغات متعددة - باستخدام Spark ، يمكن للمطورين كتابة وظائف تحليل البيانات في Java أو Scala أو Python ، باستخدام مجموعة من أكثر من 80 مشغلًا رفيع المستوى.

  • دعم المكتبة - تم تصميم مكتبات Spark لتكمل أنواع وظائف المعالجة التي يتم استكشافها بشكل أكثر قوة مع أحدث عمليات النشر المدعومة تجاريًا لـ Hadoop. يطبق MLlib عددًا كبيرًا من خوارزميات التعلم الآلي الشائعة ، مثل تصنيف Bayesian الساذج أو التجميع ، يتيح Spark Streaming معالجة عالية السرعة للبيانات التي يتم استيعابها من مصادر متعددة ويتيح GraphX ​​إجراء عمليات حسابية على بيانات الرسم البياني.

  • API مستقرة - مع الإصدار 1.0 ، يوفر Apache Spark واجهة برمجة تطبيقات مستقرة (واجهة برمجة التطبيقات) ، والتي يمكن للمطورين استخدامها للتفاعل مع Spark من خلال تطبيقاتهم الخاصة. يساعد هذا في استخدام Storm بسهولة أكبر في النشر المستند إلى Hadoop.

  • مكون سبارك SQL - مكوّن Spark SQL للوصول إلى البيانات المنظمة ، يسمح باستجواب البيانات جنبًا إلى جنب مع البيانات غير المنظمة في العمل التحليلي. يسمح Spark SQL ، الموجود فقط في ألفا في الوقت الحالي ، بتشغيل الاستعلامات المشابهة لـ SQL مقابل البيانات المخزنة في Apache Hive. يعد استخراج البيانات من Hadoop عبر استعلامات SQL متغيرًا آخر لوظيفة الاستعلام في الوقت الفعلي التي تظهر حول Hadoop.

  • توافق Apache Spark مع Hadoop [HDFS و HBASE و YARN] - Apache Spark متوافق تمامًا مع نظام الملفات الموزعة Hadoop (HDFS) ، وكذلك مع مكونات Hadoop الأخرى مثل YARN (مفاوض آخر عن الموارد) وقاعدة بيانات HBase الموزعة.

    أنواع التعليقات في جافا

متبني الصناعة:

قامت شركات تكنولوجيا المعلومات مثل Cloudera و Pivotal و IBM و Intel و MapR بتجميع Spark في حزم Hadoop الخاصة بهم. تقدم Databricks ، وهي شركة أسسها بعض مطوري Spark ، دعمًا تجاريًا للبرنامج. يستخدم كل من Yahoo و NASA ، من بين آخرين ، البرنامج لعمليات البيانات اليومية.

خاتمة:

لا بد أن ما تقدمه Spark سيكون نقطة جذب كبيرة لكل من المستخدمين والبائعين التجاريين لـ Hadoop. ينجذب المستخدمون الذين يتطلعون إلى تطبيق Hadoop والذين قاموا بالفعل ببناء العديد من أنظمة التحليلات الخاصة بهم حول Hadoop إلى فكرة القدرة على استخدام Hadoop كنظام معالجة في الوقت الفعلي.

كيفية الإدلاء بمضاعفة كثافة العمليات في جافا

يوفر Spark 1.0 لهم مجموعة متنوعة أخرى من الوظائف لدعم أو إنشاء عناصر ملكية حولها. في الواقع ، كان أحد أكبر ثلاثة بائعي Hadoop ، Cloudera ، يقدم بالفعل الدعم التجاري لشركة Spark عبر عرض Cloudera Enterprise. تقدم Hortonworks أيضًا Spark كمكون لتوزيع Hadoop. يشير تنفيذ Spark على نطاق واسع من قبل كبرى الشركات إلى نجاحها وإمكاناتها عندما يتعلق الأمر بالمعالجة في الوقت الفعلي.

لديك سؤال لنا؟ أذكرها في قسم التعليقات وسنعاود الاتصال بك.

المنشورات ذات الصلة: