Cloudera Hadoop: البدء في توزيع CDH



ستمنحك مدونة Edureka هذه على برنامج Cloudera Hadoop التعليمي نظرة ثاقبة لمكونات Cloudera المختلفة مثل Cloudera Manager و Parcels و Hue وما إلى ذلك.

مع تزايد الطلب على البيانات الضخمة ، و Apache Hadoop هوفيقلب الثورة ، لقد غيرت الطريقة التي ننظم بها البيانات ونحسبها. أدت حاجة المنظمات إلى مواءمة Hadoop مع احتياجات أعمالها إلى ظهور التوزيعات التجارية. عادةً ما يتم حزم توزيعات Hadoop التجارية بميزات مصممة لتبسيط نشر Hadoop. يوفر Cloudera Hadoop Distribution نظامًا أساسيًا مرنًا وقابلًا للتطوير ومتكاملًا يجعل من السهل إدارة أحجام وأنواع البيانات المتزايدة بسرعة في مؤسستك.

في هذه المدونة على Cloudera Hadoop Distribution ، سنغطي الموضوعات التالية:





Cloudera Hadoop: مقدمة إلى Hadoop

Hadoop هو إطار عمل Apache مفتوح المصدر يقوم بتخزين ومعالجة البيانات الضخمة في بيئة موزعةعبر الالكتلة باستخدام نماذج البرمجة البسيطة. يوفر Hadoop حسابًا متوازيًا أعلى التخزين الموزع.لمعرفة المزيد حول Hadoop بالتفصيل من يمكنك الرجوع إلى هذا

بعد هذه المقدمة القصيرة لبرنامج Hadoop ، اسمحوا لي الآن أن أشرح الأنواع المختلفة لتوزيع Hadoop.



Cloudera Hadoop: توزيعات Hadoop

نظرًا لأن Apache Hadoop مفتوح المصدر ، فقد طورت العديد من الشركات توزيعات تتجاوز الكود الأصلي مفتوح المصدر. هذا مشابه جدًا لتوزيعات Linux مثل RedHat و Fedora و Ubuntu. تدعم كل توزيعات Linux وظائفها وميزاتها مثل واجهة المستخدم الرسومية سهلة الاستخدام في Ubuntu. وبالمثل ، قبعة حمراء تحظى بشعبية داخل المؤسسات لأنها تقدم الدعم وتوفر أيضًا أيديولوجية لإجراء تغييرات على أي جزء من النظام حسب الرغبة. يريحك Red Hat من مشاكل توافق البرامج. عادة ما تكون هذه مشكلة كبيرة للمستخدمينالذين ينتقلون من Windows.

وبالمثل ، هناك 3 أنواع رئيسية من توزيعات Hadoop التي لها مجموعة الوظائف والميزات الخاصة بها والتي تم إنشاؤها تحت HDFS الأساسي.

Cloudera vs MapR vs Hortonworks

التين: MapR vs Hortonworks vs Cloudera

التين: MapR vs Hortonworks vs Cloudera



توزيع Cloudera Hadoop

Cloudera هو اتجاه السوق في مساحة Hadoop وهو أول من أطلق توزيع Hadoop التجاري. يقدم خدمات استشارية لسد الفجوة بين - 'ما الذي تقدمه Apache Hadoop' و 'ما تحتاجه المنظمات'.

توزيع Cloudera هو:

  • سريع للعمل : من التحليلات إلى علم البيانات وكل شيء بينهما ، تقدم Cloudera الأداء الذي تحتاجه لإطلاق العنان لإمكانات البيانات غير المحدودة.
  • يجعل Hadoop سهل الإدارة : باستخدام Cloudera Manager ، تتيح لك المعالجات الآلية نشر مجموعتك بسرعة ، بغض النظر عن النطاق أو بيئة النشر.
  • آمن دون المساومة: يفي باحتياجات أمان البيانات الصارمة والامتثال دون التضحية بسلاسة الأعمال. يوفر Cloudera نهجا متكاملا لأمن البيانات والحوكمة.

هورتون وركس توزيع

منصة بيانات Horton-Works (HDP) عبارة عن نظام أساسي مفتوح المصدر بالكامل مصمم لمناورة البيانات من العديد من المصادر والتنسيقات. تتضمن المنصة العديد من أدوات Hadoop مثل Hadoop Distributed File System (HDFS) و MapReduce و Zookeeper و HBase و Pig و Hive ومكونات إضافية.

كما أنه يدعم ميزات مثل:

  • HDP يجعل Hive أسرع من خلال مشروعها الجديد Stinger.
  • HDP يتجنب قفل البائع من خلال التعهد بنسخة متشعبة من Hadoop.
  • يركز HDP على تحسين سهولة الاستخدام من منصة Hadoop.

توزيع MapR

MapR هي شركة تقدم حلول Hadoop تركز على النظام الأساسي ، تمامًا مثل HortonWorks و Cloudera. تدمج MapR نظام قاعدة البيانات الخاص بها ، والمعروف باسم MapR-DB أثناء تقديم خدمات توزيع Hadoop. يُزعم أن MapR-DB أسرع من أربع إلى سبع مرات من قاعدة بيانات Hadoop للمخزون ، أي HBase ، التي يتم تنفيذها على توزيعات أخرى.

لها ميزاتها المثيرة للاهتمام مثل:

  • إنه توزيع Hadoop الوحيد الذي يتضمن Pig و Hive و Sqoop بدون أي تبعيات لـ Java - لأنه يعتمد على نظام ملفات MapR.
  • MapR هو أكثر توزيع Hadoop جاهزًا للإنتاج مع العديد من التحسينات التي تجعله أكثر سهولة في الاستخدام وأسرع ويمكن الاعتماد عليه.

الآن دعونا نناقش توزيع Cloudera Hadoop بعمق.

اشترك في قناتنا على YouTube للحصول على تحديثات جديدة ...

Cloudera Hadoop: توزيع Cloudera

Cloudera هو أشهر لاعب في مساحة Hadoop لإطلاق أول توزيع Hadoop تجاري.

التين: توزيع Cloudera Hadoop

يدعم Cloudera Hadoop Distribution مجموعة الميزات التالية:

  1. يشتمل Cloudera's CDH على جميع المكونات مفتوحة المصدر ، ويستهدف عمليات النشر على مستوى المؤسسات ، وهو أحد أكثر توزيعات Hadoop التجارية شيوعًا.
  2. اشتهرت Cloudera بابتكاراتها ، وكانت أول من قدم SQL-for-Hadoop مع ل إمبالا محرك الاستعلام.
  3. وحدة الإدارة - مدير Cloudera ، سهل الاستخدام والتنفيذ مع واجهة مستخدم غنية تعرض جميع معلومات المجموعة بطريقة منظمة ونظيفة.
  4. في CDH ، يمكنك إضافة خدمات إلى الكتلة قيد التشغيل دون أي انقطاع.
  5. تشمل الإضافات الأخرى لـ Cloudera الأمان وواجهة المستخدم والواجهات للتكامل مع تطبيقات الطرف الثالث.
  6. يوفر CDH قوالب العقدة أي أنه يسمح بإنشاء مجموعة من العقد في مجموعة Hadoop بتكوين متنوع. إنه يلغي استخدام نفس التكوين في جميع أنحاء مجموعة Hadoop.
  7. كما أنه يدعم:
    • الموثوقية
      يتصرف بائعو Hadoop على الفور استجابةً عند اكتشاف خطأ. بهدف جعل الحلول التجارية أكثر استقرارًا ، يتم نشر التصحيحات والإصلاحات على الفور.
    • الدعم
      يوفر بائعو Cloudera Hadoop التوجيه الفني والمساعدة التي تسهل على العملاء استخدام Hadoop للمهام على مستوى المؤسسة والتطبيقات ذات المهام الحرجة.

    • الاكتمال
      يقرن بائعو Hadoop توزيعاتهم بالعديد من الأدوات الإضافية الأخرى التي تساعد العملاء على تخصيص تطبيق Hadoop لمعالجة مهامهم المحددة.

تأتي توزيعات Cloudera بنوعين مختلفين من الإصدارات.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

الآن دعونا نلقي نظرة على الاختلافات بينهما.

الميزات كلوديرا اكسبريس كلوديرا إنتربرايز
إدارة الكتلة
1. إدارة متعددة المجموعاتنعمنعم
2. إدارة المواردنعمنعم
تعيين
1. دعم CDH 4 و 5نعمنعم
2. التحديث المتداول لـ CDHلانعم
إدارة الخدمة والتكوين
1. إدارة خدمات HDFS و MapReduce و YARN و Impala و HBase و Hive و Hue و Oozie و Zookeeper و Solr و Spark و Accumuloنعمنعم
2. المتداول إعادة تشغيل الخدماتلانعم
الأمان
1. مصادقة LDAPلانعم
2. مصادقة SAMLلانعم
المراقبة والتشخيص
1. التاريخ الصحينعمنعم
إدارة التنبيه
1. تنبيه عبر البريد الإلكترونينعمنعم
2. تنبيه عبر SNMPلانعم
ميزات الإدارة المتقدمة
1. النسخ الاحتياطي والاسترداد الآليلانعم
2. ملف التصفح والبحثلانعم
3. تقارير استخدام MapReduce و Impala و HBase و Yarnلانعم

كلوديرا هادوب: مدير كلوديرا

وفقًا لـ Cloudera ، Cloudera Manager هو أفضل طريقة لذلك تثبيت و تهيئة و يدير و و مراقب مكدس Hadoop.

أنه يوفر:

  1. النشر والتكوين الآلي
  2. المراقبة والتقارير القابلة للتخصيص
  3. استكشاف الأخطاء وإصلاحها قوية دون عناء
  4. صفر - صيانة وقت التعطل

احصل على معرفة متعمقة حول Cloudera Hadoop وأدواته المختلفة

مظاهرة مدير Cloudera

دعونا نستكشف مدير Cloudera.

1. يوضح الشكل أدناه عدد الخدمات التي يتم تشغيلها حاليًا في Cloudera Manager. يمكنك أيضًا عرض الرسوم البيانية حول استخدام وحدة المعالجة المركزية العنقودية واستخدام Disk IO وما إلى ذلك.

التين: الصفحة الرئيسية لمدير Cloudera

ما هي مكونات منصة جافا؟

2. الصورة أدناه توضح كتلة HBase. يمنحك مخططات ورسوم بيانية حول الظروف الصحية لخادم HBase REST قيد التشغيل حاليًا.

Fig: الشروط الصحية لخادم HBase

3. الآن ، دعنا نلقي نظرة على علامة تبويب المثيلات لمجموعة HBase حيث يمكنك التحقق من الحالة وتكوين IP.

الشكل: حالة وعنوان IP للخادم المضيف لمجموعة HBase

4. بعد ذلك ، لديك علامة التبويب 'تكوين'. هنا يمكنك رؤية جميع معلمات التكوين وتغيير قيمها.

التين: تكوين كتلة HBase

الآن ، دعونا نفهم ما هي الطرود في كلوديرا.

كلوديرا هادوب: طرود

الطرد هو تنسيق توزيع ثنائي يحتوي على ملفات البرنامج ، إلى جانب البيانات الوصفية الإضافية التي يستخدمها Cloudera Manager.

الطرود قائمة بذاتها ويتم تثبيتها في دليل ذي إصدارات ، مما يعني أنه يمكن تثبيت إصدارات متعددة من خدمة معينة جنبًا إلى جنب.

فيما يلي فوائد استخدام Parcel:

  • يوفر توزيع CDH ككائن واحد ، أي بدلاً من وجود حزمة منفصلة لكل جزء من CDH ، تحتوي الطرود على كائن واحد لتثبيته.

  • إنه يوفر تناسقًا داخليًا (نظرًا لتوزيع CDH الكامل كطرد واحد ، تتم مطابقة جميع مكونات CDH ولن يكون هناك خطر من ظهور أجزاء مختلفة من إصدارات مختلفة من CDH).

  • يمكنك تثبيت الطرود وترقيتها وتقليلها وتوزيعها وتنشيطها في CDH باستخدام نقرات قليلة.

الآن ، دعونا نرى كيفية تثبيت وتنشيط خدمة كافكا في CDH باستخدام الطرود.

  1. انتقل إلى الصفحة الرئيسية لمدير Cloudera >> المضيفون >> الطرود كما هو موضح أدناه

    التين: اختيار الطرود من المضيفين

2. إذا كنت لا ترى كافكا في قائمة الطرود ، يمكنك إضافة الطرد إلى القائمة.

  1. ابحث عن حزمة نسخة كافكا التي تريد استخدامها. إذا لم تره ، يمكنك إضافة مستودع الطرود إلى القائمة.
  2. ابحث عن طرد إصدار كافكا الذي تريد تثبيته - توزيع Cloudera لإصدارات أباتشي كافكا .
    الشكل أدناه يوضح نفس الشيء.

الشكل: مسار المستودع للطرد.

3. انسخ الرابط كما هو موضح في الشكل أعلاه وأضفه إلى مستودع الطرود البعيد كما هو موضح أدناه.

شكل: إضافة مسار كافكا من المستودع

أربعة.بعد إضافة المسار ، سيكون كافكا جاهزًا للتنزيل. يمكنك فقط النقر فوق زر التنزيل وتنزيل ملف كافكا.

التين: تحميل ملف كافكا

5. بمجرد تنزيل كافكا ، كل ما عليك فعله هو توزيعه وتفعيله.

التين: تفعيل كافكا

بمجرد تنشيطه ، يمكنك المضي قدمًا وعرض كافكا في علامة تبويب الخدمات في مدير Cloudera.

التين: خدمة كافكا

Cloudera Hadoop: إنشاء سير عمل Oozie

يعد إنشاء سير عمل عن طريق كتابة كود XML يدويًا ثم تنفيذه أمرًا معقدًا. يمكنك الرجوع إلى هذا جدولة وظيفة Oozie مدونة للتعرف على النهج التقليدي.

يمكنك رؤية الصورة أدناه ، حيث كتبنا ملف XML لإنشاء سير عمل Oozie بسيط. الشكل: إنشاء سير عمل Oozie باستخدام نهج تقليدي

كما ترون حتى لإنشاء برنامج Oozie جدولة بسيط ، كان علينا كتابة كود XML ضخم يستغرق وقتًا طويلاً ، وتصحيح أخطاء كل سطر يصبح مرهقًا. للتغلب على هذا ، قدم Cloudera Manager ميزة جديدة تسمى مسحة الذي يوفر واجهة المستخدم الرسومية وميزات السحب والإفلات البسيطة لإنشاء وتنفيذ مهام سير عمل Oozie.

دعنا الآن نرى كيف يؤدي Hue نفس المهمة بطريقة مبسطة.

قبل إنشاء سير العمل ، دعنا أولاً ننشئ ملفات الإدخال ، مثل clickstream.txt و user.txt.
في ملف user.txt ، لدينا معرف المستخدم والاسم والعمر والبلد والجنس كما هو موضح أدناه. نحتاج إلى ملف المستخدم هذا لمعرفة عدد المستخدمين والنقر على عنوان URL (المذكور في ملف clickstream) بناءً على هوية المستخدم.

التين: إنشاء ملف نصي

من أجل معرفة عدد نقرات المستخدم على كل عنوان URL ، لدينا مجموعة نقرات تحتوي على هوية المستخدم وعنوان URL.

التين: ملف Clickstream

دعنا نكتب الاستعلامات في ملف البرنامج النصي.

التين: ملف البرنامج النصي

بعد إنشاء ملف المستخدم وملف النقر وملف البرنامج النصي بعد ذلك ، يمكننا المضي قدمًا وإنشاء سير عمل Oozie.

1. يمكنك ببساطة سحب وإسقاط سير عمل Oozie كما هو موضح في الصورة.

الشكل: ميزة السحب والإفلات لإنشاء سير عمل Oozie

2. بعد وقت قصير من إسقاط الإجراء الخاص بك ، يجب عليك تحديد المسارات إلى ملف البرنامج النصي وإضافة المعلمات المذكورة في ملف البرنامج النصي. هنا تحتاج إلى إضافة معلمات OUTPUT و CLICKSTREAM و USER وتحديد المسار لكل من المعلمات.

الشكل: إضافة ملف نصي والمعلمات المطلوبة لتنفيذ الإجراء

3. بمجرد تحديد المسارات وإضافة المعلمات ، قم الآن ببساطة بحفظ سير العمل وإرساله كما هو موضح في الصورة أدناه.

الشكل: حفظ وتقديم إجراء Oozie

4. بمجرد إرسال المهمة ، تكتمل وظيفتك. يتم تنفيذ التنفيذ والخطوات الأخرى بواسطة Hue.

الشكل: حالة تنفيذ وظيفة Oozie

5.الآن بعد أن قمنا بتنفيذ مهمة Oozie ، دعنا نلقي نظرة على علامة تبويب الإجراء. يحتوي على معرف المستخدم وحالة سير العمل. يعرض أيضًا رموز الخطأ ، إن وجدت ، وقت البدء والانتهاء لعنصر العمل.

الشكل: العناصر الموجودة في علامة تبويب الإجراء لسير عمل Oozie

6. بجانب علامة تبويب الإجراء توجد علامة تبويب التفاصيل. في هذا ، يمكننا أن نرى وقت البدء ووقت آخر تعديل للوظيفة.

الشكل: تفاصيل سير عمل Oozie.

7. بجانب علامة التبويب 'التفاصيل' ، لدينا علامة التبويب 'تكوين' لسير العمل.

تالند استوديو تعليمي مفتوح pdf

الشكل: إعدادات التكوين لسير عمل Oozie

7. أثناء تنفيذ عنصر العمل ، إذا كان هناك أي أخطاء ، فسيتم إدراجه في علامة التبويب السجل. يمكنك الرجوع إلى عبارات الخطأ وتصحيحها وفقًا لذلك.

الشكل: ملف السجل الذي يحتوي على رموز الخطأ وبيانات الخطأ

8. هنا رمز XML لسير العمل الذي تم إنشاؤه تلقائيًا بواسطة Hue.

الشكل: كود XML لسير عمل Oozie

9.1 نظرًا لأنك حددت بالفعل مسار دليل الإخراج في الخطوة 2 ، فلديك هنا دليل الإخراج في متصفح HDFS كما هو موضح أدناه.

Fig: دليل إخراج متصفح HDFS

9.2 بمجرد النقر فوق دليل الإخراج ، ستجد ملفًا نصيًا باسم output.txt وهذا الملف النصي يحتوي على الإخراج الفعلي كما هو موضح في الشكل أدناه.

الشكل: نص الإخراج النهائي

هذه هي الطريقة التي تجعل Hue عملنا بسيطًا من خلال توفير خيارات السحب والإفلات لإنشاء سير عمل Oozie.

آمل أن تكون هذه المدونة مفيدة لفهم توزيع Cloudera ومكونات Cloudera المختلفة.

هل تريد المشاركة في ثورة البيانات الضخمة؟

الآن بعد أن فهمت Cloudera Hadoop Distribution ، تحقق من ملف من Edureka ، وهي شركة تعليمية موثوقة عبر الإنترنت مع شبكة تضم أكثر من 250000 متعلم راضٍ منتشرين في جميع أنحاء العالم. تساعد الدورة التدريبية لشهادة Edureka Big Data Hadoop المتعلمين على أن يصبحوا خبراء في مجال HDFS ، و Yarn ، و MapReduce ، و Pig ، و Hive ، و HBase ، و Oozie ، و Flume ، و Sqoop باستخدام حالات الاستخدام في الوقت الفعلي في مجال البيع بالتجزئة ، والوسائط الاجتماعية ، والطيران ، والسياحة ، والمالية

لديك سؤال لنا؟ يرجى ذكر ذلك في قسم التعليقات وسنعاود الاتصال بك.