كيفية إنشاء Hadoop Cluster باستخدام Amazon EMR؟



في هذه المقالة سوف نستكشف خدمة AWS EMR وفي هذه العملية سوف نتعلم كيفية إنشاء Hadoop Cluster باستخدام Amazon EMR؟

في هذه المقالة حول كيفية الإنشاء الكتلة باستخدام Amazon EMR ، سنرى كيفية تشغيل تطبيقات Hadoop والبيانات الضخمة وقياسها بسهولة. سيتم تغطية المؤشرات التالية في هذه المقالة ،

المضي قدمًا في كيفية إنشاء Hadoop Cluster باستخدام Amazon EMR؟





كيفية إنشاء Hadoop Cluster باستخدام Amazon EMR؟

عندما نبحث عن شيء ما في Google أو Yahoo ، نحصل على الاستجابة في جزء من الثانية. كيف يمكن أن تقوم Google و Yahoo ومحركات البحث الأخرى بإرجاع النتائج بهذه السرعة من الويب المتنامي باستمرار؟ تقوم محركات البحث بالزحف عبر الإنترنت وتنزيل صفحات الويب وإنشاء فهرس كما هو موضح أدناه. لأي استعلام منا ، يستخدمون الفهرس لمعرفة ما هي جميع صفحات الويب التي تحتوي على النص الذي كنا نبحث عنه. من خلال النظر إلى الفهرس أدناه على الجانب الأيمن ، يمكننا أن نعرف بوضوح أن Hadoop توجد صفحة ويب 1 و 2 و 3.

صورة - كيفية إنشاء Hadoop Cluster باستخدام Amazon EMR - Edurekaثم ، خوارزمية PageRanking يتم استخدامه استنادًا إلى كيفية اتصال الصفحات لمعرفة الصفحة التي سيتم عرضها في الأعلى وأيها في الأسفل. في السيناريو أدناه ، يعتبر W1 'الأكثر شيوعًا' لأن الجميع يرتبط به و W4 هو 'الأقل شهرة' حيث لا يوجد ارتباط به. لذلك ، يظهر W1 في الأعلى و W4 في الأسفل في نتائج البحث.



مع انفجار صفحات الويب ، كانت محركات البحث هذه تجد تحديات لإنشاء فهرس وإجراء حسابات PageRanking. هذا هو المكان الذي حدثت فيه ولادة Hadoop في Yahoo وأصبحت فيما بعد FOSS (برمجيات مجانية ومفتوحة المصدر) تحت ASF (مؤسسة برامج Apache). بمجرد أن أصبحت تحت ASF ، بدأت الكثير من الشركات في الاهتمام بـ Hadoop وبدأت في المساهمة في تحسينه. كان Hadoop هو الذي بدأ ثورة البيانات الكبيرة ، ولكن الكثير من البرامج الأخرى مثل Spark و Hive و Pig و Sqoop و Zookeeper و HBase و Cassandra و Flume بدأت في التطور لمعالجة القيود والثغرات في Hadoop.

كانت محركات البحث على الويب هي أول من استخدم Hadoop ، ولكن فيما بعد بدأت الكثير من حالات الاستخدام في التطور مع إنشاء المزيد والمزيد من البيانات. لنأخذ مثالاً لتطبيق التجارة الإلكترونية المستخدم في التوصية بالكتب للمستخدم. وفقًا للرسم البياني أدناه ، اشترى user1 كتابًا 1 و book2 و book3 واشترى user2 بعض الكتب وما إلى ذلك. إذا نظرنا عن كثب ، يمكننا أن نلاحظ أن المستخدم 1 والمستخدم 2 لهما نفس الذوق الذي اشتراهما الكتاب 1 والكتاب 2 لذلك ، يمكن التوصية بـ book3 للمستخدم 2 ويمكن التوصية بـ book4 للمستخدم 1. وهذا ما يسمى التصفية التعاونية ، وهي نوع من خوارزمية التعلم الآلي. يمكننا قلب الرسم البياني أدناه والحصول على كتب مماثلة.

إنشاء مجموعة من الكائنات

في الحالة المذكورة أعلاه ، أنشأنا فهرسًا ، و PageRanked وأوصى به المستخدم ، وكان حجم البيانات صغيرًا وبالتالي تمكنا من تصور البيانات واستنتاج بعض النتائج منها. نظرًا لأن حجم البيانات يزداد يومًا بعد يوم وخارج نطاق السيطرة ، فهذا هو المكان الذي تظهر فيه أدوات البيانات الضخمة مثل Hadoop.



يحل Hadoop الكثير من المشكلات ، لكن تثبيت Hadoop وبرامج البيانات الضخمة الأخرى لم يكن أبدًا مهمة سهلة. هناك الكثير من معلمات التكوين التي يجب تعديلها ، مثل مشكلات التكامل والتثبيت والتكوين للعمل معها. هذا هو المكان الذي توجد فيه شركات مثل Cloudera ، و Databricks المساعدة. إنهم يجعلون تثبيت برنامج البيانات الضخمة أسهل ويقدمون دعمًا تجاريًا ، على سبيل المثال ، لنفترض أن شيئًا ما يحدث في الإنتاج. يجعل Amazon EMR (Elastic MapReduce) سهولة استخدام Hadoop وما إلى ذلك أسهل بكثير. يعد اسم Elastic MapReduce تسمية خاطئة إلى حد ما حيث يدعم EMR أيضًا نماذج الحوسبة الموزعة الأخرى مثل مجموعات البيانات الموزعة المرنة وليس MapReduce فقط.

في هذا البرنامج التعليمي ، سوف نستكشف كيفية إعداد مجموعة EMR على سحابة AWS وفي البرنامج التعليمي القادم ، سوف نستكشف كيفية تشغيل Spark و Hive والبرامج الأخرى فوقها.

المضي قدمًا في كيفية إنشاء Hadoop Cluster باستخدام Amazon EMR؟

عرض توضيحي: إنشاء مجموعة EMR في AWS

الخطوة 1: انتقل إلى EMR Management Console وانقر على 'إنشاء مجموعة'. في وحدة التحكم ، تكون البيانات الوصفية لملف الكتلة المنتهية يتم حفظه أيضًا لمدة شهرين مجانًا. يسمح هذا باستنساخ الكتلة المنتهية وإنشائها مرة أخرى.

الخطوة 2 : من شاشة الخيارات السريعة ، انقر فوق 'الانتقال إلى الخيارات المتقدمة' لتحديد المزيد من التفاصيل حول المجموعة.

الخطوه 3: في علامة التبويب Advanced Options (خيارات متقدمة) ، يمكننا تحديد برامج مختلفة ليتم تثبيتها على مجموعة EMR. بالنسبة لواجهة SQL ، يمكن تحديد Hive. بالنسبة لواجهة لغة تدفق البيانات ، يمكن اختيار Pig. لتنسيق التطبيق الموزع ، يمكن تحديد ZooKeeper وما إلى ذلك. تتيح لنا علامة التبويب هذه أيضًا إضافة خطوات ، وهي مهمة اختيارية. الخطوات هي مهام معالجة البيانات الكبيرة باستخدام MapReduce و Pig و Hive وما إلى ذلك ، ويمكن إضافتها في علامة التبويب هذه أو لاحقًا بمجرد إنشاء المجموعة. انقر فوق 'التالي' لتحديد الأجهزة المطلوبة لمجموعة EMR.

الخطوة الرابعة: يتبع Hadoop بنية العامل الرئيسي حيث يقوم السيد بجميع التنسيق مثل الجدولة وتعيين العمل والتحقق من تقدمه ، بينما يقوم العمال بالعمل الفعلي لمعالجة البيانات وتخزينها. سيد واحد هو نقطة فشل واحدة (SPOF). تدعم Amazon EMR نظام التشغيل المتعدد للتوافر العالي (HA). تسمح الخطوة السابقة بإعداد مجموعة رئيسية متعددة في EMR.

يسمح EMR بنوعين من العقد ، الأساسية والمهمة. يتم استخدام العقدة الأساسية لكل من معالجة البيانات وتخزينها ، ويتم استخدام عقدة المهمة لمعالجة البيانات فقط. بالنسبة لهذا البرنامج التعليمي ، يمكننا تحديد عقد Core واحد فقط وليس عقد مهام لأنه ينطوي على تكلفة أقل بالنسبة لنا. أيضا ، اختر حالات بقعة على على الطلب لأن مثيلات Spot أرخص. تكمن المشكلة في مثيلات Spot في أنه يمكن إنهاءها بواسطة AWS تلقائيًا باستخدام ملف إشعار لمدة دقيقتين . هذا جيد من أجل الممارسة وفي بعض السيناريوهات الفعلية أيضًا. يتم إنهاء مثيلات Spot تلقائيًا نظرًا لأن لها أولوية منخفضة على أنواع المثيلات الأخرى. انقر فوق 'التالي'.

الخطوة الخامسة: حدد اسم الكتلة. وانقر على 'التالي'. لاحظ أن 'حماية الإنهاء' قيد التشغيل افتراضيًا ، وهذا يضمن عدم حذف كتلة EMR عن طريق الخطأ من خلال تقديم بعض الخطوات أثناء إنهاء المجموعة.

الخطوة السادسة: في علامة التبويب ، تم تحديد خيارات الأمان المختلفة لمجموعة EMR. يجب تحديد KeyPair لتسجيل الدخول إلى مثيل EC2. ستقوم EMR تلقائيًا بإنشاء الأدوار ومجموعات الأمان المناسبة وإرفاقها بالعقد الرئيسية وعقد EC2 العاملة. انقر فوق 'إنشاء مجموعة'.

يستغرق إنشاء الكتلة بضع دقائق حيث يجب شراء مثيلات EC2 وتثبيت برامج البيانات الكبيرة المختلفة وتهيئتها. في البداية ستكون حالة المجموعة في حالة 'البدء' والانتقال إلى حالة 'الانتظار'. في حالة 'الانتظار' ، تنتظر مجموعة EMR ببساطة إرسال وظائف معالجة البيانات الكبيرة المختلفة مثل MR و Spark و Hive وما إلى ذلك.

لاحظ أيضًا من وحدة التحكم في إدارة EC2 ولاحظ أن مثيلات EC2 الرئيسية والعامل يجب أن تكون في حالة تشغيل. هذه هي مثيلات Spot التي تم إنشاؤها كجزء من إنشاء مجموعة EMR. يمكن ملاحظة نفس EC2 من علامة تبويب الأجهزة في وحدة تحكم إدارة EMR أيضًا. لاحظ أنه في علامة التبويب الأجهزة ، تم ذكر سعر مثيلات Spot EC2 على أنه 0.032 دولار / ساعة. يستمر سعر مثيلات Spot في التغير مع مرور الوقت وهو أقل بكثير من سعر EC2 عند الطلب.

كيفية تحويل السلسلة إلى تاريخ

الخطوة السابعة: الآن وقد تمت إضافة مجموعة EMR بنجاح ، يمكن إضافة خطوات أو مهام معالجة البيانات الكبيرة. انتقل إلى علامة التبويب 'الخطوات' وانقر فوق 'إضافة خطوة' وحدد نوع الخطوة (MR ، Hive ، Spark ، إلخ). سوف نستكشف نفس الشيء في البرنامج التعليمي القادم. في الوقت الحالي ، انقر فوق 'إلغاء الأمر'.

الخطوة 8: الآن بعد أن رأينا كيفية بدء تشغيل EMR ، دعنا نرى كيفية إيقاف نفس الشيء.

الخطوة 8.1: انقر فوق إنهاء.

الخطوة 8.2: كما هو مذكور في الخطوات السابقة ، 'إنهاء الحماية' قيد التشغيل لمجموعة EMR وتم تعطيل الزر إنهاء. انقر فوق تغيير.

فيبوناتشي العودية c ++

الخطوة 8.3: حدد زر الاختيار 'إيقاف' وانقر على علامة التجزئة. الآن يجب تمكين زر الإنهاء. هذه هي الخطوة الإضافية التي قدمتها EMR ، فقط للتأكد من أننا لا نحذف عن طريق الخطأ مجموعة EMR.

لاحظ أن مجموعة EMR ستكون في حالة الإنهاء وسيتم إنهاء EC2s. أخيرًا ، سيتم نقل مجموعة EMR إلى حالة الإنهاء ، من هنا تتوقف فواتيرنا مع AWS. تأكد من إنهاء المجموعة ، حتى لا تتكبد تكاليف AWS إضافية.

خاتمة

في هذا البرنامج التعليمي ، رأينا كيفية بدء تشغيل مجموعة EMR في غضون بضع دقائق من وحدة تحكم الويب (المتصفح) ، ويمكن أتمتة الأمر نفسه باستخدام أو AWS SDK أو باستخدام ملفات AWS CloudFormation . كما لوحظ ، يمكن أن يتم إنشاء مجموعة EMR في غضون دقائق ويمكن بدء معالجة البيانات الكبيرة على الفور ، بمجرد الانتهاء من المعالجة ، يمكن تخزين المخرجات في S3 أو DynamoDB وبالتالي تم إغلاق الكتلة لإيقاف الفواتير. نظرًا لنموذج التسعير هذا وسهولة الاستخدام ، تعد EMR نجاحًا كبيرًا مع أولئك الذين يقومون بمعالجة البيانات الضخمة. لا حاجة لشراء خادم بأعداد ضخمة ، والحصول على تراخيص لبرامج البيانات الضخمة وصيانتها.

إذن هؤلاء هم الرجال ، هذا يقودنا إلى نهاية هذه المقالة حول كيفية إنشاء Hadoop Cluster باستخدام Amazon EMR؟إذا كنت ترغب في اكتساب الخبرة في هذا الموضوع ، فقد توصلت Edureka إلى منهج يغطي بالضبط ، ما قد تحتاجه لكسر اختبار مهندس الحلول! يمكنك إلقاء نظرة على تفاصيل الدورة لـ تدريب.

في حالة وجود أي استفسارات تتعلق بهذه المدونة ، فلا تتردد في طرح سؤال في قسم التعليقات أدناه وسنكون أكثر من سعداء بالرد عليك في أقرب وقت ممكن.