برنامج Hadoop YARN التعليمي - تعلم أساسيات هندسة الغزل



تركز هذه المدونة على Apache Hadoop YARN الذي تم تقديمه في Hadoop الإصدار 2.0 لإدارة الموارد وجدولة الوظائف. يشرح هندسة YARN بمكوناتها والواجبات التي يؤديها كل منهم. يصف تقديم الطلب وسير العمل في Apache Hadoop YARN.

يقوم Hadoop YARN بحياكة وحدة تخزين Hadoop ، أي HDFS (نظام الملفات الموزعة Hadoop) مع أدوات المعالجة المختلفة. لأولئك منكم الجدد تمامًا على هذا الموضوع ، يرمز YARN إلى ' ص و إلى ليست هي ر esource ن المغرور '. أود أيضًا أن أقترح أن تذهب من خلال موقعنا و قبل المضي قدمًا في تعلم Apache Hadoop YARN. سأشرح الموضوعات التالية هنا للتأكد من أنه في نهاية هذه المدونة يكون فهمك لـ Hadoop YARN واضحًا.

لماذا الغزل؟

في الإصدار 1.0 من Hadoop والذي يشار إليه أيضًا باسم MRV1 (الإصدار 1 من MapReduce) ، قام MapReduce بأداء وظائف المعالجة وإدارة الموارد. كان يتألف من متعقب الوظائف الذي كان سيد واحد. قام متتبع الوظائف بتخصيص الموارد وإجراء الجدولة ومراقبة وظائف المعالجة. قامت بتعيين الخريطة وتقليل المهام على عدد من العمليات التابعة تسمى متتبعات المهام. أبلغ متتبعو المهام بشكل دوري عن تقدمهم إلى متعقب الوظائف.





MapReduce الإصدار 1.0 - Hadoop YARN - Edureka

أدى هذا التصميم إلى اختناق قابلية التوسع بسبب أداة تعقب مهمة واحدة.ذكرت شركة IBM في مقالها أنه وفقًا لـ Yahoo! ، يتم الوصول إلى الحدود العملية لمثل هذا التصميم من خلال مجموعة مكونة من 5000 عقدة و 40.000 مهمة تعمل بشكل متزامن.بصرف النظر عن هذا القيد ، فإن استخدام الموارد الحسابية غير فعال في MRV1. أيضًا ، أصبح إطار عمل Hadoop مقصورًا فقط على نموذج معالجة MapReduce.



للتغلب على كل هذه المشكلات ، تم تقديم YARN في Hadoop الإصدار 2.0 في عام 2012 بواسطة Yahoo و Hortonworks. الفكرة الأساسية وراء YARN هي تخفيف MapReduce من خلال تولي مسؤولية إدارة الموارد وجدولة الوظائف. بدأت YARN في منح Hadoop القدرة على تشغيل وظائف غير تابعة لـ MapReduce داخل إطار عمل Hadoop.

يمكنك أيضا مشاهدة الفيديو أدناه حيث لدينا يناقش الخبير مفاهيم YARN وهندستها المعمارية بالتفصيل.

دروس غزل Hadoop | هندسة الغزل Hadoop | إدوريكا

مع تقديم YARN ، أصبح ملف تم ثورة بالكامل. أصبح أكثر مرونة وكفاءة وقابلية للتطوير. عندما بدأت Yahoo في العمل مع YARN في الربع الأول من عام 2013 ، ساعدت الشركة في تقليص حجم مجموعة Hadoop من 40.000 عقدة إلى 32.000 عقدة. لكن عدد الوظائف تضاعف إلى 26 مليون في الشهر.



مقدمة إلى Hadoop YARN

الآن بعد أن قمت بتنويرك بالحاجة إلى YARN ، دعني أقدم لك المكون الأساسي لـ Hadoop v2.0 ، غزل . يتيح YARN طرقًا مختلفة لمعالجة البيانات مثل معالجة الرسم البياني والمعالجة التفاعلية ومعالجة الدفق بالإضافة إلى معالجة الدُفعات لتشغيل ومعالجة البيانات المخزنة في HDFS. لذلك يفتح YARN Hadoop لأنواع أخرى من التطبيقات الموزعة خارج MapReduce.

مكنت YARN المستخدمين من إجراء العمليات حسب المتطلبات باستخدام مجموعة متنوعة من الأدوات مثل للمعالجة في الوقت الفعلي ، خلية نحل لـ SQL ، HBase لـ NoSQL وغيرها.

بصرف النظر عن إدارة الموارد ، تقوم YARN أيضًا بتنفيذ جدولة الوظائف. تقوم YARN بتنفيذ جميع أنشطة المعالجة الخاصة بك عن طريق تخصيص الموارد وجدولة المهام. يتكون Apache Hadoop YARN Architecture من المكونات الرئيسية التالية:

  1. مدير موارد : يعمل على برنامج خفي رئيسي ويدير تخصيص الموارد في نظام المجموعة.
  2. مدير العقدة: إنهم يعملون على شياطين الرقيق وهم مسؤولون عن تنفيذ مهمة على كل عقدة بيانات.
  3. ماجستير التطبيق: يدير دورة حياة عمل المستخدم واحتياجات الموارد للتطبيقات الفردية. يعمل جنبًا إلى جنب مع Node Manager ويراقب تنفيذ المهام.
  4. حاوية: حزمة من الموارد بما في ذلك ذاكرة الوصول العشوائي ووحدة المعالجة المركزية والشبكة والأقراص الصلبة وغيرها على عقدة واحدة.

مكونات الغزل

يمكنك اعتبار YARN بمثابة العقل لنظام Hadoop البيئي الخاص بك. الصورة أدناه تمثل هندسة YARN.

دبلوم الدراسات العليا مقابل درجة الماجستير

ال المكون الأول من YARN Architecture هو ،

مدير موارد

  • إنها السلطة النهائية في تخصيص الموارد .
  • عند تلقي طلبات المعالجة ، فإنه يمرر أجزاء من الطلبات إلى مديري العقد المقابلة وفقًا لذلك ، حيث تتم المعالجة الفعلية.
  • وهو المحكم في موارد المجموعة ويقرر تخصيص الموارد المتاحة للتطبيقات المتنافسة.
  • يحسن استخدام الكتلة مثل الاحتفاظ بجميع الموارد قيد الاستخدام طوال الوقت ضد قيود مختلفة مثل ضمانات السعة والإنصاف واتفاقيات مستوى الخدمة.
  • يتكون من مكونين رئيسيين:أ) المجدولب)مدير التطبيق

أ) المجدول

  • المجدول مسؤول عن تخصيص الموارد لمختلف التطبيقات قيد التشغيل الخاضعة لقيود القدرات وقوائم الانتظار وما إلى ذلك.
  • يطلق عليه برنامج جدولة خالص في ResourceManager ، مما يعني أنه لا يقوم بأي مراقبة أو تتبع لحالة التطبيقات.
  • إذا كان هناك فشل في التطبيق أو عطل في الأجهزة ، فإن المجدول لا يضمن إعادة تشغيل المهام الفاشلة.
  • ينفذ الجدولة بناءً على متطلبات الموارد للتطبيقات.
  • يحتوي على مكون إضافي لسياسة التوصيل ، وهو مسؤول عن تقسيم موارد الكتلة بين التطبيقات المختلفة. هناك نوعان من هذه المكونات الإضافية: جدولة القدرات و مجدول عادل ، والتي يتم استخدامها حاليًا كجدولين في ResourceManager.

ب) مدير التطبيقات

  • وهي مسؤولة عن قبول طلبات العمل.
  • يفاوض الحاوية الأولى من إدارة الموارد لتنفيذ التطبيق الرئيسي المحدد للتطبيق.
  • يدير تشغيل التطبيقات الرئيسية في نظام مجموعة ويوفر خدمة لإعادة تشغيل حاوية التطبيق الرئيسية عند الفشل.

قادمًا إلى المكون الثاني الذي:

مدير العقدة

  • يعتني بالعقد الفردية في كتلة Hadoop ويدير وظائف المستخدم وسير العمل على العقدة المحددة.
  • يسجل مع إدارة الموارد ويرسل دقات القلب بالحالة الصحية للعقدة.
  • هدفها الأساسي هو إدارة حاويات التطبيق المعينة لها من قبل مدير الموارد.
  • أنها تحافظ على تحديث مع إدارة الموارد.
  • يطلب مدير التطبيق الحاوية المعينة من Node Manager عن طريق إرسال سياق تشغيل الحاوية (CLC) الذي يتضمن كل ما يحتاجه التطبيق من أجل التشغيل. يقوم Node Manager بإنشاء عملية الحاوية المطلوبة ويبدأها.
  • يراقب استخدام الموارد (الذاكرة ، وحدة المعالجة المركزية) للحاويات الفردية.
  • ينفذ إدارة السجل.
  • كما أنه يقتل الحاوية حسب توجيهات إدارة الموارد.

ال المكون الثالث من Apache Hadoop YARN هو ،

ماجستير التطبيق
  • التطبيق هو وظيفة واحدة يتم تقديمها إلى الإطار. يحتوي كل تطبيق من هذا القبيل على تطبيق رئيسي فريد مرتبط به وهو كيان محدد للإطار.
  • إنها العملية التي تنسق تنفيذ التطبيق في الكتلة وتدير الأعطال أيضًا.
  • وتتمثل مهمتها في التفاوض على الموارد من إدارة الموارد والعمل مع Node Manager لتنفيذ مهام المكونات ومراقبتها.
  • وهي مسؤولة عن التفاوض على حاويات الموارد المناسبة من ResourceManager ، وتتبع حالتها ومراقبة التقدم.
  • بمجرد البدء ، يرسل دقات القلب بشكل دوري إلى مدير الموارد لتأكيد صحته وتحديث سجل طلبات الموارد الخاصة به.

ال المكون الرابع يكون:

حاوية
  • وهي عبارة عن مجموعة من الموارد المادية مثل ذاكرة الوصول العشوائي (RAM) ونواة وحدة المعالجة المركزية (CPU) والأقراص الموجودة على عقدة واحدة.
  • تتم إدارة حاويات YARN بواسطة سياق إطلاق الحاوية وهو دورة حياة الحاوية (CLC). يحتوي هذا السجل على خريطة لمتغيرات البيئة والتبعيات المخزنة في تخزين يمكن الوصول إليه عن بُعد ورموز أمان وحمولة لخدمات Node Manager والأمر الضروري لإنشاء العملية.
  • يمنح حقوقًا لتطبيق ما لاستخدام كمية محددة من الموارد (الذاكرة ، وحدة المعالجة المركزية ، إلخ) على مضيف معين.

تقديم الطلب في YARN

الرجوع إلى الصورة وإلقاء نظرة على الخطوات المتبعة في تقديم طلب Hadoop YARN:

1) إرسال الوظيفة

2)احصل على معرف التطبيق

3) سياق تقديم الطلب

__init__ بيثون 3

4 أ) بدء الحاويةإطلاق

ب) بدء تشغيل التطبيق الرئيسي

5) تخصيص الموارد

6 أ) الحاوية

ب) الإطلاق

7) تنفيذ

سير عمل التطبيق في Hadoop YARN

ارجع إلى الصورة المعروضة واطلع على الخطوات التالية المتضمنة في سير عمل تطبيق Apache Hadoop YARN:

  1. يقوم العميل بتقديم طلب
  2. يخصص Resource Manager حاوية لبدء تشغيل مدير التطبيقات
  3. يسجل مدير التطبيقات مع Resource Manager
  4. يطلب مدير التطبيقات حاويات من إدارة الموارد
  5. يقوم مدير التطبيقات بإعلام Node Manager لبدء تشغيل الحاويات
  6. يتم تنفيذ كود التطبيق في الحاوية
  7. اتصالات العميل إدارة الموارد / مدير التطبيقات لمراقبة حالة التطبيق
  8. ألغى مدير التطبيقات التسجيل في إدارة الموارد

الآن بعد أن عرفت Apache Hadoop YARN ، تحقق من ملف من Edureka ، شركة تعليمية موثوقة عبر الإنترنت مع شبكة تضم أكثر من 250.000 متعلم راضٍ منتشرين في جميع أنحاء العالم تساعد الدورة التدريبية لشهادة Edureka Big Data Hadoop المتعلمين على أن يصبحوا خبراء في مجال HDFS ، و Yarn ، و MapReduce ، و Pig ، و Hive ، و HBase ، و Oozie ، و Flume ، و Sqoop باستخدام حالات الاستخدام في الوقت الفعلي في مجال البيع بالتجزئة ، ووسائل التواصل الاجتماعي ، والطيران ، والسياحة ، والمالية

لديك سؤال لنا؟ يرجى ذكر ذلك في قسم التعليقات وسنعاود الاتصال بك.