نظرة عامة على اتحاد Hadoop 2.0 Cluster Architecture



يتكون Apache Hadoop 2.x من تحسينات كبيرة على Hadoop 1.x. تتحدث هذه المدونة عن اتحاد Hadoop 2.0 Cluster Architecture ومكوناته.

Hadoop 2.0 Cluster Architecture Federation

المقدمة:

في هذه المدونة ، سأتعمق في Hadoop 2.0 Cluster Architecture Federation. لقد تطور Apache Hadoop كثيرًا منذ إصدار Apache Hadoop 1.x. كما تعلم من مدونتي السابقة أن يتبع Master / Slave Topology حيث يعمل NameNode كخادم رئيسي ومسؤول عن إدارة العقد التابعة الأخرى التي تسمى DataNodes. في هذا النظام البيئي ، يصبح Master Daemon الفردي أو NameNode عنق زجاجة وعلى العكس من ذلك ، تحتاج الشركات إلى NameNode وهي متاحة للغاية. هذا السبب بالذات أصبح أساس HDFS Federation Architecture و بنية HA (عالية التوفر) .

كيفية تحويل سلسلة إلى تاريخ في جافا

المواضيع التي غطتها في هذه المدونة هي كما يلي:





  • بنية HDFS الحالية
  • حدود هندسة HDFS الحالية
  • هندسة اتحاد HDFS

نظرة عامة على بنية HDFS الحالية:

بنية HDFS أحادية Namespace - نظرة عامة على اتحاد Hadoop 2.0 Cluster Architecture - Edureka

كما ترى في الشكل أعلاه ، يحتوي HDFS الحالي على طبقتين:



  • مساحة اسم HDFS (NS): هذه الطبقة مسؤولة عن إدارة الدلائل والملفات والكتل. يوفر كل عمليات نظام الملفات المتعلقة بـ Namespace مثل إنشاء أو حذف أو تعديل الملفات أو أدلة الملفات.
  • طبقة التخزين: يتكون من عنصرين أساسيين.
    1. إدارة الكتلة : يقوم بالعمليات التالية:
      • يتحقق من دقات قلب DataNodes بشكل دوري ويدير عضوية DataNode في الكتلة.
      • يدير تقارير الحظر ويحافظ على موقع الحظر.
      • يدعم عمليات الحظر مثل الإنشاء والتعديل والحذف وتخصيص موقع الكتلة.
      • يحافظ على عامل النسخ متسق في جميع أنحاء الكتلة.

2. التخزين المادي : تتم إدارتها بواسطة DataNodes المسؤولة عن تخزين البيانات وبالتالي توفر وصول القراءة / الكتابة إلى البيانات المخزنة في HDFS.

لذلك ، تسمح لك بنية HDFS الحالية بالحصول على مساحة اسم واحدة للكتلة. في هذه البنية ، تكون NameNode واحدة مسؤولة عن إدارة مساحة الاسم. هذه البنية مريحة للغاية وسهلة التنفيذ. كما أنه يوفر قدرة كافية لتلبية احتياجات مجموعة الإنتاج الصغيرة.

حدود HDFS الحالية:

كما تمت مناقشته سابقًا ، فإن HDFS الحالي كافٍ لاحتياجات وحالات استخدام مجموعة إنتاج صغيرة. لكن المنظمات الكبيرة مثل Yahoo و Facebook وجدت بعض القيود مع نمو مجموعة HDFS بشكل كبير. دعونا نلقي نظرة سريعة على بعض القيود:



  1. مساحة الاسم هي غير قابل للتطوير مثل DataNodes. وبالتالي ، لا يمكننا الحصول إلا على هذا العدد من DataNodes في المجموعة التي يمكن أن تتعامل معها NameNode واحدة.
  2. الطبقتان ، أي طبقة مساحة الاسم وطبقة التخزين هما مربوط إحكام مما يجعل التطبيق البديل لـ NameNode صعبًا للغاية.
  3. يعتمد أداء نظام Hadoop بأكمله على الإنتاجية من NameNode. لذلك ، يعتمد الأداء الكامل لجميع عمليات HDFS على عدد المهام التي يمكن لـ NameNode التعامل معها في وقت معين.
  4. تقوم NameNode بتخزين مساحة الاسم بالكامل في ذاكرة الوصول العشوائي للوصول السريع. هذا يؤدي إلى قيود من حيث حجم الذاكرة على سبيل المثال ، عدد كائنات مساحة الاسم (الملفات والكتل) التي يمكن لخادم مساحة اسم واحد التعامل معها.
  5. تسمح العديد من المؤسسات (البائعين) التي لديها نشر HDFS للعديد من المؤسسات (المستأجر) باستخدام مساحة اسم المجموعة الخاصة بهم. لذلك ، لا يوجد فصل بين مساحة الاسم وبالتالي يوجد لا عزلة بين منظمة المستأجر التي تستخدم الكتلة.

هيكل اتحاد HDFS:

  • في HDFS Federation Architecture ، لدينا قابلية التوسع الأفقية لخدمة الأسماء. لذلك ، لدينا العديد من NameNodes التي يتم توحيدها ، أي مستقلة عن بعضها البعض.
  • توجد DataNodes في الجزء السفلي ، أي طبقة التخزين الأساسية.
  • يسجل كل DataNode مع كافة NameNodes في الكتلة.
  • تنقل DataNodes نبضات القلب الدورية وتقارير الحظر وتعالج الأوامر من NameNodes.

فيما يلي تمثيل تصويري لهيكل اتحاد HDFS:

قبل المضي قدمًا ، دعني أتحدث بإيجاز عن الصورة المعمارية أعلاه:

  • هناك العديد من مساحات الأسماء (NS1 ، NS2 ، ... ، NSn) وتتم إدارة كل منها بواسطة NameNode الخاص بها.
  • كل مساحة اسم لها تجمع كتل خاص بها (NS1 بها Pool 1 ، NSk بها Pool k وهكذا).
  • كما هو موضح في الصورة ، يتم تخزين الكتل من المجموعة 1 (السماء الزرقاء) في DataNode 1 و DataNode 2 وما إلى ذلك. وبالمثل ، ستقيم جميع الكتل من كل تجمع كتلة على جميع DataNodes.

الآن ، دعنا نفهم مكونات بنية اتحاد HDFS بالتفصيل:

تجمع كتلة:

تجمع الكتل ليس سوى مجموعة من الكتل تنتمي إلى مساحة اسم محددة. لذلك ، لدينا مجموعة من تجمع الكتل حيث تتم إدارة كل تجمع كتل بشكل مستقل عن الآخر. يسمح هذا الاستقلال حيث تتم إدارة كل مجموعة كتل بشكل مستقل لمساحة الاسم بإنشاء معرفات الكتلة للكتل الجديدة دون التنسيق مع مساحات الأسماء الأخرى. يتم تخزين كتل البيانات الموجودة في كل مجموعة الكتل في جميع DataNodes. بشكل أساسي ، يوفر تجمع الكتل تجريدًا بحيث يمكن تجميع كتل البيانات الموجودة في DataNodes (كما هو الحال في بنية مساحة الاسم المفردة) بما يتوافق مع مساحة اسم معينة.

مجموع أرقام عدد في جافا باستخدام حلقة for

حجم مساحة الاسم:

حجم مساحة الاسم ليس سوى مساحة الاسم مع مجموعة الكتل الخاصة به. لذلك ، في اتحاد HDFS لدينا العديد من وحدات تخزين مساحة الاسم. إنها وحدة إدارة قائمة بذاتها ، أي أن كل مساحة اسم يمكن أن تعمل بشكل مستقل. إذا تم حذف NameNode أو مساحة الاسم ، فسيتم أيضًا حذف تجمع الكتل المقابل الموجود على DataNodes.

عرض توضيحي على اتحاد Hadoop 2.0 Cluster Architecture | إدوريكا

الآن ، أعتقد أن لديك فكرة جيدة عن HDFS Federation Architecture. إنه مفهوم نظري أكثر ولا يستخدمه الناس في نظام إنتاج عملي بشكل عام. توجد بعض مشكلات التنفيذ في HDFS Federation تجعل من الصعب النشر. لذلك ، فإن بنية HA (عالية التوفر) مفضل لحل مشكلة نقطة الفشل الفردية. لقد غطيت HDFS HA ​​العمارة في مدونتي التالية.

الآن بعد أن فهمت هندسة اتحاد Hadoop HDFS ، تحقق من من Edureka ، شركة تعليمية موثوقة عبر الإنترنت مع شبكة تضم أكثر من 250.000 متعلم راضٍ منتشرين في جميع أنحاء العالم تساعد الدورة التدريبية لشهادة Edureka Big Data Hadoop المتعلمين على أن يصبحوا خبراء في مجال HDFS ، و Yarn ، و MapReduce ، و Pig ، و Hive ، و HBase ، و Oozie ، و Flume ، و Sqoop باستخدام حالات الاستخدام في الوقت الفعلي في مجال البيع بالتجزئة ، ووسائل التواصل الاجتماعي ، والطيران ، والسياحة ، والمالية

لديك سؤال لنا؟ يرجى ذكر ذلك في قسم التعليقات وسنعاود الاتصال بك.