دروس HDFS: مقدمة عن HDFS ومميزاته



ستساعدك مدونة HDFS التعليمية هذه على فهم نظام الملفات الموزعة HDFS أو Hadoop وميزاته. سوف تستكشف أيضًا مكوناته الأساسية باختصار.

دروس HDFS

قبل المضي قدمًا في مدونة HDFS التعليمية هذه ، اسمح لي أن آخذك عبر بعض الإحصائيات المجنونة المتعلقة بـ HDFS:

  • في 2010، موقع التواصل الاجتماعي الفيسبوك ادعى أن لديها واحدة من أكبر تخزين مجموعة HDFS 21 بيتابايت البيانات.
  • في عام 2012، موقع التواصل الاجتماعي الفيسبوك أعلن أن لديهم أكبر مجموعة HDFS فردية مع أكثر من 100 بيتابايت البيانات .
  • و ياهو ! لديه أكثر من 100،000 وحدة المعالجة المركزية في أكثر 40000 خادم تشغيل Hadoop ، مع تشغيل أكبر مجموعة Hadoop 4500 عقدة . أخيرًا ، ياهو! المخازن 455 بيتابايت من البيانات في HDFS.
  • في الواقع ، بحلول عام 2013 ، بدأت معظم الأسماء الكبيرة في Fortune 50 في استخدام Hadoop.

صعب الهضم؟ حق. كما تمت مناقشته في ، يحتوي Hadoop على وحدتين أساسيتين - س الغضب و معالجة . عندما أقول تخزين جزء من Hadoop ، فأنا أشير إلى HDFS و التي تعني نظام الملفات الموزعة Hadoop . لذا ، في هذه المدونة ، سوف أقدم لكم HDFS .





هنا سأتحدث عن:

  • ما هو HDFS؟
  • مزايا HDFS
  • ميزات HDFS

قبل الحديث عن HDFS ، دعني أخبرك ، ما هو نظام الملفات الموزعة؟



DFS أو نظام الملفات الموزعة:

نظام الملفات الموزعة يتحدث عن إدارة البيانات ، بمعنى آخر. الملفات أو المجلدات عبر أجهزة كمبيوتر أو خوادم متعددة. بمعنى آخر ، DFS هو نظام ملفات يسمح لنا بتخزين البيانات عبر عقد أو آلات متعددة في مجموعة ويسمح لعدة مستخدمين بالوصول إلى البيانات. لذلك ، فهو يخدم نفس الغرض مثل نظام الملفات المتوفر في جهازك ، مثل نظام الملفات NTFS (نظام ملفات التكنولوجيا الجديدة) لنظام التشغيل windows أو لنظام التشغيل Mac لديك HFS (نظام الملفات الهرمي). الاختلاف الوحيد هو أنه في حالة نظام الملفات الموزعة ، يمكنك تخزين البيانات في أجهزة متعددة بدلاً من جهاز واحد. على الرغم من تخزين الملفات عبر الشبكة ، إلا أن DFS ينظم البيانات ويعرضها بطريقة تجعل المستخدم الجالس على جهاز يشعر وكأن جميع البيانات مخزنة في ذلك الجهاز ذاته.

ما هو HDFS؟

نظام الملفات الموزعة Hadoop أو HDFS هو نظام ملفات موزع يعتمد على Java يسمح لك بتخزين البيانات الكبيرة عبر عقد متعددة في مجموعة Hadoop. لذلك ، إذا قمت بتثبيت Hadoop ، فستحصل على HDFS كنظام تخزين أساسي لتخزين البيانات في البيئة الموزعة.

لنأخذ مثالاً لفهمه. تخيل أن لديك عشرة أجهزة أو عشرة أجهزة كمبيوتر مع محرك أقراص ثابت سعة 1 تيرابايت على كل جهاز. الآن ، تقول HDFS أنه إذا قمت بتثبيت Hadoop كمنصة فوق هذه الأجهزة العشرة ، فستحصل على HDFS كخدمة تخزين. يتم توزيع نظام الملفات الموزعة Hadoop بطريقة تجعل كل جهاز يساهم في تخزينه الفردي لتخزين أي نوع من البيانات.



ما هي الحزم في جافا

دروس HDFS: مزايا HDFS

1. التخزين الموزع:

التخزين الموزع - دروس HDFS - Edureka

عند الوصول إلى نظام الملفات الموزعة من Hadoop من أي من الأجهزة العشر في مجموعة Hadoop ، ستشعر كما لو كنت قد قمت بتسجيل الدخول إلى جهاز واحد كبير بسعة تخزين 10 تيرابايت (إجمالي سعة التخزين على عشرة آلات). ماذا يعنى ذلك؟ هذا يعني أنه يمكنك تخزين ملف واحد كبير بحجم 10 تيرابايت والذي سيتم توزيعه على الأجهزة العشر (1 تيرابايت لكل منهما).اذا هي كذلك لا يقتصر على الحدود المادية لكل آلة فردية.

2. الحساب الموزع والموازي:

نظرًا لأن البيانات مقسمة عبر الأجهزة ، فإنها تتيح لنا الاستفادة منها الحساب الموزع والمتوازي . دعونا نفهم هذا المفهوم من خلال المثال أعلاه. لنفترض أن معالجة ملف 1 تيرابايت على جهاز واحد تستغرق 43 دقيقة. لذا ، أخبرني الآن ، كم من الوقت ستستغرق معالجة نفس ملف 1 تيرابايت عندما يكون لديك 10 أجهزة في مجموعة Hadoop بتكوين مماثل - 43 دقيقة أو 4.3 دقيقة؟ 4.3 دقائق ، صحيح! ماذا حدث هنا؟ تعمل كل عقد مع جزء من ملف 1 تيرابايت بالتوازي. لذلك ، فإن العمل الذي كان يستغرق 43 دقيقة من قبل ، يتم الانتهاء منه في 4.3 دقيقة فقط الآن حيث تم تقسيم العمل على عشر آلات.

3. قابلية التوسع الأفقي:

أخيرًا وليس آخرًا ، دعونا نتحدث عن ملف التحجيم الأفقي أو التوسع في هادوب. هناك نوعان من القياس: عمودي و عرضي . في القياس الرأسي (توسيع النطاق) ، تقوم بزيادة سعة الأجهزة في نظامك. بمعنى آخر ، يمكنك شراء المزيد من ذاكرة الوصول العشوائي أو وحدة المعالجة المركزية وإضافتها إلى نظامك الحالي لجعله أكثر قوة وقوة. ولكن هناك تحديات مرتبطة بالتوسيع الرأسي أو التوسع:

  • هناك دائمًا حد يمكنك من خلاله زيادة سعة أجهزتك. لذلك ، لا يمكنك الاستمرار في زيادة ذاكرة الوصول العشوائي أو وحدة المعالجة المركزية للجهاز.
  • في المقياس الرأسي ، تقوم بإيقاف جهازك أولاً. ثم تقوم بزيادة ذاكرة الوصول العشوائي أو وحدة المعالجة المركزية لجعلها مكدس أجهزة أكثر قوة. بعد زيادة سعة أجهزتك ، تقوم بإعادة تشغيل الجهاز. يصبح وقت التوقف هذا عندما تقوم بإيقاف نظامك يمثل تحديًا.

في حالة مقياس أفقي (مقياس) ، يمكنك إضافة المزيد من العقد إلى المجموعة الحالية بدلاً من زيادة سعة الأجهزة للأجهزة الفردية. والأهم من ذلك ، يمكنك ذلك إضافة المزيد من الآلات أثناء التنقل أي بدون توقف النظام . لذلك ، أثناء التوسع ليس لدينا أي وقت تعطل أو منطقة خضراء ، لا شيء من هذا القبيل. في نهاية اليوم ، سيكون لديك المزيد من الآلات التي تعمل بالتوازي لتلبية متطلباتك.

فيديو تعليمي HDFS:

يمكنك مشاهدة الفيديو أدناه حيث تمت مناقشة جميع المفاهيم المتعلقة بـ HDFS بالتفصيل:

دروس HDFS: ميزات HDFS

سوف نفهم هذه الميزات بالتفصيل عندما نستكشف بنية HDFS في مدونتنا التعليمية القادمة HDFS. ولكن في الوقت الحالي ، دعنا نلقي نظرة عامة على ميزات HDFS:

  • كلفة: يتم نشر HDFS ، بشكل عام ، على أجهزة سلعة مثل سطح المكتب / الكمبيوتر المحمول الذي تستخدمه كل يوم. لذلك ، فهي اقتصادية للغاية من حيث تكلفة ملكية المشروع. نظرًا لأننا نستخدم أجهزة سلعة منخفضة التكلفة ، فلن تحتاج إلى إنفاق مبلغ ضخم من المال لتوسيع نطاق مجموعة Hadoop الخاصة بك. بمعنى آخر ، فإن إضافة المزيد من العقد إلى HDFS الخاص بك هو أمر فعال من حيث التكلفة.
  • تنوع وحجم البيانات: عندما نتحدث عن HDFS فإننا نتحدث عن تخزين البيانات الضخمة مثل التيرابايت والبيتابايت من البيانات وأنواع مختلفة من البيانات. لذلك ، يمكنك تخزين أي نوع من البيانات في HDFS ، سواء كانت منظمة أو غير منظمة أو شبه منظمة.
  • الموثوقية والتسامح مع الخطأ: عندما تقوم بتخزين البيانات على HDFS ، فإنها تقسم البيانات المعينة داخليًا إلى كتل بيانات وتخزنها بطريقة موزعة عبر مجموعة Hadoop الخاصة بك. المعلومات المتعلقة بمجموعة البيانات التي تقع على أي من عقد البيانات يتم تسجيلها في البيانات الوصفية. NameNode يدير البيانات الوصفية و DataNodes هي المسؤولة عن تخزين البيانات.
    تقوم عقدة الاسم أيضًا بتكرار البيانات ، أي تحتفظ بنسخ متعددة من البيانات. هذا النسخ المتماثل للبيانات يجعل HDFS موثوقًا للغاية ومتسامحًا مع الأخطاء. لذلك ، حتى في حالة فشل أي من العقد ، يمكننا استرداد البيانات من النسخ المتماثلة الموجودة في عقد البيانات الأخرى. بشكل افتراضي ، عامل النسخ هو 3. لذلك ، إذا قمت بتخزين 1 جيجا بايت من الملف في HDFS ، فسيشغل في النهاية 3 جيجا بايت من المساحة. تقوم عقدة الاسم بتحديث البيانات الوصفية بشكل دوري وتحافظ على اتساق عامل النسخ المتماثل.
  • تكامل البيانات: تكامل البيانات يتحدث عن ما إذا كانت البيانات المخزنة في HDFS الخاصة بي صحيحة أم لا. يتحقق HDFS باستمرار من سلامة البيانات المخزنة مقابل مجموعها الاختباري. إذا عثرت على أي خطأ ، فإنه يبلغ عن عقدة الاسم. بعد ذلك ، تنشئ عقدة الاسم نسخًا متماثلة جديدة إضافية ، وبالتالي تحذف النسخ التالفة.
  • إنتاجية عالية: الإنتاجية هي مقدار العمل المنجز في وحدة زمنية. يتحدث عن مدى سرعة الوصول إلى البيانات من نظام الملفات. في الأساس ، يمنحك نظرة ثاقبة حول أداء النظام. كما رأيت في المثال أعلاه حيث استخدمنا عشر آلات بشكل جماعي لتحسين الحساب. هناك تمكنا من تقليل وقت المعالجة من 43 دقيقة لمجرد 4.3 دقائق حيث كانت جميع الآلات تعمل بالتوازي. لذلك ، من خلال معالجة البيانات بالتوازي ، قمنا بتقليل وقت المعالجة بشكل كبير ، وبالتالي ، حققنا إنتاجية عالية.
  • منطقة البيانات: تتحدث منطقة البيانات عن نقل وحدة المعالجة إلى البيانات بدلاً من البيانات إلى وحدة المعالجة. في نظامنا التقليدي ، اعتدنا على إحضار البيانات إلى طبقة التطبيق ثم معالجتها. ولكن الآن ، وبسبب البنية والحجم الضخم للبيانات ، فإن جلب البيانات إلى طبقة التطبيق سيكون كذلكتقليل أداء الشبكة إلى حد ملحوظ.لذلك ، في HDFS ، نأتي بجزء الحساب إلى عقد البيانات حيث توجد البيانات. ومن ثم ، فأنت لا تنقل البيانات ، بل تقوم بإحضار البرنامج أو العمليةجي جزء من البيانات.

حتى الآن ، لديك فكرة موجزة عن HDFS وخصائصه. لكن ثقوا بي يا رفاق ، هذا مجرد غيض من فيض. في بلدي القادم ، سوف أغوص بعمق في بنية HDFS وسأكشف النقاب عن الأسرار الكامنة وراء نجاح HDFS. سنقوم معًا بالإجابة على كل تلك الأسئلة التي تفكر بها في رأسك مثل:

  • ماذا يحدث خلف الكواليس عندما تقرأ أو تكتب البيانات في نظام الملفات الموزعة Hadoop؟
  • ما هي الخوارزميات مثل إدراك الرف الذي يجعل HDFS متسامحًا مع الأخطاء؟
  • كيف يدير نظام الملفات الموزعة Hadoop وينشئ نسخة متماثلة؟
  • ما هي عمليات الحجب؟

الآن بعد أن فهمت HDFS وميزاته ، تحقق من ملف من Edureka ، وهي شركة تعليمية موثوقة عبر الإنترنت مع شبكة تضم أكثر من 250000 متعلم راضٍ منتشرين في جميع أنحاء العالم. تساعد الدورة التدريبية لشهادة Edureka Big Data Hadoop المتعلمين على أن يصبحوا خبراء في مجال HDFS ، و Yarn ، و MapReduce ، و Pig ، و Hive ، و HBase ، و Oozie ، و Flume ، و Sqoop باستخدام حالات الاستخدام في الوقت الفعلي على البيع بالتجزئة ، والوسائط الاجتماعية ، والطيران ، والسياحة ، والمجال المالي.

لديك سؤال لنا؟ يرجى ذكر ذلك في قسم التعليقات وسنعاود الاتصال بك.