Hadoop 2.0 - أسئلة وأجوبة



زاد الاهتمام بـ Hadoop إلى عدة أضعاف في العامين الماضيين. يجيب هذا المنشور على استفساراتك ويزيل الكثير من الشكوك حول Hadoop 2.0 واستخدامه.

هذه مشاركة متابعة مع إجابة على الأسئلة الشائعة أثناء الندوة العامة على الويب بواسطة edureka! على .

مزايا وعيوب بيثون

الأسئلة المتداولة حول Hadoop

ديباك:





ما هو Hadoop؟
Apache Hadoop هو إطار عمل برمجي مفتوح المصدر للتخزين والمعالجة واسعة النطاق لمجموعات البيانات على مجموعات من الأجهزة السلعية. إنه إطار عمل برمجي مفتوح المصدر لإدارة البيانات مع تخزين واسع النطاق ومعالجة موزعة. يتم بناؤه واستخدامه من قبل مجتمع عالمي من المساهمين والمستخدمين.

اقرأ المزيد في منشور مدونة Hadoop و .



بحث:

ما هي حالات استخدامات البيانات الضخمة في صناعة السفر والنقل والطيران؟

مشمس:



هل يمكنك توجيهنا إلى عينة واقعية لتطبيق Hadoop يمكننا دراستها؟
نحن نعيشمنفي عصر الازدحام المتزايد في وقت الذروة. يسعى مشغلو النقل باستمرار إلى إيجاد طرق فعالة من حيث التكلفة لتقديم خدماتهم مع الحفاظ على أسطول النقل في ظروف جيدة. يمكن أن يساعد استخدام تحليلات البيانات الضخمة في هذا المجال المؤسسة في:

  • تحسين الطريق
  • التحليلات الجغرافية المكانية
  • أنماط المرور والازدحام
  • صيانة الأصول
  • إدارة الإيرادات (أي شركة الطيران)
  • ادارة المخزون
  • حفظ الوقود
  • التسويق المستهدف
  • ولاء العميل
  • القدرة على التنبؤ
  • أداء الشبكة والتحسين

قليل من حالات الاستخدام الواقعية هي:
إلى) تحديد تكاليف الرحلة
ب) نمذجة التنبؤ للخدمات اللوجستية للمخزون
ج) Orbitz Worldwide - أنماط شراء العملاء
د) ستة عمليات نشر Hadoop فائقة الحجم
يكون) Hadoop - أكثر من يضيف
F) Hadoop في المؤسسة

يمكنك معرفة المزيد حول تطبيقات Hadoop Real-world على:

هردش:

هل Hadoop هو كل شيء عن معالجة البيانات ومعالجتها؟ كيف نذهب لإعداد التقارير والتحليلات المرئية. هل يمكن استخدام Qlikview ، Tableau أعلى Hadoop؟
تتعلق مكونات Hadoop الأساسية HDFS و MapReduce بتخزين البيانات ومعالجتها. HDFS للتخزين و MapReduce للمعالجة. لكن مكونات Hadoop الأساسية مثل Pig و Hive تستخدم للتحليلات. بالنسبة إلى التقارير المرئية Tableau ، يمكن توصيل QlikView بـ Hadoop للتقارير المرئية.

أميت:

Hadoop مقابل. mongoDB
يتم استخدام MongoDB كمخزن بيانات 'تشغيلي' في الوقت الفعلي بينما يتم استخدام Hadoop لمعالجة وتحليل بيانات الدُفعات غير المتصلة بالإنترنت.
mongoDB هو عبارة عن مخزن بيانات موجه للمستندات وبدون مخطط يمكنك استخدامه في تطبيق ويب كخلفية بدلاً من RDBMS مثل MySQL بينما يستخدم Hadoop بشكل أساسي في التخزين الموسع والمعالجة الموزعة لكمية كبيرة من البيانات.

اقرأ المزيد في موقعنا مشاركة مدونة mongoDB و Hadoop .

هنا:

هل Apache Spark جزء من Hadoop ؟
يعد Apache Spark محركًا سريعًا وعامًا لمعالجة البيانات على نطاق واسع. Spark أسرع ويدعم المعالجة داخل الذاكرة. يوسع محرك تنفيذ الشرارة نوع أحمال عمل الحوسبة التي يمكن لـ Hadoop التعامل معها ويمكن تشغيلها على مجموعة Hadoop 2.0 YARN. إنه نظام إطار معالجة يسمح بتخزين الكائنات داخل الذاكرة (RDD) إلى جانب القدرة على معالجة هذه الكائنات باستخدام إغلاق Scala. وهو يدعم الرسم البياني ومستودع البيانات والتعلم الآلي ومعالجة الدفق.

إذا كان لديك مجموعة Hadoop 2 ، فيمكنك تشغيل Spark دون الحاجة إلى أي تثبيت. خلاف ذلك ، من السهل تشغيل Spark بشكل مستقل أو على EC2 أو Mesos. يمكنه القراءة من HDFS و HBase و Cassandra وأي مصدر بيانات Hadoop.

اقرأ المزيد على Spark هنا .

براساد:

ما هو اباتشي فلوم؟
يعد Apache Flume نظامًا موزعًا وموثوقًا ومتاحًا لجمع كميات كبيرة من بيانات السجل وتجميعها ونقلها بكفاءة من العديد من المصادر المختلفة إلى مصدر بيانات مركزي.

أميت:

SQL مقابل قواعد بيانات NO-SQL
قواعد بيانات NoSQL هي قواعد بيانات من الجيل التالي وتتناول في الغالب بعض النقاط

  • غير علائقية
  • وزعت
  • مفتوح المصدر
  • قابلة للتحجيم أفقيًا

غالبًا ما يتم تطبيق المزيد من الخصائص مثل دعم النسخ المتماثل السهل والخالي من المخططات وواجهة برمجة تطبيقات بسيطة ومتسقة في النهاية / BASE (وليس ACID) وكمية هائلة من البيانات والمزيد. على سبيل المثال ، قليل من المميزات هي:

  • تتوسع قواعد بيانات NoSQL أفقيًا ، مضيفة المزيد من الخوادم للتعامل مع الأحمال الأكبر. من ناحية أخرى ، عادةً ما يتم توسيع قواعد بيانات SQL عموديًا ، وإضافة المزيد والمزيد من الموارد إلى خادم واحد مع زيادة حركة المرور.
  • تتطلب منك قواعد بيانات SQL تحديد المخططات الخاصة بك قبل إضافة أي معلومات وبيانات ولكن قواعد بيانات NoSQL خالية من المخططات ولا تتطلب تعريف مخطط مسبقًا.
  • قواعد بيانات SQL هي جدول مبني على صفوف وأعمدة تتبع مبادئ RDBMS بينما قواعد بيانات NoSQL عبارة عن مستندات أو أزواج ذات قيمة رئيسية أو رسم بياني أو مخازن ذات أعمدة عريضة.
  • تستخدم قواعد بيانات SQL (لغة الاستعلام المركبة) SQL لتعريف البيانات ومعالجتها. في قاعدة بيانات NoSQL ، تختلف الاستعلامات من قاعدة بيانات إلى أخرى.

قواعد بيانات SQL الشائعة: MySQL و Oracle و Postgres و MS-SQL
جمع قواعد بيانات NoSQL: MongoDB و BigTable و Redis و RavenDb و Cassandra و HBase و Neo4j و CouchDB

مراجعة مدوناتنا على Hadoop و NoSQL قواعد البيانات ومزايا إحدى قواعد البيانات هذه:

كوتسواراراو:

هل لدى Hadoop تقنية Cluster مدمجة؟
تستخدم مجموعة Hadoop بنية Master-Slave. وهي تتكون من وحدة رئيسية واحدة (NameNode) ومجموعة من العبيد (DataNodes) لتخزين البيانات ومعالجتها. تم تصميم Hadoop ليعمل على عدد كبير من الأجهزة التي لا تشترك في أي ذاكرة أو أقراص. يتم تكوين DataNodes هذه على أنها الكتلة باستخدام . يستخدم Hadoop مفهوم النسخ المتماثل لضمان توفر نسخة واحدة على الأقل من البيانات في المجموعة طوال الوقت. نظرًا لوجود نسخ متعددة من البيانات ، يمكن نسخ البيانات المخزنة على خادم يعمل دون اتصال أو يموت تلقائيًا من نسخة جيدة معروفة.

دينيش:

ما هي الوظيفة في Hadoop؟ ما كل ما يمكن تحقيقه من خلال الوظيفة؟
في Hadoop ، الوظيفة عبارة عن برنامج MapReduce لمعالجة / تحليل البيانات. يشير مصطلح MapReduce في الواقع إلى مهمتين منفصلتين ومتميزتين تؤديهما برامج Hadoop. الأولى هي مهمة الخريطة ، والتي تأخذ مجموعة من البيانات وتحولها إلى مجموعة أخرى من البيانات الوسيطة ، حيث يتم تقسيم العناصر الفردية إلى أزواج من القيم الرئيسية. الجزء الثاني من MapReduce Job ، مهمة Reduce ، يأخذ الإخراج من الخريطة كمدخل ويجمع أزواج القيمة الرئيسية في مجموعة أصغر من زوج قيم المفاتيح المجمعة. كما يوحي تسلسل الاسم MapReduce ، يتم دائمًا تنفيذ مهمة تقليل بعد إكمال مهام الخريطة. اقرأ المزيد عن MapReduce Job .

سكروث:

ما هو خاص في NameNode ؟
NameNode هو قلب نظام ملفات HDFS. إنه يحتفظ بالبيانات الوصفية مثل شجرة الدليل لجميع الملفات في نظام الملفات ويتتبع مكان حفظ بيانات الملف عبر المجموعة. يتم تخزين البيانات الفعلية على DataNodes على هيئة كتل HDFS.
تتحدث تطبيقات العميل إلى NameNode عندما يرغبون في تحديد موقع ملف ، أو متى أرادوا إضافة / نسخ / نقل / حذف ملف. تستجيب NameNode للطلبات الناجحة من خلال إعادة قائمة بخوادم DataNodes ذات الصلة حيث توجد البيانات. اقرأ المزيد عن HDFS Architecture .

ما هو __init__ في بيثون

دينيش:

متى تم طرح Hadoop 2.0 في السوق؟
أعلنت مؤسسة Apache Software (ASF) ، وهي مجموعة مفتوحة المصدر تدير Hadoop Development ، في مدونتها في 15 أكتوبر 2013 أن Hadoop 2.0 متاح الآن بشكل عام (GA). يعني هذا الإعلان أنه بعد انتظار طويل ، أصبح Apache Hadoop 2.0 و YARN جاهزين الآن لنشر الإنتاج. المزيد عن مدونة.

دينيش:

ما هي الأمثلة القليلة لتطبيق البيانات الضخمة غير MapReduce؟
يعد MapReduce رائعًا للعديد من التطبيقات لحل مشكلات البيانات الضخمة ولكن ليس لكل شيء تخدم نماذج البرمجة الأخرى المتطلبات بشكل أفضل مثل معالجة الرسم البياني (على سبيل المثال ، Google Pregel / Apache Giraph) والنمذجة التكرارية باستخدام واجهة تمرير الرسائل (MPI).

ماريش:

كيف يتم ترتيب البيانات وفهرستها في HDFS؟
يتم تقسيم البيانات إلى كتل بحجم 64 ميجابايت (قابلة للتكوين بواسطة معلمة) ويتم تخزينها في HDFS. يقوم NameNode بتخزين معلومات تخزين هذه الكتل كمعرفات الكتلة في ذاكرة الوصول العشوائي (بيانات NameNode الوصفية). يمكن لمهام MapReduce الوصول إلى هذه الكتل باستخدام البيانات الوصفية المخزنة في NameNode RAM.

ششوات:

هل يمكننا استخدام كل من MapReduce (MRv1) و MRv2 (مع YARN) في نفس المجموعة؟
قدم Hadoop 2.0 إطار عمل جديدًا YARN لكتابة وتنفيذ تطبيقات مختلفة على Hadoop. لذا ، فإن YARN و MapReduce مفهومان مختلفان في Hadoop 2.0 ويجب عدم خلطهما واستخدامهما بالتبادل. السؤال الصحيح هو 'هل من الممكن تشغيل MRv1 و MRv2 على مجموعة Hadoop 2.0 Cluster التي تم تمكين YARN عليها؟' الجواب على هذا السؤال هو أ 'لا' على الرغم من أنه يمكن تكوين Hadoop Cluster لتشغيل كل من MRv1 و MRv2 ولكن يمكن تشغيل مجموعة واحدة فقط من الشياطين في أي وقت. يستخدم كلا الإطارين في النهاية نفس ملفات التكوين ( موقع الغزل .xml و mapred-site.xml ) لتشغيل daemons ، وبالتالي ، يمكن تمكين واحد فقط من التكوينين على Hadoop Cluster.

دمية:

ما الفرق بين الجيل التالي من MapReduce (MRv2) و YARN؟
YARN و Next Generation MapReduce (MRv2) هما مفهومان وتقنيات مختلفة في Hadoop 2.0. YARN هو إطار عمل برمجي يمكن استخدامه ليس فقط لتشغيل MRv2 ولكن لتشغيل التطبيقات الأخرى أيضًا. MRv2 هو إطار عمل تطبيق مكتوب باستخدام YARN API ويتم تشغيله داخل YARN.

بهارات:

هل يوفر Hadoop 2.0 التوافق مع الإصدارات السابقة لتطبيقات Hadoop 1.x؟
نيها:

هل يتطلب ترحيل Hadoop 1.0 إلى 2.0 رمز تطبيق ثقيل الهجرة؟
لا ، يمكن تشغيل معظم التطبيقات التي تم تطويرها باستخدام واجهات برمجة تطبيقات 'org.apache.hadoop.mapred' على YARN دون أي إعادة تجميع. YARN متوافق ثنائي مع تطبيقات MRv1 ويمكن استخدام 'bin / hadoop' لإرسال هذه التطبيقات على YARN. اقرأ المزيد عن هذا هنا .

شيرين:

ماذا يحدث إذا فشلت عقدة Resource Manager في Hadoop 2.0؟
بدءًا من إصدار Hadoop 2.4.0 ، يتوفر أيضًا دعم التوفر العالي لـ Resource Manager. يستخدم ResourceManager Apache ZooKeeper لتجاوز الفشل. عندما تفشل عقدة إدارة الموارد ، يمكن استرداد عقدة ثانوية بسرعة عبر حالة الكتلة المحفوظة في ZooKeeper. يقوم ResourceManager ، عند تجاوز الفشل ، بإعادة تشغيل كافة التطبيقات الموجودة في قائمة الانتظار والتي تعمل.

سابيرالي:

هل يعمل إطار عمل Hadoop من Apache على Cloudera Hadoop؟
تم تقديم Apache Hadoop في عام 2005 مع محرك معالجة MapReduce الأساسي لدعم المعالجة الموزعة لأحمال عمل البيانات واسعة النطاق المخزنة في HDFS. إنه مشروع مفتوح المصدر وله توزيعات متعددة (على غرار Linux). Cloudera Hadoop (CDH) هو أحد هذه التوزيعات من Cloudera. التوزيعات الأخرى المشابهة هي HortonWorks و MapR و Microsoft HDInsight و IBM InfoSphere BigInsights إلخ.

ارولفاديفيل:

هل هناك طريقة سهلة لتثبيت Hadoop على الكمبيوتر المحمول الخاص بي ومحاولة ترحيل Oracle Database إلى Hadoop؟
تستطيع بداية مع A HortonWorks Sandbox أو Cloudera Quick VM على الكمبيوتر المحمول (مع ذاكرة وصول عشوائي لا تقل عن 4 جيجابايت ومعالج i3 أو أعلى). استخدم SQOOP لنقل البيانات من Oracle إلى Hadoop كما هو موضح هنا .

بهاباني:

ما هي أفضل الكتب المتاحة لتعلم Hadoop؟
أبدا ب Hadoop: الدليل النهائي بواسطة توم وايت و عمليات Hadoop بواسطة اريك سامر.

ماهيندرا:

هل هناك أي قراءة متاحة لـ Hadoop 2.0 تمامًا مثل Hadoop الدليل النهائي؟
راجع ال أحدث وصول على أرفف كتب كتبها عدد قليل من مبتكري Hadoop 2.0.

ترقبوا المزيد من الأسئلة في هذه السلسلة.