MongoDB مع Hadoop وتقنيات البيانات الضخمة ذات الصلة



يعد MongoDB مع Hadoop وتقنيات البيانات الضخمة ذات الصلة مزيجًا قويًا لتوفير حل لحالة معقدة في التحليلات.

كانت قواعد البيانات الارتباطية لفترة طويلة كافية للتعامل مع مجموعات البيانات الصغيرة أو المتوسطة. لكن المعدل الهائل الذي تنمو به البيانات يجعل النهج التقليدي لتخزين البيانات واسترجاعها غير ممكن. يتم حل هذه المشكلة من خلال أحدث التقنيات التي يمكنها التعامل مع البيانات الضخمة. Hadoop و Hive و Hbase هي المنصات الشائعة لتشغيل هذا النوع من مجموعات البيانات الكبيرة. توفر قواعد بيانات NoSQL أو ليس فقط SQL مثل MongoDB آلية لتخزين واسترداد البيانات في نموذج تناسق خاسر مع مزايا مثل:

  • التحجيم الأفقي
  • توافر أعلى
  • وصول أسرع

قام فريق الهندسة MongoDB مؤخرًا بتحديث MongoDB Connector for Hadoop لتحقيق تكامل أفضل. هذا يسهل على مستخدمي Hadoop:





  • ادمج بيانات الوقت الفعلي من MongoDB مع Hadoop للحصول على تحليلات عميقة وغير متصلة بالإنترنت.
  • يعرض الموصل القوة التحليلية لـ MapReduce Hadoop لبيانات التطبيق الحية من MongoDB ، مما يؤدي إلى زيادة القيمة من البيانات الكبيرة بشكل أسرع وأكثر كفاءة.
  • يقدم الموصل MongoDB كنظام ملفات متوافق مع Hadoop يسمح لمهمة MapReduce بالقراءة من MongoDB مباشرة دون نسخها أولاً إلى HDFS (نظام ملفات Hadoop) ، وبالتالي إزالة الحاجة إلى نقل تيرابايت من البيانات عبر الشبكة.
  • يمكن لوظائف MapReduce تمرير الاستعلامات كمرشحات ، وبالتالي تجنب الحاجة إلى فحص مجموعات كاملة ، ويمكن أيضًا الاستفادة من إمكانات MongoDB الغنية في الفهرسة بما في ذلك الفهارس الجغرافية المكانية والبحث النصي والمصفوفة والمركبة والمتفرقة.
  • عند القراءة من MongoDB ، يمكن أيضًا إعادة كتابة نتائج وظائف Hadoop إلى MongoDB ، لدعم العمليات التشغيلية في الوقت الفعلي والاستعلام المخصص.

حالات استخدام Hadoop و MongoDB:

دعنا نلقي نظرة على وصف عالي المستوى لكيفية توافق MongoDB و Hadoop معًا في مكدس بيانات كبير نموذجي. في المقام الأول لدينا:

  • تستخدم MongoDB كملف مخزن بيانات 'تشغيلي' في الوقت الفعلي
  • Hadoop لـ معالجة وتحليل بيانات الدُفعات غير المتصلة بالإنترنت

تابع القراءة لمعرفة السبب و كيف تم استخدام MongoDB من قبل الشركات والمؤسسات مثل Aadhar و Shutterfly و Metlife و eBay .



تطبيق MongoDB مع Hadoop في التجميع الدفعي:

في معظم السيناريوهات ، تكون وظيفة التجميع المضمنة التي توفرها MongoDB كافية لتحليل البيانات. ومع ذلك ، في بعض الحالات ، قد يكون من الضروري تجميع البيانات الأكثر تعقيدًا. هذا هو المكان الذي يمكن أن يوفر فيه Hadoop إطار عمل قويًا للتحليلات المعقدة.

روبي على السكك الحديدية سوق العمل

في هذا السيناريو:

  • يتم سحب البيانات من MongoDB ومعالجتها داخل Hadoop عبر وظيفة MapReduce واحدة أو أكثر. يمكن أيضًا الحصول على البيانات من أماكن أخرى ضمن وظائف MapReduce هذه لتطوير حل متعدد مصادر البيانات.
  • يمكن بعد ذلك إعادة كتابة الإخراج من وظائف MapReduce هذه إلى MongoDB للاستعلام عنها في مرحلة لاحقة ولأي تحليل على أساس مخصص.
  • يمكن للتطبيقات المبنية على موقع MongoDB أن تستخدم المعلومات من تحليلات الدُفعات لتقديمها إلى العميل النهائي أو لتمكين ميزات أخرى في المراحل النهائية.

تجميع Hadoop Mongo DB



ماذا يفعل مطور اللوحات

التطبيق في تخزين البيانات:

في إعداد الإنتاج النموذجي ، قد توجد بيانات التطبيق في مخازن بيانات متعددة ، لكل منها لغة الاستعلام الخاصة بها ووظائفها. لتقليل التعقيد في هذه السيناريوهات ، يمكن استخدام Hadoop كمستودع بيانات والعمل كمستودع مركزي للبيانات من المصادر المختلفة.

في هذا النوع من السيناريو:

  • تعمل MapReduce الدورية على تحميل البيانات من MongoDB إلى Hadoop.
  • بمجرد توفر البيانات من MongoDB والمصادر الأخرى في Hadoop ، يمكن الاستعلام عن مجموعة البيانات الأكبر.
  • يتوفر لمحللي البيانات الآن خيار استخدام إما MapReduce أو Pig لإنشاء وظائف تستعلم عن مجموعات البيانات الأكبر التي تتضمن بيانات من MongoDB.

تضمن الفريق الذي يعمل خلف MongoDB أنه من خلال تكامله الغني مع تقنيات البيانات الضخمة مثل Hadoop ، فإنه قادر على الاندماج جيدًا في Big Data Stack والمساعدة في حل بعض المشكلات المعمارية المعقدة عندما يتعلق الأمر بتخزين البيانات واسترجاعها ومعالجتها وتجميعها وتخزينها. . ترقبوا منشورنا القادم عن آفاق العمل لأولئك الذين يستخدمون Hadoop مع MongoDB. إذا كنت تعمل بالفعل مع Hadoop أو كنت تستخدم MongoDB فقط ، فقم بمراجعة الدورات التي نقدمها لـ MongoDB