أدوات Hadoop الأساسية لطحن البيانات الضخمة

Hadoop هي الكلمة الطنانة في عالم تكنولوجيا المعلومات اليوم ، ويصف هذا المنشور أدوات Hadoop الأساسية التي تعمل على معالجة البيانات الكبيرة.

اليوم ، المصطلح الأكثر شيوعًا في عالم تكنولوجيا المعلومات هو 'Hadoop'. في غضون فترة زمنية قصيرة ، هادوب على نطاق واسع وأثبتت فائدتها لمجموعة كبيرة من المشاريع المتنوعة. يتطور مجتمع Hadoop بسرعة وله دور بارز في نظامه البيئي.





فيما يلي نظرة على أدوات Hadoop الأساسية المستخدمة للتعامل مع البيانات الضخمة.

برنامج تعليمي للمطورين SQL للمبتدئين

ambari



أمباري هو مشروع Apache مدعوم من Hortonworks. يوفر واجهة المستخدم الرسومية (GUI) المستندة إلى الويب مع البرامج النصية للمعالج لإعداد مجموعات مع معظم المكونات القياسية. يقوم Ambari بتوفير وإدارة ومراقبة جميع مجموعات وظائف Hadoop.

hdfs-logo

ال HDFS ، الموزعة بموجب ترخيص Apache ، يوفر إطارًا أساسيًا لتقسيم مجموعات البيانات بين عقد متعددة. في HDFS ، يتم تقسيم الملفات الكبيرة إلى كتل ، حيث تحتوي عدة عقد على كل الكتل من الملف. تم تصميم نظام الملفات بطريقة تجمع بين التسامح مع الخطأ والإنتاجية العالية. يتم تحميل كتل HDFS للحفاظ على تدفق ثابت. لا يتم تخزينها مؤقتًا عادةً لتقليل زمن الوصول.



hbaselogo

HBase هو نظام إدارة قاعدة بيانات موجه نحو الأعمدة يعمل فوق HDFS. تتم كتابة تطبيقات HBase بلغة Java ، تمامًا مثل تطبيق MapReduce. وهو يتألف من مجموعة من الجداول ، حيث يحتوي كل جدول على صفوف وأعمدة مثل قاعدة البيانات التقليدية. عندما تقع البيانات في الجدول الكبير ، سيقوم HBase بتخزين البيانات والبحث عنها ومشاركة الجدول تلقائيًا عبر عقد متعددة حتى تتمكن وظائف MapReduce من تشغيلها محليًا. تقدم HBase ضمانًا محدودًا لبعض التغييرات المحلية. التغييرات التي تحدث في صف واحد يمكن أن تنجح أو تفشل في نفس الوقت.

hive

إذا كنت تتقن بالفعل SQL ، فيمكنك الاستفادة من Hadoop باستخدام خلية نحل . تم تطوير Hive بواسطة بعض الأشخاص في Facebook. تنظم Apache Hive عملية استخراج البتات من جميع الملفات في HBase. وهو يدعم تحليل مجموعات البيانات الكبيرة المخزنة في Hadoop's HDFS وأنظمة الملفات المتوافقة. كما أنه يوفر لغة مثل SQL تسمى HSQL (HiveSQL) تدخل في الملفات وتستخرج المقتطفات المطلوبة للرمز.

sqoop

اباتشي سكووب تم تصميمه خصيصًا لنقل البيانات الضخمة بكفاءة من قواعد البيانات التقليدية إلى Hive أو HBase. يمكن استخدامه أيضًا لاستخراج البيانات من Hadoop وتصديرها إلى مخازن البيانات المنظمة الخارجية مثل قواعد البيانات العلائقية ومستودعات بيانات المؤسسة. Sqoop هي أداة سطر أوامر ، تقوم برسم الخرائط بين الجداول وطبقة تخزين البيانات ، وترجمة الجداول إلى مجموعة قابلة للتكوين من HDFS أو HBase أو Hive.

Pig1

عندما تكون البيانات المخزنة مرئية لـ Hadoop ، اباتشي خنزير يغوص في البيانات ويقوم بتشغيل الشفرة المكتوبة بلغتها الخاصة ، والتي تسمى Pig Latin. تمتلئ Pig Latin بالتجريدات للتعامل مع البيانات. يأتي Pig مع وظائف قياسية للمهام الشائعة مثل حساب متوسط ​​البيانات أو العمل مع التواريخ أو للعثور على الاختلافات بين السلاسل. يسمح Pig أيضًا للمستخدم بكتابة اللغات من تلقاء نفسه ، والتي تسمى UDF (الوظيفة المحددة بواسطة المستخدم) ، عندما تكون الوظائف القياسية قصيرة.

zookeper

حارس حديقة الحيوان هي خدمة مركزية تحافظ على المعلومات وتكوّنها وتعطي اسمًا وتوفر المزامنة الموزعة عبر الكتلة. إنه يفرض تسلسلاً هرميًا يشبه نظام الملفات على الكتلة ويخزن جميع البيانات الوصفية للآلات ، حتى نتمكن من مزامنة عمل الأجهزة المختلفة.

NoSQL

تتكامل بعض مجموعات Hadoop مع NoSQL مخازن البيانات التي تأتي مع آلياتها الخاصة لتخزين البيانات عبر مجموعة من العقد. يسمح لهم ذلك بتخزين واسترداد البيانات بكل ميزات قاعدة بيانات NoSQL ، وبعد ذلك يمكن استخدام Hadoop لجدولة مهام تحليل البيانات على نفس المجموعة.

mahoutlogo

الفيال تم تصميمه لتنفيذ عدد كبير من الخوارزميات والتصنيفات وتصفية تحليل البيانات إلى كتلة Hadoop. العديد من الخوارزميات القياسية مثل K-mean و Dirichelet والنمط المتوازي وتصنيفات Bayesian جاهزة للتشغيل على البيانات باستخدام خريطة نمط Hadoop وتقليلها.

لوسين ، مكتوب بلغة جافا ومتكامل بسهولة مع Hadoop ، هو الرفيق الطبيعي لـ Hadoop. إنها أداة مخصصة لفهرسة الكتل الكبيرة من النص غير المهيكل. يتعامل Lucene مع الفهرسة ، بينما يعالج Hadoop الاستعلامات الموزعة عبر المجموعة. تتطور ميزات Lucene-Hadoop بسرعة مع تطوير مشاريع جديدة.

Avro

اليورو هو نظام تسلسل يجمع البيانات مع مخطط لفهمها. تأتي كل حزمة مع بنية بيانات JSON. يشرح JSON كيف يمكن تحليل البيانات. يحدد عنوان JSON بنية البيانات ، حيث يمكن تجنب الحاجة إلى كتابة علامات إضافية في البيانات لتمييز الحقول. الإخراج مضغوط بدرجة أكبر من التنسيقات التقليدية مثل XML.

يمكن تبسيط الوظيفة بتقسيمها إلى خطوات. عند تقسيم المشروع إلى وظائف Hadoop المتعددة ، أوزي يبدأ في معالجتها بالتسلسل الصحيح. يدير سير العمل كما هو محدد بواسطة DAG (الرسم البياني غير الدوري المباشر) وليس هناك حاجة للمراقبة في الوقت المناسب.

أدوات نظم المعلومات الجغرافية

يعد العمل مع الخرائط الجغرافية مهمة كبيرة للمجموعات التي تدير Hadoop. نظم المعلومات الجغرافية ( نظام المعلومات الجغرافية ) أدوات لمشاريع Hadoop قامت بتكييف أفضل الأدوات المستندة إلى Java لفهم المعلومات الجغرافية للتشغيل مع Hadoop. يمكن لقواعد البيانات الآن معالجة الاستعلامات الجغرافية باستخدام الإحداثيات ويمكن للرموز نشر أدوات نظم المعلومات الجغرافية.

جمع كل البيانات يساوي تخزينها وتحليلها. اباتشي فلوم ترسل 'وكلاء خاصين' لجمع المعلومات التي سيتم تخزينها في HDFS. يمكن أن تكون المعلومات التي تم جمعها عبارة عن ملفات سجلات أو Twitter API أو قصاصات موقع الويب. يمكن ربط هذه البيانات بالسلاسل وإخضاعها للتحليلات.

Spark

شرارة هو الجيل التالي الذي يعمل إلى حد كبير مثل Hadoop الذي يعالج البيانات المخزنة مؤقتًا في الذاكرة. هدفها هو جعل تحليل البيانات سريع التشغيل والكتابة باستخدام نموذج تنفيذ عام. يمكن أن يؤدي ذلك إلى تحسين الرسوم البيانية التعسفية للمشغل ودعم الحوسبة في الذاكرة ، مما يتيح لها الاستعلام عن البيانات بشكل أسرع من المحركات القائمة على الأقراص مثل Hadoop.

SQL على Hadoop

عندما يكون مطلوبًا تشغيل استعلام سريع مخصص لجميع البيانات الموجودة في المجموعة ، يمكن كتابة مهمة Hadoop جديدة ، ولكن هذا يستغرق بعض الوقت. عندما بدأ المبرمجون في القيام بذلك في كثير من الأحيان ، توصلوا إلى أدوات مكتوبة بلغة SQL البسيطة. توفر هذه الأدوات وصولاً سريعًا إلى النتائج.

اباتشي حفر

يوفر Apache Drill استعلامات مخصصة بزمن انتقال منخفض لمصادر بيانات عديدة ومتنوعة ، بما في ذلك البيانات المتداخلة. تم تصميم Drill ، المستوحى من Dremel من Google ، لتوسيع نطاقه ليشمل 10000 خادم والاستعلام عن بيتابايت من البيانات في ثوانٍ.

هذه هي أدوات Hadoop الأساسية لطحن البيانات الضخمة!

لديك سؤال لنا؟ يرجى ذكرها في قسم التعليقات وسنعاود الاتصال بك.

المنشورات ذات الصلة:

أسباب عملية لتعلم Hadoop 2.0