مقدمة إلى Apache Hive



Apache Hive عبارة عن حزمة تخزين بيانات مبنية على Hadoop وتستخدم لتحليل البيانات. تستهدف الخلية المستخدمين الذين يشعرون بالراحة مع SQL.

Apache Hive عبارة عن حزمة تخزين بيانات مبنية على Hadoop وتستخدم لتحليل البيانات. تستهدف الخلية المستخدمين الذين يشعرون بالراحة مع SQL. إنه مشابه لـ SQL ويسمى HiveQL ، ويستخدم لإدارة البيانات المنظمة والاستعلام عنها. يستخدم Apache Hive لتجريد تعقيد Hadoop. تسمح هذه اللغة أيضًا للخريطة التقليدية / تقليل المبرمجين بتوصيل رسامي الخرائط والمخفضات المخصصين. الميزة الشائعة لـ Hive هي أنه ليست هناك حاجة لتعلم Java.





تم تطوير Hive ، وهو إطار مفتوح المصدر لتخزين التاريخ على نطاق بيتا بايت على أساس Hadoop ، بواسطة فريق البنية التحتية للبيانات في Facebook. Hive هي أيضًا إحدى التقنيات التي يتم استخدامها لتلبية المتطلبات في Facebook. تحظى Hive بشعبية كبيرة بين جميع المستخدمين داخليًا على Facebook ويتم استخدامها لتشغيل آلاف الوظائف على الكتلة مع مئات المستخدمين ، لمجموعة متنوعة من التطبيقات. تخزن مجموعة Hive-Hadoop في Facebook أكثر من 2 بيتابايت من البيانات الأولية وتحمل بانتظام 15 تيرابايت من البيانات على أساس يومي.

دعونا نلقي نظرة على بعض ميزاته التي تجعله رائجًا وسهل الاستخدام:



  • يسمح للمبرمجين بتوصيل مصممي الخرائط والمخفيضات المخصصة.
  • لديه بنية تحتية لمخزن البيانات.
  • يوفر أدوات لتمكين ETL البيانات بسهولة.
  • يحدد لغة استعلام تشبه SQL تسمى QL.

حالة استخدام Apache Hive - Facebook:

حالة استخدام الخلية - Facebook

قبل تنفيذ Hive ، واجه Facebook الكثير من التحديات مع زيادة حجم البيانات التي يتم إنشاؤها أو انفجارها ، مما يجعل من الصعب حقًا التعامل معها. لم يستطع نظام RDBMS التقليدي التعامل مع الضغط ونتيجة لذلك كان Facebook يبحث عن خيارات أفضل. لحل هذه المشكلة الوشيكة ، حاول Facebook في البداية استخدام Hadoop MapReduce ، ولكن بصعوبة في البرمجة والمعرفة الإلزامية في SQL ، جعلته حلاً غير عملي. سمحت لهم خلية النحل بالتغلب على التحديات التي كانوا يواجهونها.

باستخدام Hive ، يمكنهم الآن تنفيذ ما يلي:



  • يمكن تقسيم الجداول ودلوها
  • مرونة المخطط والتطور
  • تتوفر برامج تشغيل JDBC / ODBC
  • يمكن تعريف جداول الخلية مباشرة في HDFS
  • قابل للتوسيع - أنواع وتنسيقات ووظائف ونصوص

حالة استخدام الخلية في الرعاية الصحية:

أين تستخدم Hive؟

يمكن استخدام Apache Hive في الأماكن التالية:

تحويل السلسلة إلى تاريخ جافا
  • بيانات التعدين
  • معالجة السجل
  • فهرسة الوثيقة
  • مواجهة العميل لذكاء الأعمال
  • النمذجة التنبؤية
  • اختبار الفرضيات

هندسة الخلية:

تتكون الخلية من المكونات الرئيسية التالية:

  • Metastore - لتخزين البيانات الوصفية.
  • JDBC / ODBC - مترجم الاستعلام ومحرك التنفيذ لتحويل استعلامات SQL إلى تسلسل MapReduce.
  • SerDe و ObjectInspectors - لتنسيقات البيانات وأنواعها.
  • UDF / UDAF - للوظائف التي يحددها المستخدم.
  • العملاء - على غرار سطر أوامر MySQL وواجهة مستخدم ويب.

مكونات الخلية:

ميتاستور:

يقوم Metastore بتخزين المعلومات حول الجداول والأقسام والأعمدة داخل الجداول. هناك 3 طرق للتخزين في Metastore: Metastore المضمنة ، Metastore المحلي و Metastore البعيد. في الغالب ، سيتم استخدام Remote Metastore في وضع الإنتاج.

ما هي السلسلة الفرعية في جافا

حدود الخلية:

تحتوي الخلية على القيود التالية ولا يمكن استخدامها في مثل هذه الظروف:

  • غير مصمم لمعالجة المعاملات عبر الإنترنت.
  • يوفر زمن انتقال مقبول لتصفح البيانات التفاعلي.
  • لا تقدم استعلامات في الوقت الحقيقي وتحديثات مستوى الصف.
  • وقت الاستجابة لاستعلامات Hive مرتفع جدًا بشكل عام.

لديك سؤال لنا؟ أذكرها في قسم التعليقات وسنعاود الاتصال بك.

المنشورات ذات الصلة:

أوامر الخلية