مقدمة إلى APACHE HIVE

Apache Hive عبارة عن حزمة تخزين بيانات مبنية على Hadoop وتستخدم لتحليل البيانات. تستهدف الخلية المستخدمين الذين يشعرون بالراحة مع SQL. إنه مشابه لـ SQL ويسمى HiveQL ، ويستخدم لإدارة البيانات المنظمة والاستعلام عنها. يستخدم Apache Hive لتجريد تعقيد Hadoop. تسمح هذه اللغة أيضًا للخريطة التقليدية / تقليل المبرمجين بتوصيل رسامي الخرائط والمخفضات المخصصين. الميزة الشائعة لـ Hive هي أنه ليست هناك حاجة لتعلم Java.

تم تطوير Hive ، وهو إطار مفتوح المصدر لتخزين التاريخ على نطاق بيتا بايت على أساس Hadoop ، بواسطة فريق البنية التحتية للبيانات في Facebook. Hive هي أيضًا إحدى التقنيات التي يتم استخدامها لتلبية المتطلبات في Facebook. تحظى Hive بشعبية كبيرة بين جميع المستخدمين داخليًا على Facebook ويتم استخدامها لتشغيل آلاف الوظائف على الكتلة مع مئات المستخدمين ، لمجموعة متنوعة من التطبيقات. تخزن مجموعة Hive-Hadoop في Facebook أكثر من 2 بيتابايت من البيانات الأولية وتحمل بانتظام 15 تيرابايت من البيانات على أساس يومي.

دعونا نلقي نظرة على بعض ميزاته التي تجعله رائجًا وسهل الاستخدام:

يسمح للمبرمجين بتوصيل مصممي الخرائط والمخفيضات المخصصة.
لديه بنية تحتية لمخزن البيانات.
يوفر أدوات لتمكين ETL البيانات بسهولة.
يحدد لغة استعلام تشبه SQL تسمى QL.

حالة استخدام Apache Hive - Facebook:

حالة استخدام الخلية - Facebook

قبل تنفيذ Hive ، واجه Facebook الكثير من التحديات مع زيادة حجم البيانات التي يتم إنشاؤها أو انفجارها ، مما يجعل من الصعب حقًا التعامل معها. لم يستطع نظام RDBMS التقليدي التعامل مع الضغط ونتيجة لذلك كان Facebook يبحث عن خيارات أفضل. لحل هذه المشكلة الوشيكة ، حاول Facebook في البداية استخدام Hadoop MapReduce ، ولكن بصعوبة في البرمجة والمعرفة الإلزامية في SQL ، جعلته حلاً غير عملي. سمحت لهم خلية النحل بالتغلب على التحديات التي كانوا يواجهونها.

باستخدام Hive ، يمكنهم الآن تنفيذ ما يلي:

يمكن تقسيم الجداول ودلوها
مرونة المخطط والتطور
تتوفر برامج تشغيل JDBC / ODBC
يمكن تعريف جداول الخلية مباشرة في HDFS
قابل للتوسيع - أنواع وتنسيقات ووظائف ونصوص

حالة استخدام الخلية في الرعاية الصحية:

أين تستخدم Hive؟

يمكن استخدام Apache Hive في الأماكن التالية:

تحويل السلسلة إلى تاريخ جافا

بيانات التعدين
معالجة السجل
فهرسة الوثيقة
مواجهة العميل لذكاء الأعمال
النمذجة التنبؤية
اختبار الفرضيات

هندسة الخلية:

تتكون الخلية من المكونات الرئيسية التالية:

Metastore - لتخزين البيانات الوصفية.
JDBC / ODBC - مترجم الاستعلام ومحرك التنفيذ لتحويل استعلامات SQL إلى تسلسل MapReduce.
SerDe و ObjectInspectors - لتنسيقات البيانات وأنواعها.
UDF / UDAF - للوظائف التي يحددها المستخدم.
العملاء - على غرار سطر أوامر MySQL وواجهة مستخدم ويب.

مكونات الخلية:

ميتاستور:

يقوم Metastore بتخزين المعلومات حول الجداول والأقسام والأعمدة داخل الجداول. هناك 3 طرق للتخزين في Metastore: Metastore المضمنة ، Metastore المحلي و Metastore البعيد. في الغالب ، سيتم استخدام Remote Metastore في وضع الإنتاج.

ما هي السلسلة الفرعية في جافا

حدود الخلية:

تحتوي الخلية على القيود التالية ولا يمكن استخدامها في مثل هذه الظروف:

غير مصمم لمعالجة المعاملات عبر الإنترنت.
يوفر زمن انتقال مقبول لتصفح البيانات التفاعلي.
لا تقدم استعلامات في الوقت الحقيقي وتحديثات مستوى الصف.
وقت الاستجابة لاستعلامات Hive مرتفع جدًا بشكل عام.

لديك سؤال لنا؟ أذكرها في قسم التعليقات وسنعاود الاتصال بك.

المنشورات ذات الصلة:

أوامر الخلية

Apache Hive عبارة عن حزمة تخزين بيانات مبنية على Hadoop وتستخدم لتحليل البيانات. تستهدف الخلية المستخدمين الذين يشعرون بالراحة مع SQL.

حالة استخدام Apache Hive - Facebook:

حالة استخدام الخلية في الرعاية الصحية:

أين تستخدم Hive؟

هندسة الخلية:

مكونات الخلية:

حدود الخلية:

التصنيفات

Popular Articles

البيانات الضخمة في الرعاية الصحية: كيف أحدث Hadoop ثورة في تحليلات الرعاية الصحية

أفضل 10 أفضل IDE لـ Python: كيف تختار أفضل Python IDE؟

إنشاء شبكة سيلينيوم لاختبار السيلينيوم الموزع

ما هي وظيفة العضو الثابت في C ++؟

دروس إكسل المتقدمة: كيف تتقن MS Excel؟

أدوات Hadoop الأساسية لطحن البيانات الضخمة

كأس العالم 2018: 5 تقنيات متغيرة للعبة في كرة القدم

دروس Amazon Lightsail التعليمية - مقدمة

برنامج Amazon Elastic Block Store التعليمي: كل ما تحتاج إلى معرفته

ما هو Ethereum؟ منصة لإضفاء اللامركزية على العالم

كيف تنفذ الوعود في JavaScript؟

دليل موجز لأنماط التصميم في JavaScript