أعلى أوامر الخلية مع أمثلة في HQL



تناقش هذه المدونة أوامر الخلية مع أمثلة في HQL. إنشاء ، وإفلات ، واقتطاع ، وتعديل ، وعرض ، ووصف ، واستخدام ، وتحميل ، وإدراج ، وانضم ، والعديد من أوامر الخلية الأخرى

في منشور المدونة هذا ، دعنا نناقش أهم أوامر الخلية مع الأمثلة. تعتبر أوامر Hive هذه مهمة جدًا لإعداد الأساس لـ .

تم إصدار الدليل الوظيفي للتكنولوجيا Edureka 2019! أهم الأدوار الوظيفية ومسارات التعلم الدقيقة والتوقعات الصناعية والمزيد في الدليل. تحميل الآن.

ما هي الخلية؟

Apache Hive هو نظام مستودع بيانات تم إنشاؤه للعمل على Hadoop. يتم استخدامه للاستعلام عن مجموعات البيانات الكبيرة الموجودة في التخزين الموزع وإدارتها. قبل أن يصبح مشروعًا مفتوح المصدر لـ Apache Hadoop ، نشأ Hive في Facebook. يوفر آلية لعرض البنية على البيانات في Hadoop والاستعلام عن هذه البيانات باستخدام لغة تشبه SQL تسمى HiveQL (HQL).





يتم استخدام الخلية لأن الجداول في الخلية تشبه الجداول الموجودة في قاعدة البيانات العلائقية. إذا كنت معتادًا على SQL ، فهي عملية سهلة. يمكن للعديد من المستخدمين الاستعلام عن البيانات في وقت واحد باستخدام Hive-QL.

ما هو HQL؟

يعرّف Hive لغة استعلام بسيطة تشبه SQL للاستعلام عن مجموعات بيانات كبيرة وإدارتها تسمى Hive-QL (HQL). إنه سهل الاستخدام إذا كنت معتادًا على لغة SQL. يسمح Hive للمبرمجين الذين هم على دراية باللغة بكتابة إطار عمل MapReduce المخصص لإجراء تحليل أكثر تعقيدًا.



استخدامات الخلية:

1. وحدة التخزين الموزعة Apache Hive.

2. يوفر Hive أدوات لتمكين استخراج / تحويل / تحميل البيانات بسهولة (ETL)

3. يوفر الهيكل على مجموعة متنوعة من تنسيقات البيانات.



4. باستخدام Hive ، يمكننا الوصول إلى الملفات المخزنة في Hadoop Distributed File System (يتم استخدام HDFS للاستعلام عن مجموعات البيانات الكبيرة الموجودة وإدارتها) أو في أنظمة تخزين البيانات الأخرى مثل Apache HBase.

حدود الخلية:

& bull Hive غير مصمم لمعالجة المعاملات عبر الإنترنت (OLTP) ، فهو يُستخدم فقط للمعالجة التحليلية عبر الإنترنت.

& bull Hive تدعم الكتابة فوق البيانات أو استيعابها ، ولكن لا تدعم التحديثات والحذف.

& bull في الخلية ، الاستعلامات الفرعية غير مدعومة.

لماذا تستخدم الخلية بالرغم من الخنزير؟

فيما يلي أسباب استخدام Hive على الرغم من توفر Pig:

  • Hive-QL هو خط لغة تعريفي SQL ، PigLatin هي لغة تدفق البيانات.
  • Pig: لغة وبيئة لتدفق البيانات لاستكشاف مجموعات بيانات كبيرة جدًا.
  • الخلية: مستودع بيانات موزع.

مكونات الخلية:

ميتاستور:

يخزن Hive مخطط جداول Hive في Hive Metastore. يستخدم Metastore للاحتفاظ بجميع المعلومات حول الجداول والأقسام الموجودة في المستودع. بشكل افتراضي ، يتم تشغيل metastore في نفس العملية مثل خدمة Hive والميتستور الافتراضي هو قاعدة بيانات DerBy.

سيردي:

Serializer ، Deserializer يعطي تعليمات للخلية حول كيفية معالجة سجل.

أوامر الخلية:

لغة تعريف البيانات (DDL)

تُستخدم عبارات DDL لإنشاء الجداول والكائنات الأخرى في قاعدة البيانات وتعديلها.

أمر DDL وظيفة
خلق يتم استخدامه لإنشاء جدول أو قاعدة بيانات
تبين يتم استخدامه لإظهار قاعدة البيانات ، الجدول ، الخصائص ، إلخ
عمر يتم استخدامه لإجراء تغييرات على الجدول الموجود
وصف يصف أعمدة الجدول
اقتطاع تستخدم لاقتطاع وحذف صفوف الجدول بشكل دائم
حذف يحذف بيانات الجدول ، ولكن يمكن استعادتها

انتقل إلى Hive shell بإعطاء الأمر sudo hive وأدخل الأمر 'خلق قاعدة البيانات اسم> ' لإنشاء قاعدة بيانات جديدة في الخلية.

تكوين قاعدة بيانات Hive باستخدام أوامر Hive

لسرد قواعد البيانات في Hive Warehouse ، أدخل الأمر ' إظهار قواعد البيانات.

تقوم قاعدة البيانات بتكوين موقع افتراضي لمستودع Hive. في Cloudera ، مخزن قاعدة بيانات Hive في / user / hive / Warehouse.

الأمر لاستخدام قاعدة البيانات هو استعمال

انسخ بيانات الإدخال إلى HDFS من محلي باستخدام الأمر copy From Local.

الفرق بين الهاشمب والتجزئة

عندما نقوم بإنشاء جدول في الخلية ، فإنه يتم إنشاؤه في الموقع الافتراضي لمستودع الخلية. - '/ user / hive / Warehouse' ، بعد إنشاء الجدول يمكننا نقل البيانات من HDFS إلى جدول الخلية.

يقوم الأمر التالي بإنشاء جدول بالمكان '/user/hive/warehouse/retail.db'

ملحوظة : Retail.db هي قاعدة البيانات التي تم إنشاؤها في مستودع Hive.

وصف يوفر معلومات حول مخطط الجدول.

لغة معالجة البيانات (DML)

تُستخدم عبارات DML لاسترداد البيانات وتخزينها وتعديلها وحذفها وإدراجها وتحديثها في قاعدة البيانات.

مثال:

تحميل ، أدخل البيانات.

بناء الجملة :

LOAD data inpath in table [tablename]

يتم استخدام عملية التحميل لنقل البيانات إلى جدول الخلية المقابل. إذا كانت الكلمة محلي تم تحديده ، ثم في أمر التحميل سيعطي مسار نظام الملفات المحلي. إذا لم يتم تحديد الكلمة الأساسية المحلية ، يتعين علينا استخدام مسار HDFS للملف.

فيما يلي بعض الأمثلة لأمر LOAD data LOCAL

بعد تحميل البيانات في جدول الخلية ، يمكننا تطبيق بيانات معالجة البيانات أو الوظائف المجمعة لاسترداد البيانات.

مثال لحساب عدد السجلات:

يتم استخدام دالة تجميع العد لحساب العدد الإجمالي للسجلات في جدول.

'إنشاء جدول خارجي':

ال خلق الخارجية يتم استخدام الكلمة الأساسية لإنشاء جدول وتوفر موقعًا حيث سيتم إنشاء الجدول ، بحيث لا تستخدم الخلية موقعًا افتراضيًا لهذا الجدول. ان خارجي يشير الجدول إلى أي موقع HDFS لتخزينه ، بدلاً من التخزين الافتراضي.

أدخل الأمر:

ال إدراج يتم استخدام الأمر لتحميل جدول خلية البيانات. يمكن إجراء الإدخالات على جدول أو قسم.

& bull INSERT OVERWRITE يُستخدم للكتابة فوق البيانات الموجودة في الجدول أو القسم.

& bull INSERT INTO يستخدم لإلحاق البيانات بالبيانات الموجودة في جدول. (ملاحظة: INSERT INTO syntax يعمل من الإصدار 0.8)

مثال للأمر 'مقسم بواسطة' و 'مجمع بواسطة':

'مقسم بواسطة 'لتقسيم الجدول إلى قسم ويمكن تقسيمه إلى مجموعات باستخدام' مجمعة حسب ' أمر.

عندما نقوم بإدخال أخطاء إلقاء خلية البيانات ، يكون وضع التقسيم الديناميكي صارمًا ولم يتم تمكين القسم الديناميكي (بواسطة جيف في موقع دريسهيد ). لذلك نحن بحاجة إلى تعيين المعلمات التالية في غلاف الخلية.

تعيين hive.exec.dynamic.partition = صحيح

لتمكين الأقسام الديناميكية ، يكون هذا خطأ افتراضيًا

اضبط hive.exec.dynamic.partition.mode = nonstrict

يتم التقسيم حسب الفئة ويمكن تقسيمه إلى مجموعات باستخدام الأمر 'Clustered By'.

ما هو الماسح الضوئي في جافا

تحذف عبارة 'إسقاط الجدول' البيانات والبيانات الوصفية للجدول. في حالة الجداول الخارجية ، يتم حذف البيانات الوصفية فقط.

تحذف عبارة 'إسقاط الجدول' البيانات والبيانات الوصفية للجدول. في حالة الجداول الخارجية ، يتم حذف البيانات الوصفية فقط.

قم بتحميل مسار البيانات المحلي 'aru.txt' في اسم جدول الجدول ثم نتحقق من جدول الموظف 1 باستخدام أمر تحديد * من اسم الجدول

لحساب عدد السجلات في الجدول باستخدام تحديد عدد (*) من txnrecords

التجميع:

حدد عدد (DISTINCT فئة) من tablename

سيحسب هذا الأمر فئة مختلفة من جدول 'كاتي'. هنا توجد 3 فئات مختلفة.

افترض أن هناك جدول آخر cate حيث f1 هو اسم حقل الفئة.

التجمع:

يتم استخدام أمر المجموعة لتجميع مجموعة النتائج بواسطة عمود واحد أو أكثر.

حدد الفئة ، المبلغ (المبلغ) من مجموعة سجلات النص حسب الفئة

يحسب مقدار نفس الفئة.

يتم تخزين الجدول الناتج في جدول آخر.

إنشاء جدول newtablename كما حدد * من oldtablename

الانضمام إلى الأمر:

هنا يتم إنشاء جدول آخر بالاسم 'بريد'

تاريخ العملية :

يتم تنفيذ عملية الانضمام لدمج الحقول من جدولين باستخدام القيم المشتركة لكل منهما.

ترك صلة خارجية :

تحتوي نتيجة الصلة الخارجية اليسرى (أو ببساطة الصلة اليسرى) للجدولين A و B دائمًا على كافة سجلات الجدول 'الأيسر' (A) ، حتى إذا لم يعثر شرط الصلة على أي سجل مطابق في الجدول 'الأيمن' (ب).

حق الانضمام الخارجي :

الصلة الخارجية اليمنى (أو الصلة اليمنى) تشبه إلى حد كبير الصلة الخارجية اليسرى ، باستثناء معالجة الجداول معكوسة. سيظهر كل صف من الجدول 'الأيمن' (B) في الجدول المرتبط مرة واحدة على الأقل.

انضمام كامل :

سيحتوي الجدول المرتبط على كافة السجلات من كلا الجدولين ، وملء القيم الخالية للمطابقات المفقودة على كلا الجانبين.

بمجرد الانتهاء من استخدام الخلية ، يمكننا استخدام الأمر quit للخروج من صدفة الخلية.

الخروج من الخلية

Hive هو مجرد جزء من اللغز الكبير المسمى Big Data و Hadoop. Hadoop هو أكثر بكثير من مجرد خلية. انقر أدناه لمعرفة المهارات الأخرى التي يجب أن تتقنها في Hadoop.

لديك سؤال لنا؟ يرجى ذكر ذلك في قسم التعليقات وسنعاود الاتصال بك.

المنشورات ذات الصلة:

7 طرق يمكن أن يغيرها التدريب على البيانات الضخمة مؤسستك

نماذج بيانات الخلية