تثبيت Apache Hive على Ubuntu



في هذه المدونة ، سنتعرف على تثبيت Apache Hive على Ubuntu والمفاهيم حول Hadoop Hive و Hive sql و Hive database و Hive server و Hive.

يعد Apache Hive أحد أهم الأطر في نظام Hadoop البيئي ، مما يجعله بدوره مهمًا للغاية . في هذه المدونة ، سنتعرف على تثبيت Apache Hive و Hive على Ubuntu.

ما هي Apache Hive؟

اباتشي خلية هي بنية أساسية لمستودع البيانات تسهل الاستعلام عن مجموعات البيانات الكبيرة وإدارتها الموجودة في نظام التخزين الموزع. تم تصميمه على Hadoop وتم تطويره بواسطة Facebook. خلية نحل يوفر طريقة للاستعلام عن البيانات باستخدام لغة استعلام تشبه SQL تسمى HiveQL (لغة استعلام الخلية).





داخليا ، المترجم يترجم HiveQL البيانات في MapReduce الوظائف ، والتي يتم تقديمها بعد ذلك إلى إطار Hadoop للتنفيذ.

الفرق بين Hive و SQL:

خلية نحل يشبه إلى حد كبير قاعدة البيانات التقليدية مع SQL التمكن من. ومع ذلك ، لأن خلية نحل مبني على هادوب و MapReduce العمليات ، هناك العديد من الاختلافات الرئيسية:



نظرًا لأن Hadoop مخصص لعمليات المسح المتسلسلة الطويلة و خلية نحل مبني على هادوب ، تتوقع أن يكون لطلبات البحث وقت استجابة مرتفع جدًا. هذا يعني انه خلية نحل لن يكون مناسبًا لتلك التطبيقات التي تحتاج إلى أوقات استجابة سريعة جدًا ، كما يمكنك أن تتوقع مع قاعدة بيانات RDBMS التقليدية.

أخيرا، خلية نحل يعتمد على القراءة وبالتالي فهو غير مناسب لمعالجة المعاملات التي تتضمن عادةً نسبة عالية من عمليات الكتابة.

قراءة وكتابة ملف اكسل في جافا

تثبيت الخلية على أوبونتو:

يرجى اتباع الخطوات التالية للتثبيت اباتشي خلية على Ubuntu:



الخطوة 1: تحميل خلية القطران.

أمر: wget http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz

الخطوة 2: استخراج ملف قطران ملف.

أمر: tar -xzf apache-hive-2.1.0-bin.tar.gz

أمر: ls

ملف خلية انتشار - تركيب خلية - Edureka

الخطوه 3: قم بتحرير ملف '.bashrc' ملف لتحديث متغيرات البيئة للمستخدم.

أمر: sudo gedit .bashrc

يضاف ما يلي في نهاية الملف:

# تعيين HIVE_HOME

تصدير HIVE_HOME = / home / edureka / apache-hive-2.1.0-bin
تصدير PATH = $ PATH: / home/edureka/apache-hive-2.1.0-bin/bin

تأكد أيضًا من تعيين مسار hadoop.

قم بتشغيل الأمر أدناه لإجراء التغييرات في نفس المحطة.

أمر: المصدر. bashrc

الخطوة الرابعة: تحقق من نسخة الخلية.

مثال goo c ++

الخطوة الخامسة: خلق خلية نحل الدلائل داخل HDFS . الدليل 'مستودع' هو موقع تخزين الجدول أو البيانات المتعلقة بالخلية.

أمر:

  • hdfs dfs -mkdir -p / user / hive / Warehouse
  • hdfs dfs -mkdir / tmp

الخطوة السادسة: تعيين أذونات القراءة / الكتابة للجدول.

أمر:

في هذا الأمر ، نعطي إذنًا كتابيًا للمجموعة:

  • hdfs dfs -chmod g + w / user / hive / Warehouse
  • hdfs dfs -chmod g + w / tmp

الخطوة السابعة: جلس هادوب المسار في ح ive-env.sh

أمر: القرص المضغوط اباتشي خلية 2.1.0 بن /

أمر: gedit conf / hive-env.sh

اضبط المعلمات كما هو موضح في اللقطة أدناه.

الخطوة الثامنة: تعديل خلية-site.xml

أمر: gedit conf / hive-site.xml

javax.jdo.option.ConnectionURL jdbc: derby: databaseName = / home / edureka / apache-hive-2.1.0-bin / metastore_dbcreate = سلسلة توصيل JDBC الحقيقية لمخزن بيانات JDBC. لاستخدام SSL لتشفير / مصادقة الاتصال ، قم بتوفير علامة SSL الخاصة بقاعدة البيانات في عنوان URL للاتصال. على سبيل المثال ، jdbc: postgresql: // myhost / db؟ ssl = true لقاعدة بيانات postgres. hive.metastore.warehouse.dir / user / hive / موقع المستودع لقاعدة البيانات الافتراضية للمستودع hive.metastore.uris Thrift URI للمخزن النقيلي البعيد. يستخدمه عميل metastore للاتصال بنقائل بعيدة. javax.jdo.option.

الخطوة 9: بشكل افتراضي ، تستخدم Hive دربي قاعدة البيانات. تهيئة قاعدة بيانات Derby.

كيفية استخدام برنامج sas

أمر: بن / مخطط -initSchema -dbType ديربي

الخطوة 10 :إطلاق خلية نحل.

أمر: خلية نحل

الخطوة 11 :قم بتشغيل بعض الاستعلامات في Hive shell.

أمر: عرض قواعد البيانات

أمر: إنشاء موظف الجدول (سلسلة المعرف ، سلسلة الاسم ، سلسلة القسم) تنسيق الصف الحقول المحددة منتهية بـ 'مخزنة كملف نصي

أمر: عرض الجداول

الخطوة 12: للخروج من خلية نحل:

أمر: خروج

الآن بعد أن انتهيت من تثبيت Hive ، فإن الخطوة التالية للأمام هي تجربة أوامر Hive على Hive shell. ومن ثم ، فإن مدونتنا التالية ' أعلى أوامر الخلية مع أمثلة في HQL سيساعدك على إتقان أوامر Hive.

المنشورات ذات الصلة:

كيفية تشغيل Hive Scripts؟

أوامر الخلية

مقدمة إلى Apache Hive