التنقيب في Apache Drill ، محرك الاستعلام الجديد



يمنحك هذا البرنامج التعليمي Apache Drill جميع المعلومات التي تحتاجها لبدء استخدام محرك استعلام Apache Drill والاستخدام مع Hadoop و Big Data و Apache Spark.

Apache Drill هو أول محرك SQL بدون مخطط في الصناعة. لا يُعد Drill أول محرك استعلام في العالم ، ولكنه أول محرك يحقق التوازن الدقيق بين المرونة والسرعة. تم تصميم Drill للتوسيع إلى عدة آلاف من العقد والاستعلام عن بيتابايت من البيانات بسرعات تفاعلية تتطلبها بيئات BI / Analytics.





يمكن أن يتكامل مع العديد من مصادر البيانات مثل Hive و HBase و MongoDB و file system و RDBMS. أيضًا ، يمكن استخدام تنسيقات الإدخال مثل Avro و CSV و TSV و PSV و Parquet و Hadoop Sequence والعديد من الملفات الأخرى في Drill بسهولة.

لماذا أباتشي دريل؟

أكبر ميزة لـ Apache Drill هي أنه يمكنه اكتشاف المخطط أثناء التنقل أثناء الاستعلام عن أي بيانات. علاوة على ذلك ، يمكن أن تعمل مع أدوات ذكاء الأعمال الخاصة بك مثل Tableau و Qlikview و MicroStrategy وغيرها من أجل تحليلات أفضل.



إليك اقتباس من محلل صناعي يلخص قيمة Apache Drill:

'الحفر ليس فقط حول SQL-on-Hadoop. يتعلق الأمر بـ SQL على أي شيء ، فورًا ، وبدون إجراءات رسمية '.

- أندرو بيرست ، Gigaom Research ، يناير 2015



Drillbit هو خفي Apache Drill يعمل على كل عقدة في المجموعة. يستخدم ZooKeeper لجميع الاتصالات في الكتلة ويحافظ على عضوية الكتلة. وهي مسؤولة عن قبول الطلبات من العميل ومعالجة الاستفسارات وإرجاع النتائج إلى العميل. إن أداة الحفر التي تتلقى الطلب من العميل تسمى 'فورمان'. يقوم بإنشاء خطة التنفيذ ، يتم إرسال أجزاء التنفيذ إلى حفر الحفر الأخرى التي تعمل في المجموعة.

Drillbits-Apache-Drill

ميزة أخرى هي أن التثبيت والإعداد للمثقاب بسيط للغاية. دعونا نتعلم كيفية تثبيت Apache Drill.

الخطوة الأولى هي تنزيل حزمة التدريبات.

وظيفة عضو ثابتة في c ++

أمر: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

أمر: tar -xvf اباتشي-مثقاب 1.5.0.tar.gz

أمر: ls

بعد ذلك ، قم بتعيين متغيرات البيئة في ملف bashrc.

أمر: sudo gedit .bashrc

تصدير DRILL_HOME = / home / edureka / apache-drill-1.5.0

تصدير PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

سيقوم هذا الأمر بتحديث التغييرات:

أمر: المصدر. bashrc

اذهب الآن إلى دليل conf وقم بتحرير ملف drill-override.conf مع معرف الكتلة ومضيف zookeeper والمنفذ ، وسنقوم بتشغيله على مجموعة محلية.

أمر: قرص أباتشي-مثقاب -1.5.0

أمر: sudo gedit conf / drill-override.conf

بشكل افتراضي ، سيكون DRILL_MAX_DIRECT_MEMORY 8 جيجا بايت في drill-env.sh ، ونحن بحاجة إلى الاحتفاظ بها وفقًا للذاكرة المتوفرة لدينا.

أمر: sudo gedit conf / drill-env.sh

لتثبيت الحفر في عقدة واحدة فقط ، يمكنك استخدام الوضع المدمج ، حيث سيتم تشغيله محليًا. سيبدأ تشغيل خدمة drillbit تلقائيًا عند تشغيل هذا الأمر.

أمر: ./bin/drill-embedded

يمكنك تشغيل استعلام بسيط للتحقق من التثبيت.

أمر: حدد * من sys.options WHERE type = 'SYSTEM' واسم مثل 'security٪'

كيفية استخدام المعلمات في اللوحة

للتحقق من وحدة تحكم الويب الخاصة بـ Apache Drill ، نحتاج إلى الانتقال إلى localhost: 8047 في متصفح الويب.

يمكنك تشغيل الاستعلام الخاص بك من علامة التبويب الاستعلام أيضًا.

لتشغيل التنقل في الوضع الموزع ، تحتاج إلى تحرير معرف الكتلة وإضافة معلومات ZooKeeper في drill-override.conf على النحو التالي.

ثم نحتاج إلى بدء خدمة ZooKeeper على كل عقدة. بعد ذلك يجب أن تبدأ خدمة drillbit على كل عقدة بهذا الأمر.

أمر: ./bin/drillbit.sh ابدأ

أمر: jps

الآن ، نستخدم الأمر أدناه لبدء غلاف الحفر.

الآن ، يمكننا تنفيذ استفساراتنا على الكتلة في الوضع الموزع.

هذا هو أول منشور مدونة في سلسلة مدونة Apache Drill المكونة من جزأين. المدونة الثانية في السلسلة قريبا.

لديك سؤال لنا؟ أذكرها في قسم التعليقات وسنعاود الاتصال بك.

المنشورات ذات الصلة:

الحفر في الجزء الثاني من مثقاب اباتشي

أباتشي سبارك مقابل Hadoop MapReduce