Apache Flink: الجيل التالي من إطار عمل تحليلات البيانات الضخمة لمعالجة البيانات المجمعة والدفق

تعرف على كل شيء عن Apache Flink وإعداد مجموعة Flink في هذه المدونة. يدعم Flink معالجة الدُفعات والوقت الفعلي وهو تقنية بيانات ضخمة يجب مشاهدتها لتحليلات البيانات الضخمة.

Apache Flink عبارة عن منصة مفتوحة المصدر للدفق الموزع ومعالجة البيانات المجمعة. يمكن تشغيله على أنظمة تشغيل Windows و Mac OS و Linux OS. في منشور المدونة هذا ، دعنا نناقش كيفية إعداد Flink الكتلة محليًا. إنه مشابه لـ Spark من نواح كثيرة - فهو يحتوي على واجهات برمجة تطبيقات لمعالجة الرسم البياني والتعلم الآلي مثل Apache Spark - لكن Apache Flink و Apache Spark ليسا متماثلين تمامًا.





لإعداد Flink الكتلة ، يجب أن يكون لديك java 7.x أو أعلى مثبتًا على نظامك. منذ أن قمت بتثبيت Hadoop-2.2.0 في نهايتي على CentOS (Linux) ، قمت بتنزيل حزمة Flink المتوافقة مع Hadoop 2.x. قم بتشغيل الأمر أدناه لتنزيل حزمة Flink.

أمر: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

قم بفك الملف للحصول على دليل flink.

أمر: tar -xvf التنزيلات / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



أمر: ls

إضافة متغيرات بيئة Flink في ملف .bashrc.

أمر: sudo gedit .bashrc

تحتاج إلى تشغيل الأمر أدناه حتى يتم تنشيط التغييرات في ملف .bashrc

أمر: المصدر. bashrc

انتقل الآن إلى دليل flink وابدأ المجموعة محليًا.

أمر: قرص مضغوط ضخم 1.0.0

أمر: بن / start-local.sh

بمجرد بدء تشغيل المجموعة ، ستتمكن من رؤية برنامج خفي جديد JobManager قيد التشغيل.

أمر: jps

افتح المتصفح وانتقل إلى http: // localhost: 8081 لمشاهدة واجهة مستخدم الويب Apache Flink.

لنقم بتشغيل مثال بسيط على عدد الكلمات باستخدام Apache Flink.

قبل تشغيل المثال ، قم بتثبيت netcat على نظامك (sudo yum install nc).

نوع بيانات التاريخ في SQL

الآن في محطة جديدة ، قم بتشغيل الأمر أدناه.

أمر: nc -lk 9000

قم بتشغيل الأمر المحدد أدناه في محطة flink. يقوم هذا الأمر بتشغيل برنامج يأخذ البيانات المتدفقة كمدخلات وينفذ عملية عدد الكلمات على تلك البيانات المتدفقة.

أمر: أمثلة تشغيل bin / flink / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

في واجهة مستخدم الويب ، ستتمكن من رؤية وظيفة في حالة التشغيل.

قم بتشغيل الأمر أدناه في محطة جديدة ، سيؤدي ذلك إلى طباعة البيانات المتدفقة والمعالجة.

أمر: الذيل -f سجل / flink - * - مدير العمل - *. خارج

انتقل الآن إلى المحطة حيث بدأت netcat واكتب شيئًا ما.

في اللحظة التي تضغط فيها على زر إدخال على كلمتك الرئيسية بعد كتابة بعض البيانات على محطة netcat ، سيتم تطبيق عملية عدد الكلمات على تلك البيانات وستتم طباعة الإخراج هنا (سجل مدير الوظائف في flink) في غضون مللي ثانية!

في غضون فترة زمنية قصيرة جدًا ، سيتم دفق البيانات ومعالجتها وطباعتها.

هناك الكثير لتتعلمه عن Apache Flink. سنتطرق إلى موضوعات Flink الأخرى في مدونتنا القادمة.

لديك سؤال لنا؟ أذكرها في قسم التعليقات وسنعاود الاتصال بك.

المنشورات ذات الصلة:

Apache Falcon: منصة جديدة لإدارة البيانات لنظام Hadoop البيئي