Apache Flink عبارة عن منصة مفتوحة المصدر للدفق الموزع ومعالجة البيانات المجمعة. يمكن تشغيله على أنظمة تشغيل Windows و Mac OS و Linux OS. في منشور المدونة هذا ، دعنا نناقش كيفية إعداد Flink الكتلة محليًا. إنه مشابه لـ Spark من نواح كثيرة - فهو يحتوي على واجهات برمجة تطبيقات لمعالجة الرسم البياني والتعلم الآلي مثل Apache Spark - لكن Apache Flink و Apache Spark ليسا متماثلين تمامًا.
لإعداد Flink الكتلة ، يجب أن يكون لديك java 7.x أو أعلى مثبتًا على نظامك. منذ أن قمت بتثبيت Hadoop-2.2.0 في نهايتي على CentOS (Linux) ، قمت بتنزيل حزمة Flink المتوافقة مع Hadoop 2.x. قم بتشغيل الأمر أدناه لتنزيل حزمة Flink.
أمر: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz
قم بفك الملف للحصول على دليل flink.
أمر: tar -xvf التنزيلات / flink-1.0.0-bin-hadoop2-scala_2.10.tgz
أمر: ls
إضافة متغيرات بيئة Flink في ملف .bashrc.
أمر: sudo gedit .bashrc
تحتاج إلى تشغيل الأمر أدناه حتى يتم تنشيط التغييرات في ملف .bashrc
أمر: المصدر. bashrc
انتقل الآن إلى دليل flink وابدأ المجموعة محليًا.
أمر: قرص مضغوط ضخم 1.0.0
أمر: بن / start-local.sh
بمجرد بدء تشغيل المجموعة ، ستتمكن من رؤية برنامج خفي جديد JobManager قيد التشغيل.
أمر: jps
افتح المتصفح وانتقل إلى http: // localhost: 8081 لمشاهدة واجهة مستخدم الويب Apache Flink.
لنقم بتشغيل مثال بسيط على عدد الكلمات باستخدام Apache Flink.
قبل تشغيل المثال ، قم بتثبيت netcat على نظامك (sudo yum install nc).
نوع بيانات التاريخ في SQL
الآن في محطة جديدة ، قم بتشغيل الأمر أدناه.
أمر: nc -lk 9000
قم بتشغيل الأمر المحدد أدناه في محطة flink. يقوم هذا الأمر بتشغيل برنامج يأخذ البيانات المتدفقة كمدخلات وينفذ عملية عدد الكلمات على تلك البيانات المتدفقة.
أمر: أمثلة تشغيل bin / flink / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000
في واجهة مستخدم الويب ، ستتمكن من رؤية وظيفة في حالة التشغيل.
قم بتشغيل الأمر أدناه في محطة جديدة ، سيؤدي ذلك إلى طباعة البيانات المتدفقة والمعالجة.
أمر: الذيل -f سجل / flink - * - مدير العمل - *. خارج
انتقل الآن إلى المحطة حيث بدأت netcat واكتب شيئًا ما.
في اللحظة التي تضغط فيها على زر إدخال على كلمتك الرئيسية بعد كتابة بعض البيانات على محطة netcat ، سيتم تطبيق عملية عدد الكلمات على تلك البيانات وستتم طباعة الإخراج هنا (سجل مدير الوظائف في flink) في غضون مللي ثانية!
في غضون فترة زمنية قصيرة جدًا ، سيتم دفق البيانات ومعالجتها وطباعتها.
هناك الكثير لتتعلمه عن Apache Flink. سنتطرق إلى موضوعات Flink الأخرى في مدونتنا القادمة.
لديك سؤال لنا؟ أذكرها في قسم التعليقات وسنعاود الاتصال بك.
المنشورات ذات الصلة:
Apache Falcon: منصة جديدة لإدارة البيانات لنظام Hadoop البيئي