البيانات الضخمة و ETL هي عائلة



في هذه المدونة ، سنرى العلاقة بين البيانات الضخمة و ETL. Talend هي الأداة التي يتم استخدامها على نطاق واسع لربط البيانات الضخمة و ETL.

لقد تم تضخيم البيانات الضخمة حقًا بما فيه الكفاية في الآونة الأخيرة ، وذلك بفضل المهنيين المهرة الذين يأتون بمعرفة ذلك. إن عدم استخدام مهاراتك الأساسية والبدء من نقطة الصفر ليس بالأمر السهل دائمًا. ومع ذلك ، فإن استخدام التخفيضات المربعة والتكيف مع الحراس سيحدث لك العجائب. بينجو ، نحن نتحدث عن تعلم البيانات الضخمة باستخدام تقنية ETL.





يمكن لمطوري ETL الذين يصممون مهام سير عمل تحويل البيانات استخدام الأدوات جيدًا وترجمة مهام سير العمل إلى وظائف Hadoop. Hadoop هو إطار عمل مفتوح المصدر يستخدم على نطاق واسع لمعالجة البيانات الكبيرة باستخدام برنامج MapReduce (وهو تقنية أخرى مفتوحة المصدر تساعد على معالجة كميات كبيرة من البيانات على Hadoop). في معظم الأوقات ، قد يكون العثور على موارد ماهرة في البيانات الضخمة أمرًا صعبًا.

إذا كان على مطور ETL العثور على عناوين IP التي قدمت أكثر من مليون طلب على موقع البنك على الويب ، فعليه كتابة مهمة MapReduce التي تعالج بيانات سجل الويب المخزنة في Hadoop . ومع ذلك ، مع التقدم في تقنية ETL ، يمكن لمطور الوظائف استخدام أدوات تصميم ETL القياسية لإنشاء تدفق ETL يمكنه قراءة البيانات من مصادر متعددة في Hadoop (Files و Hive و HBase) والانضمام إلى البيانات وتجميعها وتصفيتها وتحويلها للعثور على إجابة للاستعلام عن عناوين IP.



Talend هي أداة واجهة المستخدم الرسومية الوحيدة القادرة على 'ترجمة' مهمة ETL إلى وظيفة MapReduce. وبالتالي ، يتم تنفيذ مهمة Talend ETL كوظيفة MapReduce على Hadoop وإنجاز عمل البيانات الضخمة في دقائق. هذا ابتكار رئيسي يساعد على تقليل حواجز الدخول في تقنية البيانات الضخمة ويسمح لمطوري وظائف ETL (المبتدئين والمتقدمين) بتنفيذ تفريغ مستودع البيانات إلى حد أكبر.

أصبحت الحياة في مدينة البيانات الضخمة أسهل بكثير مع Talend حولها

طبقة تجريد رسومية أعلى تطبيقات Hadoop - وهذا يجعل الحياة أسهل بكثير في عالم البيانات الضخمة.



ما يجب أن يقوله Talend: 'تماشيًا مع تاريخنا كمبتكر ورائد في تكامل البيانات مفتوحة المصدر ، فإن Talend هي المزود الأول الذي يقدم حلًا مفتوح المصدر خالصًا لتمكين تكامل البيانات الضخمة . Talend Open Studio for Big Data ، من خلال وضع بيئة تطوير رسومية سهلة الاستخدام فوق تطبيقات Hadoop القوية ، يجعل إدارة البيانات الضخمة في متناول المزيد من الشركات والمطورين أكثر من أي وقت مضى.

بفضل مساحة العمل الرسومية القائمة على الكسوف ، يتيح Talend Open Studio for Big Data للمطور وعالم البيانات الاستفادة من تقنيات تحميل Hadoop ومعالجتها مثل HDFS و HBase و Hive و Pig دون الحاجة إلى الكتابة تطبيق Hadoop الشفرة. ببساطة عن طريق تحديد المكونات الرسومية من لوحة ، وترتيبها وتكوينها ، يمكنك إنشاء وظائف Hadoop. فمثلا:

عبارات if في استعلامات SQL
  1. تحميل البيانات إلى HDFS (نظام الملفات الموزعة Hadoop)
  2. استعمال Hadoop خنزير لتحويل البيانات في HDFS
  3. تحميل البيانات في ملف خلية هادوب مستودع البيانات القائم
  4. إجراء تجميعات ELT (استخراج وتحميل وتحويل) في الخلية
  5. تأثير ايجابي سكوب لدمج قواعد البيانات العلائقية و Hadoop

تطبيقات Hadoop ، مدمجة بسلاسة في غضون دقائق باستخدام Talend.

لكي تكون تطبيقات Hadoop متاحة حقًا لمؤسستك ، يجب دمجها بسلاسة في تدفقات البيانات الإجمالية. Talend Open Studio للبيانات الضخمة هي الأداة المثالية لدمج تطبيقات Hadoop في بنية بياناتك الأوسع. يوفر Talend مكونات موصل مدمجة أكثر من أي حل آخر لتكامل البيانات متاح ، مع أكثر من 800 موصلات تسهل القراءة من أو الكتابة إلى أي تنسيق ملف رئيسي أو قاعدة بيانات أو حزمة تطبيقات مؤسسة. على سبيل المثال ، في Talend Open Studio for Big Data ، يمكنك استخدام مكونات قابلة للتكوين بالسحب والإفلات لإنشاء تدفقات تكامل البيانات التي تنقل البيانات من ملفات السجل المحددة إلى Hadoop Hive ، وتنفذ العمليات في Hive ، وتستخرج البيانات من Hive إلى قاعدة بيانات MySQL (أو Oracle و Sybase و SQL Server وما إلى ذلك).

هل تريد أن ترى مدى سهولة العمل مع تطبيقات Hadoop المتطورة؟

لا داعي للانتظار - Talend Open Studio for Big Data هو برنامج مفتوح المصدر ، مجاني للتنزيل واستخدامه بموجب ترخيص Apache.

تحدث في المدينة

كانت Talend aصاحب رؤية في Magic Quadrant لأدوات تكامل البياناتمنذ عام 2009. في الآونة الأخيرة ، برزوا أيضًا كرواد في مجال جودة البيانات و MDM بالإضافة إلى جميع المكونات لطهي طبق بيانات كبير رائع.

يزعمون أن: 'تكامل البيانات الضخمة يزيد من الأداء وقابلية التوسع بنسبة 45 بالمائة في مؤسستك'.

فقط Talend 5.5 (والإصدارات الأحدث) تسمح للمطورين بإنشاء كود Hadoop عالي الأداء دون الحاجة إلى أن تكون خبيرًا في MapReduce أو Pig.

قبل بضعة أشهر ، قال أحد المقالات من Talend: 'إن اعتماد Hadoop آخذ في الارتفاع وتكافح الشركات الكبيرة والصغيرة للعثور على ما يكفي من مطوري Hadoop المطلعين لتلبية هذا الطلب المتزايد'. يسمح Talend 5.5 فقط لأي مطور لتكامل البيانات باستخدام بيئة تطوير مرئية لإنشاء كود Hadoop أصلي وعالي الأداء وقابل للتطوير بدرجة كبيرة. يؤدي هذا إلى فتح مجموعة كبيرة من موارد التطوير التي يمكنها الآن المساهمة في مشاريع البيانات الضخمة. بالإضافة إلى ذلك ، تظل Talend في طليعة التطورات الجديدة في Hadoop التي تتيح لمشاريع تحليلات البيانات الضخمة تعزيز تفاعلات العملاء في الوقت الفعلي.

فرز في c ++

يمكن أن تساعد Talend for Big Data في فهم المؤسسات من خلال جمع مجموعات البيانات من أنظمة المصادر غير المتجانسة - مثل الأطراف الثالثة وواجهات برمجة التطبيقات وموجزات الشبكات الاجتماعية - وتحويل تلك البيانات إلى صورة مرئية لرحلة العميل من البداية إلى النهاية.

سواء كان ذلك في الصناعة المصرفية أو الأدوية أو التجارة الإلكترونية أو التأمين - يمكن لـ Talend دمج البيانات على أي نطاق مع مزيج سهل مع Hadoop الذي يثبت أنه أكثر التقنيات تطوراً لتلبية متطلبات الحاضر والمستقبل.

حالات الاستخدام حول العالم

بدءًا من حملة التسويق إلى خدمة العملاء في الصناعة المصرفية وحتى اكتشاف الاحتيال ، فإن البيانات الضخمة موجودة في كل مكان.

بوجود أكثر من 800+ موصلات بمفردها في إصدارها مفتوح المصدر ، تدعي أنها أكبر الأنظمة الأساسية المدعومة على نطاق واسع للاتصال بأي شيء ويمكنها جلب كل شيء.

مع النمط المتغير والمحاذاة نحو NoSQL و Open Source و Hadoop ، سيكون اختيار تعلم البيانات الكبيرة وأسلوب ETL باستخدام Talend هو القرار الأكثر منطقية لأي شخص يتعامل مع البيانات بأي شكل وفي أي وقت.

باختصار ، أدوات ETL بعيدة كل البعد عن كونها قديمة. فهي أساسية في النظام البيئي للبيانات الضخمة وتلعب دورًا حاسمًا في تمكين تحليلات البيانات.

هذا هو سبب تألق Talend بالقول 'صفر للبيانات الضخمة بدون تشفير ، في أقل من 10 دقائق'.

لديك سؤال لنا؟ أذكرها في قسم التعليقات وسنعاود الاتصال بك.

المنشورات ذات الصلة:

كيفية استخدام اناكوندا بيثون