Informatica ETL: دليل المبتدئين لفهم ETL باستخدام Informatica PowerCenter



فهم مفاهيم Informatica ETL والمراحل المختلفة لعملية ETL وممارسة حالة استخدام تتضمن قاعدة بيانات الموظف.

الغرض من Informatica ETL هو تزويد المستخدمين ، ليس فقط بعملية استخراج البيانات من أنظمة المصدر وإحضارها إلى مستودع البيانات ، ولكن أيضًا تزويد المستخدمين بمنصة مشتركة لدمج بياناتهم من مختلف المنصات والتطبيقات.وقد أدى هذا إلى زيادة الطلب على .قبل أن نتحدث عن Informatica ETL ، دعونا نفهم أولاً لماذا نحتاج إلى ETL.

لماذا نحتاج ETL؟

كل شركةهذه الأيام يجب أن معالجة مجموعات كبيرة من البيانات من مصادر متنوعة. تحتاج هذه البيانات إلى المعالجة لإعطاء معلومات ثاقبة لاتخاذ قرارات العمل. ولكن ، غالبًا ما تواجه هذه البيانات التحديات التالية:





  • تولد الشركات الكبيرة الكثير من البيانات ويمكن أن يكون هذا الحجم الضخم من البيانات بأي تنسيق. ستكون متاحة في قواعد بيانات متعددة والعديد من الملفات غير المهيكلة.
  • يجب تجميع هذه البيانات ودمجها ومقارنتها وجعلها تعمل كوحدة متكاملة. لكن قواعد البيانات المختلفة لا تتواصل بشكل جيد!
  • قامت العديد من المنظمات بتنفيذ واجهات بين قواعد البيانات هذه ، لكنها واجهت التحديات التالية:
    • يتطلب كل زوج من قواعد البيانات واجهة فريدة.
    • إذا قمت بتغيير قاعدة بيانات واحدة ، فقد يلزم ترقية العديد من الواجهات.

يمكنك أدناه رؤية قواعد البيانات المختلفة للمؤسسة وتفاعلاتها:

مجموعة بيانات مختلفة لمنظمة - Informatica - ETL - Edureka

قواعد البيانات المختلفة المستخدمة من قبل الإدارات المختلفة للمؤسسة



التفاعلات المختلفة لقواعد البيانات في المنظمة

كما رأينا أعلاه ، قد يكون لدى المنظمة قواعد بيانات مختلفة في أقسامها المختلفة ويصبح التفاعل بينها صعب التنفيذ حيث يجب إنشاء واجهات تفاعل مختلفة لها. للتغلب على هذه التحديات ، فإن أفضل حل ممكن هو استخدام مفاهيم تكامل البيانات مما يسمح للبيانات من قواعد البيانات والصيغ المختلفة بالتواصل مع بعضها البعض. يساعدنا الشكل أدناه على فهم كيف تصبح أداة تكامل البيانات واجهة مشتركة للاتصال بين قواعد البيانات المختلفة.

قواعد بيانات مختلفة متصلة عبر تكامل البيانات



ولكن هناك عمليات مختلفة متاحة لأداء تكامل البيانات. من بين هذه العمليات ، تعتبر ETL العملية الأكثر فعالية وكفاءة وموثوقية. من خلال ETL ، لا يمكن للمستخدم إحضار البيانات من مصادر مختلفة فحسب ، بل يمكنه إجراء العمليات المختلفة على البيانات قبل تخزين هذه البيانات حتى الهدف النهائي.

من بين العديد من أدوات ETL المتاحة في السوق ، Informatica PowerCenter هي منصة تكامل البيانات الرائدة في السوق. بعد اختباره على ما يقرب من 500000 مجموعة من المنصات والتطبيقات ، يعمل Informatica PowerCenter inter مع أوسع نطاق ممكن من المعايير والأنظمة والتطبيقات المتباينة. دعونا نفهم الآن الخطوات المتبعة في عملية Informatica ETL.

المعلوماتية ETL | إنفورماتيكا للهندسة المعمارية | انفورماتيكا PowerCenter التعليمي | إدوريكا

يساعدك هذا البرنامج التعليمي Edureka Informatica على فهم أساسيات ETL باستخدام Informatica Powercenter بالتفصيل.

خطوات عملية Informatica ETL:

قبل أن ننتقل إلى الخطوات المختلفة المتضمنة في Informatica ETL ، دعونا نلقي نظرة عامة على ETL. في ETL ، الاستخراج هو المكان الذي يتم فيه استخراج البيانات من مصادر البيانات المتجانسة أو غير المتجانسة ، حيث يتم تحويل البيانات للتخزين بالتنسيق أو الهيكل المناسب لأغراض الاستعلام والتحليل والتحميل حيث يتم تحميل البيانات في قاعدة البيانات الهدف النهائي ، مخزن البيانات التشغيلية أو سوق البيانات أو مستودع البيانات. ستساعدك الصورة أدناه على فهم كيفية إجراء عملية Informatica ETL.

نظرة عامة على عملية ETL

كما رأينا أعلاه ، يمكن لـ Informatica PowerCenter تحميل البيانات من مصادر مختلفة وتخزينها في مستودع بيانات واحد. الآن ، دعونا نلقي نظرة على الخطوات المتبعة في عملية Informatica ETL.

هناك 4 خطوات أساسية في عملية Informatica ETL ، دعونا الآن نفهمها بعمق:

  1. استخراج أو التقاط
  2. فرك أو تنظيف
  3. تحول
  4. الحمل والفهرس

1. استخراج أو التقاط: كما هو موضح في الصورة أدناه ، يعتبر Capture أو Extract هو الخطوة الأولى في عملية Informatica ETL.إنها عملية الحصول على لقطة لمجموعة فرعية مختارة من البيانات من المصدر ، والتي يجب تحميلها في مستودع البيانات. اللقطة هي طريقة عرض ثابتة للبيانات في قاعدة البيانات للقراءة فقط. يمكن أن تكون عملية الاستخراج من نوعين:

  • استخراج كامل: يتم استخراج البيانات بالكامل من النظام المصدر ولا داعي لتتبع التغييرات في مصدر البيانات منذ آخر عملية استخراج ناجحة.
  • استخراج تزايدي: سيؤدي هذا إلى التقاط التغييرات التي حدثت منذ آخر استخراج كامل.

المرحلة 1: الاستخراج أو الالتقاط

2. فرك أو تنظيف: هذه هي عملية تنظيف البيانات الواردة من المصدر باستخدام تقنيات التعرف على الأنماط المختلفة وتقنيات الذكاء الاصطناعي لتحسين جودة البيانات التي يتم التقدم بها. عادةً ما تكون الأخطاء مثل الأخطاء الإملائية والتواريخ الخاطئة والاستخدام غير الصحيح للحقل والعناوين غير المتطابقة والبيانات المفقودة والبيانات المكررة والتناقضاتتم تسليط الضوء عليه ثم تصحيحه أو إزالتهفي هذه الخطوة. أيضًا ، تتم في هذه الخطوة عمليات مثل فك التشفير ، وإعادة التنسيق ، وختم الوقت ، والتحويل ، وإنشاء المفاتيح ، والدمج ، واكتشاف / تسجيل الأخطاء ، وتحديد موقع البيانات المفقودة. كما هو موضح في الصورة أدناه ، هذه هي الخطوة الثانية في عملية Informatica ETL.

المرحلة الثانية: تنقية البيانات أو تنظيفها

3. التحويل: كما هو موضح في الصورة أدناه ، هذه هي الخطوة الثالثة والأكثر أهمية في عملية Informatica ETL. التحويلات هي عملية تحويل البيانات من تنسيق النظام المصدر إلى الهيكل العظمي لـ Data Warehouse. يستخدم التحويل أساسًا لتمثيل مجموعة من القواعد التي تحدد تدفق البيانات وكيفية تحميل البيانات في الأهداف. لمعرفة المزيد عن التحول ، تحقق من التحولات في Informatica مدونة.

المرحلة الثالثة: التحول

4. الحمل والفهرس: هذه هي الخطوة الأخيرة في عملية Informatica ETL كما هو موضح في الصورة أدناه. في هذه المرحلة ، نضع البيانات المحولة في المستودع وننشئ فهارس للبيانات. هناك نوعان رئيسيان من تحميل البيانات المتاحة بناءً على عملية التحميل:

  • حمولة كاملة أو حمولة مجمعة :عملية تحميل البيانات عندما نقوم بذلك في المرة الأولى. تستخرج الوظيفة الحجم الكامل للبيانات من جدول مصدر وتحميلها إلى مستودع البيانات الهدف بعد تطبيق التحولات المطلوبة. سيكون تشغيل وظيفة لمرة واحدة بعد ذلك سيتم تسجيل التغييرات وحدها كجزء من استخراج تزايدي.
  • التحميل المتزايد أو تحميل التحديث : سيتم تحديث البيانات المعدلة وحدها في الهدف متبوعًا بتحميل كامل. سيتم التقاط التغييرات من خلال مقارنة التاريخ الذي تم إنشاؤه أو تعديله مقابل تاريخ التشغيل الأخير للوظيفة.يتم استخلاص البيانات المعدلة وحدها من المصدر وسيتم تحديثها في الهدف دون التأثير على البيانات الموجودة.

المرحلة 4: الحمل والفهرس

إذا كنت قد فهمت عملية Informatica ETL ، فنحن الآن في وضع أفضل لتقدير سبب كون Informatica هو الحل الأفضل في مثل هذه الحالات.

ميزات Informatica ETL:

لجميع عمليات تكامل البيانات و ETL ، قدمت لنا Informatica انفورماتيكا باور سنتر . دعونا الآن نرى بعض الميزات الرئيسية لـ Informatica ETL:

  • يوفر إمكانية تحديد عدد كبير من قواعد التحويل باستخدام واجهة المستخدم الرسومية.
  • إنشاء برامج لتحويل البيانات.
  • التعامل مع مصادر بيانات متعددة.
  • يدعم عمليات استخراج البيانات والتطهير والتجميع وإعادة التنظيم والتحويل والتحميل.
  • يولد تلقائيا برامج لاستخراج البيانات.
  • تحميل عالي السرعة لمخازن البيانات المستهدفة.

فيما يلي بعض السيناريوهات النموذجية التي يتم فيها استخدام Informatica PowerCenter:

  1. ترحيل البيانات:

قامت إحدى الشركات بشراء تطبيق حسابات المدفوعات الجديد لقسم حساباتها. يمكن لبرنامج PowerCenter نقل بيانات الحساب الموجودة إلى التطبيق الجديد. سيساعدك الشكل أدناه على فهم كيفية استخدام Informatica PowerCenter لترحيل البيانات. يمكن لـ Informatica PowerCenter الاحتفاظ بسهولة بنسب البيانات لأغراض الضرائب والمحاسبة والأغراض الأخرى التي يفرضها القانون أثناء عملية ترحيل البيانات.

ترحيل البيانات من تطبيق محاسبة أقدم إلى تطبيق جديد

  1. تكامل التطبيق:

لنفترض أن الشركة - أ مشتريات الشركة - ب. لذلك ، لتحقيق فوائد التوحيد ، يجب دمج نظام الفوترة الخاص بالشركة B في نظام فواتير الشركة أ والذي يمكن تنفيذه بسهولة باستخدام Informatica PowerCenter. سيساعدك الشكل أدناه على فهم كيفية استخدام Informatica PowerCenter لتكامل التطبيقات بين الشركات.

تطبيق تكامل بين الشركات

  1. تخزين البيانات

الإجراءات النموذجية المطلوبة في مستودعات البيانات هي:

  • الجمع بين المعلومات من العديد من المصادر معًا للتحليل.
  • نقل البيانات من العديد من قواعد البيانات إلى مستودع البيانات.

يمكن تنفيذ جميع الحالات النموذجية المذكورة أعلاه بسهولة باستخدام Informatica PowerCenter. أدناه ، يمكنك رؤية استخدام Informatica PowerCenter لدمج البيانات من أنواع مختلفة من قواعد البيانات مثل Oracle و SalesForce وما إلى ذلك وإحضارها إلى مستودع بيانات مشترك تم إنشاؤه بواسطة Informatica PowerCenter.

البيانات من قواعد البيانات المختلفة المدمجة في مستودع بيانات مشترك

  1. الوسيطة

لنفترض أن إحدى مؤسسات البيع بالتجزئة تستخدم SAP R3 لتطبيقات البيع بالتجزئة الخاصة بها و SAP BW كمستودع بيانات لها. الاتصال المباشر بين هذين التطبيقين غير ممكن بسبب عدم وجود واجهة اتصال. ومع ذلك ، يمكن استخدام Informatica PowerCenter كبرنامج وسيط بين هذين التطبيقين. في الصورة أدناه ، يمكنك رؤية بنية كيفية استخدام Informatica PowerCenter كبرنامج وسيط بين SAP R / 3 و SAP BW. تنقل التطبيقات من SAP R / 3 بياناتها إلى إطار عمل ABAP الذي ينقلها بعد ذلك إلى ملفSAP Point of Sale (POS) و SAPفواتير الخدمات (BOS). يساعد Informatica PowerCenter في نقل البيانات من هذه الخدمات إلى SAP Business Warehouse (BW).

Informatica PowerCenter كبرنامج وسيط في SAP Retail Architecture

بينما رأيت بعض الميزات الرئيسية والسيناريوهات النموذجية لـ Informatica ETL ، آمل أن تفهم سبب كون Informatica PowerCenter هو أفضل أداة لعملية ETL. دعونا نرى الآن حالة استخدام Informatica ETL.

حالة الاستخدام: ضم جدولين للحصول على جدول تفصيلي واحد

لنفترض أنك ترغب في توفير وسائل نقل حسب الأقسام لموظفيك حيث توجد الأقسام في مواقع مختلفة. للقيام بذلك ، تحتاج أولاً إلى معرفة القسم الذي ينتمي إليه كل موظف وموقع القسم. ومع ذلك ، يتم تخزين تفاصيل الموظفين في جداول مختلفة وتحتاج إلى ربط تفاصيل القسم بقاعدة بيانات موجودة مع تفاصيل جميع الموظفين. للقيام بذلك ، سنقوم أولاً بتحميل كلا الجدولين في Informatica PowerCenter ، وإجراء تحويل مؤهل المصدر على البيانات وأخيراً تحميل التفاصيل إلى قاعدة البيانات الهدف.لنبدأ:

الخطوة 1 : افتح مصمم PowerCenter.

يوجد أدناه الصفحة الرئيسية لمصمم Informatica PowerCenter.

دعونا الآن نتصل بالمستودع. في حالة عدم تكوين مستودعاتك أو مواجهة أي مشكلات ، يمكنك التحقق من مدونة.

الخطوة 2: انقر بزر الماوس الأيمن على المستودع الخاص بك وحدد خيار الاتصال.

عند النقر فوق خيار الاتصال ، ستتم مطالبتك من خلال الشاشة أدناه ، بطلب اسم المستخدم وكلمة المرور الخاصين بالمستودع.

بمجرد الاتصال بالمستودع الخاص بك ، يجب عليك فتح مجلد العمل الخاص بك كما هو موضح أدناه:

ستتم مطالبتك بالسؤال عن اسم التعيين الخاص بك. حدد اسم التعيين الخاص بك وانقر فوق موافق (قمت بتسميته باسم م الموظف ).

الخطوه 3: لنقم الآن بتحميل الجداول من قاعدة البيانات ، ابدأ بالاتصال بقاعدة البيانات. للقيام بذلك ، حدد علامة التبويب المصادر وخيار الاستيراد من قاعدة البيانات كما هو موضح أدناه:

عند النقر فوق استيراد من قاعدة البيانات ، ستتم مطالبتك بالشاشة على النحو التالي تسأل عن تفاصيل قاعدة البيانات الخاصة بك واسم المستخدم وكلمة المرور الخاصين بها للاتصال (أنا أستخدم قاعدة بيانات oracle ومستخدم الموارد البشرية).

انقر فوق اتصال للاتصال بقاعدة البيانات الخاصة بك.

الخطوة الرابعة: كما أود أن أنضم إلى الموظفين و قسم الجداول ، سوف أقوم بتحديدها والنقر فوق موافق.
ستكون المصادر مرئية في مساحة عمل مصمم الخرائط كما هو موضح أدناه.

الخطوة الخامسة: وبالمثل ، قم بتحميل الجدول الهدف على التعيين.

الخطوة السادسة: الآن دعونا نربط مؤهل المصدر والجدول الهدف. انقر بزر الماوس الأيمن فوق أي مكان فارغ في مساحة العمل وحدد الارتباط التلقائي كما هو موضح أدناه:

يوجد أدناه التعيين المرتبط بواسطة Autolink.

الخطوة السابعة: نظرًا لأننا بحاجة إلى ربط كلا الجدولين بمؤهل المصدر ، حدد أعمدة جدول القسم وقم بإفلاته في مؤهل المصدر كما هو موضح أدناه:

قم بإسقاط قيم العمود في مؤهل المصدر SQ_EMPLOYEES .

يوجد أدناه مؤهل المصدر المحدث.

الخطوة الثامنة: انقر نقرًا مزدوجًا على مؤهل المصدر لتعديل التحويل.

ستظهر لك نافذة تحرير التحويل المنبثقة كما هو موضح أدناه. انقر فوق علامة التبويب خصائص.

الخطوة 9: ضمن علامة التبويب خصائص ، انقر فوق حقل القيمة لصف الانضمام المحدد من قبل المستخدم.

سوف تحصل على محرر SQL التالي:

الخطوة 10: أدخل EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID كشرط للانضمام إلى كلا الجدولين في حقل SQL والنقر فوق موافق.

الخطوة 11: انقر الآن على صف استعلام SQL لإنشاء SQL للانضمام كما هو موضح أدناه:

ستحصل على محرر SQL التالي ، انقر فوق خيار إنشاء SQL.

سيتم إنشاء SQL التالي للحالة التي حددناها في الخطوة السابقة. انقر فوق موافق.

الخطوة 12: انقر فوق 'تطبيق' و 'موافق'.

يوجد أدناه رسم الخرائط المكتمل.

لقد أكملنا تصميم كيفية نقل البيانات من المصدر إلى الهدف. ومع ذلك ، فإن النقل الفعلي للبيانات لم يحدث بعد ولهذا نحتاج إلى استخدام PowerCenter Workflow Design. سيؤدي تنفيذ سير العمل إلى نقل البيانات من المصدر إلى الهدف. لمعرفة المزيد حول سير العمل ، تحقق من دروس انفورماتيكا: سير العمل مدونة

الخطوة 13: إلقم الآن بتشغيل Workflow Manager بالنقر فوق أيقونة W كما هو موضح أدناه:

يوجد أدناه الصفحة الرئيسية لمصمم سير العمل.

الخطوة 14: دعونا الآن ننشئ سير عمل جديد لرسم الخرائط لدينا. انقر فوق علامة التبويب Workflow وحدد Create Option.

سوف تحصل على النافذة المنبثقة أدناه. حدد اسم سير العمل الخاص بك وانقر فوق 'موافق'.

الخطوة 15 : بمجرد إنشاء سير العمل ، نحصل على رمز البدء في مساحة عمل Workflow Manager.

دعنا الآن نضيف جلسة جديدة إلى مساحة العمل كما هو موضح أدناه من خلال النقر فوق رمز الجلسة والنقر فوق مساحة العمل:

انقر فوق مساحة العمل لوضع رمز الجلسة.

الخطوة 16: أثناء إضافة الجلسة ، يجب عليك تحديد الخرائط التي قمت بإنشائها وحفظها في الخطوات المذكورة أعلاه. (كنت قد حفظته كـ m-EMPLOYEE).

يوجد أدناه مساحة العمل بعد إضافة رمز الجلسة.

ما هي وظيفة جافا الافتراضية

الخطوة 17 : الآن بعد أن أنشأت جلسة جديدة ، نحتاج إلى ربطها بمهمة البدء. يمكننا القيام بذلك من خلال النقر على أيقونة ارتباط المهمة كما هو موضح أدناه:

انقر فوق أيقونة ابدأ أولاً ثم على أيقونة الجلسة لإنشاء ارتباط.

يوجد أدناه سير عمل متصل.

الخطوة 18: الآن وقد أكملنا التصميم ، فلنبدأ سير العمل. انقر فوق علامة التبويب Workflow وحدد خيار Start Workflow.

مدير سير العمل يبدأ مراقبة سير العمل.

الخطوة 19 : بمجرد أن نبدأ سير العمل ، يبدأ Workflow Manager تلقائيًاويسمح لك بمراقبة تنفيذ سير عملك. يمكنك أن ترى أدناه أن شاشة مراقبة سير العمل تعرض حالة سير عملك.

الخطوة 20: للتحقق من حالة سير العمل ، انقر بزر الماوس الأيمن على سير العمل وحدد Get Run Properties كما هو موضح أدناه:

حدد علامة التبويب المصدر / الهدف.

يمكنك أدناه رؤية عدد الصفوف التي تم نقلها بين المصدر والهدف بعد التحويل.

يمكنك أيضًا التحقق من نتيجة فحص الجدول المستهدف كما هو موضح أدناه.

آمل أن تكون مدونة Informatica ETL هذه مفيدة لبناء فهمك لمفاهيم ETL باستخدام Informatica وقد أوجدت اهتمامًا كافيًا لتعلم المزيد عن Informatica.

إذا وجدت هذه المدونة مفيدة ، فيمكنك أيضًا الاطلاع على سلسلة مدونة Informatica Tutorial الخاصة بنا و دروس إنفورماتيكا: فهم إنفورماتيكا 'الداخل إلى الخارج' و تحولات Informatica: قلب وروح Informatica PowerCenter . في حال كنت تبحث عن تفاصيل حول Informatica Certification ، يمكنك مراجعة مدونتنا شهادة Informatica: كل ما يجب معرفته .

إذا كنت قد قررت بالفعل تولي Informatica كمهنة ، فإنني أوصيك بإلقاء نظرة على موقعنا صفحة الدورة. سيجعلك تدريب Informatica Certification في Edureka خبيرًا في Informatica من خلال جلسات مباشرة بقيادة مدرس وتدريب عملي باستخدام حالات استخدام واقعية.