البيانات الضخمة في AWS | بدء استخدام البيانات الضخمة في AWS

إن فكرة البيانات الضخمة ليست جديدة ، فهي موجودة في كل مكان. إن تأثير البيانات الضخمة موجود في كل مكان ، من الأعمال التجارية إلى العلوم ، ومن الحكومة إلى الفنون وما إلى ذلك. لا يوجد رفيق أفضل من لمعالجة وتحليل البيانات الضخمة. في هذا المقال ، سأوضح كيف تتعامل AWS مع تحديات البيانات الضخمة والمؤشرات التي سأغطيها هي كما يلي:

ما هي البيانات الضخمة؟
لماذا البيانات الضخمة في AWS؟
كيف يمكن لـ AWS حل تحديات البيانات الضخمة؟
تجريبي

ما هي البيانات الضخمة؟

خصائص البيانات الضخمة

يمكنك اعتبار البيانات الضخمة أصولًا معلوماتية كبيرة الحجم وعالية السرعة و / أو عالية التنوع تتطلب أشكالًا مبتكرة وفعالة من حيث التكلفة لمعالجة المعلومات التي تتيح تحسين الرؤية واتخاذ القرار وأتمتة العمليات.

تتكون البيانات الضخمة من 5 ملفات تعريفية مهمة تحدد خصائص البيانات الضخمة. دعونا نناقش هذه قبل الانتقال إلى AWS.

ما هي AWS؟

يتألف من العديد من منتجات وخدمات الحوسبة السحابية المختلفة. يوفر قسم أمازون المربح للغاية الخوادم والتخزين والشبكات والحوسبة عن بعد والبريد الإلكتروني وتطوير الأجهزة المحمولة إلى جانب الأمان. علاوة على ذلك. يتكون AWS من منتجين رئيسيين: EC2 ، خدمة الآلة الافتراضية من Amazon ، و S3 ، وهو نظام تخزين من Amazon. إنها كبيرة جدًا وموجودة في عالم الحوسبة بحيث تبلغ الآن على الأقل 10 أضعاف حجم أقرب منافس لها وتستضيف مواقع الويب الشهيرة مثل Netflix و Instagram.

تنقسم AWS إلى 12 منطقة عالمية حول العالم ، لكل منها مناطق توافر متعددة توجد فيها خوادمها.يتم تقسيم هذه المناطق المخدومة للسماح للمستخدمين بوضع حدود جغرافية على خدماتهم ، ولكن أيضًا لتوفير الأمان من خلال تنويع المواقع المادية التي يتم الاحتفاظ بالبيانات فيها.

لماذا البيانات الضخمة في AWS؟

يستفيد العلماء والمطورون وغيرهم من المتحمسين للتكنولوجيا من العديد من المجالات المختلفة من AWS لإجراء تحليلات البيانات الضخمة ومواجهة التحديات الحرجة المتمثلة في زيادة المعلومات الرقمية. تقدم لك AWS مجموعة من خدمات الحوسبة السحابية للمساعدة في إدارة البيانات الضخمة عن طريق تقليل التكاليف بشكل كبير ، والتوسع لتلبية الطلب ، وزيادة سرعة الابتكار.

تقدم Amazon Web Services ملف محفظة متكاملة لخدمات الحوسبة السحابية. علاوة على ذلك ، يساعدك على إنشاء تطبيقات البيانات الضخمة وتأمينها ونشرها. أيضًا ، مع AWS ، لا تحتاج إلى أجهزة للشراء وبنية تحتية للحفاظ عليها وتوسيع نطاقها. نتيجة لذلك ، يمكنك تركيز مواردك على الكشف عن رؤى جديدة.نظرًا لأنه يتم إضافة ميزات جديدة باستمرار ، ستتمكن دائمًا من الاستفادة من أحدث التقنيات دون الحاجة إلى تقديم التزامات استثمارية طويلة الأجل.

كيف يمكن لـ AWS حل تحديات البيانات الضخمة؟

حلول AWS للبيانات الضخمة

لدى AWS العديد من الحلول لجميع أغراض التطوير والنشر. أيضًا ، في مجال علوم البيانات والبيانات الضخمة ، توصلت AWS إلى تطورات حديثة في جوانب مختلفة من معالجة البيانات الضخمة. قبل الانتقال إلى الأدوات ، دعنا نفهم الجوانب المختلفة للبيانات الضخمة التي يمكن أن توفر لها AWS حلولاً.

استيعاب البيانات
يعد جمع البيانات الأولية - المعاملات والسجلات والأجهزة المحمولة والمزيد - التحدي الأول الذي تواجهه العديد من المؤسسات عند التعامل مع البيانات الضخمة. تعمل منصة البيانات الضخمة الجيدة على تسهيل هذه الخطوة ، مما يسمح للمطورين باستيعاب مجموعة متنوعة من البيانات - من المنظمة إلى غير المنظمة - بأي سرعة - من الوقت الفعلي إلى المجموعة.
تخزين البيانات
تحتاج أي منصة للبيانات الضخمة إلى مستودع آمن وقابل للتطوير ودائم لتخزين البيانات قبل أو حتى بعد مهام المعالجة. بناءً على متطلباتك المحددة ، قد تحتاج أيضًا إلى مخازن مؤقتة لنقل البيانات.
الدمية مقابل الشيف مقابل أنسبل
معالجة البيانات
هذه هي الخطوة التي يحدث فيها تحويل البيانات من حالتها الأولية إلى تنسيق قابل للاستهلاك - عادةً عن طريق الفرز والتجميع والانضمام وحتى أداء وظائف وخوارزميات أكثر تقدمًا. تخضع مجموعات البيانات الناتجة للتخزين لمزيد من المعالجة أو إتاحتها للاستهلاك عبر أدوات ذكاء الأعمال وتصور البيانات.
التصور

تتعلق البيانات الضخمة بالحصول على رؤى عالية القيمة وقابلة للتنفيذ من أصول البيانات الخاصة بك. من الناحية المثالية ، تكون البيانات متاحة لأصحاب المصلحة من خلال خدمة ذكاء الأعمال ذاتية الخدمة وأدوات تصور البيانات المرنة التي تتيح استكشاف مجموعات البيانات بسرعة وسهولة.

أدوات AWS للبيانات الضخمة

في الأقسام السابقة ، نظرنا في الحقول الموجودة في البيانات الضخمة حيث يمكن لـ AWS تقديم الحلول. بالإضافة إلى ذلك ، تمتلك AWS أدوات وخدمات متعددة في ترسانتها لتمكين العملاء من استخدام إمكانات البيانات الكبيرة.

دعونا نلقي نظرة على الحلول المختلفة التي تقدمها AWS للتعامل مع المراحل المختلفة التي ينطوي عليها التعامل مع البيانات الضخمة

ابتلاع

حركة
Amazon Kinesis Firehose هي خدمة مُدارة بالكامل لتقديم بيانات التدفق في الوقت الفعلي مباشرةً إلى Amazon S3. يتوسع Kinesis Firehose تلقائيًا لمطابقة حجم ومعدل نقل البيانات المتدفقة ولا يتطلب أي إدارة مستمرة. يمكنك تكوين Kinesis Firehose لتحويل البيانات المتدفقة قبل تخزينها في Amazon S3.
كرة الثلج
يمكنك استخدام AWS Snowball لترحيل البيانات المجمّعة بشكل آمن وفعال من منصات التخزين المحلية ومجموعات Hadoop إلى حاويات S3. بعد إنشاء وظيفة في وحدة الإدارة في AWS ، تحصل تلقائيًا على جهاز Snowball. بعد وصول Snowball ، قم بتوصيله بشبكتك المحلية ، وقم بتثبيت عميل Snowball على مصدر البيانات المحلي الخاص بك ، ثم استخدم عميل Snowball لتحديد أدلة الملفات ونقلها إلى جهاز Snowball.

تخزين

أمازون S3

أمازون S3 هو تخزين كائن آمن وقابل للتطوير ودائم للغاية مع زمن انتقال يصل إلى مللي ثانية للوصول إلى البيانات. يمكن لـ S3 تخزين أي نوع من البيانات من أي مكان - مواقع الويب وتطبيقات الأجهزة المحمولة وتطبيقات الشركات والبيانات من أجهزة استشعار أو أجهزة IoT. يمكنه أيضًا تخزين واسترداد أي كمية من البيانات ، مع توفر لا مثيل له ، وتم بناؤه من الألف إلى الياء لتوفير 99.999999999٪ (11 تسعة) من المتانة.

2. AWS Glue

الغراء عبارة عن خدمة مُدارة بالكامل توفر كتالوج بيانات لجعل البيانات في بحيرة البيانات قابلة للاكتشاف. بالإضافة إلى ذلك ، لديه القدرة على القيام بالاستخراج والتحويل والتحميل (ETL) لإعداد البيانات للتحليل. أيضًا ، يعد كتالوج البيانات المدمج بمثابة مخزن بيانات وصفية دائم لجميع أصول البيانات ، مما يجعل جميع البيانات قابلة للبحث والاستعلام في طريقة عرض واحدة.

معالجة

EMR
لمعالجة البيانات الضخمة باستخدام Spark و Hadoop ، أمازون EMR يوفر خدمة مُدارة تجعل معالجة كميات هائلة من البيانات سهلة وسريعة وفعالة من حيث التكلفة. علاوة على ذلك ، تدعم EMR 19 مشروعًا مختلفًا مفتوح المصدر بما في ذلك هادوب ، شرارة و و كما أنه يأتي مع أجهزة الكمبيوتر المحمولة المدارة EMR لهندسة البيانات وتطوير علوم البيانات والتعاون.
الانزياح الأحمر
لتخزين البيانات ، أمازون يوفر Redshift القدرة على تشغيل استعلامات تحليلية معقدة مقابل بيتابايت من البيانات المنظمة. أيضا ، فإنه يشمل طيف الانزياح الأحمر يقوم بتشغيل استعلامات SQL مباشرة مقابل إكسابايت من البيانات المهيكلة أو غير المهيكلة في S3 دون الحاجة إلى نقل بيانات غير ضروري.

التصورات

أمازون QuickSight

بالنسبة إلى لوحات المعلومات والتصورات ، توفر لك Amazon Quicksight خدمة تحليلات أعمال سريعة مدعومة من السحابة. يجعل من السهل إنشاء تصورات مذهلة ولوحات معلومات غنية. بالإضافة إلى ذلك ، يمكنك الوصول إليها من أي متصفح أو جهاز محمول.

عرض توضيحي - تحليل بيانات الأنواع المهددة بالانقراض من النباتات والحيوانات في أستراليا.

في هذا العرض التوضيحي ، سوف نستخدم بيانات عينة من أنواع النباتات والحيوانات المهددة بالانقراض من ولايات وأقاليم أستراليا. سننشئ هنا مجموعة EMR ونقوم بتكوينها لتشغيل وظائف Apache Hive متعددة الخطوات. سيتم تثبيت Apache Hive في مجموعة EMR. ستستخدم هذه المجموعة نظام EMRFS كنظام ملفات ، بحيث يتم تعيين مواقع إدخال البيانات وإخراجها إلى حاوية S3. ستستخدم المجموعة أيضًا نفس حاوية S3 لتخزين ملفات السجل.

سنقوم الآن بإنشاء عدد من خطوات السجلات الطبية الإلكترونية في الكتلة لمعالجة عينة مجموعة من البيانات. هنا ستعمل كل خطوة من هذه الخطوات على تشغيل برنامج نصي Hive ، وسيتم حفظ الإخراج النهائي في حاوية S3. ستُنشئ هذه الخطوات سجلات MapReduce وذلك لأنه يتم ترجمة أوامر Hive إلى وظائف MapReduce في وقت التشغيل. يتم تجميع ملفات السجل لكل خطوة من الحاويات التي تولدها.

بيانات العينة

مجموعة البيانات النموذجية لحالة الاستخدام هذه متاحة للجمهور من موقع البيانات المفتوحة للحكومة الأسترالية . مجموعة البيانات هذه حول الأنواع الحيوانية والنباتية المهددة من ولايات وأقاليم مختلفة في أستراليا. يمكن رؤية وتنزيل وصف لحقول مجموعة البيانات هذه وملف CSV هنا .

خطوات المعالجة

تتضمن خطوة مهمة EMR الأولى هنا إنشاء جدول Hive كمخطط لملف المصدر الأساسي في S3. في خطوة الوظيفة الثانية ، سنقوم الآن بتشغيل استعلام ناجح مقابل البيانات. وبالمثل ، سنقوم بعد ذلك بتشغيل استعلام ثالث ورابع.

سنكرر هذه الخطوات الأربع عدة مرات في ساعة واحدة ، لنحاكي عمليات التشغيل المتتالية لوظيفة دُفعية متعددة الخطوات. ومع ذلك ، في سيناريو الحياة الواقعية ، قد يكون الفارق الزمني بين تشغيل كل دفعة عادةً أعلى من ذلك بكثير. تهدف الفجوة الزمنية الصغيرة بين عمليات التشغيل المتتالية إلى تسريع اختباراتنا.

دلو ومجلدات S3

قبل إنشاء مجموعة EMR الخاصة بنا ، كان علينا هنا إنشاء حاوية S3 لاستضافة ملفاتها. في مثالنا ، قمنا بتسمية هذا المستودع 'arvind1-bucket'. تظهر المجلدات الموجودة أسفل هذه المجموعة أدناه في وحدة تحكم AWS لـ S3:

كيفية إنشاء فصل مفرد في جافا

يحتوي مجلد الإدخال على بيانات العينة
يحتوي مجلد البرامج النصية على ملفات البرامج النصية Hive لخطوات مهمة EMR
من الواضح أن مجلد الإخراج سيحتوي على إخراج برنامج Hive
تستخدم كتلة EMR مجلد السجلات لحفظ ملفات السجل الخاصة بها.

Hive Scripts for EMR Job Steps

1. تقوم خطوة العمل هذه بتشغيل نص Hiveلإنشاء جدول Hive خارجي. يصف هذا الجدول المخطط الجدولي لملف بيانات CSV الأساسي. السيناريو لهذا هو كما يلي:

إنشاء جدول خارجي 'نوع_من التهديد' (سلسلة 'الاسم العلمي' ، سلسلة 'الاسم العلمي' ، سلسلة 'الاسم العلمي الحالي' ، سلسلة 'الحالة المهددة' ، سلسلة 'الفعل' ، سلسلة 'nsw' ، السلسلة 'nt' ، 'qld' سلسلة ، سلسلة `sa` ، سلسلة` tas` ، سلسلة `vic` ، سلسلة` wa` ، سلسلة `aci` ، سلسلة` cki` ، سلسلة `ci` ، سلسلة` csi` ، سلسلة` jbt` ، سلسلة `nfi` سلسلة ، سلسلة `hmi` ، سلسلة` aat` ، سلسلة `cma` ،` تصنيف sprat taxonid` bigint ، `sprat taxonid` bigint ، سلسلة` kingdom` string ، `class` string ،` profile` string ، `date extracted` السلسلة ، سلسلة `nsl name` ، سلسلة` family` string ، سلسلة `genus` string ، سلسلة` الأنواع` string ، سلسلة `infraspecific Rank` ، سلسلة` infraspecies` ، سلسلة `الأنواع مؤلف` السلسلة ، سلسلة` infraspecies author` string ، حقول محددة بتنسيق الصف تم إنهاؤه بواسطة '،' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket / script

2. تقوم خطوة العمل هذه بإجراء استعلام لحساب أهم خمسة أنواع مهددة بالانقراض في ولاية نيو ساوث ويلز (NSW). اسم ملف استعلام الخلية هو الأنواع المهددة بالانقراض وهو موضح أدناه:

حدد الأنواع ، COUNT (nsw) AS number_of_endangered_species من الأنواع المهددة من حيث (nsw = 'Yes' OR nsw = 'Endangered') و '' المهددة الحالة '' = 'Endangered' GROUP حسب الأنواع التي تحتوي على COUNT (nsw)> 1 ORDER BY number_of_endangered_species DESC LIMIT 5

3.تقوم خطوة الوظيفة هذه بتشغيل استعلام لحساب العدد الإجمالي لأنواع النباتات المهددة بالانقراض لكل عائلة نباتية في أستراليا. اسم ملف استعلام الخلية هوالنباتات المهددة بالانقراضوهو موضح أدناه

حدد الأسرة ، COUNT (الأنواع) AS number_of_endangered_species من الأنواع المهددة بالانقراض 2 حيث المملكة = 'بلانتاي' و 'حالة التهديد' = 'المهددة بالانقراض' المجموعة حسب العائلة

4. تسرد هذه الخطوة الأسماء العلمية لأنواع الحيوانات المنقرضة في ولاية كوينزلاند الأسترالية. يسمى ملف البرنامج النصي انقرضت الحيوانات وهو موضح أدناه:

حدد 'الاسم الشائع' ، و 'الاسم العلمي' من الأنواع المهددة حيث المملكة = 'الحيوان' و (qld = 'نعم' أو qld = 'منقرض') و 'الحالة المهددة' = 'منقرض'

تجميع السجل

هنا قمنا أيضًا بتحميل ملف JSON يسمى logAggregation.json في مجلد البرامج النصية لحاوية S3. نستخدم هذا الملف لتجميع ملفات سجل YARN. يتم تكوين تجميع السجل في ملف التكوين yarn-site.xml عند بدء تشغيل المجموعة. محتويات ملف logAggregation.json هي كما يلي:

[{'التصنيف': 'yarn-site'، 'Properties': {'yarn.log-aggregation-enable': 'true'، 'yarn.log-aggregation.retain-seconds': '-1'، 'yarn .nodemanager.remote-app-log-dir ”:“ s3: // arvind1-bucket / logs ”}}]

بعد إنشاء حاوية S3 ونسخ البيانات وملفات البرامج النصية إلى المجلدات الخاصة بها ، حان الوقت الآن لإعداد مجموعة EMR. تصف اللقطات التالية العملية حيث نقوم بإنشاء الكتلة بإعدادات افتراضية في الغالب.

إعداد الكتلة EMR

في الصورة الأولى ، لتكوين المجموعة في وحدة تحكم AWS ، احتفظنا بجميع التطبيقات التي أوصت بها EMR ، بما في ذلك Hive. لا نحتاج إلى استخدام AWS Glue لتخزين بيانات Hive الوصفية ، ولا نضيف أي خطوة مهمة في الوقت الحالي. ومع ذلك ، نحتاج إلى إضافة إعداد برنامج لـ Hive. هنا يجب أن تلاحظ بعناية كيف نحدد المسار إلى ملف JSON لتجميع السجل في هذا الحقل.

في الخطوة التالية ، احتفظنا بجميع الإعدادات الافتراضية. من أجل اختبارنا ، سيكون للمجموعة عقدة رئيسية واحدة وعقدتان أساسيتان. كل عقدة هنا هي نسخة m3.xlarge ولها حجم جذر 10 غيغابايت. سنقوم بتسمية الكتلة arvind1 في الخطوة التالية ، وتحديد موقع s3 المخصص لملفات السجل الخاصة به.

أخيرًا ، حددنا زوج مفاتيح EC2 لغرض الوصول إلى العقدة الرئيسية للمجموعة. لا يوجد تغيير في أدوار IAM الافتراضية لـ EMR وملف تعريف مثيل EC2 وخيارات القياس التلقائي. أيضًا ، تستخدم العقدتان الرئيسية والأساسية مجموعات الأمان المتوفرة افتراضيًا. عادة ، هذا هو الإعداد الافتراضي لمجموعة EMR. بمجرد أن يصبح كل شيء جاهزًا ، تكون المجموعة في حالة 'انتظار' كما هو موضح أدناه:

إرسال خطوات مهمة الخلية

بعد ذلك ، نحتاج إلى السماح بوصول SSH.

افتح وحدة تحكم Amazon EMR على https://console.aws.amazon.com/elasticmapreduce/ .
أختر عناقيد المجموعات .
اختر ال اسم من الكتلة.
تحت الأمن والوصول اختر ال مجموعات الأمان للماجستير حلقة الوصل.
أختر ElasticMapReduce-master من القائمة.
أختر واردة ، تعديل .
ابحث عن القاعدة بالإعدادات التالية واختر ملف x رمز لحذفه:
- اكتب SSH
- ميناء 22
- مصدر مخصص 0.0.0.0/0
قم بالتمرير إلى أسفل قائمة القواعد واختر أضف القاعدة .
إلى عن على اكتب ، تحديد SSH . هذا يدخل تلقائيا TCP إلى عن على بروتوكول و 22 إلى عن على نطاق المنفذ .
للمصدر ، حدد الملكية الفكرية . يؤدي هذا تلقائيًا إلى إضافة عنوان IP لجهاز الكمبيوتر العميل كعنوان المصدر. بدلاً من ذلك ، يمكنك إضافة نطاق مخصص موثوق بها عناوين IP للعميل واختيار أضف القاعدة لإنشاء قواعد إضافية للعملاء الآخرين. في العديد من بيئات الشبكة ، تقوم بتخصيص عناوين IP ديناميكيًا ، لذلك قد تحتاج إلى تحرير قواعد مجموعة الأمان بشكل دوري لتحديث عنوان IP للعملاء الموثوق بهم.
أختر حفظ .
اختياريا ، اختر ElasticMapReduce-Slave من القائمة وكرر الخطوات أعلاه للسماح لعميل SSH بالوصول إلى العقد الأساسية وعقد المهام من العملاء الموثوق بهم.

نظرًا لأن مجموعة EMR قيد التشغيل ، فقد أضفنا أربع خطوات وظيفية. هذه هي الخطوات التي سيجريها EMR واحدة تلو الأخرى. تُظهر الصورة التالية الخطوات من وحدة تحكم AWS EMR:

بمجرد إضافة الخطوات الأربع ، يمكننا التحقق من حالة هذه الخطوات على أنها مكتملة. حتى إذا كان هناك بعض المشاكل في تنفيذ هذه الخطوات ، ففي مثل هذه الحالات يمكن حلها باستخدام ملفات السجل الخاصة بهذه الخطوات.

هذا من جانبي في هذا المقال عن البيانات الضخمة في AWS. أتمنى أن تكون قد فهمت كل ما شرحته هنا.

إذا وجدت أن هذه البيانات الضخمة في AWS ذات صلة ، فيمكنك الاطلاع على الدورة التدريبية المباشرة التي يقودها المعلم من Edureka ، شارك في إنشائه ممارسو الصناعة.

كيفية استخدام فئة الماسح الضوئي

لديك سؤال لنا؟ يرجى ذكر ذلك في قسم التعليقات في كيفية نشر تطبيق ويب Java في AWS وسنعود إليك.

البيانات الضخمة في AWS - الحل الذكي للبيانات الضخمة

تساعدك هذه المقالة على فهم كيفية تعامل AWS بذكاء مع البيانات الضخمة. كما يوضح أيضًا كيف يمكن لـ AWS حل تحديات البيانات الضخمة بسهولة.

ما هي البيانات الضخمة؟

ما هي AWS؟

لماذا البيانات الضخمة في AWS؟

كيف يمكن لـ AWS حل تحديات البيانات الضخمة؟

حلول AWS للبيانات الضخمة

التصور

أدوات AWS للبيانات الضخمة

ابتلاع

تخزين

معالجة

التصورات

عرض توضيحي - تحليل بيانات الأنواع المهددة بالانقراض من النباتات والحيوانات في أستراليا.

بيانات العينة

خطوات المعالجة

دلو ومجلدات S3

Hive Scripts for EMR Job Steps

تجميع السجل

إعداد الكتلة EMR

إرسال خطوات مهمة الخلية

التصنيفات

Popular Articles

ما هو Try إلا في Python وكيف يعمل؟

التغليف في Java - كيفية إتقان OOPs مع التغليف؟

هل هذا هو الوقت المناسب بالنسبة لي لتعلم Hadoop؟

دليل خطوة بخطوة لتعلم التابلوه العام

البيانات الوصفية للمثيل في سحابة الحساب المرنة

برنامج Python Seaborn التعليمي: ما هو Seaborn وكيفية استخدامه؟

سكرم مقابل أجايل: ما هو الفرق؟

أدوات إدارة المشاريع - مساعدة مدراء المشاريع

ما هو سكرم؟ كل ما تحتاج لمعرفته حول إدارة المشاريع

كيفية تنفيذ فئة متداخلة في جافا؟

كيف يتم تطبيق Merge Sort في Python؟

MongoDB مع Hadoop وتقنيات البيانات الضخمة ذات الصلة