دروس البيانات الضخمة: كل ما تحتاج لمعرفته حول البيانات الضخمة!

تمنحك هذه المدونة الخاصة بالبرنامج التعليمي للبيانات الضخمة نظرة عامة كاملة على البيانات الضخمة وخصائصها وتطبيقاتها بالإضافة إلى التحديات المتعلقة بالبيانات الضخمة.

دروس البيانات الضخمة

البيانات الضخمة ، ألم تسمع بهذا المصطلح من قبل؟ أنا واثق من لديك. في آخر 4 إلى 5 سنوات ، يتحدث الجميع عن البيانات الضخمة. ولكن هل تعرف حقًا ما هي هذه البيانات الضخمة بالضبط ، وكيف تؤثر على حياتنا ولماذا تبحث المنظمات عن محترفين لديهم ؟ في هذا البرنامج التعليمي للبيانات الضخمة ، سأقدم لك نظرة ثاقبة كاملة حول البيانات الضخمة.

فيما يلي الموضوعات التي سأغطيها في هذا البرنامج التعليمي للبيانات الضخمة:





  • قصة البيانات الضخمة
  • العوامل الدافعة للبيانات الضخمة
  • ما هي البيانات الضخمة؟
  • خصائص البيانات الضخمة
  • أنواع البيانات الضخمة
  • أمثلة على البيانات الضخمة
  • تطبيقات البيانات الضخمة
  • تحديات البيانات الضخمة

دروس البيانات الضخمة - Edureka

اسمحوا لي أن أبدأ هذا البرنامج التعليمي للبيانات الضخمة بقصة قصيرة.



قصة البيانات الضخمة

في الأيام القديمة ، اعتاد الناس السفر من قرية إلى قرية أخرى على عربة يقودها حصان ، ولكن مع مرور الوقت ، أصبحت القرى مدنًا وانتشر الناس. كما زادت مسافة السفر من بلدة إلى بلدة أخرى. لذلك ، أصبح السفر بين المدن مع الأمتعة مشكلة. من فراغ ، اقترح أحد الرفقاء الأذكياء أن نعتني بحصان ونطعمه أكثر لحل هذه المشكلة. عندما أنظر إلى هذا الحل ، فإنه ليس بهذا السوء ، لكن هل تعتقد أن الحصان يمكن أن يصبح فيلًا؟ لا أعتقد ذلك. قال رجل ذكي آخر ، بدلاً من سحب حصان واحد للعربة ، دعنا نمتلك 4 خيول لسحب نفس العربة. ما رأيكم يا رفاق في هذا الحل؟ أعتقد أنه حل رائع. الآن ، يمكن للناس السفر لمسافات طويلة في وقت أقل وحتى حمل المزيد من الأمتعة.

ينطبق المفهوم نفسه على البيانات الضخمة. تقول البيانات الضخمة ، حتى اليوم ، كنا على ما يرام مع تخزين البيانات في خوادمنا لأن حجم البيانات كان محدودًا جدًا ، ومقدار الوقت لمعالجة هذه البيانات كان جيدًا أيضًا. ولكن الآن في هذا العالم التكنولوجي الحالي ، تنمو البيانات بسرعة كبيرة ويعتمد الناس على البيانات في كثير من الأحيان. أيضًا السرعة التي تنمو بها البيانات ، أصبح من المستحيل تخزين البيانات في أي خادم.

من خلال هذه المدونة الخاصة بـ Big Data Tutorial ، دعنا نستكشف مصادر البيانات الضخمة ، التي تفشل الأنظمة التقليدية في تخزينها ومعالجتها.



العوامل الدافعة للبيانات الضخمة

تتزايد كمية البيانات على كوكب الأرض بشكل كبير لأسباب عديدة. تولد المصادر المختلفة وأنشطتنا اليومية الكثير من البيانات. مع اختراع الويب ، أصبح العالم كله متصلاً بالإنترنت ، وكل شيء نقوم به يترك أثرًا رقميًا. مع اتصال الكائنات الذكية بالإنترنت ، زاد معدل نمو البيانات بسرعة. المصادر الرئيسية للبيانات الضخمة هي مواقع التواصل الاجتماعي ، وشبكات الاستشعار ، والصور / مقاطع الفيديو الرقمية ، والهواتف المحمولة ، وسجلات معاملات الشراء ، وسجلات الويب ، والسجلات الطبية ، والمحفوظات ، والمراقبة العسكرية ، والتجارة الإلكترونية ، والبحث العلمي المعقد وما إلى ذلك. كل هذه المعلومات تصل إلى حوالي كوينتيليون بايت من البيانات. بحلول عام 2020 ، ستكون أحجام البيانات حوالي 40 زيتابايت ، وهو ما يعادل إضافة كل حبة رمل على الكوكب مضروبة في خمسة وسبعين.

ما هي البيانات الضخمة؟

البيانات الضخمة هو مصطلح يستخدم لمجموعة من مجموعات البيانات الكبيرة والمعقدة ، والتي يصعب تخزينها ومعالجتها باستخدام أدوات إدارة قواعد البيانات المتاحة أو تطبيقات معالجة البيانات التقليدية. يشمل التحدي التقاط هذه البيانات وتنظيمها وتخزينها والبحث عنها ومشاركتها ونقلها وتحليلها وتصورها.

خصائص البيانات الضخمة

الخصائص الخمس التي تحدد البيانات الضخمة هي: الحجم والسرعة والتنوع والصدق والقيمة.

ما هو مقرر علوم البيانات
  1. الصوت

    يشير الحجم إلى 'كمية البيانات' التي تتزايد يومًا بعد يوم بوتيرة سريعة جدًا. حجم البيانات التي يولدها البشر والآلات وتفاعلاتهم على وسائل التواصل الاجتماعي نفسها هائل. توقع الباحثون أنه سيتم إنتاج 40 زيتابايت (40.000 إكسابايت) بحلول عام 2020 ، بزيادة قدرها 300 مرة عن عام 2005.

  2. ● السرعة

    تُعرَّف السرعة بأنها السرعة التي تولد بها المصادر المختلفة البيانات كل يوم. تدفق البيانات هائل ومستمر. يوجد 1.03 مليار مستخدم نشط يوميًا (Facebook DAU) على الهاتف المحمول حتى الآن ، وهو ما يمثل زيادة بنسبة 22 ٪ على أساس سنوي. يوضح هذا مدى سرعة نمو عدد المستخدمين على وسائل التواصل الاجتماعي ومدى سرعة إنشاء البيانات يوميًا. إذا كنت قادرًا على التعامل مع السرعة ، فستكون قادرًا على تكوين رؤى واتخاذ قرارات بناءً على البيانات في الوقت الفعلي.

  3. تشكيلة

    نظرًا لوجود العديد من المصادر التي تساهم في البيانات الضخمة ، يختلف نوع البيانات التي تنتجها. يمكن أن يكون منظمًا أو شبه منظم أو غير منظم. وبالتالي ، هناك مجموعة متنوعة من البيانات التي يتم إنشاؤها كل يوم. في وقت سابق ، اعتدنا على الحصول على البيانات من Excel وقواعد البيانات ، والآن تأتي البيانات في شكل صور وتسجيلات صوتية ومقاطع فيديو وبيانات مستشعر وما إلى ذلك كما هو موضح في الصورة أدناه. ومن ثم ، فإن هذا التنوع من البيانات غير المهيكلة يخلق مشاكل في التقاط البيانات وتخزينها وتعدينها وتحليلها.

  4. الموثوقية

    تشير الدقة إلى البيانات المشكوك فيها أو غير المؤكدة من البيانات المتاحة بسبب عدم تناسق البيانات وعدم اكتمالها. في الصورة أدناه ، يمكنك أن ترى أن بعض القيم مفقودة في الجدول. أيضًا ، يصعب قبول بعض القيم ، على سبيل المثال - الحد الأدنى للقيمة 15000 في الصف الثالث ، هذا غير ممكن. هذا التناقض وعدم الاكتمال هو الصدق.
    يمكن أن تصبح البيانات المتاحة في بعض الأحيان فوضوية وقد يصعب الوثوق بها. مع وجود العديد من أشكال البيانات الضخمة ، يصعب التحكم في الجودة والدقة مثل منشورات Twitter التي تحتوي على علامات التصنيف والاختصارات والأخطاء المطبعية والكلام العامي. غالبًا ما يكون الحجم هو السبب وراء نقص الجودة والدقة في البيانات.

    • بسبب عدم اليقين في البيانات ، لا يثق 1 من كل 3 من قادة الأعمال في المعلومات التي يستخدمونها لاتخاذ القرارات.
    • وجد في استطلاع أن 27٪ من المستجيبين غير متأكدين من مقدار بياناتهم غير الدقيقة.
    • تكلف جودة البيانات السيئة الاقتصاد الأمريكي حوالي 3.1 تريليون دولار سنويًا.
  5. القيمة

    بعد مناقشة الحجم والسرعة والتنوع والصدق ، هناك حرف V آخر يجب أن يؤخذ في الاعتبار عند النظر إلى البيانات الكبيرة ، أي القيمة. إنه لأمر جيد وجيد أن يكون لديك وصول كبيرالبياناتلكنما لم نتمكن من تحويله إلى قيمة فإنه لا فائدة منه. أعني بتحويلها إلى قيمة ، هل تضيف إلى فوائد المؤسسات التي تقوم بتحليل البيانات الضخمة؟ هل المنظمة التي تعمل على البيانات الضخمة تحقق عائد استثمار مرتفع (العائد على الاستثمار)؟ ما لم تضيف إلى أرباحهم من خلال العمل على البيانات الضخمة ، فهي غير مجدية.

انتقل إلى فيديو البيانات الضخمة أدناه لمعرفة المزيد عن البيانات الضخمة:

دروس البيانات الضخمة للمبتدئين | ما هي البيانات الضخمة | إدوريكا

كما تمت مناقشته في Variety ، هناك أنواع مختلفة من البيانات التي يتم إنشاؤها كل يوم. لذا ، دعونا نفهم الآن أنواع البيانات:

أنواع البيانات الضخمة

يمكن أن تتكون البيانات الضخمة من ثلاثة أنواع:

  • منظم
  • شبه منظم
  • غير منظم

  1. منظم

    تسمى البيانات التي يمكن تخزينها ومعالجتها بتنسيق ثابت باسم البيانات المنظمة. تعد البيانات المخزنة في نظام إدارة قواعد البيانات الارتباطية (RDBMS) أحد الأمثلة على البيانات 'المنظمة'. من السهل معالجة البيانات المنظمة لأنها تحتوي على مخطط ثابت. غالبًا ما تُستخدم لغة الاستعلام الهيكلية (SQL) لإدارة مثل هذا النوع من البيانات.

  2. شبه منظم

    البيانات شبه المنظمة هي نوع من البيانات التي لا تحتوي على هيكل رسمي لنموذج البيانات ، أي تعريف جدول في DBMS العلائقية ، ولكنها مع ذلك تحتوي على بعض الخصائص التنظيمية مثل العلامات والعلامات الأخرى لفصل العناصر الدلالية مما يجعل الأمر أسهل لتحليل. تعد ملفات XML أو مستندات JSON أمثلة على البيانات شبه المنظمة.

  3. غير منظم

    البيانات التي لها شكل غير معروف ولا يمكن تخزينها في RDBMS ولا يمكن تحليلها ما لم يتم تحويلها إلى تنسيق منظم يسمى بيانات غير منظمة. تعد الملفات النصية ومحتويات الوسائط المتعددة مثل الصور والتسجيلات الصوتية ومقاطع الفيديو أمثلة على البيانات غير المنظمة. البيانات غير المهيكلة تنمو بشكل أسرع من غيرها ، يقول الخبراء أن 80 بالمائة من البيانات في المؤسسة غير منظمة.

حتى الآن ، قمت للتو بتغطية مقدمة البيانات الضخمة. علاوة على ذلك ، يتحدث هذا البرنامج التعليمي عن البيانات الضخمة عن الأمثلة والتطبيقات والتحديات في البيانات الضخمة.

أمثلة على البيانات الضخمة

نقوم بتحميل ملايين بايت من البيانات يوميًا. تم إنشاء 90٪ من بيانات العالم في العامين الماضيين.

  • يتعامل وول مارت مع أكثر من 1 مليون دولار معاملات العملاء كل ساعة.
  • يخزن فيسبوك ويصل إليه ويحلله أكثر من 30 بيتابايت من البيانات التي ينشئها المستخدم.
  • 230+ مليون من التغريدات يتم إنشاؤها كل يوم.
  • أكثر من 5000000000 يقوم الأشخاص بالاتصال وإرسال الرسائل النصية والتغريد والتصفح على الهواتف المحمولة في جميع أنحاء العالم.
  • تحميل مستخدمي YouTube 48 ساعة فيديو جديد كل دقيقة من اليوم.
  • مقابض أمازون 15 مليونا ينقر العميل على دفق بيانات المستخدم يوميًا للتوصية بالمنتجات.
  • 294 مليار يتم إرسال رسائل البريد الإلكتروني كل يوم. تقوم الخدمات بتحليل هذه البيانات للعثور على البريد العشوائي.
  • السيارات الحديثة قريبة من 100 مستشعر التي تراقب مستوى الوقود وضغط الإطارات وما إلى ذلك ، تولد كل مركبة الكثير من بيانات المستشعر.

تطبيقات البيانات الضخمة

لا يمكننا التحدث عن البيانات دون الحديث عن الأشخاص ، الأشخاص الذين يستفيدون من تطبيقات البيانات الضخمة. تستفيد جميع الصناعات اليوم تقريبًا من تطبيقات البيانات الضخمة بطريقة أو بأخرى.

  • رعاية صحية أكثر ذكاءً : باستخدام وحدات بيتابايت من بيانات المريض ، يمكن للمؤسسة استخراج معلومات مفيدة ثم إنشاء تطبيقات يمكنها التنبؤ مسبقًا بحالة المريض المتدهورة.
  • اتصالات : قطاعات الاتصالات تقوم بجمع المعلومات وتحليلها وتقديم الحلول للمشكلات المختلفة. باستخدام تطبيقات البيانات الضخمة ، تمكنت شركات الاتصالات من تقليل فقد حزم البيانات بشكل كبير ، والذي يحدث عندما تكون الشبكات محملة بشكل زائد ، وبالتالي توفير اتصال سلس لعملائها.
  • بيع بالتجزئة : التجزئة لديها بعض من أضيق الهوامش ، وهي واحدة من أكبر المستفيدين من البيانات الضخمة. يكمن جمال استخدام البيانات الضخمة في البيع بالتجزئة في فهم سلوك المستهلك. يوفر محرك توصيات Amazon اقتراحًا بناءً على سجل تصفح المستهلك.
  • التحكم بالمرور : يعد الازدحام المروري تحديًا كبيرًا للعديد من المدن على مستوى العالم. سيكون الاستخدام الفعال للبيانات وأجهزة الاستشعار عاملاً أساسيًا لإدارة حركة المرور بشكل أفضل مع ازدياد كثافة السكان في المدن.
  • تصنيع : يمكن أن يؤدي تحليل البيانات الضخمة في الصناعة التحويلية إلى تقليل عيوب المكونات وتحسين جودة المنتج وزيادة الكفاءة وتوفير الوقت والمال.
  • جودة البحث : في كل مرة نقوم فيها باستخراج معلومات من Google ، نقوم في نفس الوقت بتوليد البيانات لها. تخزن Google هذه البيانات وتستخدمها لتحسين جودة البحث.

قال أحدهم عن حق: 'ليس كل شيء في الحديقة روزي!' . حتى الآن في هذا البرنامج التعليمي الخاص بالبيانات الضخمة ، أريتكم للتو الصورة الوردية للبيانات الضخمة. ولكن إذا كان من السهل جدًا الاستفادة من البيانات الضخمة ، ألا تعتقد أن جميع المؤسسات ستستثمر فيها؟ دعني أخبرك مقدمًا ، ليس هذا هو الحال. هناك العديد من التحديات التي تظهر عند العمل مع البيانات الضخمة.

الآن بعد أن أصبحت على دراية بالبيانات الضخمة وميزاتها المتنوعة ، سيلقي القسم التالي من هذه المدونة حول البرنامج التعليمي للبيانات الضخمة بعض الضوء على بعض التحديات الرئيسية التي تواجهها البيانات الضخمة.

تحديات البيانات الضخمة

دعني أخبرك ببعض التحديات التي تصاحب البيانات الضخمة:

  1. جودة البيانات - المشكلة هنا هي 4العاشرالخامس أي الصدق. البيانات هنا فوضوية للغاية وغير متسقة وغير كاملة. تكلف البيانات القذرة 600 مليار دولار للشركات كل عام في الولايات المتحدة.
  1. اكتشاف - يشبه العثور على رؤى حول البيانات الضخمة العثور على إبرة في كومة قش. من الصعب للغاية تحليل بيتابايت من البيانات باستخدام خوارزميات قوية للغاية للعثور على الأنماط والرؤى.
  1. تخزين - كلما زادت البيانات التي تمتلكها المنظمة ، زادت تعقيد مشاكل إدارتها. السؤال الذي يطرح نفسه هنا هو 'أين يتم تخزينها؟'. نحن بحاجة إلى نظام تخزين يمكن توسيعه أو خفضه بسهولة عند الطلب.
  1. تحليلات - في حالة البيانات الضخمة ، لا ندرك في معظم الأوقات نوع البيانات التي نتعامل معها ، لذا فإن تحليل تلك البيانات يكون أكثر صعوبة.
  1. الأمان - نظرًا لأن البيانات ضخمة الحجم ، فإن الحفاظ على أمانها يمثل تحديًا آخر. يتضمن مصادقة المستخدم ، وتقييد الوصول بناءً على المستخدم ، وتسجيل سجلات الوصول إلى البيانات ، والاستخدام السليم لتشفير البيانات ، إلخ.
  1. نقص المواهب - هناك الكثير من مشاريع البيانات الضخمة في المؤسسات الكبرى ، لكن فريقًا متطورًا من المطورين وعلماء البيانات والمحللين الذين لديهم أيضًا قدر كافٍ من المعرفة بالمجال لا يزال يمثل تحديًا.

Hadoop إلى الإنقاذ

لدينا منقذ للتعامل مع تحديات البيانات الضخمة - إنه هادوب . Hadoop هو إطار عمل برمجة مفتوح المصدر يعتمد على Java يدعم تخزين ومعالجة مجموعات البيانات الكبيرة للغاية في بيئة الحوسبة الموزعة. إنه جزء من مشروع Apache الذي ترعاه مؤسسة Apache Software Foundation.

لماذا نحتاج التسلسل في جافا

Hadoop بمعالجته الموزعة ، يتعامل مع كميات كبيرة من البيانات المهيكلة وغير المهيكلة بكفاءة أكبر من مستودع بيانات المؤسسة التقليدي. يتيح Hadoop إمكانية تشغيل التطبيقات على الأنظمة التي تحتوي على آلاف عقد الأجهزة الأساسية ، والتعامل مع آلاف التيرابايت من البيانات. تتبنى المؤسسات Hadoop لأنه برنامج مفتوح المصدر ويمكن تشغيله على أجهزة سلعية (جهاز الكمبيوتر الشخصي الخاص بك).تعتبر التوفيرات الأولية في التكلفة كبيرة حيث أن الأجهزة السلعية رخيصة للغاية. مع زيادة البيانات التنظيمية ، تحتاج إلى إضافة المزيد والمزيد من الأجهزة السلعية أثناء التنقل لتخزينها ، وبالتالي ، يثبت Hadoop أنه اقتصادي.بالإضافة إلى ذلك ، يمتلك Hadoop مجتمع Apache قويًا وراءه يواصل المساهمة في تقدمه.

كما وعدت سابقًا ، من خلال هذه المدونة الخاصة بـ Big Data Tutorial ، قدمت لك أقصى قدر من الأفكار في البيانات الضخمة. هذه نهاية البرنامج التعليمي للبيانات الضخمة. الآن ، الخطوة التالية للأمام هي معرفة Hadoop وتعلمه. لدينا سلسلة من البرنامج التعليمي Hadoop المدونات التي ستقدم معلومات مفصلة عن نظام Hadoop البيئي الكامل.

كل التوفيق ، سعيد Hadooping!

الآن بعد أن فهمت ماهية البيانات الضخمة ، تحقق من من Edureka ، وهي شركة تعليمية موثوقة عبر الإنترنت مع شبكة تضم أكثر من 250000 متعلم راضٍ منتشرين في جميع أنحاء العالم. تساعد الدورة التدريبية لشهادة Edureka Big Data Hadoop المتعلمين على أن يصبحوا خبراء في مجال HDFS ، و Yarn ، و MapReduce ، و Pig ، و Hive ، و HBase ، و Oozie ، و Flume ، و Sqoop باستخدام حالات الاستخدام في الوقت الفعلي على البيع بالتجزئة ، والوسائط الاجتماعية ، والطيران ، والسياحة ، والمجال المالي.

لديك سؤال لنا؟ يرجى ذكر ذلك في قسم التعليقات وسنعاود الاتصال بك.

المنشورات ذات الصلة: