دروس علوم البيانات - تعلم علوم البيانات من الصفر!

يعد هذا البرنامج التعليمي لعلوم البيانات مثاليًا لأولئك الذين يبحثون عن تحول إلى مجال علوم البيانات. يتضمن جميع أساسيات علوم البيانات مع مسار وظيفي.

هل تريد أن تبدأ حياتك المهنية كعالم بيانات ، لكن لا تعرف من أين تبدأ؟ انت في المكان الصحيح! مرحبًا يا رفاق ، مرحبًا بكم في هذه المدونة التعليمية الرائعة لعلوم البيانات ، ستمنحك بداية في عالم علوم البيانات. للحصول على معرفة متعمقة حول علوم البيانات ، يمكنك التسجيل في البث المباشر بواسطة Edureka مع دعم على مدار الساعة طوال أيام الأسبوع وإمكانية الوصول مدى الحياة. دعونا نلقي نظرة على ما سنتعلمه اليوم:

    1. لماذا علم البيانات؟
    2. ما هو علم البيانات؟
    3. من هو عالم البيانات؟
    4. اتجاهات الوظائف
    5. كيف تحل مشكلة في علم البيانات؟
    6. مكونات علوم البيانات
    7. الأدوار الوظيفية لعالم البيانات





لماذا علم البيانات؟

قيل أن عالم البيانات هو 'أكثر الوظائف جاذبية في القرن الحادي والعشرين'. لماذا ا؟ لأنه على مدار السنوات القليلة الماضية ، كانت الشركات تخزن بياناتها. وهذا ما تقوم به كل شركة ، وقد أدى فجأة إلى انفجار البيانات. أصبحت البيانات أكثر الأشياء وفرة اليوم.

لكن ماذا ستفعل بهذه البيانات؟ دعنا نفهم هذا باستخدام مثال:



لنفترض أن لديك شركة تصنع الهواتف المحمولة. لقد أصدرت منتجك الأول وحقق نجاحًا هائلاً. كل تقنية لها حياة ، أليس كذلك؟ لذا ، حان الوقت الآن لابتكار شيء جديد. لكنك لا تعرف ما الذي يجب ابتكاره ، وذلك لتلبية توقعات المستخدمين ، الذين ينتظرون بفارغ الصبر إصدارك القادم؟

يأتي شخص ما في شركتك بفكرة استخدام التعليقات التي ينشئها المستخدم واختيار الأشياء التي نشعر أن المستخدمين يتوقعونها في الإصدار التالي.

يأتي في علم البيانات ، يمكنك تطبيق تقنيات استخراج البيانات المختلفة مثل تحليل المشاعر وما إلى ذلك والحصول على النتائج المرجوة.



ليس هذا فقط ، يمكنك اتخاذ قرارات أفضل ، يمكنك تقليل تكاليف الإنتاج من خلال الخروج بطرق فعالة ، ومنح عملائك ما يريدون بالفعل!

مع هذا ، هناك فوائد لا حصر لها يمكن أن ينتج عنها Data Science ، وبالتالي أصبح من الضروري للغاية لشركتك أن يكون لديها فريق علوم البيانات.أدت مثل هذه المتطلبات إلى 'علم البيانات' كموضوع اليوم ، وبالتالي فإننا نكتب هذه المدونة على دروس علوم البيانات من أجلك. :)

دروس علوم البيانات: ما هو علم البيانات؟

ظهر مصطلح علم البيانات مؤخرًا مع تطور الإحصاء الرياضي وتحليل البيانات. كانت الرحلة مذهلة ، لقد أنجزنا الكثير اليوم في مجال علوم البيانات.

في السنوات القليلة المقبلة ، سنكون قادرين على التنبؤ بالمستقبل كما ادعى باحثون من معهد ماساتشوستس للتكنولوجيا. لقد وصلوا بالفعل إلى علامة فارقة في التنبؤ بالمستقبل من خلال أبحاثهم الرائعة. يمكنهم الآن التنبؤ بما سيحدث في المشهد التالي من الفيلم باستخدام أجهزتهم! كيف؟ حسنًا ، قد يكون فهمك أمرًا معقدًا بعض الشيء حتى الآن ، ولكن لا تقلق بنهاية هذه المدونة ، سيكون لديك إجابة على ذلك أيضًا.

بالعودة إلى الوراء ، كنا نتحدث عن علم البيانات ، وهو معروف أيضًا باسم العلم المستند إلى البيانات ، والذي يستخدم الأساليب والعمليات والأنظمة العلمية لاستخراج المعرفة أو الرؤى من البيانات في أشكال مختلفة ، أي إما منظمة أو غير منظمة.

ما هي هذه الأساليب والعمليات ، هو ما سنناقشه في هذا البرنامج التعليمي لعلوم البيانات اليوم.

المضي قدمًا ، من يفعل كل هذا العصف الذهني ، أو من يمارس علوم البيانات؟ أ عالم البيانات .

من هو عالم البيانات؟

كما ترى في الصورة ، فإن عالم البيانات هو سيد جميع المهن! يجب أن يكون ماهرًا في الرياضيات ، ويجب أن يكون بارعًا في مجال الأعمال ، ويجب أن يتمتع بمهارات رائعة في علوم الكمبيوتر أيضًا. مفزوع؟ لا تكن. على الرغم من أنك بحاجة إلى أن تكون جيدًا في كل هذه المجالات ، ولكن حتى لو لم تكن كذلك ، فأنت لست وحدك! لا يوجد شيء مثل 'عالم بيانات كامل'. إذا تحدثنا عن العمل في بيئة الشركة ، يتم توزيع العمل بين الفرق ، حيث يكون لكل فريق خبرته الخاصة. لكن الشيء هو ، يجب أن تكون بارعًا على الأقل في أحد هذه المجالات. أيضًا ، حتى لو كانت هذه المهارات جديدة عليك ، استرخ! قد يستغرق الأمر وقتًا ، ولكن يمكن تطوير هذه المهارات ، وصدقوني أنها تستحق الوقت الذي ستستثمره. لماذا ا؟ حسنًا ، دعنا نلقي نظرة على اتجاهات الوظائف.

تطبيقات تحليل البيانات الضخمة

اتجاهات وظيفة عالم البيانات

حسنًا ، يوضح الرسم البياني كل شيء ، ليس فقط هناك الكثير من فرص العمل لعالم البيانات ، ولكن الوظائف مدفوعة الأجر أيضًا! ولا ، مدونتنا لن تغطي أرقام الرواتب ، اذهب إلى جوجل!

حسنًا ، نحن نعلم الآن أن تعلم علم البيانات أمر منطقي حقًا ، ليس فقط لأنه مفيد جدًا ، ولكن أيضًا لديك مهنة رائعة فيه في المستقبل القريب.

لنبدأ رحلتنا في تعلم علوم البيانات الآن ونبدأ ،

كيف تحل مشكلة في علم البيانات؟

الآن ، دعنا نناقش كيف يجب أن يتعامل المرء مع مشكلة ما ويحلها بعلوم البيانات. يتم حل المشكلات في علوم البيانات باستخدام الخوارزميات. لكن أهم شيء يجب الحكم عليه هو الخوارزمية التي يجب استخدامها ومتى يتم استخدامها؟

في الأساس ، هناك 5 أنواع من المشاكل التي يمكن أن تواجهها في علم البيانات.

دعونا نتناول كل من هذه الأسئلة والخوارزميات المرتبطة واحدة تلو الأخرى:

هل هذا أ أم ب؟

مع هذا السؤال ، نشير إلى المشكلات التي لها إجابة قاطعة ، كما في المشكلات التي لها حل ثابت ، يمكن أن تكون الإجابة إما نعم أو لا ، 1 أو 0 ، مهتمة ، ربما أو غير مهتمة.

فمثلا:

س: ماذا ستشرب ، شاي أم قهوة؟

هنا ، لا يمكنك القول أنك تريد فحم الكوك! بما أن السؤال يقدم الشاي أو القهوة فقط ، وبالتالي يمكنك الإجابة على أحدهما فقط.

عندما يكون لدينا نوعان فقط من الإجابات ، أي نعم أو لا ، 1 أو 0 ، يطلق عليه 2 - تصنيف التصنيف. مع أكثر من خيارين ، يطلق عليه تصنيف متعدد الفئات.

في الختام ، عندما تصادف أسئلة ، تكون الإجابة عليها قاطعة ، في علم البيانات ، ستحل هذه المشكلات باستخدام خوارزميات التصنيف.

المشكلة التالية في هذا البرنامج التعليمي لعلوم البيانات ، والتي قد تصادفك ، ربما شيء من هذا القبيل ،

هل هذا غريب؟

مثل هذه الأسئلة تتعامل مع الأنماط ويمكن حلها باستخدام خوارزميات اكتشاف الشذوذ.

فمثلا:

حاول ربط المشكلة 'هل هذا غريب؟' لهذا الرسم البياني ،

ما هو الغريب في النمط أعلاه؟ الرجل الأحمر ، أليس كذلك؟

عندما يكون هناك انقطاع في النمط ، تقوم الخوارزمية بتمييز هذا الحدث المعين لنا لمراجعته. تم تنفيذ تطبيق حقيقي لهذه الخوارزمية بواسطة شركات بطاقات الائتمان حيث يتم وضع علامة على أي معاملة غير عادية من قبل المستخدم للمراجعة. ومن ثم تطبيق الأمن وتقليل الجهد البشري في المراقبة.

دعونا نلقي نظرة على المشكلة التالية في هذا البرنامج التعليمي لعلوم البيانات ، لا تخف ، تتعامل مع الرياضيات!

كم او كم واحد؟

أولئك منكم ، الذين لا يحبون الرياضيات ، ارتاحوا! خوارزميات الانحدار هنا!

لذلك ، عندما تكون هناك مشكلة قد تطلب أرقامًا أو قيمًا رقمية ، فإننا نحلها باستخدام خوارزميات الانحدار.

فمثلا:

ماذا ستكون درجة الحرارة ليوم غد؟

نظرًا لأننا نتوقع قيمة رقمية في الاستجابة لهذه المشكلة ، فسنحلها باستخدام خوارزميات الانحدار.

المضي قدمًا في هذا البرنامج التعليمي لعلوم البيانات ، دعنا نناقش الخوارزمية التالية ،

كيف يتم تنظيم هذا؟

لنفترض أن لديك بعض البيانات ، والآن ليس لديك أي فكرة عن كيفية الاستفادة من هذه البيانات. ومن هنا السؤال كيف يتم تنظيم ذلك؟

حسنًا ، يمكنك حلها باستخدام خوارزميات التجميع. كيف يحلون هذه المشاكل؟ دعونا نرى:

تقوم خوارزميات التجميع بتجميع البيانات من حيث الخصائص الشائعة. على سبيل المثال في الرسم البياني أعلاه ، يتم تنظيم النقاط بناءً على الألوان. وبالمثل ، سواء كانت أي بيانات ، فإن خوارزميات التجميع تحاول فهم ما هو مشترك بينها ومن ثم 'تجميعها' معًا.

النوع التالي والأخير من المشكلة في هذا البرنامج التعليمي لعلوم البيانات ، والذي قد تواجهه هو ،

ماذا علي أن أفعل بعد ذلك؟

عندما تواجه مشكلة ، حيث يتعين على جهاز الكمبيوتر الخاص بك اتخاذ قرار بناءً على التدريب الذي قدمته له ، فإنه يتضمن خوارزميات التعزيز.

فمثلا:

نظام التحكم في درجة الحرارة لديك ، عندما يتعين عليه أن يقرر ما إذا كان يجب خفض درجة حرارة الغرفة ، أو زيادتها.

كيف تعمل هذه الخوارزميات؟

تستند هذه الخوارزميات على علم النفس البشري. نحن نحب أن نكون موضع تقدير صحيح؟ تطبق أجهزة الكمبيوتر هذه الخوارزميات ، وتتوقع أن يتم تقديرها عند التدريب. كيف؟ دعونا نرى.

بدلاً من تعليم الكمبيوتر ما يجب القيام به ، يمكنك تركه يقرر ما يجب فعله ، وفي نهاية هذا الإجراء ، يمكنك تقديم ملاحظات إيجابية أو سلبية. ومن ثم ، بدلاً من تحديد ما هو صحيح وما هو خطأ في نظامك ، فإنك تترك نظامك 'يقرر' ما يجب فعله ، وفي النهاية تقدم ملاحظات.

إنه مثل تدريب كلبك تمامًا. لا يمكنك التحكم في ما يفعله كلبك ، أليس كذلك؟ لكن يمكنك تأنيبه عندما يخطئ. وبالمثل ، ربما يربت على ظهره عندما يفعل ما هو متوقع.

نموذج تحكم عرض مثال جافا

دعنا نطبق هذا الفهم في المثال أعلاه ، تخيل أنك تقوم بتدريب نظام التحكم في درجة الحرارة ، لذلك عندما لا. زيادة عدد الأشخاص في الغرفة ، يجب أن يكون هناك إجراء يتخذه النظام. إما خفض درجة الحرارة أو زيادتها. نظرًا لأن نظامنا لا يفهم أي شيء ، فإنه يتخذ قرارًا عشوائيًا ، فلنفترض أنه يزيد درجة الحرارة. لذلك ، أنت تعطي ردود فعل سلبية. باستخدام هذا ، يفهم الكمبيوتر أنه كلما زاد عدد الأشخاص في الغرفة ، لا تزيد درجة الحرارة أبدًا.

وبالمثل بالنسبة للإجراءات الأخرى ، يجب عليك تقديم ملاحظات.مع كل ملاحظات يتعلمها نظامك ، وبالتالي يصبح أكثر دقة في قراره التالي ، يسمى هذا النوع من التعلم التعلم المعزز.

الآن ، الخوارزميات التي تعلمناها أعلاه في هذا البرنامج التعليمي لعلوم البيانات تتضمن 'ممارسة تعلم' شائعة. نحن نجعل الآلة تتعلم بشكل صحيح؟

ما هو التعلم الآلي؟

إنه نوع من الذكاء الاصطناعي يجعل أجهزة الكمبيوتر قادرة على التعلم بمفردها ، أي دون أن تتم برمجتها بشكل صريح. باستخدام التعلم الآلي ، يمكن للآلات تحديث التعليمات البرمجية الخاصة بها ، كلما صادفت موقفًا جديدًا.

في الختام في هذا البرنامج التعليمي لعلوم البيانات ، نعلم الآن أن علم البيانات مدعوم بواسطة التعلم الآلي وخوارزمياته لتحليله. كيف نقوم بالتحليل ، أين نقوم به. يحتوي علم البيانات أيضًا على بعض المكونات التي تساعدنا في معالجة كل هذه الأسئلة.

قبل ذلك اسمحوا لي أن أجيب كيف يمكن لمعهد ماساتشوستس للتكنولوجيا التنبؤ بالمستقبل ، لأنني أعتقد أنكم قد تكونون قادرين على ربطه الآن. لذلك ، قام الباحثون في معهد ماساتشوستس للتكنولوجيا بتدريب نموذجهم على الأفلام وتعلمت أجهزة الكمبيوتر كيف يستجيب البشر ، أو كيف يتصرفون قبل القيام بأي عمل.

على سبيل المثال ، عندما تكون على وشك مصافحة شخص ما ، ترفع يدك من جيبك ، أو ربما تتكئ على الشخص. في الأساس هناك 'إجراء مسبق' مرتبط بكل شيء نقوم به. تم تدريب الكمبيوتر بمساعدة الأفلام على هذه 'الإجراءات المسبقة'. ومن خلال مشاهدة المزيد والمزيد من الأفلام ، تمكنت أجهزة الكمبيوتر الخاصة بهم بعد ذلك من التنبؤ بما يمكن أن يكون الإجراء التالي للشخصية.

من السهل أليس كذلك؟ اسمحوا لي أن أطرح عليك سؤالاً آخر في هذا البرنامج التعليمي لعلوم البيانات! ما هي خوارزمية التعلم الآلي التي يجب أن يطبقوها في هذا؟

مكونات علوم البيانات

1. مجموعات البيانات

على ماذا ستحلل؟ البيانات ، أليس كذلك؟ أنت بحاجة إلى الكثير من البيانات التي يمكن تحليلها ، ويتم تغذية هذه البيانات إلى خوارزمياتك أو أدواتك التحليلية. تحصل على هذه البيانات من العديد من الأبحاث التي أجريت في الماضي.

2. آر ستوديو

R هي لغة برمجة مفتوحة المصدر وبيئة برمجية للحوسبة والرسومات الإحصائية التي تدعمها مؤسسة R. تُستخدم لغة R في IDE يسمى R Studio.

لماذا يتم استخدامه؟

  • لغة البرمجة والإحصاء
    • بصرف النظر عن استخدامها كلغة إحصائية ، يمكن أيضًا استخدامها لغة برمجة لأغراض تحليلية.
  • تحليل البيانات والتصور
    • بصرف النظر عن كونها إحدى أدوات التحليل الأكثر شيوعًا ، تعد R أيضًا واحدة من أكثر الأدوات شيوعًا المستخدمة لتصور البيانات.
  • بسيطة وسهلة التعلم
    • R بسيطة وسهلة التعلم والقراءة والكتابة

  • مجاني ومفتوح المصدر
    • R مثال على FLOSS (برنامج مجاني / ليبر ومفتوح المصدر) مما يعني أنه يمكن للمرء توزيع نسخ من هذا البرنامج بحرية ، وقراءة كود المصدر الخاص به ، وتعديله ، وما إلى ذلك.

كان R Studio كافياً للتحليل ، حتى أصبحت مجموعات البيانات لدينا ضخمة وغير منظمة أيضًا في نفس الوقت. كان هذا النوع من البيانات يسمى البيانات الضخمة.

3. البيانات الضخمة

البيانات الكبيرة هي مصطلح لمجموعة من مجموعات البيانات الكبيرة والمعقدة بحيث يصبح من الصعب معالجتها باستخدام أدوات إدارة قواعد البيانات الفعلية أو تطبيقات معالجة البيانات التقليدية.

الآن لترويض هذه البيانات ، كان علينا ابتكار أداة ، لأنه لا يوجد برنامج تقليدي يمكنه التعامل مع هذا النوع من البيانات ، وبالتالي توصلنا إلى Hadoop.

4. Hadoop

Hadoop هو إطار العمل الذي يساعدنا على متجر و معالجة مجموعات البيانات الكبيرة بالتوازي والتوزيع.

دعونا نركز على المتجر ونعالج جزءًا من Hadoop.

متجر

تتم معالجة جزء التخزين في Hadoop بواسطة HDFS ، أي نظام الملفات الموزعة Hadoop. يوفر توفرًا عاليًا عبر نظام بيئي موزع. الطريقة التي تعمل بها هي على هذا النحو ، فهي تقسم المعلومات الواردة إلى أجزاء ، وتوزعها على عقد مختلفة في مجموعة ، مما يسمح بالتخزين الموزع.

معالجة

MapReduce هو قلب معالجة Hadoop. تقوم الخوارزميات بمهمتين مهمتين ، خريطة وتقليل. يقسم مصممو الخرائط المهمة إلى مهام أصغر تتم معالجتها بشكل متوازي. بمجرد قيام جميع مصممي الخرائط بنصيبهم من العمل ، يقومون بتجميع نتائجهم ، ثم يتم تقليل هذه النتائج إلى قيمة أبسط من خلال عملية التخفيض. لمعرفة المزيد على Hadoop ، يمكنك الاطلاع على .

إذا استخدمنا Hadoop كتخزيننا في Data Science ، يصبح من الصعب معالجة المدخلات باستخدام R Studio ، نظرًا لعدم قدرته على الأداء الجيد في البيئة الموزعة ، وبالتالي لدينا Spark R.

5. سبارك ر

إنها حزمة R توفر طريقة خفيفة الوزن لاستخدام Apache Spark مع R. لماذا ستستخدمها على تطبيقات R التقليدية؟ لأنه يوفر تنفيذ إطار بيانات موزع يدعم عملية مثل الاختيار والتصفية والتجميع وما إلى ذلك ولكن على مجموعات البيانات الكبيرة.

خذ استراحة الآن! لقد انتهينا من الجزء التقني في هذا البرنامج التعليمي لعلوم البيانات ، فلنلقِ نظرة عليه من منظور وظيفتك الآن. أعتقد أنك كنت ستبحث في Google عن الرواتب الآن لعالم البيانات ، ولكن لا يزال ، دعنا نناقش الأدوار الوظيفية المتاحة لك كعالم بيانات.

الأدوار الوظيفية لعالم البيانات

بعض المسميات الوظيفية البارزة لعالم البيانات هي:

  • عالم البيانات
  • مهندس بيانات
  • مهندس البيانات
  • مسؤول البيانات
  • محلل بيانات
  • محلل الأعمال
  • مدير البيانات / التحليلات
  • مدير ذكاء الأعمال

يوضح مخطط Payscale.com في هذا البرنامج التعليمي لعلوم البيانات أدناه متوسط ​​راتب عالم البيانات حسب المهارات في الولايات المتحدة والهند.

لقد حان الوقت لتطوير المهارات في علوم البيانات وتحليلات البيانات الضخمة للاستفادة من الفرص الوظيفية لعلوم البيانات التي تأتي في طريقك. يقودنا هذا إلى نهاية مدونة دروس علوم البيانات. آمل أن تكون هذه المدونة مفيدة وقيمة مضافة لك. حان الوقت الآن لدخول عالم علوم البيانات وتصبح عالم بيانات ناجحًا.

Edureka لديها برعاية خاصة مما يساعدك على اكتساب الخبرة في خوارزميات التعلم الآلي مثل K-Means Clustering و Decision Trees و Random Forest و Naive Bayes. سوف تتعلم مفاهيم الإحصاء ، والسلاسل الزمنية ، واستخراج النص ومقدمة إلى التعلم العميق أيضًا. دفعات جديدة لهذه الدورة ستبدأ قريبًا !!

هل لديك سؤال لنا في دروس علوم البيانات؟ يرجى ذكر ذلك في قسم التعليقات وسنعاود الاتصال بك.