إحصائيات تعلم الآلة: دليل المبتدئين



هذه المقالة حول إحصائيات التعلم الآلي هي دليل شامل حول المفاهيم المختلفة لإحصائيات نظام التشغيل مع أمثلة.

إن فهم البيانات والقدرة على خلق قيمة منها هو مهارة العقد. يعد التعلم الآلي أحد هذه المهارات الأساسية التي تساعد الشركات على تحقيقها. ومع ذلك ، للبدء ، تحتاج إلى بناء أسسك بشكل صحيح. لذلك ، في هذه المقالة ، سأغطي بعض المفاهيم الأساسية وسأزودك بإرشادات لبدء رحلتك في التعلم الآلي. لذلك ، في هذه المقالة حول إحصائيات التعلم الآلي ، ستتم مناقشة الموضوعات التالية:

  1. احتمالا
  2. الإحصاء
  3. الجبر الخطي

الاحتمالات والإحصائيات لتعلم الآلة:





ما هو الاحتمال؟

الاحتمالية تقيس احتمالية وقوع حدث ما. على سبيل المثال ، إذا رمي نرد عادل وغير متحيز ، فإن احتمال واحد يحضر هو 1/6 . الآن ، إذا كنت تتساءل عن why؟ إذن الجواب بسيط للغاية!

هذا بسبب وجود ستة احتمالات وكلها متساوية (الموت العادل). لذلك يمكننا أن نضيف 1 + 1 + 1 + 1 + 1 + 1 = 6. ولكن ، نظرًا لأننا مهتمون بـ حدث حيث 1 يحضر . هنالك طريقة واحدة فقط يمكن أن يحدث بها الحدث. وبالتالي،



احتمال ظهور 1 = 1/6

مماثل هو الحال مع جميع الأرقام الأخرى حيث أن جميع الأحداث متساوية في الاحتمال. بسيط ، صحيح؟

حسنًا ، قد يبدو التعريف المتكرر للاحتمال في هذا المثال - احتمال ظهور 1 هو نسبة عدد مرات ظهور 1 إلى إجمالي عدد مرات دحرجة النرد إذا تم دحرجة القالب بعدد لا نهائي من مرات.كيف هذا منطقي؟



لنجعله اكثر اهتماما. ضع في اعتبارك الحالتين - لقد أديت إلى وفاة عادلة 5 مرات. في إحدى الحالات ، يكون تسلسل الأرقام هو - [1،4،2،6،4،3]. في الحالة الأخرى ، نحصل على - [2،2،2،2،2،2]. أيهما تعتقد أنه أكثر احتمالا؟

كلاهما متساوي في الاحتمال. يبدو غريبا ، أليس كذلك؟

الآن ، ضع في اعتبارك حالة أخرى حيث تكون جميع القوائم الخمس في كل حالة مستقل . بمعنى أن لفة واحدة لا تؤثر على الأخرى. في الحالة الأولى ، عندما ظهرت 6 ، لم يكن لديها أي فكرة أن 2 ظهر قبلها. ومن ثم ، فإن جميع القوائم الخمسة متساوية في الاحتمال.

وبالمثل ، يمكن فهم 2s المستقيمة في الحالة الثانية على أنها سلسلة من الأحداث المستقلة. وكل هذه الأحداث متساوية في الاحتمال. بشكل عام ، نظرًا لأن لدينا نفس حجر النرد ، احتمال ظهور رقم معين في حالة واحدة هو نفس الحالة الثانية. بعد ذلك ، في هذه المقالة حول إحصائيات التعلم الآلي ، دعنا نفهم المصطلح استقلال.

استقلال

حدثان يُقال إن A و B مستقلان إذا كان حدوث A لا يؤثر على الحدث B . على سبيل المثال ، إذا رميت عملة معدنية وألقت نردًا ، فلن يكون لنتيجة الزهر أي تأثير على ما إذا كانت العملة تظهر وجهًا أم ذيلًا. أيضا ، ل حدثان مستقلان A و B ، ال احتمالية حدوث A و B معًا . على سبيل المثال ، إذا كنت تريد أن يظهر احتمال أن تظهر العملة وجهًا لوجه ويموت 3.

اذهب للعمل في بيثون

الفوسفور (أ و ب) = ف (أ) * ف (ب)

لذلك P = & frac12 (احتمال ظهور الرؤوس) * ⅙ (احتمال 3 تشغيل) = 1/12

في المثال السابق ، لكلتا الحالتين ، P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

الآن دعونا نتحدث عن الأحداث غير المستقلة. تأمل الجدول التالي:

سمين غير سمين
مشاكل قلبيةأربعة خمسةخمسة عشر
لا مشاكل في القلب1030

تم إجراء مسح 100 شخص. 60 يعانون من مشاكل في القلب و 40 يعانون من مشاكل. من بين 60 يعانون من مشاكل في القلب ، كان 45 يعانون من السمنة. من بين 40 يعانون من مشاكل في القلب ، كان 10 يعانون من السمنة المفرطة. إذا سألك أحدهم -

  1. ما هو احتمال وجود مشكلة في القلب؟
  2. ما هو احتمال الاصابة بمشكلة في القلب وعدم السمنة؟

الإجابة على الأسئلة الأولى سهلة - 60/100. بالنسبة للثاني ، سيكون 15/100. فكر الآن في السؤال الثالث - تم اختيار شخص عشوائيًا. وجد أنه مصاب بمرض في القلب. ما هو احتمال أن يكون بدينًا؟

فكر الآن في المعلومات المقدمة لك - من المعروف أنه مصاب بمرض في القلب. لذلك لا يمكن أن يكون من الأربعين الذين لا يعانون من أمراض القلب. لا يوجد سوى 60 خيارًا ممكنًا (الصف العلوي في الجدول). الآن ، من بين هذه الاحتمالات المنخفضة ، فإن احتمال أن يكون بدينًا هو 45/60. الآن ، بعد أن عرفت ، ما هي الأحداث المستقلة ، بعد ذلك في هذه المقالة حول إحصائيات التعلم الآلي ، دعنا نفهم الاحتمالات الشرطية.

الاحتمالات الشرطية

لفهم الاحتمالات الشرطية ، دعنا نواصل مناقشتنا مع المثال أعلاه. حالة السمنة وحالة المعاناة من مشكلة في القلب ليست مستقلة. إذا كانت السمنة لا تؤثر على مشاكل القلب ، فإن عدد حالات السمنة وحالات غير السمنة للأشخاص الذين يعانون من مشاكل في القلب سيكون هو نفسه.

أيضًا ، تم إطلاعنا على أن الشخص يعاني من مشاكل في القلب وكان علينا معرفة احتمالية إصابته بالسمنة. لذلك ، فإن الاحتمال ، في هذه الحالة ، يقال أنه مشروط بحقيقة أنه يعاني من مشكلة في القلب. إذا كان احتمال وقوع الحدث A مشروطًا بالحدث B ، فإننا نمثله على أنه

ف (أ | ب)

الآن ، هناك نظرية تساعدنا في حساب هذا الاحتمال الشرطي. يطلق عليه قاعدة بايز .

الفوسفور (أ | ب) = ف (أ و ب) / ف (ب)

يمكنك التحقق من هذه النظرية عن طريق توصيل المثال الذي ناقشناه للتو. إذا كنت قد فهمت حتى الآن ، يمكنك البدء بما يلي - ساذج بايز . يستخدم الاحتمالات الشرطية لتصنيف ما إذا كان البريد الإلكتروني بريدًا عشوائيًا أم لا. يمكنه أداء العديد من مهام التصنيف الأخرى. لكن في الأساس ، يقع الاحتمال الشرطي في صميم .

الإحصاء:

الإحصائيات تُستخدم لتلخيص وتقديم استنتاجات حول عدد كبير من نقاط البيانات. في علوم البيانات والتعلم الآلي ، ستصادف غالبًا المصطلحات التالية

  • تدابير المركزية
  • التوزيعات (العادية بشكل خاص)

مقاييس المركزية ومقاييس الفروق

يعني:

يعني مجرد ملف متوسط ​​الأعداد . لمعرفة المتوسط ​​، عليك أن تجمع الأرقام وتقسيمها على عدد الأرقام. على سبيل المثال ، متوسط ​​[1،2،3،4،5] هو 15/5 = 3.

mean-statistics-for-machine-learning

الوسيط:

الوسيط هو العنصر الأوسط لمجموعة من الأرقام عندما يتم ترتيبها بترتيب تصاعدي. على سبيل المثال ، يتم ترتيب الأرقام [1،2،4،3،5] بترتيب تصاعدي [1،2،3،4،5]. الوسط هو 3. إذن الوسيط هو 3. ولكن ماذا لو كان عدد الأعداد زوجيًا وبالتالي لا يوجد رقم وسطي؟ في هذه الحالة ، تأخذ متوسط ​​عددين في الوسط. للحصول على تسلسل مكون من رقمين بترتيب تصاعدي ، متوسط ​​العدد n و (n + 1)العاشررقم للحصول على الوسيط. مثال - [1،2،3،4،5،6] لها الوسيط (3 + 4) / 2 = 3.5

الوضع:

الوضع هو ببساطة ملف العدد الأكثر شيوعًا في مجموعة من الأرقام . على سبيل المثال ، وضع [1،2،3،3،4،5،5،5] هو 5.

فرق:

التباين ليس مقياس مركزية. يقيس كيف تنتشر بياناتك حول المتوسط . يتم قياسها كميا

xهو متوسط ​​عدد N. تأخذ نقطة ، وتطرح المتوسط ​​، وتأخذ مربع هذا الاختلاف. افعل هذا مع جميع أرقام N ومتوسطها. يسمى الجذر التربيعي للتباين الانحراف المعياري. بعد ذلك ، في هذه المقالة حول إحصائيات التعلم الآلي ، دعنا نفهم التوزيع الطبيعي.

إعداد java classpath في لينكس

التوزيع الطبيعي

التوزيع يساعدنا فهم كيفية انتشار بياناتنا . على سبيل المثال ، في عينة من الأعمار ، قد يكون لدينا شباب أكثر من كبار السن ، وبالتالي قيم أصغر للعمر أكثر من القيم الأكبر. لكن كيف نحدد التوزيع؟ النظر في المثال أدناه

يمثل المحور الصادي الكثافة. وضع هذا التوزيع هو 30 لأنه الذروة وبالتالي الأكثر شيوعًا. يمكننا أيضًا تحديد موقع الوسيط. يقع الوسيط عند النقطة على المحور x حيث يتم تغطية نصف المساحة الواقعة أسفل المنحنى. المنطقة تحت أي توزيع عادي هي 1 لأن مجموع احتمالات جميع الأحداث هو 1. على سبيل المثال ،

الوسيط في الحالة أعلاه هو حوالي 4. وهذا يعني أن المنطقة الواقعة أسفل المنحنى قبل 4 هي نفسها بعد 4. فكر في مثال آخر

نرى ثلاثة توزيعات عادية. الأزرق والأحمر لهما نفس المعنى. الأحمر لديه تباين أكبر. ومن ثم ، فهو منتشر أكثر من الأزرق. ولكن نظرًا لأن المنطقة يجب أن تكون 1 ، فإن ذروة المنحنى الأحمر تكون أقصر من المنحنى الأزرق ، وذلك للحفاظ على المنطقة ثابتة.

آمل أن تكون قد فهمت الإحصائيات الأساسية والتوزيعات العادية. الآن ، بعد ذلك في هذه المقالة حول إحصائيات التعلم الآلي ، دعنا نتعرف على الجبر الخطي.

الجبر الخطي

لن يكون الذكاء الاصطناعي الحديث ممكنًا بدون الجبر الخطي. يشكل جوهر تعلم عميق وقد تم استخدامه حتى في الخوارزميات البسيطة مثل . دون مزيد من التأخير ، فلنبدأ.

يجب أن تكون على دراية بالناقلات. إنها نوع من التمثيلات الهندسية في الفضاء. على سبيل المثال ، يحتوي المتجه [3،4] على 3 وحدات على طول المحور x و 4 وحدات على طول المحور y. تأمل الصورة التالية -

يحتوي المتجه d1 على 0.707 وحدة على المحور x و 0.707 وحدة على المحور y. المتجه له بعد واحد. له بالضرورة مقدار واتجاه. فمثلا،

الصورة أعلاه لها متجه (4،3). حجمه 5 ويساوي 36.9 درجة مع المحور السيني.

الآن ، ما هي المصفوفة؟ المصفوفة هي مصفوفة متعددة الأبعاد من الأرقام. ما الذي تستخدمه؟ سنرى المستقبل. لكن أولاً ، دعونا نلقي نظرة على كيفية استخدامه.

مصفوفة

يمكن أن تحتوي المصفوفة على العديد من الأبعاد. لنفكر في مصفوفة ثنائية الأبعاد. لها صفوف (م) وأعمدة (ن). لذلك يحتوي على عناصر m * n.

فمثلا،

تحتوي هذه المصفوفة على 5 صفوف و 5 أعمدة. دعنا نسميها أ. لذلك ، A (2،3) هو الإدخال في الصف الثاني والعمود الثالث وهو 8.

الآن ، بعد أن عرفت ما هي المصفوفة ، دعونا نلقي نظرة على العمليات المختلفة للمصفوفة.

عمليات المصفوفة

إضافة المصفوفات

مصفوفتان من نفسه يمكن إضافة أبعاد. تحدث الإضافة من حيث العناصر.

الضرب القياسي

يمكن ضرب المصفوفة بكمية قياسية. يؤدي مثل هذا الضرب إلى ضرب كل إدخال في المصفوفة في العدد. العددية هو مجرد رقم

تبديل المصفوفة

تبديل المصفوفة بسيط. بالنسبة إلى المصفوفة أ (م ، ن) ، دع 'أ' يكون منقولها. ثم

أ '(أنا ، ي) = أ (ي ، ط)

فمثلا،

ضرب المصفوفة

ربما يكون هذا صعبًا بعض الشيء من العمليات الأخرى. قبل أن نتعمق فيه ، دعنا نحدد حاصل الضرب النقطي بين متجهين.

ضع في اعتبارك المتجه X = [1،4،6،0] والمتجه Y = [2،3،4،5]. ثم يتم تعريف حاصل الضرب النقطي بين X و Y على أنه

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

إذن ، هو الضرب والجمع حسب العناصر. الآن،لنفكر في مصفوفتين أ (م ، ن) وب (ن ، ك) ، حيث م ، ن ، ك أبعاد وبالتالي أعداد صحيحة. نحدد ضرب المصفوفة كـ

في المثال أعلاه ، يتم الحصول على العنصر الأول من حاصل الضرب (44) من خلال حاصل الضرب القياسي للصف الأول من المصفوفة اليسرى مع العمود الأول من المصفوفة اليمنى. وبالمثل ، يتم الحصول على 72 من خلال حاصل الضرب القياسي للصف الأول من المصفوفة اليسرى مع العمود الثاني من المصفوفة اليمنى.

دورة حياة نشاط android

لاحظ أنه بالنسبة للمصفوفة اليسرى ، يجب أن يكون عدد الأعمدة مساويًا لعدد الصفوف في العمود الأيمن. في حالتنا ، المنتج AB موجود ولكن ليس BA لأن m لا يساوي k. بالنسبة لمصفوفتين أ (م ، ن) وب (ن ، ك) ، يتم تعريف المنتج أب وأبعاد المنتج (م ، ك) (الأبعاد الخارجية (م ، ن) ، (ن ، ك) )). ولكن لا يتم تعريف BA ما لم يكن m = k.

بهذا ننتهي من هذه المقالة حول إحصائيات التعلم الآلي. آمل أن تكون قد فهمت بعضًا من مصطلحات تعلم الآلة. لكن الأمر لا ينتهي هنا. للتأكد من أنك جاهز للصناعة ، يمكنك الاطلاع على دورات Edureka في علوم البيانات والذكاء الاصطناعي. يمكن العثور عليها