ما هو الانفتاح في التعلم الآلي وكيفية تجنبه؟



تتناول هذه المقالة Overfitting in Machine Learning مع أمثلة وبعض الأساليب التي يجب تجنبها واكتشاف Overfitting في نموذج التعلم الآلي.

لا يقتصر بناء نموذج التعلم الآلي على تغذية البيانات فحسب ، فهناك الكثير من أوجه القصور التي تؤثر على دقة أي نموذج. التجهيز في هو أحد أوجه القصور في التعلم الآلي الذي يعيق دقة وأداء النموذج. يتم تناول الموضوعات التالية في هذه المقالة:

ما هو الانفتاح في التعلم الآلي؟

يُقال إن النموذج الإحصائي يتم تجهيزه بشكل زائد عندما نقوم بتزويده ببيانات أكثر من اللازم. لجعلها قابلة للتوافق ، تخيل أنك تحاول أن تتناسب مع الملابس ذات الحجم الكبير.





عندما يناسب النموذج بيانات أكثر مما يحتاجه بالفعل ، فإنه يبدأ في التقاط البيانات المشوشة والقيم غير الدقيقة في البيانات. نتيجة لذلك ، تقل كفاءة ودقة النموذج. دعونا نلقي نظرة على بعض الأمثلة على التجهيز الزائد لفهم كيف يحدث ذلك بالفعل.



أمثلة على التجهيز

مثال 1

إذا أخذنا مثال بسيط الانحدارالخطي ، فإن تدريب البيانات يدور حول معرفة الحد الأدنى للتكلفة بين أفضل خط مناسب ونقاط البيانات. يمر بعدد من التكرارات لاكتشاف أفضل ملاءمة ، مع تقليل التكلفة. هذا هو المكان الذي يأتي فيه overfitting في الصورة.



يمكن أن يعطي الخط الموضح في الصورة أعلاه نتيجة فعالة للغاية لنقطة بيانات جديدة. في حالة التجهيز الزائد ، عندما نقوم بتشغيل خوارزمية التدريب على مجموعة البيانات ، نسمح بتخفيض التكلفة مع كل عدد من التكرار.

تشغيل هذا لفترة طويلة جدًا ستعني تكلفة مخفضة ولكنها ستلائم أيضًا البيانات المزعجة من مجموعة البيانات. ستبدو النتيجة كما في الرسم البياني أدناه.

قد يبدو هذا فعالًا ولكنه ليس كذلك حقًا. الهدف الرئيسي لخوارزمية مثل الانحدارالخطي هو إيجاد اتجاه مهيمن وتناسب نقاط البيانات وفقًا لذلك. لكن في هذه الحالة ، يناسب الخط جميع نقاط البيانات ، وهو أمر لا علاقة له بكفاءة النموذج في توقع النتائج المثلى لنقاط بيانات الإدخال الجديدة.

الآن دعونا نفكر في مثال وصفي أكثر بمساعدة بيان المشكلة.

مثال 2

عرض المشكلة: دعونا نفكر في أننا نريد أن نتوقع ما إذا كان لاعب كرة قدم سيحصل على فتحة في أحد نوادي كرة القدم من المستوى 1 بناءً على أدائه الحالي في دوري الدرجة 2.

تخيل الآن أننا ندرب ونلائم النموذج بعشرة آلاف لاعب مع النتائج. عندما نحاول التنبؤ بالنتيجة على مجموعة البيانات الأصلية ، دعنا نقول أننا حصلنا على دقة تبلغ 99٪. لكن الدقة في مجموعة بيانات مختلفة تبلغ حوالي 50 بالمائة. هذا يعني أن النموذج لا يعمم جيدًا من بيانات التدريب والبيانات غير المرئية.

هذا ما يبدو عليه فرط التجهيز. إنها مشكلة شائعة جدًا في التعلم الآلي وحتى في علم البيانات. الآن دعونا نفهم الإشارة والضوضاء.

إشارة مقابل الضوضاء

في النمذجة التنبؤية ، تشير الإشارة إلى النمط الأساسي الحقيقي الذي يساعد النموذج على تعلم البيانات. من ناحية أخرى ، الضوضاء ليست ذات صلة والبيانات العشوائية في مجموعة البيانات. لفهم مفهوم الضوضاء والإشارة ، دعونا نأخذ مثالاً من الحياة الواقعية.

دعونا نفترض أننا نريد أن نصمم العمر مقابل معرفة القراءة والكتابة بين البالغين. إذا أخذنا عينة من جزء كبير جدًا من السكان ، فسنجد علاقة واضحة. هذه هي الإشارة ، بينما تتداخل الضوضاء مع الإشارة. إذا فعلنا الشيء نفسه مع السكان المحليين ، فستصبح العلاقة موحلة. ستتأثر بالقيم المتطرفة والعشوائية ، على سبيل المثال ، ذهب أحد البالغين إلى المدرسة مبكرًا أو أن بعض البالغين لا يستطيعون تحمل تكاليف التعليم ، وما إلى ذلك.

عند الحديث عن الضوضاء والإشارة من حيث التعلم الآلي ، ستقوم خوارزمية جيدة للتعلم الآلي بفصل الإشارات تلقائيًا عن الضوضاء. إذا كانت الخوارزمية معقدة للغاية أو غير فعالة ، فقد تتعلم الضوضاء أيضًا. ومن ثم ، تجهيز النموذج. دعونا نفهم أيضًا عدم الملائمة في التعلم الآلي.

ما هو عدم الملائمة؟

من أجل تجنب فرط التجهيز ، يمكننا إيقاف التدريب في مرحلة مبكرة. ولكنه قد يؤدي أيضًا إلى عدم قدرة النموذج على التعلم بشكل كافٍ من بيانات التدريب ، مما قد يؤدي إلى صعوبة التقاط الاتجاه السائد. يُعرف هذا باسم عدم الملائمة. والنتيجة هي نفس التجهيز المفرط وعدم الكفاءة في توقع النتائج.

الآن بعد أن فهمنا ما هو الملاءمة والتخصيص الزائد في التعلم الآلي حقًا ، دعونا نحاول فهم كيف يمكننا اكتشاف التخصيص الزائد في التعلم الآلي.

javascript الحصول على حجم المصفوفة

كيفية الكشف عن فرط التجهيز؟

يتمثل التحدي الرئيسي في التجهيز الزائد في تقدير دقة أداء نموذجنا ببيانات جديدة. لن نتمكن من تقدير الدقة حتى نختبرها بالفعل.

لمعالجة هذه المشكلة ، يمكننا تقسيم مجموعة البيانات الأولية إلى مجموعات بيانات تدريب واختبار منفصلة. باستخدام هذه التقنية ، يمكننا في الواقع تقدير مدى جودة أداء نموذجنا مع البيانات الجديدة.

دعونا نفهم هذا بمثال ، تخيل أننا نحصل على دقة 90+ في المائة على مجموعة التدريب ودقة 50 في المائة في مجموعة الاختبار. بعد ذلك ، ستكون تلقائيًا علامة حمراء للنموذج.

طريقة أخرى للكشف عن فرط التجهيز هو البدء بنموذج مبسط يخدم كمعيار.

باستخدام هذا النهج ، إذا جربت خوارزميات أكثر تعقيدًا ، فستتمكن من فهم ما إذا كان التعقيد الإضافي مفيدًا للنموذج أم لا. ومن المعروف أيضا باسم اختبار شفرة أوكام ، فهو يختار بشكل أساسي النموذج المبسط في حالة الأداء المماثل في حالة وجود نموذجين. على الرغم من أن الكشف عن فرط التجهيز يعد ممارسة جيدة ،ولكن هناك عدة تقنيات لمنع فرط التخصيص أيضًا. دعونا نلقي نظرة على كيف يمكننا منع فرط التخصيص في التعلم الآلي.

كيف تتجنب الانغماس في التعلم الآلي؟

هناك العديد من الأساليب لتجنب فرط التخصيص في التعلم الآلي تمامًا المدرجة أدناه.

  1. عبر المصادقة

  2. التدريب بمزيد من البيانات

  3. إزالة الميزات

  4. التوقف المبكر

  5. تنظيم

  6. تجميع

1. عبر التحقق من الصحة

واحدة من أقوى الميزات لتجنب / منع فرط الملاءمة هي التحقق من الصحة. تكمن الفكرة وراء ذلك في استخدام بيانات التدريب الأولية لإنشاء تقسيمات اختبار قطار صغيرة ، ثم استخدام هذه التقسيمات لضبط نموذجك.

في عملية التحقق من صحة k-fold القياسية ، يتم تقسيم البيانات إلى مجموعات فرعية k تُعرف أيضًا باسم الطيات. بعد ذلك ، يتم تدريب الخوارزمية بشكل تكراري على طيات k-1 أثناء استخدام الطيات المتبقية كمجموعة اختبار ، تُعرف أيضًا باسم طية الانتظار.

يساعدنا التحقق المتقاطع على ضبط المعلمات الفائقة باستخدام مجموعة التدريب الأصلية فقط. إنها تحافظ بشكل أساسي على مجموعة الاختبار بشكل منفصل كمجموعة بيانات غير مرئية حقيقية لاختيار النموذج النهائي. ومن ثم ، تجنب الإفراط في تجهيز تماما.

2. التدريب بمزيد من البيانات

قد لا تعمل هذه التقنية في كل مرة ، كما ناقشنا أيضًا في المثال أعلاه ، حيث يساعد التدريب مع عدد كبير من السكان النموذج. إنه يساعد النموذج بشكل أساسي في تحديد الإشارة بشكل أفضل.

ولكن في بعض الحالات ، يمكن أن تعني البيانات المتزايدة أيضًا زيادة الضوضاء على النموذج. عندما نقوم بتدريب النموذج على المزيد من البيانات ، يتعين علينا التأكد من أن البيانات نظيفة وخالية من العشوائية والتناقضات.

3. إزالة الميزات

على الرغم من أن بعض الخوارزميات لديها اختيار تلقائي للميزات. بالنسبة لعدد كبير من أولئك الذين ليس لديهم اختيار ميزة مضمنة ، يمكننا يدويًا إزالة بعض الميزات غير ذات الصلة من ميزات الإدخال لتحسين التعميم.

تتمثل إحدى طرق القيام بذلك في استخلاص استنتاج حول كيفية تناسب الميزة في النموذج. إنه مشابه تمامًا لتصحيح أخطاء الكود سطرًا بسطر.

في حالة ما إذا كانت الميزة غير قادرة على شرح مدى الصلة في النموذج ، يمكننا ببساطة تحديد تلك الميزات. يمكننا حتى استخدام بعض أساليب تحديد الميزات كنقطة انطلاق جيدة.

4. التوقف المبكر

عندما يتم تدريب النموذج ، يمكنك في الواقع قياس مدى جودة أداء النموذج بناءً على كل تكرار. يمكننا القيام بذلك حتى النقطة التي تعمل فيها التكرارات على تحسين أداء النموذج. بعد ذلك ، يُلائم النموذج بيانات التدريب حيث يضعف التعميم بعد كل تكرار.

لذلك ، يعني التوقف المبكر في الأساس إيقاف عملية التدريب قبل أن يمر النموذج بالنقطة التي يبدأ فيها النموذج في زيادة بيانات التدريب. تستخدم هذه التقنية في الغالب في تعلم عميق .

5. التنظيم

إنه يعني في الأساس ، إجبار نموذجك بشكل مصطنع على أن يكون أبسط باستخدام مجموعة واسعة من التقنيات. يعتمد الأمر تمامًا على نوع المتعلم الذي نستخدمه. على سبيل المثال ، يمكننا تقليم ملف ، استخدم التسرب على الشبكة العصبية أو أضف معلمة جزائية إلى دالة التكلفة في الانحدار.

في كثير من الأحيان ، يكون التنظيم هو أيضًا فرط معلمة. هذا يعني أنه يمكن أيضًا ضبطه من خلال التحقق المتقاطع.

6. التجميع

تجمع هذه التقنية بشكل أساسي بين التنبؤات من نماذج مختلفة للتعلم الآلي. يتم سرد طريقتين من أكثر الطرق شيوعًا للتجميع أدناه:

  • محاولات التعبئة لتقليل فرصة تعديل النماذج

  • تعزيز محاولات تحسين المرونة التنبؤية للنماذج الأبسط

على الرغم من أنهما طريقتان تجميعيتين ، إلا أن النهج يبدأ تمامًا من اتجاهات متعاكسة. يستخدم التكييس نماذج أساسية معقدة ويحاول التخفيف من تنبؤاتها مع تعزيز استخدامات النماذج الأساسية البسيطة ويحاول تعزيز تعقيدها الكلي.

ما هو خير الملاءمة؟

في النمذجة الإحصائية ، تشير جودة الملاءمة إلى مدى تطابق النتائج أو القيم المتوقعة مع القيم المرصودة أو الحقيقية.تم تجهيز النموذج الذي تعلم الضوضاء بدلاً من الإشارة لأنه سيتناسب مع مجموعة بيانات التدريب ولكنه سيكون أقل كفاءة مع مجموعة البيانات الجديدة.

المفاضلة بين التحيز والتباين

كل من التباين والتحيز هما شكلا من أشكال خطأ التنبؤ في . تعتبر المفاضلة بين التباين العالي والتحيز العالي مفهومًا مهمًا للغاية في الإحصاء وتعلم الآلة. هذا هو أحد المفاهيم التي تؤثر على جميع خوارزميات التعلم الآلي الخاضعة للإشراف.

إن مقايضة التباين التحيز لها تأثير كبير جدًا على تحديد مدى التعقيد ، وعدم الملائمة ، والتلائم مع أي نموذج من نماذج التعلم الآلي.

انحياز، نزعة

إنه ليس سوى الفرق بين القيم المتوقعة والقيم الفعلية أو الحقيقية في النموذج. ليس من السهل دائمًا على النموذج التعلم من الإشارات المعقدة نوعًا ما.

دعونا نتخيل تركيب أ الانحدارالخطي إلى نموذج ببيانات غير خطية. بغض النظر عن مدى كفاءة النموذج في تعلم الملاحظات ، فإنه لن يقوم بنمذجة المنحنيات بكفاءة. ومن المعروف باسم underfitting.

فرق

يشير إلى حساسية النموذج لمجموعات محددة في بيانات التدريب. ستنتج خوارزمية عالية التباين نموذجًا غريبًا يختلف اختلافًا جذريًا عن مجموعة التدريب.

تخيل خوارزمية تناسب النموذج غير المقيد والمرن للغاية ، وسوف تتعلم أيضًا من الضوضاء في مجموعة التدريب التي تسبب فرط التجهيز.

مقايضة التباين والتحيز

لا يمكن اعتبار خوارزمية التعلم الآلي كطريقة لمرة واحدة لتدريب النموذج ، بدلاً من ذلك ، فهي عملية متكررة.

تعد خوارزميات التحيز المنخفض-التباين العالي أقل تعقيدًا ، مع بنية بسيطة وصلبة.

  • سيقومون بتدريب النماذج المتسقة ، ولكنها غير دقيقة في المتوسط.

  • وتشمل هذه الخوارزميات الخطية أو البارامترية ، مثل الانحدار ، ، إلخ.

تميل خوارزميات التحيز ذات التباين العالي والمنخفض إلى أن تكون أكثر تعقيدًا وبنية مرنة.

  • سيقومون بتدريب النماذج غير المتسقة ولكنها دقيقة في المتوسط.

  • وتشمل هذه الخوارزميات غير الخطية أو غير المعلمية مثل و ، إلخ.

يقودنا هذا إلى نهاية هذه المقالة حيث تعلمنا Overfitting في التعلم الآلي وحول التقنيات المختلفة لتجنب ذلك. آمل أن تكون واضحًا بشأن كل ما تمت مشاركته معك في هذا البرنامج التعليمي.

إذا وجدت هذه المقالة حول 'Overfitting In Machine Learning' ذات صلة ، فراجع ملف شركة تعليمية موثوقة عبر الإنترنت مع شبكة تضم أكثر من 250000 متعلم راضٍ منتشرة في جميع أنحاء العالم.

نحن هنا لمساعدتك في كل خطوة في رحلتك والتوصل إلى منهج مصمم للطلاب والمهنيين الذين يريدون أن يكونوا . تم تصميم الدورة التدريبية لمنحك السبق في برمجة Python وتدريبك على مفاهيم Python الأساسية والمتقدمة جنبًا إلى جنب مع العديد مثل و ، إلخ.

إذا واجهتك أي أسئلة ، فلا تتردد في طرح جميع أسئلتك في قسم التعليقات في 'Overfitting In Machine Learning' وسيسعد فريقنا بالإجابة.