الشبكات العصبية الكبسولية - مجموعة من الطبقات العصبية المتداخلة



شبكات الكبسولة - تتحدث هذه المدونة عن قيود الشبكات العصبية التلافيفية ، وكيف تحل الشبكات العصبية الكبسولة هذه القيود.

شبكات كبسولة:

ما هي شبكات الكبسولة؟ إنها في الأساس شبكة من الطبقات العصبية المتداخلة.

أوصي أيضًا بالاطلاع على المدونات أدناه:





أفترض أنكم تعرفون الشبكات العصبية التلافيفية (سي إن إن). هنا ، سأقدم لك مقدمة صغيرة عن نفسه ، حتى أتمكن من مناقشة قيود شبكات CNN.

يمكنك أيضًا الرجوع إلى الفيديو أدناه على الشبكة العصبية التلافيفية.



الشبكات العصبية التلافيفية (CNN)

الشبكات العصبية التلافيفية ، هي أساسًا كومة من طبقات مختلفة من الخلايا العصبية الاصطناعية ، والتي تُستخدم لرؤية الكمبيوتر. أدناه ، لقد ذكرت تلك الطبقات:

الشبكة العصبية التلافيفية - الشبكة العصبية كبسولة - Edureka

الطبقة التلافيفية: عندما نستخدم Feedforward الشبكات العصبية (Multi Layer Perceptron) لتصنيف الصور ، فهناك العديد من التحديات معها. التحدي الأكثر إحباطًا هو أنه يقدم الكثير من المعلمات ، ضع في اعتبارك فيديو تعليمي على CNN.



للتغلب على هذا التحدي طبقة الالتواء كانت مقدمة. من المفترض أن البيكسلات الأقرب من الناحية المكانية سوف 'تتعاون' في تكوين ميزة معينة مثيرة للاهتمام أكثر بكثير من تلك الموجودة في الزوايا المقابلة للصورة. أيضًا ، إذا تم العثور على عنصر معين (أصغر) ليكون ذا أهمية كبيرة عند تحديد تسمية الصورة ، فسيكون ذلك بنفس الأهمية ، إذا تم العثور على هذه الميزة في أي مكان داخل الصورة ، بغض النظر عن الموقع.

طبقة ReLU: تعمل وظيفة تحويل الوحدة الخطية المصححة (ReLU) فقط على تنشيط العقدة إذا كان الإدخال أعلى من كمية معينة ، بينما يكون الإدخال أقل من الصفر ، يكون الناتج صفرًا ، ولكن عندما يرتفع المدخلات فوق عتبة معينة ، يكون لها علاقة خطية مع المتغير التابع.

  • في هذه الطبقة نقوم بإزالة كل القيم السلبية من الصور التي تمت تصفيتها واستبدالها بصفر
  • يتم ذلك لتجنب القيم من جمع حتى الصفر

طبقة التجميع: يستخدم هذا لأداء الاختزال ، الذي يستهلك أجزاء صغيرة ومنفصلة (عادة) من الصورة ويجمعها في قيمة واحدة. هناك العديد من المخططات الممكنة للتجميع - الأكثر شهرة ماكس تجمع ، حيث يتم أخذ الحد الأقصى لقيمة البكسل داخل كل قطعة. يجعل الشبكة ثابتة للتحولات والتشوهات والترجمات الصغيرة في صورة الإدخال (لن يغير تشويه بسيط في الإدخال ناتج التجميع - لأننا نأخذ القيمة القصوى / المتوسطة في الحي المحلي).

طبقة متصلة بالكامل: ستحسب هذه الطبقة درجات الفصل ، حيث يتوافق كل رقم مع درجة الفصل. كما هو الحال مع الشبكات العصبية العادية وكما يوحي الاسم ، سيتم توصيل كل خلية عصبية في هذه الطبقة بجميع الخلايا العصبية في المجلد السابق. باختصار ، إنه يؤدي التصنيف النهائي.

بهذه الطريقة ، تقوم ConvNets بتحويل طبقة الصورة الأصلية بطبقة من قيم البكسل الأصلية إلى درجات الفئة النهائية.

كانت هذه مقدمة قصيرة جدًا للشبكات العصبية التلافيفية ، وما زلت أوصيك بإلقاء نظرة على فيديو CNN الذي قمت بتضمينه في هذا المنشور.

في مدونة Capsule Networks هذه ، سأناقش الآن بعض القيود المفروضة على الشبكات العصبية التلافيفية

حدود الشبكات العصبية التلافيفية:

حسنًا ، اسمحوا لي أن أشرح هذا بالقياس.

لنفترض أن هناك إنسانًا تستطيع عيناه اكتشاف ملامح الصور المختلفة. دعونا ننظر إلى وجه الإنسان كمثال. لذلك ، يمكن لهذا الرجل المؤسف تحديد ميزات مختلفة مثل العينين والأنف وما إلى ذلك ، لكنه غير قادر على تحديد العلاقات المكانية بين السمات (المنظور والحجم والتوجه). على سبيل المثال ، قد تخدع الصورة التالية ذلك الرجل في تصنيفها على أنها رسم جيد لوجه بشري.

هذه هي مشكلة الشبكات العصبية التلافيفية أيضًا. CNN جيدة في اكتشاف الميزات ، لكنها ستنشط بشكل خاطئ الخلايا العصبية لاكتشاف الوجه. هذا لأنه أقل فعالية في استكشاف العلاقات المكانية بين الميزات.

يمكن لنموذج بسيط لشبكة CNN استخراج ميزات الأنف والعينين والفم بشكل صحيح ، ولكنه سينشط بشكل خاطئ الخلايا العصبية لاكتشاف الوجه. بدون إدراك التطابق الخاطئ في الاتجاه والحجم المكاني ، سيكون تنشيط اكتشاف الوجه مرتفعًا جدًا.

حسنًا ، هذا القيد بسبب طبقة Max Pooling.

يتعامل الحد الأقصى للتجميع في CNN مع التباين الترجمي. حتى الميزة تم نقلها قليلاً ، إذا كانت لا تزال داخل نافذة التجميع ، فلا يزال من الممكن اكتشافها. ومع ذلك ، فإن هذا النهج يحافظ فقط على الميزة القصوى (الأكثر سيطرة) ويرمي الآخرين بعيدًا.

لذلك ، سيتم تصنيف صورة الوجه الموضحة أعلاه كوجه عادي. تضيف طبقة التجميع أيضًا هذا النوع من الثبات.

لم يكن هذا هو القصد من طبقة التجميع. ما كان من المفترض أن يفعله التجميع هو إدخال الثوابت الموضعية والتوجيهية والمتناسبة.

في الواقع ، تضيف طبقة التجميع هذه جميع أنواع الثبات الموضعي. كما ترى في الرسم البياني أعلاه أيضًا ، فإنه يؤدي إلى معضلة اكتشاف الوجه بشكل صحيح.

دعونا نرى ما هو الحل الذي اقترحه جيفري هينتون .

ما هو متغير المثيل في جافا

كيفية حل هذه المشكلة؟

الآن ، نتخيل أن كل خلية عصبية تحتوي على احتمالية وخصائص الميزات. على سبيل المثال ، ينتج متجهًا يحتوي على [احتمالية ، اتجاه ، حجم]. باستخدام هذه المعلومات المكانية ، يمكننا اكتشاف التناسق في الاتجاه والحجم بين ميزات الأنف والعينين والأذن وبالتالي إخراج تنشيط أقل بكثير لاكتشاف الوجه.

في الورقة الصادرة عن جيفري هينتون ، هذه الأنواع من الخلايا العصبية تسمى كبسولات. تنتج هذه الكبسولات متجهًا بدلاً من قيمة مفردة.

اسمحوا لي أن أضع بعض الأضواء على ما هي شبكات كبسولة.

ما هي شبكات الكبسولة؟

الكبسولة هي في الأساس مجموعة من الطبقات العصبية المتداخلة. تلتقط حالة الخلايا العصبية داخل الكبسولة الخصائص المختلفة مثل - الوضع (الموضع والحجم والاتجاه) والتشوه والسرعة والملمس وما إلى ذلك لكيان واحد داخل صورة.

بدلاً من التقاط ميزة بمتغير معين ، يتم تدريب الكبسولة على التقاط تشابه الميزة ومتغيرها. لذا ، فإن الغرض من الكبسولة ليس فقط اكتشاف الميزة ولكن أيضًا لتدريب النموذج على تعلم المتغير.

بحيث تستطيع نفس الكبسولة اكتشاف نفس فئة الكائن باتجاهات مختلفة (على سبيل المثال ، تدوير في اتجاه عقارب الساعة):

يمكننا القول أنه يعمل على مبدأ المراوغة وليس الثبات.

الثبات: هو اكتشاف الميزات بغض النظر عن المتغيرات. على سبيل المثال ، تكتشف خلية عصبية لاكتشاف الأنف الأنف بغض النظر عن الاتجاه.

المعادلة: هو اكتشاف الكائنات التي يمكن أن تتحول إلى بعضها البعض (على سبيل المثال ، اكتشاف الوجوه ذات الاتجاهات المختلفة). بشكل حدسي ، تكتشف شبكة الكبسولة أن الوجه مستدير لليمين 31 درجة (تغاير) بدلاً من أن تدرك أن الوجه مطابق لمتغير يتم تدويره بمقدار 31 درجة. من خلال إجبار النموذج على تعلم متغير الميزة في الكبسولة ، قد نقوم باستقراء المتغيرات المحتملة بشكل أكثر فعالية مع بيانات تدريب أقل. بالإضافة إلى ذلك ، قد نرفض الخصوم بشكل أكثر فعالية.

تخرج الكبسولة متجهًا لتمثيل وجود الكيان. يمثل اتجاه المتجه خصائص الكيان.

يتم إرسال المتجه إلى جميع الآباء المحتملين في الشبكة العصبية. لكل والد محتمل ، يمكن للكبسولة أن تجد متجهًا للتنبؤ. يتم حساب متجه التنبؤ بناءً على ضرب الوزن ومصفوفة الوزن. أيًا كان الأصل لديه أكبر منتج متجه للتنبؤ العددي ، فإنه يزيد من رابطة الكبسولة. ينقص باقي الآباء رباطهم. وهذا ما يسمى ب التوجيه بالاتفاقية .

هذا بالتأكيد نهج أفضل من التجميع الأقصى ، حيث يعتمد التوجيه على أقوى ميزة تم اكتشافها في الطبقة السفلية.

بعد ذلك ، يتم إضافة وظيفة سحق. يتم ذلك لإدخال اللاخطية. يتم تطبيق وظيفة الكسك هذه على خرج المتجه لكل كبسولة.

دعني أخبرك الآن ، كيف تعمل شبكات الكبسولة.

كيف تعمل شبكات الكبسولة؟

دعونا نعود خطوة إلى الوراء. في شبكة متصلة بالكامل ، يكون ناتج كل خلية عصبية هو المجموع المرجح للمدخلات.

الآن ، دعونا نرى ما يحدث في شبكات الكبسولة.

الشبكة العصبية كبسولة:

دعونا نفكر في شبكة كبسولة عصبية حيث 'uأنا'هو متجه النشاط للكبسولة'أنا'في الطبقة أدناه.

الخطوة - 1: تطبيق مصفوفة التحويلفياي جايلإخراج الكبسولة شأنا من الطبقة السابقة. على سبيل المثال ، باستخدام مصفوفة m × k ، نقوم بتحويل k-Dشأنا إلى m-Dش ^ي | ط. ((م × ك) × (ك × 1) = م × 1).

إنه التنبؤ ( تصويت ) من الكبسولة 'i' على خرج الكبسولة 'j' أعلاه. 'الخامسي'هو متجه النشاط للكبسولة'يفي الطبقة أعلاه

الخطوة - 2: احسب المجموع المرجحيمع الأوزانجاي جاي.جاي جايهي معاملات الاقتران. مجموع هذه المعاملات يساوي واحدًا. إنها المعلمة الفعلية التي تعمل على علاقة مجموعة الكبسولات التي تحدثنا عنها سابقًا.

الخطوة - 3: في الشبكات العصبية التلافيفية ، استخدمنا وظيفة ReLU. هنا ، سنطبق دالة سحق لقياس المتجه بين 0 وطول الوحدة. ينكمش المتجهات الصغيرة إلى صفر ونواقل طويلة إلى متجهات الوحدة. لذلك فإن احتمالية كل كبسولة محدودة بين صفر وواحد.

إنه التنبؤ ( تصويت ) من الكبسولة 'i' على خرج الكبسولة 'j' أعلاه. إذا كان متجه النشاط له تشابه وثيق مع متجه التنبؤ ، فإننا نستنتج أن الكبسولة 'أنا'يرتبط ارتباطًا وثيقًا بالكبسولة 'ي. (على سبيل المثال ، ترتبط كبسولة الأنف ارتباطًا وثيقًا بكبسولة الوجه.) يتم قياس هذا التشابه باستخدام المنتج القياسي لمتجه التنبؤ والنشاط. لذلك ، يأخذ التشابه في الاعتبار كل من التشابه وخصائص الميزة. (بدلاً من مجرد التشابه في الخلايا العصبية).

الخطوة - 4: حساب درجة الصلة 'باي جاي'. سيكون المنتج النقطي لمتجه النشاط ومتجه التنبؤ. معاملات الاقترانجأناييتم حسابه على أنه softmax لـبأناي:

معامل الاقتران جاي جاييحسب على أنه softmax باي جاي.

هذا حرف بياي جاييتم تحديثه بشكل متكرر في تكرارات متعددة.

وهذا ما يسمى ب التوجيه بالاتفاقية .

الرسم البياني أدناه هو أحد الأمثلة:

بعد هذه المدونة على Capsule Networks ، سأخرج بمدونة عن تطبيق Capsule Neural Network باستخدام TensorFlow.

أتمنى أن تكون قد استمتعت بقراءة هذه المدونة على شبكات الكبسولة ، تحقق من من Edureka ، شركة تعليمية موثوقة عبر الإنترنت مع شبكة تضم أكثر من 250.000 متعلم راضٍ منتشرين في جميع أنحاء العالم تساعد دورة Edureka Deep Learning with TensorFlow Certification Training المتعلمين على أن يصبحوا خبراء في التدريب وتحسين الشبكات العصبية الأساسية والتلافيفية باستخدام مشاريع ومهام في الوقت الفعلي جنبًا إلى جنب مع مفاهيم مثل وظيفة SoftMax والشبكات العصبية للتشفير التلقائي وآلة بولتزمان المقيدة (RBM).

لديك سؤال لنا؟ يرجى ذكر ذلك في قسم التعليقات وسنعاود الاتصال بك.