التعلم الآلي “تقويم المجيء” اليوم الثاني عشر: الانحدار اللوجستي في برنامج Excel

نموذج اليوم هو الانحدار اللوجستي.
إذا كنت تعرف هذا النموذج بالفعل، فإليك سؤال لك:
هل الانحدار اللوجستي أ تراجع أو أ المصنف؟
حسنًا، هذا السؤال يشبه تمامًا: هل الطماطم أ الفاكهة أو أ نباتي؟
من وجهة نظر علماء النبات، الطماطم هي ثمرة، لأنها تنظر إلى البنية: البذور، والزهور، وبيولوجيا النبات.
من وجهة نظر الطهاة، تعتبر الطماطم من الخضروات، لأنهم ينظرون إلى المذاق وكيفية استخدامها في الوصفة، وما إذا كانت تدخل في السلطة أو الحلوى.
نفس الكائن، إجابتين صالحتين، لأن وجهة نظر مختلف.
الانحدار اللوجستي هو بالضبط مثل ذلك.
- في سإحصائية / GLM وجهة نظر، بل هو الانحدار. وليس هناك مفهوم “التصنيف” في هذا الإطار على أية حال. هناك انحدار جاما، والانحدار اللوجستي، وانحدار بواسون …
- في التعلم الآلي منظور، يتم استخدامه للتصنيف. لذلك فهو مصنف.
وسوف نعود إلى هذا لاحقا.
في الوقت الحالي، هناك شيء واحد مؤكد:
يتم تكييف الانحدار اللوجستي بشكل جيد للغاية عندما المتغير الهدف ثنائي، وعادة y تم ترميزه كـ 0 أو 1.
لكن…
ما هو المصنف للنموذج القائم على الوزن؟
لذلك، يمكن أن يكون 0 أو 1.
0 أو 1، إنها أرقام، أليس كذلك؟
لذلك يمكننا أن نعتبر y مستمرة!
نعم، y = ax + b، مع y = 0 أو 1.
ولم لا؟
والآن قد تسأل: لماذا هذا السؤال الآن؟ لماذا لم يتم سؤاله من قبل.
حسنًا، بالنسبة للنماذج المبنية على المسافة والشجرة، فإن الحرف y القاطع هو حقًا قاطع.
عندما تكون y قاطعة، مثل أحمر, أزرق, أخضر، أو ببساطة 0 و 1:
- في ك-ن، يمكنك تصنيف من خلال النظر في الجيران من كل فئة.
- في نماذج النقطه الوسطى، يمكنك مقارنة مع النقطه الوسطى من كل فئة.
- في أ شجرة القرار، تحسب نسب الطبقة في كل عقدة.
في كل هذه النماذج:
تسميات الفصل ليست أرقامًا.
وهي فئات.
الخوارزميات لا تعاملهم أبدًا كقيم.
لذا فإن التصنيف أمر طبيعي وفوري.
لكن بالنسبة للنماذج المعتمدة على الوزن، فإن الأمور تعمل بشكل مختلف.
في النموذج المعتمد على الوزن، نقوم دائمًا بحساب شيء مثل:
ص = الفأس + ب
أو، لاحقًا، دالة أكثر تعقيدًا ذات معاملات.
هذا يعنى:
يعمل النموذج مع الأرقام في كل مكان.
إذن هذه هي الفكرة الرئيسية:
إذا كان النموذج يتراجع، فيمكن استخدام هذا النموذج نفسه للتصنيف الثنائي.
نعم، يمكننا استخدام الانحدار الخطي للتصنيف الثنائي!
منذ التسميات الثنائية 0 و 1، فهي رقمية بالفعل.
وفي هذه الحالة الخاصة: نحن يمكن تطبيق المربعات الصغرى العادية (OLS) مباشرة على y = 0 و y = 1.
سوف يتناسب النموذج مع الخط، ويمكننا استخدام نفس صيغة الشكل المغلق، كما نرى أدناه.
يمكننا أن نفعل نفس الهبوط التدرج، وسوف يعمل بشكل مثالي:

وبعد ذلك، للحصول على التنبؤ النهائي للفصل، نختار ببساطة أ عتبة.
عادة ما تكون 0.5 (أو 50 بالمائة)، ولكن اعتمادًا على مدى الصرامة التي تريدها، يمكنك اختيار قيمة أخرى.
- إذا كان y≥0.5 متوقعًا، فتوقع الفئة 1
- خلاف ذلك، فئة 0
هذا مصنف.
ولأن النموذج ينتج مخرجات رقمية، يمكننا حتى تحديد النقطة حيث: y=0.5.
تحدد قيمة x هذه حدود القرار.
في المثال السابق، يحدث هذا عند x=9.
عند هذه العتبة، رأينا بالفعل تصنيف خاطئ واحد.
ولكن تظهر مشكلة بمجرد إدخال نقطة بـ a كبير قيمة x.
على سبيل المثال، لنفترض أننا أضفنا نقطة مع: x= 50 و y = 1.
لأن الانحدار الخطي يحاول أن يتناسب مع خط مستقيم من خلال جميع البيانات، هذه القيمة الكبيرة الوحيدة لـ x تسحب الخط إلى الأعلى.
تتحول حدود القرار من x= إلى تقريبًا س = 12.
والآن، مع هذه الحدود الجديدة، انتهى بنا الأمر اثنين من التصنيفات الخاطئة.

وهذا يوضح المشكلة الأساسية:
الانحدار الخطي المستخدم كمصنف حساس للغاية للقيم القصوى لـ x. وتتحرك حدود القرار بشكل كبير، ويصبح التصنيف غير مستقر.
وهذا هو أحد الأسباب التي تجعلنا بحاجة إلى نموذج لا يتصرف بشكل خطي إلى الأبد. نموذج يبقى بين 0 و1، حتى عندما تصبح x كبيرة جدًا.
وهذا هو بالضبط ما ستقدمه لنا الوظيفة اللوجستية.
كيف يعمل الانحدار اللوجستي
نبدأ بـ: ax + b، تمامًا مثل الانحدار الخطي.
ثم نطبق دالة واحدة تسمى السيني أو الدالة اللوجستية.
كما نرى في لقطة الشاشة أدناه، فإن قيمة p تقع بين 0 و1، لذلك هذا مثالي.
p(x)هو الاحتمالية المتوقعة الذي – التيy = 11 − p(x)هو الاحتمال المتوقع أنy = 0
وللتصنيف يمكننا أن نقول ببساطة:
- لو
p(x) ≥ 0.5، توقع الفصل1 - خلاف ذلك، توقع الطبقة
0

من الاحتمالية إلى فقدان السجل
الآن، يحاول الانحدار الخطي OLS تقليل MSE (متوسط الخطأ التربيعي).
يستخدم الانحدار اللوجستي لهدف ثنائي احتمال برنولي. لكل ملاحظة i:
- لو
yᵢ = 1، احتمال نقطة البيانات هوpᵢ - لو
yᵢ = 0، احتمال نقطة البيانات هو1 − pᵢ
بالنسبة لمجموعة البيانات بأكملها، فإن الاحتمالية هي المنتج على الكل i. في الممارسة العملية، نأخذ اللوغاريتم الذي يحول المنتج إلى مجموع.
في منظور GLM، نحاول تعظيم احتمال هذا السجل.
في منظور التعلم الآلي، نحدد خسارة كما سلبي تسجيل الاحتمالية ونحن تصغير هو – هي. وهذا يعطي المعتاد فقدان السجل.
وهو يعادل. لن نقوم بالتظاهرة هنا

النسب التدرج للانحدار اللوجستي
مبدأ
تمامًا كما فعلنا في الانحدار الخطي، يمكننا أيضًا استخدام نزول التدرج هنا. الفكرة هي نفسها دائمًا:
- ابدأ من بعض القيم الأولية لـ
aوb. - حساب الخسارة وفوائدها التدرج (المشتقات) فيما يتعلق
aوb. - يتحرك
aوbقليلا في الاتجاه الذي يقلل الخسارة. - يكرر.
لا شيء غامض.
فقط نفس العملية الميكانيكية كما كان من قبل.
الخطوة 1. حساب التدرج
بالنسبة للانحدار اللوجستي، فإن تدرجات متوسط فقدان السجل اتبع بنية بسيطة للغاية.
هذا هو ببساطة متوسط المتبقية.
سنقدم فقط النتيجة أدناه، للصيغة التي يمكننا تنفيذها في Excel. كما ترون، الأمر بسيط للغاية في النهاية، حتى لو كانت صيغة سجل الخسارة معقدة للوهلة الأولى.
يمكن لـ Excel حساب هاتين الكميتين بطريقة مباشرة SUMPRODUCT الصيغ.

الخطوة 2. تحديث المعلمة
بمجرد معرفة التدرجات، نقوم بتحديث المعلمات.
يتم تكرار خطوة التحديث هذه في كل تكرار.
والتكرار بعد التكرار، تنخفض الخسارة، وتتقارب المعلمات إلى القيم المثلى.

لدينا الآن الصورة كاملة.
لقد رأيت النموذج والخسارة والتدرجات وتحديثات المعلمات.
ومع العرض التفصيلي لكل تكرار في Excel، يمكنك فعل ذلك العب مع النموذج: قم بتغيير القيمة، وشاهد تحرك المنحنى، وشاهد انخفاض الخسارة خطوة بخطوة.
ومن المثير للدهشة أن نلاحظ كيف أن كل شيء يتناسب معًا بشكل واضح.

ماذا عن التصنيف متعدد الطبقات؟
بالنسبة للنماذج القائمة على المسافة والشجرة:
لا توجد مشكلة على الإطلاق.
إنهم يتعاملون بشكل طبيعي مع فئات متعددة لأنهم لا يفسرون التسميات أبدًا على أنها أرقام.
ولكن بالنسبة للنماذج القائمة على الوزن؟
هنا واجهنا مشكلة.
إذا كتبنا أرقامًا للفصل: 1، 2، 3، إلخ.
ثم سيقوم النموذج بتفسير هذه الأرقام كقيم رقمية حقيقية.
مما يؤدي إلى مشاكل:
- يعتقد النموذج أن الفئة 3 “أكبر” من الفئة 1
- نقطة الوسط بين الفئة 1 والفئة 3 هي الفئة 2
- تصبح المسافات بين الطبقات ذات معنى
لكن لا شيء من هذا صحيح في التصنيف.
لذا:
بالنسبة للنماذج المعتمدة على الوزن، لا يمكننا استخدام y = 1, 2, 3 فقط للتصنيف متعدد الفئات.
هذا الترميز غير صحيح.
سنرى لاحقا كيفية إصلاح هذا.
خاتمة
بدءًا من مجموعة بيانات ثنائية بسيطة، رأينا كيف يمكن للنموذج القائم على الوزن أن يعمل كمصنف، ولماذا يصل الانحدار الخطي بسرعة إلى حدوده، وكيف تحل الوظيفة اللوجستية هذه المشكلات عن طريق الحفاظ على التنبؤات بين 0 و1.
وبعد ذلك، ومن خلال التعبير عن النموذج من خلال الاحتمالية وخسارة السجل، حصلنا على صيغة سليمة رياضيًا وسهلة التنفيذ.
وبمجرد وضع كل شيء في Excel، تصبح عملية التعلم بأكملها مرئية: الاحتمالات، والخسارة، والتدرجات، والتحديثات، وأخيرًا تقارب المعلمات.
مع جدول التكرار التفصيلي، يمكنك فعلًا يرى كيف يتحسن النموذج خطوة بخطوة.
يمكنك تغيير قيمة، أو ضبط معدل التعلم، أو إضافة نقطة، وملاحظة كيفية تفاعل المنحنى والخسارة على الفور.
هذه هي القيمة الحقيقية للتعلم الآلي في جدول بيانات: لا يوجد شيء مخفي، وكل عملية حسابية شفافة.
من خلال بناء الانحدار اللوجستي بهذه الطريقة، فإنك لا تفهم النموذج فحسب، بل تفهمه أيضًا لماذا تم تدريبه.
وسيبقى هذا الحدس معك بينما ننتقل إلى نماذج أكثر تقدمًا لاحقًا في تقويم Advent.