فهم الانحدار اللوجستي: دليل شامل للتصنيف الثنائي باستخدام الانحدار اللوجستي وتعلم الآلة

May 27, 2024


Logistic Regression

 ما هو الانحدار اللوجستي ؟


الانحدار اللوجستي هو طريقة إحصائية تُستخدم للتصنيف الثنائي. يتنبأ باحتمالية أن ينتمي نقطة إدخال معينة إلى فئة معينة. على عكس الانحدار الخطي الذي يتنبأ بالنتائج المستمرة، يتنبأ الانحدار اللوجستي بالنتائج المنفصلة، وعادة ما يتم ترميزها كـ 0 أو 1. تُستخدم هذه الطريقة على نطاق واسع في مجالات متعددة مثل الطب، التمويل، والعلوم الاجتماعية لمهام مثل تشخيص الأمراض، تقييم الائتمان، وتقييم المخاطر.


الدالة اللوجستية – دالة السيجمويد


الدالة اللوجستية، المعروفة أيضًا بدالة السيجمويد، هي جوهر الانحدار اللوجستي. تُعرّف على النحو التالي


σ(z)=1+ez1


هو مجموعة خطية من ميزات الإدخال. تقوم هذه الدالة بتحويل أي رقم حقيقي إلى الفترة (0, 1)، التي تُفسر كاحتمال z 


 أنواع الانحدار اللوجستي


يأتي الانحدار اللوجستي في ثلاثة أنواع رئيسية اعتمادًا على عدد الفئات


 الانحدار اللوجستي الثنائي: يتعامل مع فئتين (0 و 1).

الانحدار اللوجستي المتعدد: يتعامل مع أكثر من فئتين بدون ترتيب.

الانحدار اللوجستي الترتيبي: يتعامل مع أكثر من فئتين بترتيب طبيعي.



كيف يعمل الانحدار اللوجستي؟


يعمل نموذج الانحدار اللوجستي على تحويل مخرجات دالة الانحدار الخطي المستمرة إلى مخرجات فئوية باستخدام دالة سيجمويد، التي تقوم بتحويل أي مجموعة من المتغيرات المستقلة ذات القيم الحقيقية إلى قيمة بين 0 و1. تُعرف هذه الدالة بالدالة اللوجستية.


 الدالة اللوجستية (سيجمويد)

الدالة اللوجستية تُعرّف على النحو التالي


σ(z)=1+ez1





X  هو مجموعة خطية من ميزات الإدخال Z.


 مجموعة الإدخال

لنفترض أن ميزات الإدخال المستقلة هي:


X=x11x21xn1x1mx2mxnm


 يحتوي على قيم ثنائية فقط، أي 0 أو 1 Y

تطبيق الدالة الخطية المتعددة

X نقوم بتطبيق الدالة الخطية المتعددة على متغيرات الإدخال

z=β0+β1x1+β2x2++βmxm


حيث:

𝑧 هو النتيجة الخطية.

β0​ هو التقاطع (الانحياز).

𝛽1,𝛽2,…,𝛽𝑚1​,β2​,…,βmهي المعاملات التي تمثل الأوزان المرتبطة بميزات الإدخال 𝑥1,𝑥,…,xm​.


تحويل النتيجة باستخدام الدالة اللوجستية


𝑃
P باستخدام الدالة اللوجستية للحصول على احتمال Z نقوم بتحويل النتيجة الخطية
𝑧𝑃

𝑃(𝑦=1𝑥)=𝜎(𝑧)=11+𝑒𝑧

هذا الاحتمال يحدد ما إذا كانت النتيجة ستُصنف إلى الفئة 0 أو الفئة 1. عادةً، يتم استخدام عتبة (مثل 0.5) لتحديد التصنيف النهائي:

𝑦^={1إذا كان 𝑃(𝑦=1𝑥)0.50إذا كان 𝑃(𝑦=1𝑥)<0.5

تدريب النموذج

MLE لتدريب نموذج الانحدار اللوجستي، نستخدم طريقة تقدير الاحتمالية القصوى
𝛽

لتحديد القيم المثلى للمعاملات

تهدف هذه الطريقة إلى تعظيم احتمالية الملاحظات الفعلية بالنظر إلى المعاملات المقدرة

𝛽

مثال مبسط على الانحدار اللوجستي

لنأخذ مثالاً مبسطاً لتوضيح كيفية عمل الانحدار اللوجستي.

مجموعة البيانات

لنفترض أن لدينا مجموعة بيانات تحتوي على عدد ساعات الدراسة ونجاح أو فشل الطلاب:

| عدد ساعات الدراسة | النجاح (1) / الفشل (0) |

|------------------|-------------------------|

| 0                | 1                       |

| 0                | 2                       |

| 0                | 3                       |

| 1                | 4                       |

| 1                | 5                       |

| 1                | 6                       |


بناء النموذج

نقوم بتدريب نموذج الانحدار اللوجستي على هذه البيانات

Z تحديد النموذج: نحدد المعادلة الخطية للمجموعة

z=β0+β1×عدد ساعات الدراسة

MLEتقدير المعاملات: باستخدام

نفترض ان

و 𝛽1=1


𝑧التنبؤ بالاحتمال: لحساب احتمال النجاح لطالب يدرس لمدة 5 ساعات

P(النجاح)=1+e110.731

وبالتالي، يتنبأ النموذج بأن الطالب الذي يدرس لمدة 5 ساعات لديه احتمال 73.1% للنجاح في الامتحان.


متى نستخدم الانحدار اللوجستي؟

الانحدار اللوجستي هو أداة فعالة لتحليل البيانات والتنبؤات عندما تكون النتيجة المتوقعة فئوية (categorical) وثنائية (binary). هناك عدة حالات وسياقات يكون فيها استخدام الانحدار اللوجستي مناسبًا ومفيدًا:


التصنيف الثنائي

استخدام الانحدار اللوجستي يكون مثاليًا عندما تكون نتيجة التنبؤ تنتمي إلى فئتين فقط. مثال على ذلك

- التشخيص الطبي: هل المريض مصاب بمرض معين (نعم/لا)؟

- تحليل الائتمان: هل الشخص مؤهل للحصول على قرض (نعم/لا)؟

- التسويق: هل سيشتري العميل المنتج (نعم/لا)؟


(binary) الاحتمالات الثنائية

عندما تكون النتيجة تعتمد على تقدير احتمال وقوع حدث معين، يمكن استخدام الانحدار اللوجستي لحساب هذا الاحتمال وتحديد العتبة المناسبة لاتخاذ القرار

البريد الإلكتروني العشوائي: هل الرسالة الإلكترونية بريد عشوائي (نعم/لا)؟ -

خطر الوفاة: في الدراسات الطبية، حساب خطر الوفاة بناءً على عوامل مختلفة مثل العمر والتاريخ الطبي -


التنبؤ بالفئات (Categorical)غير الخطية

عندما تكون العلاقة بين المتغيرات المستقلة والمتغير التابع غير خطية، يمكن استخدام الانحدار اللوجستي لتحويل التنبؤات إلى احتمالات من خلال دالة السيجمويد، مما يسمح بتحليل أكثر دقة:

- التعليم: التنبؤ بفرصة نجاح الطالب بناءً على عدد ساعات الدراسة -


التعامل مع المتغيرات الفئوية

الانحدار اللوجستي يمكنه التعامل مع المتغيرات المستقلة الفئوية (categorical variables)

: بعد تحويلها إلى متغيرات وهمية (dummy variables)

- الجنس، الحالة الاجتماعية، والموقع الجغرافي: هذه العوامل يمكن أن تكون متغيرات مستقلة في نموذج الانحدار اللوجستي.


حالات عملية لاستخدام الانحدار اللوجستي

التشخيص الطبي -

تحديد ما إذا كان شخص معين مصابًا بمرض بناءً على مجموعة من الأعراض أو نتائج الفحوصات الطبية.

تحليل الائتمان -

تقييم ما إذا كان شخص معين مؤهلاً للحصول على قرض بناءً على بيانات مالية وسجل الائتمان.

التسويق -

التنبؤ بما إذا كان عميل معين سيشتري منتجًا بناءً على سلوكيات الشراء السابقة وبيانات ديموغرافية.

أمان الشبكات -

اكتشاف ما إذا كانت حركة المرور على الشبكة ضارة أو آمنة


متى لا نستخدم الانحدار اللوجستي؟

- **المتغيرات التابعة المستمرة: إذا كانت النتيجة المتوقعة قيمة مستمرة، في هذه الحالة يكون الانحدار الخطي هو الأداة الأنسب.

- عدد الفئات المتعددة: إذا كانت النتيجة المتوقعة تحتوي على أكثر من فئتين، يمكن استخدام انحدار لوجستي متعدد الفئات (Multinomial Logistic Regression) أو نماذج تصنيف أخرى


خلاصة

استخدام الانحدار اللوجستي يكون مناسبًا عندما يكون الهدف هو التنبؤ بنتيجة فئوية ثنائية بناءً على مجموعة من المتغيرات المستقلة. بفضل مرونته وسهولة تفسيره، يُعتبر الانحدار اللوجستي أداة قوية في مجالات متعددة مثل الطب، التمويل، التسويق، وأمان الشبكات.


comments 0

See all"ON"
Name is required.
Valid email is required.