دليل شامل لخوارزميات التصنيف: الانحدار اللوجستي, الأشجار القرارية, الغابات العشوائية, SVM, وKNN

Aug. 1, 2024

خوارزميات التصنيف ( Classification)

هل تساءلت يومًا كيف يتم تصنيف رسائل البريد الإلكتروني إلى بريد عشوائي وغير عشوائي؟ أو كيف يتم تشخيص الأمراض بناءً على الأعراض؟ الإجابة تكمن في خوارزميات التصنيف، وهي تقنيات قوية في مجال تعلم الآلة تستخدم لتصنيف البيانات إلى فئات مختلفة.

ما هو التصنيف Classification؟

التصنيف هو تقنية تعلم تحت إشراف حيث يكون الهدف هو التنبؤ بالتسميات الفئوية للحالات الجديدة بناءً على الملاحظات السابقة. يتم استخدامه على نطاق واسع في مجالات مختلفة مثل التمويل والرعاية الصحية والتسويق. على سبيل المثال، تصنيف رسائل البريد الإلكتروني كبريد عشوائي أو غير عشوائي، تشخيص الأمراض بناءً على الأعراض، أو التنبؤ بترك العملاء هي جميعها مشاكل تصنيفية.

الفرق بين التصنيف والانحدار(Classification and Regression)

بينما يتنبأ التصنيف بتسميات متقطعة، يتنبأ الانحدار بقيم مستمرة. على سبيل المثال، التنبؤ بما إذا كان الورم حميدًا أو خبيثًا هو مشكلة تصنيف، بينما التنبؤ بسعر المنزل بناءً على ميزاته هو مشكلة انحدار.

أنواع مشاكل التصنيف

1.     التصنيف الثنائي: Binary Classification يشمل نتيجتين محتملتين، مثل نعم/لا، صحيح/خطأ، أو بريد عشوائي/غير عشوائي.

2.     التصنيف متعدد الفئات: Multi-class Classification يشمل أكثر من فئتين، مثل تصنيف أنواع الفواكه (تفاح، موز، كرز).

مقاييس تقييم التصنيف

لتقييم نماذج التصنيف، يتم استخدام عدة مقاييس:

       ·    : Accuracy نسبة التنبؤات الصحيحة إلى إجمالي الحالات.

·    : Precision نسبة التنبؤات الصحيحة الإيجابية إلى إجمالي التنبؤات الإيجابية.

·    : Recall نسبة التنبؤات الصحيحة الإيجابية إلى إجمالي الحالات الإيجابية الفعلية.

·    F1-score: المتوسط التوافقي للدقة النوعية والاسترجاع.

         ·    : Confusion Matrix  جدول يستخدم لوصف أداء نموذج التصنيف عن طريق إظهار الإيجابيات       الصحيحة، السلبيات الصحيحة، الإيجابيات الخاطئة، والسلبيات الخاطئة.إعداد البيانات للتصنيف

قبل بناء نماذج التصنيف، يجب إعداد البيانات بشكل صحيح.

تنظيف البيانات، المعالجة المسبقة، هندسة الميزات

1.     تنظيف البيانات: Data Cleaning معالجة القيم المفقودة، إزالة التكرارات، وتصحيح الأخطاء.

2.     المعالجة المسبقة: Preprocessing تطبيع، تقنين، وترميز المتغيرات الفئوية لتحويلها إلى صيغة قابلة للقراءة بواسطة الآلة.

3.     هندسة الميزات: Feature Engineering إنشاء ميزات جديدة من البيانات الحالية لتحسين أداء النموذج. يمكن أن يشمل ذلك دمج الميزات الموجودة أو تحويلها إلى صيغ أكثر فائدة.


 

 

الانحدار اللوجستي Logistic Regression

فهم الانحدار اللوجستي

الانحدار اللوجستي هو نموذج خطي يستخدم لمهام التصنيف الثنائي. على عكس الانحدار الخطي، يستخدم دالة سيجمويد للتنبؤ بالاحتمالات التي يتم تحويلها إلى نتائج ثنائية.

·    دالة سيجمويدSigmoid Function تحويل التركيبة الخطية لميزات المدخلات إلى احتمال.

·    دالة التكلفة والتحسين: Cost Function and Optimization يستخدم الانحدار اللوجستي دالة خسارة السجل، وتقنيات التحسين مثل انحدار التدرج لإيجاد أفضل المعلمات.

تطبيقات الانحدار اللوجستي

·    اكتشاف البريد العشوائي

·    التنبؤ بترك العملاء

        ·  التشخيص الطبي

مثال: التنبؤ بترك العملاء باستخدام الانحدار اللوجستي

باستخدام بيانات العملاء مثل العمر، مدة الاشتراك، نوع العقد، والرسوم الشهرية، يمكن بناء نموذج انحدار لوجستي للتنبؤ باحتمالية ترك العملاء. ينتج النموذج احتمالات يتم استخدامها بعد ذلك لتصنيف ما إذا كان العميل سيترك أم لا.


الأشجار القرارية Decision Trees

مقدمة في الأشجار القرارية

الأشجار القرارية هي نماذج بديهية تتخذ قرارات عن طريق تقسيم البيانات إلى فروع بناءً على قيم الميزات.


·    كيف تتخذ الأشجار القرارية القرارات: عن طريق تقسيم مجموعة البيانات بشكل متكرر بناءً على الميزة التي توفر أكبر قدر من المعلومات.

·    Information Gain and Entropy:مقاييس لتحديد أفضل تقسيم.

·    Overfitting and Pruning: تقنيات مثل التقليم تستخدم لإزالة الفروع التي تضيف قيمة قليلة وبالتالي منع الإفراط في التكييف.

تطبيقات الأشجار القرارية

·    تقسيم العملاء

·    اكتشاف الاحتيال

        · تقييم المخاطر

مثال: بناء شجرة قرارية لتنبؤ الموافقة على القروض

باستخدام معلومات المتقدمين، يمكن بناء نموذج شجرة قرارية للتنبؤ بما إذا كان القرض يجب الموافقة عليه. يتخذ النموذج القرارات عند كل عقدة، مما يؤدي إلى رسم بياني سهل الفهم للقرارات.


الغابات العشوائية Random Forests

فهم الغابات العشوائية

الغابات العشوائية هي طريقة تعلم جماعي تبني عدة أشجار قرارية وتجمع نتائجها لتحسين الدقة والاستقرار.

والاستقرار.

·    التعلم الجماعي: Ensemble Learning دمج نماذج متعددة لتحسين الأداء.

·    اختيار الميزات العشوائية: Random Feature Selection كل شجرة تُبنى باستخدام مجموعة عشوائية من الميزات، مما يساعد في تقليل الإفراط في التكييف.

مزايا الغابات العشوائية

·    تحسين الدقة

·    تقليل الإفراط في التكييف (Reduced Overfitting)

تطبيقات الغابات العشوائية

·    أنظمة التوصية

·    التعرف على الصور

        ·  تصنيف النصوص

مثال: استخدام الغابات العشوائية للتنبؤ بترك العملاء

مماثل للانحدار اللوجستي، تُستخدم بيانات العملاء لتدريب نموذج الغابات العشوائية الذي يمكنه التنبؤ بترك العملاء. يوفر تجمع الأشجار توقعًا متينًا مقارنةً بشجرة قرارية واحدة.


آلات الدعم المتجهية (SVM)

مقدمة في SVM

آلات الدعم المتجهية هي نماذج تصنيف قوية تعمل على إيجاد المستوى الفائق الذي يفصل بين الفئات في مساحة الميزات.

مساحة الميزات.

·    Maximizing Margin  : تهدف SVM إلى تعظيم الهامش بين الفئات.

·     : Kernel Trickتسمح لـ SVM بمعالجة الفواصل غير الخطية عن طريق نقل ميزات المدخلات إلى فضاءات ذات أبعاد أعلى.

·    Support Vectors  : نقاط البيانات التي تقع أقرب إلى حد القرار.

تطبيقات SVM

·    تصنيف الصور

·    تصنيف النصوص

·    اكتشاف الشذوذ

مثال: تصنيف الأرقام المكتوبة يدويًا باستخدام SVM

باستخدام مجموعة بيانات من صور الأرقام المكتوبة يدويًا، يمكن لنموذج SVM تصنيف كل صورة إلى فئة الرقم الصحيحة. قدرة SVM على معالجة البيانات ذات الأبعاد العالية تجعلها مناسبة جيدًا لهذه المهمة.


الجار الأقرب (KNN)

فهم KNN

KNN هو خوارزمية تصنيف بسيطة وفعالة تصنف الحالات بناءً على فئة الأغلبية بين جيرانها الأقرب.

·    كيف يعمل KNN: يستخدم مقاييس المسافة للعثور على أقرب الجيران في مساحة الميزات.

·    اختيار قيمة K: تؤثر قيمة K على أداء النموذج وتحتاج إلى اختيارها بعناية.

·    مقاييس المسافة: المقاييس الشائعة تشمل مسافة إقليدية ومسافة مانهاتن.

 

تطبيقات KNN

·    أنظمة التوصية

·    تصنيف الصور

·    اكتشاف الشذوذ

مثال: استخدام KNN لتجزئة العملاء

تُستخدم بيانات العملاء لتجميع العملاء إلى شرائح. يصنف خوارزمية KNN العملاء الجدد بناءً على شرائح جيرانهم الأقرب.


تقييم النموذج والمقارنة

تقييم نماذج التصنيف

·    مصفوفة الارتباك: تقدم تحليلًا مفصلًا لأداء النموذج.

·    منحنى ROC و AUC: تمثيل بياني لأداء النموذج.

·    التحقق المتقاطع: يضمن أداء النموذج جيدًا على البيانات غير المرئية.

مقارنة الخوارزميات المختلفة

تشمل العوامل التي يجب مراعاتها عند مقارنة الخوارزميات الدقة، والتكلفة الحسابية، وقابلية التفسير. تُستخدم تقنيات مثل البحث الشبكي وضبط المعلمات المفرطة لتحسين معلمات النموذج.

 

comments 0

See all"ON"
Name is required.
Valid email is required.