الانحدار الخطي: المفهوم والتطبيقات وطرق التحليل

May 25, 2024

 

Linear Regression

الانحدار الخطي هو أحد الأساليب البسيطة والقوية في عالم التحليل الإحصائي، ويُستخدم بشكل واسع في التنبؤ بالعلاقة بين متغيرين أو أكثر. يهدف التحوّل الخطي إلى توقع قيمة متغير يُعرف بالمتغير الاستجابة (المتغير التابع) استنادًا إلى قيم متغيرات توضيحية أخرى يُعرف بالمتغيرات المستقلة.

لنفهم ذلك بشكل أفضل، دعونا نتخيل أن لدينا بيانات تتكون من عدد من المتغيرات، مثل درجة الحرارة والرطوبة، ونريد توقع مدى تأثير هذه المتغيرات على عدد الزوار في حديقة الحيوانات. هنا يُمكن استخدام التحوّل الخطي لبناء نموذج يوضح العلاقة بين هذه المتغيرات، مما يُمكننا من التنبؤ بعدد الزوار استنادًا إلى الظروف الجوية.

في جوهره، يتوقع التحوّل الخطي العلاقة بين المتغيرات بواسطة خط أو مستقيم يُعرف بالخط الخطي. يُمثل هذا الخط العلاقة بين المتغير التابع والمتغيرات المستقلة. وتكون هذه العلاقة عادةً على شكل معادلة خطية بسيطة بحيث يتمثل التحوّل الخطي في محاولة تعديل المستقبلات لتوافق البيانات المرصودة بشكل مثالي.

على سبيل المثال، إذا كنت تعمل على تحليل بيانات المبيعات، يمكنك استخدام التحوّل الخطي لفهم كيفية تأثير تغيير في ميزانية الإعلان على المبيعات. يمكنك تمثيل هذه العلاقة باستخدام خط مائل يمثل التغيرات المتوقعة في المبيعات مقابل تغيرات في ميزانية الإعلان.

باستخدام الرياضيات، يمكن تمثيل العلاقة الخطية بواسطة المعادلة التالية:

         𝑌=𝛽0+𝛽1𝑋+𝜀

    • 𝑌 هو المتغير التابع (الذي نريد التنبؤ به)
    • 𝑋 هو المتغير المستقل (الذي يؤثر على 𝑌 )
    • β0​ هو تميل الخط (قيمة 𝑌 عند X = 0)
    •  β1​ هو معامل الميل (كيف يتغير𝑌 بالنسبة لتغير في  X(.
    • 𝜀هو الخطأ أو الانحراف عن الخط الفعلي.

     باختصار، يُمثّل التحوّل الخطي مفهومًا هامًا في التحليل الإحصائي حيث يساعد في فهم وتوقع العلاقات بين المتغيرات.

    1. Compute the Intercept (𝛽0

    𝛽0=𝑌ˉ𝛽1𝑋ˉ

حيث:     

𝑌هو متوسط المتغير التابع 𝑌

𝛽 1هو ميل خط الانحدار.

𝑋ˉهو متوسط المتغير المستقل𝑋.

 

ˉ𝑌

  • Example of Linear Regression مثال للتنبؤ بسعر المنزل حسب مساحة المنزل


    Example Dataset

    House Size (sq ft)

    House Price ($)

    1500

    200,000

    1600

    210,000

    1700

    220,000

    1800

    230,000

    1900

    240,000


    Step-by-Step Solution

    1. Calculate the Mean of X and Y: 𝑋ˉ=1700sq ft,𝑌ˉ=220,000$

    2. Compute the Slope (𝛽1): 𝛽1=(𝑋𝑖1700)(𝑌𝑖220,000)(𝑋𝑖1700)2=10,000,00010,000=100

    3. Compute the Intercept (𝛽0): 𝛽0=220,0001001700=50,000

    4. Make Predictions: For a house size of 2000 sq ft: 𝑌^=50,000+1002000=250,000

    Thus, the predicted price for a 2000 sq ft house is $250,000.

    تطبيقات الانحدار الخطي (Linear Regression) متنوعة وتشمل مجموعة واسعة من المجالات. إليك بعض التطبيقات الشائعة لهذا النوع من النماذج:


    تحليل الأسهم والأسواق المالية: يُستخدم التحوّل الخطي في التحليل المالي لتوقع حركة الأسعار والتغيرات في القيم السوقية للأسهم والعملات والسلع الأخرى. يُمكن استخدام نماذج التحوّل الخطي لتحديد الاتجاهات والتوقعات المستقبلية بناءً على بيانات تاريخية.


    التسويق وتحليل المبيعات: يُمكن استخدام التحوّل الخطي لتحليل العلاقة بين ميزانية الإعلان والمبيعات أو بين عوامل التسويق الأخرى مثل العروض الترويجية والأحداث الاجتماعية والاقتصادية. يساعد هذا التحليل في توجيه استراتيجيات التسويق وتحسين الأداء التسويقي.


    تحليل البيانات الطبية: يُستخدم التحوّل الخطي في مجال الطب لتحليل البيانات الطبية وتوقع المخاطر الصحية وتقديم التوصيات الطبية. على سبيل المثال، يمكن استخدامه لتحديد العلاقة بين عوامل الخطر والأمراض المزمنة مثل أمراض القلب والسكري.


    التقدير العقاري: يُستخدم التحوّل الخطي في صناعة العقارات لتحديد قيمة العقارات بناءً على مجموعة من المتغيرات مثل المساحة والموقع والمرافق المحيطة. يُمكن استخدام نماذج التحوّل الخطي لتقدير السعر المتوقع للعقارات واتخاذ قرارات الاستثمار العقاري.


    تحليل السلوك والاتجاهات: يُمكن استخدام التحوّل الخطي لتحليل السلوك والاتجاهات في مجالات مثل التعليم والاجتماع والعلوم الاجتماعية. على سبيل المثال، يُمكن استخدامه لتحليل عوامل تأثير الأداء الأكاديمي للطلاب أو لتوقع الاتجاهات الاجتماعية في المجتمعات.


    باختصار، يُعتبر التحوّل الخطي أداة قوية ومفيدة في تحليل البيانات وتوقع العلاقات بين المتغيرات في مجموعة متنوعة من المجالات والصناعات.


    أنواع الانحدار الخطي

    يمكن تصنيف الانحدار الخطي إلى نوعين رئيسيين:

    الانحدار الخطي البسيط

    يشمل الانحدار الخطي البسيط متغيرًا مستقلاً واحدًا ومتغيرًا تابعًا واحدًا. يتم نمذجة العلاقة باستخدام خط مستقيم:

    β0​+β1​X+ϵ         =Y      


    الانحدار الخطي المتعدد

    يشمل الانحدار الخطي المتعدد متغيرين مستقلين أو أكثر. يتم نمذجة العلاقة باستخدام معادلة خطية:

     Y= β0​+β1​X1​+β2​X2​+…+βnXn​+ϵ

    حيث:

    • 𝑌 هو المتغير التابع.
    • 𝑋21,𝑋,…,Xnهي المتغيرات المستقلة.
    • 𝛽0​ هو نقطة التقاطع مع المحور Y.
    • 𝛽 21,𝛽,…,βnهي المعاملات.
    • 𝜖 هو مصطلح الخطأ 

    الهدف من الخوارزمية هو العثور على معادلة الخط الأفضل ملائمة التي يمكنها التنبؤ بالقيم بناءً على المتغيرات المستقلة. في الانحدار، توجد مجم السجلات تحتوي على قيم X و Y، وتُستخدم هذه القيم لتعلم دالة، بحيث إذا كنت ترغب في التنبؤ بـ Y من قيمة X غير معروفة، يمكن استخدام هذه الدالة المتعلمة. في الانحدار، علينا العثور على قيمة Y، لذا، نحتاج إلى دالة تتنبأ بالقيمة المستمرة لـ Y في حالة الانحدار عند إعطاء X كميزات مستقلة


    ما هو الخط الأفضل ملائمة  (Fit line)

    هدفنا الرئيسي عند استخدام الانحدار الخطي هو العثور على الخط الأفضل ملائمة، مما يعني أن الفرق بين القيم المتوقعة والقيم الفعلية يجب أن يكون في أدنى حد ممكن. في الخط الأفضل ملائمة، يكون الخطأ أقل ما يمكن.


    معادلة الخط الأفضل ملائمة توفر خطًا مستقيمًا يمثل العلاقة بين المتغير التابع والمتغيرات المستقلة. ميل الخط يشير      إلى مقدار التغير في المتغير التابع لكل وحدة تغيير في المتغير المستقل.

    Cost function:


    نستخدم دالة التكلفة لحساب أفضل القيم للحصول على الخط الأفضل ملائمة، حيث أن القيم المختلفة للأوزان أو  معاملات الخطوط تؤدي إلى خطوط انحدار مختلفة.

    Y` دالة التكلفة أو دالة الخسارة هي ببساطة الخطأ أو الفرق بين القيمة المتوقعة

    .( Y )والقيمة الحقيقية

    (MSE)في الانحدار الخطي، تُستخدم دالة التكلفة لمتوسط مربع الخطأ

    ، yوالقيم الفعلية y`i والتي تحسب متوسط مربعات الأخطاء بين القيم المتوقعة


       θ2 ومعامل الميزة المدخلة θ1 الغرض هو تحديد القيم المثلى لنقطة التقاطع

    لتوفير الخط الأفضل ملائمة لنقاط البيانات المعطاة. المعادلة الخطية التي تعبر عن هذه العلاقة هي


    y`i
    =
    θ1+θ2xi


    Cost function(J)=n1ni(yi^yi)2


    يتم تطبيق عملية التدرج التنازلي لتحديث قيم المعاملات θ1, θ2)  ) باستخدام دالة متوسط مربع الخطأ(MSE)هذا يضمن تقارب قيمة MSE إلى الحد الأدنى، مما يدل على الملاءمة الأكثر دقة لخط الانحدار الخطي على مجموعة البيانات.

    تشمل هذه العملية التعديل المستمر للمعاملات بناءً على التدرجات المحسوبة من دالة MSE. النتيجة النهائية هي خط الانحدار الخطي الذي يقلل الفروق المربعة الإجمالية بين القيم المتوقعة والفعلية، مما يوفر تمثيلًا مثاليًا للعلاقة الأساسية في البيانات.


        

    comments 0

    See all"ON"
    Name is required.
    Valid email is required.