Principal Component Analysis (PCA): دليل شامل لتقليل الأبعاد في البيانات

Aug. 10, 2024

 تحليل المكونات الرئيسية ( Principal Component Analysis )

تحليل المكونات الرئيسية ((PCA  هو أداة قوية في مجال علم البيانات وتعلم الآلة. من خلال تبسيط مجموعات البيانات الكبيرة إلى أبعاد أكثر قابلية للإدارة، يساعد PCA في اكتشاف الأنماط المخفية، الاتجاهات، والعلاقات في البيانات، مما يجعله تقنية أساسية لأي شخص يعمل مع مجموعات بيانات معقدة. في هذا الدليل، سنقوم بشرح PCA خطوة بخطوة باستخدام تفسيرات بسيطة وأمثلة من العالم الحقيقي لتوضيح كل مفهوم.

 

فهرس المحتويات

ما هو تحليل المكونات الرئيسية؟

لماذا يعتبر PCA مهمًا؟

فهم المكونات الرئيسية

الخطوة 1: التوحيد القياسي( Standardization)

الخطوة 2: حساب مصفوفة التباين (Covariance Matrix Computation)

الخطوة 3: المتجهات الذاتية والقيم الذاتية (Eigenvectors and Eigenvalues)

الخطوة 4: إنشاء المتجه المميز(Feature Vector)

الخطوة 5: إعادة تشكيل البيانات على طول المكونات الرئيسية

أمثلة من العالم الحقيقي عن PCA

الأسئلة الشائعة

 

ما هو تحليل المكونات الرئيسية؟

تحليل المكونات الرئيسية (PCA) هو تقنية تقليل الأبعاد التي تحول مجموعة كبيرة من المتغيرات إلى مجموعة أصغر مع الاحتفاظ بأهم المعلومات من المجموعة الأصلية. الهدف الرئيسي من PCA هو تقليل تعقيد البيانات دون فقدان جوهر ما تمثله البيانات.

 

على سبيل المثال، تخيل أن لديك مجموعة بيانات تحتوي على 10 ميزات. يمكن لـ PCA تقليل هذا العدد إلى، على سبيل المثال، 3 ميزات، لا تزال تحتفظ بمعظم التباين والأنماط الموجودة في مجموعة البيانات الأصلية. هذا التبسيط يجعل استكشاف البيانات وتحليلها وتصويرها أسهل، خاصة عند استخدام خوارزميات تعلم الآلة.

 

 

 

لماذا يعتبر PCA مهمًا؟

في عالم تعلم الآلة وعلوم البيانات، يمكن أن تكون كمية وتعقيد البيانات هائلة. مجموعات البيانات ذات الأبعاد العالية، حيث يكون عدد المتغيرات أو الميزات كبيرًا، قد تجعل من الصعب تحديد الأنماط الأكثر صلة. PCA يعالج هذه المشكلة عن طريق:

 

تقليل الإفراط في التخصيص (Reducing Overfitting): من خلال إزالة الميزات الأقل أهمية، يساعد PCA في تقليل خطر Overfitting في نماذج تعلم الآلة.

تحسين أداء النموذج: مع عدد أقل من الميزات، يمكن تدريب النماذج بسرعة أكبر، ويمكن تحسين أدائها من خلال التركيز على المتغيرات الأكثر أهمية.

تعزيز تصور البيانات: يتيح PCA تصور البيانات المعقدة ذات الأبعاد العالية في مساحة ثنائية أو ثلاثية الأبعاد، مما يجعلها أسهل في الفهم والتفسير.

فهم المكونات الرئيسية

المكونات الرئيسية هي متغيرات جديدة يتم إنشاؤها كتركيبات خطية للمتغيرات الأصلية في مجموعة البيانات. هذه المكونات غير مترابطة وتُرتب حسب مقدار التباين الذي تلتقطه من البيانات الأصلية. المكون الرئيسي الأول يلتقط أكبر قدر من التباين، يليه المكون الثاني، وهكذا.

 

مثال:

فكر في مجموعة بيانات تحتوي على ثلاثة متغيرات: الطول، الوزن، والعمر. هذه المتغيرات مترابطة، مما يعني أن التغييرات في أحدها قد تؤثر على الآخرين. سيقوم PCA بإنشاء متغيرات جديدة غير مترابطة (المكونات الرئيسية) تلتقط جوهر البيانات الأصلية. على سبيل المثال:

 

PC1 قد يلتقط الحجم الإجمالي للشخص، من خلال دمج الطول والوزن.

PC2 قد يلتقط التباين المرتبط بالعمر.

من خلال التركيز على هذه المكونات الرئيسية، يمكننا تقليل أبعاد مجموعة البيانات مع الاحتفاظ بمعظم المعلومات.

 

الخطوة 1: التوحيد القياسي (Standardization)

الخطوة الأولى في تنفيذ PCA هي Standardization. هذه الخطوة تضمن أن كل متغير يساهم بشكل متساوٍ في التحليل من خلال تحويلهم إلى نطاق مشترك. بدون التوحيد القياسي، قد تهيمن المتغيرات ذات النطاقات الأكبر على التحليل، مما يؤدي إلى نتائج متحيزة.

 

كيفية Standardization:

لتحويل متغير إلى معيار موحد، يجب طرح المتوسط وتقسيمه على الانحراف المعياري لكل قيمة.

 

مثال:

فكر في مجموعة بيانات تحتوي على متغيرين: الدخل (يتراوح من 30,000 إلى 100,000) والعمر (يتراوح من 20 إلى 70). قد يهيمن نطاق الدخل الكبير على PCA. من خلال توحيد كلا المتغيرين، نقوم بمقايستهم إلى نفس النطاق، مما يسمح بتحليل غير متحيز.

 

الصيغة الرياضية:

z = (X – μ) / σ

حيث:

 

Z هو القيمة الموحدة،

X هو القيمة الأصلية،

μ هو متوسط المتغير،

σ هو الانحراف المعياري للمتغير.

 

الخطوة 2: حساب مصفوفة التباين (Covariance Matrix Computation)

بعد توحيد البيانات، تكون الخطوة التالية هي حساب مصفوفة التباين ,أساسية في الإحصاء، حيث تمثل التباين والتغاير بين العناصر في مجموعة البيانات. إنها مصفوفة مربعة ومتناسقة حيث تظهر العناصر القطرية التباين، بينما تعكس العناصر خارج القطر التغاير بين أزواج المتغيرات.

النقاط الرئيسية:


التباين (Variance) يقيس مدى انتشار نقاط البيانات عن المتوسط.


التغاير (Covariance) يشير إلى كيفية تباين متغيرين معًا، ويمكن أن يكون التغاير موجبًا أو سالبًا أو صفرًا.


خصائص المصفوفة (Matrix Properties) تكون مصفوفة التغاير دائمًا مربعة، متناسقة، وشبه محددة إيجابيًا.

 

 

 

الخطوة 3: المتجهات الذاتية والقيم الذاتية

الخطوة التالية في PCA هي حساب المتجهات الذاتية و القيم الذاتية لمصفوفة التباين. هذه المفاهيم، المتجذرة في الجبر الخطي، ضرورية في تحديد المكونات الرئيسية.

 

المتجهات الذاتية تمثل الاتجاهات التي تتباين فيها البيانات بشكل أكبر.

القيم الذاتية تمثل حجم التباين في اتجاه كل متجه ذاتي.

مثال:

افترض أن لديك مجموعة بيانات ثنائية الأبعاد تحتوي على المتغيرين X و Y. المتجه الذاتي الذي له أكبر قيمة ذاتية يتوافق مع اتجاه أكبر تباين (المكون الرئيسي الأول)، بينما يكون المتجه الذاتي الثاني متعامدًا على الأول ويمثل ثاني أكبر تباين.

 

الخطوة 4: إنشاء المتجه المميز (Feature Vector)

بعد حساب المتجهات الذاتية والقيم الذاتية، تكون الخطوة التالية هي إنشاء المتجه المميز. المتجه المميز هو مصفوفة تتكون من المتجهات الذاتية المختارة، والتي تمثل المكونات الرئيسية التي سيتم الاحتفاظ بها.

 

مثال:

إذا كان لدينا ثلاثة متجهات ذاتية ولكن نقرر الاحتفاظ باثنين فقط بناءً على قيمهم الذاتية، فإن المتجه المميز سيكون مصفوفة تحتوي على عمودين، يمثل كل منهما أحد المتجهين الذاتيين المختارين.

 

مصفوفة المتجه المميز:

Feature Vector

Feature Vector=[v1,v2]

v2 , v1 هما المتجهات الذاتية المتوافقة مع أعلى القيم الذاتية.

الخطوة 5: إعادة تشكيل البيانات على طول المكونات الرئيسية

الخطوة الأخيرة في PCA هي إعادة تشكيل البيانات على طول المكونات الرئيسية. يتم تحقيق ذلك من خلال ضرب مصفوفة البيانات الأصلية في المتجه المميز. النتيجة هي تمثيل جديد للبيانات بناءً على المكونات الرئيسية المختارة.

 

مثال:

افترض أن لدينا مجموعة بيانات تحتوي على المتغيرات X1، X2، وX3 وتم تحديد المتجه المميز الذي يحتوي على متجهين ذاتيين فقط. من خلال ضرب مصفوفة البيانات في هذا المتجه المميز، نحصل على تمثيل البيانات في مساحة ثنائية الأبعاد، مما يسهل تصور الأنماط الأساسية.

 

الصيغة الرياضية:

 Y=X ×   Feature Vector

حيث:

Y هو التمثيل الجديد للبيانات،

X هو مصفوفة البيانات الأصلية،

Feature Vector هو المتجه المميز.


أمثلة من العالم الحقيقي عن  PCA

لتوضيح تطبيقات PCA في العالم الحقيقي، دعنا نستكشف بعض الأمثلة من مجالات مختلفة:

 

1. التمويل: تحليل المحافظ

في التمويل، تُستخدم PCA لتقليل أبعاد مجموعة كبيرة من الأصول المالية (مثل الأسهم) إلى عدد أقل من المكونات التي تلتقط اتجاهات السوق الأساسية. يمكن للمستثمرين استخدام هذه المكونات لتقييم المخاطر وتخصيص الأصول بشكل أكثر فعالية.

 

2. التسويق: تحليل سلوك العملاء

يمكن للشركات استخدام PCA لتحليل أنماط سلوك العملاء من خلال تقليل عدد المتغيرات (مثل الدخل، العمر، التفضيلات) إلى عدد أقل من المكونات التي تفسر بشكل أفضل سلوكيات الشراء.

 

3. التصوير الطبي: معالجة الصور

في التصوير الطبي، يمكن استخدام PCA لتقليل تعقيد الصور الطبية مع الاحتفاظ بالمعلومات الهامة. يساعد ذلك في تحسين جودة التصوير وتشخيص الأمراض بشكل أكثر دقة.

 

4. التصنيع: مراقبة الجودة

يمكن للشركات المصنعة استخدام PCA لمراقبة الجودة من خلال تحليل عدد كبير من العوامل التي تؤثر على الإنتاج. من خلال تقليل الأبعاد، يمكن تحديد المشكلات المحتملة بشكل أسرع واتخاذ الإجراءات التصحيحية.

 

الأسئلة الشائعة<a name="الأسئلة-الشائعة"></a>

س1: متى تستخدم PCA ومتى تستخدم t-SNE؟

·     PCA: يُفضل استخدامه عندما تحتاج إلى تقليل الأبعاد بطريقة قابلة للتفسير والتي تحافظ على التباين العام في البيانات. إنه مثالي للمهام التي تتطلب فهمًا للعوامل الأساسية التي تساهم في التباين.

·     t-SNE: يُفضل استخدامه عندما يكون هدفك هو تصور البيانات المعقدة وفهم كيفية توزيع النقاط في مساحات منخفضة الأبعاد. إنه مفيد بشكل خاص لرؤية التجمعات أو الهياكل المخفية في البيانات.


 في النهاية، يعتمد الاختيار بين PCA و t-SNE على طبيعة البيانات والغرض من تحليلها. كلا الطريقتين لهما ميزاتهما وتطبيقاتهما الخاصة.

 

س2: هل يمكن استخدام PCA مع بيانات غير خطية؟

PCA هو تقنية خطية. إذا كانت البيانات غير خطية، يمكن استخدام تقنيات مثل Kernel PCA التي توسع PCA إلى البيانات غير الخطية من خلال تحويلها إلى فضاء أعلى أبعادًا.

 

س3: هل يمكن استخدام PCA مع البيانات التصنيفية؟

PCA يستخدم أساسًا للبيانات المستمرة. ومع ذلك، يمكن تطبيق تقنيات مثل one-hot encoding على المتغيرات التصنيفية قبل إجراء PCA، مما يسمح بإدراج البيانات التصنيفية في التحليل.

 

س4: كم عدد المكونات الرئيسية التي يجب اختيارها؟

يعتمد عدد المكونات الرئيسية التي يجب الاحتفاظ بها على مستوى التباين المراد تفسيره. نهج شائع هو الاحتفاظ بالمكونات التي تفسر على الأقل 80-  90 % من التباين الكلي

comments 0

See all"ON"
Name is required.
Valid email is required.