يغوص هذا القسم
في عالم المعالجة المسبقة للبيانات، وهي خطوة أساسية قبل إطلاق العنان لقوة تقنيات
استخراج البيانات.
جودة البيانات: السبب وراء المعالجة المسبقة
تخيل أن لديك صندوقًا مليئًا بالأدوات - مفاتيح ربط ، مفكات ،
مطارق ، إلخ. لا قيمة لهذه الأدوات إلا إذا كانت في حالة جيدة. وبالمثل ، لا تكون
البيانات مفيدة للتحليل إلا إذا كانت تلبي معايير جودة معينة. تشمل جودة البيانات
عدة جوانب رئيسية:
·
الدقة: هل القيم في بياناتك
صحيحة؟
·
الاكتمال: هل جميع المعلومات
الضرورية موجودة؟
·
الاتساق: هل هناك أي ت inconsistencies في كيفية تمثيل
البيانات (على سبيل المثال ، تنسيقات التاريخ)؟
·
الوقت المناسب: هل البيانات
محدثة وتعكس الحالة الحالية؟
·
القابلية للتصديق: هل يثق
المستخدمون في دقة البيانات؟
·
قابلية التفسير: هل يمكن
للمستخدمين فهم معنى البيانات بسهولة؟
غالبًا ما يقدم العالم الحقيقي بيانات غير
مكتملة (قيم مفقودة) أو غير
دقيقة (أخطاء ، قيم غير متوقعة) أو غير
متسقة (تناقضات). هذا هو المكان الذي تأتي فيه المعالجة المسبقة
للبيانات - فهي تساعد في تنظيف البيانات وتحويلها لضمان جودتها من أجل تحليل فعال.
مهام المعالجة المسبقة للبيانات
تعالج المعالجة المسبقة للبيانات مهامًا مختلفة لتحسين جودة
البيانات:
1.
معالجة القيم المفقودة: يمكن أن تكون
نقاط البيانات المفقودة مصدر إزعاج. تتعامل تقنيات المعالجة المسبقة معها من خلال
الإسناد (ملء القيم المفقودة) أو الحذف (إزالة المدخلات التي تحتوي على قيم مفقودة
كثيرة).
2.
التعامل مع البيانات غير الدقيقة: تتسلل الأخطاء
والتناقضات إلى البيانات لأسباب مختلفة. تتعرف طرق المعالجة المسبقة على هذه
الأخطاء وتصححها ، مما يضمن دقة البيانات.
3.
ضمان الاتساق: تضمن المعالجة المسبقة
تمثيل البيانات بشكل ثابت. قد يتضمن ذلك توحيد تنسيقات التاريخ أو وحدات القياس أو
مخططات الترميز.
4.
معالجة مشكلات الوقت المناسب: يمكن أن تؤدي
البيانات القديمة إلى نتائج مضللة. تركز تقنيات المعالجة المسبقة على ضمان أن تعكس
البيانات الحالة الحالية.
5.
تحسين القابلية للتصديق وقابلية التفسير: يمكن أن تساعد
المعالجة المسبقة في بناء الثقة في البيانات من خلال معالجة الأخطاء السابقة
وتوضيح معنى البيانات من خلال وضع العلامات والتوثيق المناسبين.
من خلال معالجة
هذه المهام ، تمهد المعالجة المسبقة للبيانات الطريق لنتائج موثوقة وذات مغزى من
مساعيك في استخراج البيانات.
المهام الرئيسية في معالجة
البيانات المسبقة
يتناول هذا القسم الخطوات الرئيسية المشاركة في معالجة البيانات المسبقة، وهي: تنظيف البيانات ودمج البيانات وتقليل البيانات وتحويل البيانات.
تنظيف البيانات Data Cleaning):)
تضمن عمليات تنظيف البيانات
"تنقية" البيانات من خلال معالجة القيم المفقودة وتصحيح البيانات المشوشة
والكشف عن القيم المتطرفة أو إزالتها وتصحيح التناقضات. إذا اعتقد المستخدمون أن البيانات
غير نظيفة، فمن غير المرجح أن يثقوا بنتائج أي استخراج بيانات يُطبق عليها. علاوة على
ذلك، يمكن أن تؤدي البيانات غير النظيفة إلى إرباك عملية الاستخراج، مما يؤدي إلى نتائج
غير موثوقة. على الرغم من أن معظم خوارزميات الاستخراج لديها بعض الطرق للتعامل مع
البيانات غير المكتملة أو المشوشة، إلا أنها ليست دقيقة دائمًا. وبدلاً من ذلك، قد
تركز على تجنب الإفرط في ملائمة البيانات للنموذج الذي يتم إنشاؤه. لذلك، تعد الخطوة
المهمة في المعالجة المسبقة هي تشغيل بياناتك من خلال بعض إجراءات تنظيف البيانات.
2. دمج البيانات (Data Integration):)
بافتراض أنك تريد تضمين بيانات
من مصادر متعددة في تحليلك. يتطلب ذلك دمج قواعد بيانات متعددة أو مستودعات بيانات
أو ملفات، أي دمج البيانات. ومع ذلك، قد يكون للصفات التي تمثل مفهومًا معينًا أسماء
مختلفة في قواعد بيانات مختلفة، مما يتسبب في ت inconsistencies والتكرار.
قد يؤدي وجود كمية كبيرة من البيانات المكررة إلى إبطاء عملية اكتشاف المعرفة أو إرباكها.
من الواضح، بالإضافة إلى تنظيف البيانات، يجب اتخاذ خطوات للمساعدة على تجنب التكرار
أثناء دمج البيانات. عادةً، يتم تنفيذ تنظيف البيانات ودمج البيانات كخطوة معالجة مسبقة
عند تحضير البيانات لمستودع البيانات. ويمكن إجراء تنظيف إضافي للبيانات للكشف عن التكرارات
وإزالتها والتي قد تكون ناتجة عن دمج البيانات.
3. تقليص البيانات:
لمواجهة مجموعات البيانات الكبيرة
التي قد تبطئ من عملية التنقيب، يتم استخدام تقنيات تقليص البيانات. تهدف استراتيجيات
تقليص البيانات إلى الحصول على تمثيل أصغر لمجموعة البيانات مع الحفاظ على النتائج
التحليلية. تتضمن تقنيات تقليص البيانات تقليل الأبعاد وتقليل العدد، في تقليل العدد،
يتم استبدال البيانات بتمثيلات بديلة أصغر باستخدام النماذج الإحصائية (مثل الانحدار
أو النماذج الخطية اللوغاريتمية) أو النماذج غير الإحصائية (مثل الهستوغرامات والعناقيد
والعينات وتجميع البيانات)
4. تحويل البيانات:
تقليل البيانات إلى نطاق أصغر،
مثل [0.0، 1.0]. بيانات العميل، على سبيل المثال، تحتوي على سمات العمر والراتب السنوي.
يُستخدم هذا النوع من الخوارزميات مثل الشبكات العصبية ومصنفات أقرب الجيران أو التجميع.
يُعتبر تحويل البيانات من أهم الخطوات التحضيرية لعملية التنقيب.
باختصار، تعد معالجة البيانات أمرًا أساسيًا لتحسين جودة البيانات، وبالتالي تعزيز دقة وكفاءة عملية التنقيب. من خلال اكتشاف الشوائب في البيانات، وتصحيحها، وتقليل حجم البيانات المطلوبة للتحليل، تساهم عمليات معالجة البيانات بشكل كبير في اتخاذ القرارات المستنيرة بناءً على بيانات عالية الجودة.
تنظيف البيانات
تميل البيانات الواقعية إلى أن
تكون غير مكتملة وضجيجية وغير متسقة. تهدف عمليات تنظيف البيانات (أو تطهير البيانات)
إلى ملء القيم المفقودة وتخفيف الضجيج مع تحديد القيم الشاذة وتصحيح التناقضات في البيانات.
في هذا القسم، ستدرس الطرق الأساسية لتنظيف البيانات.
القيم المفقودة
تخيل أنك بحاجة إلى تحليل بيانات
مبيعات وعملاء AllElectronics. تلاحظ أن العديد من السجلات ليس لها قيم مسجلة لعدة سمات، مثل دخل العميل.
كيف يمكنك ملء القيم المفقودة لهذه السمة؟ دعونا نلقي نظرة على الأساليب التالية:
1. تجاهل السجل: يتم ذلك
عادة عندما تكون تصنيف الفئة مفقودًا (على افتراض أن مهمة التعدين تتضمن التصنيف).
هذا الأسلوب غير فعال جدًا، ما لم يحتوي السجل على عدة سمات بقيم مفقودة. وهو سيء بشكل
خاص عندما تتفاوت نسبة القيم المفقودة لكل سمة بشكل كبير.
2. ملء القيمة المفقودة يدويًا:
عمومًا، يتطلب هذا النهج وقتًا طويلاً وقد لا يكون عمليًا في حالة مجموعة بيانات كبيرة
مع العديد من القيم المفقودة.
3. استخدام ثابت عام لملء القيمة
المفقودة: استبدال جميع قيم السمات المفقودة بنفس الثابت، مثل تسمية مثل
"مجهول" أو -∞. على سبيل المثال، إذا تم استبدال القيم المفقودة بـ
"مجهول"، فقد يعتقد البرنامج المنقب عن البيانات أنها تشكل مفهومًا مثيرًا
للاهتمام، حيث أن لديها جميع قيمة مشتركة وهي "مجهول". وبالتالي، على الرغم
من أن هذا الأسلوب بسيط، إلا أنه ليس خاليًا من العيوب.
4. استخدام مقياس الاتساق للسمة
(مثل الوسيط أو الوسيط) لملء القيمة المفقودة التي تشير إلى القيمة "الوسطى"
لتوزيع البيانات. بالنسبة لتوزيعات البيانات العادية (تناظرية)، يمكن استخدام الوسيط،
بينما ينبغي على توزيعات البيانات المائلة استخدام الوسيط. على سبيل المثال، لنفترض
أن توزيع البيانات المتعلقة بدخل عملاء AllElectronics هو تناظري وأن الدخل المتوسط هو 56،000 دولار.
استخدم هذه القيمة لاستبدال القيمة المفقودة للدخل.
5. استخدام متوسط السمة أو
الوسيط لجميع العينات التي تنتمي إلى نفس الفئة كالسجل المعطى: على سبيل المثال،
عند تصنيف العملاء وفقًا لمخاطر الائتمان، يمكننا استبدال القيمة المفقودة بقيمة الدخل
المتوسط للعملاء في نفس فئة مخاطر الائتمان كتلك الموجودة في السجل المعطى. إذا كان
توزيع البيانات لفئة معينة مائلًا، فإن القيمة الوسيطة هي خيار أفضل.
6. استخدام القيمة الأكثر احتمالاً
لملء القيمة المفقودة: يمكن تحديدها باستخدام تقنيات التوجيه، أو أدوات الاستدلال
التي تستخدم تنظيمًا (a Bayesian formalism)، أو تطوير شجرة القرار. على سبيل المثال، باستخدام سمات العملاء الأخرى
في مجموعة البيانات الخاصة بك، يمكنك إنشاء شجرة قرار لتوقع القيم المفقودة للدخل.
تحيّز الطرق من 3 إلى 6 البيانات.
قد لا تكون القيمة المملوءة صحيحة. لكن الطريقة رقم 6 هي استراتيجية شائعة. بالمقارنة
مع الطرق الأخرى، فإنها تستخدم أكبر كمية من المعلومات من البيانات الحالية لتوقع القيم
المفقودة. من خلال النظر في قيم السمات الأخرى في تقديرها للقيمة المفقودة للدخل، يكون
هناك فرصة أكبر للحفاظ على العلاقات بين الدخل والسمات الأخرى.
من المهم ملاحظة أنه في بعض الحالات،
قد لا تعني القيمة المفقودة خطأ في البيانات! على سبيل المثال، عند التقديم للحصول
على بطاقة ائتمان، قد يُطلب من المرشحين تقديم رقم رخصة القيادة الخاصة بهم. قد يترك
المرشحون الذين لا يمتلكون رخصة قيادة هذا الحقل فارغًا بشكل طبيعي. ينبغي أن تسمح
الاستمارات للمجيبين بتحديد قيم مثل "غير قابل للتطبيق". يمكن أيضًا استخدام
روتينات البرنامج لاكتشاف قيم فارغة أخرى، مثل "لا أعرف"، أو "؟"،
أو "لا شيء". في الواقع، ينبغي أن يكون لكل سمة قاعدة أو أكثر بخصوص الحالة
الفارغة. يمكن أن تحدد القواعد ما إذا كانت القيم الفارغة مسموحًا بها أم لا، و/أو
كيفية التعامل معها أو تحويلها. يمكن ترك الحقول فارغة أيضًا بشكل متعمد إذا كان من
المقرر توفيرها في خطوة لاحقة من عملية العمل. لذلك، على الرغم من أننا يمكن أن نبذل
قصارى جهدنا لتنظيف البيانات بعد التقاطها، فإن التصميم الجيد لقواعد البيانات وإجراءات
إدخال البيانات يجب أن يساعد في تقليل عدد القيم المفقودة أو الأخطاء في المقام الأول.