![]() | Only 14 pages are availabe for public view |
Abstract غالبًا ما يواجه تحليل البيانات في العالم الحقيقي ومعالجتها باستخدام تقنيات التنقيب عن البيانات صفوف تحتوي على قيم مفقودة. التحدي الرئيسي ل ل تنقيب عن ال بيانات هو وجود قيم مفقودة. يجب معالجه القيم المفقودة في مجموعة البيانات باستخدام طريقة الاحتسا ب لتحسين دقة أساليب استخراج البيانات وأدائها. هناك تقنيات حالية تستخدم خوارزمية k-nearest neighbors لاحتساب القيم المفقودة ولكن تحديد قيمة k المناسبة يمكن أن يكون مهمة صعبة. توجد تقنيات احتساب أخرى قائمة على خوارزميات hard clustering . عندما لا تكون السجلات مفصولة جيدًا ، كما في حالة البيانات المفقودة ، فإن hard clustering يوفر أداة وصف رديئة في كثير من الحالات. بشكل عام ، معالجه البيانات المفقوده الت ي ت عتمد على السجلات المماثلة تكون أكثر دقة من المعالجه التي تعتمد على سجلات مجموعة البيانات بأكملها. يمكن أن يؤدي تحسين التشابه بين السجلات إلى تحسين أداء المعالجه. تقترح هذه الأطروحة طريقتين عدديتين لاحتساب البيانات المفقودة. تم اقتراح طريقة احتساب البيانات المفقودة الهجينة مبدئيًا ، والتي تسمى KI ، والتي تتضمن خوارزميات k-nearest neighbors و iterative imputation . يتم اكتشاف أفضل مجموعة من أقرب الجيران لكل سجل مفقود من خلال تشابه السجلات باستخدام خوارزمية k-nearest neighbors .(kNN) لتحسين التشابه ، يتم تقدير قيمة k المناسبة تلقائيًا ل .kNN ثم يتم استخدام طريقة iterative imputation لاحتساب القيم المفقودة للسجلات غير المكتملة باستخدام بنية الارتباط الشامله بين السجلات المحددة. ثم تم اقتراح طريقة احتساب البيانات المفقودة المختلطة المحسنة ، والتي تسمى FCKI ، والتي تعد امتدادًا ل .KI إنه يدمج خوارزميات fuzzy c-mean ، و k-nearest neighbors و iterative imputation لمعالجه البيانات المفقودة في مجموعة البيانات. تم تحديد خوارزمية Fuzzy c-mean لأن السجلات يمكن أن تنتمي إلى مجموعات متعددة في نفس الوقت. هذا يمكن أن يؤدي إلى مزيد من التحسين للتشابه. يبحث FCKI عن مجموعة واحدة ، بدلاً من مجموعة البيانات بأكملها ، للعثور على أفضل مجموعة من أقرب الجيران. يطبق مستويين من التشابه لتحقيق دقة احتساب أعلى. يتم تقييم أداء تقنيات الاحتساب المقترحة من خلال تجربتين. تستند التجربة الأولى إلى خمسة عشر مجموعة بيانات معيارية بنسب متغيرة مفقودة لثلاثة أنواع من البيانات المفقودة ؛ MCAR ، MAR ، .MNAR يتم إنشاء هذه الأنواع المختلفة من البيانات المفقودة في هذا العمل باستخدام ثلاث خوارزميات. تُستخدم مج موعات البيانات ذات الأحجام المختلفة في هذه التجربة للتحقق من صحة النموذج. تستند التجربة الثانية إلى ست مجموعات بيانات إحصائية حقيقية بنسب متغيرة مفقودة لأنواع البيانات الثلاثة المفقودة. لذلك ، تتم مقارنة ملخص الرسال ة تقنيات ا لا حتساب المقترحة مع طرق احتساب البيانات المف قودة الأخرى عن طريق ثلاثة مقاييس ؛ جذر متوسط الخطأ التربيعي ) (RMSE ، جذر متوسط الخطأ التربيعي الطبيعي (NRMSE) ، ومتوسط الخطأ المطلق .(MAE) أظهرت النتائج أن الطرق المقترحة تحقق دقة احتساب أفضل وتتطلب وقتًا أقل بكثير من طرق احتساب البيانات المفقودة الأخرى. |