Author: Shehab, Noha Abd El-Hady Abd El-Hady./ Title: A proposed data preprocessing technique for big data stream mining /

Search In this Thesis

العنوان

A proposed data preprocessing technique for big data stream mining /

المؤلف

Shehab, Noha Abd El-Hady Abd El-Hady.

هيئة الاعداد

باحث / نهى عبدالهادى عبدالهادى شهاب

مشرف / هشام عرفات علي

مشرف / محمود محمد بدوي

مناقش / حازم مختار البكري

الموضوع

Data mining. Big data.

تاريخ النشر

2021.

عدد الصفحات

online resource (101 pages) :

اللغة

الإنجليزية

الدرجة

ماجستير

التخصص

هندسة النظم والتحكم

تاريخ الإجازة

01/01/2021

مكان الإجازة

جامعة المنصورة - كلية الهندسة - Computers and Control Systems Engineering Dept

الفهرس

Only 14 pages are availabe for public view

from

101

from

101

Abstract

أدت الزيادة السريعة الملحوظة في استخدام تطبيقات الإنترنت إلى وجود كميات هائلة من البيانات. لا تستطيع تقنيات البيانات التقليدية وحتى التطبيقات التعامل مع حجم البيانات الجديدة وهيكلها وأنواعها بكفاءة عالية. تأتي مفاهيم البيانات الضخمة لاستيعاب هذا الفيضان المستمر حيث إنه من الملاحظ انتشار البيانات الضخمة مؤخرًا على نطاق واسع في العديد من المجالات مثل التعلم الآلي والتعرف على الأنماط والمجالات الطبية والمالية والنقل وغيرهم. يعد تحليل البيانات أمرًا بالغ الأهمية لتحويل البيانات إلى معلومات أكثر دقة لها معنى يتم تغذيتها لأنظمة اتخاذ القرار. نتيجة لوجود أنواع متنوعة والمعقدة من مجموعات البيانات، يصبح تعدين البيانات للحصول على المعلومات أكثر صعوبة. يتمثل أحد الحلول في استخدام المعالجة المسبقة للبيانات التي تقلل من هذا التعقيد، وبالتالي يصبح تحليل البيانات ونتائجها أمراً منطقياً يتبع طبيعة البيانات. إن المعالجة المسبقة للبيانات تنتج مصدرًا موثوقًا ومناسبًا لأي خوارزمية استخراج البيانات والتي يتم استخدامها لاحقًا لتعدين المعرفة من هذه البيانات. إحدى الخطوات الرئيسية في المعالجة المسبقة للبيانات هي اختيار الميزة أو الخاصية (Feature selection)، واختيار الميزة او الخاصية (feature selection)هو أحد خوارزميات تعلم الآلة التقليدية التي تحدد خصائص البيانات وبناءً عليه يمكن اتخاذ قرار متعلق بهذه البيانات بدقة عالية وأمان. يمكن استخدام الميزات أو الخصائص الفعالة في تحسين أداء النموذج المساعدة في فهم الخصائص والهيكل الأساسي للبيانات المعقدة. تقدم هذه الأطروحة نموذجًا جديدًا قائمًا على السحابة لاختيار الميزات (features) المعبرة عن البيانات غير المتوازنة استنادًا إلى خوارزمية (KNN)K Nearest Neighbor . أظهر النموذج المقترح أداءً جيدًا مقارنةً ب Weighted K Neighbor. يجمع النموذج المقترح بين مقياس المسافة تبعاً لليراعات firefly ومسافة Elucidence المستخدمة في K nearest neighbor (KNN).أظهرت النتائج التجريبية للمقترح مؤشرات جيدة في كل من استخدام الوقت ومدى دقة وفاعلية الميزات أو الخصائص المُختارة مقارنة بنتائج Weighted nearest neighbor. أظهرت نتائج التجارب تحسناً في دقة التصنيف بنسبة 12٪ مقارنة بخوارزمية Weighted nearest neighbor عند تطبيقها على أنواع وأحجام مختلفة من البيانات وتتكون الرسالة من خمسة فصول تتلخص فيما يلي: الفصل الأول: يحتوي على مقدمة عن البيانات الضخمة والبرمجة المسبقة لها مع توضيح المشكلة موضع الدراسة وبيان الدافع وراء اجراء هذه الدراسة والهدف المنشود من الدراسة كما يشير هذا الفصل إلى ما ستحتويه باقي هذه الرسالة. الفصل الثاني: يستعرض ملخص للأبحاث السابقة والتي تم اجراؤها في نفس مجال البحث موضع الدراسة. الفصل الثالث: يقدم الطريقة المقترحة لمعالجة البيانات باستخدام تقنيات اختيار الخصائص أو الميزات مستعينة بالمميزات التي توفرها الحوسبة السحابية الفصل الرابع: يستعرض التجارب التي تم اجراؤها لاختبار كفاءة الطريقة المقترحة في هذه الأطروحة. الفصل الخامس: يقدم خاتمة الأطروحة بيان ملخص لما جاء بها مع الإشارة لبعض المقترحات المستقبلية.