Search In this Thesis
   Search In this Thesis  
العنوان
A proposed framework for outlier detection of stream data /
المؤلف
Hassan, Asmaa Fawzy Awadallh.
هيئة الاعداد
باحث / أسماء فوزي عوض الله حسن
مشرف / شريف إبراهيم بركات
مشرف / عماد محمد عبدالرحمن
مناقش / هيثم عبدالمنعم الغريب
مناقش / أميرة رزق عبده
الموضوع
Information Systems. Information storage and retrieval systems.
تاريخ النشر
2023.
عدد الصفحات
online resource (133 pages) :
اللغة
الإنجليزية
الدرجة
الدكتوراه
التخصص
علوم الحاسب الآلي
تاريخ الإجازة
1/1/2023
مكان الإجازة
جامعة المنصورة - كلية الهندسة - قسم نظم المعلومات
الفهرس
Only 14 pages are availabe for public view

from 133

from 133

Abstract

نظرًا للتطورات الحديثة في كل من البرمجيات والتكنولوجيا، فإن العديد من التطبيقات مثل شبكات الاستشعار عن بعد، الأسواق المالية، المراقبة بالفيديو في الوقت الفعلي، حركة المرور على الإنترنت، والبيانات الطبية، تولد كميات هائلة من البيانات تسمى هذه البيانات بالبيانات المتدفقة (DS) فهو مصطلح يستخدم لوصف هذا الشكل من البيانات الضخمة. في الأونة الأخيرة جذبت البيانات المتدفقة انتباه العديد من الباحثين بسبب استخداماتها العديدة، والتي تشمل أنظمة مراقبة الرعاية الصحية، واكتشاف الاحتيال والتطفل، وإنترنت الأشياء (IoT)، وتطبيقات الإنترنت عبر الهاتف المحمول.البيانات المتدفقة عبارة عن سلسلة لا حصر لها من البيانات التي يتم إنشاؤها بشكل مستمر عبر الزمن وتخضع للتطور المستمر والدائم. فهي تحتوي على مجموعة من السمات/الميزات عالية الأبعاد ويمكن صياغتها كـ DSt = {x1,t, x2,t, x3,t, ..., xN,t}، حيث x1,t هو رقم العنصر i في الوقت t. بسبب حجمها الهائل، من الصعب تخزين البيانات المتدفقة في الذاكرة بشكل صحيح ومسحها عدة مرات. تختلف تدفقات البيانات عن البيانات العادية من حيث أنها لها خصائص فريدة مثل تطور المفهوم وانحراف المفهوم وتطور السمات. يحدث تطور المفهوم عندما تظهر فئات جديدة في التدفقات، ويحدث انحراف المفهوم عندما يتغير توزيع نقاط البيانات بمرور الوقت، ويحدث تطور السمات عندما تتغير مجموعة سمات البيانات المتدفقة بمرور الوقت. يعد التنقيب في هذا النوع من البيانات مجالًا متناميًا يُعرف باسم Data Stream Mining (DSM)، وهو تقنية لاستخراج المعلومات المهمة من البيانات المتدفقة. ومن ثم، فإن تقنيات التنقيب عن البيانات التقليدية لا تنطبق على عمليات البيانات المتدفقة بسبب خصائصها الخاصة.​نظرًا للحجم الهائل في البيانات المتضمنة، فإن البيانات المتدفقة مثلها مثل البيانات التقليدية تكون عرضة للبيانات الشاذة المعروفة باسم القيم المتطرفة. يعد اكتشاف القيم الشاذة، وهو مشكلة صعبة في البيانات المتدفقة، أحد أهم المهام الأساسية في التنقيب في البيانات المتدفقة. القيم المتطرفة في البيانات المتدفقة هي عناصر تختلف اختلافًا كبيرًا عن غالبية البيانات ويجب اكتشافها في العديد من الظروف. نتيجة لذلك، يسعى التعرف على القيم الشاذة إلى اكتشاف سلوك التدفق غير المعتاد. يعد اكتشاف القيم الشاذة مشكلة رئيسية حظيت باهتمام كبير في مجالات البحث ومجالات التطبيقات المختلفة، مثل المراقبة بالفيديو، واكتشاف اختراق الشبكة، واكتشاف تفشي الأمراض، وما إلى ذلك.​الهدف الرئيسي من هذه الرسالة هو تطوير هيكل فعال لاكتشاف القيم الشاذة في البيانات المتدفقة. لذلك، تم تقديم مقترحين جديدين للكشف عن هذه القيم. الأول هو اكتشاف التدفق الخارجي (ESOD)، وهو عبارة عن هيكل عمل قائم على تقنية النافذة منزلقة ويكتشف بشكل مثالي القيم الشاذة في بيئة البيانات المتدفقة حيث يتم تحديثه استجابة للأحداث الواردة من البيئة للتغلب على خاصية تطور المفهوم للبيانات المتدفقة. ESOD هو نموذج تصنيف معتمد على التعلم جمعي خاضع للإشراف حيث ان مجموعة المتعلمون الأساسيون هم خوارزميات التعلم الآلي الأكثر شيوعًا للتصنيف، وهي iForestASD وشجرة القرار (DT) والغابة العشوائية التكيفية (ARF). يتكون الهيكل المقترح من ثلاث مراحل، وهي مرحلة التدريب، ومرحلة الاختبار، ومرحلة كشف القيم الشاذة. يتم استخدام تقنية الكشف عن التصويت المرجح لتحديد القرارات النهائية للقيم الشاذة المحتملة.​من ناحية أخرى، تفوقت التقنيات القائمة على التعلم العميق للكشف عن القيم الشاذة في الأداء على أساليب التعلم الآلي في مجال البيانات المتدفقة. وبالتالي، فإن الهيكل الثاني المقترح هو نموذج تعلم عميق مبتكر يعتمد على شبكة عصبية عميقة (DNN) لمعالجة مشكلة للكشف عن القيم الشاذة في بيئة البيانات المتدفقة. لزيادة تجريد السمات وإمكانياتها، تم بناء النموذج المستند إلى DNN المقترح مع العديد من الطبقات المخفية. يتكون من ثلاث مراحل متتالية: إعداد ومعالجة البيانات، تدريب الشبكة العصبية العميقة، ومرحلة الكشف.​تم عمل اختبارات مكثفة باستخدام مجموعات بيانات معيارية من العالم الواقعي، بالإضافة إلى مقارنات مع أحدث التقنيات، لتقييم أداء الهيكلين المقترحين. تظهر نتائج التجارب أن كلاهما تغلبوا على أحدث التقنيات الموجودة حاليا في التعلم الآلي ونظرائهم في التعلم العميق، مما أدى إلى مزايا أداء كبيرة. قيمت الدراسة التجريبية للهيكلين المقترحين باستخدام العديد من مقاييس الدقة، وكشفت عن أنها تحقق المفاضلة المثلى من خلال تحقيق معدل اكتشاف مرتفع مع معدل خطأ منخفض.​يتمثل إسهام الرسالة في أنها توفر حلاَ أساسًا لواحدة من أصعب المشكلات المتعلقة بالبيانات المتدفقة وهي مشكلة اكتشاف القيم الشاذة. يمكن أن تساعد هذه الهياكل المقترحة بشكل كبير في العثور على أنماط شاذة مفيدة. علاوة على ذلك، لديهم القدرة على استخدامها في مجموعة واسعة من التطبيقات عالية الطلب، مثل مراقبة شبكة الاستشعار عن بعد، والكشف المبكر والدقيق عن الأمراض المزمنة، مثل أمراض القلب، أو عدوى فيروس كورونا، أو أمراض السرطان، والمراقبة البيئية، مثل مراقبة حرائق الغابات أو تلوث الهواء أو الانسكابات الكيميائية وغيرها الكثير.