Author: Salim, Ahmed El-Metwally Abd El-Hamid Mohamed./ Title: Anomaly detection for video inputs using deep learning /

Search In this Thesis

العنوان

Anomaly detection for video inputs using deep learning /

المؤلف

Salim, Ahmed El-Metwally Abd El-Hamid Mohamed.

هيئة الاعداد

باحث / احمد المتولى عبدالحميد محمد سالم

مشرف / مير الدسوقي الموجي

مشرف / ريم عبدالسلام الديب

مناقش / محمد محمد عيسى

مناقش / محمد فتحي الرحماوي

الموضوع

Computer Science.

تاريخ النشر

2024.

عدد الصفحات

89 p. :

اللغة

الإنجليزية

الدرجة

ماجستير

التخصص

علوم الحاسب الآلي

تاريخ الإجازة

01/01/2024

مكان الإجازة

جامعة المنصورة - كلية الحاسبات والمعلومات - قسم علوم الحاسب

الفهرس

Only 14 pages are availabe for public view

from

Abstract

يوجد العديد من كاميرات المراقبة في أماكن مثل المطارات والطرق والبنوك من أجل سلامة هذه الأماكن العامة. تقوم هذه الكاميرات بجمع الكثير من بيانات الفيديو، ولا تتم رؤية معظم تسجيلات الكاميرات إلا عند حدوث شيء غير طبيعي. وهذا يستلزم استخدام طرق المراقبة التلقائية لأن المراقبة البشرية تستغرق وقتًا طويلاً في كثير من الأحيان. كما يعد اتخاذ القرار في الوقت الفعلي عنصرًا حاسمًا آخر ولكن يتم تجاهله كثيرًا في هذا المجال. يعتمد عدد كبير من التقنيات المستخدمة حاليًا، والتي تعلن عن نفسها على أنها عبر انترنت الاشياء، على المعالجة المجمعة أو دون الاتصال بالإنترنت. بالإضافة إلى ذلك، تم تجاهل عدد من المهام الحاسمة تمامًا في الدراسات التي تم نشرها بالفعل، بما في ذلك التعلم المستمر، وقابلية تفسير النماذج، والقدرة على التكيف عبر المجالات. في هذه الورقة، نقترح نظامًا يكتشف تلقائيًا الأحداث غير المنتظمة في مقاطع الفيديو استنادًا إلى تكامل شبكة التلافيف ثلاثية الأبعاد المتضخمة (I3D-ResNet50) والتعلم العميق المتعدد (MIL). يعتبر هذا النظام مقاطع الفيديو العادية وغير العادية بمثابة حزم سلبية وإيجابية، على التوالي. كل مقطع فيديو هو حالة داخل تلك الحزمة. يتم إنشاء درجة شذوذ لكل مقتطف فيديو باستخدام شبكة عصبية متصلة (FCNN). بعد معالجة مقاطع الفيديو، استخدمنا I3D-ResNet50 لاستخراج الميزات بعد تطبيق 10-crop augmentationعلى مجموعة بيانات UCF-101، والتي تحتوي على 130 جيجابايت من مقاطع الفيديو مع 13 حدثًا غير طبيعي مثل القتال والسرقة والإساءة وما إلى ذلك، بالإضافة إلى الأحداث العادية. تظهر نتائجنا التجريبية أن المساحة تحت المنحنى تبلغ 82.85% مع 10000 تكرار فقط مقارنة بالطرق الأخرى. وهذا يعني أن نموذجنا يعمل بشكل أفضل في اكتشاف الحالات الشاذة في مقاطع الفيديو في الوقت الفعلي.