Search In this Thesis
   Search In this Thesis  
العنوان
A new strategy to enhance knowledge discovery from big data using data mining techniques /
المؤلف
Ayyad, Sarah Mohammed.
هيئة الاعداد
باحث / سارة محمد أحمد عياد
مشرف / أحمد إبراهيم صالح
مشرف / لبيب محمد لبيب
مشرف / أحمد إبراهيم صالح
الموضوع
Data Mining. Feature selection. Cancer Classification. Gene Expression Microarray.
تاريخ النشر
2018.
عدد الصفحات
online resource (86 pages) :
اللغة
الإنجليزية
الدرجة
ماجستير
التخصص
هندسة النظم والتحكم
تاريخ الإجازة
1/1/2018
مكان الإجازة
جامعة المنصورة - كلية الهندسة - التحكم الالي
الفهرس
Only 14 pages are availabe for public view

from 99

from 99

Abstract

في عصر زيادة حجم وسرعة وتنوع وتعقيد مجموعات البيانات وظهور البيانات الضخمة ،أصبحت تقنيات التعلم الآلي الكلاسيكية غير مناسبة بشكل عام لتوفير نظام قرار دقيق. مقارنةً بالبيانات الضخمة ، تم استخدام مصطلح الأبعاد العالية للدلالة على العدد الهائل من الخضائص التي تصل إلى المستويات التي تجعل تقنيات لغة تعلم الآله الموجودة غير كافية. يوفر هذا السيناريو الجديد للبيانات الضخمة فرصًا وتحديات للباحثين في لغة تعلم الآله ، حيث من المرجح أن تكون التقنيات الحالية غير كافية. يعتبر تصنيف المصفوفات الدقيقة للتعبير الجيني أحد المجالات البحثية المهمة حيث تم استخدامه في أنظمة التنبؤ والتشخيص بالسرطان ، حيث يلاحظ أن السرطان هو أكثر الأمراض الغازية شيوعًا. تتكون بيانات التعبير الجيني من عشرات العينات التي تتميز بآلاف الجينات. ومن ثم فإن التحديد الدقيق والفعال لهذه العينات أمر صعب. وقد تم استخدام تقنيات لغة تعلم الآله على نطاق واسع لبناء نماذج تصنيف كبيرة ودقيقة لبيانات التعبير الجيني. في هذه الأطروحة ، سيتم اقتراح استراتيجية تصنيف جديدة من خلال توظيف تقنيات تعدين البيانات. تتكون استراتيجية التصنيف المقترحة من أربعة مراحل هى (1) مجموعة بيانات التعبير الجينى. (2) المعالجة الأولية للبيانات. (3) اختيار الجينات ”الخصائص”. (4) تصنيف العينة. تطبق استراتيجية التصنيف المقترحة مساهمتان جديدتان في مراحة اختيار الخصائص و مرحلة التصنيف والتي تسمى Distributed Feature selection (DFS) و Modified K-Nearest Neighbors (MKNN). يعتمد DFS على اكتشاف الجينات الأكثر ارتباطًا بالسرطان بطريقة موزعة ، مما يساعد في تصنيف العينات بشكل فعال. في البداية ، يتم تقسيم الكمية الضخمة المتاحة من الخصائص وتوزيعها بين عدة معالجات. بعد ذلك ، يتم تطبيق طريقة جديدة لاختيار المرشح استنادًا إلى نظام الاستدلال الضبابى على كل مجموعة فرعية من مجموعة البيانات. وأخيرًا ، يتم ترتيب جميع الخصائص الناتجة ، ثم يتم تطبيق طريقة اختيار الخصائص تستند إلى wrapper method . من ناحية أخرى ،MKNN هي تقنية تصنيف جديدة لبيانات التعبير الجيني على أساس KNN التي تم اقتراحها بطريقتين هما Smallest Modified KNN (SMKNN) و .Largest Modified KNN (LMKNN) يتم إجراء التعديل في هذه التقنية لتحسين أداء .KNNالفكرة الأساسية هي توظيف الجيران الأقوياء في تدريب البيانات عن طريق استخدام استراتيجية ترجيح. أظهرت النتائج التجريبية فعالية تقنية اختيار الخاصية المقترحة وتقنية التصنيف. تم إجراء تجارب مختلفة لمقارنة أداء تقنية التصنيف الجديدة مع أو بدون تطبيق تقنية اختيار الخاصية. أظهرت النتائج الدور الهام لاختيار الخصائص في تصنيف التعبير الجيني. من خلال تطبيق تقنية اختيار الخصائص ، يمكن تعزيز أداء التصنيف بشكل ملحوظ باستخدام عدد صغير من الخصائص.