Search In this Thesis
   Search In this Thesis  
العنوان
A combined clustering method for spatial data mining in large databases /
المؤلف
El-Hadary, Rasha Mohamed Salah El-Din.
هيئة الاعداد
باحث / رشا محمد صلاح الدين محمود الحضري
مشرف / محمد على الشرقاوى
مشرف / أحمد السعيد طلبه
مشرف / عمر حسن كرم
الموضوع
Databases.
تاريخ النشر
2009.
عدد الصفحات
179 p. :
اللغة
الإنجليزية
الدرجة
الدكتوراه
التخصص
علوم الحاسب الآلي
تاريخ الإجازة
01/01/2009
مكان الإجازة
جامعة المنصورة - كلية الهندسة - Department of information systems
الفهرس
Only 14 pages are availabe for public view

from 179

from 179

Abstract

التنقيب في البياناتِ المكانيةِ هو اكتشاف العِلاقاتِ والخصائصِ المطلوبةِ التي يمكن أن توجد بشكل ضمني في قواعد البياناتِ المكانيةِ و الذي أصبح ضرورة ملحة في الآونة الأخيرة نظراْ للتزايد الكبير في حجم قواعد البيانات التي تنتج من التطبيقات المختلفة و التي تتجاوز بكثير قدرة الإنسان على تحليلها.
تجميع البياناتِ هى مشكلة هامة في عملية التنقيب في البيانات. إنّ الهدفَ منها هو تُقسيّمَ مجموعة الأشياءِ إلى مجموعاتِ، تدَعى عناقيد بحيث تقع الأشياء المتشابهة في نفس المجموعةِ. يقاْسُ التّشابه بين الأشياءِ عادة بعاملِ المسافةِ ولكن استعمال عامل المسافةِ بمفرده يؤدى إلى نتائج غير موثوق بها نظرا لتداخُلِ العناقيدِ. ولذلك فإن تجميع العديد من الخوارزميات و التي يمكن تطبيقها على مجموعات كبيرة من قواعد البيانات المكانية يمكن أن يؤدى إلى فعالية وكفاءة عالية في النتيجة النهائية. ومع ذلك فإنه لا يوجد نهج معروف جيداً لتجميع تلك الخوارزميات نظراً لأنه يعتمد على كفاءة تلك الخوارزميات و خصائص طريقة التجميع.
إن الفكرة الأساسية لعملية تجميع العديد من الخوارزميات للتنقيب في قواعد البياناتِ المكانيةِ بدون الحاجة إلى معرفة الخصائص الأصلية لها يقودنا إلى ما يسمى بـ ”مجموعات عنقوديه”.
ولقد اكتسبت مجموعة تقنيات الشبكات العصبية اهتماما واسع النطاق في الآونة الأخيرة. و لذلك فإن تطبيق المجموعات العنقودية باستخدام الشبكات العصبية يمكن أن يؤدي إلى تحسناً كبيراً في الأداء العام للنظام, ويرجع ذلك إلى أن الشبكات العصبية هي بطبيعتها غير مستقرة ولذلك فإن أي تغيير طفيف في اختيار المعاملات الخاصة بها قد ينتج عنه تغيرات كبيرة في الأداء. كما أن لكل خوازم جوانب قوة تختلف عن غيره من الخوارميات لذلك فإن جمع كل جوانب القوة لتلك الخوارزميات يقود إلي خوارم يفوق في أداؤه كل الخوارزميات المنفردة وقليل التأثر بنوع البيانات التي يعمل عليها.
إن هذا البحث يهدف إلي تقديم طريقة تجميعِ جديدةِ تقبل مصادر بيانات متعددة لكي تميز تراكيب مكانية والتي يُحتملُ أَنْ تَكُونَ موجودة في قاعدة البياناتِ والتي يصعب اكتشافها بأساليب التنقيب الموجودة
وتقوم الفكرة الأساسية في الأسلوب المقترح علي تجميع ثلاثة مجموعات عنقودية يتم توليدها بالتتابع باستخدام ثلاث خوارزميات مختلفة.
يعتبراختيار الأسلوب الذي تتم به عملية التجميع من أهم عناصر طرق التجميعِ, و يعتبر عدم تماثل النتائج الصادرة من الخوارزميات المختلفة هو من أهم الأسباب وراء صعوبة عملية التجميع. وفي هذا العمل تم اقتراح إطار جديد لحل هذه المشكلة مما يسهل إجراء عملية التصويت بالأغلبية لتحديد العناقيد النهائية.
وتظهر مشكلة هامة مع معظم الخوارزميات و هى أن الخوارزم يحتاج في بداية التنفيذ إلى معرفة العدد المرغوب فيه من العناقيد, وغالبا ما يكون العدد الأمثل لهذه العناقيد غير معروف قبل التنفيذ. و لذلك فإن الأسلوب المقترح في هذا البحث لا يتطلب معرفة مسبقة للعدد الأمثل للعناقيد و إنما يتطلب فقط أن يقوم المستخدم بإدخال أكبر عدد محتمل من العناقيد ثم يقوم بعدها بدمج العناقيد المتقاربة.
ومن الجدير بالذكر أيضا أن قواعد البيانات الكبيرة و التي يصعب من الناحية العملية التعامل معها في ذاكرة الحاسب النمطية قد يكون من المناسب معالجتها عن طريق تقسيمها إلى عينات.
وستتم مناقشة موضوع البحث من خلال ستة فصول نستعرضها كالتالي:
الفصل الأول: يستعرض موضوع البحث وأهدافه.
الفصل الثاني: يستعرض المفاهيم الأساسية لقواعد البيانات المكانية وطريقة تقسيمها إلى مجموعات تسمى عناقيد, مع استعراض لأهم الخوارزميات الموجودة وتصنيفاتها وإلقاء الضوء على أهم الفروق بينها
الفصل الثالث: يقوم بالتركيز على مشكلة كيفية تجميع العديد من الخوارزميات المختلفة ويقدم دراسة تحليلية للأبحاث السابقة والمتعلقة بموضوع الرسالة.
الفصل الرابع: يقدم إطار العمل المقترح لحل مشكلة تحسين عملية التنقيب في قواعد البيانات المكانية
الفصل الخامس: يهدف هذا الفصل إلى التأكد من قدرة النظام المقترح على تنفيذ أهدافه بفاعلية عن طريق تطبيق الأسلوب المقترح في هذا البحث على عينات من قواعد البيانات الأصلية ووجدنا أنه قد حقق تميز في دقة الأداء بالمقارنة مع الطرق التي تعتمد علي خوارزم منفرد مع ملاحظة أن جميع العينات المستمدة تكون بشكل مستقل ولذلك فان معالجة هذه العينات يمكن أن يتم في نفس الوقت، وهكذا فإنه عن طريق استخدام العمليات الموازية تصبح العملية الحسابية سريعة، فضلا عن أن الحجم الصغير للعينات يقلل من التكاليف والتعقيد, ويلاحظ أنه تم اختبار الأسلوب المقترح في هذا البحث باستخدام قواعد بيانات حقيقية وأنه قد أثبت كفاءة و دقة عالية بالإضافة إلى إمكانية استخدامه في قواعد البيانات الموزعة.
الفصل السادس: يلخص ما تم إنجازه في هذا البحث مع اقتراح لبعض اتجاهات العمل المستقبلية.