Search In this Thesis
   Search In this Thesis  
العنوان
An intelligent system for intrinsic text ranking /
المؤلف
El-Moghazy, Amira Hamed Abo-El-Ghit.
هيئة الاعداد
باحث / ميرة حامد أبوالغيط المغازى
مشرف / طاهر توفيق احمد حمزة
مشرف / آية محمد السعيد الزغبي
مناقش / هشام عرفات على خليفة
مناقش / محمد فتحى الرحماوى
الموضوع
Computer Sciences. Intelligent system.
تاريخ النشر
2022.
عدد الصفحات
online resource (245 pages) :
اللغة
الإنجليزية
الدرجة
ماجستير
التخصص
علوم الحاسب الآلي
تاريخ الإجازة
1/1/2022
مكان الإجازة
جامعة المنصورة - كلية الحاسبات والمعلومات - قسم علوم الحاسب
الفهرس
Only 14 pages are availabe for public view

from 245

from 245

Abstract

مفهوم الترتيب يعني فرز عناصر جديدة وفقا لدرجات صلتها أو تفضيلها أو أهميتها بالنسبة لعنصر آخر. يعد ترتيب توصيات المنتجات وفقا لتقييمات العمالء السابقة، وترتيب اإلعالنات االلكترونية ذات الصلة بمحتوى صفحة الويب، وترتيب الوسائط اإلخبارية حسب ما يثير قلق المستخدمين بعض األمثلة على نماذج الترتيب.مهمة ترتيب النص هي إعادة ترتيب النتائج التي تم استردادها من أداة بحث استنادا إلى الصلة بي ن نتيجة البحث واالستفسار األصلي الصادر. يعد ترتيب النص مهمة حاسمة في مجاالت استرجاع المعلومات (IR (ومعالجة اللغات الطبيعية (NLP .(تعتبر العديد من مشاكل استرجاع المعلومات أمثلة على مهام الترتيب، مثل محركات البحث، وأنظمة التوصية،واسترجاع المستندات، وأنظمة اإلجابة على األسئلة (QA ،(والتصفية التعاونية، واستخراج المصطلحات الرئيسية، والعديد من موضوعات معالجة اللغات الطبيعية، مثل تحليل المشاعر، وإزالة الغموض، وتلخيص النص، واكتشاف االنتحال، وتحديد إعادة الصياغة، والترجمة اآللية.في اآلونة األخيرة، تم تطوير بعض الموارد اإلنجليزية لمجال معالجة اللغات الطبيعية، مما ساعد الباحثين فيتدريب أنظمة جديدة ومقارنة النتائج في ظل ظروف تجريبية عادلة. في حين أن الموارد واألنظمة الحالية لإلجابة على األسئلة المجتمعية )CQA )باللغة العربية محدودة. ويرجع ذلك إلى عدة أسباب، بما في ذلك ندرة الموارد لألسئلة الناطقة بالعربية، وخصائص اللغة العربية التي تجعل فهم اللغة صعبًا بشكل خاص بالنسبةلآلالت، وبعض التحديات في األنظمة العربية لإلجابة على األسئلة المجتمعية بسبب خصائص المحتوى العربي على اإلنترنت. في هذه األطروحة، نتناول مهمة ترتيب اإلجابات في اللغة العربية باستخدام مجموعة البيانات العربية المتوفرة في D subtask-CQA-2017-SemEval .حيث قمنا بتطوير نموذج ترتيب غير خاضع لإلشراف يمكن االعتماد عليه إلعادة ترتيب أزواج األسئلة واألجوبة المسترجعة وفقً من خالل تقديم ا لمدى صلتها بسؤال جديد أزواج األسئلة واألجوبة األنسب قبل أزواج األسئلة واألجوبة عديمة الصلة.تستند مهمة الترتيب إلى الطريقة المستخدمة لتقدير التشابه بين أجزاء النص والطريقة المستخدمة الستخراج الميزات. لذلك، توجد مجموعة كبيرة من المقاييس لقياس التشابه النصي ومجموعة ضخمة من آليات استخراج الميزات. وبناء على ذلك، ينقسم عملنا المقترح إلى مرحلتين: مرحلة تقدير التشابه النصي ومرحلة ترتيب النص.تتضمن مرحلة تقدير التشابه النصي مرحلة المعالجة المسبقة للنص التي تحتوي على عدة خطوات يتم تطبيقها
على النص بهدف تنظيفه قبل تنفيذ أي عمل عليه. بعد ذلك، مرحلة تحويل النص التي تتناول العديد من طرق تمثيل النص لتحويل نص معين إلى متجهات للميزات الرقمية مثل تعداد الكلمات، TFIDF ،POS >ُهج قائمة علىا كنُ<weighting كطرق قائمة على اإلحصاء، ونماذج FastText و AraVec المدربة مسبقً التنبؤ، إلى جانب AraBERT كنموذج الستخراج الميزات للحصول على تضمينات النص الستخدامها كمدخالت إلى خوارزمية التعلم اآللي. يتم بعد ذلك تغذية هذه التضمينات إلى نماذج التنبؤ المختلفة في مرحلة التنبؤ لتقدير درجات الصلة بين أجزاء النص.في الشق الثاني من النظام، استغللنا نموذج AraBERT كنموذج مدرب مسبقا وقمنا بضبط معلماته لمهمة تقدير درجات التشابه النصي بين الجمل النصية العربية. لتقييم نتائج البحث، أجرينا العديد من التجارب لمقارنة استخدام نموذج AraBERT بالشكليين السابق ذكرهم. بالنسبة لمتوسط خطأ النسبة المئوية المطلقة)MAPE ،)تظهر النتائج تباينا طفيفا بين نموذج 2.v0 AraBERT كمستخِرج ميزات )۷۷۲۳.۲۱ )ونموذج AraBERT v0.2-Large نموذج يتفوق، أخرى ناحية من(. ۲۱.۸۲۱۱ ( معلماته المعدل AraBERT v2>كمستخِرج ميزات على نموذج v2 AraBERT المعدل معلماته على مجموعة البيانات المستخدمة من حيث2 قيم معامل التحديد (.التوالي على-(، ۰.۰۳۲۸٦۱، ۰.۰۱٤۰٥۰( (Rوأخيرا، تحتوي مرحلة ترتيب النص على الطريقة التي ترتب أزواج األسئلة واإلجابات المرشحة الستعالم معين استنادا إلى درجات الصلة التي تم الحصول عليها من المرحلة األولى. حيث أجرينا العديد من التجارب لتقييم أداء نموذج الترتيب الخاص بنا على مجموعات التطوير واالختبار وفقا لمقاييس التقييم MAP وAvgRec وMRR .لقد حصلنا على تحسن كبير على الخطوط األساسية لمجموعات التطوير واالختبار. بعد ذلك، قمنا بإجراء مقارنة بين نموذج الترتيب الخاص بنا والدراسات السابقة المعروفة جيدًا التي تستخدم نفس مقاييس التقييم ومجموعات البيانات. أظهرت النتائج أن نموذج الترتيب غير الخاضع لإلشراف الذي اقترحناه استنادًا إلى درجات التشابه حقق تحسنًا واض ًحا على خطوط األساس والنماذج السابقة المتعلقة بمشكلة CQA لمجموعات البيانات المستخدمة.