Author: Mankrious,Sherry Girgis Farag ./ Title: Deception detection for opinion texts over the internet /

Search In this Thesis

العنوان

Deception detection for opinion texts over the internet /

المؤلف

Mankrious,Sherry Girgis Farag .

هيئة الاعداد

مشرف / Mahmoud El-Sayed Gadallah

باحث / Sherry Girgis Farag Mankrious

مشرف / Eslam Ahmed Fahim Amer

مناقش / Aliaa abd elhalem yousef

مناقش / Ahmed abo elyazed el sawee

الموضوع

Natural Language Processing. Machine Learning. Logistic regression.

تاريخ النشر

2020

عدد الصفحات

75 p. :

اللغة

الإنجليزية

الدرجة

ماجستير

التخصص

Computer Science Applications

تاريخ الإجازة

1/10/2020

مكان الإجازة

جامعة بنها - كلية الحاسبات والمعلومات - علوم الحاسب

الفهرس

Only 14 pages are availabe for public view

from

Abstract

يهدف هذ البحث الي تقديم نظامًا اليا باستخدام نموذج تصويت جديد بين التعلم الآلي وخوارزميات التعلم العميق. يساعد هذا النظام المستخدمين في اكتشاف وتصنيف أنواع الأخبار التي قد تكون خادعة.العديدمن التجارب طبقت على قاعدة بيانات جديدة تسمي LIAR جمعها ”ويليام” في عام 2017 يدويا.
تم تطبيق باستخدام قاعدة البيانات LIAR أول خوارزمية للتعلم العميق المقترح مع نماذج RNN (vanilla ، GRU ، LSTM) و باستخدام نموذج vanilla وصلت الدقة إلى 0.215 ، ووصلت أيضًا إلى 0.217 مع GRU و 0.216 مع LSTM ، أيضًا باستخدام خوارزمية التعلم الآلي المطبقة random forest وصلنا إلى دقة 0.224 ثم قارننا نتائجنا بنتائج ويليام وتبين ان ال CNN هو اعلي دقة حيث توصلت دقته الي 00.27 فاعادنا استخدام ال CNN باستخدام عمليات NLP علي الداتا قبل دخولها علي استخراج الميزات من النص التي استخدمناها فارتفعت نتيجة دقته الي 0.369 و لذلك أكملنا تجاربنا باستخدام هجين التصويت بين التعلم الآلي وخوارزميات التعلم العميق (GRU ، CNN و Random forest) لتحسين من دقه و كفاءة نماذجنا. اختارنا هذه الخوارزميات التي حصلت على أفضل نتائج من خلال استخدامها مع قاعدة بيانات LIAR ولما لها الكثير من المميزات حيث ان ال GRUيستخدم لسهولته و لحفاظه علي ذاكرة للحفاظ علي تجاربه السابقة من التعليم علي قاعدة البيانات وأيضًا باستخدام Random Forest لكثرة المزايا وحل العيوب الموجودة في الخوارزميات الأخرى والاستفادة المكتسبة من استخدام الخوارزمية الثالثة CNN حيث زادت السرعه ف التصنيف وزادت الدقه لانه يتعامل بشكل افضل مع الجمل القصيرة التي تناسب حالتنا ، فكانت نتيجة التصويت علي هذه النماذج حققت اعلي دقة تصل الي0.410.
مقدمة
الخداع ينقل بشكل عام الرسائل والمعلومات المستنيرة لإنشاء الاستنتاج الخاطئ. من حقائق الحياة أن التواصل اليومي يواجه أشكالًا مختلفة من الخداع ، بدءًا من الأكاذيب البيضاء والإغفالات والتهرب إلى الأكاذيب المشوهة والتشويه. ينتشر الخداع في الوقت الحاضر بسرعة على وسائل الإعلام حيث يمكن تحقيق الخداع بأقل جهد ممكن (أي التكلفة المنخفضة) وفي نفس الوقت يؤدي إلى معدل نجاح خداع مرتفع إلى حد معقول ، لدى وسائل الإعلام العديد من العيوب ، بما في ذلك تبادل المعلومات في وسائل التواصل الاجتماعي دون معرفة المصدر أو التأكد من وقائع الأخبار قد يسبب العديد من المشاكل لحياة الأفراد أو في المجتمعات العامة.
أنواع الخداع على وسائل التواصل الاجتماعي متنوعة واغلب انواعها ضارة ، ولكن أخطر أنواعها هي الخداع المزيف للأخبار ، حيث تهتم هذه الرسالة بالأخبار المزيفة لأن مشكلة اكتشاف الأخبار المزيفة تعد أكثر صعوبة من العثور على الخداع في الاراء او التعليقات الشخصية. لذلك فان الآراء المتضاربة وانتشار الأخبار المزيفة هي سبب لإخفاء الحقيقة وتكون نقطة لصالح المجرم الحقيقي. لذلك نحن بحاجة إلى نظام لتصنيف الأخبار تلقائيًا.
وايضا يعد التعرف على الأخبار المزيفة من وسائل التواصل الاجتماعي عبر الإنترنت أمرًا صعبًا للغاية لأسباب مختلفة:
• أولاً ، من الصعب جمع بيانات الأخبار المزيفة ، ومن الصعب أيضًا تصنيف الأخبار المزيفة يدويًا ، لذلك نستخدم مجموعة بيانات LAIR التي أنشأها ”ويليام يانج” والتي انشاها من الأخبار الحقيقية.
• ثانيا .اخذ ف الاعتباراستراتيجية الخادعين لتجنب الوقوع ف الاخطاء. على الرغم من محاولة التحكم في ما يقولونه ، يحدث تسرب اللغة مع بعض الجوانب اللفظية التي يصعب مراقبتها مثل ترددات وأنماط الضمير والتزامن والاستخدام الضار للكلمات العاطفية.
• ثالثًا ، يمثل تمثيل البيانات المحدود للنصوص مشكله كبيرة في عملية التعرف على الأخبار المزيفة. في نهج مجموعة الكلمات ، يتم تجميع الكلمات الفردية أو ترددات ”n-grams” (متعدد الكلمات) وتحليلها للكشف عن دلائل الخداع.
مجموعة البيانات التي قمنا باستخدامها التي تم أنشأها بواسطة ”وليام يانج” والتي تقدم مجموعة بيانات مترجمة ، والتي هي بيانات قصيرة مدتها 10 سنوات في سياقات مختلفة من POLITIFACT.COM ، والتي توفر تقرير تحليل مفصل وروابط إلى الوثائق المصدر لكل حالة. تتكون مجموعة بيانات LIAR من 12.8 ألف جمل قصيرة مع علامات تقليدية في سياقات / أماكن مختلفة ،القائل وحالته و انتماءاته ، وتاريخه السابق.
باستخدام بيانات LIAR نقوم ببناء نظام جديد للكشف عن الأخبار المزيفة ، أولاً ، باستخدام نماذج RNN من تقنيات التعلم العميق (Vanilla ، GRU ، LSTM),ثانيا، باستخدام من الإشارات اللغوية (Random Forest) ثم الحصول على النتائج ,ثالثًا ، هذه النتائج نقارنها مع النتائج السابقة التي توصلت إليها نماذج أخرى قام بها باحثون اخرون باستخدام نفس مجموعة البيانات للأخبار المزيفة المسماةLIAR. ثم اختيار أفضل نتائج الخوارزمية بين جميع النتائج لبناء نموذج هجين جديد بين التعلم الآلي وتقنيات التعلم العميق ثم إجراء التصويت بين نماذجه للكشف عن الأخبار المزيفة.
النموذج المقترح
في هذه الرسالة نقترح تصنيف الاخبار المزيفة باستخدام التصويت علي نماذج CNN) ,GRU,Random Forest). التي تستخدم الميزات اللغوية لمحتوى الأخبار وميزات السياق الاجتماعي والتعلم العميق لتصنيف الأخبار المزيفة. و نموذج التصويت موضح في شكل (3.1) .
النتائج
تم إجراء سته تجارب للكشف عن التزييف في الاخبارباستخدام مجموعة بيانات LIAR (كما هو مذكور وموضّح من قبل) باستخدام خوارزميات التعلم الآلي والعميق. خمسة من هذه التجارب تقيس دقة النظام و يتم اختيارالأفضل منهم في الاداء للحصول علي افضل دقة وكفاءة في للتجربة الأخيرة.
التجارب الثلاثة الأول ىتستخدم خوارزميات التعلم العميق مع نماذج RNN (Vanilla،GRU،LSTM) المعروفة على نطاق واسع بأنها تتميزعن شبكات التغذية عن طريق حلقة التغذية متصلة بقراراتهاالسابقة ليتم تعلمها من خبراتها السابقة،وتستوعب مخرجاتها الخاصة بعد لحظة كمدخلات ،لها ذاكرة،والمعلومات بها متسلسلة لتسهل التعلم و الاستخدام.و كانت نتائجهم متقاربة و لكن افضلهم GRU.
في التجربة الرابعة ، استخدمت خوارزميةRandom Forest من التعلم الآلي ،وحصلنا على أفضل نتيجة بين الاختبارات الأربعة الأخيرة.
في التجربة الخامسة قارننا نتائجنا بجميع التجارب التي أجريت علي مجموعة بيانات LIAR (سواء تمت بواسطتنا او بواسطة اخرون) و اكتشفنا ان CNN هو اعلي نتيجه طبقا لنتائج ويليام ف اعادنا استخدامه بعد اجراء تعديلات علي الداتا باستخدام عمليات NLP لجعلها اكثر وضوحا و اسهل ف التعليم حيث ان ”ويليام” لم يقم باي عمليات علي الداتا قبل دخولها علي اي من الالجوريزمات التي قام بتطبيقها و بالفعل تطورت نتيجه ال CNN للافضل و لذلك قررنا اجراء التجربة الاخيرة،حددنا أفضل الخوارزميات لإنشاءنظام مبني علي التصويت بين مجموعة من أفضل الخوارزميات في الدقة .الجدول التالي يوضح دقة التجارب التي اجريت في هذا العمل على مجموعة بياناتLIAR. (كما هو موضح بجدول 1 )
جدول 1 : يشير الي اختلاف نتائج الدقة بين الخوارزميات التي طبقت علي مجموعة بيانات LIAR
الخوارزميات الدقة
CNN 0.369
Vanilla 0.215
GRU 0.217
LSTM 0.2166
Random Forest 0.224
Ensemble voting model (CNN, GRU, Random forest) 0.410

الخاتمة
في السنوات الأخيرة ،كان للكشف عن الخداع في المراجعات عبرالإنترنت والأخبارالمزيفة دورأساسي في الأعمال التجارية ،وإنفاذ القانون ،والأمن القومي ،والسياسين نظرًا للتأثيرالمحتمل للمراجعات المزيفة على سلوك المستهلك و قرارات الشراء . بعض الباحثون استخدموا خوارزمية التعلم مع مجموعة البيانات الكبيرة لزيادة التعلم للحصول على أفضل النتائج من خلال استخراج الميزات باستخدام تضمين الكلمات والإشارات التي تميزالعلاقات بين الكلمات في النحوية والدلالية.
في هذا البحث غطينا سته تطبيقات ثلاثة منها لنماذج تقنية RNN (Vanilla،GRU) وLSTMs التنفيذ الرابع مع Random Forest والخامسة كانت اعاده التصنيف باستخدام ال CNN نظرا لحصوله علي اعلي نسبة دقه فاعادنا استخدامه للحصول علي افضل نتيجه لل CNN باستخدام NLP و من ثم اجرينا اخر تجربة و كانت التصويت بين افضل نماذج لتحسين من دقه و كفاءة نماذجنا التي تمت علي مجموعة بيانات LIAR التي تم إنشاؤه بواسطة William Yang والتي تتضمن 836 ,12 عبارة مختصرة وضحت الموضوع والسياق / المكان والقائل والدولة والحزب والتاريخ السابق للقائل و الموضوع و كانت افضل النماذج المستخدمة ف التجربة الاخيرة تتضمن الخوارزميات التالية (CNN,GRU,Random Forest) طبقنا عليهم نظرية التصويت للحصول علي اعلي كفاءة.
عند تطبيق مجموعة بيانات LIAR استخدمنا عمليات NLP لإعداد البيانات لتضمينها في الكلمات للحصول على متجهات للكلمات ثم إدخال هذه المتجهات إلى أسلوب التعلم العميق لدينا ، وجد أن نتائج التجارب الخاصة ب نماذج RNN قريبة حيث أن Vanilla تصل إلى 0.215 و LSTM تصل إلى 0.216 ولكن GRU حقق الأفضل فقد توصل لدرجة دقة 0.217 ،ولكن لتحسين نتائجنا قمنا بمقارنة نتائجنا مع نتائج ويليام ،وجدنا أن CNN هو الاعلي وكانت تصل دقته الي 0.270 و بعد ما اعادنا استخدامه بتطبيق عمليات NLP توصلت نتيجته الي 0.369 وهي الأفضل من النماذج الأخرى التي قمنا بتنفيذها وكذلك افضل النماذج التي اجريت علي هذه قاعده البيانات علي الاطلاق والتنفيذ الخامس الذي قمنا به هو تطبيق Random Forest،وهي خوارزمة التعلم الآلي التي توصلت كفاءتها إلى 0.224 .
بعد ذلك قدمنا نموذج جديد باستخدام التصويت على خوارزميات هجين جديد عن طريق اختيارأفضل النتائج من بين جميع التجارب بحيث تم إنشاء هذا الهجين بين CNN و GRU و Random Forest وهذا حقق أعلى درجة كفاءة مقارنة بجميع التجارب السابقة التي أجريت مع مجموعة بيانات LIAR حيث حقق نتيجة جديدة تصل دقتها الي 0.410 بسبب كفاءة وسرعة CNN ،وبساطة GRU ،وتكلفتها المنخفضة و معالجتها لمشاكل الذاكرة و Random Forest تساعدنا على زيادة الدقة،وأيضًا لاتتطلب تطبيقا لميزات الكثيرة وهذا يقلل الكثير من التعقيدات التي توجد باستخدام خوارزميات اخري.