Author: Al-Amri, Maged Ali Mohammed./ Title: Speech recognition with deep recurrent neural network /

Search In this Thesis

العنوان

Speech recognition with deep recurrent neural network /

المؤلف

Al-Amri, Maged Ali Mohammed.

هيئة الاعداد

باحث / ماجد علي محمد العمري

مشرف / طاهر توفيق حمزة

مشرف / محمد أحمد الدسوقي

الموضوع

Data structures (Computer science) Neural networks (Computer science) Parallel processing (Electronic computers)

تاريخ النشر

2016.

عدد الصفحات

115 p. :

اللغة

الإنجليزية

الدرجة

ماجستير

التخصص

Computer Science (miscellaneous)

تاريخ الإجازة

01/01/2016

مكان الإجازة

جامعة المنصورة - كلية الحاسبات والمعلومات - Computer science

الفهرس

Only 14 pages are availabe for public view

from

135

from

135

Abstract

تتطرق الرسالة لإحدى مجالات تعلم الآلة وهي أنظمة التعرف على الكلام حيث يمثل أسرع المجالات نموا في إطار هندسة علم الكلام حيث ان لها تطبيقات مثيرة ومهمة في النظم الخبيرة منها: تفاعل الإنسان والحاسوب، التجميع الآلي،الروبوتات، والمراقبة وغيرها. وقد ركز الباحث على توفير طريقه جديده تستخدم التعلم العميق وميل معامل التردد لتحسين مهمة التعرف على الكلام عن طريق الحصول على تمثيل أفضل لإشارات الكلام لأغراض التصنيف. ويمكن تقسيم مهام التقنيات الحالية للتعرف على الكلام إلى مهمتين رئيسيتين: استخراج السمات وتصنيف الكلام. يتم استخراج السمات بواسطة العديد من التقنيات والتي تعمل على استخلاص المعلومات من الملفات الصوتيه بدقة وقد اعتمد الباحث على تقنيه ميل التردد MFCC . في حين، ان عمليه التصنيف هي عملية تصنيف الكلام الى النماذج الصوتية واللغويات المناسبة حيث تحتوي على عدد كثير من التقنيات ,حيث ركز الباحث على تقنيات تقليديه وتقنيات التعلم العميق وتعامل معها منفرده ومدمجه وهي DBN,DBN-HMM,K-mean-GMM-HMM,EM-GMM-HMM . وقد قام الباحث بتعديل وضبط في طول الاطار في احدى مرحل استخراج السمات والتي عملت على زياده نسبه التعرف في مرحلة التصنيف بشكل كبير مقارنة مع الاعمال السابقة . حيث قام بعدد من التجارب والتي تناولت التقنيات التقليديه وتقنيات التعلم العميق حيث اظهرت النتائج نسبه تعرف عاليه مقارنة مع التقنيات التقليديه . وقام بتطبيق هذه التجارب على قاعده بيانات قياسيه انجليزيه TIMIT تتكون من مجموعه جمل لتدريب وجمل للاختبار حيث أعطت افضل النتائج في تصنيف الفونيم لكن هناك تاثير بسيط على الوقت اثناء تعديل في حجم الاطاربالزياده. واستطاع الباحث أن يجمع بين عدد من تقنيات التصنيف ويعمل دمج فيما بينها. قام الباحث بإنشاء نظام للتعرف على الكلام ابتدأ من خطوات المعالجة الأولية لعمليه استخراج السمات بتقنيه MFCC بعد عمل تعديل وضبط في طول الاطار ثم قام بإجراء طريقة التصنيف المقترحة للتعرف على الفونيم. وقد تم تقييم أداء النظام المقترح بواسطة حساب دقة عملية التعرف حيث أظهر من خلال التجارب ان عملية ضبط وتعديل في حجم الاطار زاد من دقه التعرف على الكلام لكن الوقت زاد قليلاً حيث كانت الدقه للنظام المقترح 85.4686% والتي تعتبر اعلى من النتائج السابقة. وقد تم مناقشة التفاصيل والقيود المفروضة على النهج الجديد، والاعمال المقترحة في المستقبل.