![]() | Only 14 pages are availabe for public view |
Abstract تحتوي المستندات ( الوثائق ) على معلومات وهي وسلية هامة لنقل المعرفة ويمكن الحصول على هذه المعرفة من التقارير والمستندات الرسمية (الحكومية) والكتب والمجلات والرسائل ومستندات البنوك وعادة ما تكون المستندات اما ورقية او الكترونية فالمستندات الورقية تعالج وتستخلص منها المعلومات بطريقة يدوية والتي تحتاك الى عمالة بشرية وتحتاج الى حيز كبير للتخزين وفي المقابل فان المستندات الالكترونية تحتاج الى مساحة صغيرة للتخزين ويمكن استرجاعها ومعالجتها بطريقة اقتصادية وسريعة بالاضافة الى امكانية نقلها وعبر الشبكات في التطبيقات الحديثة . والمستندات الالكترونية يمكن ان تصنف كمستند خام (مستند صورة) او كمستند نصي يمكن البحث فيه وتكون المستندات الخام عبارة عن صورة المستند ويتم ادخاله الى الكمبيوتر عن طريق الماسح الضوئي او عبر جهاز الفاكس وتخزن في شكل صورة ولا يمكن للكمبيوتر في هذه الحالى ام يميز بين النصوص والصور الموجودة بالمستند وعلى العكس فالمستند النصي عبارة عن صورة نصية للمستند وبالتالي يمكن البحث فيها وتفضل عن المستندات الخام لامكانية البحث وحجم التخزين الاقل ولذا وحتى يمكن استخلاص المعلومات من المستند بصورة الية نحتاج الى تحويله الى الشكل النصي. وهذا البحث يقدم خوارزما جديدة لتحليل الوثائق سمى ( طريقة تقسيم الشريحة الى قوالب) Run Blocking Algorithm وقد روعي في الخوارزم الجديد ان يكون مستقلا عن الانحراف في الوثيقة وان يتعامل مع شريحة عريضة من الوثائق وقد تم بناء النظام البرمجي لهذا الخوارزم واختبار هذا النظام على عينات من المستندات شملت معظم انواع المستندات وكانت النتائج حيث وصلت 99% مما يدل على كفاءة النظام. |