أعجوبة

البرمجيات الحُرة والمفتوحة المصدر

أدوات المستخدم

أدوات الموقع


thawab-pri:taha-stemming

خوارزمية تخمين حروف الجذر

تتميز العربية في مجال تكوين الكلمات بمستويين * مستوى الاشتقاق * ومستوى الالتصاق

وإن كان الاشتقاق واضحا، فإن المقصود بالالتصاق هو الظواهر الناتجة عن التصاق الحروف والأدوات بالكلمة عند الكتابةـ مما يعقد على الحاسوب التفريق بين الكلمة والأدوات. فالأصل في واو العطف أنها منفصلة عن الكلمة، وكثير من الناس يفصلونها عن الكلمة في مخطوطهم ومطبوعهم، لكن وصلها هو القاعدة، وينطبق الأمر على حروف الجر المنفردة (ب، ف، ك، ل).

كما أنّ للالتصاق قواعد لغوية، فلا يسبق الجر العطف، لأسباب نحوية.

كما نجد أنّ الحروف العربية لا تدخل كلها في الالتصاق، فنجد حروفا معينة لا يمكن أن تكون جزءا من أي لاصقة، مهما كان، على عكس اللغات الأخرى، التي تعتبر التصاقية في تكوين الكلمات، أما ما نتحدث عنه في العربية، فيمكن أن نطلق عليها عبارة جملة ( أو جُميلة – تصغير جملة) وبعضهم يسميها *كما يجب أن نفرق بين الاشتقاق والتصريف من جهة،

والالتصاق من جهة أخرى، وهو أنّ الاشتقاق والتصريف يؤثران في داخل الكلمة، مثل قال، استقال، أو يستقيل، أما الالتصاق فله تأثير خارجي في الكلمة، مثل الاستقالة.

*والتوضيح هنا أنّ همزة الوصل في استقال ليست أصلية إنما زيدت لمنع الابتداء بساكن، لذا تحذف في الاشتقاق والصرف لانتفاء سبب وجودها ( يستقيل، مستقيل)، كما أنّ الاشتقاق والصرف يغيران حركات الكلمة، أما الالتصاق فلا يؤثر إلا على أطراف الكلمة، وأحيانا لا يؤثر، ويصبح وجوده تجميليا، مثل أحبهم يمكن تخيلها بالإنجليزية Ilikethem ، إذ تحتفظ كلمة استقالة، بهمزة الوصل رغم انتفاء سبب وجودها عند الالتصاق مثل بالاستقالة، وعدم نطقها، حتى أنّ وجودها يسبب الالتباس للناس، فتجدهم يقطعونها ( يكتبونها همزة قطع).

*عند الحديث مستقبلا عن الزوائد والسوابق واللواحق فإننا يمكن أن نتكلم على مستويين :

المستوى الأول

هو البحث عن مصدر الكلمة، ويعني أنّ الزوائد هي الزيادات الالتصاقية، مثل حروف الجر والضمائر المتصلة، ولا نعتبر حروف الاشتقاق.

المستوى الثاني

هو البحث عن جذر الكلمة، في هذا المستوى نفترض أنّ الكلمة غير ملتصقة بعناصر الجملة المكتوبة، بل تتكون من حروف أصلية وزيادات اشتقاقية.

كما نلفت الانتباه إلى أنّ تصريف الأفعال يصنف مع الاشتقاق، لأن له تأثيرا داخليا في الكلمة، ويغير منها.

كما أننا بالتجربة أثبتنا أنّ الخوارزمية التي سنتحدث عنها تنطبق على المستويين المذكورين، بتعديل المدخلات فقط، دون تغيير الطريقة.

ظاهرة تصنيف الحروف

وأهم ظاهرة نتطرق إليها في هذا الصدد هو تصنيف الحروف الهجائية إلى

  • حروف قابلة للسبق : يمكن أن تكون في السوابق (الحروف السابقة).
  • حروف قابلة للإلحاق: يمكن أن تكون في اللواحق (الحروف اللاحقة).
  • حروف غير قابلة للزيادة : يستحيل أن تكون في السوابق أو اللواحق (الحروف الممتنعة)..

كما يمكن تعديل التصنيف حسب الحالة

تصنيف الحروف الزائدة في مستوى الالتصاق

النوع الحروف السابقة الحروف اللاحقة الحروف الممتنعة
الاسم ابفكلوأ (وبالأفلاك) اتةكمنهوي () ثجحخدذرزسشصضطظعغق
الفعل أسفلو ( وأسفل) اكمنهي (مكانيه) بتثجحخدذرزسشصضطظعغقو
الأدوات أفلو اكمنيه (مكانيه) بتثجحخدذرزسشصضطظعغقي

شرح :

  • الأسماء تقبل السوابق الآتية : همزة الاستفهام، ثم حروف العطف (و،ف) ثم حروف الجر (ب، ك، ل)، ثم أل التعريف، وتقبل من اللواحق، التأنيث (ة،ت) والتثنية والجمع (ون، ان، ين) والنسبة (ي) والإضافة (ه،ك،ي، هما، كما…).
  • الأفعال المتصرفة تقبل لواحق الاستفهام، وسين المضارع، والعطف (ف، و) واللام بأنواعها (التوكيد والأمر)، وفي اللواحق المفعول به (ك، ه، هما، كما، كم، كن، ي…).
  • وفي الأدوات: يمكن أن نجد الاستفهام (أ) والعطف (ف،و)، واللام بأنواعها، وفي اللواحق نجد الإضافة به (ك، ه، هما، كما، كم، كن، ي…).

تصنيف الحروف الزائدة في مستوى الاشتقاق

في هذا المستوى لا نعتبر الزوائد الالتصاقية

النوع الحروف السابقة الحروف اللاحقة الحروف المتوسطة الحروف الممتنعة
الاسم اأإمستن ية تادن ويط بثجحخذرزشصضظعغفقكله
الفعل (اشتقاق) اأستن - تادن ويط بثجحخذرزشصضظعغفقكله
الفعل (تصريف) أستني اتمنوي - بثجحخذرزشصضظعغفقكله

شرح

  • الأسماء تقبل السوابق الآتية : ألف الزيادة، وميم اسم الفاعل والمفعول، ونو الانفعال وسين الاستفعال وتاء التفاعل والتفعل، وحروف متوسطة للافتعال والاضطراب والازدواج وياء الفعيل وواو الفعول و تقبل حروفا لاحقة في المصدر الصناعي.
  • الأفعال عند الاشتقاق تقبل أغلب سوابق الاسم، ماعدا ميم اسم الفاعل والمفعول، وكذا الحروف المتوسطة، أما اللاحقة فليس لها لواحق.
  • أما عند التصريف فلا نعتبر حروف الاشتقاق، ونعتبر الفعل المزيد فعلا أصليا،
  • أما الأدوات فلا تشتق ولا تصرف

كما يمكن تحديد أطوال السوابق واللواحق في المستويات المختلفة

المستوى النوع أقصى طول للسابقة أقصى طول للاحقة أدنى طول للجذع
الالتصاق الاسم 4 6 2
الالتصاق الفعل 4 6 2
اشتقاق الاسم 3 2 2
اشتقاق الفعل 3 0 2
تصريف الفعل 1 2 1

هذه البيانات يمكن استعمالها كمدخلات للخوارزمية وضبطها حسب الحالة

thawab-pri/taha-stemming.txt · آخر تعديل: 2015/04/23 03:21 بواسطة 127.0.0.1

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki