وحدة معالَجة اللغة

عام 2000، أنشأ المركز القطري للامتحانات والتقييم وحدة معالَجة اللغة، بهدف تطوير وسائل محوسبة لتحليل النصوص باللغتين العبرية والعربية وتقييمها. طُوّرت في الوحدة حتى الآن أدوات وتطبيقات كثيرة، وهي لا تزال تخضع لعملية تحديث وتحسين مستمرة.

فيما يلي استعراض للأدوات الأساسية (يظهر وصف مُفصَّل للأدوات في موقع الوحدة):

 

‎(‎1‎) ‎‏ قوعد بيانات لغوية

أ.‎ ‎قاموس مورفولوجي يتضمن ‎نحو ‏35,000‏ مادة أساسية، ونحو ‏1,019,460‏ شكل مُحلّل مورفولوجيًّا.‎

ب‎.‎‎ ‎مجموعة نصوص (corpus) مُصنّفة يدويا تتضمن نحو 350,500‏ سلسلة كلمات.

ج‎.‎‎ ‎مجموعات نصوص مُصنّفة بشكل محوسب تتضمن 60 مليون كلمة تقريبا.

د.‎ ‎نماذج من نوع N-Gram  ‎‏ تعرض معلومات إحصائية حول تسلسل الكلمات في اللغة‎.‎

 

‎(‎2‎) ‎‏ أدوات للتحليل اللغوي

أ.‎ ‎مُحلِّل مفردات (Tokenizer)‎‎، يُستعمَل لاكتشاف سلسلة كلمات في اللغة وتعريفها.

ب‎.‎‎ ‎محلل مورفولوجي محوسب يستنتج كلّ المعاني المورفولوجية المحتملة لسلسلة معطاة استنادا إلى القاموس المورفولوجي وإلى مجموعة قواعد التضمين خارج المعاجم.

ج‎.‎‎ ‎مُصنِّف مورفولوجي محوسَب يختار المعنى المورفولوجي الأكثر ملاءمة لسلسلة الكلمات، وذلك استنادا إلى نموذج إحصائي.‎

د.‎ ‎مُصحِّح أخطاء كتابية استنادا إلى قوانين.

هـ.‎ ‎محلِّل محتوى يستند إلى طريقة LSA‏ (‏Latent Semantic Analysis ‎‏).‎ ‎يساعد على تبديد الغموض في المعاني، ويفحص فئات خاصة بعلم المعاني ضمن مستويات مختلفة من النصّ.

و.‎ ‎مُحلِّل لغوي إحصائي يستخرج نحو 250 ميزة لغوية متعلقة بالنص (مميزات غير متعلقة باللغة، مميزات صرفية وصرفية - نحوية، مميزات معجمية، ومميزات معنوية).

ز.‎ ‎أداة لبحث مجموعة نصوص تتيح بحثًا لغويّا ومعالجة مجموعة نصوص مُصنَّفة.

 

(3) نظام للتقييم المحوسَب للنصوص ‎ (NiteRater)‎

نظام مبنيّ على الأدوات اللغوية المذكورة في البنود السابقة وعلى مكوّنات خاصة إضافية، يُتيح تقييمًا محوسبًا للنصوص.

الباحثون المشتغلون في بحث اللغات الذين يريدون استخدام هذه التطبيقات عليهم التوجّه إلى طاقم الوحدة عبر العنوان: hlp@nite.org.il