مشروع اللغة العبرية

عام 2000، أطلق المركز القطري للامتحانات والتقييم مشروع اللغة العبرية، وهو يهدف إلى تطوير وسائل محوسبة لتحليل النصوص بالعبرية وتقييمها. طُوّرت حتى الآن في إطار المشروع أدوات وتطبيقات كثيرة، وهي لا تزال تخضع لعملية تحديث وتحسين مستمرة.

فيما يلي استعراض للأدوات الأساسية (يظهر وصف مُفصَّل للأدوات في موقع المشروع):

 

‎(‎1‎) ‎قوعد بيانات لغوية

أ.‎ ‎قاموس مورفولوجي يتضمن ‎نحو ‏31,000‏ مادة أساسية، ونحو ‏1,109,000‏ شكل مُحلّل مورفولوجيًّا.‎

ب‎.‎‎ ‎مجموعة نصوص (corpus) مُصنّفة يدويا تتضمن نحو 250,000‏ سلسلة كلمات.

ج‎.‎‎ ‎مجموعات نصوص مُصنّفة بشكل محوسب تتضمن 60 مليون كلمة تقريبا.

د.‎ ‎نماذج من نوع N-Gram  ‎‏ تعرض معلومات إحصائية حول تسلسل الكلمات في اللغة‎.‎

 

‎(‎2‎) ‎أدوات للتحليل اللغوي

أ.‎ ‎مُحلِّل مفردات (Tokenizer)‎‎، يُستعمَل لاكتشاف سلسلة كلمات في اللغة وتعريفها.

ب‎.‎‎ ‎محلل مورفولوجي محوسب يستنتج كلّ المعاني المورفولوجية المحتملة لسلسلة معطاة استنادا إلى القاموس المورفولوجي وإلى مجموعة قواعد التضمين خارج المعاجم.

ج‎.‎‎ ‎مُصنِّف مورفولوجي محوسَب يختار المعنى المورفولوجي الأكثر ملاءمة لسلسلة الكلمات، وذلك استنادا إلى نموذج إحصائي.‎

د.‎ ‎مُصحِّح أخطاء كتابية استنادا إلى قوانين.

هـ.‎ ‎محلِّل محتوى يستند إلى طريقة LSA‏ (‏Latent Semantic Analysis ‎‏).‎ ‎يساعد على تبديد الغموض في المعاني، ويفحص فئات خاصة بعلم المعاني ضمن مستويات مختلفة من النصّ.

و.‎ ‎مُحلِّل لغوي إحصائي يستخرج نحو 200 ميزة لغوية متعلقة بالنص (مميزات غير متعلقة باللغة، مميزات صرفية وصرفية - نحوية، مميزات معجمية، ومميزات معنوية).

ز.‎ ‎أداة لبحث نموذج لغوي تتيح إنتاج نموذج من النوع  N-Gram ‎وبحثه، وكذلك استخراج بيانات إحصائية لنصوص جديدة.

ح.‎ ‎أداة لبحث مجموعة نصوص تتيح بحثًا لغويّا ومعالجة مجموعة نصوص مُصنَّفة.

 

(3) نظام للتقييم المحوسَب للنصوص ‎ (NiteRater)‎

نظام مبنيّ على الأدوات اللغوية المذكورة في البنود السابقة وعلى مكوّنات خاصة إضافية، يُتيح تقييمًا محوسبًا للنصوص.

الباحثون المعنيّون بأبحاث اللغة العبرية والذين يريدون استخدام هذه التطبيقات عليهم التوجّه إلى طاقم المشروع عبر العنوان: hlp@nite.org.il