פרויקט השפה העברית הושק על ידי המרכז הארצי לבחינות ולהערכה (מאל"ו) בשנת 2000 והוא עוסק בפיתוח כלים ממוחשבים לניתוח ולהערכה של טקסטים בעברית. עד כה פותחו במסגרת הפרויקט כלים ויישומים רבים, והם מצויים בתהליך מתמיד של עדכון ושיפור.

להלן סקירה של הכלים העיקריים (תיאור מפורט של הכלים מופיע באתר הפרויקט):

 

(1) מאגרים לשוניים

א. מילון מורפולוגי המכיל כ-31,000 ערכים בסיסיים וכ-1,109,000 צורות מנותחות מורפולוגית.

ב. קורפוס מתויג באופן ידני הכולל כ-250,000 מחרוזות מילים.

ג. קורפוסים מתויגים באופן ממוחשב הכוללים כ-60 מיליון מילים.

ד. מודלים מסוג N-Gram המייצגים מידע סטטיסטי על רצפי מילים בשפה.

 

(2) כלים לניתוח לשוני

א. מפריד תמניות (Tokenizer) המשמש לזיהוי ולהגדרה של מחרוזות בשפה.

ב. מנתח מורפולוגי ממוחשב המפיק את כל הפירושים המורפולוגיים האפשריים עבור מחרוזת נתונה בהתבסס על

    המילון המורפולוגי ועל אוסף כללי הצטרפות חוץ-מילוניים.

ג. מתייג מורפולוגי ממוחשב הבוחר את הפירוש המורפולוגי הסביר ביותר למחרוזת בהתבסס על מודל סטטיסטי.

ד. מתקן שגיאות כתיב מבוסס חוקים.

ה. מנתח תוכן המבוסס על שיטת Latent Semantic Analysis) LSA). מסייע בהפגת עמימות סמנטית ובודק

   קטגוריות סמנטיות ברמות טקסט שונות.

ו. מנתח לשוני סטטיסטי המפיק כ-200 מאפיינים לשוניים של טקסט (מאפייני שטח, מאפיינים מורפולוגיים ומורפו-

   סינטקטיים, מאפיינים לקסיקליים ומאפיינים סמנטיים).

ז. כלי לחקירת מודל שפה המאפשר יצירת מודל מסוג N-Gram וחקירתו, וכן הפקת נתונים סטטיסטיים לטקסטים

   חדשים.

ח. כלי לחקירת קורפוס המאפשר חקירה לשונית ועיבוד של אוסף טקסטים מתויגים.

 

 

(3) מערכת להערכה ממוחשבת של טקסטים (NiteRater)

מערכת המתבססת על הכלים הלשוניים שהוזכרו בסעיפים הקודמים ועל רכיבים ייחודיים נוספים ומאפשרת הערכה ממוחשבת של טקסטים.

 

 

כתובת אתר הפרויקט: https://hlp.nite.org.il
חוקרים העוסקים בחקר השפה העברית ומעוניינים להשתמש ביישומים אלה לצורך מחקר מוזמנים לפנות לצוות הפרויקט בכתובת: This e-mail address is being protected from spambots. You need JavaScript enabled to view it. .