היחידה לעיבוד שפה

היחידה לעיבוד שפה הוקמה על ידי המרכז הארצי לבחינות ולהערכה (מאל"ו) בשנת 2000 והיא עוסקת בפיתוח כלים ממוחשבים לניתוח ולהערכה של טקסטים בעברית ובערבית. עד כה פותחו במסגרת היחידה כלים ויישומים רבים, והם מצויים בתהליך מתמיד של עדכון ושיפור.

להלן סקירה של הכלים העיקריים (תיאור מפורט של הכלים מופיע באתר היחידה):

(1) מאגרים לשוניים

א. מילון מורפולוגי המכיל כ-35,000 ערכים בסיסיים וכ-1,019,460 צורות מנותחות מורפולוגית.

ב. קורפוס מתויג באופן ידני הכולל כ-350,500 מחרוזות מילים.

ג. קורפוסים מתויגים באופן ממוחשב הכוללים כ-60 מיליון מילים.

ד. מודלים מסוג N-Gram המייצגים מידע סטטיסטי על רצפי מילים בשפה.

(2) כלים לניתוח לשוני

א. מפריד תמניות (Tokenizer) המשמש לזיהוי ולהגדרה של מחרוזות בשפה.

ב. מנתח מורפולוגי ממוחשב המפיק את כל הפירושים המורפולוגיים האפשריים עבור מחרוזת נתונה בהתבסס על המילון המורפולוגי ועל אוסף כללי הצטרפות חוץ-מילוניים.

ג. מתייג מורפולוגי ממוחשב הבוחר את הפירוש המורפולוגי הסביר ביותר למחרוזת בהתבסס על מודל סטטיסטי.

ד. מתקן שגיאות כתיב מבוסס חוקים.

ה. מנתח תוכן המבוסס על שיטת Latent Semantic Analysis) LSA). מסייע בהפגת עמימות סמנטית ובודק קטגוריות סמנטיות ברמות טקסט שונות.

ו. מנתח לשוני סטטיסטי המפיק כ-250 מאפיינים לשוניים של טקסט (מאפייני שטח, מאפיינים מורפולוגיים ומורפו-סינטקטיים, מאפיינים לקסיקליים ומאפיינים סמנטיים).

ז. כלי לחקירת קורפוס המאפשר חקירה לשונית ועיבוד של אוסף טקסטים מתויגים.

(3) מערכת להערכה ממוחשבת של טקסטים (NiteRater)

מערכת המתבססת על הכלים הלשוניים שהוזכרו בסעיפים הקודמים ועל רכיבים ייחודיים נוספים ומאפשרת הערכה ממוחשבת של טקסטים.

חוקרים העוסקים בחקר שפה ומעוניינים להשתמש ביישומים אלו לצורך מחקר מוזמנים לפנות לצוות היחידה בכתובת: hlp@nite.org.il.