איכות בחינת מתא"ם:

מהימנות ותוקף

מהימנות ותוקף הם שניים ממאפייני היסוד שלפיהם נמדדת איכותם של מבחנים. מהימנות של מבחן מבטאת את המידה שבה תוצאות המבחן הן יציבות או עקביות. תוקף מבטא את המידה שבה המבחן מודד את מה שהוא מיועד למדוד (פירוט נוסף על המושגים הללו ניתן למצוא בדף מהימנות ותוקף של בחינות מיון והשמה, שמסביר על השיטות השונות לאמידת המהימנות והתוקף, שחלקן יוצגו להלן).

מהימנות

נתוני המהימנות שלהלן מתייחסים לנבחנים בשנים 2021-2017 (5,216 נבחנים).

מהימנות כעקיבות פנימית משקפת עד כמה הציון יציב כאשר השאלות משתנות. מהימנות זו מחושבת לכל מועד באמצעות נוסחת מקדם אלפא של קרונבך. המהימנות הממוצעת[1] של מועדים 2021-2017 הייתה 0.91 לבחינה כולה, 0.85 לחלק של ידע והבנה בסטטיסטיקה ובשיטות מחקר ("חלק המתודולוגיה") ו-0.85 לחלק של הבנת טקסטים ("חלק הטקסטים"). ערכים דומים מתקבלים בכל מועד בנפרד.

מהימנות בין מעריכים משקפת עד כמה הציון יציב כאשר המעריכים משתנים. מהימנות זו נבדקה ביחס לשאלות הפתוחות (ארבע שאלות בחלק המתודולוגיה שעוסקות בביקורת מחקרים). כל שאלה פתוחה מוערכת בידי שני מעריכים, והציון הסופי בשאלה הוא ממוצע הציונים שנתנו שני המעריכים. מהימנות הציון הסופי בשאלה מחושבת באמצעות המתאם בין ציוני שני המעריכים, מתוקן באמצעות נוסחת ספירמן-בראון. המהימנות הממוצעת של מועדים 2021-2017 בשאלות הפתוחות (ממוצע של ארבע השאלות) הייתה 0.96. ערכים דומים מתקבלים בכל מועד בנפרד.

מהימנות מבחן חוזר (עם נוסחים מקבילים) משקפת עד כמה הציון יציב כאשר השאלות, זמני ההיבחנות והמעריכים משתנים. מדד זה למהימנות מחושב כמתאם בין הציונים שהתקבלו בשתי היבחנויות של אותם נבחנים - בזמנים שונים, בנוסחים שונים של המבחן ועם מעריכים שונים. המתאמים בין הציונים בשתי ההיבחנויות הראשונות של הנבחנים החוזרים (476 נבחנים) בין השנים 2021-2017 היו: 0.75 לבחינה כולה, 0.67 לחלק המתודולוגיה, ו-0.71 לחלק הטקסטים[2].

מדדי המהימנות השונים משקפים מהימנות גבוהה. בעיקרון, הערכת גובה המהימנות תלויה במדד המחושב (ככל שהמדד רגיש למקורות רבים יותר של תנודות אפשריות בציונים, כך הוא צפוי להיות נמוך יותר), אך ככלל מקדמי מהימנות העולים על 0.80 נחשבים נאותים למבחנים סטנדרטיים. לצרכים מעשיים רק מהימנות הציון הכללי במתא"ם היא החשובה, והערכים המדווחים עבורה היו, כאמור: מהימנות כעקיבות פנימית של 0.91 ומהימנות מבחן חוזר של 0.75. הערך האחרון מושפע ממרבית המקורות האפשריים לחוסר יציבות של הציון וככזה האומדן שהוא נותן למהימנות הציון הוא מחמיר. בנוסף, חשוב לציין שהסטנדרט של 0.80 למהימנות מבחן חוזר רלוונטי למדידה של תכונה יציבה. מאחר שבחינת מתא"ם כוללת אלמנט של ידע (שלא ניתן להגדירו כתכונה יציבה), ושפרק הזמן שבין ההיבחנויות הוא ארוך יחסית (שנה לפחות), מהימנות של 0.75 נחשבת לטובה.

תוקף 

להלן מספר ראיות לכך שבחינת מתא"ם מודדת את מה שהיא מיועדת למדוד - ידע ומיומנויות שנרכשים במהלך לימודי התואר הראשון בפסיכולוגיה, הרלוונטיים להצלחה בלימודים לתארים מתקדמים בפסיכולוגיה.

ראיות שמבוססות על תוכן המבחן מתקבלות מניתוח לוגי של הקשר בין תוכן הבחינה ובין מה שהיא מיועדת למדוד. בעניין זה נעשה מאמץ מתמיד ליישור (alignment) בין תוכן הבחינה ללימודי התואר הראשון. הפיתוח של בחינת מתא"ם מלווה, מאז כינונה, על ידי ועדה המורכבת מנציגי המוסדות המקיימים לימודים לתארים מתקדמים בפסיכולוגיה. ועדה זו קבעה את מבנה הבחינה ואת התכנים שייכללו בה, כך שייצגו בצורה הטובה ביותר את הידע והמיומנויות הנרכשים במהלך לימודי התואר הראשון בפסיכולוגיה: ידע והבנה בסטטיסטיקה ובשיטות מחקר, חשיבה ביקורתית על מערכי מחקר בפסיכולוגיה, הבנת טקסטים מדעיים בפסיכולוגיה וכן שליטה במושגים ותאוריות מתחומי הפסיכולוגיה השונים. מעבר לקביעה הראשונית של מבנה הבחינה ותכניה, מתעדכנים בכל שנה התכנים והנושאים המופיעים בה לאור שינויים בתכני הסילבוסים של קורסי החובה במוסדות השונים כדי שישקפו בצורה המיטבית את התכנים והדגשים המרכזיים בלימודי התואר הראשון בפסיכולוגיה. בנוסף להחלטות העקרוניות על נושאים שייבדקו בבחינה, יש הקפדה על התאמת השאלות הספציפיות בכל נוסח בחינה לתכנים הנדרשים. השאלות לבחינה נכתבות על ידי אנשי יחידת מתא"ם במרכז הארצי לבחינות ולהערכה ומוגהות על ידי מתרגלים בקורסי התואר הראשון בפסיכולוגיה (תלמידי או בעלי תואר שני או שלישי בפסיכולוגיה) ממוסדות לימוד מגוונים, השולטים היטב בנושאי הבחינה. כמו כן, חברי סגל אקדמי ממוסדות הלימוד השונים עוברים בכל שנה על השאלות המופיעות בבחינה ומאשרים אותן.

סוג נוסף של ראיות הוא ראיות שמבוססות על המבנה הפנימי של המבחן, שמעידות על המידה שבה הקשר בין חלקי המבחן תואם למבנה המשוער של התכונה שמבקשים למדוד. המתאם שהתקבל בין הציון בחלק המתודולוגיה לציון בחלק הטקסטים (בהתבסס על המדגם שממנו התקבלו נתוני המהימנות) הוא 0.69 - מתאם גבוה, אך לא מושלם, שמעיד שהבחינה אמנם מודדת תחומי דעת קשורים אך מובחנים.

הראיות שהן קרוב לוודאי החשובות ביותר בהקשר של מבחן שמשמש לברירה, הן ראיות על קשרי מבחן - קריטריון ("תוקף ניבוי"), שהן חלק מהראיות המבוססות על קשרים עם משתנים אחרים, ומספקות מידע על עוצמת הקשר בין הציון במבחן ובין המשתנה שאותו הוא אמור לנבא (הקריטריון). במחקר שנעשה בקרב מסיימי תואר שני בפסיכולוגיה בחמש אוניברסיטאות בישראל בשנים 2017-2006 (1,031 תצפיות) נמצא שתוקף הניבוי של הציון הכללי במתא"ם מול ממוצע הציונים בתואר השני הוא 0.36[3], ערך שמתיישב עם ממצאים טיפוסיים בנוגע לתוקף מבחנים מקבילים (מבחני הנושא ב-GRE) בניבוי ציון הגמר בלימודים מתקדמים (Kuncel, Hezlett, & Ones, 2001). תוקף הניבוי במגמות המחקריות[4] (0.38) היה דומה מאוד לתוקף הניבוי במגמות הטיפוליות (0.36). כמו כן נמצא שהציון הכללי במתא"ם מתואם גם עם קריטריונים נוספים, ובפרט עם ממוצע הציונים בקורסי החובה המתודולוגיים (0.39) ועם ממוצע הציונים בקורסים אחרים (0.33)[5]. הממצאים הללו מעידים שהציון במתא"ם מנבא הצלחה לא רק בקורסים מתודולוגיים, אלא גם בקורסים בעלי תוכן רחב ומגוון יותר.

ראיות מתכנסות ומבחינות משקפות גם הן קשרים עם משתנים אחרים, כאשר ראיה מתכנסת היא מתאם גבוה בין ציוני המבחן למדדים אחרים שמיועדים למדוד את אותה תכונה, וראיה מבחינה היא מתאם נמוך בין ציוני המבחן למדדים שמיועדים למדוד תכונות אחרות. בהקשר של בחינת מתא"ם התקבלו ראיות מתכנסות ומבחינות לתוקף שני חלקי הבחינה: נמצא שכאשר הקריטריון הוא ממוצע הציונים בקורסי החובה המתודולוגיים, המתאם שלו עם חלק המתודולוגיה גבוה (0.41) מהמתאם עם חלק הטקסטים (0.36). מנגד, כאשר הקריטריון הוא ממוצע הציונים בקורסים אחרים, המתאם שלו עם חלק הטקסטים גבוה (0.32) מהמתאם עם חלק המתודולוגיה (0.28). ראיות אלה מעידות שחלק המתודולוגיה מודד ידע והבנה בסטטיסטיקה ובשיטות מחקר, בעוד שחלק הטקסטים מתמקד ביכולת קריאה ביקורתית של טקסטים מדעיים מתחומי הפסיכולוגיה השונים. שני חלקי הבחינה ביחד בודקים, אם כן, את התכנים והמיומנויות שהבחינה מיועדת למדוד.

הראיות השונות לתוקף בחינת מתא"ם תומכות במסקנה שציון הבחינה אמנם משקף ידע ומיומנויות שנרכשו בלימודי התואר הראשון בפסיכולוגיה, ומספקות הצדקה לשימוש בו בברירה ללימודי התואר השני בפסיכולוגיה.

מקורות

Kuncel, N. R., Hezlett, S. A., & Ones, D. S. (2001). A comprehensive meta-analysis of the predictive validity of the graduate record examinations: Implications for graduate student selection and performance. Psychological Bulletin, 127, 162-181.

[1] מהימנות כעקיבות פנימית ומהימנות בין מעריכים חושבו בתוך מועד בחינה ומוצעו בשקלול על פי מספר הנבחנים בכל מועד. בשאר המקרים חושבו קשרים בין ציוני הבחינה מעבר למועדי בחינה.

[2] המתאמים הם לאחר תיקון סטטיסטי לקיצוץ תחום, שנעשה כיוון שטווח הציונים בקרב נבחנים חוזרים הוא מצומצם יחסית לכלל הנבחנים ולפיכך מחליש את המתאם.

[3] המתאמים הם לאחר תיקון סטטיסטי לקיצוץ תחום, שנעשה כיוון שטווח הציונים בקרב הלומדים הוא מצומצם יחסית למועמדים, שהם הקבוצה הרלוונטית לאמידת תוקף הניבוי.

[4] המגמות המחקריות כללו את המגמות הבאות: קוגניטיבית, קוגניציה ומוח, פסיכוביולוגית, חברתית, ארגונית ותעסוקתית. המגמות הטיפוליות כללו את המגמות הבאות: קלינית, קלינית של הילד, קלינית-חינוכית, שיקומית, נוירופסיכולוגית והתפתחותית.

[5] נתונים אלו וכן הנתונים שיובאו להלן על חלקי הבחינה מבוססים על מדגם חלקי קטן יותר (977 תצפיות), שבו תוקף הניבוי של הציון הכללי במתא"ם מול ממוצע הציונים בתואר השני הוא 0.38.