نظریه ی سوال پاسخ(item response theory)
نظریه سؤال پاسخ1 یکی از پیشرفتهترین نظریههای
اندازهگیری و نقطه مقابل نظریه کلاسیک است. زیرا برخلاف این نظریه بر نمره سؤالها
و نه نمره کل تست بنا شده است (بیکر، 1381/2002). در IRT برای تحلیل دادههای به دست آمده از
مقیاسها و پرسشنامهها از مدلهای ریاضی استفاده میشود. به مدلهای IRT اغلب مدلهای خصیصه
مکنون2 نیز گفته میشود. اصطلاح مکنون برای تأکید بر پاسخهای پیوسته سؤالی به کار
میرود که در واقع نشانگر مشاهدهپذیر خصائص یا رگههایی است که فرض میشود وجود
دارد و باید از پاسخها استخراج شود.
) و پارامترهای سؤال (دشواری، قدرت تشخیص و حدس) مشخص میکند. به بیاندیگر، مدلهای IRT مبنایی برای
برآورد آماری پارامترهایی است که بیانگر جایگاه آزمودنیها بر روی پیوستار مکنون،
یا به گونه دقیقتر، اندازه خصیصه مکنونی است که به آزمودنیها و سؤالها نسبت داده
میشود. وقتی برآورد پارامترهای مربوط به دست آمد، برای تعیین اندازه و قدرت
پیشبینی پاسخهای
سؤال، بر اساس یک مدل معین، از آزمونهای آماری استفاده میشود. آزمونهای آماری برای تعیین این مطلب به کار میروند که مدل مورد نظر برای
برآورد پارامترها تا چه حد میتواند ساختار الگوهای آماری موجود در دادهها را، یا به گونه کلی، و یا با در نظر گرفتن زیر
مجموعه خاصی از دادهها مانند بردار پاسخ مربوط به سؤالها و آزمودنیهای
منفرد اندازهگیری
کند (امبرتسون و رایس، 2000).qمدلهای IRT توابع ریاضی هستند که احتمال یک برونشد3
پیوسته، مانند پاسخ درست به یک سؤال را بر اساس پارامترهای آزمودنی (توانایی،
مفروضههای اساسی IRT
1) نخستین مفروضه IRT
اشاره به این مطلب دارد که یک عامل مشترک4، همه کوورایانسهای سؤال را توجیه میکند. این
عامل مشترک در واقع خصیصه مکنون مورد نظر است که در ادبیات روانسنجی معمولاًبه دو گونه بیان
میشود:
الف) تکبعدی بودن5 :
یعنی یک و فقط یک عامل مشترک یا خصیصه مکنون وجود دارد که همبستگیهای درونی سؤال
را توجیه میکند،
ب) استقلال مکانی6 : یعنی اگر عامل مشترک تا اندازهای از دو سؤال خارج شود، کوواریانس پسماند7 آنها
برابر با صفر خواهد بود. به بیان دیگر، پس از کنترل یک یا چند عامل مشترک، پاسخهای
سؤال، ناهمبسته یا مستقل از یکدیگر هستند (امبرستون، 1996؛ هامبلتون، سوامینتان و
راجرز، 1991).
2) بر پایه مفروضه دوم، مدلهای پارامتریکIRT توابعی هستند که به گونه تکنوا8 افزایش مییابند (یعنی
احتمال پاسخ درست به سؤال با افزایش سطح خصیصه مکنون بیشتر میشود). این مفروضه را میتوان از طریق نمودار نمرههای میانگین سؤال بر روی نمرههای باقیمانده9 بررسی کرد (امبرستون و
رایس، 2000؛ مولنار و سیجتسما، 2000).
3) رابطه بین خصیصه مکنون و پاسخ مشاهده شده شکل معینی دارد (لرد، 1980؛ امبرستون،
1996). خطی که خصیصه مکنون و احتمال پاسخ را به یکدیگر مربوط میسازد خم ویژه سؤال1 نام دارد.
مدل استاندارد ریاضی که برای خم ویژه سؤال به کار میرود شکل تراکمی تابع منطقی2
است. این تابع، خانوادهای از خمها را تعریف میکند که به سبب سادگی کار با آن بر
سایر مدلها ترجیح داده شد (بیکر، 1381/2003).
مفاهیم نظریه سؤالپاسخ
الف) خم ویژه سؤال: بر پایه نظریه سؤال پاسخ براى هر سطح از توانایى، احتمال معینى وجود دارد كه بهدست آوردن
پاسخ درست به سؤال توسط امتحانشونده را در آن سطح مشخص مىسازد. این احتمال كه با
نماد نشان داده مىشود. چنانچه مقادیر به عنوان تابع توانایى رسم شود، نتیجه یک
خم هموار خواهد بود (نمودارهای شکل 1). احتمال پاسخ درست در پایینترین سطوح
توانایى نزدیك به صفر است، و بعد از آن افزایش مىیابد تا وقتى كه سطح توانایى به
بالاترین حد خود مىرسد. در این هنگام احتمال پاسخ درست نزدیك به 1/0 خواهد بود.
هر یك از سؤالهاى منفرد سازنده تست داراى یك خم ویژه خاص آن سؤال است.
ب) پارامترهای سؤال: خم ویژه سؤال دارای سه پارامتر است كه براى توصیف آن بهكار
مىرود. 1) پارامتر دشوارى سؤال (b) جایگاه سؤال را در مقیاس توانایى توصیف مىكند و متناظر با
نقطهاى است كه براى آن باشد. وقتى سؤال آسان باشد این مقدار در سطح پایین
توانایى، و زمانى كه سؤال دشوار باشد این مقدار در سطح بالاى توانایى قرار دارد
مقادیر درجه دشواری سه سؤال مختلف در نمودار الف شکل 1 نشان داده شده است، 2) قدرت
تشخیص سؤال(a)
نشان مىدهد سؤال تا چه اندازه مىتواند بین امتحانشوندگانى كه توانایى آنها
پایینتر از جایگاه سؤال است با امتحانشوندگانى كه توانایى آنها بالاتر از این
جایگاه قرار دارد، تمایز ایجاد كند. این ویژگى اساساً منعكسكننده شیب خم ویژه
سؤال در بخش میانى آن است. هر چه شیب خم زیادتر باشد، قدرت تشخیص سؤال بیشتر است و
مقادیر قدرت تشخیص سه سؤال مختلف در نمودار ب شکل 1 نشان داده شده است و 3)
پارامتر حدس (c) بیانگر به دست آوردن پاسخ درست سؤال از طریق حدس محض و در واقع
مجانب پایین خم یا نقطه پایینی آن وقتی است که به سمت اعداد منفی در محور توانایی
حرکت میکند. مقدار (c) به عنوان تابعى از سطح توانایى تغییر نمىكند. از
این رو، احتمال به دست آوردن پاسخ درست از طریق حدس براى آزمودنیهایى كه داراى
بالاترین و پایینترین سطح توانایى باشند، یكسان است. مقادیر حدس سه سؤال مختلف در
نمودار پ شکل 1 نشان داده شده است.
پ) پارامتر آزمودنی: پارامتر آزمودنی بیانگر مقدار خصیصه مکنون در فرد یا جایگاه
وی در مقیاس توانایی است. برآورد پارامتر آزمودنی براساس نمره کل فرد در اندازهگیری به دست
میآید. این نمره
در واقع نمره وزندار فرد بر پایه مدلی است که شامل پارامترهای تشخیص باشد (هامبلتون و
دیگران، 1991). معمولاً در دو مورد نمىتوان توانایى آزمودنی را برآورد كرد. نخست
زمانى كه آزمودنى به هیچ یك از سؤالها پاسخ درست ندهد كه برآورد توانایى متناظر با
آن بىنهایت منفى است. دوم زمانى كه آزمودنى به همه سؤالها پاسخ درست دهد كه
برآورد توانایى متناظر با آن بىنهایت مثبت است (بیکر، 1381/2002).
ت) نامتغیر بودن3 پارامترها: بنا بر نظریه سؤال پاسخ،
پارامترهای سؤال در بین گروههای مختلف نامتغیر است. به بیاندیگر، اگر این پارامترها در گروههای نمونه مختلف
برآورد شود، باید مقادیر یکسانی داشته باشند. زیرا بنا بر تعریف، چنانچه قسمتی از
خم در اختیار باشد، میتوان بقیه آن (یعنی مقادیر مورد انتظار) را به دست آورد (هالین و دیگران،
1983). بدین ترتیب پارامترهاى سؤال وابسته به سطح توانایى امتحانشوندگان نیست. از
این رو، رها از گروه نمونه4 و در واقع ویژگى خاص خود سؤال و نه ویژگى گروهى است
كه به آن پاسخ دادهاند (بیکر، 1381/2002). چنانكه لرد (1980) نیز بیان مىكند
ثبات و عدم تغییر پارامترهاى سؤال در بین گروههاى مختلف یكى از مهمترین ویژگیهاى
نظریه سؤال پاسخ
است. زیرا این انتظار وجود دارد كه پارامترها یا مشخصههاى سؤال توصیفكننده سؤال
و تست باشد، و گروه مورد سنجش از طریق پارامترهاى توانائى توصیف و تبیین شوند. این
اصل امکان بررسی سهم هر سؤال را به گونه انفرادی و نیز تصمیمگیری در بار حذف یا
اضافه نمودن آن را در تست فراهم میآورد.
افزون بر این، توانایی آزمودنی نیز نسبت به سؤالهایى كه براى برآورد آن بهكار
مىرود، نامتغیر است. در اینجا براى روشنشدن مطلب بهتر است به مطالعه لرد (1980)
اشاره شود. لرد دو آزمون سنجش خزانه واژگان را روى 1830 نفر اجرا و مشاهده كرد
كه رابطه بین نمرههاى توانائیهاى حاصل از این دو تقریباً یك خط راست است. اگر دو
تست براى هر فرد توانائى یكسانى برآورد كند، قاعدتاً نتیجه یك خط راست با رابطه
كامل را به نمایش مىگذارند. یعنى توانائى آزمودنیها كه براساس نظریه سؤال
پاسخ به دست آمده است، تأثیر
چندانى از ویژگیهاى سؤالهاى دو تست نمىپذیرد.
ث) آگاهی1: یکی از ویژگیهای برجسته IRT مفهوم اعتبار است. به گونه سنتی، اعتبار به دقت
اندازهگیری (میزانی از اندازهگیری که رها از خطاست) اشاره دارد. اما بر پایه IRT، دقت در بین دامنه
نمرههای تست یکسان نیست. برای نمونه، نمرهها در دامنههای کناری تست نسبت به نمرههایی که به دامنه میانی نزدیکتر است، به گونه کلی
خطای بیشتری دارد. آگاهی از لحاظ آماری به معنای مفهوم مقابل میزان دقت در برآورد
یک پارامتر است. از این رو، IRT، مفهوم آگاهی (به معنای کاهش عدم
حتمیّت2) سؤال و تست را توسعه داده و جایگزین اعتبار کرده است (امبرستون و رایس،
2000؛ هامبلتون و دیگران، 1991؛ رایت، 1992). چون در این نظریه هر یك از سؤالهاى
تست، صفت مكنون زیربنایى را اندازه مىگیرد، در نتیجه مقدار آگاهى مبتنى بر یك
سؤال منفرد است و مىتوان آن را براى هر یك از سطوح توانایى محاسبه كرد. چون هر
تست به منظور برآورد توانایی آزمودنی به کار میرود، مقدار آگاهى را که آن تست در
هر یک از سطوح توانایی به دست میدهد نیز میتوان محاسبه کرد. افزون بر این، چون
هر تست شامل یك مجموعه سؤال است، بنابراین آگاهى تست در هر سطح معینى از توانایى
برابر با جمع ساده آگاهیهاى سؤال در آن سطح خواهد بود.
مزایا و کاربرد IRT
1) IRT خطای استاندارد اندازهگیری را بر مبنای
تابع آگاهی تست، و نه متوسط خطای استاندارد برای همه سطوح توانایی در نظریه کلاسیک
اندازهگیری، برآورد میکند. این مطلب به متخصصان اجازه میدهد تا سؤالهایی را
برگزینند که در دامنه خاصی از توانایی یا خصیصه را با بیشترین دقت اندازهگیری
کنند.
2) بر پایه IRT ین امکان وجود دارد که آزمونهای دقیقی برای اندازهگیری همارزی3 گروههای مختلف تجربی به
عمل آید. این امکان، به ویژه در پژوهشهای بین فرهنگی که انتظار میرود خصیصه مورد اندازهگیری در گروههای مختلف، میانگین متفاوتی داشته
باشند از اهمیت زیادی برخوردار است.
3) روشهای IRT میتواند تورش1 سؤال را از تفاوتهای حقیقی در خصیصه اندازهگیری شده متمایز سازد. اگر خم
ویژه سؤال برای دو جامعه یکسان باشد، سؤال تورشدار نخواهد بود. اما اگر خم ویژه سؤال یکسان نباشد،
به معنای آن است که رفتار و کارکرد سؤال در گروههای مختلف متفاوت است (کیم، کوهن و
پارک، 1995).
4) IRT امکان سنجش برازشیافته2 را فراهم میآورد که در آن برآورد نمره حقیقی بر مبنای تعداد
پاسخهای درست قرار ندارد. این مطلب به پژوهشگران اجازه میدهد تا به افراد مختلف، سؤالهای متفاوتی بدهند اما
جایگاه آنان کماکان در یک مقیاس قرار داشته باشد.
5) IRT سنجش انطباقی3 رایانهای را تسهیل
میسازد. بدین
ترتیب، سؤالهایی انتخاب میشوند که برای هر آزمودنی بیشینه آگاهی را به دست میدهد. این امکان میتواند به گونه چشمگیری هزینه و زمان اجرای تست را
کاهش دهد (هالین و دیگران، 1983).
6) نمرههاى حقیقى در نظریه کلاسیک اندازهگیری دامنه محدودى دارد و محصور به تعداد سؤالهاى
تست است. در حالى كه در IRT ، خصیصه مكنون (θ) دامنهاى از بینهایت منفی تا بینهایت مثبت را مىپذیرد.
7) در IRT امكان وزندهى دقیق و اصولى به سؤالها وجود دارد. در نتیجه به همه
سؤالها نمره یكسانى داده نمیشود.
8) پارامترهای سؤال و آزمودنی در یک مقیاس مشترک و واحد بیان میشود، و در نتیجه
تطبیق دشواری و تناسب هر سؤال با توانایی افراد آسانتر خواهد بود.
9) در نظریه کلاسیک مقیاس اندازهگیری حداکثر فاصلهای و حتی احتمالاً در مواردی
رتبهای است. در حالی که روشهای IRT ممکن است حتی مقیاس نسبتی ایجاد کنند.
منابع
بیکر، اف. بی. (1381). پایههای اساسی تئوری سؤالپاسخ (نظریههای جدید روانسنجی). ترجمه: حیدرعلی هومن و علی عسگری. تهران: نشر پارسا (تاریخ انتشار
اثر اصلی، 2002).
Emberston, S. E. (1996). Item response theory models
and spurious interaction effects in factorial ANOVA designs. Applied
Psychological Measurement, 20, 201-
212.
Emberston, S. E., & Reise,
S. P. (2000). Item response theory for
psychologists.
Mahwah, NJ: Laurence Erlbaum Associates, INC.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals
of item response theory. Newbury Park, CA: Sage Press.
Hulin, C. L., Drasgow, F., & Parsons, C. K. (1983). Item response theory: Applications to
psychological measurement. Homewood IL: Dow Jones-Irwin