مطالب زیر از وب لاگ http://babakrahbari.mihanblog.com/post/469 عینا کپی شده است.

نظریه سؤال پاسخ1 یکی از پیشرفته‌ترین نظریه‌های اندازه‌گیری و نقطه مقابل نظریه کلاسیک است. زیرا برخلاف این نظریه بر نمره سؤالها و نه نمره کل تست بنا شده است (بیکر، 1381/2002). در IRT برای تحلیل داده‌های به دست آمده از مقیاسها و پرسشنامه‌ها از مدلهای ریاضی استفاده می‌شود. به مدلهای IRT اغلب مدلهای خصیصه مکنون2 نیز گفته می‌شود. اصطلاح مکنون برای تأکید بر پاسخهای پیوسته سؤالی به کار می‌رود که در واقع نشانگر مشاهده‌پذیر خصائص یا رگه‌هایی است که فرض می‌شود وجود دارد و باید از پاسخها استخراج شود.
) و پارامترهای سؤال (دشواری، قدرت تشخیص و حدس) مشخص می
کند. به بیاندیگر، مدلهای IRT مبنایی برای برآورد آماری پارامترهایی است که بیانگر جایگاه آزمودنیها بر روی پیوستار مکنون، یا به گونه دقیقتر، اندازه خصیصه مکنونی است که به آزمودنیها و سؤالها نسبت داده میشود. وقتی برآورد پارامترهای مربوط به دست آمد، برای تعیین اندازه و قدرت پیشبینی پاسخهای سؤال، بر اساس یک مدل معین، از آزمونهای آماری استفاده میشود. آزمونهای آماری برای تعیین این مطلب به کار میروند که مدل مورد نظر برای برآورد پارامترها تا چه حد میتواند ساختار الگوهای آماری موجود در دادهها را، یا به گونه کلی، و یا با در نظر گرفتن زیر مجموعه خاصی از دادهها مانند بردار پاسخ مربوط به سؤالها و آزمودنیهای منفرد اندازهگیری کند (امبرتسون و رایس، 2000).
qمدلهای IRT توابع ریاضی هستند که احتمال یک برونشد3 پیوسته، مانند پاسخ درست به یک سؤال را بر اساس پارامترهای آزمودنی (توانایی،  
مفروضه‌های اساسی IRT

1) نخستین مفروضه
IRT اشاره به این مطلب دارد که یک عامل مشترک4، همه کوورایانسهای سؤال را توجیه میکند. این عامل مشترک در واقع خصیصه مکنون مورد نظر است که در ادبیات روانسنجی معمولاًبه دو گونه بیان میشود: 
الف) تک
بعدی بودن5 : یعنی یک و فقط یک عامل مشترک یا خصیصه مکنون وجود دارد که همبستگیهای درونی سؤال را توجیه میکند، ب) استقلال مکانی6 : یعنی اگر عامل مشترک تا اندازهای از دو سؤال خارج شود، کوواریانس پسماند7 آنها برابر با صفر خواهد بود. به بیان دیگر، پس از کنترل یک یا چند عامل مشترک، پاسخهای سؤال، ناهمبسته یا مستقل از یکدیگر هستند (امبرستون، 1996؛ هامبلتون، سوامینتان و راجرز، 1991). 
2) بر پایه مفروضه دوم، مدلهای پارامتریک
IRT توابعی هستند که به گونه تکنوا8 افزایش مییابند (یعنی احتمال پاسخ درست به سؤال با افزایش سطح خصیصه مکنون بیشتر میشود). این مفروضه را میتوان از طریق نمودار نمرههای میانگین سؤال بر روی نمرههای باقیمانده9 بررسی کرد (امبرستون و رایس، 2000؛ مولنار و سیجتسما، 2000).
3) رابطه بین خصیصه مکنون و پاسخ مشاهده شده شکل معینی دارد (لرد، 1980؛ امبرستون، 1996). خطی که خصیصه مکنون و احتمال پاسخ را به یکدیگر مربوط می
سازد خم ویژه سؤال1 نام دارد. مدل استاندارد ریاضی که برای خم ویژه سؤال به کار می‌رود شکل تراکمی تابع منطقی2 است. این تابع، خانواده‌ای از خمها را تعریف می‌کند که به سبب سادگی کار با آن بر سایر مدلها ترجیح داده شد (بیکر، 1381/2003).
مفاهیم نظریه سؤالپاسخ

الف) خم ویژه سؤال: بر پایه نظریه سؤال
پاسخ براى هر سطح از توانایى، احتمال معینى وجود دارد كه به‏دست آوردن پاسخ درست به سؤال توسط امتحان‏شونده را در آن سطح مشخص مى‏سازد. این احتمال كه با نماد نشان داده مى‏شود. چنانچه مقادیر به ‏عنوان تابع توانایى رسم شود، نتیجه یک خم هموار خواهد بود (نمودارهای شکل 1). احتمال پاسخ درست در پایین‏ترین سطوح توانایى نزدیك به صفر است، و بعد از آن افزایش مى‏یابد تا وقتى كه سطح توانایى به بالاترین حد خود مى‏رسد. در این هنگام احتمال پاسخ درست نزدیك به 1/0 خواهد بود. هر یك از سؤالهاى منفرد سازنده تست داراى یك خم ویژه خاص آن سؤال است.
ب) پارامترهای سؤال: خم ویژه سؤال دارای سه پارامتر است كه براى توصیف آن به‏كار مى‏رود. 1) پارامتر دشوارى سؤال (
b) جایگاه سؤال را در مقیاس توانایى توصیف مى‏كند و متناظر با نقطه‏اى است كه براى آن باشد. وقتى سؤال آسان باشد این مقدار در سطح پایین توانایى، و زمانى كه سؤال دشوار باشد این مقدار در سطح بالاى توانایى قرار دارد مقادیر درجه دشواری سه سؤال مختلف در نمودار الف شکل 1 نشان داده شده است، 2) قدرت تشخیص سؤال(a) نشان مى‏دهد سؤال تا چه اندازه مى‏تواند بین امتحان‏شوندگانى كه توانایى آنها پایین‏تر از جایگاه سؤال است با امتحان‏شوندگانى كه توانایى آنها بالاتر از این جایگاه قرار دارد، تمایز ایجاد كند. این ویژگى اساساً منعكس‏كننده شیب خم ویژه سؤال در بخش میانى آن است. هر چه شیب خم زیادتر باشد، قدرت تشخیص سؤال بیشتر است و مقادیر قدرت تشخیص سه سؤال مختلف در نمودار ب شکل 1 نشان داده شده است و 3) پارامتر حدس (c) بیانگر به دست آوردن پاسخ درست سؤال از طریق حدس محض و در واقع مجانب پایین خم یا نقطه پایینی آن وقتی است که به سمت اعداد منفی در محور توانایی حرکت میکند. مقدار (c) به ‏عنوان تابعى از سطح توانایى تغییر نمى‏كند. از این ‏رو، احتمال به دست آوردن پاسخ درست از طریق حدس براى آزمودنیهایى كه داراى بالاترین و پایین‏ترین سطح توانایى باشند، یكسان است. مقادیر حدس سه سؤال مختلف در نمودار پ شکل 1 نشان داده شده است.
پ) پارامتر آزمودنی: پارامتر آزمودنی بیانگر مقدار خصیصه مکنون در فرد یا جایگاه وی در مقیاس توانایی است. برآورد پارامتر آزمودنی براساس نمره کل فرد در اندازه
گیری به دست میآید. این نمره در واقع نمره وزندار فرد بر پایه مدلی است که شامل پارامترهای تشخیص باشد (هامبلتون و دیگران، 1991). معمولاً در دو مورد نمى‏توان توانایى آزمودنی را برآورد كرد. نخست زمانى كه آزمودنى به هیچ یك از سؤالها پاسخ درست ندهد كه برآورد توانایى متناظر با آن بى‏نهایت منفى است. دوم زمانى كه آزمودنى به همه سؤالها پاسخ درست دهد كه برآورد توانایى متناظر با آن بى‏نهایت مثبت است (بیکر، 1381/2002).
ت) نامتغیر بودن3 پارامترها: بنا بر نظریه سؤال
پاسخ، پارامترهای سؤال در بین گروههای مختلف نامتغیر است. به بیاندیگر، اگر این پارامترها در گروههای نمونه مختلف برآورد شود، باید مقادیر یکسانی داشته باشند. زیرا بنا بر تعریف، چنانچه قسمتی از خم در اختیار باشد، میتوان بقیه آن (یعنی مقادیر مورد انتظار) را به دست آورد (هالین و دیگران، 1983). بدین ترتیب پارامترهاى سؤال وابسته به سطح توانایى امتحان‌شوندگان نیست. از این ‏رو، رها از گروه نمونه4 و در واقع ویژگى خاص خود سؤال و نه ویژگى گروهى است كه به آن پاسخ داده‏اند (بیکر، 1381/2002). چنانكه لرد (1980) نیز بیان مى‏كند ثبات و عدم تغییر پارامترهاى سؤال در بین گروههاى مختلف یكى از مهمترین ویژگیهاى نظریه سؤال پاسخ است. زیرا این انتظار وجود دارد كه پارامترها یا مشخصه‏هاى سؤال توصیف‏كننده سؤال و تست باشد، و گروه مورد سنجش از طریق پارامترهاى توانائى توصیف و تبیین شوند. این اصل امکان بررسی سهم هر سؤال را به گونه انفرادی و نیز تصمیم‌گیری در بار حذف یا اضافه نمودن آن را در تست فراهم می‌آورد.

افزون بر این، توانایی آزمودنی نیز نسبت به سؤالهایى كه براى برآورد آن به‏كار مى‏رود، نامتغیر است. در اینجا براى روشن‏شدن مطلب بهتر است به مطالعه لرد (1980) اشاره ‏شود. لرد دو آزمون سنجش خزانه واژگان را روى 1830 نفر اجرا و مشاهده ‏كرد كه رابطه بین نمره‏هاى توانائیهاى حاصل از این دو تقریباً یك خط راست است. اگر دو تست براى هر فرد توانائى یكسانى برآورد كند، قاعدتاً نتیجه یك خط راست با رابطه كامل را به نمایش مى‏گذارند. یعنى توانائى آزمودنیها كه براساس نظریه سؤال
پاسخ به ‏دست آمده است، تأثیر چندانى از ویژگیهاى سؤالهاى دو تست نمى‏پذیرد.
 
ث) آگاهی1: یکی از ویژگیهای برجسته
IRT مفهوم اعتبار است. به گونه سنتی، اعتبار به دقت اندازهگیری (میزانی از اندازهگیری که رها از خطاست) اشاره دارد. اما بر پایه IRT، دقت در بین دامنه نمرههای تست یکسان نیست. برای نمونه، نمرهها در دامنههای کناری تست نسبت به نمرههایی که به دامنه میانی نزدیکتر است، به گونه کلی خطای بیشتری دارد. آگاهی از لحاظ آماری به معنای مفهوم مقابل میزان دقت در برآورد یک پارامتر است. از این رو، IRT، مفهوم آگاهی (به معنای کاهش عدم حتمیّت2) سؤال و تست را توسعه داده و جایگزین اعتبار کرده است (امبرستون و رایس، 2000؛ هامبلتون و دیگران، 1991؛ رایت، 1992). چون در این نظریه هر یك از سؤالهاى تست، صفت مكنون زیربنایى را اندازه مى‏گیرد، در نتیجه مقدار آگاهى مبتنى بر یك سؤال منفرد است و مى‏توان آن را براى هر یك از سطوح توانایى محاسبه كرد. چون هر تست به منظور برآورد توانایی آزمودنی به کار می‌رود، مقدار آگاهى را که آن تست در هر یک از سطوح توانایی به دست می‌دهد نیز می‌توان محاسبه کرد. افزون بر این، چون هر تست شامل یك مجموعه سؤال ‏است، بنابراین آگاهى تست در هر سطح معینى از توانایى برابر با جمع ساده آگاهیهاى سؤال در آن سطح خواهد بود.
مزایا و کاربرد IRT

1)
IRT خطای استاندارد اندازه‌گیری را بر مبنای تابع آگاهی تست، و نه متوسط خطای استاندارد برای همه سطوح توانایی در نظریه کلاسیک اندازه‌گیری، برآورد می‌کند. این مطلب به متخصصان اجازه می‌دهد تا سؤالهایی را برگزینند که در دامنه خاصی از توانایی یا خصیصه را با بیشترین دقت اندازه‌گیری کنند.
2) بر پایه
IRT ین امکان وجود دارد که آزمونهای دقیقی برای اندازهگیری همارزی3 گروههای مختلف تجربی به عمل آید. این امکان، به ویژه در پژوهشهای بین فرهنگی که انتظار میرود خصیصه مورد اندازهگیری در گروههای مختلف، میانگین متفاوتی داشته باشند از اهمیت زیادی برخوردار است.
3) روشهای
IRT میتواند تورش1 سؤال را از تفاوتهای حقیقی در خصیصه اندازهگیری شده متمایز سازد. اگر خم ویژه سؤال برای دو جامعه یکسان باشد، سؤال تورشدار نخواهد بود. اما اگر خم ویژه سؤال یکسان نباشد، به معنای آن است که رفتار و کارکرد سؤال در گروههای مختلف متفاوت است (کیم، کوهن و پارک، 1995).
4)
IRT امکان سنجش برازشیافته2 را فراهم میآورد که در آن برآورد نمره حقیقی بر مبنای تعداد پاسخهای درست قرار ندارد. این مطلب به پژوهشگران اجازه میدهد تا به افراد مختلف، سؤالهای متفاوتی بدهند اما جایگاه آنان کماکان در یک مقیاس قرار داشته باشد.
 
5)
IRT سنجش انطباقی3 رایانهای را تسهیل میسازد. بدین ترتیب، سؤالهایی انتخاب میشوند که برای هر آزمودنی بیشینه آگاهی را به دست میدهد. این امکان میتواند به گونه چشمگیری هزینه و زمان اجرای تست را کاهش دهد (هالین و دیگران، 1983).
6) نمره‏هاى حقیقى در نظریه کلاسیک اندازه
گیری دامنه محدودى دارد و محصور به تعداد سؤالهاى تست است. در حالى كه در
IRT ، خصیصه مكنون (θ) دامنه‏اى از بینهایت منفی تا بینهایت مثبت را مى‏پذیرد.
7) در
IRT امكان وزن‏دهى دقیق و اصولى به سؤالها وجود دارد. در نتیجه به همه سؤالها نمره یكسانى داده نمیشود.
8) پارامترهای سؤال و آزمودنی در یک مقیاس مشترک و واحد بیان می‌شود، و در نتیجه تطبیق دشواری و تناسب هر سؤال با توانایی افراد آسان‌تر خواهد بود.
9) در نظریه کلاسیک مقیاس اندازه‌گیری حداکثر فاصله‌ای و حتی احتمالاً در مواردی رتبه‌ای است. در حالی که روشهای
IRT ممکن است حتی مقیاس نسبتی ایجاد کنند.
منابع
بیکر، اف. بی. (1381). پایه
های اساسی تئوری سؤالپاسخ (نظریههای جدید روانسنجی). ترجمه: حیدرعلی هومن و علی عسگری. تهران: نشر پارسا (تاریخ انتشار اثر اصلی، 2002). 
Emberston, S. E. (1996). Item response theory models and spurious interaction effects in factorial ANOVA designs. Applied Psychological Measurement, 20, 201-
212.
Emberston, S. E., & Reise, S. P. (2000). Item response theory for psychologists. Mahwah, NJ: Laurence Erlbaum Associates, INC. Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Newbury Park, CA: Sage Press. 
Hulin, C. L., Drasgow, F., & Parsons, C. K. (1983). Item response theory: Applications to psychological measurement. Homewood IL: Dow Jones-Irwin