نظریه ی سوال پاسخ(item response theory)

مطالب زیر از وب لاگ http://babakrahbari.mihanblog.com/post/469 عینا کپی شده است.

نظریه سؤال پاسخ1 یکی از پیشرفته‌ترین نظریه‌های اندازه‌گیری و نقطه مقابل نظریه کلاسیک است. زیرا برخلاف این نظریه بر نمره سؤالها و نه نمره کل تست بنا شده است (بیکر، 1381/2002). در IRT برای تحلیل داده‌های به دست آمده از مقیاسها و پرسشنامه‌ها از مدلهای ریاضی استفاده می‌شود. به مدلهای IRT اغلب مدلهای خصیصه مکنون2 نیز گفته می‌شود. اصطلاح مکنون برای تأکید بر پاسخهای پیوسته سؤالی به کار می‌رود که در واقع نشانگر مشاهده‌پذیر خصائص یا رگه‌هایی است که فرض می‌شود وجود دارد و باید از پاسخها استخراج شود.
) و پارامترهای سؤال (دشواری، قدرت تشخیص و حدس) مشخص می‎کند. به بیان‎دیگر، مدلهای IRT مبنایی برای برآورد آماری پارامترهایی است که بیانگر جایگاه آزمودنیها بر روی پیوستار مکنون، یا به گونه دقیقتر، اندازه خصیصه مکنونی است که به آزمودنیها و سؤالها نسبت داده می‎شود. وقتی برآورد پارامترهای مربوط به دست آمد، برای تعیین اندازه و قدرت پیش‎بینی پاسخهای سؤال، بر اساس یک مدل معین، از آزمونهای آماری استفاده می‎شود. آزمونهای آماری برای تعیین این مطلب به کار می‎روند که مدل مورد نظر برای برآورد پارامترها تا چه حد می‎تواند ساختار الگوهای آماری موجود در داده‎ها را، یا به گونه کلی، و یا با در نظر گرفتن زیر مجموعه‎ خاصی از داده‎ها مانند بردار پاسخ مربوط به سؤالها و آزمودنیهای منفرد اندازه‎گیری کند (امبرتسون و رایس، 2000).qمدلهای IRT توابع ریاضی هستند که احتمال یک برونشد3 پیوسته، مانند پاسخ درست به یک سؤال را بر اساس پارامترهای آزمودنی (توانایی،
مفروضه‌های اساسی IRT

1) نخستین مفروضه IRT اشاره به این مطلب دارد که یک عامل مشترک4، همه کوورایانسهای سؤال را توجیه می‎کند. این عامل مشترک در واقع خصیصه مکنون مورد نظر است که در ادبیات روان‎سنجی معمولاًبه دو گونه بیان می‎شود:
الف) تک‎بعدی بودن5 : یعنی یک و فقط یک عامل مشترک یا خصیصه مکنون وجود دارد که همبستگیهای درونی سؤال را توجیه می‎کند، ب) استقلال مکانی6 : یعنی اگر عامل مشترک تا اندازه‎ای از دو سؤال خارج شود، کوواریانس پسماند7 آنها برابر با صفر خواهد بود. به بیان دیگر، پس از کنترل یک یا چند عامل مشترک، پاسخهای سؤال، ناهمبسته یا مستقل از یکدیگر هستند (امبرستون، 1996؛ هامبلتون، سوامینتان و راجرز، 1991).
2) بر پایه مفروضه دوم، مدلهای پارامتریکIRT توابعی هستند که به گونه تکنوا8 افزایش می‎یابند (یعنی احتمال پاسخ درست به سؤال با افزایش سطح خصیصه مکنون بیشتر می‎شود). این مفروضه را می‎توان از طریق نمودار نمره‎های میانگین سؤال بر روی نمره‎های باقی‎مانده9 بررسی کرد (امبرستون و رایس، 2000؛ مولنار و سیجتسما، 2000).
3) رابطه بین خصیصه مکنون و پاسخ مشاهده شده شکل معینی دارد (لرد، 1980؛ امبرستون، 1996). خطی که خصیصه مکنون و احتمال پاسخ را به یکدیگر مربوط می‎سازد خم ویژه سؤال1 نام دارد. مدل استاندارد ریاضی که برای خم ویژه سؤال به کار می‌رود شکل تراکمی تابع منطقی2 است. این تابع، خانواده‌ای از خمها را تعریف می‌کند که به سبب سادگی کار با آن بر سایر مدلها ترجیح داده شد (بیکر، 1381/2003).
مفاهیم نظریه سؤال‎پاسخ

الف) خم ویژه سؤال: بر پایه نظریه سؤال ‎پاسخ براى هر سطح از توانایى، احتمال معینى وجود دارد كه به‏دست آوردن پاسخ درست به سؤال توسط امتحان‏شونده را در آن سطح مشخص مى‏سازد. این احتمال كه با نماد نشان داده مى‏شود. چنانچه مقادیر به ‏عنوان تابع توانایى رسم شود، نتیجه یک خم هموار خواهد بود (نمودارهای شکل 1). احتمال پاسخ درست در پایین‏ترین سطوح توانایى نزدیك به صفر است، و بعد از آن افزایش مى‏یابد تا وقتى كه سطح توانایى به بالاترین حد خود مى‏رسد. در این هنگام احتمال پاسخ درست نزدیك به 1/0 خواهد بود. هر یك از سؤالهاى منفرد سازنده تست داراى یك خم ویژه خاص آن سؤال است.
ب) پارامترهای سؤال: خم ویژه سؤال دارای سه پارامتر است كه براى توصیف آن به‏كار مى‏رود. 1) پارامتر دشوارى سؤال (b) جایگاه سؤال را در مقیاس توانایى توصیف مى‏كند و متناظر با نقطه‏اى است كه براى آن باشد. وقتى سؤال آسان باشد این مقدار در سطح پایین توانایى، و زمانى كه سؤال دشوار باشد این مقدار در سطح بالاى توانایى قرار دارد مقادیر درجه دشواری سه سؤال مختلف در نمودار الف شکل 1 نشان داده شده است، 2) قدرت تشخیص سؤال(a) نشان مى‏دهد سؤال تا چه اندازه مى‏تواند بین امتحان‏شوندگانى كه توانایى آنها پایین‏تر از جایگاه سؤال است با امتحان‏شوندگانى كه توانایى آنها بالاتر از این جایگاه قرار دارد، تمایز ایجاد كند. این ویژگى اساساً منعكس‏كننده شیب خم ویژه سؤال در بخش میانى آن است. هر چه شیب خم زیادتر باشد، قدرت تشخیص سؤال بیشتر است و مقادیر قدرت تشخیص سه سؤال مختلف در نمودار ب شکل 1 نشان داده شده است و 3) پارامتر حدس (c) بیانگر به دست آوردن پاسخ درست سؤال از طریق حدس محض و در واقع مجانب پایین خم یا نقطه پایینی آن وقتی است که به سمت اعداد منفی در محور توانایی حرکت می‎کند. مقدار (c) به ‏عنوان تابعى از سطح توانایى تغییر نمى‏كند. از این ‏رو، احتمال به دست آوردن پاسخ درست از طریق حدس براى آزمودنیهایى كه داراى بالاترین و پایین‏ترین سطح توانایى باشند، یكسان است. مقادیر حدس سه سؤال مختلف در نمودار پ شکل 1 نشان داده شده است.
پ) پارامتر آزمودنی: پارامتر آزمودنی بیانگر مقدار خصیصه مکنون در فرد یا جایگاه وی در مقیاس توانایی است. برآورد پارامتر آزمودنی براساس نمره کل فرد در اندازه‎گیری به دست می‎آید. این نمره در واقع نمره وزن‎دار فرد بر پایه مدلی است که شامل پارامترهای تشخیص باشد (هامبلتون و دیگران، 1991). معمولاً در دو مورد نمى‏توان توانایى آزمودنی را برآورد كرد. نخست زمانى كه آزمودنى به هیچ یك از سؤالها پاسخ درست ندهد كه برآورد توانایى متناظر با آن بى‏نهایت منفى است. دوم زمانى كه آزمودنى به همه سؤالها پاسخ درست دهد كه برآورد توانایى متناظر با آن بى‏نهایت مثبت است (بیکر، 1381/2002).
ت) نامتغیر بودن3 پارامترها: بنا بر نظریه سؤال‎ پاسخ، پارامترهای سؤال در بین گروههای مختلف نامتغیر است. به بیان‎دیگر، اگر این پارامترها در گروههای نمونه مختلف برآورد شود، باید مقادیر یکسانی داشته باشند. زیرا بنا بر تعریف، چنانچه قسمتی از خم در اختیار باشد، می‎توان بقیه آن (یعنی مقادیر مورد انتظار) را به دست آورد (هالین و دیگران، 1983). بدین ترتیب پارامترهاى سؤال وابسته به سطح توانایى امتحان‌شوندگان نیست. از این ‏رو، رها از گروه نمونه4 و در واقع ویژگى خاص خود سؤال و نه ویژگى گروهى است كه به آن پاسخ داده‏اند (بیکر، 1381/2002). چنانكه لرد (1980) نیز بیان مى‏كند ثبات و عدم تغییر پارامترهاى سؤال در بین گروههاى مختلف یكى از مهمترین ویژگیهاى نظریه سؤال ‎پاسخ است. زیرا این انتظار وجود دارد كه پارامترها یا مشخصه‏هاى سؤال توصیف‏كننده سؤال و تست باشد، و گروه مورد سنجش از طریق پارامترهاى توانائى توصیف و تبیین شوند. این اصل امکان بررسی سهم هر سؤال را به گونه انفرادی و نیز تصمیم‌گیری در بار حذف یا اضافه نمودن آن را در تست فراهم می‌آورد.

افزون بر این، توانایی آزمودنی نیز نسبت به سؤالهایى كه براى برآورد آن به‏كار مى‏رود، نامتغیر است. در اینجا براى روشن‏شدن مطلب بهتر است به مطالعه لرد (1980) اشاره ‏شود. لرد دو آزمون سنجش خزانه واژگان را روى 1830 نفر اجرا و مشاهده ‏كرد كه رابطه بین نمره‏هاى توانائیهاى حاصل از این دو تقریباً یك خط راست است. اگر دو تست براى هر فرد توانائى یكسانى برآورد كند، قاعدتاً نتیجه یك خط راست با رابطه كامل را به نمایش مى‏گذارند. یعنى توانائى آزمودنیها كه براساس نظریه سؤال ‎پاسخ به ‏دست آمده است، تأثیر چندانى از ویژگیهاى سؤالهاى دو تست نمى‏پذیرد.
ث) آگاهی1: یکی از ویژگیهای برجسته IRT مفهوم اعتبار است. به گونه سنتی، اعتبار به دقت اندازه‎گیری (میزانی از اندازه‎گیری که رها از خطاست) اشاره دارد. اما بر پایه IRT، دقت در بین دامنه نمره‎های تست یکسان نیست. برای نمونه، نمره‎ها در دامنه‎های کناری تست نسبت به نمره‎هایی که به دامنه میانی نزدیکتر است، به گونه کلی خطای بیشتری دارد. آگاهی از لحاظ آماری به معنای مفهوم مقابل میزان دقت در برآورد یک پارامتر است. از این رو، IRT، مفهوم آگاهی (به معنای کاهش عدم حتمیّت2) سؤال و تست را توسعه داده و جایگزین اعتبار کرده است (امبرستون و رایس، 2000؛ هامبلتون و دیگران، 1991؛ رایت، 1992). چون در این نظریه هر یك از سؤالهاى تست، صفت مكنون زیربنایى را اندازه مى‏گیرد، در نتیجه مقدار آگاهى مبتنى بر یك سؤال منفرد است و مى‏توان آن را براى هر یك از سطوح توانایى محاسبه كرد. چون هر تست به منظور برآورد توانایی آزمودنی به کار می‌رود، مقدار آگاهى را که آن تست در هر یک از سطوح توانایی به دست می‌دهد نیز می‌توان محاسبه کرد. افزون ‎بر این، چون هر تست شامل یك مجموعه سؤال ‏است، بنابراین آگاهى تست در هر سطح معینى از توانایى برابر با جمع ساده آگاهیهاى سؤال در آن سطح خواهد بود.
مزایا و کاربرد IRT

1) IRT خطای استاندارد اندازه‌گیری را بر مبنای تابع آگاهی تست، و نه متوسط خطای استاندارد برای همه سطوح توانایی در نظریه کلاسیک اندازه‌گیری، برآورد می‌کند. این مطلب به متخصصان اجازه می‌دهد تا سؤالهایی را برگزینند که در دامنه خاصی از توانایی یا خصیصه را با بیشترین دقت اندازه‌گیری کنند.
2) بر پایه IRT ین امکان وجود دارد که آزمونهای دقیقی برای اندازه‎گیری هم‎ارزی3 گروههای مختلف تجربی به عمل آید. این امکان، به ویژه در پژوهشهای بین ‎فرهنگی که انتظار می‎رود خصیصه مورد اندازه‎گیری در گروههای مختلف، میانگین متفاوتی داشته باشند از اهمیت زیادی برخوردار است.
3) روشهای IRT می‎تواند تورش1 سؤال را از تفاوتهای حقیقی در خصیصه اندازه‎گیری شده متمایز سازد. اگر خم ویژه سؤال برای دو جامعه یکسان باشد، سؤال تورش‎دار نخواهد بود. اما اگر خم ویژه سؤال یکسان نباشد، به معنای آن است که رفتار و کارکرد سؤال در گروههای مختلف متفاوت است (کیم، کوهن و پارک، 1995).
4) IRT امکان سنجش برازش‎یافته2 را فراهم می‎آورد که در آن برآورد نمره حقیقی بر مبنای تعداد پاسخهای درست قرار ندارد. این مطلب به پژوهشگران اجازه می‎دهد تا به افراد مختلف، سؤالهای متفاوتی بدهند اما جایگاه آنان کماکان در یک مقیاس قرار داشته باشد.
5) IRT سنجش انطباقی3 رایانه‎ای را تسهیل می‎سازد. بدین ترتیب، سؤالهایی انتخاب می‎شوند که برای هر آزمودنی بیشینه آگاهی را به دست می‎دهد. این امکان می‎تواند به گونه چشمگیری هزینه و زمان اجرای تست را کاهش دهد (هالین و دیگران، 1983).
6) نمره‏هاى حقیقى در نظریه کلاسیک اندازه‎گیری دامنه محدودى دارد و محصور به تعداد سؤالهاى تست است. در حالى كه در IRT ، خصیصه مكنون (θ) دامنه‏اى از بی‎نهایت منفی تا بی‎نهایت مثبت را مى‏پذیرد.
7) در IRT امكان وزن‏دهى دقیق و اصولى به سؤالها وجود دارد. در نتیجه به همه سؤالها نمره یكسانى داده نمی‎شود.
8) پارامترهای سؤال و آزمودنی در یک مقیاس مشترک و واحد بیان می‌شود، و در نتیجه تطبیق دشواری و تناسب هر سؤال با توانایی افراد آسان‌تر خواهد بود.
9) در نظریه کلاسیک مقیاس اندازه‌گیری حداکثر فاصله‌ای و حتی احتمالاً در مواردی رتبه‌ای است. در حالی که روشهای IRT ممکن است حتی مقیاس نسبتی ایجاد کنند.
منابع
بیکر، اف. بی. (1381). پایه‎های اساسی تئوری سؤال‎پاسخ (نظریه‎های جدید روان‎سنجی). ترجمه: حیدرعلی هومن و علی عسگری. تهران: نشر پارسا (تاریخ انتشار اثر اصلی، 2002).
Emberston, S. E. (1996). Item response theory models and spurious interaction effects in factorial ANOVA designs. Applied Psychological Measurement, 20, 201-
212. Emberston, S. E., & Reise, S. P. (2000). Item response theory for psychologists. Mahwah, NJ: Laurence Erlbaum Associates, INC. Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Newbury Park, CA: Sage Press.
Hulin, C. L., Drasgow, F., & Parsons, C. K. (1983). Item response theory: Applications to psychological measurement. Homewood IL: Dow Jones-Irwin

+ نوشته شده در چهارشنبه ۲۸ مهر ۱۳۸۹ ساعت توسط |

سنجش و اندازه گیری

مبانی، روش ها و تکنیک های سنجش واندازه گیری، پژوهش، مدلبندی و تحلیل داده‏های روانشناسی و علوم وابسته

نظریه ی سوال پاسخ(item response theory)

نوشته‌های پیشین

آرشیو موضوعی