استفاده از مدل های ساختاری فازی در کنار نظریه سوال پاسخ به منظور شخصی سازی تحلیل ساختاری دانش

کاربردهاي فراوانی براي تحلیل ساختار فازي متصور شده اند. یکی از پرکاربردترین آنها استفاده از این تحلیل ها براي تحلیل ساختار دانش است. ارائه و نمایش دانش یکی از اهداف مطالعاتی روانسنجی است که در سال هاي اخیر به طور مبسوط مورد بررسی دانشمندان در حوزه ي روانسنجی قرار گرفته است. سیستم هاي خبره و آزمایشات مختلفی که با سیستم هاي بصري کامپیوتري انجام می شوند، مبتنی بر رویکرد دانش محور است. بنابراین تحلیل ساختار دانش یک روش شناسی پیچیده  و مشکل است. در بین تحلیل هاي سیستم پیچیده، مدل تفسیري ساختاري Interpretative structural بر مبناي نظریه ي گراف رشد یافت. این نظریه به عنوان یک راه موثر در ساخت مدل هاي ساختاري fuzzy modeling ستم هاي پیچیده است. با این وجود محدودیت هاي روابط دوتایی بین عناصر کاربرد آن را کاهش داده است.

روابط دوتایی نمایش قدرتمندي از دنیاي واقعی نیست. مدل فازي ساختاری (Fuzzy structural modeling) توسط تاکاسی و آماگاسا معرفی شد. این مدل می تواند به صورت سلسله مراتبی براي مسایل پیچیده ي چند گانه به کار رود. این مدل می تواند روابط دو گانه را به روابط فازي تبدیل نمایید. این مدل می تواند در سیستم ها و رشته هاي مختلف به کار رود. ساختار دانش با توجه به دانش شخصی ذخیره شده و کاربردي شده می تواند متغییر باشد. شخصی سازي تحلیل ساختاري دانش یک امر مهم محسوب می شود. به منظور شخصی سازی تحلیل ساختاری دانش از نظریه ی سوال پاسخ IRT استفاده می شود. از طریق این نظریه ماتریس مفهوم- سوال بدست خواهد آمد و توانایی فرد مشخص می گردد که نتیجه نهایی آن ماتریس فازی شخصی شده است. بعد از تشکیل این ماتریس، پژوهشگران می توانند از مدل ساختاری فازی به منظور تهیه ی ساختار زنجیره ای و سلسله مراتبی دانش استفاده کنند. نتایج سلسله مراتبی دانش بدست آمده می تواند در تشخیص شناخت استفاده شود. 

مقایسه مدل های اندازه گیری (کلاسیک و سؤال پاسخ) از لحاظ برآورد پارامترهای سؤال و توانایی

نظریه‏های اندازه‏گیری از یک بعد به دو دستهء اساسی تقسیم‏ می‏شود:نظریهء کلاسیک و نظریه‏های جدید اندازه‏گیری (IRT) 1. این پژوهش از طریق داده‏های حاصل از اجرای سه آزمون‏ ریاضیات،فیزیک و درس فنی که در مورد 430 نفر از داوطلبان‏ کنکور داخلی وزارت نیرو اجرا شده بود،به‏مقایسهء نظریات‏ کلاسیک و جدید از لحاظ برآورد پارامترهای سؤال و توانایی‏ پرداخته است.

تحلیل‏های کلاسیک داده‏ها از طریق برنامهء SPSS و برآورد پارامترهای سؤال و توانایی برحسب مدل‏های جدید اندازه‏گیری از طریق نرم‏افزار رایانه‏ای BILOG در کالیفرنیای آمریکا انجام‏ گرفته است.مقایسهء مدل‏های مختلف اندازه‏گیری از نظر برآوردهای‏ متفاوت یا مشابه پارامترهای سؤال به‏وسیلهء تابع آگاهی و آزمون t وابسته،به آزمون و ارزیابی گذاشته شد.نتایج نشان داد که مدل‏ کلاسیک و مدل‏های IRT برآوردهای متفاوتی برای پارامترهای‏ سؤال به‏دست می‏دهند و برآورد پارامترهای سؤال برپایهء مدل‏هایIRT ،به‏ویژه مدل سه پارامتری،دقیق‏تر از برآورد پارامترهای سؤال‏ براساس مدل کلاسیک و مدل‏های ساده‏تر IRT است.مقایسهء مدل‏ها از نظر برآورد متفاوت پارامتر توانایی آزمودنی‏ها به‏وسیلهء آزمون کای اسکوئر آزموده شد.نتایج این مرحله نیز تفاوت مدل‏ها را در برآورد پارامتر توانایی آشکار ساخت و نشان داد که مدل سه‏ پارامتری نسبت به مدل کلاسیک و حتی مدل‏های یک و دو پارامتری IRT برآوردهای متفاوت‏تر و دقیق‏تری ارائه می‏دهد.

آدرس مقاله در پایگاه مجلات تخصصی نور: مجله تعلیم و تربیت (آموزش و پرورش) » پاییز 1380 - شماره 67 (از صفحه 83 تا 98)

URL : http://www.noormags.com/view/Magazine/ViewPages.aspx?ArticleId=216353

عنوان مقاله: مقایسه مدل های اندازه گیری (کلاسیک و سؤال پاسخ) از لحاظ برآورد پارامترهای سؤال و توانایی (16 صفحه)

نویسنده : فراهانی، مهدی

چکیده :

کلمات کلیدی :

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 83)

مقایسهء مدل‏های اندازه‏گیری(کلاسیک و سؤال-پاسخ)از لحاظ برآورد پارامترهای‏ سؤال و توانایی

معرفی مقاله

نوشتهء مهدی فراهانی

نظریه‏های اندازه‏گیری از یک بعد به دو دستهء اساسی تقسیم‏ می‏شود:نظریهء کلاسیک و نظریه‏های جدید اندازه‏گیری (IRT) 1. این پژوهش از طریق داده‏های حاصل از اجرای سه آزمون‏ ریاضیات،فیزیک و درس فنی که در مورد 430 نفر از داوطلبان‏ کنکور داخلی وزارت نیرو اجرا شده بود،به‏مقایسهء نظریات‏ کلاسیک و جدید از لحاظ برآورد پارامترهای سؤال و توانایی‏ پرداخته است.


تحلیل‏های کلاسیک داده‏ها از طریق برنامهء SPSS و برآورد پارامترهای سؤال و توانایی برحسب مدل‏های جدید اندازه‏گیری از طریق نرم‏افزار رایانه‏ای BILOG در کالیفرنیای آمریکا انجام‏ گرفته است.مقایسهء مدل‏های مختلف اندازه‏گیری از نظر برآوردهای‏ متفاوت یا مشابه پارامترهای سؤال به‏وسیلهء تابع آگاهی و آزمون t وابسته،به آزمون و ارزیابی گذاشته شد.نتایج نشان داد که مدل‏ کلاسیک و مدل‏های IRT برآوردهای متفاوتی برای پارامترهای‏ سؤال به‏دست می‏دهند و برآورد پارامترهای سؤال برپایهء مدل‏های

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 84)

IRT ،به‏ویژه مدل سه پارامتری،دقیق‏تر از برآورد پارامترهای سؤال‏ براساس مدل کلاسیک و مدل‏های ساده‏تر IRT است.مقایسهء مدل‏ها از نظر برآورد متفاوت پارامتر توانایی آزمودنی‏ها به‏وسیلهء آزمون کای اسکوئر آزموده شد.نتایج این مرحله نیز تفاوت مدل‏ها را در برآورد پارامتر توانایی آشکار ساخت و نشان داد که مدل سه‏ پارامتری نسبت به مدل کلاسیک و حتی مدل‏های یک و دو پارامتری IRT برآوردهای متفاوت‏تر و دقیق‏تری ارائه می‏دهد.

این مقاله خلاصه‏ای است از پایان‏نامهء تحصیلی دورهء کارشناسی ارشد آقای مهدی فراهانی،کارشناس آموزش وزارت نیرو که با راهنمایی آقای دکتر محمد کاظم سلیمی‏زاده،عضو هیأت علمی‏ دانشگاه علامه طباطبایی تهیه‏شده و در اختیار فصلنامه قرار گرفته‏ است.بدین وسیله از ایشان سپاس‏گزاری می‏شود.

«فصلنامه»

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 85)

مقدمه

مدل یا نظریه،رکن اساسی هر رشتهء علمی محسوب می‏شود.دراندازه‏گیری و روان‏سنجی نیز نظریه‏ها و مدل‏هایی وجود دارد که از لحاظ تاریخی و سیر روند تکاملی،به‏ دو دستهء کلاسیک(نظریهء ضعیف نمرهء حقیقی)و سؤال-پاسخ(به اختصار IRT )تقسیم‏ می‏شوند(1).


مبانی مدل کلاسیک اندازه‏گیری را در اوایل قرن حاضر،اسپیرمن معرفی و پایه‏ریزی‏ کرد(2).این مدل سپس در دو کتاب گالیکسن و لرد و ناویک به اوج توسعه و بسط خود رسید(3 و 4)اما هم‏زمان با بسط این مدل،ضعف‏های جدی آن بیش‏تر آشکار شد و روان‏سنجان و متخصصان آزمون‏سازی را بیش از پیش به‏سمت مدل‏های جدید سوق داد (5).از نیمهء دوم قرن بیستم به‏تدریج زمینهء ارائهء نظریات جدید مطرح شد و کسانی مانند لرد (6)،راش(به‏نقل از رایت،1977)(7)،برن‏بام(8)،رایت و همبلتون(9)در این مسیر گام‏های مؤثری برداشتند.

هم‏اینک فعالیت‏های آزمون‏سازی و اندازه‏گیری در زمینه‏های مختلف-از پیشرفت‏ تحصیلی گرفته تا سنجش نگرش‏ها و...-در آمریکا و اروپا و براساس مدل‏های جدید (IRT) بررسی و ساخته می‏شود و مدل کلاسیک اعتبار بیش‏تر برای بحث در مورد تاریخچهء نهضت آزمون‏سازی یا برآورد پارامترهای نظریات جدید به‏عنوان برآورد اوّلیه‏ و مقدماتی مورد استفاده قرار می‏گیرد.معلمان هرچند در محدودهء کلاس درس به‏ظاهر کم‏تر می‏توانند از مدل‏های اندازه‏گیری بهره ببرند اما اطلاع از مبانی نظری طراحی،اجرا و تجزیه و تحلیل آزمون‏های پیشرفت تحصیلی و یافته‏های جدید،بینش و بصیرت بهتری در مورد یکی از وظایف مهم معلمان-یعنی سنجش محصلان-در اختیار آن‏ها قرار می‏دهد.

مطالعهء منابع مربوط به موضوع پژوهش

در بعضی از مطالعات قبلی،محققان به‏مقایسهء مدل‏ها از نظر دقت برآورد پارامترهای‏ سؤال و توانایی پرداخته و برخی دیگر،تأثیر حجم نمونهء آزمودنی و سؤال یا نقض‏ مفروضات را در برآورد پارامترها بررسی کرده‏اند.با توجه به محدودیت مقالهء حاضر، به‏طور عمده نتایج دستهء اوّل(مقایسهء مدل‏ها در برآورد پارامترها)ارائه می‏شود.

یکی از نتایج مطالعات مربوط به‏مقایسهء دقت برآورد پارامترها در مدل‏های‏ اندازه‏گیری حاکی از آن است که مدل منطقی سه پارامتری نسبت به مدل‏های یک و دو پارامتری با آزمون‏های 20 سؤالی در برآورد جایگاه افراد در صفت مکنون و رتبه‏بندی‏ آزمودنی‏ها براساس صفت مورد سنجش دارای قدرت بیش‏تری است.نکتهء دیگر آن‏که

لیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 86)

پژوهشگران با تقسیم آزمودنی‏ها به دو گروه بالا و پایین(0 تا 5/2-- ?L و 5/2 تا 0- ?u ) و مقایسهء دقت برآورد جایگاه حقیقی افراد برحسب مدل‏های IRT ،نشان دادند که افزایش‏ دقت و قابلیت پیش‏بینی توانایی افراد توسط مدل سه پارامتری نسبت به سایر مدل‏ها،در گروه‏های باتوانش پایین بیش‏تر از گروه‏های باتوانش بالاست؛زیرا امکان استفاده از حدس‏ و شانس کاذب در گروه‏های با توانایی کم بیش‏تر است و تنها مدل سه پارامتری در برآورد پارامترها به‏عامل Ci (مجانب پایین ICC )توجه می‏کند.مقایسهء مدل‏های یک و دو پارامتری(بررسی تأثیر پارامتر قدرت تشخیص سؤال در برآورد توانایی افراد)تمایز و تفاوت جدی نشان نداد(10).

راید برای تحلیل داده‏های چهار خرده آزمون مورد استفاده-شامل محاسبات عددی، تجسم فضای سه‏بعدی،خزانهء لغات و استدلال ریاضی-از نرم‏افزارهای BILOG و TESTFACT بهره گرفت و براساس یک نمونهء 406 نفره از آزمودنی‏ها و با حذف‏ سؤال‏هایی که کم‏تر از 75 درصد آزمودنی‏ها به آن‏ها پاسخ داده بودند،نتیجه گرفت که هر چهار خرده‏آزمون از لحاظ سطح دشواری سؤال‏ها و قدرت تشخیص افراد در سطوح‏ مختلف توانایی،تفاوت داشته است.بنابراین،مدل‏های یک و دو پارامتری از لحاظ برآورد پارامترها تفاوت معنی‏دار نشان داده‏اند(11).

هومن در تحقیقی با استفاده از آزمون تهران-استنفرد-بینه (TSB) (12)به بررسی و مقایسهء برآورد پارامترهای دشواری و توانایی پرداخت و درواقع،توانمندی مدل راش را در برآورد پارامترها در شرایط نقض مفروضات بررسی کرد.نتیجهء کلی تحقیق مذکور آن‏ است که مدل راش برای برآورد پارامتر دشواری سؤال‏ها وقتی ai سؤال‏ها تفاوت دارد، مناسب نیست اما برای برآورد توانایی افراد مناسب و خوب است(13).

در مورد مدل دوپارامتری و تفاوت برآورد توانایی برپایهء آن و مدل کلاسیک، انصارین به پژوهش دست زد.او با استفاده از داده‏های حاصل از اجرای آزمون هوش‏ تهران-استنفرد-بینه (TSB) به برآورد منحنی ویژهء سؤال‏ها،پارامترهای دشواری و قدرت تشخیص سؤال‏ها و توانایی آزمودنی‏ها اقدام کرد.نتیجه آن‏که نمرات خام یکسان‏ دارای برآورد یکسانی از توانایی و موقعیت آزمودنی بر روی پیوستار مکنون نبودند(14 و 15).

دیوجی طی یک بررسی،کاربرد مدل یک پارامتری راش را برای سؤال‏های چند گزینه‏ای مورد بررسی قرار داده است اما به‏رغم استفاده از مدل راش برای برآورد پارامترها در سؤال‏های چند گزینه‏ای،به‏عقیدهء دیوجی به‏علت نبود پارامتر حدس و قدرت‏ تشخیص یکسان در مدل راش،این کاربردها درست نیست(16).البته علاوه بر دیوجی،

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 87)

محققان دیگری هم به نامناسب بودن استفاده از مدل راش برای سؤال‏های چند گزینه‏ای‏ اشاره کرده‏اند؛از جمله،آندرسن عدم برازش مدل را به نابرابری قدرت تشخیص نسبت‏ داده است.همبلتون و تراب نشان داده‏اند که مدل دوپارامتری،توزیع نمرات را بهتر از مدل راش پیش‏بینی می‏کند(9).

همبلتون و موری از طریق نمودار باقی‏مانده برای آزمون‏های ریاضی،برازش مدل سه‏ پارامتری و عدم برازش مدل تک‏پارامتری را برای داده‏ها مطرح کرده‏اند(16).

یکی از موضوع‏ها و نکات مهم در مورد مدل‏های IRT ،حجم نمونهء آزمودنی‏ها و سؤال‏ است.این دو عامل،به‏ویژه در مدل سه‏پارامتری،می‏تواند بر برآورد پارامترهای سؤال و توانایی تأثیرات جدی داشته باشد.همبلتون و کوک در یک مطالعه با انتخاب آزمون‏هایی‏ با سه طول 10،20 و 80 سؤالی و نمونه‏هایی با حجم 50،200 و 1000 آزمودنی به‏ بررسی اثرات حجم نمونهء آزمودنی و ویژگی‏های خزانهء سؤال و تعداد سؤال بر خطای‏ استاندارد برآورد توانایی اقدام کردند.طول آزمون 10 سؤالی حد اقل طول ممکن برای‏ یک آزمون و آزمون 80 سؤالی نیز از طول‏های متداول تست است.در مورد حجم نمونهء آزمودنی 50 و 1000 نفر نیز به‏همین‏گونه استدلال کرده‏اند.سؤال‏ها از دو خزانهء سؤال‏ استخراج شدند.در عمل،سؤال‏های خزانهء 1 دارای دامنهء عریض‏تری برای پارامترهای‏ دشواری و قدرت تشخیص سؤال بودند.پارامتر حدس هردو خزانهء سؤال 25/0 در نظر گرفته شد.جمع‏بندی نتایج این مطالعه به‏صورت زیر است:

1.حجم نمونهء پاسخ‏گویان و طول آزمون،دو عامل بسیار مهم در دقت منحنی‏های SE(?) است.موارد نقض و استثنای این امر به نوسانات نمونه‏گیری مربوط می‏شود.

2در کرانه‏های پیوستار توانایی،دقت منحنی‏های SE(?) حتی با وجود نمونه‏های‏ بزرگ آزمودنی،بسیار پایین است.

3.در اکثر موارد با نمونه‏های 200 آزمودنی و 20 سؤال،دقت برآورد خطای‏ استاندارد توانایی قابل قبول خواهد بود.البته این نکته بیش‏تر در دامنهء وسط توانایی‏ [1+،1-]صادق است.


4.افزایش طول تست از 10 به 20 سؤال بیش از افزایش آن از 20 به 80 سؤال،دقت‏ SE را بهبود می‏بخشد.

5.در مورد حجم نمونه نیز افزایش افراد از 50 به 200،بیش از 200 به 1000 نفر دقت‏ برآورد SE را ارتقا می‏دهد(17).

لرد طی یک مطالعه و ضمن مقایسهء مدل‏های یک و دوپارامتری IRT در برآورد نمرهء حقیقی آزمودنی‏ها،تلاش کرده است تأثیر حجم نمونه را بررسی کند.داده‏های مطالعه

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 88)

شامل پاسخ 3000 دانش‏آموز کلاس ششم به آزمون خزانهء لغات متروپولیتن با برنامه‏ LOGIST تجزیه و تحلیل شده است.نتایج مطالعه نشان داد وقتی حجم نمونه کوچک‏ باشد،پارامتر قدرت تشخیص (ai) سؤال‏ها و پارامتر مجانب یا حدس سؤال‏ها (ci) را نمی‏توان به‏دقت تعیین کرد.ازاین‏رو،در بعضی موقعیت‏های معین و محدود و با حجم‏ نمونهء کوچک‏تر از 100 یا 200 آزمودنی،برآوردکنندهء نمره حقیقی X آزمودنی در مدل‏ راش(یک‏پارامتری)می‏تواند اندکی بهتر از برآوردکنندهء نمرهء حقیقی برپایهء مدل دو پارامتری باشد(6).

بیان اهداف و فرضیه‏های پژوهش

هدف اصلی پژوهش حاضر مقایسهء مدل‏های اندازه‏گیری(کلاسیک و سؤال-پاسخ)از لحاظ برآوردهای متفاوت یا مشابهی است که برای پارامترهای سؤال‏های آزمون و توانایی‏ آزمودنی‏ها به‏دست می‏دهند.


فرضیه‏های این پژوهش که آزمون آن‏ها مورد توجه است،عبارت‏اند از:

1.کاربرد مدل‏های سؤال-پاسخ(با تعداد پارامتر مناسب)برای برآورد دقیق‏ مشخصات سؤال بر مدل کلاسیک برتری دارد.

2.برآورد توانایی آزمودنی‏ها با استفاده از مدل‏های IRT (با تعداد پارامتر مناسب)از برآورد توانایی افراد برپایهء مدل کلاسیک دقیق‏تر است.

3.در صورت وجود عامل حدس در پاسخ دادن به سؤال‏ها،افزودن پارامتر حدس (Ci) به مدل IRT ،مدل برازنده‏تری برای داده‏ها ایجاد می‏کند.

روش اجرای پژوهش


الف.آزمودنی‏ها

جامعهء این پژوهش را همهء داوطلبان آزمون ورودی دوره‏های داخلی وزارت نیرو تشکیل می‏دهد و نمونهء تحقیق تعداد 553 نفر از داوطلبانی هستند که در آزمون داخلی‏ گزینش دانشجو(مورخ 6/3/1373)در رشتهء قدرت(مقطع کاردانی)شرکت کرده‏اند. برای نمونه‏برداری همهء شرکت‏کنندگان انتخاب شدند.در واقع،شرکت‏کنندگان در آزمون‏ مذکور نمونه‏ای از همهء داوطلبان فرض شده‏اند.حجم نمونهء اوّلیه 553 نفر بود اما تعدادی از پاسخ‏نامه‏ها به‏علت مخدوش و غیرقابل استفاده بودن از نمونه حذف شد و حجم نمونهء نهایی به 430 نفر کاهش یافت.


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 89)

ب.روش‏های آماری


برای تجزیه و تحلیل داده‏ها ابتدا در ایران مشخصه‏های کلاسیک سؤال‏ها و آزمون‏ها محاسبه شد.سپس داده‏ها که شامل پاسخ‏های 430 آزمودنی به سؤال‏های چهار گزینه‏ای سه‏ خرده‏آزمون 20 سؤالی بود،از طریق نظام شبکهء جهانی اطلاعات (Internet به یکی از دانشگاه‏های آمریکا(دانشگاه UCLA )ارسال گردید.پس از تحلیل داده‏ها با نرم‏افزار بای‏لوگ،خروجی کامپیوتر شامل برآورد پارامترهای سؤال و توانایی افراد،به ایران‏ فرستاده شد.13خلاصهء اطلاعات در مورد خرده‏آزمون ریاضیات به‏همراه نمودارهای‏ دشواری و قدرت تشخیص سؤال‏ها در پایان مقاله ارائه شده است(نمودار شمارهء 1 و 2 و جدول شمارهء 4).

برای تعیین برتری مدل‏های سؤال-پاسخ بر مدل کلاسیک در برآورد دقیق مشخصات‏ سؤال(فرضیهء 1 پژوهش)از یک ابزار نیرومند نظریات جدید اندازه‏گیری به نام تابع‏ آگاهی‏14استفاده شد.تابع آگاهی نظامی است که ورودی آن پارامترهای سؤال و خروجی‏ آن میزان آگاهی‏دهندگی آزمون می‏باشد.متفاوت بودن تابع آگاهی یک آزمون برحسب‏ مدل‏های اندازه‏گیری،بیانگر تفاوت مدل‏ها از برآوردهایی است که برای پارامترهای‏ سؤال‏های آزمون مذکور محاسبه شده است.برای بررسی معناداری تفاوت تابع آگاهی‏ آزمون‏ها به‏علت وابسته بودن داده‏ها،از آزمون t برای داده‏های وابسته استفاده شد و تابع‏ آگاهی هر آزمون که براساس مدل‏های یک و دوپارامتری و کلاسیک برآورد شده بود،با تابع آگاهی همان آزمون در مدل سه‏پارامتری مقایسه گردید.معناداری تفاوت این توابع‏ آگاهی با t آزمون شد.

به‏منظور آزمون فرضیهء دوم-تفاوت یا عدم تفاوت مدل‏ها در برآورد توانایی و سطح‏ صفت مکنون آزمودنی‏ها-از آزمون مجذور کای از نوع نیکویی برازش استفاده شد تا مدل‏های یک و دوپارامتری و کلاسیک را در مقایسه با مدل سه‏پارامتری آزمون کند. برای این منظور،ابتدا نمرات به مقیاس استاندارد یا Z برده شدند و سپس به 12 طبقه از [5/2-،3-]تا[3،5/2]تقسیم گردیدند.آن‏گاه فراوانی طبقات براساس آزمون نیکویی‏ برازش با درجات آزادی‏1- k - df مقایسه و در دو سطح معناداری 05/0 و 01/0 بررسی‏ شد.

برای بررسی و تعیین برازش یا عدم برازش هریک از مدل‏های IRT با داده‏ها،یعنی به‏ منظور آزمون فرضیهء 3 پژوهش مبنی بر برازندگی بیش‏تر مدل سه‏پارامتری نسبت به سایر مدل‏های IRT ،نرم‏افزار BILOG از نوعی آزمون مجذور کای استفاده می‏کند.فرض صفر آزمون نیکویی برازش مدل-داده‏ها بر تناسب و برازش مدل با داده‏ها تأکید می‏ورزد و در

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 90)

واقع،تفاوت مدل با داده‏ها را انکار می‏کند و فرض خلاف عدم برازش را بیان می‏دارد.در عمل،سطح احتمال مجذور کای محاسبه‏شدهء هر سؤال با 01/0 و 05/0 مقایسه می‏شود. در صورت بزرگ‏تر بودن سطح احتمال هر سؤال از 01/0 یا 05/0،نتیجه گرفته می‏شود که سؤال با مدل دارای برازش نسبی(05/0> ? >01/0)یا برازش کامل(05/0< ? ) است.


پ.ابزار گردآوری داده‏ها

ابزار مورد استفاده برای گردآوری داده‏های پژوهش شامل سه آزمون بیست سؤالی‏ ریاضیات،فیزیک و درس فنی به‏صورت چهار گزینه‏ای بوده است.درس‏های مذکور جزء مواد امتحانی اصلی و مشترک آزمون‏های گزینش دانشجو در وزارت نیرو به‏شمار می‏روند.سایر مواد امتحانی تعداد آزمودنی کمی دارد.این آزمون‏ها به‏وسیلهء متخصصان‏ حیطه‏های مزبور که معمولا جزء کارشناسان وزارت نیرو هستند،طراحی و تهیه می‏شود.در مورد نحوهء اجرای ابزار تا حد قابل قبولی می‏توان شرایط استاندارد و اصولی را برای آن‏ها در نظر گرفت.از جمله در ابتدای دفترچهء آزمون دربارهء شیوهء پاسخ‏گویی به‏ سؤال‏ها،مدت زمان اجرا،وجود نمرهء منفی در آزمون،تعداد سؤال‏های هر خرده‏آزمون و ...توضیحاتی ذکر شده است.

یافته‏های پژوهش

برای آزمون فرضیهء 1،مقایسهء مدل سه‏پارامتری و مدل کلاسیک از نظر برآوردهایی‏ که برای پارامترهای سؤال‏ها به‏دست می‏دهند،از تابع آگاهی خرده‏آزمون‏ها بهره گرفته شد. تفاوت توابع آگاهی هر آزمون که حاصل مدل‏های مختلف بود،محاسبه و با آزمون t برای‏ داده‏های وابسته آزمون شد.نتایج نشان داد که نه تنها بین تابع آگاهی هر آزمون براساس‏ مدل کلاسیک تفاوت قابل توجهی دیده می‏شود و این تفاوت حتی در سطح‏ 01/0> ? و با بیش از 99 درصد اطمینان معنادار است بلکه توابع آگاهی مدل‏های دو پارامتری و یک‏پارامتری نیز برای آزمون از تابع آگاهی هر خرده‏آزمون براساس مدل‏ کلاسیک در همین سطح تفاوت معناداری دارد.در واقع،با درجهء آزادی 32 و مقدار t مبین 45/2 تنها توابع آگاهی آزمون‏ها بین مدل‏های یک و دوپارامتری معنادار نبود و سایر مقادیر همه تفاوت معناداری داشتند.بنابراین،می‏توان گفت علاوه بر مدل سه‏ پارامتری IRT ،حتی مدل‏های دو و یک‏پارامتری نیز پارامترهای سؤال‏ها را دقیق‏تر و مناسب‏تر از مدل کلاسیک برآورد می‏کنند و فرضیهء صفر رد و فرضیهء اوّل پژوهش با بیش‏ از 99 درصد اطمینان تأیید می‏شود(جدول شمارهء 1).

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 91)

جدول شمارهء 1-محاسبهء آزمون t گروه‏های وابسته برای تفاوت بین توابع آگاهی آزمون‏ها برحسب مدل‏های مختلف

(به تصویر صفحه مراجعه شود) 45/2-01/0 t(cr) 69/1-05/0 t(cr) 32- df 33- n

فرضیهء 2 مدعی است که مدل سه‏پارامتری نظریهء سؤال-پاسخ توانایی افراد را نسبت به‏ مدل کلاسیک اندازه‏گیری به‏گونه‏ای متفاوت و دقیق‏تر برآورد می‏کند.به این ترتیب،باید برای آزمون این فرضیه،تفاوت مدل سه‏پارامتری از مدل کلاسیک در برآورد توانایی‏ بررسی شود.به این منظور،آزمون مجذور کای بین مدل سه‏پارامتری و مدل کلاسیک‏ (البته مدل‏های دو و یک‏پارامتری نیز)اجرا شد تا تفاوت فراوانی‏های افراد در طبقات‏ مختلف آزمون شود.نتایج نشان داد که نه تنها توانایی برآوردشده برای افراد براساس مدل‏ سه‏پارامتری از مدل کلاسیک متفاوت است بلکه حتی مدل‏های دو و یک‏پارامتری نیز در برآورد پارامتر توانایی آزمودنی‏ها با مدل سه‏پارامتری تفاوت و تمایز دارد.این امر در سطح 01/0> ? هم معنی‏دار بود.از سوی دیگر،از آن‏جا که مدل سه‏پارامتری از لحاظ تعداد پارامتر مناسب‏ترین مدل برای داده‏های حاضر محسوب می‏شود و طبق نتایج آزمون‏ خوبی برازندگی،برازش و مناسبت کاملا آشکاری با داده‏های پژوهش دارد،توانایی‏ برآوردشده برای افراد را که از مدل سه‏پارامتری به‏دست آمده است،می‏توان دقیق‏تر و مناسب‏تر از توانایی حاصل از سایر مدل‏های اندازه‏گیری تلقی کرد.بنابراین،فرضیهء صفر رد و فرضیهء دوم پژوهش حاضر نیز با بیش از 99 درصد اطمینان تأیید می‏شود(جدول‏ شمارهء 2).


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 92)

جدول شمارهء 2-برازندگی مدل-داده‏ها برحسب مدل‏های IRT (تعداد سؤال‏ها)

(به تصویر صفحه مراجعه شود) 8<؟ df ؟>2 9<؟ df ؟>2 9<؟ df ؟>3

جدول شمارهء 3-مجذور کای محاسبه‏شده بین پارامتر توانایی مدل سه‏پارامتری‏ و مدل‏های دو و یک‏پارامتری و کلاسیک

(به تصویر صفحه مراجعه شود) 725/24-01/0 X2(cr) 675/19-05/0 X2(cr) 11- df

برای آزمون فرضیهء 3 پژوهش از نوعی آزمون خوبی برازندگی استفاده شد و برازش‏ سؤال‏های آزمون با مدل‏های یک،دو و سه‏پارامتری بررسی گردید.براساس نتایج به‏دست‏ آمده،مدل سه‏پارامتری برازش چشم‏گیری با داده‏ها داشت؛درحالی‏که نه تنها مدل دو پارامتری بلکه مدل یک‏پارامتری نیز بدون برازش شناخته شد.بنابراین،فرضیهء سوم‏ پژوهش نیز با بیش از 99 درصد اطمینان و در سطح 01/0> ? معنادار شناخته شد و فرض‏ صفر رد و فرض پژوهش(خلاف)تأیید گردید.بدین ترتیب مدل سه‏پارامتری،برای‏ داده‏های آزمون‏های مورد استفاده در این پژوهش نسبت به سایر مدل‏های IRT برازنده‏تر و مناسب‏تر شناخته شد(جدول شمارهء 3).

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 93)

نتیجه‏گیری

مطابق نتایج تحقیقات و مطالعات قبلی در زمینهء نظریه‏های جدید اندازه‏گیری، IRT و مقایسهء آن با نظریهء کلاسیک آزمون،این مطالعه نیز نشان داد که در سطح بالایی از اطمینان‏ می‏توان گفت:

1.مدل‏های IRT نسبت به‏مدل کلاسیک اندازه‏گیری در برآورد پارامترهای سؤال‏ها و توانایی آزمودنی‏ها دارای مناسبت،دقت و برازندگی بیش‏تری است.این نتیجه در مورد آزمون‏های پیشرفت تحصیلی چهار گزینه‏ای که مبنای مطالعهء حاضر بوده است،با بیش از 99 درصد اطمینان صدق می‏کند.

2.در بین مدل‏های نظریهء سؤال-پاسخ (IRT) برای برآورد پارامترهای سؤال و توانایی‏ افراد،مدل سه‏پارامتری در مورد آزمون‏های پیشرفت تحصیلی چند گزینه‏ای این پژوهش، نسبت به مدل‏های یک و دوپارامتری برتری خاصی نشان داد.

3.در بین مدل‏های یک و دوپارامتری IRT از لحاظ برآورد پارامترهای سؤال‏ براساس داده‏های خرده‏آزمون‏های حاضر،تفاوت چشم‏گیری ملاحظه نمی‏شود.ازاین‏رو می‏توان تأثیرگذاری پارامتر قدرت تشخیص سؤال‏ها را بر برآورد پارامتر دشواری چندان‏ شدید و جدی ندانست.به‏زبان دیگر،سؤال‏های مورد استفاده در خرده‏آزمون‏های این‏ مطالعه دارای قدرت تشخیص خیلی متفاوت و مؤثری نیستند اما در مورد برآورد پارامتر توانایی آزمودنی‏ها،می‏توان نتیجه گرفت که براساس داده‏های حاضر،بین مدل‏های یک و دوپارامتری در مقام مقایسه با مدل سه‏پارامتری،برآورد پارامتر توانایی تا حدی متفاوت‏ است و در مورد آزمون‏های چند گزینه‏ای پارامتر شیب بر روی برآورد پارامتر توانایی‏ تأثیر داشته است.

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 94)

پی‏نوشت‏ها

(1).نظریات جدید اندازه‏گیری و روان‏سنجی نخست با اصطلاح صفت مکنون یا خصیصهء مکنون به‏شدت‏ پیوند خورد اما به‏تدریج با عنوان نظریهء سؤال-پاسخ یا Item Response Theory (با علامت اختصاری‏ IRT )یا نظریهء منحنی ویژهء سؤال رواج یافت که برای مقاصد آزمون‏سازی و تحلیل آماری داده‏ها مناسب‏تر به‏نظر می‏رسد(همبلتون،1993).


(2). Information Function

(3).برای تحلیل داده‏ها در آمریکا به‏وسیلهء نرم‏افزار BILOG ،علاوه بر مساعی فراوان استاد محترم راهنما آقای دکتر سلیمی‏زاده،نگارنده بر خود لازم می‏داند از عنایت استاد ارجمند دکتر جمال عابدی،عضو هیأت علمی دانشگاه مذکور که تحلیل داده‏ها را مسیر کردند،تشکر و سپاس‏گزاری نماید.

منابع

1. Allen.J.M.. Yen, M.W.(1979).Introduction to measurement thoery.California: wadsworth.

2.ثرندایک،رابرت؛روان‏سنجی کاربردی،مترجم:حیدر علی هومن،تهران،دانشگاه تهران،1369.

(به تصویر صفحه مراجعه شود)

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 95)

(به تصویر صفحه مراجعه شود) 12.هومن،حیدر علی؛مقایسهء مدل تک‏پارامتری راش و مدل دوپارامتری،پایان‏نامهء منتشرنشدهء دانشگاه‏ آزاد اسلامی،1373.

13.هومن،حیدر علی؛هوش‏آزمای انفرادی تهران-استنفرد-بینه.فصلنامهء علوم تربیتی دانشگاه تهران، ویژه‏نامهء روان‏سنجی،دورهء جدید،سال یکم،شمارهء 1-4.


14.انصارین،علیرضا؛برآورد خم ویژهء سؤال و توانایی آزمودنی‏ها در مقیاس تهران-استنفرد-بینه بر پایهء مدل دوپارامتری صفت مکنون،پایان‏نامهء منتشرنشدهء دانشگاه آزاد اسلامی،1371.

15.هومن،حیدر علی؛روش تهیهء آزمون هوش،تهران،دانشگاه تهران،1375.

16. Divgi.D.R.(1986).Does the Rasch model really work for multiple choice items? Not if you look closely.Journal of Educational Measurement, 23,283-298.

17. Hambleton, R.K.. Cook.L.L.(1983).The robustness of item response models and effects of test length and sample size on the precision of ability estimates.In D.J.Weiss(Ed.). New horizons in testing(pp.31-49).New York:Academic Press.

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 96)

پایان مقاله


كاربرد نظريه ي سوال پاسخ در كشف ژن هاي غالب و برآورد استعداد افراد در فعال سازي ژن ها

نویسنده و مسول مقاله: محمد حسین ضرغامی (دکتری سنجش و اندازه گیری)

چکیده: اين پژوهش روشي را براي تحليل ويژگي هاي دسته اي از ژن ها كه اثر مشخصي روي يك بيماري يا اختلال دارند، معرفي مي كند. در اين روش از نظريه ي سوال پاسخ در برآورد پارامترهاي ژن و همچنين پارامتر استعداد يا زمينه ي فرد استفاده مي شود. نحوه ي عملي برآورد پارامترهاي ژن و فرد از طريق داده هاي شبيه سازي شده نشان داده شده است. خروجي نهايي نرم افزار مقادير عددي پارامترها مي باشد كه مي تواند در تهيه ي بانك ژن و پيش بيني فعال سازي ژن ها توسط افراد با زمينه هاي مختلف مورد استفاده قرار گيرد.

مقدمه

در بیشتر موقعیت های عملی تصمیمات بر اساس کمیت هایی گرفته مي شود که نمی توان آنها را به طور مستقیم مشاهده نمود. این کمیت ها به متغیرهای مکنون  مشهورند. هر مدلی که یک ساختار پنهان را به یک ساختار مشاهده شده مربوط کند، مدل متغییر مکنون  نام دارد(برسبوم ، 2005). چون متغییرهای مکنون در حوزه های علمی مختلف مورد مطالعه می باشند، مدل های متغییر مکنون در حوزه های مختلف علوم کاربرد دارند. متغیرهای پنهان یا مکنون در روانشناسی توانایی، صفات و نگرش، در بازاریابی قدرت خرید، در زیست شناسی کیفیت زندگی یا زمینه ی یک بیماری خاص می باشند.

در آمار متغير مكنون متغيري است كه مستقيما مشاهده نمي شود اما بوسيله ي اعمال مدل هاي آماري و رياضي  روي داده هاي مشاهده شده قابل استنباط مي باشند. البته شرايط ويژه اي براي مكنون بودن يك متغير وجود دارد كه در اين مقاله قصد پرداختن به آن نيست(رجوع به برسبوم، 2008). مدل هاي رياضي آماري كه هدف آنها توضيح متغيرهاي مشاهده شده از طريق متغيرهاي مكنون است به مدل هاي متغير مكنون رياضي آماري معروف اند(برسبوم، 2008). 

مدل هاي مكنون بر اساس نوع متغير پنهان و داده هاي مشاهده شده كه ورودي هاي مدل محسوب مي شوند، انواع مختلفي دارند. در جدول زير اين طبقه بندي مشخص شده است.

جدول 1: طبقه بندي مدل هاي متغير مكنون

مدل سوال پاسخ 

یکی از مدل های متغیر مکنون مدل هاي سوال پاسخ مي باشند که مبتنی بر نظریه ی سوال پاسخ اند. این نظریه دو مفروضه ی اساسی دارد. الف) عملکرد آزمودنی در هر آیتم  می تواند به وسیله ی مجموعه ای از عوامل که صفات یا صفات مکنون نامیده می شود، پیش بینی و توضیح داده شود و ب) رابطه میان عملکرد آزمودنی در یک آیتم به وسیله یک تابع تکنوا افزایشی که تابع ویژه آیتم یا خم ویژه آیتم نامیده می شود، قابل توصیف است(همبلتون و سواميناتان ، 1985). این تابع مشخص می کند که هر چه سطح صفت در آزمودنی بالاتر رود پاسخ مثبت به محرك نیز افزایش پیدا می کند.  مدل هاي سوال پاسخ بر مبنای مجموعه ای از متغیرها، به نام آیتم بنا می شوند. 

بنابراین مسئله در مدل های سوال پاسخ به دو موضوع اصلی مربوط می شود، یکی آزمودنی (مانند انسان، حیوان و یا گیاه) و دیگر آیتم (مانند سوال، ژن و یا یک تکلیف مشخص). درحوزه ی اندازه گیری آموزشی  سوالات یک آزمون و افرادي كه به سوالات پاسخ مي دهند به ترتيب آيتم ها و آزمودني هاي مطالعه را تشكيل مي دهند. در زيست شناسي مولكولي و ژنتيك ، ژن های موثر در یک بیماری و نمونه هاي زيستي، آيتم ها و آزمودني هاي مدل اند.  

آزمودنی ها و آیتم های موجود در یک مطالعه پارامترهای خاص خود را دارند. بر اساس این پارامترها برای هر آیتم می توان تابع ویژه آن را ترسیم نمود به طوری که بر اساس آن احتمال ظهور و بروز صفت در آزمودنی های مختلف مشخص می شود. در اندازه گیری آموزشی تابع ویژه ی آیتم همان تابع ویژه ی سوال است که بر اساس آن احتمال پاسخ صحیح به یک سوال برای آزمودنی های مختلف با سطح توانایی متفاوت تعیین می شود. در مطالعات بازاریابی تابع ویژه ی آیتم سطح دانش فرد در مورد یک محصول خاص، احتمال خرید آن محصول خاص را مشخص می کند. در زيست شناسي ملكولي و ژنتيك بر اساس تابع ویژه ی ژن می توان احتمال روشن شدن ژن را برای افراد با زمینه و استعداد متفاوت نشان دهد(تاوارس  و همكاران، 2004). 

مزیت استفاده از مدل هاي سوال پاسخ تنها به مشخص ساختن رابطه ي احتمالي بين آيتم ها و آزمودني ها محدود نمی شود. برآورد پارامتر آیتم ها و آزمودنی ها تحت این مدل نیز می تواند به مطالعه ی آنها کمک نماید. به عنوان مثال می توان از طریق  مجموعه ای از ژن ها، زمینه  یا استعداد  یک فرد در یک بیماری خاص را كه نشان دهنده ي پتانسيل ابتلاء به آن بيماري است، مشخص نمود. علاوه بر اين در مطالعات سيستماتيك جانوري يا گياهي مي توان احتمال بروز يك صفت خاص، يا درجاتي از آن را بررسي كرد. در این مثال آیتم ها همان ژن ها هستند و پاسخ آنها می تواند فعال  یا غیر فعال  و یا نشان دهنده ی درجه ای از فعالیت باشد که از نظر شدت در طبقات مختلف قرار می گیرند و بنابراين امكان استفاده از نظريه ي سوال پاسخ براي داده هاي بيان ژن  مهيا مي شود. در اين صورت سطح بيان  به عنوان پاسخ يك نمونه بيولوژيكي خاص به يك ژن خاص تعريف مي شود. ژن ها دارای پارامترها (ویژگی ها)ی خاص خود می باشند که باید در مدل وارد شوند. در پژوهش حاضر روش سوال پاسخ برای تحلیل ویژگی های یک مجموعه از ژن ها که می توانند در یک بیماری خاص تاثیر داشته باشد، مطالعه می شود.

تابع سوال پاسخ 

تابع سوال پاسخ بر مبنای مدل هایی است که احتمال پاسخ به یک آیتم را به عنوان تابعی از پارامترهای آیتم و زمینه ی فرد برآورد می کند. مدل های سوال پاسخ با توجه به نوع آیتم انواع مختلفی دارد. بر اساس این توابع منحنی سوال پاسخ ترسیم می شود. مدلي كه در ادامه توضيح داده خواهد شد مدل تک بعد لجستیک چهار پارامتری  است که در آن هر آیتم دارای دو طبقه پاسخ  (فعال و نافعال) است. مدل چهار پارامتري بيشترين پارامترهاي موجود در بين مدل هاي مختلف سوال پاسخ را دارا است. در ادامه كار شبيه سازي و انجام آزمايشي پارامتري كردن ژن ها و برآورد پارامترها آنها از طريق مدل سه پارامتري انجام خواهد شد.  

برای روشن شدن موضوع فرض می کنیم K جامعه ی مورد مطالعه داریم که در هر کدام از این جوامع n ژن یکسان مورد تحلیل قرار می گیرند. در هر یک از K جامعه Nk فرد قرار دارد. تابع سوال پاسخ بر اساس مدل چهار پارامتری لوجستیک به صورت زیر است (تاورس و همكاران، 2004):

 

در این مدل 

i= 1,2,….,n ، j= 1,2,….,Nk و k=1,2,….,K

زیتا ϛ نشان دهنده ی پارامترهای آیتم است كه در برگيرنده ي شيب ژن (iα)، پارامتر موقعيت ژن (bi)، پارامتر مينيمم مقدار فعاليت ژن(ci) و پارامتر ماكزيمم مقدار فعاليت ژن (iϒ) است.

Uijk نشان دهنده ی متغییری دو وجهی است که تنها مقادیر یک و صفر را می گیرد. یک به این معنی است که ژن i در فرد j  که متعلق به جامعه یk  است فعال می باشد و مقدار صفر به این معنی است که ژن i در فرد j  که متعلق به جامعه ی k  است نافعال است.

jkƟ نشان دهنده ی زمینه و استعداد  فرد J ام در جامعه ی k ام است.

bi پارامتر موقعیت ژن است که در همان مقیاس زمینه فرد قرار دارد. اين پارامتر سختي فعال شدن ژن را نشان مي دهد.

iα پارامتر شیب یا تمایز ژن i است.

ci ارزش این مقدار بیانگر فعال بودن ژنi  برای کسی است که در زمینه و استعداد بسیار پایینی برای بروز بیماری دارد. به اين پارامتر عرض از مبدا نيز گفته مي شود.

iϒ ارزش این مقدار بیانگر نافعال بودن ژن i برای کسی است که استعداد و زمینه ی بسیار قوی در بروز بیماری دارد. 

D  مقدار مقیاس است که ارزش عددی آن برابر 1.7 می باشد و سبب تبدیل نتایج تابع لجستیک به تابع اجایو نرمال می شود.

N  تعداد افراد حاضر در مطالعه مي باشد.

پارامترها در تابع سوال پاسخ

فرض اساسی تابع سوال پاسخ این است که با افزایش استعداد و زمینه ی فردی امکان بروز و فعالیت یک ژن افزایش پیدا می کند. رابطه ی احتمال فعال (روشن) بودن ژن با توجه به پارامترهای ژن و استعداد افراد در ICC زیر نشان داده شده است. 

 منحنی ویژگی ژن نشان داده شده به شکل S است که مکان یا جایگاه آن و شیب آن توسط پارامترهای ژن مشخص می شود. از آنجا که رابطه ی تکنوا افزایشی از پیش فرض های استفاده از مدل هاي سوال پاسخ است، شیب منحنی ai باید بزرگتر یا مساوی صفر باشد. داشتن شیب مثبت به این معنا است که احتمال فعال (روشن) بودن ژن در افراد با استعداد و زمینه ی بیشتر، بالاتر است. زمانی که مقدار شیب برابر صفر است بر اساس تابع 1: 

 

 

این احتمال برای تمام jkƟ ثابت است یعنی ژن i دخالتی در وقوع بیماری مورد مطالعه ندارد. ممكن است مقدار شيب منفي باشد در اين صورت با افزايش استعداد فرد، احتمال روشن بودن ژن كاهش مي يابد(تاوارس و اندريد ، 2004).

شاید پارامتر bi مهمترین پارامتر در بین چهار پارامتر باشد. هر چه مقدار این پارامتر بزرگتر باشد، احتمال فعال شدن آن توسط یک فرد معين کمتر است. این نتیجه گیری تنها برای شیب های مثبت صادق است. پارامتر Ci و iϒ به ترتیب بیانگر احتمال فعال شدن ژن در فردی با استعداد بسیار پایین و عدم فعال شدن ژن در فردی با استعداد بسیار بالا می باشند(ملينبرگ ، 1994). 

پارامترها در تابع سوال پاسخ
فرض اساسی تابع سوال پاسخ این است که با افزایش استعداد و زمینه ی فردی سطح بيان ژن نيز افزايش پیدا می کند. رابطه ی احتمالي بين سطوح مختلف بيان ژن و ميزان استعداد فرد براي يك ژن كه داراي 5 سطح مختلف بيان است به صورت نمودار زير است.

 

 

 

 

 

 

منحنی ویژگی ژن در سطوح مختلف متفاوت است که مکان یا جایگاه آن و شیب آن توسط پارامترهای ژن مشخص می شود. از آنجا که رابطه ی تکنوا افزایشی از پیش فرض های استفاده از مدل هاي سوال پاسخ است،
پارامتر b پارامتري دشواري ژن ناميده مي شود و جايگاه نمودار سطوح بيان را نشان مي دهد. هر چه این پارامتر بزرگتر باشد احتمال فعال شدن آن توسط یک فرد معين کمتر است. در نمودار بالا پارامتر b سطح 5 بيان ژن بيشتر از ساير سطوح است و احتمال پاسخ فرد به اين سطح كمتر از ساير سطوح است. به اين پارامتر جايگاه يا موقعيت گفته مي شود و جايگاه منحني را در نمودار مشخص مي نمايد.
پارامتر α به پارامتر شيب معروف است و بيانگر شيب منحني ها در هر سطح است. همانطور كه در نمودار بالا مشاهده مي شود اين مقدار در سطوح مختلف متفاوت است. براي سطح اول مقدار شيب مثبت و براي سطح آخر مقدار آن مثبت است ولي در سطوح مياني مقدار آن مثبت و منفي است. پارامتر آلفا شكل منحني را مشخص مي كند.
براي درك بهتر نقش پارامترها در تعيين مقادير احتمال در سطوح مختلف فرض مي كنيم دو فرد با استعداد ابتلاء به بيماري 2+ و 2- وجود دارند. بر اساس نمودار فردي كه مقدار استعداد وي برابر 2- است بيشترين احتمال پاسخ وي به يك ژن مشخص سطح اول است و فردي كه مقدار استعداد وي براي 2+ است بيشترين احتمال پاسخ وي به سطح پنجم بيان ژن است. بنابراين هر چه استعداد فرد افزايش يابد احتمال پاسخ وي به سطوح بالاي بيان ژن افزايش مي يابد.

تک بعدی بودن و استقلال موضعی 

یک مفروضه ی مشترک مدل های تک بعد سوال پاسخ آن است که فقط یک استعداد یا زمینه به وسیله ی مجموعه ژن ها اندازه گیری شود. این مفروضه به طور کامل نمی تواند برآورده شود، چرا که همواره عواملی وجود دارند که علاوه بر استعداد مورد نظر بر ژن ها تاثیر می گذارند. آنچه برای برقراری مناسب مفروضه تک بعدی بودن در مجموعه ای از داده های مربوط به ژن ها ضروری است، حضور عامل یا مولفه ای غالب است که عملکرد ژن را برای فرد مشخص می کند. به بيان ديگر تك بعدي بودن به اين معني است که تنها عاملی که باعث می شود Uijk یک یا صفر شود، عامل زمینه ی فردی است.

 وقتی استعداد آزمودنی های مختلف که عملکرد ژن ها را تحت تاثیر قرار می دهند، با یکدیگر برابر باشد، پاسخ آزمودنی ها به هر زوجی از ژن ها به لحاظ آماری ناهمبسته باشد. یعنی بعد از به حساب آوردن زمینه و استعداد افراد هیچ رابطه ای میان پاسخ آزمودنی ها به ژن های مختلف وجود نخواهد داشت. به اين مفروضه استقلال موضوعي گويند. این بدان معنی است که استعدادهای مشخص شده در مدل، تنها عواملی هستند که عملکرد آزمودنی را مشخص می سازد. این مجموعه استعدادهاي کامل فضای مکنون را معرفی می کنند. وقتی مفرضه تک بعدی بودن برقرار است، فضای کامل مکنون تنها عبارت از یک استعداد است.

نامتغير بودن پارامترها

بنا بر نظريه ي سوال پاسخ، پارامترهاي ژن در بين گروههاي مختلف نامتغير است. به بيان ديگر اگر اين پارامترها در گروههاي نمونه مختلف برآورد شود، بايد مقادير يكساني داشته باشند. زيرا بنا بر تعريف، چنانچه قسمتي از خم ويژه ي ژن معلوم باشد مي توان بقيه ي آن را كه مقادير مورد انتظار است را به دست آورد(سالاسانان و بومنسان ،1978). بنابراني پارامترهايي كه براي ژن بدست مي آيد وابسته به گروه نمونه يا آزمودني هايي كه پارامترهاي از طريق آنها برآورد شده است، نمي باشد (بيكر و كيم ، 2004). اين ويژگي يكي از مهمترين مزيت هاي نظريه ي سوال پاسخ محسوب مي شود(لرد ، 1980) و موجب كاربرد پذيري بالاي مدل هاي تحت اين نظريه است. 

نامتغير بودن نه تنها براي پارامترهاي ژن برقرار است بلكه در مورد پارامتر استعداد آزمودني نيز صادق است. با توجه به اين نظريه تفاوت نمي كند استعداد فرد (به عنوان مثال استعداد فرد براي ابتلا به يك بيماري) از طريق كدام مجموعه ژن (مجموعه ژن هاي مرتبط به يك بيماري) اندازه گيري مي شود. مقدار اين استعداد از طريق هر مجموعه اي يكسان است. 

نامعین بودن  مقیاس اندازه گیری

با توجه به این که زمینه ی فردی مقداری بین منفی بینهایت تا مثبت بی نهایت دارد باید مقیاس و واحدی مشخص برای آن در نظر گرفت تا نامعین بودن حذف شود. زمانی که تنها یک جامعه مورد اندازه گیری است مقیاس اندازه گیری با توجه به میانگین و انحراف استاندار صفت در جامعه تعریف مي شود. زمانی که جوامع مختلف مقایسه می شوند یکی از جوامع به عنوان جامعه ی مرکزی و مرجع در نظر گرفته می شود و سایر جوامع با این جامعه مقایسه می شوند. به عنوان مثال جامعه ی افراد سالم می تواند جامعه ی مرجع باشد و سایر جامعه های بیمار با این جامعه مقایسه شوند(فاكس ، 2010). 

برآورد پارامترهاي مدل

 یکی از مهمترین مراحل در نظریه ی سوال پاسخ برآورد پارامترهای ژن هاي مختلف و زمینه ی فردی نمونه ي زيستي است. در مدل هاي سوال پاسخ معمولا پارامترهاي آيتم از طريق روش بيشينه درستنمايي برآورد مي شود. رايج ترين روش هاي مورد استفاده عبارتند از: الف) بيشينه درستنمايي مشترك يا همزمان ب) بيشينه درستنمايي كناري يا حاشيه اي ج) بيشينه درستنمايي شرطي و اگر اطلاعات پيشين وجود داشته باشد مي توان روش هاي بيزي را براي بيشينه درستنمايي همزمان و بيشينه درستنمايي حاشيه اي بدست آورد (رجوع شود به بيكر و كيم، 2004 ) 

در برآورد پارامتر ژن ها ممكن است سه حالت مختلف ممكن است وجود داشته باشد الف) پارامتر ژن ها معلوم باشد و هدف برآورد پارامتر استعداد نمونه زيستي  باشد ب) پارامتر استعداد نمونه زيستي مشخص بوده و هدف برآورد پارامترهاي ژن است و ج) نه پارامتر ژن ها و نه پارامتر استعداد مشخص است. در بيشتر مواقع پارامتر ژن ها و افراد هر دو نامشخص اند و لازم است اين پارامترها به طور همزمان برآورد شوند. 

مطالعه ي شبيه سازي شده 

در اين بخش متدولوژي مطالعه ي زمينه و استعداد فرد و پارامتري كردن  ژن ها از طريق داده هاي شبيه سازي شده نشان داده مي شود. اين مطالعه به ما كمك مي كند تا بتوانيم روند استفاده از نظريه سوال پاسخ در مطالعات زيست شناسي ملكولي و ژنتيك نشان دهيم. به منظور انجام مطالعه ي شبيه سازي از مدل سه پارامتري سوال پاسخ استفاده مي شود. مدل هاي ديگر سوال پاسخ مانند مدل پاسخ مدرج  به دليل انطباقي كه با سطوح بيان ژن دارند، مي توانند موضوع مطالعات بعدي باشند. علاوه بر اين در صورت دسترسي به داده هاي واقعي مي توان مطالعه را با داده هاي واقعي انجام داد. استفاده از ساير مدل هاي سوال پاسخ مخصوصا مدل هاي چند بعدي سوال پاسخ  نيز مي تواند در مطالعات بعدي مورد نظر پژوهشگران باشد. 

فرض مي كنيم كليه ي اطلاعات موجود، آگاهي از وضعيت خاموش يا روشن (صفر و يك) بودن 10 ژن مختلف در 5000 نفر است كه استعداد و زمينه آنها در روشن و يا خاموش كردن ژن ها متفاوت است. وضعيت خاموشي يا روشني ژن به سطح استعداد افراد وابسته است و يك رابطه ي تكنوا  بين آنها وجود دارد. براي دستيابي به اين داده ها مي توان از نرم افزار  wingen (هان ، 2007)  استفاده كرد. اين نرم افزار بر اساس ويژگي هاي گروه نمونه و پارامترهاي ژن، داده هاي خام  را توليد مي كند. توزيع استعداد گروه نمونه در فعال كردن ژن و پارامترهاي مربوط به ژن ها در جدول 1 نشان داده شده است. داده هاي نهايي مبتني بر اين ويژگي ها با 2000 تكرار بدست آمده اند. همانطور كه ذكر شد، مدل در نظر گرفته شده براي انجام آزمايشي در اين مطالعه بر مبناي داده هاي شبيه سازي شده، مدل سه پارامتري است. مقدار پارامتر عرض از مبدا براي تمام ژن ها 0.1 در نظر گرفته شده است.

جدول 1: آماره هاي توصيفي مربوط به توزيع استعداد گروه نمونه و پارامتر ژن ها

 گروه نمونه پارامتر دشواري پارامتر شيب

تعداد50001010

نوع توزيع نرمالنرمالنرمال

ميانگين 001

انحراف استاندارد110.2

بر اساس جدول بالا نرم افزار داده هاي تصادفي مبتني بر توزيع مشخص شده توليد مي كند.  ارزش نهايي پارامترهاي بدست آمده از طريق نرم افزار براي 10 ژن در جدول زير نشان داده شده است.

نرم افزار بعد از 2000 تكرار ، داده هاي خام مربوط به 5000 مورد نمونه كه در واقع الگوي پاسخ آنها به 10 ژن مختلف است را ارائه مي دهد. در موقعيت هاي واقعي تنها اطلاعات موجود الگوي پاسخ  افراد به ژن هاي مختلف است. بنابراين فرض مي شود براي برآورد پارامتر سوالات و يا سطح استعداد و زمينه ي موارد زيستي، داده ها از موقعيت هاي واقعي بدست آمده اند. 

الگوي پاسخ به عنوان ورودي به نرم افزار هاي سوال پاسخ (در اينجا نرم افزار بايلوگ ام جي ) وارد مي شوند تا پارامتر ژن ها و استعداد افراد برآورد شوند. خروجي نهايي مربوط به پارامتر سوالات از نرم افزار بايلوگ در جدول 2  نشان داده شده است. 

جدول 2: ارزش برآورد شده پارامتر ژن ها

 

علاوه بر اين خروجي منحني هاي ويژگي ژن  مي تواند در مطالعات ژنتيك مورد استفاده قرار بگيرد. ماتريس نمودار ويژگي 10 ژن مورد نظر در شكل زير نشان داده شده اند. 

نمودار 1: نمودار ويژگي ژن ها

 

محور x در اين نمودارها استعداد يا زمنيه ي فرد يا نمونه ي زيستي است و محور y احتمال فعال شدن يك ژن مشخص مي باشد. همانطور كه مشاهده مي شود تمام نمودارها تكنوا افزار بوده و با افزايش استعداد فردي احتمال فعال كردن ژن نيز افزايش مي يابد. 

بر اساس اين روش استعداد 5000 هزار نفر در فعال سازي ژن هاي مورد مطالعه بدست آمده اند. به دليل حجم بالاي نتايج از ذكر آنها در اينجا خودداري مي شود. در صورتي كه نياز باشد مطالعه روي فرد خاصي صورت پذيرد مي توان به استعداد يا زمنيه ي فردي وي پي برد.

نتيجه گيري

در اينجا روش جديدي به منظور دست يابي به ويژگي ژن ها مبتني بر سه پارامتر مختلف و برآورد استعداد افراد در فعال سازي ژن ها معرفي شد. فعال سازي مي تواند به ژن هايي مربوط شود كه موجب يك بيماري خاص، و يا عامل يك بروز يك صفت ويژه مي شود. علاوه بر اين روش پيشنهادي مي تواند در مدرج سازي ژن هاي مختلف استفاده شود و به اين ترتيب بانك ژن  بر اساس پارامترهاي مطرح شده تشكيل شود. تشكيل بانك ژن مي تواند در پژوهش هاي مربوط به حوزه هاي مختلف علوم پزشكي استفاده شود.  

از طريق داده هاي شبيه سازي شده مراحل پارامتري كردن ژن ها توضيح داده شد. مدل مورد استفاده در اين مطالعه مدل سه پارامتري سوال پاسخ است كه مي توان در مطالعات بعدي از مدل هاي ديگر مانند مدل پاسخ مدرج و يا مدل چند بعدي سوال پاسخ استفاده نمود. از آنجا سطح بيان ژن را مي توان حداقل به صورت ترتيبي مشخص كرد و طبقات ترتيبي براي آن تعريف نمود، بنابراين استفاده از مدل هاي چند ارزشي سوال پاسخ مي تواند به اطلاعات بيشتري از ژن ها منجر شود. 

منابع

Borsboom, D. (2005). Measuring the mind: Conceptual issues in contemporary psychometrics.Cambridge: Cambridge University Press.

Borsboom,D.(2008). Latent variable theory. Measurement, 6,25-53.

Hambleton, R. K., & Swaminathan, H. (1985). Item Response Theory: Principles and applications.Boston:Kluwer-Nijhoff.

Tavares, H. R., Anderade, D.,F., & Braganca Pereira, C. A.(2004). Detection of determinant genes and diagnostic via Item Response Theory. Genetics and molecular biology, 27,679-685.

Mellenbergh,G.J.(1994).Generalized Linear Item Response Theory. Psychological Bulletin, 115, 300–307.

Sanathanan,L., and Blumenthal, N. (1978) The logistic model and estimation of latent structure. Journal of the American Statistical Association 73:794-798.

Baker, Frank B.; Kim, Seock-Ho (2004). Item Response Theory: Parameter Estimation Techniques (2nd ed.). Marcel Dekker. ISBN 978-0-8247-5825-7.

Lord FM (1980) Applications of Item Response Theory to Practical Testing Problems. Lawrence Erlbaum Associates, Inc., Hillsdale.

Fox, Jean-Paul (2010). Bayesian Item Response Modeling: Theory and Applications. Springer. ISBN 978-1-4419-0741-7.

Han, K. T. (2007).  WinGen2: Windows software that generates IRT parameters and item responses [computer program]. Amherst, MA: University of Massachusetts, Center for Educational Assessment. Retrieved May 13, 2007, from http://www.umass.edu/remp/software/wingen/

Tavares, HR. & Andrade DF (2004) Item response theory for longitudinal data: Item and population ability parameters estimation.

 

برآورد استعداد افراد در فعال سازي ژن ها

برآورد استعداد افراد در فعال سازي ژن ها

محمد حسين ضرغامي، فرحناز قائمي، فاطمه قائمي

چکیده: اين پژوهش روشي را براي تحليل ويژگي هاي دسته هاي از ژن ها كه اثر مشخصي روي يك بيماري يا اختلال دارند، معرفي مي كند. در اين روش از نظريه ي سوال پاسخ در برآورد پارامترهاي ژن و همچنين پارامتر استعداد يا زمينه ي فرد استفاده مي شود. نحوه ي عملي برآورد پارامترهاي ژن و فرد از طريق داده هاي شبيه سازي شده نشان داده شده است. خروجي نهايي نرم افزار مقادير عددي پارامترها مي باشد كه مي تواند در تهيه ي بانك ژن و پيش بيني فعال سازي ژن ها توسط افراد با زمينه هاي مختلف مورد استفاده قرار گيرد. 

کليدواژگان:
نظريه ي سوال پاسخ، فعال سازي ژن، ژن غالب، استعداد نمونه ي زيستي.،

لینک مشاهده: (چاپ در مجله ی ژنتیک هزاره سوم).

لینک زیر را کپی کرده و در url مرورگر خود پیست نمایید.

http://www.magiran.com/view.asp?Type=pdf&ID=1160286&l=fa

http://www.g3m.ir/browse.php?mag_id=53&slc_lang=fa&sid=1


استفاده از نظريه ي سوال پاسخ در انجام تحليل عاملي هاي اكتشافي و تاييدي

تحليل عاملي تكنيكي آماري و چند متغييري است كه مبتني بر نظريه ي صفت مكنون يا پنهان مي باشد. اين تكنيك كاربردهاي فرآواني در رشته هاي مختلف و در مطالعات و پژوهش هاي مختلف دارد. بيشتر استفاده هايي كه از اين تكنيك مي شود تنها به ران (اجرا) كردن نرم افزار و خروجي گرفتن محدود شده است كه مي تواند با مطالعه ي يك كتاب مانند كتب اس پي اس اس يا ليزرل صورت پذيرد. 

با وجود اين، بيشتر تحليل عاملي هايي كه انجام مي شود، فرض مي كند كه رابطه ي بين متغير مشاهده شده و صفت مكنون يك رابطه ي خطي است. علاوه بر اين از ماتريس همبستگي بين سوالات يا متغيرها استفاده مي كند. بنابراين استفاده از تحليل عاملي ممكن است به خروجي از نرم افزار بيانجامد اما اين خروجي نمي تواند قابل دفاع باشد. 

رابطه ي بين صفت مكنون و مشاهده شده در حوزه هاي مختلف مطالعاتي خطي نيست و اين مفروضه كه اساس تحليل عاملي است از بين مي رود. در انجام تحليل عاملي و نرم افزارهاي آن گفته مي شود كه Garbage in Garbage out يعني اگر چيز نادرستي به نرم افزار يا روش هاي تحليل عاملي دهيد بيشتر از آن دريافت نمي كنيد. البته اين موضوع در مورد انتخاب متغيرها است اما به نظر مي رسد كه مي تو ان آن را به نحوه ي انجام تحليل عاملي نيز بسط داد. بنابراين لازم است تحليل عاملي به روش هاي غير خطي انجام شود.

از طرفي ماتريسي كه براي انجام تحليل عاملي استفاده مي شود ماتريس همبستگي است(در ايران بيشتر تحليل عاملي از طريق نرم افزار اس پي اس اس و ليزرل و گاهي آمووس انجام مي شود). ماتريس همبستگي سبب مي شود تا بسياري از اطلاعات موجود در پاسخ شركت كنندگان يا پاسخ دهندگان از بين برود و منجر به يك مقدار ارزش همبستگي شود. از اين رو در كشف يا تاييد عامل هاي موجود در بين متغيرها يا سوالات، استفاده از اين ماتريس ممكن است به نتايج نادرست منجر شود. به دليل اهميت تحليل عاملي و نتايجي كه از آن گرفته مي شود، اين موضوع مساله اي كه ذهن بيشتر روانسنجان و آماردانان را در طول سال هاي اخير به خود مشغول كرده است. 

استفاده از روش هاي مبتني بر نظريه ي سوال پاسخ مي تواند مشكلات ذكر شده را برطرف نمايد. به نظر مي رسد آينده ي تحليل عاملي به سمت استفاده از نظريه ي چند بعدي سوال پاسخ حركت مي كند كه در آن رابطه ي بين متغير مكنون و مشاهده شده خطي در نظر گرفته نمي شود و از كليه ي پاسخ هاي پاسخ دهندگان در كشف يا تاييد عامل ها استفاده مي كند.

در صورت سوال مي توانيد با شماره ي 09122263167 و يا zar100@gmail.com تماس بگيريد. ممنون و متشكرم از راهنمايي هايتان. 

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و  توانايي برآوردشده در مدل هاي پرسش پاسخ و ك

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و

توانايي برآوردشده در مدل هاي پرسش پاسخ و كلاسيك اندازه گيري

بهنام كريمي 1

محمدرضا فلسفينژاد 2

فريبرز درتاج 3

90/12/ 90 تاريخ پذيرش: 24 /6/ تاريخ وصول: 18

چكيده

زمينه: سهولت نمره گذاري، اجرا و عينيت آزمونهاي چندگزينه اي سبب شده كه به عنوان ابزار

اصلي در سنجش هاي وسيع مورد استفاده قرار گيرد. انتقادهاي زيادي نسبت به سؤالات

چندگزينه اي مطرح شده است. نظير پوشش ندادن به تمامي اهداف تربيتي (سطوح پايين

شناختي را مي سنجند) و استفاده از عامل حدس و گمان در پاسخ به سؤا لها. در اين ميان

عده اي نيز افزايش تعداد گزينههاي سؤال را راهي براي مقابله با اين مشكلات دانست هاند. هدف:

هدف از پژوهش حاضر بررسي تأثير تعداد گزينهها بر ويژگي هاي روان سنجي آزمونها و

سؤالات و همچنين توانايي برآورد شده آزمودنيها در نظريه كلاسيك و پرسش پاسخ بود.

روش: جامعه آماري شامل كليه دانشآموزان سال سوم دبيرستانهاي شهر شيراز بود كه 608

نفر از آنان به شيوه تصادفي به عنوان گروه نمونه انتخاب شدند. براي جمعآوري اطلاعات از دو

آزمون پيشرفت تحصيلي زبان و حسابان كه به همين منظور تهيه و تنظيم شده بودند استفاده شد.

يافتهها: تجزيه و تحليل دادهها نشان داد كه تعداد گزينهها بر پارامترهاي سؤال اثر ندارد و تأثير

karimi.adviser@gmail.com -1 كارشناس ارشد روان سنجي

-2 استاد دانشگاه علامه طباطبايي

F_dortaj@yahoo.com -3 استاد دانشگاه علامه طباطبايي

www.SID.ir

Archive of SID

2 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

تعداد گزينهها بر ويژگيهاي روانسنجي برآورد شده آزمودنيها، در آزمونهاي مختلف

يكسان است. همچنين بين پارامترهاي برآورد شده در نظريه كلاسيك و پرسش پاسخ تفاوت

وجود داشت. نتيجهگيري: بعد از بررسي مفروضههاي نظريه پرسش و پاسخ مشخص شد كه

دادهها با مدل دو پارامتري برازش بهتري دارند، و تفاوتي بين تعداد گزينهها و برازش با مدل

مشاهده نشد. همچنين بين توانايي برآورد شده و تعداد گزينه ها تفاوت مشاهده شد.

واژگان كليدي: آزمون هاي چندگزينه اي، نظريه كلاسيك اندازه گيري، نظريه پرسش

پاسخ.

مقدمه

سهولت نمرهگذاري، اجرا و عينيت آزمون هاي چند گزينه اي سبب شده كه به عنوان ابزار اصلي

در سنجش هاي وسيع 1 مورد استفاده قرار مي گيرد ( نظير كنكور، تافل و... ). انتقادهاي زيادي

نسبت به سؤالات چندگزينه اي مطرح شده است نظير پوشش ندادن تمامي اهداف تربيتي

(سطوح پايين شناختي را م يسنجند)، و استفاده از حدس وگمان كه يكي از اصل يترين ايرادات

نسبت به كنكور سراسري بوده كه منجر به طرح حذف كنكور شده است. در اين ميان عدهاي

نيز افزايش تعداد گزينههاي سؤال را راهي براي مقابله با اين مشكلات دانستهاند.

با اين همه اطلاعات محدود و ناچيزي در مورد اثربخشي رويكردهاي ارائه شده وجود

دارد. اگر چه شعور عادي ميپذيرد كه افزايش تعداد گزينهها حدس زدن را كاهش ميدهد،

اما امكان ايجاد گزينه هاي جالب و جذاب (بيش از 3 يا 4) در بسياري مواقع وجود ندارد. از

طرفي تعيين تعداد مطلوب گزينهها نياز به شواهد علمي و تجربي دارد.

نوشتن سؤال هاي تستي با وجود همه تلا شهايي كه در جهت مكانيزه و كامپيوتري كردن

آن به عمل آمده است همچنان به عنوان يك هنر تلقي مي شود. ابتكار و استادي در گنجاندن

1. large scale assessment

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 3

اين مفاهيم در يك مساله، قاطعيت در جلمه بندي و عبارات مربوط به سؤال به گونه اي كه

مسأله مورد نظر به وضوح بيان شده باشد و سرانجام بينش و مهارت در توليد گزينه هاي

انحرافي به گونه اي كه افراد ضعيف را به خود جلب كند مستلزم طرح و تحليل دقيق سؤالها و

.( تجزيه مستقيم است (ثرندايك به نقل از هومن، 1375

سؤال هاي چندگزينه اي ممكن است به گونه كلي داراي 3.4.5 حتي 6 گزينه باشند اما بيش

از 70 سال پيش متخصصان انداز هگيري كشف كردند كه دليل منطقي كمي براي نوشتن

سؤال هاي چندگزينه اي به صورت 4 يا 5 گزينه اي وجود دارد (اون و فرومن، 1987 ) با اين

وجود متداو لترين نوع پرسش ها چهار گزينه اي است. اما يك پرسش 3 گزينه اي كه براساس

روش هاي عملي و آماري صحيح تهيه شوند به يك پرسش 4 يا 5 گزينه اي كه داراي گزينه

.( هاي معيوب است برتري دارد (سيف، 1386

اما امروزه به چند دليل عمده از آزمون هاي چندگزينه اي بيش از ساير انواع آزمون ها در

حوزه تعليم و تربيت استفاده مي شود: اول به علت آنكه آزمودني قادر است در زمان معين تعداد

زيادي سؤال را پاسخ دهد و به عبارتي ديگر در يك زمان محدود تعداد زيادي از هد فها

آموزشي و بخش مهمي از محتواي درس را اندازه بگيرد. دوم اينكه آزمو نهاي چند گزينه اي

نسبت به آزمون هاي صحيح و غلط و دوگزينه اي كمتر امكان حدس زدن كوركورانه را به

آزمون شونده مي دهند. دليل سوم براي استفاده بيشتر از اين نوع آزمون سهولت در نمره

گذاري و تصحيح و تفسير آن و در نتيجه صرفه جويي در نيروي انساني و وقت و هزينه م يباشد

.( (سيف، 1386

اما معايبي نيزدارد از جمله اينكه ساختن اين آزمو نها بسيار دشوار است و در مقايسه با

آزمون هاي صحيح - غلط خواندن اين آزمون ها و پيدا كردن گزينه درست مستلزم وقت

.( زيادتري است (شريفي، 1384

امروزه آزمون هاي چندگزينه اي استعداد و پيشرفت تحصيلي در حوزه تعليم و تربيت بيش

از ساير موقعيت ها مورد استفاده قرار مي گيرد اما اينكه يك آزمون چندگزينه اي چه تعداد

www.SID.ir

Archive of SID

4 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

گزينه بايستي داشته باشد تا از حداكثر پايايي برخوردار باشد همواره مورد بحث مي باشد. تعداد

گزينه هاي سؤال هاي چندگزينه اي (گزين ههاي درست يا انحرافي) از 2 تا 5 و گاهاً تا 6

متغيراست و به لحاظ نظري هر چه تعداد گزينه ها بيشتر باشد امكان حدس زدن كمتر است اما

ابتدا بايد مشخص كرد در يك آزمون، چند گزينة انحرافي بيشتر، باعث افزايش پايايي سؤال

مي شود به هر حال در عمل ممكن است اضافه كردن گزينه هاي انحرافي واقعا باعث افزايش

پايايي آزمون نشود زيرا پيدا كردن گزينه هاي خوب مشكل است. پايائي هر سؤال از طريق

گزينه هاي انحرافي كه هيچ وقت انتخاب نشد هاند بالا نم يرود مطالعات نشان داد هاند كه به

ندرت مي توان سؤالاتي را يافت كه بيشتر از 3 يا 4 گزينه انحرافي كه به طور مؤثر عمل مي كنند

داشته باشند و گزينه هاي انحرافي خنثي ممكن است به پايايي آزمون لطمه وارد كنند به اين

دليل كه آنها زمان بيشتري را براي خواندن م يگيرند و فضاي آزمون را اشتغال مي كنند

.( (كاپلان و ساكوزو،به نقل از دلاور و درتاج و فرخي، 1386

سؤال هاي تحقيق

آيا پارامتر هاي سؤال نسبت به تعداد گزينه ها حساس است ؟

آيا تأثير تعداد گزين هها بر ويژگي هاي روان سنجي سؤالات و توانايي برآورد شده

آزمودني ها در نظريه كلاسيك و سؤال پاسخ متفاوت است ؟

آيا توانايي برآورد شده آزمودن يها از تعداد گزينه هاي سؤال تأثير مي پذيرد؟

آيا تعداد گزين هها بر برازش داده ها با مدل در نظريه سؤال پاسخ تأثير مي گذارد؟

يك مطالعه درباره مسائلي كه به انتخاب گزين ههاي انحرافي مربوط م يشود پيشنهاد

مي كند كه معمولاً بهتر است 3 يا 4 گزينه انحرافي كه به طور مؤثر عمل مي كنند براي هر سؤال

.( تدوين شود (آناستازي و اربينا، 1997 به نقل از دلاور، 1374

يونسي ( 1386 ) به بررسي ويژگ يهاي روان سنجي سؤال هاي آزمون فراگير رشته

روان شناسي دانشگاه پيام نور در سال 1385 پرداخته و نتايج تحقيق را اين طور بيان م يكند.

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 5

تجزيه و تحليل داد هها نشان داد كه گزينه هاي انحرافي تمامي سؤالات در همه آزمون ها هم

احتمال نيستند و عملكرد معيوبي داشت هاند نتايج تجزيه وتحليل حاكي از اين است كه در

آزمون هاي ادبيات فارسي، روانشناسي و جامعه شناسي مدل دو پارامتري نسبت به مدل سه

پارامتري برازش بهتري با مجموعه داده هاي ازمون دارد.

معلمي اوره ( 1387 )در تحقيقي به مقايسه دقت برآورد توانايي در سؤالات چندگزينه اي

با بكارگيري مدل سازي - سؤال پاسخ دو وچند ارزشي - پرداخته است.نتايج حاصل از برازاندن

مدل دو ارزشي 1و 2و 3 پارامتري بر داده هاي سؤال پاسخ مذكور نشان داد مدل دو پارامتري كه

1 است. دراين NRM از نظر ساختار پارامتري در ميان مدل هاي دو ارزشي نزديك ترين مدل به

ميان از برازندگي بهتري با داد ههاي فوق الذكر برخوردار است ولذا اين مدل به عنوان مدل دو

انتخاب (NRM) ارزشي مناسب جهت مقايسه دقت برآورد توانايي با مدل چند ارزشي برگزيده

شد.

هاديان ( 1376 ) تأثير تعداد گزينه هاي سؤال در اعتبار تست هاي چندگزينه اي را مورد

بررسي قرار داد.هدف از اين پژوهش مطالعه تأثير تعداد گزين هها در اعتبار تس تهاي چند

گزينه اي در بين سه گروه قوي،متوسط وضعيف است وتعيين اين كه چه تعداد گزينه در

هريك از گروه ها بيشترين اعتبار را براي تست فراهم م يكنند. 400 نفر از دانش آموزان دختر

وپسر سال اول دبيرستان هاي نظام جديد مناطق 2و 11 و 18 آموزش وپرورش شهر تهران در سال

75 ) به شيوه نمونه گيري چند مرحله اي انتخاب شدند. - تحصيلي ( 76

براي 4 نوع سؤال 2 تا 5 (KR بعد از اجراي آزمون ضريب اعتبار از طريق فرمول آلفا ( 20

گزينه اي در هر يك از سه گروه متوسط، ضعيف وقوي به دست آمد. ضرايب اعتباربه دست

آمده براي هر فرم از تست مورد مقايسه قرار گرفت نتايج نشان داد كه بين ضريب اعتبار

تست هاي 2تا 5 گزينه اي براي گروه قوي وضعيف تفاوت اساسي ومعناداري وجود ندارد ودر

-1 مدل پاسخ اسمي

www.SID.ir

Archive of SID

6 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

اين دو گروه ضريب اعتبار تس تهاي 2گزينه اي به طور قابل ملاحظه اي از ساير تس تها بيشتر

بود. ولي بين ضرايب اعتبار تست هاي 3تا 5 گزينه اي براي گروه متوسط تفاوت معنادار بود بدين

معني كه تست هاي 3گزينه اي، نسبت به تست هاي با تعداد گزينه هاي بيشتروكمتر از اعتبار

بالاتري برخوردار بود.

1376 )به بررسي تأثير تعداد گزينه ها وزمان اجراي آزمون بررسي نمره كل - بيرقي ( 77

آزمون پرداخته است. داده هاي جمع آوري شده برروي 200 نفر گروه نمونه انجام شده است.

آزمودني ها بر اساس نمره هاي حاصل از يك آزمون ادبيات جداگانه كه در ابتداي تحقيق اجرا

شده است، به دو گروه تقسيم شده اند.ويكي از گروه ها به يك آزمون سه گزين هاي وگروه

دوم به يك آزمون 4گزينه اي كمتر از ميانگين نمرات 3گزينه اي است يعني افزايش تعداد

گزينه ها باعث كاهش نمره كل آزمون شده است.

پاك نژاد ( 1377 ) به بررسي، تأثير تعداد گزينه هاي سؤال ومدت زمان پاسخ دهي برپايايي

آزمون هاي چندگزينه اي پيشرفت تحصيلي پرداخته است. تحقيق حاضر به منظور بررسي تأثير

تعداد گزينه هاي سؤال ومدت زمان پاسخ دهي بر پايايي 1 آزمون هاي چندگزينه اي پيشرفت

تحصيلي برروي يك نمونه 400 نفري از دانش آموزان سال سوم دبيرستان نظام جديد آموزش

متوسطه شهرستان انديمشك كه در سال تحصيل فرهنگ ومعارف اسلامي انجام شده است.

دراين تحقيق، ضرايب پايايي آزمون هاي چهارگزينه اي،سه گزينه اي، و دوگزينه اي وآزمون

چهارگزينه اي با مدت زمان پاسخ دهي كوتاه و بلند با استفاده از آزمون هاي معني دار بودن

مورد α=0 . اختلاف بين دو ضريب همبستگي در نمونه هاي همبسته ومستقل در سطوح 05

مقايسه قرار گرفته اند نتايج حاكي از آن بود كه بين ضرايب پايايي آزمون هاي چهارگزينه اي و

سه گزينه اي اختلاف معني داري نمي باشد. وبين ضرايب پايايي آزمون هاي چهارگزينه اي و دو

گزينه اي اختلاف معني دار مي باشد.

1. Reliability

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 7

2009 ) در تحقيقي برروي آزمون هاي ورودي مدارس و دانشگاه ها با بيان ) تام بوركارد 1

SAT اين كه بايد از آزمون ها و سؤالات چند گزينه اي استفاده شود ادعا مي كند تس تهاي

داراي مشكلات خاص وسيستماتيك است. بوركارد مي گويد مشكلات زيربنايي، ناشي از باز

پاسخ بودن بعضي از سؤالات است. همچنين ادعا مي كند كه مهارت تفكر انتقادي دراين

آزمون ها (باز پاسخ) واقعي نيست. زيرا آزمون گران به راحتي نم يتوانند ادعاي خود را درمورد

كودكان 6 تا 11 ساله ثابت كنند. بوركارد بيان مي كند باجايگزيني آزمون هاي چند گزينه اي به

جاي باز پاسخ ديگر مشكلي نخواهيم داشت زيرا اين تست ها به دقت دانش وتوانايي را ارزيابي

ميكنند. با آزمون هاي چندگزين هاي مي توان مقايسه هاي سال به سال از عملكرد دانش آموزان

داشت. بوركارد ( 2009 ) مي گويد در جهان واقعي كسي فاقد دانش نيست و استفاده از سؤالات

انشايي و باز پاسخ امري خطير و فاجعه بار وبسيار پرهزينه براي سنجش عملكرد افراد است.

2008 ) باتحقيقي به عنوان دشواري سؤالات آزمون هاي چند ) گاتس شال وكوبينجر 2

گزينه اي،بيان داشته كه آزمون هاي چندگزينه اي خود مشكل زاست زيرا اغلب به راحتي فرد به

جواب درست دست پيدا مي كند و باعث مي شود آزمودني يك حدس زننده خوش شانس

باشد. در اين تحقيق (كوبينجر وگاتس شال، 2008 ) از آزمون هاي موازي استفاده شد كه از

لحاظ محتوا شبيه به هم هستند اما پاسخ هاي آنها متفاوتند. 173 تست به صورت تصادفي در

كتابچه هايي ارائه شدند. با انجام تحليل مدل راش بعد از حذف 39 سؤال با مدل راش برازش

گزينه اي تفاوت معني X داشت نتيجه اوليه به اين صورت بود كه آزمون چندگزينه اي 5تا

داراي با آزمون جواب آزاد نداشت. در اين تحقيق بيان شده است اگر از سؤالات با فرمت 1

گزينه صحيح از 5 گزينه انحرافي و 1 گزينه صحيح از 4 گزينه انحرافي استفاده شود. چندان

تفاوتي نمي كند.

1. Tom burkard

2. Kubinger ,Gottschall

www.SID.ir

Archive of SID

8 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

در تحقيقي توسط جيمز و ماروي ( 2008 ) با عنوان تأثير گزينه معيوب در امتحانات چند

گزينه اي ارزيابي پرستاران به انتقاد از امتحانات چندگزين هاي پرداخته و با تاسف بيان كرده

است كه رواج گزينه هاي معيوب در امتحانات معلم ساخته باعث تبعات منفي زيادي شده

است.در اين تحقيق با يك بررسي دراز مدت برروي دانش آموختگان بوردپرستاري مشخص

شد افراد با نمره بالا وقتي دوباره آزمون شدند نتايج به نحوي بود كه انگار ارزيابي هاي قبلي،

غلط بودند (دانش آموزان نمرات پاييني در آزمون جديد گرفتند). به گفته جيمز و ماروي

2008 ) ممكن است در ظاهر فقط براي دانش آموزان دوره پرستاري اتفاق افتاده باشد. ولي پر )

واضح است كه در تمام عرصه ها به همين نحو است، جيمز و ماروي پيشنهاد م يكنند عيوب

سؤالات چندگزينه اي با دقت بيشتري بررسي شود و براي تمام سطوح موفقيت وتوانايي بررسي

شود.

2008 ) در پژوهش خود با عنوان استفاده از طرح آشيانه اي براي ) يانگ سوك سو 1

داده هاي آزمون هاي چندگزينه اي ادعا مي كند، موقعي كه راه حل و استراتژي صحيح در

ممانعت از انتخاب گزين ههاي انحرافي به كاربرده م يشود، مي تواند فرايند زير بنايي سؤالات

آزمون هاي چندگزينه اي را بهتر نشان دهد.اين رساله مدل جديدي براي ارزيابي سؤالات چند

ارائه مي دهد. به (MML) گزينه اي با استفاده از الگوريتم برآورد بيشينه درست نمايي كناري

علاوه سؤالات وطبقه كاربرد اطلاعات براي هر مدل به كار رفته است. و به ارزيابي عملكرد هر

مدل و مطالعات مشابه براي كشف پارامترهاي سؤال، پرداخته است. در كاربرد مدل به وسيله

استفاده كرده است. (Likelihood Ratio) از نسبت بيشينه تست DIF تحليل

چاين چي ( 2007 ) رساله دكتري خود را با عنوان تأثير حدس در ارزيابي ابعاد (تك بعدي

بودن وچند بعدي بودن) آزمون هاي چندگزينه اي ارائه كرده است. در اين تحقيق 4 شاخص

براي ارزيابي تك بعدي بودن مورد استفاده قرار گرفته است نسبت واريانس، تحليل هاي

وتفاوت خي دو. RMSR موازي، تبديل

1. Young suk suh

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 9

2004 ) بيان مي كند كه آزمو نهاي چندگزينه اي بيشترين تعداد را در ) واي مين هوانگ 1

ميان تنوع بسيار زياد آزمون ها به خود اختصاص داده است. آزمون هاي چندگزينه اي عمومي

براي مواردي مثل تعيين پيشرفت، تعيين پايه دانش، دانشجويان ابقا يا ارتقا درجه علمي مورد

استفاده قرار م يگيرد. بر همين اساس م يگويد علي رغم نفوذ آزمون هاي چند گزينه اي،

شواهد تجربي حاكي از آن است كه چگونگي نوشتن آزمون هاي چند گزينه اي دچار كاستي

است.

2008 ) بيان مي كند ابهام در آيت مهاي تست باعث ورود واريانس هاي نا مربوط ) آلن ام 2

در آزمون هاي چندگزينه اي مي شود.

كارين –وودفورد وپيتر بانكرافت ( 2009 ) در مقاله اي تحت عنوان آزمون هاي چندگزينه اي

را سخت تصور نكنيد به بررسي آزمون هاي چندگزينه اي پرداخته است. وچگونگي ساخت،

اجزا و محدودي تهاي اين آزمو نها را مورد بررسي قرار داده است. در بخشي از اين مقاله به

تعداد گزينه ها در آزمو نهاي چندگزينه اي پرداخته و اظهار مي دارد كه در سا لهاي اخير

بيشترين اظهارنظرها به آزمو نهاي 3و 4و 5 گزينه اي معطوف بوده است. وبيان م يكند كه ادعاي

آنها كه 5 گزينه اي را انتخاب م يكنند بيشتر به خاطر از بين بردن حدس است. اين پژوهشگران

استفاده از 3 گزينه اي يا 4 يا 5 گزينه اي را معطوف به مقتضي زمان كاربرد م يدانند تا از

اشتباهات دوري شود.

2006 ) در تحقيقي در دانشگاه كانساي ژاپن آثار كاهش تعداد ) تتسو هيتوشيزوكا 3

گزينه ها سؤالات برروي مشخص ههاي روان سنجي آزمون ورودي دانشگاه كانساي را مورد

بررسي قرار داد.اين آزمون به صورت يك سري سؤالات 4 گزينه اي بود كه براي غربالگري

مورد استفاده قرار مي گرفت كه با حذف يك گزينه به يك آزمون سه گزينه اي تبديل شد. وبر

روي گروه ديگري اجرا شد. پاسخ به دو آزمون ومقايسه دو آزمون نشان داد كه درجه سهولت

1. Yi min Huang

2. Oleen-m

3. Tetsuhito shizuka

www.SID.ir

Archive of SID

10 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

و پارامتر تشخيص به طور معناداري تغيير نكرد. نتايج اين تحقيق پيشنهاد مي كند كه سؤالات سه

گزينه اي همان كارايي سؤالات 4 گزينه اي را دارد ودر اصل م يتوان به جاي 4 گزينه اي از سه

گزينه اي استفاده كرد.

2005 ) در تحقيقي بيان مي كند كه سؤالات چندگزينه اي بهترين كاربرد را ) مايكل سي 1

در زمينه آزمون هاي پيشرفت تحصيلي دارند. و براي به دست آوردن سؤالاتي با محتواي عالي

و با كيفيت سؤالات سه گزينه اي مي تواند از سؤالات 4 يا 5 گزينه اي برتري داشته باشد. به

گفته مايكل سي ( 2005 ) محققان در طي 80 سال تحقيق مدارك تجربي به دست آورده اند كه

سؤالات 3 گزينه اي بهترين كاربرد را دارد و نياز به اين سؤالات روز به روز بايد مورد توجه

قرار گيرد.

1980 ) به مقايسه آزمون سه گزينه اي و چهارگزين هاي پرداخته وبيان ) رالف جي استاراتون 2

داشته است كه هر چند بيشتر كتاب هاي اندازه گيري به طور معمول سؤالات 5 يا 4 گزينه اي را

توصيه م يكنند، اما مطالعات تجربي نشان داده است كه سؤالات سه گزين هاي در شرايط خاص

بهينه تر است. در اين تحقيق پايايي وخطاي استاندارد اندازه گيري آزمون سه گزينه اي برابر يا

حتي بهتر از سؤالات 4 گزينه اي ويا 2 گزينه اي بود واين نتايج با در نظر گرفتن زمان آزمون

بود. رالف ( 1980 ) پيشنهاد م يكند از سؤالات سه گزينه اي در كلا سهاي عمومي استفاده شود.

روش

باتوجه به هدف اصلي پژوهش كه به بررسي تأثير تعداد گزين ههاي سؤال در ويژگ يهاي

روان سنجي آزمون وتوانايي برآورد شده مي پردازد، بهترين روش تحقيق روش تجربي م يباشد.

جامعه آماري تحقيق حاضر شامل كليه دانش آموزان دبيرستان هاي شهر شيراز و بخش

كربال فارس م يباشد.

1. Michael. c

2. Ralph G. straton

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 11

گروه نمونه اين تحقيق عبارت است از 608 نفر دانش آموز سال سوم دبيرستان رشته

رياضي، به صورت تصادفي خوش هاي به علت وسعت منطقه جغرافيايي و پراكندگي جامعه

آماري و عدم دسترسي به همه آنان صورت گرفت. براي همگون كردن آزمودن يها در تحليل،

آزمودني هاي دختر وپسر از هم تفكيك نشدند.

با توجه به اين كه كاربرد موفقيت آميز مدل هاي نظريه سؤال پاسخ نياز به حجم نمونه

كافي وطول مناسب آزمون براي برآورد دقيق پارامتر هاي توانايي و پارامتر هاي سؤال دارد، بر

نمونه به صورت زير انتخاب ،IRT طبق تحقيقات و پژوه شهاي انجام شده در مورد مدل هاي

خواهد شد 20 سؤال و 200 آزمودني براي مدل تك پارامتري، 30 سؤال و 500 آزمودني براي

مدل دو پارامتري و 60 سؤال و 1000 آزمودني براي مدل سه پارامتري توصيه م يشود از طرف

ديگر بعضي مطالعات حتي حجم نمونه 200 نفر و 20 سؤال را براي كسب برآوردهاي قابل

.( قبول كافي دانسته اند (همبلتون و كوك، 1983

داده ها در تحقيق حاضر از طريق آزمون پيشرفت تحصيلي درس حسابان، و زبان عمومي

در رشته رياضي فيزيك سال سوم دبيرستان جمع آوري شد.

آزمون هاي موردنظر توسط جمعي از دبيران حسابان وهندسه وزبان عمومي شهرستان

خرامه از سؤالات كنكور سا لهاي قبل، 20 سؤال تهيه شد. در ساخت اين آزمون ها به نكات زير

توجه شد:

با توجه به زمان سپري شده از سال تحصيلي اين آزمو نها از يك سوم كتاب تدريس شده

تهيه شد. وبه تاييد گروه رياضي و زبان آموزش پرورش شيراز وشهرستان خرامه رسيد. بعد از

ساخت سؤالات به صورت 4گزينه اي توسط دبيران گزين هاي ديگر به سؤالات 4گزينه اي اضافه

شد و سؤالات به صورت 5گزينه اي، از سؤالات 4گزينه اي يك گزينه غلط (گزينه انحرافي)

حذف گرديد و سؤالات 3گزينه اي تهيه شد. دراصل در تمام فرم تهاي 3و 4و 5 گزينه اي گزينه

صحيح و سؤال مشابه بود. روايي آزمون به صورت محتوايي و ظاهري توسط دبيران حسابان

www.SID.ir

Archive of SID

12 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

وزبان شهرستان خرامه بررسي شد ودر يك مدرسه به عنوان نمونه اجرا شد و پايايي سؤالات با

روش آلفاي كرونباخ مشخص و سؤالات مناسب جايگزين سؤالات نامناسب شد.

يافته ها

به منظور ارزيابي تأثير تعداد گزين هها بر ويژگي هاي روا نسنجي آزمون ها وسؤالات و همچنين

توانايي برآورد شده آزمودني ها در آزمون حسابان و زبان در نظريه كلاسيك اندازه گيري و

پرسش پاسخ، داد هها با استفاده از دو آزمون حسابان و زبان كه هر كدام با فرمت 3و 4و 5

گزينه اي ساخته شده بودند، از گروه نمون هاي كه از 120 دختر و 491 پسر ( 608 نفر به آزمون

زبان و 611 نفر به آزمون حسابان)تشكيل شده بودند و از جامعه به صورت تصادفي انتخاب

شده بودند جمع آوري شد. ابتدا پايايي آزمو نها از طريق آلفاي كرونباخ سنجيده شد و سپس

با استفاده از تحليل عاملي به بررسي مفروضه تك بعدي بودن آزمون پرداختيم. بعد از بررسي

مفروضات اوليه به تحليل نتايج پرداخته و ضرايب تميز و دشواري و حدس آزمو نها محاسبه

و از DIF پارامترها با هم مقايسه شدند. براي مقايسه پارامتر ها از منطق z شد و با استفاده از

آناليز واريانس آميخته نيزاستفاده شد.

جدول 1. جدول پايايي كل آزمون هاي حسابان و زبان

آلفاي كرونباخ (كودرريچارد سون ) آزمون وتعداد گزينه ها تعداد سؤالات

0.755 حسابان 3 گزينهاي 17

0.753 حسابان 4 گزين هاي 17

0.798 حسابان 5 گزينه اي 17

0.774 زبان 3گزينه اي 17

0.780 زبان 4گزينه اي 17

0.762 زبان 5 گزينهاي 17

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 13

به منظور بررسي پيش فرض هاي نظريه پرسش پاسخ از تحليل عاملي براي بررسي تك

بعدي بودن آزمون ها استفاده شد با توجه به ارز شهاي ويژه به دست آمده و اسكري هاي به

( آزمون هاي مورد استفاده تك بعدي بودند. همبلتون ( 1989 SPSS دست آمده از نرم افزار

ذكر م يكند كه چنانكه فرض تك بعدي بودن برقرار باشد. مفروضه استقلال موضعي نيز برقرار

است. باتوجه به اين مطلب در آزمون مذكور مفروضه ي استقلال موضعي نيز برقرار است و

آزمون ها مناسب براي تحليل با نظريه پرسش پاسخ مي باشد.

تحليل شد و BILOG-MG بعد از بررسي پيش فر ضهاي آماري داد هها با نرم افزار

محاسبه شد. IRT ضرايب تشخيص وتميز در دو نظريه كلاسيك و

براي بررسي حساسيت پارامترهاي سؤال نسبت به تعداد گزين هها از 3 روش، براي محاسبه

استفاده شد:

Z - اولين روش استفاده از فرمول

2 2

1 2

E1 E2 S S

b b

Z

در تحليل پارامترهاي سؤال DIF - دوم استفاده از منطق

تعريف اساسي نظريه سؤال پاسخ از كار كرد افتراقي سؤال، روش بسيار ساده اي فراهم

مي كند كه براساس آن مي توان كاركرد افتراقي سؤال را مورد بررسي قرار داد. يعني، انتخاب

نمونه بزرگي از آزمودني ها از دو جامعه، اجراي مقياس موردنظر (منظور تبديل داده ها به

مقياسي مشترك م يباشد) و برآورد پارامترهاي سؤال به طور جداگانه براي هر دو گروه و

سپس مقايسه ديداري منحني هاي سؤال پاسخ. تنها در صورتي پارامتر هاي سؤال (يا نمره هاي

به دست آمده از سطوح صفت) كه به طور جداگانه براي دو يا چند گروه برآورد شده اند قابل

مقايسه اند كه محقق اين پيش فرض را بپذيرد كه گروه ها در متغير صفت مكنون توزيع يكساني

دارند. به طور اخص،سؤال در صورتي كاركرد افتراقي را نشان مي دهد كه منحني سؤال پاسخ

آن در بين گروه هاي مختلف متفاوت باشند و يا اينكه بين هريك از پارامترهاي سؤال در بين

www.SID.ir

Archive of SID

14 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

0

0.2

0.4

0.6

0.8

1

1.2

-3 -2.75 -2.5 -2.25 -2 -1.75 -1.5 -1.25 -1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 2.75 3

سوال 11 زبان 5 گزينه سوال 11 زبان 4 گزينه ای

0

0.2

0.4

0.6

0.8

1

1.2

-3 -2.75 -2.5 -2.25 -2 -1.75 -1.5 -1.25 -1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 2.75 3

سوال 3 زبان 5 گزينه سوال 3 زبان 3 گزينه

ICC در اين مورد تفاوت DIF گروه ها تفاوت و جود داشته باشد. (فلسفي نژاد، 1388 ) ملاك

مي باشد. P( )i  P( )i ها و قدر مطلق 2

- سوم استفاده از آناليز واريانس آميخته

بررسي شده اند آورده شده است. DIF هايي كه به روش منطق ICC در زير نمونه اي از

نمودار 1. بيشترين تفاوت در سؤال 11 زبان 4 و 5 گزينه اي

نمودار 2. كمترين تفاوت در سؤال 2 زبان 3 و 5 گزينه اي

ICC ها نشان داد تفاوت فقط در چند سؤال قابل توجه است و اكثر ICC نتايج بررسي

نيز تأييد شد. Z سؤالات تفاوت زيادي با هم ندارند. اين نتايج با استفاده از تبديل پارامتر ها به

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 15

براي بررسي تفاوت ضريب دشواري در آزمون زبان Z جدول 2. استفاده از قدر مطلق

جدول، تفاوت ضرايب دشواري آزمو نهاي زبان 3 و 4 و 5 گزينه اي را نشان مي دهد. ستون

اول سمت راست تفاوت ضرب دشواري زبان 3 و 5 گزينه اي و در ستون دوم زبان 4و 5

جدول Z محاسبه شد. با توجه به Z گزينه اي و در ستون سوم زبان 3و 4 گزينه اي با استفاده از

در سطح معني داري 0.05 تفاوت بين ضرايب دشواري آزمون زبان 3 و 4 و 5 گزينه اي فقط در

سؤالات 2و 14 آزمون زبان 3و 4 گزينه اي و سؤال 1 ازمون 4 و 5 گزينه اي مشاهده شد.

ضريب دشواري z

5و 3 گزينه اي

ضريب دشواري z

4و 5 گزينه اي

ضريب دشواري z

3و 4 گزينه اي

زبان

1.162 2.026 سؤال 1 0.7202

2.0728 0.5577 0.7548 سؤال 2

1.294 1.289 0.839 سؤال 3

1.032 0.6524 0.7366 سؤال 4

2.109 1.2685 0.9425 سؤال 5

1.2936 1.5130 0.9970 سؤال 6

0.1334 1.3198 0.9569 سؤال 7

0.8411 0.5529 0.8510 سؤال 8

1.152 1.241 0.9682 سؤال 9

2.087 0.4433 0.8489 سؤال 10

1.2684 0.6051 0.4249 سؤال 11

1.0211 1.2277 0.8553 سؤال 12

1.0681 0.5240 0.8730 سؤال 13

2.457 سؤال 14 6387.1 0.8688

1.1006 1.0369 سؤال 15 0.9682

0.0299 1.073 0.777 سؤال 16

1.3654 1.2199 0.9485 سؤال 17

www.SID.ir

Archive of SID

16 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

براي بررسي تأثير تعداد گزينه ها بر ويژگي هاي روا نسنجي سؤالات و توانايي برآورد شده

استفاده شد (mixed ) آزمودني ها در نظريه كلاسيك و سؤال پاسخ از تحليل واريانس آميخته

كه نتايج تحليل آزمون زبان در جداول زير آورده شده است.

IRT,CTT جدول 3. خروجي آناليز واريانس آميخته براي بررسي تفاوت ضريب دشواري زبان در

sig F ms Df Ss منابع تغيير

درون گروهي

0.418 1.561 0.514 2 تعداد گزينه ها 1.028

تعامل 0.042 3.340 1.1 2 2.2

خطا 0.329 64 21.080

برون گروهي

0.000 41.407 20.207 1 مدل 20.207

خطا 0.488 32 15.617

IRT,CTT جدول 4. خروجي آناليز واريانس آميخته براي بررسي تفاوت ضريب تميز زبان در

CTT,IRT ضريب تميز زبان در

sig f ms df Ss منابع تغيير

درون گروهي

0.495 0.712 0.827 2 تعداد گزينه ها 1.653

0.452 0.804 0.934 تعامل 2 1.867

1.161 خطا 64 74.33

برون گروهي

مدل 0.000 26.498 30.761 1 30.761

1.161 خطا 32 17.199

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 17

با توجه به سطح معني داري منابع تغيير درون گروهي و برون گروهي نتايج زير حاصل شد

بين ضرايب تميز و دشواري و تعداد گزينه ها تفاوت معني داري وجود ندارد و لي بين

پارامترهاي محاسبه شده در دو نظريه كلاسيك و پرسش پاسخ تفاوت وجود دارد.

براي بررسي تأثير تعداد گزينه هاي سؤال بر توانايي از آزمون خي 2 استفاده شد كه نتايج

آن در جداول زير موجود مي باشد.

جدول 5. آزمون خي 2 براي بررسي تفاوت تواناي يهاي آزمون هاي زبان 3 و 4و 5 گزينه اي وآزمون

حسابان 3و 4و 5 گزينه اي

زبان 3و 4و 5 گزينه ارزش درجه آزادي سطح معني داري (دودامنه)

0.027 4 10.981 خي 2

تعداد مورد ها 608

نتايج بررسي تفاوت با خي 2 نشان داد كه بين تعداد گزين هها و توانايي آزمون هاي 3و 4و 5

گزينه اي تفاوت معني دار است.

بحث و نتيجهگيري

سؤال 1: آيا پارامتر هاي سؤال نسبت به تعداد گزينه ها حساس است ؟

براي اين منظور از خروجي نرم افزار بايلوگ ضريب هاي تميز و دشواري و حدس در

مورد تحليل قرار DIF و سپس با منطق z نظريه پرسش پاسخ استخراج كرده و ابتدا با فرمول

گرفت. علاوه بر آن از تحليل واريانس آميخته نيز استفاده شد.

حسابان 3و 4و 5 گزينه ارزش درجه آزادي سطح معني داري (دودامنه)

0.000 4 20.228 خي 2

تعداد مورد ها 610

www.SID.ir

Archive of SID

18 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

ضريب تميز، ضريب دشواري، ضريب حدس ، هر : z مقايسه پارامترها با استفاده از فرمول

بحراني در Z محاسبه شده و Z تبديل شده و با هم مقايسه شدند. با توجه به Z سؤال دو به دو به

سطح 0.05 تفاوت معني داري بين ضرايب دشواري و تميز وحدس در آزمون هاي 3 و 4 و 5

گزينه اي مشاهده نشد.

نتايج تحليل واريانس آميخته نيز نشان داد كه بين ضرايب تميز و دشواري و آزمون هاي 3

و 4 و 5 گزينه اي تفاوت معني داري وجود ندارد.براي بهتر نشان دادن اين موضوع از منطق

ها، فقط در تعداد اندكي از سؤالات قابل توجه ICC استفاده شد تفاوت مشاهده شده بين DIF

بودند و بقيه سؤالات تفاوت زيادي باهم نداشتند.

تتسو هيتو شيزوكا ( 2006 )مبني بر اين كه بين ضرايب » نتايج اين تحقيق با تحقيقات

همسو مي باشد. « دشواري و تميز سؤالات 3 و 4 گزينه اي تفاوتي وجود ندارد

سؤال دوم: آيا تأثير تعداد گزينه ها بر ويژگ يهاي روا نسنجي سؤالات و توانايي برآورد

شده آزمودني ها در نظريه كلاسيك و سؤال پاسخ متفاوت است ؟

براي بررسي تأثير تعداد گزينه ها بر ويژگي هاي روا نسنجي سؤالات و توانايي برآورد شده

استفاده (MIXED ) آزمودني ها در نظريه كلاسيك و سؤال پاسخ از تحليل واريانس آميخته

شد. نتايج تحليل نشان داد كه پارامترهاي محاسبه شده در نظريه كلاسيك و پرسش پاسخ باهم

متفاوت بودند.

تفاوت در برآورد پارامترهاي سؤال در » اين نتايج با تحقيق احمدي آذر ( 1387 )، مبني بر

همسو مي باشد. « نظريه سؤال پاسخ و كلاسيك اندازه گيري

سؤال 3: آيا توانايي برآورد شده آزمودن يها از تعداد گزينه هاي سؤال تأثير مي پذيرد؟

براي بررسي اين سؤال توانايي بدست آمده از هر سه فرمت آزمون،ازخي 2 براي بررسي

تفاوت استفاده شد. خي 2 محاسبه شده معني دار بود و تفاوت در برآورد توانايي در فرمت هاي

آزمون هاي 3 و 4 و 5گزينه اي مشاهده شد. باتوجه به نمودارهاي فراواني توانايي به دست آمده و

درصد پاسخ هاي صحيح افراد و توابع آگاهي آزمون هاي مختلف نتايج زير نيز حاصل شد.

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 19

افراد با توانايي كم و متوسط در آزمون هاي 3گزينه اي و 4 گزينه اي عملكرد بهتري داشتند و

افراد با توانايي ضعيف در آزمون هاي 5 گزينه اي عملكرد بدتري داشتند. بررسي درصد

پاسخ هاي صحيح افراد نشان داد در آزمون هاي 3 گزينه اي درصد پاسخ هاي صحيح به مراتب

بالاتر از فرمت هاي ديگر بود همچنين در بررسي توابع آگاهي فرمت هاي مختلف آزمون

مشخص شد آزمو نهاي 3 گزينه اي به اندازه آزمون هاي 4 گزينه اي آگاهي دهنده توانايي افر اد

است.شايد بتوان اين را مطرح كرد كه آزمون هاي 3 گزينه اي به همان مقدار آزمون هاي 4

گزينه اي، توانايي را م يسنجند و مي توان به جاي يكديگر به كار برد.

سؤال 4: آيا تعداد گزينه ها بر برازش با مدل در نظريه سؤال پاسخ تاثير مي گذارد ؟

مقدار - BILOG-MG براي بررسي برازش مدل در نظريه پرسش پاسخ از نرم افزار

2 در آخرين چرخش استخراج كرده و براي هر سه مدل آن را با خي 2 بحراني Loglikelihood

با درجه آزادي برابر با تعداد سؤال ها مقايسه كرديم.

(اگر خي 2 مشاهده شده از خي 2 بحراني كوچكتر باشد، معلوم مي شود كه به لحاظ

آماري بين برازش مدل ها تفاوت معناداري و جود ندارد و ميتوان هريك را به جاي ديگري به

اختيار گزارش كرد. ولي براساس اصل امساك بهتر است مدل داراي پارامترهاي كمتر را

انتخاب كرد.)

-2 به دست آمده و خي 2 جدول با درجه آزادي 17 كه برابر log likelihood با توجه به

27 نتايج زير به دست آمد: آزمون هاي زبان و حسابان در فرمت هاي 3 و 4 و 5 / است با 59

گزينه اي با مدل دو پارامتري برازش بهتري داشت.اين نشان دهنده اين است كه م يتوان از

پارامتر حدس در آزمون هاي چندگزينه اي صرف نظر كرد.

www.SID.ir

Archive of SID

20 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

منابع فارسي

احمدي، آذر. ( 1387 ). نمره كل سازي با استفاده از تكني كهاي نظريه كلاسيك و مقايسه آن با

مد لهاي نظريه سؤال پاسخ در كنكور كارشناسي رشته رياض . ي پايان نامه كارشناسي ارشد.

تهران: دانشگاه علامه طباطبايي.

آلن ام،جي وين دبليو ام. ( 1384 ). مقدم هاي بر نظري ههاي اندازه گيري ( روان سنجي)، ترجمه

.( علي،دلاور، تهران: سمت (تاريخ انتشار به زبان اصلي 1982

بيرقي، ابولفضل. ( 1377 ). بررسي اثر تعداد گزين هها و زمان بر روي نمره كل در آزمو نهاي پيشرفت

تحصيل . ي پايان نامه كارشناسي ارشد. تهران: دانشگاه علامه طباطبايي.

ثرندايك، برت ال. ( 1369 ). روان سنجي كاربردي. ترجمه هومن، حيدرعلي دانشگاه تهران.

سيده مؤمني، سيد طاهره. ( 1379 ). تأثير عامل حدس بر نمره هاي آزمو نهاي چندگزين هاي پيشرفت

تحصيل . ي پايان نامه كارشناسي ارشد.تهران: دانشگاه علامه طباطبايي.

سيف، علي اكبر. ( 1365 ). اندازه گيري پيشرفت تحصيل ، ي تهران: انتشارات آگاه.

( شريفي حسن پاشا،اصول روان سنجي در روان آزمايي، انتشارات رشد( 1384

فتوحي، ليلا. ( 1387 ). بررسي كاركرد افتراقي سؤالات كنكور كارشناسي ارشد رشته روا نشناس . ي

فلسفي نژاد، محمد رضا. ( 1388 ). مباني نظري پرسش پاس . خ زير چاپ.

كاپلان، روبرت ام؛ ساكوز، دنيس پ. ( 2004 ). روان آزماي ، ي مترجم علي، دلاور، فريبرز درتاج،

. نورعلي فرخي، تهران: نشر ارسباران، 1386

معلمي اوره، مهرناز. ( 1387 ). مقايسه دقت برآورد توانايي در سؤالات چند گزينه اي با بكارگيري

مدل سازي – سؤال پاسخ دو وچند ارزش . يپايان نامه كارشناسي ارشد.تهران. دانشگاه علامه

طباطبايي.

1375 ). تأثير گزينه هاي سؤال در اعتبار تست هاي چندگزين هاي. كتابنامه ص - هاديان، مينا. ( 76

.108 -111

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 21

منابع لاتين

Chien-chi-yeh (2007). The effect of gussing on assessing dimentionality in multiple

choice test,university of Pittsburgh.

Educational and psychological measurement ,vol,40,no,2,357-365/(1980) SAGE

publication /a comparison of the two ,three and four choice item test given/fixed total

number of choice /RALPH G,STRATON

James ware&marve(2008).impact of item-writing flaws in multiple choice question on

student achievement in high-stakes nursing,assessment.42:198-20

Karyn woodfard ,peter Bancroft,(2009).multiple chioice questions not

considered harmful,queensland university of technology.

Kobinger&Christian.h.ghottschall(2008).item difficulty of multiple choice test dependant

on different ietm response formats,university of Vienna.

Olleen m,(2008).heffernan.university of Alberta.

Michael c rodrigrez (2005),tree option are optimal for multiple –choice

item/uni/washin.vol;24,lss,2;pg3,11pgs.

TOM burkard.uk.cps,januray (2009).multiplechoice.

Youngsuk suh (2008),nested logit models for multiple choice item response

data.university of Wisconsin-madison..

Tetsuhito shizuka and coworkers(2006)a comparison of three and four option English

test for university entrance selection,purposes in japan.language testing (2006);23;35.

YI MIN huang.(2004),the impact of the all-of-the above option and student ability in

multiple choice testing,Washington state university college of education.

www.SID.ir

برنامه اي به منظور برآورد تتاي افراد بر اساس مدل پاسخ مدرج سوال پاسخ(زماني كه پارامترهاي سوالات موجو

يكي از مشكلات موجود در نرم افزارهاي بر آورد تتاي افراد يا توانايي افراد بر اساس مدل هاي مختلف سوال پاسخ اين است كه نرم افزارهايي مانند بايلوگ و مالتي لوگ و ساير نرم افزارهاي موجود پارامترهاي سوالات و افراد را به طور همزمان بدست مي آورند( منظور از همزمان در اينجا روش برآورد پارامتر نيست) يعني شما زماني كه بانك سوال مدرجي داشته باشيد و بخواهيد از تتاي فرد را برآورد سازيد نمي توانيد از اين نرم افزارها استفاده كنيد به اين منظور بنده برنامه اي به زبان آر نوشته ام كه در صورت نياز مي توانيد ايميل زده و از آن استفاده كنيد.

ZAR100@GMAIL.COM

مدل فازي سوال پاسخ3

مدل سوال پاسخ فازي

روش هاي ساخت اعداد فازي با استفاده از FIRM براي اندازه گيري روانشناختي به صورت زير است: 

گام اول: از افراد خواسته مي شود تا درصدهاي مد نظر خود را در هر گزينه وارد كنند. مسلم است كه مجموع درصد ها در هر گزينه بايد 100 شود. 

گام دوم: با توجه به روش هاي اشاره شده در بالا، نمره دهي سنتي محاسبه مي شود. 

گام سوم: پارامتر گام محاسبه مي شود. 

گام چهارم: داده هاي قطعي بدست آمده به داده هاي فازي تبديل مي شوند. روش فازي سازي داده ها استفاده از تابع عضويت مثلثي است.

گزينه هاي ليكرتي موجود مي توانند به اعداد نرمال فازي تبديل شوند. اين گزينه ها ماهيتا زباني اند كه توابع عضويت مثلثي دارند. اين توابع عضويت در زير نشان داده شده اند:

 

در اين شكل ابتدا پارامترهاي گام محاسبه مي شوند. اين پارامترها از طريق مدل PCM محاسبه مي شوند. ما در نظر مي گيريم افرادي كه در حوزه ي توانايي منفي 3 تا يك قرار گرفته اند، گزينه ي يك را انتخاب خواهند كرد. بر اين اساس عدد فازي مثلثي   تشكيل مي شود كه در  آن كرانه ها عباتند از 3- و   و   بيشترين ارزش عضويت را دارا است. 

افرادي كه توانايي آنها در بين پارامتر مرحله ي اول و پارامتر مرحله ي دوم قرار گرفته است، گزينه ي دو را انتخاب خواهند كرد و نقطه ي مياني بين اين دو پارامتر بيشترين درجه ي عضويت را مي گيرند. بنابراين عدد فازي   داراي كرانه هاي   و   خواهد بود و بيشترين ارزش در نقطه ي مياني اين دو كرانه يعني در   قرار مي گيرد. از  به   خط بريده اي ترسيم مي شود تا سمت چپ و راست عدد فازي از يكديگر منفك شوند. 

به  طور مشابه ما   و  

را براي شكل بندي گزينه هاي 3 و 4 استفاده مي كنيم. در زير شكل مربوطه مشخص شده است:


مدل فازي سوال پاسخ2

ساخت اعداد فازي به وسيله ي FIRM

نظريه فازي بيان مي كند كه درجه ي عضويت در يك طبقه ي خاص يك ارزش پيوسته است كه به طور متناوب از صفر به سمت يك پيش مي رود، مي باشد نه اين كه مانند روش هاي كلاسيك تنها دو مقدار صفر يا يك را انتخاب كند. با توجه به اين موضوع در مدل فازي سوال پاسخ آزمودني ها در انتخاب بيش تر از يك گزينه در هر سوال آزاد اند و در عوض در هر گزينه ي انتخاب شده درصد قرار مي گيرد. درصد هاي وارد شده درجه ي عضويت را مشخص مي كنند كه بعضي از آزمودني ها به آن طبقه تعلق دارند. بعلاوه جمع درصدها بايد برابر 100 درصد شود. سرانجام اعداد فازي نرمال براي گزينه هاي 1 تا 4 (به عنوان مثال در يك مقياس ليكرت 4 تايي) ساخته بدست مي آيد. جدول زير جدولي است كه در آن مثال هايي از نمره دهي فازي و سنتي نشان داده شده  اند. 

 در نمره دهي سنتي گزينه اي كه بيشترين درصد را دار است معيار نمره دهي است. در اين روش اگر دو گزينه بيشترين درصد را به خود اختصاص داده باشد، در اين صورت گزينه ي پايين تر به عنوان گزينه ي اصلي در نظر گرفته مي شود. در روش نمره دهي فازي، مجموع اعداد فازي در عضويت آنها ضرب مي شود. از آنجا كه محاسبات مدل اعتبار پاره اي نيازمند اعداد قطعي است نتايج نمره دهي سنتي بعنوان داده هاي قطعي در مدل اعتبار جزئي استفاده مي شود. در حالي كه نتايج حاصل از روش فازي (اعداد فازي) براي تحليل هاي بعدي آماده مي شوند. 


مدل فازي سوال پاسخ1

مدل فازي سوال پاسخ: 
هدفي كه در اين ارائه دنبال مي شود، معرفي و شناسايي يك رويكرد جديد به نام مدل فازي سوال پاسخ(Fuzzy item response model) است. در اين رويكرد، نظريه ي سوال پاسخ با نظريه ي مجموعه هاي فازي تركيب مي شود. اين مدل مربوط به حوزه ي سنجش و اندازه گيري است. بعد از معرفي اين مدل مثالي از كاربردي شدن اين مدل توسط وو و چي يو زده مي شود و اين مثال توضيح داده مي شود.
در نظريه ي كلاسيك اندازه گيري روشي وجود دارد به نام"روش جمع متوالي(Successive Integral)" ، يا روش "نمرات خام". اين روش در حوزه ي نمره گذاري در اندازه گيري روانشناختي  مورد توجه است. در اين روش گزينه هاي مربوط به يك گزاره يا سوال داراي فواصل برابر در نظر گرفته مي شوند و پشت سرهم جمع بسته مي شوند. به عنوان مثال 1 و 2 و ... به گزينه هاي كاملا موافقم، موافقم و .... داده مي شود. اين روش بسيار ساده است و از روش هاي محبوب و فراگير در اندازه گيري روانشناسي قلمداد مي شود. اين روش مورد انتقادات زيادي قرار گرفته است. مفروضه ي برابري گزينه هاي مجاور، سوال برانگيز است. دوم اين كه مقياس رتبه دهي ماهيتا زباني است تا عددي. بنابراين كاربرد نظريه ي فازي در اين مورد پذيرفتني و قابل دفاع است و جايگزين بسيار شايسته اي براي روش نمرات خام محسوب مي شود. 
استفاده از تابع عضويت از اين جهت كه سبب كاربرد مجموعه هاي فازي در حوزه ي اندازه گيري علوم انساني مي شود، بسيار حائز اهميت است. در مهندسي و علوم روش هاي تعريف و ساخت تابع عضويت فراوان است. بعضي از اين روش ها عبارتند از روش هاي شهودي، انتقال احتمالات به فضاي امكان، هيستوگرام ها، نزديكترين همسايگي، شبكه هاي عصبي پسخوراند، خوشه بندي، تجزيه ي آميخته. با اين وجود در اندازه گيري روانشناختي روش هاي بكارگرفته شده و استخراج شده كم اند. بعضي از مطالعات رويكرد فازي را در كنار نظريه ي كلاسيك استفاده كرده اند و به مجموعه هاي پاياتر و صحيح تر از نمرات خام دست يافته اند. استفاده از اين رويكرد قوي در نظريه هاي صفت مكنون نيز به اندازه گيري و سنجش صحيح تر و درست تر نائل مي شود. در CTT نمرات خام پايه ي اصلي است. براي دستيابي به اندازه گيري معنادار، اندازه گيري بايد تك بعد، خطي، بدون تعبير و عيني باشد. نمره ي خام داراي اين ويژگي ها نيست. مشخص است كه IRT نسبت به نظريه كلاسيك ارجح است در اين رويكرد نياز به خطي بودن وجود ندارد و نمرات وابسته ي به نمونه سوالات يا نمونه افراد نيست. 
كاربرد مجموعه هاي فازي در يك مثال: مدل PCM يك مدل تك بعد براي سوالات چند بخشي است. اين مدل دشواري يك سري از طبقات كه به آنها گام مي گويند، را پامتري مي كند. يكي از ويژگي هاي اين روش اين است كه امكان تغيير گام در بين سوالات آن وجود دارد و اين ويژگي اي متمايز كننده ي براي آن محسوب مي شود. مدل PCM عضوي از خانواده ي مدل هاي خصيصه مكنون  راش محسوب مي شود كه داراي دو ويژگي عينيت خاص (Objective Specificity) در مقايسه ي سوالات و افراد و قدرت تفكيك پارامتر(Parameter separability) را دارا است. 
در اين ارائه مي خواهيم نحوه ي كاربرد نظريه ي فازي در مدل PCM را شرح داده تا از اين راه اعداد فازي بسازيم و اين اعداد فازي را در اندازه گيري روانشناسي به كار ببريم و يك مثال تجربي انجام شده را ذكر كنيم. 
براي درك بهتر بايد روش PCM توضيح داده شود و سپس نحوه ي ساخت اعداد فازي ذكر شود. 

مدل فازي سوال پاسخ1

مدل فازي سوال پاسخ: 
هدفي كه در اين ارائه دنبال مي شود، معرفي و شناسايي يك رويكرد جديد به نام مدل فازي سوال پاسخ(Fuzzy item response model) است. در اين رويكرد، نظريه ي سوال پاسخ با نظريه ي مجموعه هاي فازي تركيب مي شود. اين مدل مربوط به حوزه ي سنجش و اندازه گيري است. بعد از معرفي اين مدل مثالي از كاربردي شدن اين مدل توسط وو و چي يو زده مي شود و اين مثال توضيح داده مي شود.
در نظريه ي كلاسيك اندازه گيري روشي وجود دارد به نام"روش جمع متوالي(Successive Integral)" ، يا روش "نمرات خام". اين روش در حوزه ي نمره گذاري در اندازه گيري روانشناختي  مورد توجه است. در اين روش گزينه هاي مربوط به يك گزاره يا سوال داراي فواصل برابر در نظر گرفته مي شوند و پشت سرهم جمع بسته مي شوند. به عنوان مثال 1 و 2 و ... به گزينه هاي كاملا موافقم، موافقم و .... داده مي شود. اين روش بسيار ساده است و از روش هاي محبوب و فراگير در اندازه گيري روانشناسي قلمداد مي شود. اين روش مورد انتقادات زيادي قرار گرفته است. مفروضه ي برابري گزينه هاي مجاور، سوال برانگيز است. دوم اين كه مقياس رتبه دهي ماهيتا زباني است تا عددي. بنابراين كاربرد نظريه ي فازي در اين مورد پذيرفتني و قابل دفاع است و جايگزين بسيار شايسته اي براي روش نمرات خام محسوب مي شود. 
استفاده از تابع عضويت از اين جهت كه سبب كاربرد مجموعه هاي فازي در حوزه ي اندازه گيري علوم انساني مي شود، بسيار حائز اهميت است. در مهندسي و علوم روش هاي تعريف و ساخت تابع عضويت فراوان است. بعضي از اين روش ها عبارتند از روش هاي شهودي، انتقال احتمالات به فضاي امكان، هيستوگرام ها، نزديكترين همسايگي، شبكه هاي عصبي پسخوراند، خوشه بندي، تجزيه ي آميخته. با اين وجود در اندازه گيري روانشناختي روش هاي بكارگرفته شده و استخراج شده كم اند. بعضي از مطالعات رويكرد فازي را در كنار نظريه ي كلاسيك استفاده كرده اند و به مجموعه هاي پاياتر و صحيح تر از نمرات خام دست يافته اند. استفاده از اين رويكرد قوي در نظريه هاي صفت مكنون نيز به اندازه گيري و سنجش صحيح تر و درست تر نائل مي شود. در CTT نمرات خام پايه ي اصلي است. براي دستيابي به اندازه گيري معنادار، اندازه گيري بايد تك بعد، خطي، بدون تعبير و عيني باشد. نمره ي خام داراي اين ويژگي ها نيست. مشخص است كه IRT نسبت به نظريه كلاسيك ارجح است در اين رويكرد نياز به خطي بودن وجود ندارد و نمرات وابسته ي به نمونه سوالات يا نمونه افراد نيست. 
كاربرد مجموعه هاي فازي در يك مثال: مدل PCM يك مدل تك بعد براي سوالات چند بخشي است. اين مدل دشواري يك سري از طبقات كه به آنها گام مي گويند، را پامتري مي كند. يكي از ويژگي هاي اين روش اين است كه امكان تغيير گام در بين سوالات آن وجود دارد و اين ويژگي اي متمايز كننده ي براي آن محسوب مي شود. مدل PCM عضوي از خانواده ي مدل هاي خصيصه مكنون  راش محسوب مي شود كه داراي دو ويژگي عينيت خاص (Objective Specificity) در مقايسه ي سوالات و افراد و قدرت تفكيك پارامتر(Parameter separability) را دارا است. 
در اين ارائه مي خواهيم نحوه ي كاربرد نظريه ي فازي در مدل PCM را شرح داده تا از اين راه اعداد فازي بسازيم و اين اعداد فازي را در اندازه گيري روانشناسي به كار ببريم و يك مثال تجربي انجام شده را ذكر كنيم. 
براي درك بهتر بايد روش PCM توضيح داده شود و سپس نحوه ي ساخت اعداد فازي ذكر شود. 

ارزش يابي آزمون نظري آزمون گواهينامة رانندگي بر اساس

ارزش يابي آزمون نظري آزمون گواهينامة رانندگي بر اساس
نظرية سؤال  پاسخ و مقايسة آن با نظرية كلاسيك آزمون
اسماعيل مام شريفي 1
علي دلاور 2
آزاده بلوكي 3
سميه شعباني 4
چكيده
زمينه: اين پژوهش با هدف بررسي ويژگي هاي روان سنجي سؤالات آزمون نظري آزمون گواهينامة رانندگي انجام و
اجرا شده است. نمونة مورد مطالعه را 350 نفر از پاسخ دهندگان آزمون تشكيل دادند كه به روش نمونه گيري خوشه
اي چند مرحله اي انتخاب شده بودند و تعداد 30 سؤال از سؤالات آزمون نظري آزمون گواهينامة رانندگي، كه به
روش تصادفي ساده استخراج شده بودند، به عنوان نمونه سوالات مورد بررسي قرار گرفتند. براي بررسي ويژگي هاي
روان سنجي سؤالات آزمون، از دو نظرية كلاسيك آزمون و سؤال - پاسخ استفاده گرديده و نتايج به دست آمده از
آنها با هم مقايسه و بررسي شده است. روش پژوهش توصيفي بوده و در مرحلة اول صحت نمونه گيري بررسي
گرديد. جهت تعيين تك بعدي بودن آزمون از روش آلفاي كرانباخ و تحليل عاملي استفاده شد. سپس تجزيه و تحليل
سؤالات آزمون با نظرية كلاسيك و نظرية سؤال - پاسخ انجام گرفت و پارامترهاي سؤال (دشواري، تشخيص و
حدس) و توانايي به دليل نامعلوم بودن به روش برآورد همزمان مورد انداز هگيري قرار گرفت.
يافته ها: نتايج، بيان كنندة تك بعدي بودن آزمون و استقلال موضعي آن است. پس از تعيين مفروضه هاي اصلي
برازش مدل - داده ها مورد بررسي قرار گرفت كه نتايج نشان داد مدل دو پارامتري برازش بهتري با ،IRT نظرية
وابسته مورد بررسي قرار T مجموعة داده ها دارد. در مرحلة بعد معناداري پارامترهاي سؤال و توانايي توسط آزمون
گرفت. نتايج نشان داد كه رابطة معناداري بين دقت برآورد پارامترهاي دشواري، شيب و توانايي در دو نظرية
كلاسيك و سؤال - پاسخ وجود ندارد. به منظور بررسي پايايي و ثبات نتايج آزمون در اجراي اول، بر روي نمونه اي
به حجم 30 نفر، بازآزمايي بعمل آمد. از آنجائيكه آزمون مورد نظر از نوع ملاك مرجع مي باشد، براي بررسي توافق
بين تصميم ها از ضريب پايايي كاپا استفاده شد. نتايج نشان داد كه رابطة معناداري بين اجراي اول و اجراي دوم وجود
دارد و آزمون مورد نظر از پايايي و ثبات كافي در اجراهاي مختلف برخوردار است.
بحث و نتيجه گيري: تحليل پارامترهاي سؤال و آزمودني ها، نشان دهندة سادگي آزمون و قدرت جداسازي
خوب توانايي آزمون شوندگان بوده و بر اين اساس مي توان نتيجه گرفت كه سؤالات آزمون براي آزمودني هايي با
توانايي پايين از مناسبت و دقت بيشتري برخوردار است. ميزان توانايي برآورد شده در نظرية سؤال - پاسخ در مقايسه با
نمرة آزمودني در نظرية كلاسيك به ميزان واقعي نزديك تر است. با توجه به توانايي هاي برآورد شده مي توان
سؤالات متناسب با توانايي آزمودني ها را انتخاب نمود و اين مي تواند به ايجاد بانك سؤال منجر شود.
واژگان كليدي: ارزش يابي، آزمون، آزمون گواهينامه رانندگي، نظرية سؤال - پاسخ، نظرية كلاسيك آزمون.
Esmaeil.sharifi@gmail.com ( 1. دانشجوي كارشناسي ارشد (نويسندة مسئول
2. استاد دانشگاه علامه طباطبائي
3. دانشجوي كارشناسي ارشد
4. دانشجوي كارشناسي ارشد
90/8/ تاريخ وصول: 3
91/2/ تاريخ پذيرش: 23
2 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
مقدمه
امروزه در بسياري از جوامع از سه عامل انسان، راه و وسيلة نقليه به عنوان تعيين كننده هاي
اصلي تصادفات نام برده مي شود كه در اين ميان عامل انساني نقش اصلي را به خود
اختصاص داده است. يعقوبي ( 1379 ) نيز در علت شناسي تصادف هاي رانندگي از 4 عامل
انساني، جاده، وسيلة نقليه و محيط نام مي برد كه در 90 تا 95 درصد تصادفات رانندگي در
ايران، عامل انساني را داراي نقش اصلي و اول در حوادث رانندگي دانسته است.
1 ميليون نفر در دنيا به علت تصادفات رانندگي جان خود را از دست / ساليانه بيش از 26
2004 )، و اغلب مرگ و ميرهاي ناشي از حوادث ، مي دهند ( پدين، اسكار فيلد و سليت 1
رانندگي، در كشورهاي با درآمد كم و متوسط و براي جوانان اتفاق م ي افتد (كوپيتز و
2005 ). سازمان بهداشت جهاني پيش بيني كرده است كه در سال 2020 ، مرگ و ، كروپر 2
.(2004 ، 2 ميليون نفر خواهد رسيد (رومانا 3 / مير ناشي از حوادث رانندگي به 34
بر اساس آمارها سالانه حدود 25 هزار نفر نيز در جاده هاي ايران كشته م ي شوند و
سوانح رانندگي پس از بيماري ها ي قلبي - عروقي، دومين عامل مرگ و مير در ايران
12 ميليون مصدوم و معلول، از پيامد هاي 7 سال / محسوب مي شود. 141 هزار كشته، 5
تصادفات در كشور است و خسارات جاني و مالي 7 سال تصادفات رانندگي در ايران ب ا
پيامد هاي يك جنگ يا چند زلزلة مهيب برابري م ي كند . موثق تر ين آمار تصادفات
رانندگي در كشور از كشته شدن 140 هزار و 933 نفر طي 7 سال گذشته (ابتداي 77 تا
انتهاي 83 ) حكايت دارد و اين در حالي است كه وقوع اين حوادث بيش از 12 ميليون
مصدوم و 500 هزار معلول مادام العمر بر جاي گذارده است. مرگ ناشي از تصادفات يك
ساله در كشور با تلفات انساني ناشي از زلزلة بم برابر بوده، اما چون اين حوادث ناگهاني
نيست چندان مشهود به نظر نمي رسد. با وجود اينكه ايران كمتر از يك صدم جمعيت جهان
1. Peden, Scufield, & Sleet
2. Kopits & Cropper
3. Romana
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 3
را دارد بيش از يك چهلم ( 3 درصد) از حوادث ترافيكي را به خود اختصاص داده است
.( (خبرگزاري فارس، 1385
2 درصد از كل تصادفات جاده اي در ايران اتفاق / بر اساس آمارهاي سازمان يونيسف 5
مي افتد و اين به آن معنا است كه آمار تصادفات جادهاي در ايران 20 برابر ديگر كشورهاي
جهان است. در واقع، ميزان كشته شدگان تصادفات جاده اي در دنيا، به ازاي هر ده هزار
خودرو 3 نفر بوده، در حالي كه در ايران به ازاي هر ده هزار خودرو حدود 33 نفر بوده است
(سوري و همكاران، 1388 ). آلمان كمتر از يك چهارم ايران مساحت دارد و تعداد
اتومبيل هايش بيش از 4 برابر ايران است. با اين همه شمار قربانيان حوادث رانندگي در ايران
بيش از 10 برابر آلمان است (بيمة ايران، 2008 ). همچنين انگلستان نيز با وجود 6 برابر بودن
.( تعداد وسايل نقليهاش، 32 باركمتر از ايران تلفات جادهاي دارد (سلماني و همكاران، 1387
در پيامدهاي ناشي از حوادث، پديدة كوه يخ، يك فرايند واقعي است. قلة كوه يخ كه
معمولاً مورد توجه قرار مي گيرد و به ظاهر كوچك است شامل موارد مرگ ناشي از
حوادث است، ولي بدنة عظيم اين كوه از بستري شدگان، آسيب ديدگان نيازمند خد مات
سرپايي و درمان هاي خانگي توأم با ناتوا ني ها ي گذرا يا ماندگار تشكيل شده است و
عواقب رواني، اجتماعي و اقتصادي حوادث نيز بر اين بزرگي مي افزايد.
پايين بودن سطح فرهنگ صحيح ترافيك و عدم توجه كافي به قوانين و مقررات و حقوق
سايرين و رعايت نشدن آيين نامة رانندگي، ناشي از ناكافي بودن آموزش نظري و عملي
رانندگي، قبل و بعد از صدور گواهينامه، موجب شده است آمار تصادفات رانندگي در ايران
شمار كشته ها و مجروحين ناشي از آن افزايش پيدا كرده و بالاترين رتبه را در بين ملل جهان
كسب كند و اين يعني مواجه شدن با پيامدهاي جبران ناپذير از دست رفتن سرماية انساني.
اگرچه در يك برنامه پيشگيرانة جامع براي كاهش تصادفات و تلفات، بايد به هر 4 عامل
انساني، جاده، وسيلة نقليه و محيط پرداخت (آيتي، 1371 ، نقل از يعقوبي، 1379 )، اما به نظر
مي رسد كه مداخله در عامل انساني (با توجه به نقش زياد آن در تصادفات رانندگي در ايران)
4 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
اثربخش تر باشد. چرا كه نتايج مطالعات انجام شده نيز نشان ميدهد كه مي توان از 98 درصد
حوادث پيشگيري نمود (عراقي و واحديان، 1384 ). مراد از عامل انساني عابرين، سرنشين ها،
رانندگان و عوامل رواني، رفتاري، فرهنگي و اجتماعي مؤثر بر آن ها مي باشد.
امروزه نقش آموزش در افزايش كارآيي، بهرهوري و توسعة اقتصادي كشورها بيش از
پيش اهميت يافته است، چرا كه در دنياي كنوني داشتن كارخانهها، زمين، ابزار و ماشين -
.( آلات سرمايه محسوب نمي شود، بلكه ثروت در منابع انساني نهفته است (خالدي، 1387
آموزش اين توانايي را دارد تا براي بهبود و پيشرفت كشورهاي كمتر توسعه يافته زمينة
لازم را فراهم سازد و سياست هاي لازم براي مقابله با اين بحران جهاني را اتخاذ نمايد
(لوئيز، 1990 ، نقل از سهرابي، 1384 ). بسياري از كشورهاي در حال توسعه دربارة مرگ و
مير در كشور خود اطلاعات محدو دي دارند (خي و وانگ 2004،1 ). با مطالعات
اپيدميولوژيك در علوم پزشكي، علوم اجتماعي و علوم رفتاري مي توان در جهت كاهش
حوادث و عواقب ناشي از آن ها گام برداشت، چرا كه آس يب ها ي ناشي از حوادث
.(2005 ، رانندگي يك مشكل بزرگ بهداشتي در دنيا به شمار مي آيد (پدن و تورويان 2
قاعدتاً زماني يك جامعه به كمال رسيده است كه آموزش به گونه اي صحيح در آن
انتقال يافته باشد و اين نيز نمي تواند محقق شود مگر با يك برنامه ريزي فراگير و مستمر به
منظور تدوين و آموزش اصول صحيح رانندگي براي سنين مختلف و با روش هاي متنوع و
مورد قبول (احمدي، 1385 ). به هنگام توجه به روند تكاملي كشورهاي توسعه يافته،
همواره شاهد ارتباط نزديك بين آموزش، پژوهش، ارزش يابي و رشد فناوري از يك سو و
پيشرفت اقتصادي و اجتماعي از سوي ديگر مي باشيم.
يكي از اين فعاليت ها در زمينة كاستن از رخدادهاي مرتبط با رانندگي، توجه وي ژه و
مجدد به آزمون نظري گواهينامة رانندگي از زواياي مختلف و مقايسة آن با ديگر كشورها
است كه مي تواند به عنوان اقدامي پيشگيرانه در جهت كاستن از رخداد حوادث رانندگي به
1. Chi & Wang
2. Peden & Toroyan
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 5
شمار آيد. آزمون نظري، آزمون استاندارد شده اي است كه براي تصميم گيري در مورد
رسيدن فرد به دانش نظري كافي و ساختن راننده اي ايمن و بي خطر از فرد طراحي شده
.(2004 ، است (ويبرگ 1
در حال حاضر آزمون نظري گواهينامة رانندگي در ايران شامل مجموعه اي از
پرسشنامه هاي 30 سؤالي است كه تعدادي از سؤالات آن به صورت تصويري و رنگي
مي باشد . هر سؤال داراي 4 گزينه است كه يكي از گزينه ها صحيح و بقيه انحرافي
مي باشند. زمان پاسخگويي به آزمون محدود، و 20 دقيقه مي باشد. با توجه به اينكه آزمون
از نوع ملاك مرجع و دو ارزشي است، ملاك قبولي در آن پاسخگويي صحيح به 26
86 ) مي باشد. / سؤال از 30 سؤال (نمرة برش 67
امروزه پس از گذشت چندين سال از برگزاري اين آزمون و فعاليت مراكز آموزشي
مربوطه در كشور، بايد پرسيد كه:
اين آزمون تا چه اندازه توانسته است به نيازهاي فرد و جامعه پاسخ دهند؟ 
آيا اين آزمون به اهداف طرح شدة اولية خود رسيده است؟ 
مواد (سؤالات) اين آزمون تا چه اندازه از معيارهاي روان سنجي و استاندارد هاي 
مربوطه برخوردارند؟
پاسخ به اين سؤال ها و سؤال هاي مشابه مستلزم استفاده از سازوكار ارزشيابي آزمون از
بعد روان سنجي است.
متوليان امر بايد به موازات گسترش آموزش هاي ترافيكي، به نتايج آنچه تاكنون در اين
زمينه هزينه شده، بپردازند. چرا كه با هزينه هاي بسياري كه براي اين آموزش ها صرف
مي شود ايجاد اصلاحات در آن ضروري به نظر مي رسد. اصلاحاتي كه مي توان از آن به
ياد كرد. « نوگرايي 2 » عنوان
يكي از مسائل كليدي، در دورنماي آزمون نظري گواهينامة رانندگي، بازسازي مداوم آن
1. Weberg
2 . modernization
6 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
از طريق فرايند ارزش يابي است. يك نظام آموزشي ايستا پاسخگوي ماهيت پوياي توسعه
نيست، چرا كه نيازها و اولويت هاي يك دهه، مسلماً با نيازهاي دهة بعد متفاوت است، گرچه
دانش و مهارت هاي بنيادين معيني ممكن است همچنان با اهميت باقي بمانند، با اين حال
مسائلي كه براي نسل گذشته مهم بوده، امروزه كاملاً بي اهميت است (حسيني، 1380 ). بر اين
1997 ) هم عقيده بود و اين گفته را تأييد كرد كه اگر نظام آموزشي ) اساس مي توان با پاتون 1
.( به سازوكار ارزشيابي مجهز باشد، نتايج مطلوب حاصل خواهد شد (نقل از بازرگان، 1386
بنابراين، ارزشيابي آزمون نظري گواهينامة رانندگي از اهميت حياتي برخوردار است.
در اين ميان علم روان سنجي به عنوان شاخه اي از روان شناسي كاربردي، در پي يافتن
شيوه هايي است كه به كمك آن بتواند صفات رواني انسان را به صورت كمي و مقايسه
پذير ارائه دهد و در اين راه اغلب از محاسبات آماري كه در خيلي از موارد بسيار پيچيده و
1982 ، ترجمة هومن، 1375 ). به نظر مي - ، پيشرفته نيز مي شود، سود مي جويد (ثرندايك 2
رسد كه فعلاً در ايران، جز درموارد استثنايي، ساختن آزمون محدود به تهية سؤال است و
كمتر كسي به خصوصيات علمي آزمون ها و سؤالات توجه دارد. اين عدم توجه به مباني
علمي آزمون سازي در سازمان هاي خارج از دانشگاه ها بيشتر نمايان است تا جايي كه
بعضي از اين سازمان ها در ظرف چند روز آزمون به خصوصي را آمادة اجرا م ي كنند كه
براي ساختن آن در كشوري مثل آمريكا، شايد يكي دو سال وقت لازم باشد (مگنوسون،
.( 1966 ، ترجمة براهني، 1370
استفاده كنندگان آزمون در انتخاب، اجرا، نمره گذاري يا تفسير يك آزمون بايد
هدف ها، راه هاي وصول به آن ها و نتايج احتمالي را بدانند. داشتن هدف هاي مطلوب كافي
نيست؛ استفاده كنندگان بايد روش هاي ضروري به حداكثر رساندن كارايي و به حداقل
رساندن عوامل نامطلوب را بدانند. شايستگي در استفاده از آزمون، تركيبي است از شناخت
اصول روان سنجي، اطلاع از موقعيت مشكل زا كه در آن آزمون انجام مي شود و مهارت
1. Patton
2. Thorndike
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 7
فني. اگر آزمون ها درست به كار برده شوند، ابزار مفيدي هستند؛ در غير اين صورت به
.( 1979 ، ترجمة دلاور، 1384 ، ابزار خطرناكي تبديل مي شوند (آلن و ين 1
نظريههاي آزمون در علم روان سنجي به دو مقوله تقسيم مي شوند: اول: نظرية كلاسيك
كه قدمت آن به مفهوم اسپيرمن 2 از نمرة مشاهده شده، كه شامل مؤلفه ها ي ،(CTT) آزمون
يا نظرية صفت مكنون كه در ،(IRT) حقيقي و خطا است مي رسد. دوم: نظرية سؤال  پاسخ
در جهت توسعه IRT حيطه و قلمرو آزمودن نقش مهمي را ايفا مي نمايد. مدل هاي مشتق از
و بسط آزمون ها، همتراز سازي نمرات آزمون ها ي غير موازي، بررسي تورش سؤال و
.(1982 ، گزارش نمرات مورد استفاده قرارمي گيرند ( همبلتون و واندرليندن 3
در واقع، يك آزمون مي تواند از زواياي مختلف مورد مطالعه واقع شده و سؤالا ت آن
از لحاظ دقت IRT نيز بر طبق نظريات متفاوت ارزش گذاري شود . مقايسة مدل ها ي
برآورد پارامترهاي مدل، مورد توجه محققان بسيار طي سال هاي اخير بوده است . يكي از
تحقيقات قابل توجه در زمينة بررسي آزمون نظري آزمون گواهينامة رانندگي، پژو هشي
است كه توسط ماري ويبرگ در سال 2004 و در دانشگاه يومي سوئد انجام گرفته است .
آزمون نظري گواهينامة رانندگي در سوئد شامل 65 سؤال چند گزينه اي ( 2 تا 6 گزين ه) و
80 درصد) است. نمونة مورد بررسي در اين پژوهش ) از نوع ملاك مرجع با نمرة برش 52
شامل 5404 نفر آزمون شونده بوده كه به 65 سؤال مذكور پاسخ داده اند. برآورد
پارامترهاي سؤال و توانايي از طريق روش بيشينة درست نمايي حاشيه اي صورت گرفته
است. هدف اين پژوهش ارزش يابي آزمون نظري گواهينامة رانندگي با استفاده از نظرية
سؤال  پاسخ و همچنين مقايسة مدل ها ي سه گانة اين نظريه با همديگر در برآورد
پارامترهاي آزمون مورد بررسي، بوده است. نتايج پژوهش وي نشان م ي دهد كه نظرية
سؤال  پاسخ ، ابعاد متفاوت و اطلاعات ارزشمندي به دست مي دهد . با مقايسه مدل ها ي
1. Allen & Yen
2. Spearman
3. Hambleton & Vanderlinden
8 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
يك، دو و سه پارامتري در برآورد پارامترها مشخص شده است كه مدل سه پارامتري به
برآورد دقيقتري در مقايسه با مدل هاي يك و دو پارامتري منجر شده است.
1983 )، با مقايسة اين مدل ها از طريق شبيه سازي كامپيوتري نشان ) همبلتون و كوك 1
دادند كه، مدل منطقي سه پارامتري نسبت به مدل هاي يك و دو پارامتري با آزمون هاي 20
سؤالي داراي قدرت بيشتري در برآورد جايگاه افراد در صفت مكنون و رتبه بندي
1993 ) با هدف مقايسة ) آزمودني ها براساس صفت مورد سنجش بوده است . رايد 2
و با استفاده از تحليل خرده آزمون هاي محاسبات عددي، تجسم فضايي سه IRT مدل هاي
بعدي، خزانة لغات و استدلال رياضي، نتيجه گرفت كه هر 4 خرده آزمون از لحا ظ سطح
دشواري سؤالات و قدرت تشخيص بين افراد در سطوح مختلف توانايي تفاوت داشته اند .
بنابراين مدل هاي يك و دو پارامتري از لحاظ برآورد پارامترها تفاوت معني دار نشان
داده اند. ليكن به دليل تأثير نداشتن عامل حدس در پاسخگويي به سؤالات، مدل ها ي دو و
سه پارامتري تفاوت معني داري در برآورد پارامترها نداشته اند.
نتايج مقايسة مدل هاي مختلف از نظر برآورد پارامترهاي سؤال و توانايي در پژوهش
برآوردهاي متفاوتي براي IRT فراهاني ( 1375 ) نشان داد كه، مدل كلاسيك و مدل ها ي
به و ي ژه IRT پارامترهاي سؤال بدست مي دهند و برآورد پارامترهاي سؤال بر پاية مدل ها ي
مدل سه پارامتري، دقيق تر از برآورد پارامترهاي سؤال بر اساس مدل كلاسيك و مدل ها ي
است. همچنين مقايسة مدل ها از نقطه نظر برآورد توانايي آزمود ني ها نشان داد IRT ساده تر
كه مدل سه پارامتري برآورد متفاوت و دقيقتري از مدل كلاسيك و حتي مدل هاي يك و
ارائه مي دهد. در پژوهش محمد زاده ( 1375 )، نيز مشخص شد كه IRT دو پارامتري
مشخصه هاي آماري سؤالات در مدل كلاسيك وابسته به نمونه بوده و برآورد توانايي
آزمودني هم، وابسته به سؤالات آزمون است، اما در مدل ها ي جديد اندازه گيري اين
برآوردها مستقل از هم مي باشند. مقايسة مدل ها از لحاظ ميزان دخالت پارامتر حدس، اعتبار
1. Cook
2. Reid
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 9
اندازهگيري و آگاهي دهندگي، برتري مدل هاي جديد اندازهگيري را نشان داده است.
نشان داد كه نظرية سؤال  پاسخ در IRT و CTT صالحي ( 1376 ) با مقايسة دو نظرية
مقايسه با نظرية كلاسيك توانمندتر و كارآمد تر بوده و با خطاي استاندارد اندازه گيري
كمتر، آگاهي دهندگي و دقت بيشتري پارامترهاي سؤال و توانايي را برآورد نموده است .
همچنين اين نظريه در سطوح بالاي توانايي داراي بيشترين ميزان آگاهي بوده است. يونسي
نيز ( 1385 ) با بررسي ويژگي هاي روان سنجي سؤالات آزمون هاي فراگير رشتة
روان شناسي بر اساس نظرية سؤال  پاسخ ، به اين نتيجه رسيد كه مدل دو پارامتري نسبت به
مدل سه پارامتري برازش بهتري با مجموعة داده ها داشته است و اين نشان دهندة كم اثر
بودن عامل حدس در پاسخگويي به سؤالات، تلقي شده است.
امروزه با مدرن شدن آموزش، ارزش يابي به عنوان يكي از مؤلفه ها ي آموزش مورد
استفاده قرار گرفته و نوآوري هايي در زمينة آن پديد آمده است. يكي از اين نوآور ي ها
مربوط به بكارگيري كامپيوتر در فرايند سنجش و ارزي ابي و آزمون متقاضيان گواهينامة
رانندگي در كشورهاي اروپايي مي باشد به طوريكه بسياري از مراكز آموزشي به برگزاري
آزمون هاي كامپيوتري اقدام مي كنند. يكي از مهم ترين كاربردهاي تجزيه و تحليل روان
سنجي سؤالات، ايجاد يك مجموعه (بانك) سؤال استاندارد از سؤالات موجود م ي باشد
كه اين خود مقدمه اي است براي ايجاد و گسترش آزمون هاي انطباقي كامپيوتري.
در ايران، آزمون گواهينامة رانندگي شامل يك آزمون نظر ي و يك آزمون عملي
است، كه در اين پژوهش بر آزمون نظري تأكيد شده است . در آزمون نظري گواهينامة
رانندگي از نسخه هاي ثابت و متعددي جهت آزمون استفاده مي شود. اما در ايران، تاكنون
تحقيقات منسجمي در ارتباط با ارزش يابي سؤالات اين آزمون صورت نگرفته و به همين
دليل و نيز اهميت اين آزمون ها در تأثيرگذاري بر پيشگيري از رخداد رانندگي از طريق
آموزش هاي قبل از صدور گواهينامة رانندگي، ضروري به نظر مي رسد تحقيقاتي انجام
گيرد تا ميزان دستيابي به اهداف از پيش تعيين شده در زمينة مؤلفه ها ي روان سنجي يك
10 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
آزمون استاندارد، مشخص گردد. بنابراين هدف از پژوهش حاضر ارزش يابي و بررسي
و (IRT) ويژگي هاي سؤالات آزمون نظري گواهينامة رانندگي طبق نظرية سؤال  پاسخ
با IRT در كنار بررسي برازش مدل ها ي ،(CTT) مقايسة آن با نظرية كلاسيك آزمون
مجموعه داده هاي آزمون بوده است.
روش
در پژوهش حاضر جامعه آماري مورد مطالعه، شامل كلية سؤالات ( 194 سؤال ) آزمون
نظري گواهينامة رانندگي در شهر تهران و در سال 1388 بوده است.
به منظور كسب اطلاعات دقيق در مورد جامعه، بررسي يكايك عناصر جامعه مطلوب
به نظر مي رسد. اما معمولاً اين كار غير ممكن يا غير عملي است. با توجه به اينكه، نظريه
هاي روان سنجي، نظريه هاي نمونه هاي بزرگ هستند. قانون كلي در اين مورد بزرگ ترين
اندازة ممكن را تصويب مي كند. رايت و استون براي مدل يك پارامتري حداقل حجم
نمونة آزمودني ها را 200 نفر ذكر كرده اند. بعضي از محققان هم براي مدل دو پارامتري
500 نفر و براي مدل سه پارامتري 1000 نفر را لازم دانسته اند تا به برآورد هاي نامتغير و
.(1993 ، نااريب از پارامترهاي مدل منجر نشود (همبلتون، جونز و راجرز 1
بنابراين با توجه به نتايج تحقيقات صورت گرفته، حجم نمونة سؤالات مور د بررسي،
تعداد 30 سؤال بوده كه به روش كاملاً تصادفي انتخاب گرديد. همچنين در اين پ ژوهش
به منظور انتخاب حجم نمونة آزمودنيها، با استفاده از روش نمونه گيري خوشه اي چ ند
مرحله اي، پاسخ هاي يك نمونة 350 نفري به آزمون محقق ساخته انتخاب شده است .
انتخاب حجم 30 سؤالي به دليل رعايت شكل صوري آزمون هاي برگزار شده توسط راهور
ناجا بوده است.
روش پژوهش نيز با توجه به اهداف پژوهش و بر حسب نحوة گردآوري داده ها ،
توصيفي بوده است.
1 . Hambleton, Jones & Rogers
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 11
SPSS جهت تجزيه و تحليل داده هاي جمع آوري شده، با استفاده از نرم افزارهاي
از بررسي هاي مرتبط با سنجش مؤلفه هاي روان سنجي آزمون، از قبيل؛ ،BILOG – MG و
ضريب دشواري، ضريب تمييز، واريانس سؤالات، ضريب هبستگي دو رشته اي نقطه اي
استفاده گرديد. تك بعدي بودن آزمون با محاسبة آلفاي كرونباخ و انجام تحليل عاملي
بررسي و سپس استقلال موضعي آزمون بدست آمد. با استفاده از آزمون خي دو (
 2 ) در
مورد برازش مدل با داده ها قضاوت شد و پس از اينكه معلوم شد كدام مدل بهترين برازش را
با داده هاي آزمون دارد، پارامترهاي برآورد شدة سؤال (دشواري، تشخيص و حدس ) و
توانايي آزمودني ها با استفاده از روش ها ي برآورد همزمان پ ارامترهاي سؤال و توانايي،
استخراج گرديد. سپس منحني ويژگي تمامي سؤالات براي رسم نمودارها، تابع آگاهي
سؤالات براي مقايسة تفاوت مدل ها، تابع آگاهي آزمون، منحني خطاي استاندارد آزمون و
منحني تواناييهاي آزمودنيها ترسيم گرديد. در ادامه، بيشينة آگاهي به همراه سط ح توانايي
سؤالات، بيشينة آگاهي آزمون و همچنين نقطه اي كه بيشينة آگاهي در آنها به وجود مي آيد،
محاسبه و نقطه اي كه بيشترين ميزان آگاهيدهندگي آزمون ها در آن دامنه قرار دارد و نيز
توزيع بيشينة آگاهي و خطاي استاندارد توانايي آزمون نيز آورده شد.
2 با PL و مدل CTT در مرحلة بعد همبستگي بين پارامترهاي دشواري و تمييز در مدل
استفاده از ضريب همبستگي پيرسون محاسبه و در ادامه به منظور بررسي معناداري
وابسته T پارامترهاي سؤال و توانايي در نظرية كلاسيك و سؤال  پاسخ از آزمون معناداري
استفاده گرديد.
همچنين به منظور بررسي پايايي و ثبات نتايج آزمون نظري گواهينامة رانندگي در اجراي
اول، مجدداً اين آزمون با همان شرايط اوليه، پس از يك هفته سپري شدن از اجراي اول، بر
روي 30 نفر از همان نمونة اوليه اجرا گرديد. از آنجائيكه آزمون مورد نظر از نوع ملاك
مرجع مي باشد، جهت بررسي توافق بين تصميم ها از ضريب پايايي به روش كاپا استفاده شد.
داده هاي اوليه و اصلي جهت استفاده در تجزيه و تحليل سؤالات آزمون نظري
12 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
گواهينامه رانندگي، پاسخ هاي اولية كلية شركت كنند گان به آزمون مذكور در مراكز
آموزش و آزمون گيري مي باشد كه در مراحل مختلف جمع آوري شده است . جهت
انتخاب سؤالات پرسشنامه، از كتاب "آموزش جامع قوانين و مقررات راهنمايي و
رانندگي" (از انتشارات معاونت راهور ناجا و منبع اصلي آزمون نظري). استفاده گرديد. آن
شامل 10 بخش محتوايي با سؤالات اختصاصي در هر بخش بوده و در مجموع 194 سؤال
را در بر مي گيرد. در مرحلة اول از ميان اين سؤالات، 30 سؤال به شيوة كاملاً تصادفي و با
در نظر داشتن ميزان نسبت در هر بخش محتوايي، انتخاب شد . از ميان سؤالات انتخابي
تعدادي سؤال تصويري و رنگي نيز در نظر گرفته شد. در انتها گزينه هاي انحرافي و گزينة
صحيح سؤالات به شيوة تصادفي براي سؤالات آزمون در نظر گرفته شد.
يافته ها
34 درصد بقيه زن / 65 درصد افراد مرد و 3 / در ميان حجم نمونة ( 350 نفر) مورد بررسي 7
24/ بوده اند، كه ميانگين و انحراف استاندارد نمرات افراد در آزمون نظري برگزار شده، 55
4 بوده و با توجه به ملاك قبولي در آزمون (كسب نمرة 26 از 30 ) تعداد 169 نفر قبول / و 4
48/28 درصد) و 181 نفر مردود شده اند. اين نشان مي دهد بيش از نصف افراد گروه، به )
.( ملاك مورد نظر، جهت قبولي در آزمون نرسيده اند (نمودار 1
5 10 15 20 25 30 35
Frequency
40
30
20
10
0
36
39 39
36
19
22
30
22 21
25
17
15
2
9
6
4
1
2 2 3
Mean =24.55
Std. Dev. =4.395
N =350
SCORE
نمودار 1 . منحني توزيع فراواني نمرات آزمون گواهينامة رانندگي
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 13
در مرحلة اول، جهت تجزيه و تحليل سؤالات آزمون بر طبق نظرية كلاسيك آزمون،
درجة دشواري، ضريب تميز و انحراف استاندارد سؤالات محاسبه گرديد كه نتايج آن در
جدول 1 ارائه گرديده است.
(CTT) جدول 1- پارامترهاي سؤالات آزمون گواهينامة رانندگي بر اساس نظرية كلاسيك
سئوال
ضريب دشواري
(P)
ضريب تميز
) (rpbis
انحراف
استاندارد
سئوال
ضريب دشواري
(P)
ضريب تمييز
) (rpbis
انحراف
استاندارد
. /50 . /24 . /55 16 . /17 . /23 . /97 1
. /38 . /35 . /82 17 . /45 . /39 . /71 2
. /24 . /28 . /93 18 . /31 . /29 . /89 3
. /32 . /35 . /88 19 . /35 . /31 . /86 4
. /42 . /39 . /77 20 . /23 . /17 . /94 5
. /43 . /38 . /74 21 . /47 . /33 . /66 6
. /45 . /51 . /72 22 . /22 . /37 . /94 7
. /49 . /32 . /58 23 . /24 . /39 . /94 8
. /27 . /21 . /92 24 . /38 . /44 . /82 9
. /47 . /42 . /66 25 . /20 . /33 . /95 10
. /36 . /29 . /85 26 . /41 . /4 . /78 11
. /38 . /37 . /82 27 . /25 . /4 . /93 12
. /50 . /30 . /52 28 . /27 . /32 . /92 13
. /45 . /28 . /72 29 . /41 . /37 . /79 14
. /22 . /17 . /95 30 . /28 . /32 . /91 15
0 (سؤال / سؤالات آزمون بين 52 (P) نتايج نشان مي دهد كه؛ دامنة ضريب دشواري
،16 ، 0 (سؤال 1) در نوسان بوده است. بنابراين بر اساس اين نتايج، سؤالات 6 / 28 ) و 97
25 و 28 سؤالات مناسبي محسوب شده و بقية سؤالات نيز به دليل ضرايب دشواري ،23
بالا، سؤالات آساني محسوب م ي شوند . ميانگين و انحراف استاندارد پارامتر دشواري
0 است كه در مجموع نشاندهندة آسان بودن كل آزمون م ي باشد . / 0 و 12 / سؤالات 81
( 0 (سؤال 22 / 0 (سؤالات 5 و 30 ) و 51 / سؤالات آزمون بين 17 (rpbis) دامنة ضريب تمييز
29 و 30 كه دار اي ،26 ،24 ،18 ،16 ،5 ،3 ، در نوسان بوده است . به استثناي سؤالات 1
( 0 / ضرايب تمييز پاييني مي باشند، بقية سؤالات از ضرايب تمييز نسبتاً خوبي (بالاتر از 3
14 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
0 است كه / 0 و 08 / برخوردارند. ميانگين و انحراف استاندارد پارامتر تمييز سؤالات 33
نشاندهندة قدرت تمييز نسبتاً مناسب كل آزمون در جداسازي افراد قوي و ضعيف
مي باشد. بر طبق نتايج جدول بالا، ارتباط خاصي ميان سؤالات با ضرايب دشواري بالا و
پايين مشاهده نمي شود.
ابتدا ،(IRT) در مرحلة بعد جهت انجام تحليل سؤالات با استفاده از نظرية سؤال  پاسخ
يعني مفروضه هاي تك بعدي بودن و استقلال ، IRT مفروضه هاي اساسي و اولية نظرية
موضعي بررسي گرديد. مفروضة اول با استفاده از ضريب پايايي و تحليل عاملي مورد
بررسي قرار گرفت.
براي بررسي پايايي سؤالات آزمون به روش لوپ، ابتدا ضريب پايايي كلية سؤالات و
ميزان پايايي تك تك سؤالات تعيين گرديد. سپس با استفاده از فرمول آلفاي كرانباخ
بدست آمد، كه نشاندهندة همساني دروني بالاي α = . / ضريب پايايي كل آزمون 82
سؤالات آزمون مي باشد.
قبل از انجام تحليل عاملي بايد از اعتبار داده ها اطمينان داشته باشيم، براي اين منظور از
كه روشي براي بررسي صحت نمونه گيري (KMO) آزمون كايزر - ميجر - الكين
.( مي باشد، استفاده شده است (جدول 2
و آزمون كرويت بارتلت KMO جدول 2. اندازة
0 /767 (KMO) اندازة كفايت نمونهگيري كايزر- ميجر- الكين
آزمون كرويت بارتلت
1510/ مجذور كاي تقريبي 824
درجات آزادي 435
0 / سطح معناداري 001
برابر 789 / . بوده كه نشان دهندة كفايت نسبتاً بالاي KMO با توجه به جدول 2، مقدار
نمونه گيري و تناسب داده ها براي تحليل عاملي است، و از آنجايي كه داده هاي بالاتر از
بدست آمده رضايت بخش است . KMO 0/7 براي تحليل مناسب هستند، لذا مقدار
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 15
0، با درجات آزادي 435 و با مقدار مجذور / همچنين آزمون كرويت بارتلت در سطح 001
1510 معنادار بوده است و مي توان گفت كه داده ها براي اجراي تحليل عاملي از / كاي 824
تناسب قابل قبولي برخوردار بوده و نتايج تحليل عاملي قابل اعتماد مي باشد.
با توجه به نتايج بدست آمده، داده ها براي آزمون تحليل عاملي از تناسب برخوردار
بوده، و ماتريس همبستگي حاصل از تحليل عاملي نشان م ي دهد كه، عامل اول با ارزش
17 درصد واريانس عامل ها را تبيين كرده است . (سه / 5/21 حدود 36 (P-Value) ويژه
5 درصد واريانس). اين عامل غالب توسط نمودار / 1 و 57 / برابر عامل دوم با ارزش ويژه 67
اسكري (نمودار 2) بدست آمده نيز تأييد شده است.
Component Number
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
Eigenvalue
6
5
4
3
2
1
0
نمودار 2. منحني اسكري آزمون نظري گواهينامة رانندگي
بنابراين، مي توان نتيجه گرفت كه آزمون گواهينامة رانندگي تك بعدي بوده و يك
عامل غالب، عملكرد افراد را در آزمون تبيين مي كند. چنانچه فرض تك بعدي بودن برقرار
.( باشد، مفروضة استقلال موضعي نيز برقرار است (همبلتون، 1989
پس از اثبات تك بعدي بودن و استقلال موضعي آزمون (نمودار 2)، كه از پيش
است ،(IRT) فرض هاي مهم تجزيه و تحليل سؤالات آزمون بر طبق نظرية سؤال  پاسخ
(همبلتون و سواميناتان، 1985 ؛ نقل از ويبرگ، 2004 )، ضرايب د شواري، شيب، حدس،
نوعي آزمون مجذور خي به همراه سطح احتمال مربوطه، براي مدل ها ي يك، دو و سه
4 و 5 آورده شده است. ، پارامتري محاسبه گرديد كه نتايج آن در جداول 3
16 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
1) بر اساس PL) جدول 3. مقادير پارامترهاي تعدادي از سؤالات آزمون در مدل يك پارامتري
IRT نظرية
(p) معناداري χ خي دو 2 (b) سؤال دشواري
0/61 1 -3/49 1
*0/001 18/5 -0/24 16
*0/001 16/9 -1/03 22
-1/ ميانگين 82
-2 Log Likelihood =7982/8283
0/ انحراف استاندارد 93
0/ * عدم برازش سؤال با مدل در سطح 01
3) بر اساس PL) جدول 4. مقادير پارامترهاي تعدادي از سؤالات آزمون در مدل سه پارامتري
IRT نظرية
سئوال
دشواري
(b)
شيب
(a)
حدس
(c)
خي دو
χ2
معناداري
(p)
. /3 6 . /5 1/41 -. /65 4
. /41 5 . /5 . /59 -2/35 5
. /49 5/5 . /35 1/38 . /02 25
0/45 1/35 - . / ميانگين 76
-2 Log Likelihood =7865/ انحراف 2979
استاندارد
. /05 . /78 . /91
IRT 2) بر اساس نظرية PL) جدول 15 . مقادير پارامترهاي آزمون در مدل دو پارامتري
سئوال دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
سئوال (p) دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
(p)
. /49 7/6 . /4 -0/36 16 . /46 1/6 1 -2/7 1
. /54 5 . /79 -1/53 17 . /71 4/5 . /75 -0/96 2
. /98 . /4 0/94 -2/24 18 . /08 8/1 . /84 -1/95 3
. /91 1/5 0/87 -1/82 19 . /27 5/1 . /78 -1/76 4
. /43 7 . /8 -1/22 20 . /21 5/9 . /57 -3/26 5
. /62 5/3 0/76 -1/12 21 . /96 2/5 0/61 -0/79 6
. /93 1/8 1/17 -0/82 22 . /2 4/6 1/4 - 1/97 7
1. به دليل برازش يافتن مدل 2 پارامتري با مجموعة داده هاي آزمون، نتايج مقادير پارامترهاي آزمون در اين مدل به صورت كامل
آورده شده است.
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 17
سئوال دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
سئوال (p) دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
(p)
. /51 7/2 . /52 -0/49 23 . /95 . /3 1/59 -1/79 8
. /66 3/3 . /65 -2/63 24 . /98 . /7 1/07 - 1/28 9
. /87 3/1 . /8 -0/71 25 . /96 0/3 1/45 -2/03 10
. /46 5/6 . /64 -1/93 26 . /91 2/6 0/83 -1/25 11
. /76 2/6 . /87 -1/46 27 . /29 2/4 1/57 - 1/73 12
. /05 15 . /52 -0/12 28 . /28 5 . /96 -2/06 13
. /06 13/3 . /55 -1/19 29 . /76 3/4 . /77 -1/34 14
. /97 0/5 . /63 -3/19 30 . /98 0/4 . /99 -1/95 15
-2 Log Likelihood = 7889/2777
با توجه به نتايج بدست آمده، سؤالات 16 و 22 با مدل يك پارامتري برازش ندارند، اما
χ بقية سؤالات، با مدل هاي دو و سه پارامتري داراي برازش هستند. سطح معناداري مقادير 2
سئوالات نيز نشان مي دهد كه تمام سؤالات با مدل ها ي دو و سه پارامتري برازش دارند
بنابراين مي توان نتيجه گرفت كه مدل هاي دو و سه پارامتري برآورد دقيق تري .(P> 0/05)
از پارامترهاي سؤال، نسبت به مدل يك پارامتري بدست مي دهند.
اما جهت تعيين برازش مدل- داده ها 1 و اينكه كداميك از مدل ها ي يك، دو و سه
در  2loglikelihood پارامتري با اين مجموعه از داده ها برازش بهتري دارند، از مقدار
آخرين چرخش و آزمون خي دو براي مقايسة آنها به صورت زير استفاده گرديد:
براي مدل هاي يك و دو پارامتري و تعيين اينكه كداميك برازش بهتري با اين مجموعه
از داده ها دارد، نتيجة زير بدست آمد:
2 ( 2log 1 ) ( 2log 2 )
   likelihood L   likelihood L
= (7982/8283 - 7889/2777) = 93/5506 χ2
0 به / 0 و 01 / جدول در سطح 05 χ با توجه به اينكه درجه آزادي آزمون 30 مي باشد، 2
جدول در هر دو χ محاسبه شده از 2 χ 43 مي باشد و چون قدر مطلق 2 / 50 و 77 / ترتيب 89
1 . Model – Data Fit
18 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
سطح 95 و 99 درصد اطمينان بزرگ تر است، بنابراين فرض صفر رد مي شود و نتيجه گرفته
مي شود كه مدل دو پارامتري نسبت به مدل يك پارامتري برازش بهتري با اين مج موعه از
داده ها دارد.
براي مدل هاي دو و سه پارامتري و تعيين اينكه كداميك برازش بهتري با اين مجموعه
از داده ها دارد، نتيجة زير بدست آمد:
2 ( 2log 2 ) ( 2log 3 )
   likelihood L   likelihood L
= (7889/2777 – 7865/2979) = 23/9798 χ2
0 به / 0 و 01 / جدول در سطح 05 χ با توجه به اينكه درجة آزادي آزمون 30 مي باشد، 2
جدول در هر دو χ محاسبه شده از 2 χ 43 مي باشد. چون قدر مطلق 2 / 50 و 77 / ترتيب 89
سطح 95 و 99 درصد اطمينان كوچك تر است، بنابراين فرض صفر تأييد مي شود و نتيجه
گرفته مي شود كه مدل دو پارامتري نسبت به مدل سه پارامتري برازش بهتري با اين
مجموعه از داده ها دارد.
جدول، به لحاظ آماري بين برازش χ محاسبه شده از 2 χ البته به دليل كوچك تر بودن 2
مدل هاي دو و سه پارامتري تفاوت معناداري وجود ندارد، اما بنا بر اصل امساك (امبرتسون
2000 ؛ نقل از شريفي و همكاران، 1388 ) مدل دو پارامتري به دليل دارا بودن ، و رايس 1
پارامترهاي كمتر نسبت به مدل سه پارامتري، به عنوان مدلي كه بهترين برازش را با
مجموعة داده ها دارد، معرفي مي شود.
ها، نتيجه گرفته مي شود كه مدل دو χ بنابراين با توجه به نتايج بدست آمده از مقايسة 2
پارامتري نسبت به مدل هاي يك و سه پارامتري با داده هاي آزمون نظري آزمون گواهينامة
رانندگي برازش بهتري دارد.
آزمون گواهينامة (ICC) در نمودارهاي زير (نمودار 3) منحني هاي ويژگي سؤالات
رانندگي در مدل دو پارامتري آمده است. توجه كنيد كه سؤالات از سمت چپ به راست
شماره گذاري شده اند.
1. Embretson & Reise
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 19
1 - 6
7 - 12
13 - 18
19 - 24
25 - 30
آزمون گواهينامة رانندگي در مدل دو پارامتري (ICC) نمودار 3. منحني ويژگي سؤالات
با توجه به مقادير پارامترهاي سؤالات آزمون در مدل دو پارامتري (جدول 5)، و منحني
ويژگي سؤالات آزمون (نمودار 3)، براي آزمون گواهينامة رانندگي و در مدل دو پارامتري
25 و 28 كه داراي ضرا يب ،23 ،22 ،16 ،6 ، نتيجه مي گي ريم كه به استثناي سؤالات 2
دشواري متوسط مي باشند، بقية سؤالات آزمون داراي ضرايب دشواري منفي و پاييني بوده
و منحني ويژگي آنها به سمت چپ متمايل است و بنابراين سؤالات آساني محسوب
مي شوند. در اين ميان سؤال 5 آسان ترين سؤال است.
شيب تمام سؤالات نيز قابل قبول بوده و از قدرت تشخيص مناسب برخوردارند، تنها
سؤال 16 داراي شيب و قدرت تشخيص نسبتاً پايين و كمتر از 5/ . است . در اين ميان سؤال
12 از بالاترين شيب در بين سؤالات برخوردار است. همچنين بر اساس نتايج بدست آمده،
1 - و 77 / . است كه نشان دهندة / ميانگين و انحراف استاندارد پارامتر دشواري سؤالات 58
. / آسان بودن كل آزمون مي باشد. ميانگين و انحراف استاندارد پارامتر شيب سؤالات نيز 86
و 3/ . است كه نشاندهندة قدرت تمييز قابل قبول در جداسازي افراد قوي و ضعيف مي باشد.
در ادامه، بيشينة آگاهي سؤالات و سطوح توانايي مربوطه (جدول 6) و نيز منح ني
20 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
آگاهي و خطاي استاندارد آزمون گواهينامة رانندگي (نمودار 4) آورده شده است . بايد
توجه شود در نقاطي از منحني كه آگاهي به بالاترين حد مي رسد، خطاي استاندارد به صفر
ميل مي كند، در واقع با افزايش آگاهي آزمون، خطاي استاندارد كاهش مي يابد و بالعكس.
جدول 6 . بيشينة آگاهي و سطح توانايي تعدادي از سؤالات آزمون در مدل دو پارامتري
سؤال بيشينة آگاهي سطح توانايي سؤال بيشينة آگاهي سطح توانايي
-0/36 . /11 16 -2/7 . /73 1
-1/53 . /46 17 -0/96 . /4 2
-2/24 . /64 18 -1/95 . /51 3
-1/82 . /55 19 -1/76 . /44 4
-1/22 . /47 20 -3/26 . /23 5
-1/12 . /42 21 -0/79 . /27 6
-0/82 1 22 - 1/97 1/4 7
-0/49 . /19 23 -1/79 1/83 8
-2/63 . /31 24 - 1/28 . /82 9
-0/71 . /46 25 -2/03 1/53 10
-1/93 . /29 26 -1/25 . /5 11
-1/46 . /55 27 - 1/73 1/78 12
-0/12 . /19 28 -2/06 . /67 13
-1/19 . /22 29 -1/34 . /43 14
-3/19 . /28 30 -1/95 . /71 15
-3 -2 -1 0 1 2 3
0
5
10
15
20
Scale Score
I nformation
0
0.44
0.88
1.32
1.76
2.20
S tandard E rror
و خطاي استاندارد آزمون گواهينامة رانندگي در مدل دو پارامتري (TIF) نمودار 4. منحني تابع آگاهي
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 21
در منحني فوق خطوط پيوسته، منحني آگاهي، و خطوط نقطه چين، منحني خطاي
استاندارد آزمون گواهينامة رانندگي را نشان مي دهد. بيشتري ن ميزان آگاهي دهندگي در
1- است و اين بدان معني است كه اين آزمون براي افرادي كه داراي / 2- تا 4 / دامنة تتاي 2
اين سطوح از توانايي هستند بيشترين مناسبت و كاربرد را دارد . در واقع ميزان آگاهي
دهندگي آزمون در سطوح پايين توانايي، بالا مي باشد. بيشينة مقدار آگاهي آن نيز در سطح
15 مي باشد . از طرفي ميزان آگاهي دهندگي اين آزمون در / 1- و برابر 99 / توانايي 95
سطوح توانايي بالا، بسيار اندك است. توزيع بيشينة آگاهي و خطاي استاندارد نمودار 4، و
نيز توزيع فراواني و سطوح مختلف توانايي آزمودني ها، متعلق به نمودار 5 ، در جدول 7
آمده است.
جدول 7. توزيع بيشينة آگاهي و خطاي استاندارد توانايي آزمون گواهينامة رانندگي در مدل دو پارامتري
توانايي (تتا) فراواني بيشينة آگاهي خطاي استاندارد
1/04 8/44 0 -2/85
0 /64 11/3 2 -2/55
0 /36 14/2 4 -2/25
0 /23 15/99 1 -1/95
0 /25 15/7 12 -1/65
0 /4 13/77 33 -1/35
0 /63 11/36 16 -1/05
0 /94 9/08 26 -0/75
1/32 7/05 63 -0/45
1/8 5/34 25 -0/15
2/1 4/38 21 0/15
2/88 3/21 29 0/45
3/7 2/34 43 0/75
4/66 1/7 27 1/05
5/78 1/24 12 1/35
7/08 0 /91 36 1/65
8/58 0 /67 0 1/95
10/3 0 /49 0 2/25
12/26 0 /36 0 2/55
14/49 0 /27 0 2/85
22 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
-3 -2 -1 0 1 2 3
0
10
20
30
40
50
60
70
Ability
Frequency
نمودار 5. منحني توزيع توانايي آزمودني ها در آزمون گواهينامة رانندگي در مدل دو پارامتري
براي تعيين معناداري پارامترهاي سؤا ل و توانايي، در مرحلة اول ميانگين و انحراف
استاندارد اين پارامترها در مدل كلاسيك و مدل دو پارامتري بر اساس داده هاي بدست
.( آمدة اوليه (داده هاي خام) محاسبه گرديد (جدول 8
CTT و IRT جدول 8. مقايسة پارامترهاي سئوال و توانايي در آزمون گواهينامة رانندگي بر اساس نظرية
شاخص آماري
CTT IRT CTT IRT CTT IRT
توانايي (θ) توانايي (rpbis) تميز (a) تميز (P) دشواري (b) دشواري
. /0007 - . /005 . /33 . /86 . /82 -1 / ميانگين 58
. /99 1/01 . /07 . /3 . /13 . / انحراف استاندارد 77
--- . /49 - . / همبستگي پيرسون 9
2 با استفاده PL و مدل CTT سپس همبستگي بين پارامترهاي دشواري و تمييز در مدل
از ضريب همبستگي پيرسون محاسبه گرديد . ضرايب همبستگي بدست آمده به لحاظ
.( 0 معنادار هستند (جدول 8 / آماري در سطح 01
همچنين جهت سنجش تفاوت معناداري بين پارامترهاي سؤال در دو مدل، داده هاي
تبديل و از آن ها آزمون Z محاسبه شدة (داده هاي خام ) پارامترهاي سؤال، به نمرات
وابسته به عمل آمد. با توجه به نتايج بدست آمده (جدول 9) از مقايسة ميانگين T معناداري
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 23
بدست t پارامتر هاي دشواري، شيب و توانايي در دو مدل، نتيجه گرفته مي شود كه، مقادير
0 معنادار نبوده و بنابراين تفاوت معناداري بين دقت برآورد پارامترهاي / آمده در سطح 05
مذكور در دو نظرية كلاسيك و سؤال  پاسخ وجود ندارد.
و IRT جدو ل 9. مقايسة پارامترهاي سئوال و توانايي در آزمون گواهينامة رانندگي بر اساس نظرية
CTT
پارامترها شاخص
مدل ميانگين انحراف
استاندارد
Sig df T
1/05 . / دشواري كلاسيك 01
. /952 29 . / دو پارامتري 061 1 - . /01
. /97 . / تمييز كلاسيك 01
. /898 29 - . / دو پارامتري 129 1/03 . /03
. /99 . / توانايي كلاسيك 0007
. /963 349 . / دو پارامتري 047 1/01 - . /005
در انتها، به منظور بررسي پايايي و ثبات نتايج آزمون نظري گواهينامة رانندگي، مجدداً
آزمون مذكور با همان شرايط اوليه، پس از يك هفته سپري شدن از اجراي اول، بر روي
30 نفر از همان نمونة اوليه اجرا گرديد. از آنجائي كه آزمون مورد نظر از نوع ملاك مرجع
مي باشد، براي بررسي توافق بين تصميم ها از ضريب پايايي به روش كاپا استفاده شد . در
اين روش مقدار ضريب پايايي، نشان دهندة ميزان توافق تصم يم ها ي نمونة مورد نظر در
ارتباط با چگونگي پاسخگويي به سؤالات آزمون در دو بار اجراي آزمون است. نمرة حد
تسلط در اين آزمون كسب نمرة 26 در 30 سؤال مورد نظر است. در واقع مي توان گفت
86 مي باشد. / كه ملاك قبولي در آزمون و يا نقطة برش آزمون، 67
24 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
جدول 10 . طرح تعيين پايايي بر اساس توافق بين تصميم ها
آزمون اول
رسيده به حد تسلط نرسيده به حد تسلط
2 10
17 1
N = a + b + c + d
بر اساس داده هاي اخذ شده از اجراي دوم، مقدار ضريب كاپا برابر 79 / . بوده و با
در سطح 99 / . كمتر از 01 / . م ي باشد ، مي توان نتيجه P = (. / توجه به اينكه مقدار ( 001
گرفت كه رابطة معناداري بين اجراي اول و اجراي دوم در نمونة مورد نظر وجود دارد. اين
نتيجه نشان مي دهد كه آزمون مورد نظر از پايايي و ثبات كافي در اجراهاي مختلف
برخوردار بوده است.
بحث و نتيجه گيري
معمولاً در علت شناسي تصادف هاي رانندگي از 4 عامل انساني، جاده، وسيلة نقليه و محيط
نام برده مي شود. اما در 90 تا 95 درصد تصادفات رانندگي در ايران، عامل انساني نقش اصلي
1/ و اول را در حوادث رانندگي به عهده دارد (يعقوبي، 1379 ). با اينكه ساليانه بيش از 26
ميليون نفر در دنيا به علت تصادفات رانندگي جان خود را از دست م ي دهند (پدين، اسكار
فيلد و سليت، 2004 )، اما بسياري از كشورهاي در حال توسعه دربارة مرگ و مير در كشور
خود اطلاعات محدودي دارند (خي و وانگ، 2004 ). با مطالعات اپيدميولوژيك مي توان در
جهت كاهش حوادث و عواقب ناشي ازآنها گام برداشت، چرا كه آس يب ها ي ناشي از
.( حوادث رانندگي يك مشكل بزرگ بهداشتي در دنيا است (پدن و تورويان، 2005
رسيده به حد تسلط
آزمون دوم
نرسيده به حد تسلط
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 25
در واقع آموزش اين توانايي را دارد تا براي بهبود و پيشرفت كشورهاي كمتر توسعه يافته
زمينة لازم را فراهم سازد و سياست هاي لازم براي مقابله با اين بحران جهاني را اتخاذ نمايد (
لوئيز، 1990 ، نقل از سهرابي، 1384 ). نتايج مطالعات انجام شده نشان نيز مي دهد كه مي توان با
.( اقدامات پيشگيرانه از 98 درصد حوادث جلوگيري نمود (عراقي و واحديان، 1384
يكي از فعاليت ها در اين زمينه، توجه به آزمون هاي نظري گواهينامة رانندگي از زواياي
مختلف و مقايسة آن با ديگر كشورها است كه مي توان د به عنوان اقدامي پيشگيرانه در
كاهش رخداد حوادث رانندگي به شمار آيد. آزمون گواهينامة رانندگي در ايران شامل
يك آزمون نظري و يك آزمون عملي (شهري يا جاده ) است . آزمون نظري، آزمون
استاندارد شده اي است كه براي تصميم گيري در مورد رسيدن فرد به دانش نظري كافي و
ساختن راننده اي ايمن و بي خطر طراحي شده، و مي تواند از زواياي متفاوت مطالعه شده
.( و سؤالات آن نيز بر طبق نظريات مختلف ارزش گذاري شود (ويبرگ، 2004
هدف اين پژوهش، بررسي ويژگي هاي روان سنجي سؤالات آزمون نظري گواهينامة
در ايران (IRT) و نظرية سؤال  پاسخ (CTT ) رانندگي بر طبق نظرية كلاسيك آزمون
بوده است.
تحليل ويژگي روان سنجي سؤالات آزمون نظري گواهينامة رانندگي طبق نظرية
كلاسيك نشان داد كه، بيشتر سؤالات اين آزمون، سؤالات آساني محسوب شده و افرادي با
كمترين توانايي، قادر به پاسخگويي صحيح به تعدادي از سؤالات هستند . همچنين سؤالات
آسان داراي انحراف استاندارد و واريانس پاييني بوده و به واريانس كل آزمون كمك زيادي
نمي كنند و در واقع اطلاعات زيادي را دربارة تفاوت هاي آزمودني ها به ما نم ي دهند . بيشتر
سؤالات آزمون از ضرايب تمييز نسبتاً قابل قبولي برخوردارند. اين بدان معني است كه بيشتر
سؤالات آزمون قادر به جداسازي مناسب آزمودني هاي قوي و ضعيف مي باشند.
ضريب پايايي كل آزمون نيز نشان دهندة تجانس دروني نسبتاً بالاي سؤالات آزمون
مي باشد.
26 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
تحليل ويژگي هاي روان سنجي سؤالات آزمون نظري آزمون گواهينامة رانندگي طبق
نظرية سؤال  پاسخ نشان داد كه پس از برآورد پارامترها و با بررسي ميزان برازندگي
تك تك سؤالات با مدل هاي يك، دو و سه پارامتري، هيچ سؤالي وجود ندارد كه به
صورت همزمان با هر سه مدل برازش نداشته باشد . بنابراين هيچكدام از سؤالات حذف
نمي شوند. بررسي منحني ويژگي سؤالات نشان مي دهد كه بيشتر سؤالات آزمون داراي
ضرايب دشواري منفي و پاييني بوده و منحني ويژگي آنها به سمت چپ متمايل است و
بنابراين سؤالات آساني محسوب مي شوند. ميانگين و انحراف استاندارد پارامتر دشواري
1- و 77 / . است كه نشان دهندة آسان بودن كل آزمون مي باشد. شيب بيشتر / سؤالات 58
سؤالات آزمون قابل قبول بوده و از قدرت تشخيص مناسب در جداسازي آزمود ني ها ي
قوي و ضعيف برخوردارند. تنها سؤال 16 داراي شيب و قدرت تشخيص پايين و كمتر از
5/ . است. ميانگين و انحراف استاندارد پارامتر شيب سؤالات نيز 86 / . و 3/ . است كه
نشان دهندة قدرت تمييز قابل قبول در جداسازي افراد قوي و ضعيف مي باشد.
در مجموع مي توان نتيجه گرفت كه بيشتر سؤالات آزمون داراي ضرايب دشواري
پايين و ضرايب تمييز قابل قبولي مي باشند.
بررسي منحني آگاهي دهندگي نشان مي دهد كه بيشترين ميزان آگاهي دهندگي اين
1- بوده و بيشينة مقدار آگاهي آن نيز در سطح توانايي / 2- تا 4 / آزمون در دامنة توانايي 2
15 مي باشد. اين بدان معني است كه اين آزمون در سطوح پايين تتا / -1/95 و برابر 99
(توانايي) از آگاهي دهندگي بالايي برخوردار بوده و براي آزمودني هايي با توانايي پايين
-1/ 1، در سطح توانايي 79 / مناسب مي باشد . در اين ميان سؤال 8 با بيشينة آگاهي 83
بيشترين ميزان آگاهي دهندگي را در اين مجموعه از سؤالات به خود اختصاص داده است.
همچنين منحني توزيع توانايي آزمود ني ها نشان م ي دهد كه بيشتر ين فراواني آزمون
شوندگان با 63 نفر متعلق به سطح توانايي 45 / .- مي باشد.
تحليل ويژگي هاي روان سنجي سؤالات آزمون نظري گواهينامة رانندگي طبق نظرية
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 27
سؤال  پاسخ نشان داد كه اين آزمون تك بعدي مي باشد. اين نتيجه با تحليل عاملي سؤالات
آزمون بدست آمد. اثبات تك بعدي بودن آزمون به اين معنا است كه مفروضة استقلال
موضعي نيز برقرار است. در مرحلة بعد پارامترهاي سؤال و توانايي در مدل هاي يك، دو و سه
پارامتري بدست آمد. به منظور مقايسة مدل ها در برازش با داده هاي آزمون، از آزمون خي
دو استفاده گرديد. نتايج نشان داد كه مدل دو پارامتري نسبت به مدل هاي يك و سه پارامتري
برازش بهتري با داده هاي آزمون دارد. اين بدان معني است كه عامل حدس در پاسخگويي
آزمودني ها به سؤالات نقش زيادي نداشته است. همچنين با توجه به اطلاعات بدست آمده،
سؤالات 16 و 22 با مدل يك پارامتري برازش ندارند. اما تمام سؤالات با مدل ها ي دو و سه
پارامتري داراي برازش هستند. بنابراين مي توان با توجه به برازش تمام سؤالات آزمون، با
مدل هاي دو و سه پارامتري، نتيجه گرفت كه مدل هاي دو و سه پارامتري برآورد دقيق تر ي از
پارامترهاي سؤال نسبت به مدل يك پارامتري بدست مي دهد.
نتايج اين پژوهش از لحاظ تفاوت در دقت برآورد پارامترهاي سؤال و توانايي به روش
سؤال  پاسخ نسبت به روش كلاسيك، نشان م ي دهد كه، برآورد پارامترهاي سؤال و
توانايي به روش سؤال  پاسخ از واريانس و دامنة وس يع تر ي نسبت به روش كلاسيك
برخوردار بوده و برخلاف مدل كلاسيك، قاد ر به برآورد پارامترهاي سؤال و توانايي
تلقي CTT مستقل از همديگر مي باشد. به بيان ديگر آنچه به عنوان نقطة ضعف در نظرية
، مي شود، وابستگي پارامترهاي آن به نمونة مورد بررسي است (همبلتون و سواميناتان 1
ويژگي و ،IRT 2000 ). در واقع ثبات و استقلال پارامترها در نظرية ، 1985 ، نقل از استيج 2
1980 ، نقل از استيج، 2000 ). در اين رابطه ، مزيت مهم اين نظريه به شمار مي رود (لرد 3
IRT و CTT 2010 )، نيز نشان دادند كه اگرچه هر دو نظرية ) شاركنس و دي آنجلو 4
مي توانند در به دست آوردن اطلاعات يكسان در مورد مقدار سئوالات آزمون در رابطه با
1 . Hambleton & Swaminathan
2 . Stage
3 . Lord
4 . Sharkness & DeAngelo
28 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
صفت مكنون اندازه گيري شده، مفيد باشند، اما اين دو نظريه اندازه هاي متفاوتي از دقت
آزمون بدست مي دهند.
به منظور مقايسه و تعيين معناداري پارامترهاي سؤال و توانا يي در آزمون گواهينامة
رانندگي، در مرحلة اول ميانگين و انحراف استاندارد پارامترهاي دشواري، شيب و توانايي
در دو مدل كلاسيك و دو پارامتري بر اساس داده هاي بدست آمدة اوليه (داده هاي خام )
و مدل CTT محاسبه گرديد. سپس همبستگي بين پارامترهاي دشواري و تميز در مدل
2 با استفاده از ضريب همبستگي پيرسون محاسبه گرديد، كه ضرايب همبستگي بدست PL
0 معنادار بودند. در مرحلة بعد، داده هاي محاسبه شده / آمده به لحاظ آماري در سطح 01
تبديل و از آن ها Z (داده هاي خام) براي پارامترهاي سؤال و توانايي در دو مدل، به نمرات
محاسبه شده از مقايسة دو ميانگين و T وابسته به عمل آمد. با توجه به T آزمون معناداري
مندرج در جدول در سطح 95 / . ، نتيجه گرفته مي شود كه تفاوت معناداري بين دقت T
برآورد پارامترهاي دشواري، شيب و توانايي در دو نظرية كلاسيك و سؤال  پاسخ وجود
ندارد. با مقايسة نتايج متفاوت معنادار ي ها ي بدست آمده توسط آزمون ها ي رابطه
وابسته) مي توان نتيجه گرفت كه نظريه هاي كلاسيك و سؤال  T) (پيرسون) و تفاوت
پاسخ داراي رابطة معناداري بوده و هر دو نظريه از ميزان دقت تقريباً مشابه و يكساني در
برآورد پارامترهاي سؤال و توانايي برخوردارند و در واقع تفاوت معناداري بين دو نظريه در
برآورد پارامترها وجود ندارد.
پژوهش هاي انجام ،CTT بر IRT امروزه، با وجود مزيت هاي نظري شناخته شدة نظرية
يافته از طريق بررسي ويژگي هاي تجربي نيز به نتايج مشابه، متغير و بعضاً متناقضي منتهي
شده است.
به CTT و IRT بچگار 1 و همكاران ( 2003 ) در مطالعة خود با استفاده از نظريه هاي
اين نتيجه رسيدند كه؛ نظرية سئوال - پاسخ حالت گسترش يافتة نظرية كلاسيك است، و
1 . Bechger
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 29
مفاهيم هر دو نظريه به هم وابسته هستند. با اين حال ثابت شده است كه نظرية سئوال -
پاسخ در جايي كه نظرية كلاسيك ناتوان به نظر مي رسد مي تواند مفيد واقع شود.
بررسي پارامترهاي سئوال و توانايي با استفاده از تكنيك مونت كارلو و از طريق داده
2002 ) نشان داد كه، برآورد ) هاي شبيه سازي شده در مطالعة مكدونالد و پانونن 1
قابل مقايسه، مشابه و دقيق اند. همچنين CTT و IRT پارامترهاي سئوال و توانايي در نظرية
در اغلب شرايط تجربي IRT نتايج حاكي از آن بود كه برآورد پارامترهاي تمييز مبتني بر
در برخي از شرايط خاص از دقت CTT دقيق بوده، اما برآورد پارامترهاي تمييز مبتني بر
پايين تري برخوردار بوده است. پيامدهاي نتايج اين مطالعه براي تجزيه و تحليل روان سنجي
سئوالات و انتخاب سئوال مورد بحث قرار گرفته است. نتيجة پژوهش استيج ( 2000 ) نيز
نشان داد كه؛ نظريه هاي جديد و كلاسيك اندازه گيري به يك اندازه قادرند داده هاي
آزمون را به صورت منظم پيش بيني كنند. اما به دليل تفاوت قابل ملاحظه ي موجود بين دو
نظريه در تئوري و اجرا و در نتيجه برآورد دقيق تر پارامترهاي سئوال و توانايي توسط نظرية
IRT كه در برخي تحقيقات ب ه اثبات رسيده است، نظرية ،CTT نسبت به نظريه IRT
دارد. CTT برتري قابل ملاحظه اي بر نظرية
،(IRT) 2010 ) مشخص گرديد كه، مدل پاسخ مدرج ) در مطالعة سنكتاي و سنكتاي 2
براي برآورد پارامترهاي آماري در يك نمونة بزرگ و نيز تحليل مدل معادلات ساختاري
دقيق تر از مدل كلاسيك آزمون است. اما مدل كلاسيك آزمون نيز همچنان ابزار آماري
پايايي در تحليل رگرسيون و در نمونه هايي با اندازة كوچك محسوب مي شود . همچنين
هنگامي كه پارامترهاي فرد، ناشناخته فرض مي شود و پارامترهاي سئوال نيز به صورت
و IRT شناخته شده و يا شناخته نشده باشد، توان بدست آمده با استفاده از نظريه هاي
مشابه و يكسان، و هميشه پايين تر از توان مورد انتظار در نقطة انتهايي توزيع طبيعي CTT
1 . Macdonald & Paunonen
2 . Siengthai & Siengthai
30 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
.(2010 ، است. تعداد سئوالات نيز تأثير قابل توجهي بر توان در هر دو روش دارد (سبيل 1
تجزيه و تحليل نهايي پارامترهاي سؤال و آزمود ني ها در آزمون نظري گواهينامة
رانندگي كه توسط راهور ناجا برگزار مي شود، نشان داد كه سؤالات اين آزمون بر اساس
نظرية كلاسيك و نظرية سؤال  پاسخ ، براي آزمودني ها يي با توانايي پايين از مناسبت و
دقت بيشتري برخوردار است. اين بدان دليل است كه با توجه به ضرايب دشواري بدست
آمده، بيشتر سؤالات آزمون ساده و آسان مي باشند. اما از آنجائي كه آزمون مورد نظر از
نوع ملاك مرجع است، سؤالي كه از لحاظ محتوايي با ارزش است، لزوماً به دليل آسان
بودن از آزمون كنار گذاشته نمي شود (ويبرگ، 2004 ). پارامتر تمييز آزمون نيز در هر دو
نظريه از ضرايب قابل قبولي برخوردار بوده و نشان مي دهد كه اين آزمون تا حد زيادي از
قدرت جداسازي افراد قوي و ضعيف در سطوح پايين توانايي برخوردار م ي باشد . البته با
توجه به اينكه آزمون نظري گواهينامة رانندگي از نوع آزمون هاي ملاكي م ي باشد ، حتي
سئوال هايي با ضرايب تمييز پايين نيز كنار گذاشته نم ي شوند ، چرا كه چنين سئوالاتي
.( توانايي اندازه گيري هدف را نشان مي دهند (كيامنش، 1387
به منظور بررسي پايايي و ثبات نتايج آزمون نظري گواهينامة رانندگي، مجدداً آزمون
مذكور با همان شرايط اوليه، پس از يك هفته سپري شدن از اجراي اول، بر روي 30 نفر از
همان نمونة اوليه اجرا گرديد. بر اساس ضريب كاپاي بدست آمده مي توان نتيجه گرفت
كه رابطة معناداري بين اجراي اول و اجراي دوم در نمونة مورد نظر وجود دارد. اين نتيجه
نشان داد كه آزمون مورد نظر از پايايي و ثبات كافي در اجراهاي مختلف برخوردار است .
در واقع تغيير چنداني در تعداد و درصد افرادي كه در اجراي اول آزمون موفق و يا ناموفق
بوده اند، نسبت به اجراي دوم آزمون وجود نداشته و مي توان نتيجه گرفت كه، ثبات تصميم
گيري در دو بار اجراي آزمون وجود داشته است.
پايين بودن ميانگين نمرات آزمودنيها در اين پژوهش، نسبت به نمرة ملاك، با در نظر
1 . Sebille
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 31
گرفتن سادگي آزمون، نشاندهندة توانايي پايين آزمون شوندگان م ي باشد . البته ميز ان
توانايي برآورد شده در نظرية سؤال  پاسخ در مقايسه با نمرة آزمودني در نظرية كلاسيك،
به ميزان واقعي نزديك تر است و با توجه به توانايي ها ي برآورد شده، مي توان سؤالات
متناسب با توانايي آزمودني ها را انتخاب نمود و اين مي تواند به ايجاد بانك سؤال و توسعة
در آزمون نظري گواهينامة رانندگي منجر شود . ،(CAT) آزمون هاي انطباقي كامپيوتري
2002 ) نيز بدان اشاره شده است . وي با بررسي سئوالات ) مزيتي كه در بررسي هاروي 1
بر روش ها ي IRT مزي ت ها ي نظرية ،(MBTI) آزمون تجديد نظر شده مايرز - بريگز
را بدين گونه برشمرد: CTT مبتني بر نظرية
(الف) دادن شرح مفصل از عملكرد افراد در سئوالات آزمون
(ب) ثبات و تغيير ناپذيري شاخص هاي دقت سؤال و آزمون در سراسر طيف نمرات
(ج) امكان ارزيابي سوگيري سؤال و آزمون در رابطه با زير گروه هاي جمعيتي
(د) اندازه گيري كيفي و با ثبات از ويژگي هاي هر پاسخ دهنده
(ه) امكان تهية آزمون هاي انطباقي كامپيوتري با هدف كاهش زمان آزمايش، بدون فدا
كردن دقت اندازه گيري.
IRT يافته هاي ديگر (شاركنس و دي آنجلو، 2010 ) نيز نشان داد كه در مجموع نظرية
اطلاعات بسيار جامع تري در مورد دقت اندازه گيري و نيز نقشة راه واضح تر ي براي بهبود
براي ساخت مقياس و توسعة IRT مقياس فراهم مي كند. همچنين اين يافته ها ، از نظرية
زمينه يابي در آموزش عالي پشتيباني مي كنند.
1 . Harvey
32 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
منابع
آلن، مري. جي؛ و وندي، ام. ين ( 1384 ). مقدمه اي بر نظري ه هاي اندازه گيري (روان سنجي ).
.( 12 . (تاريخ انتشار به زبان اصلي، 1982 - ترجمة علي دلاور. تهران: سمت. صص 13
احمدي، فهيمه ( 1385 ). علل وقوع تصادفات در معابر شهري.
براي (IRT) امبرتسون، سوزان اي؛ و رايس، استيون پي ( 1388 ). نظريه هاي جديد روان سنجي
روان شناسان. ترجمة حسن پاشاشريفي، ولي الله فرزاد، مجتبي حبيبي عسگرآباد و بلال
.( ايزانلو. تهران: رشد. ص 490 . (تاريخ انتشار به زبان اصلي، 2000
بازرگان، عباس ( 1386 ). ارزشيابي آموزشي: مفاهيم، الگوها و فرآيند عملياتي. تهران: سمت.
.Http://www.bih.ir . بيمة ايران. ( 2008 ). تفاوت هاي حوادث رانندگي در آلمان و ايران
ثرندايك، آر، ال ( 1375 ). روان سنجي كاربردي. ترجمة حيدرعلي هومن. تهران : دانشگاه تهران .
.( (تاريخ انتشار به زبان اصلي، 1982
حسيني، ميرزا حسن ( 1380 ). لزوم توجه به نكته هاي مثبت آموزش از راه دور در دنيا.
خالدي، محمد ( 1387 ). ارزيابي اثربخشي آموزش هاي فني و حرفه اي، هنرستان ها و دوره هاي
علمي و كاربردي به تفكيك خصوصي و دولتي در اشتغال، مؤسسة كار و تأمين اجتماعي.
؛ خبرگزاري فارس ( 1385 ). گروه اجتماعي، حوزة قضايي و انتظامي. شمارة 8508010184
.1385/08/01
سلماني، محمد؛ رمضان زاده لسبويي، مهدي؛ دريكوند، مسلم و ثابتي، فرخ ( 1387 ). بررسي عوامل
مؤثر بر تصادفات جاده اي و ارائة راهكارهايي براي كاهش آن، مورد مطالعه : منظومة
، روستايي جنوب خور و بيابانك. پژوهش هاي جغرافياي انساني، شمارة 65 ، پاييز 1387
.87- صص 104
سهرابي، منيره ( 1384 ). بررسي تطبيقي سير تحولات آموزش از راه دور در توسعه كمي و كيفي
آموزش عالي به ويژه دانشگاه هاي مجازي در كشورهاي انگلستان، آمريكا و ايران، تهران:
پايان نامة كارشناسي ارشد، دانشگاه علامه طباطبائي.
سوري، حميد؛ عيني، الهه؛ موحدي نژاد، عباسعلي؛ محفوظ پور، سعاد؛ موحدي، محمد؛ رضا زاده
.( آذري، منصور؛ وفايي، رضا؛ حات مآبادي، حميدرضا و مسعودي نژاد، محمدرضا ( 1388
اراية الگوي عملي نقشة سياست گذاري در سوانح ترافيكي كشور در سال 1387 . مجلة
پژوهشي حكيم، پاييز 88 دورة دوازدهم، شماره سوم.
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 33
صالحي، احمد ( 1376 ). بررسي مشخصه هاي روان سنجي آزمون پ ره بورد رشتة زنان و زايمان
پايان نامة كارشناسي ارشد، تهران : ، IRT كشور ايران بر اساس نظرية سؤال  پاسخ
دانشگاه علامه طباطبائي.
عراقي، عزت؛ و واحديان، محمد ( 1384 ). بررسي عوامل مستعد كننده و آس يب ها ي ناشي از
، تصادفات با موتورسيكلت در شهرستان مشهد سال 1384 . مجلة افق دانش (دوره 13
شماره 1). دانشكدة علوم پزشكي و خدمات بهداشتي ،درماني گناباد.
فراهاني، مهدي ( 1375 ). مقايسة مدل هاي اندازه گيري (كلاسيك و سؤال  پاسخ ) از لحاظ برآورد
پارامترهاي سؤال و توانايي. پايان نامة كارشناسي ارشد، تهران: دانشگاه علامه طباطبائي.
- كيامنش، عليرضا ( 1387 ). روش هاي ارزش يابي آموزشي. تهران: دانشگاه پيام نور . صص 119
.118
محمد زاده رومياني، مهري ( 1375 )، روش هاي گزينش سؤال در مدل كلاسيك اندازه گيري و
پايان نامة كارشناسي ارشد، تهران، دانشگاه علامه طباطبائي. ،IRT مدل هاي جديد
مگنوسون، داويد ( 1370 ). مباني نظري آزمون هاي رواني. ترجمة محمد نقي براهني . تهران : نشر
.( دانشگاه تهران. (تاريخ انتشار به زبان اصلي، 1966
يعقوبي، حميد ( 1379 ). بررسي نقش عوامل انساني در بروز تصادفات رانندگي در ايران . نشري ة
انديشه و رفتار، سال ششم، شماره يك.
يونسي، جليل ( 1385 )، بررسي ويژگي هاي روان سنجي سؤالات آزمون هاي فراگير رشته
روانشناسي دانشگاه پيام نور در سال 1385 ، پايان نامة كارشناسي ارشد، تهران، دانشگاه
علامه طباطبائي.
Bechger, T. M., Maris, Gunter., Verstralen, H. H. F. M. & Béguin, A, A. (2003).
Using Classical Test Theory in Combination with Item Response Theory.
Applied Psychological Measurement Vol. 27, No 5,pp 319–334.
Chi, GB., & Wang, sy. (2004). Pattern of road traffic injuries in china. Zhonghua lio
xing bing zue za zhi. (7):598-601.
Hambleton, R. K., & Vanderlinden, W. J. (1982). Advance in item response theory
and application: An introuduction applied psychological measurement,6,4,
372-378.
Hambleton, R. K., & Cook, L. L. (1983). The robustness of item rrsponse models
effects of test length and sample aize on the precision of ability estimates. In D
jweis(Ed.) New horizons in testing (pp.31- 49) New York: Academic press.
Hambleton, R. K. (1989). Principles and selected applications of item- response
theory. In R. Linn (Ed.) Educational measurement, (3rd Ed). New York:
Macmillan. 147-200.
34 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
Hambleton, R. K., Jones, R. W. & Rogers, H. J. (1993). Independence of item
parameter etimtion errors in test development. Journal of Educational
Measurment,30,143 – 155.
Harvey, R. J., & Hammer, A. L. (2002). Item Response Theory. Virginia
Polytechnic Institute & State University & Consulting Psychologists Press, Inc.
Kopits, E., & Cropper, M. (2005). Traffic fatalities and economie growth,
Accidanalprev; 37(1):169-78.
Macdonald, P,. & Paunonen, S. V. (2002). A Monte Carlo Comparison of Item and
Person Statistics Based on Item Response Theory versus Classical Test
Theory. Educational and Psychological Measurement Vol. 62 No. 6, .pp 921-
943. University of Western Ontario.
Peden, M., & Toroyan, T. (2005). Counting road traffic deaths and injuries: poor
data should not detract from doing some thing. Annals of emergency
medicine.46(2):158-60.
Peden, M., Scufield, R., & Sleet, D. (2004). World report on road traffic injury
prevention. Geneva: world health organization.
Reid, C. A. (1993). Latent trait modeling of the general aptitude test battery used
with a rehabilitation client population: An investigation of Model – Data Fit.
Source: DAI – B 54/12 , P. 6497, JUN 1994.
Romana, E. (2004). World health day:road safety is no accident. Paris, Farance.
Sébille, V., Hardouin, JB., Le Néel, T., Kubis, G., Boyer, F., Guillemin, F., &
Falissard, B. (2010). Methodological issues regarding power of classical test theory
(CTT) and item response theory (IRT) -based approaches for the comparison
of patient-reported outcomes in two groups of patients- a simulation study.
BMC Medical Research Methodology.
Sharkness, J,. & DeAngelo, L. (2010). Measuring Student Involvement: A
Comparison of Classical Test Theory and Item Response Theory in the
Construction of Scales from Student Surveys. Res High Educ 52, pp 480–507.
Siengthai, Sukirno & Sununta. (2010). The comparison of graded response model
and classical test theory in human resource research: a model fitness test.
Research and Practice in Human Resource Management.18 (2), pp77-
90.Singapore, Human Resources Institute & Curtin University of Technology.
Stage, C. (2000). A Comparison Between Item Analysis Based on Item Response
Theory and Classical Test Theory. A Study of the SweSAT Subtest ERC.
Wiberg, M. (2004). Classical test theory vs.item response theory: An evaluation of
the theory test the Swedish Driving-License test. 1-27.

همتراز سازي آزمون ها test equating

در بسیاري از موقعیت هاي روانشناختی و آموزشی، چندین فرم از یک آزمون براي سنجش

توانایی پیشرفت عملکرد و مانند آن قابل استفاده است. وقتی چند فرم آزمون براي اندازه گیري

توانایی یکسانی اجرا می شود در حقیقت قادر به مقایسه نمرات آزمون افراد هستیم با آزمون هاي

موازي این کار به صورت مستقیم انجام می شود. آزمون هاي موازي محتواي یکسانی را اندازه می

گیرند و ویژگی آماري مشترکی دارند ( تساوي میانگین، انحراف استاندارد و پایایی).

نمره ها در آزمون هاي موازي کاملاً قابل تعویض بوده و هیچ مشکلی در زمینه مقایسه

نمرات در فرم هاي موازي آزمون پیش نمی آید. اغلب، چند فرم از یک آزمون که ویژگی

یکسانی را اندازه می گیرند موازي نبوده و مقایسه ي نمرات به راحتی انجام نمی شود چون

فرم هاي مختلف آزمون در چند خصوصیت با هم تفاوت دارند (عدم تساوي میانگین ها،

واریانس ها، پایایی ها و مانند آن) بنابر این قبل از مقایسه نمرات آزمودنی ها در چند فرم از

یک آزمون ایجاد تعادل بین نمرات خام در فرم هاي مختلف از یک آزمون لازم است این عمل

همتراز سازي 1 آزمون ها نام دارد. اگر چه نظریه پردازان و عمل کنندگان به نظریه ها با هم

اختلاف عقیده دارند براي نمره هاي همتراز شده شرایطی وجود دارد که باید به اتفاق نظ ر

برسند مانند شرایطی که بعد از اجراي روش هاي همتراز سازي نمرات بدست آمده است.

روش همتراز سازي نه فقط باید بتواند توانایی مبادله ي نمرات را داشته باشد بلکه باید

به محتواي آزمون و جامعه هدفی که آزمون براي آنها در نظر گرفته شده نیز مربوط باشد.

به منظور دقت بیشترچهار ویژگی لازم براي نمره هاي آزمون همتراز شده در زیر آمده

(2005 است. ( گراجتر و وندرکمپ 2

1.equating

2.Graijter & Vanmder Kamp

3

-1 توانایی یکسان 1: مثلاً فرم هاي مختلف آزمون بایستی ویژگی یکسانی ( توانایی، پیشرفت

عملکرد)اندازه بگیرند.

-2 برابري 2: براي هرگروه از آزمودنی ها توانایی یکسانی تعیین شود، توزیع فراوانی شرطی

بعد از تبدیل با توزیع فراوانی شرطی از نمره هاي آزمون (Y نمره ها از یک آزمون (مثلاً

یکسان است. (X دیگر (مثلاً

-3 جامعه ثابت 3: صرف نظر از اینکه نمونه یا گروه افراد چگونه استخراج شده اند تبدیل

نمرات یکسان است.

مانند انتقال نمره ها از Y به X -4 تقارن 4: تبدیل برگشت پذیر است انتقال نمره ها از فرم

است. در رابطه با ویژگی دوم گفته شده است که اگر برابري کامل بعد از X به فرم Y فرم

آزمون مشاهده شود، هر دو فرم آزمون بر Y و X همترازي یا تبدیل نمره هاي فرم هاي

.(1980 ، مبناي نظریه کلاسیک آزمون کاملاً موازي هستند (لرد

تعين نقطه ي برشي براي سنجش يك اختلال (تهيه ي پرسشنامه و تعيين نقطه برش)

دوستي قصد دارد نقطه ي برشي براي سنجش اختلالات صدا ویژه معلمان مقطع ابتدایی بسازد. براي انجام اين كار چه مسيري را لازم است طي نمايد؟

در مرحله ي روش و در قدم اول لازم است ابزار انجام اين كار را مشخص نمايند. يعني مشخص كنند كه سنجش اختلالات صدا از چه طريقي انجام خواهد شد. پاسخ ايشان تهيه ي پرسشنامه است و در ضمن قصد دارند ويژگي هاي روانسنجي آن را نيز بيابند. براي تهيه ي پرسشنامه لازم است كه ويژگي هاي پرسشنامه مشخص و تعيين شود يعني پرسشنامه بايد روايي و پايايي داشته باشد كه اين خود مبحث گسترده اي است. به منظور تعيين ويژگي هاي سوالات پرسشنامه بايد از نظريات اندازه گيري بهره برند. اين نظريات كه به تعيين ويژگيهاي سوال كمك مي كنند عبارتند از نظريه ي كلاسيك اندازه گيري و نظريه ي سوال پاسخ. بنابراين لازم است در گام اول اين نظريات شناخته شوند و نرم افزارهاي مربوطه فرا گرفته شود. لازم به ذكر است كه انجام كارهاي روانسنجي در تخصص دانشجويان و اساتيد آمار نمي باشد بلكه نياز به تخصص سنجش و اندازه گيري يا روانسنجي دارد كه اين موضوع براي دوستان علاقمند بعد از شروع به كار كاملا روشن مي شود.

بعد از تعيين ويژگي هاي روانسنجي و حدف اصلاح سوالات در نهايت سوالاتي باقي خواهند ماند كه بر اساس روش هاي علمي مي توان گفت پرسشنامه توانايي سنجش  اختلالات صدا را دارا است. بعد از اين مرحله لازم است نقطه ي برش تعيين شود. تعيين نقطه ي برش نيز مطالعات خاص خود را مي طلبد و از روش هايي مانند نمودارهاي راك تا روش هاي سوال پاسخ استفاده مي شود كه توصيه ي بنده استفاده از روش هاي سوال پاسخ است.

اندازه گیری چند رویه ای راش (Many-facet rasch measurement)

نویسنده: محمد حسین ضرغامی(zar100@gmail.com) 09122263167

اندازه گیری چند رویه ای راش (Many-facet rasch measurement) :

این مدل اندازه گیری به سنجش عملکردی بسیار کمک کرده است. البته این مدل یکی از مدلهای تلفیقی دو نظریه ی تعمیم پذیری و نظریه ی سوال پاسخ است که به آنها GIRM گفته می شود. نظریه ی تعمیم پذیری نظریه ی نمونه گیری است که به پژوهشگر کمک می کند تا منابع خطای خود را به قسمت های مختلف تقسیم نماید. این تقسیم منابع خطا می تواند به شفاف شدن بهتر واریانس مورد مطالعه کمک نماید. از طرفی نظریه ی راش به عنوان یکی از نظریه های اندازه گیری که خود یک نظریه ی مقیاس گذاری است امکان سنجش و اندازه گیری تکالیف را فراهم می آورد. در سنجش عملکردی به جای سوالات و گزاره ها که در پرسشنامه ها و آزمون های شناختی استفاده می شوند از اصطلاح تکلیف استفاده می شود. بنابراین با استفاده از مدل سوال پاسخ می توان به مقیاس بندی و پارامتری کردن تکالیف و دستیابی به درجه دشواری و شیب تکالیف و همچنین عملکرد افتراقی سوالات دست یافت. حوزه ی کاربرد مدل چند رویه ای راش یا مدل های جیرم بیشتر در آموزش و آزمون سازی زبان و همچنین سنجش و اندازه گیری فعالیت های حرکتی در تربیت بدنی و ورزش وهمچنین استاندارد سازی رفتار و عملکرد بر می گردد که می تواند برای دانشجویان و دانش پژوهان در حوزه های مختلف مدیریت مورد نیاز باشد. استفاده از این رویکرد به منظور کالیبره کردن مصاحبه ها و امتحانات شفاهی مانند امتحانات قرائت کاربرد زیادی پیدا کرده است. حوزه های زبان آموزی و آِزمون سازی زبان مجموعه ی گسترده و متنوعی از روش ها را در بر می گیرد که هدف آنها اندازه گیری مهارت زبانی فرد یا چند جنبه مختلف این مهارت است. زمانی که رتبه دهنده یا امتیاز دهنده به دانش آموزان یا شرکت کننده گان رتبه می دهند نظرات آنها می تواند به عنوان یک رویه در کنار توانایی دانش آموزان و شرکت کنندگان و درجه ی سختی تکلیف ایجاد واریانس نماید که می تواند وابسته به هدف پژوهش واریانس خطا و یا واریانس مورد پژوهش قلمداد شوند. به این رویکرد اسامی مختلفی داده اند مانند

Many-facet rasch model, multi-facet rasch model,many faceted conjoint measurement, multi faceted rasch modeling

نرم افزارهای مختلفی برای اندازه گیری و سنجش در این حوزه استفاده شده اند که یکی از آنها FACET است که توسط گروه طراح نرم افزار WINSTEP  ایجاد شده است.

اندازه گیری رویکرد اندازه گیری چند رویه ای راش یا مدل های دیگر GIRM دارای سه گام مهم زیر می باشند.

گام اول: شکل دهی به مفروضات بر پایه ی رویه های مورد پژوهش که به یک سنجش مشخص مربوط می شود.

 

گام دوم: مشخص کردن مدل های اندازه گیری که برای مطالعه ی هر یک از رویه ها باید استفاده شود. در این بخش بحث گزینش مدل اندازه گیری مطرح است و بسیار به روانسنجی و سنجش و اندازه گیری مربوط است وباید به مدل های مختلف و روش های ترکیبی نظریات مختلف اندازه گیری آشنابود.

گام سوم: بکار بردن مدل برای در نظر گرفتن اثر هر رویه به صورت بهترین روش ممکن

Item response theory

Generalozabiltiy theory

Rasch model

FACET

Language testing

Sport

Performance assessment

task

 

مروری بر پژوهشها: روی آوردهای نوین در دوران سنجی (قسمت سوم) مدلهای نظریه سؤال - پاسخ، مدلهای راش

عنوان مقاله: مروری بر پژوهشها: روی آوردهای نوین در دوران سنجی (قسمت سوم) مدلهای نظریه سؤال - پاسخ، مدلهای راش (4 صفحه)
نویسنده : عسگری، علی
چکیده :
کلمات کلیدی :
روانشناسنان ایرانی » شماره 13 (صفحه 80)

مروری بر پژوهشها روی‏آوردهای نوین در روان‏سنجی‏ قسمت سوم:مدلهای نظریه سؤال-پاسخ،مدلهای راش

New Approaches to Psychometrics part Three:Models of Item Response Theory,Rasch Models

علی عسگری

دانشجوی دکتری

دانشگاه تهران

Ali Asgari PhD Candidate Tehran University

در هفتاد سال گذشته نظریه‏پردازان متعددی تلاش کرده‏اند تا نشان دهند که چگونه می‏توان از اندازه‏ها و فراوانیهای‏ عینی،1،اندازه‏های انتزاعی‏2به دست آورد.یکی از عملی‏ترین و رایج‏ترین روی‏آوردهایی که برای این منظور به کار می‏رود، مدل راش‏3است.جورج راش،ریاضیدان دانمارکی،این روی‏آورد را در سال 3591 و به منظور تحلیل پاسخهای یک رشته‏ از آزمونهای خواندن به وجود آورد.با آنکه وی را پدر تحلیل راش می‏دانند،اما بنجامین رایت‏4را باید قیم قانونی آن‏ دانست.رایت و همکارانش در دانشگاه شیکاگو روشهای پیشرفته و ابزارهای تحلیل راش را توسعه،و کاربرد آن را در حوزه‏های مختلف عملی ارتقا بخشیدند(ماسوف و فیشر،2002).

مدلهای رایش در واقع روی‏آوردی ریاضی برای آزمون این فرضیه است که اندازه‏های مربوط به معنا5و واحد یک سازه‏ را می‏توان از ابزاری که برای آن خصیصه تهیه شده است به دست آورد.وقتی داده‏ها با این مدلها برازش پیدا می‏کنند به‏ معنای آن است که ابزار اندازه‏گیری و اندازه‏ها در یک واحد فاصله‏ای مشترک مقیاس‏بندی شده‏اند و می‏توانند در انواع یا شکلهای مختلف آن ابزار و نیز در بین نمونه‏های مختلف یک جامعه ثابت باقی بمانند(رایت و استون،9791).

مدلهای راش،در واقع نوعی آزمون همسانی درونی‏6در نظریه سؤال-پاسخ‏اند که برای داده‏های دوارزشی و چند ارزشی به کار می‏روند.در این مدلها نیز مانند مقیاسهای گاتمن‏7،فرض بر این است که همه سؤالها و مواد یک آزمون که‏ یک‏سازه را اندازه‏گیری می‏کنند،یک نوع رابطه مرتب شده‏8را تشکیل می‏دهند.یک آزمون ممکن است دارای همسانی‏ درونی مرتب‏شده‏ای باشد،حتی اگر مجموعه سؤالهای آن همبستگی بالایی باهم نداشته باشند(همسانی درونی‏ جمع‏پذیر9،مانند آنچه از طریق آلفای کرونباخ‏01یا تحلیل عاملی‏11آزمون می‏شود).همسانی درونی مرتب شده بیانگر وجود عامد دشواری است.بدین ترتیب،یک سؤال دشوار می‏تواند پاسخ به سؤالهای با دشواری کمتر را پیش‏بینی کند اما عکس آن امکان‏پذیر نیست(رایت،6991).

وقتی پژوهشگران برای رواسازی یک مجموعه از متغیرهای نشانگر در یک مقیاس از تحلیل عاملی استفاده می‏کنند، فرض را بر این قرار می‏دهند که با یک مدل خطی و جمع‏پذیر روبه‏رو هستند.خطی بودن بخشی از همبستگی و مبنایی‏ برای خوشه‏بندی‏21متغیرهای نشانگر در یک عامل است.در جمع‏پذیری نیز فرض بر این است فقط زمانی معنای همه‏ سؤالها دارای همسانی درونی است،که همبستگی بالایی با یکدیگر داشته باشند.باوجوداین،ممکن است که سؤالها فاقد همبستگی درونی بالا،اما دارای رابطه مرتب‏شده نیرومندی باشند(رایت،5891).به همین دلیل بسیاری از پژوهشگران‏ ترجیح می‏دهند برای ساخت و توسعه مقیاسها به جای مدلهای جمع‏پذیر مانند آلفای کرونباخ و تحلیل عاملی،از مدلهای‏ راش استفاده کنند.زیرا این مدلها نه تنها روابط جمع‏پذیر بین متغیرهای نشانگر،بلکه رابطه ترتیبی سؤالها(مانند ترتیب‏ (1). concrete

(2). abstract

(3). Rasch

(4). Wright,B.D.

(5). meaning

(6). internal consistency

(7). Guttmann

(8). ordered relationship

(9). additively

(01). cronbach

(11). factor analysis

(21). clustering

روانشناسنان ایرانی » شماره 13 (صفحه 81)

دشواری)را نیز به حساب می‏آورند(تنورگرت،گیلپسی و کینگما،3991).نظریه زیربنایی مدلهای راش در بسیاری جنبه‏ها شبیه به نظریه سؤال-پاسخ است.به بیان دیگر،مدل راش برای داده‏های دو ارزشی اغلب به عنوان مدل تک پارامتری‏ نظریه سؤال-پاسخ در نظر گرفته می‏شود.اما هواداران این مدل،آن را دارای ویژگی خاصی می‏دانند که از مدلهای‏ IRT متمایز است.به گونه اختصاصی،ویژگی معرف مدلهای راش صورتبندی انتزاعی‏1و ریاضی مقایسه نامتغیر است که‏ می‏تواند برای اندازه‏گیری موفقیت‏آمیز سازه‏ها یک ملاک معتبر فراهم کند(سادوس،گارمندی،کیوز و الیوت،4002).این‏ ویژگی انتزاعی،مدلهای رایش را از سایر مدلهایی که برای پاسخ به سؤالها یادمواد آزمون به کار می‏روند متمایز و آن را به‏ عنوان مدلهای ایده‏آل یا استاندارد مطرح می‏سازد.

بنابر نظر آندریش(4002)دیدگاه‏2یا پارادایم‏3مدلهای راش به گونه بارزی با سایر مدلهای اندازه‏گیری تفاوت دارد.در اغلب مدلها هدف اصلی توصیف مجموعه‏ای از داده‏هاست.به همین منظور پارامترها تعدیل می‏شوند و برپایه اینکه چگونه‏ با داده‏ها برازش می‏یابند،رد یا پذیرفته می‏شوند.اما هدف از به کار بردن مدل راش به دست آوردن داده‏هایی است که با مدل برازش داشته باشد.منطق زیربنایی این دیدگاه آن است که مدلهای راش مستلزم شرایطی هستند که برای‏ اندازه‏گیری باید برآورده شوند.درست همانگونه که عموما در اندازه‏گیریهای علم فیزیک وجود دارد.

برای درک این منطق زیربنایی بیان مثالی در اندازه‏گیری وزن می‏تواند مفید باشد.فرض کنید وزن شئ‏ A در یک‏ موقعیت به گونه قابل ملاحظه‏ای بیشتر از وزن شئ‏ B اندازه‏گیری شده است.سپس بلافاصله در یک موقعیت دیگر،این‏ وزن شئ‏ B است که بیشتر از وزن‏ A به دست می‏آید.در اینجا شرط اساسی اندازه‏گیری،یعنی یکسان و نامتغیر بودن‏ نتایج حاصل از مقایسه دو اندازه‏گیری،صرف‏نظر از سایر عوامل،برآورده نشده است.این شرط اساسی در ساختار انتزاعی‏ مدل راش است.بنابراین،مدلهای راش برای تناسب و برازش یافتن با داده‏ها،تغییر و تعدیل نمی‏شوند.بلکه روش‏ اندازه‏گیری باید تغییر یابد تا این شرط را برآورده سازد.درست همانگونه که در مثال بالا مقیاس وزن باید تغییر کند.زیرا بین دو شئ در دو اندازه‏گیری جداگانه نتایج متفاوتی به دست داده است.علاوه بر این،در پارادایم مدلهای رایش تأکید بر مطالعه و تعیین بی‏نظمی‏4در داده‏هاست که از طریق این مدل آشکار می‏شود(رایت،6991).

خانواده مدلهای راش

لاینرس(6002)مدلهای راش را در دو طبقه کلی دو ارزشی و چندارزشی به شرح زیر تقسیم‏بندی می‏کند:

مدل دو ارزشی:این مدل که در آن پاسخها به دو طبقه(بلی-خیر،درست-نادرست)تقسیم می‏شوند،شناخته‏شده‏ترین‏ و رایج‏ترین مدل راش و دارای تابع ساده منطقی است.برای داده‏های دو ارزشی جایگاه یک سؤال در یک مقیاس،متناظر یا جایگاه آزمودنی در نقطه‏ای است که احتمال موفقیت برابر با 0/5 است.به گونه کلی،احتمال پاسخ درست آزمودنی به‏ یک سؤال با درجه دشواری کمتر از جایگاه آزمودنی،بیشتر از 0/5 و احتمال پاسخ درست آزمودنی به یک سؤال با درجه‏ دشواری بالاتر از جایگاه آزمودنی،کمتر از 0/5 است.وقتی پاسخ فرد برپایه دشواری سؤال از کمترین تا بیشترین فهرست‏ شود،بیشترین شباهت را به الگوی گاتمن دارد.با این فرمول: Loge(Pnil/Pin0)-B n-D i

که در آن:

P ni -احتمال آنکه آزمودنی‏ n که با سؤال‏ i روبه‏رو می‏شود در طبقه‏ j -اندازه‏گیری می‏شود.

B n -توانایی فرد n

D ij -دشواری سؤال‏ i ،نقطه‏ای که در آن بالاترین و پایین‏ترین طبقه‏های سؤال احتمال برابر دارند.

F ij اندازه مدرج کردن طبقه‏ j-1 .نقطه‏ای که در آن طبقه‏های‏ j-1 و j نسبت به اندازه سؤال احتمال برابر دارند.

مدلهای چندارزشی:مدلهای چندارزشی راش نخستین بار توسط اندریش(8791،4002)و به منظور کاربرد مدل راش‏ (1). formal

(2). perspective

(3). Paradigm

(4). anomalies

روانشناسنان ایرانی » شماره 13 (صفحه 82)

برای داده‏های حاصل از مقیاس لیکرت ارائه شد.این مدلها در واقع تعمیم مدلهای دو ارزشی و نوعی مدل اندازه‏گیری‏ است که در زمینه‏هایی به کار می‏رود که هدف از آن اندازه‏گیری صفت با توانایی از طریق فرایندی است که در آن پاسخ‏ به سؤالها با اعداد صحیح متوالی نمره‏گذاری شود این مدل را می‏توان در مقیاسهای لیکرت،درجه‏بندی و نیز سؤالهای‏ مربوط به اندازه‏گیریهای ترتیبی که در آنها نمره‏های متوالی بالاتر بیانگر سطح فزاینده پیشرفت و توانمندی است به کار برد.

از سوی دیگر،مدلهای چندارزشی یک اندازه‏گیری احتمالی کلی و دارای این ویژگی متمایز است که برای کاربرد نمره‏های عددی متوالی یک بنیان نظری محکم فراهم آورده است.افزون بر این ویژگی،مدلهای چندارزشی امکان آزمون‏ جدی این فرضیه را فراهم می‏آورد که طبقه‏های پاسخ،معرف سطح افزایشی یک خصیصه یا صفت مکنون است.ازاین‏رو داده‏ها،مرتب شده به حساب می‏آیند.در این مدل،نمره یک سؤال معین در واقع فراوانی تعداد جایگاه آستانه‏1در صفت‏ مکنونی است که آزمودنی از آن بالاتر قرار دارد.جایگاه آستانه بر روی پیوستار مکنون معمولا از ماتریس سؤال-پاسخ و از طریق فرآیند برآورد بیشینه احتمال شرطی‏2استنباط می‏شود.

به گونه کلی،شاخص اصلی فرایند اندازه‏گیری در این مدل آن است که آزمودنیها در یک مجموعه طبقه‏های مرتب شده‏ مجاور3گروه‏بندی شوند.شکل‏بندی پاسخهایی که در یک زمینه آزمایشی معین به کار می‏روند،می‏تواند از طریق روشهای‏ مختلفی به این شاخص دست یابد.برای نمونه،ممکن است آزمودنی طبقه‏ای را انتخاب کند که به نظر وی به بهترین‏ صورت سطح حمایت وی را از سؤال یا عبارت نشان می‏دهد.افزون بر این،امکان دارد داوران آزمودنیها را برپایه‏ ملاکهایی که به خوبی تعریف شده‏اند در طبقه‏های مختلف قرار دهند،و سرانجام ممکن است آزمودنی یک محرک‏ فیزیکی را برپایه شباهتی که به مجموعه محرکهای مرجع دارد،طبقه‏بندی کند.وقتی پاسخها فقط در دو طبقه قرار داشته باشند،مدل چندارزشی راش به مدلی برای داده‏های دوارزشی تبدیل می‏شود.در این مدل خاص،دشواری سؤال و آستانه(منفرد)یکسان خواهد بود.انواع مدلهای چندارزشی به قرار زیرند:

1)مدل مقیاس درجه‏بندی‏4:این مدل زمانی به کار می‏رود که تعداد آستانه سؤالها یکسان و تفاوت بین جایگاه هر آستانه معین با میانگین جایگاه آستانه‏ها برابر یا بین همه سؤالها یکسان باشد.فرمول این مدل به قرار زیر است:

Log(Pn ij/Pn i(j-1)-B n-D i-F j 2)مدل امتیاز جزئی‏5:از این مدل اختصاصا در زمینه‏های آموزشی و تربیتی استفاده می‏شود(مسترز،2891).هرچند ساختار ریاضی این مدل با مدل مقیاس درجه‏بندی یکسان است،اما امکان محاسبه آستانه‏های مختلف را برای سؤالهای‏ مختلف فراهم می‏آورد.فرمول این مدل عبارت است از:

Log(Pn ij/Pni(j-1)-B n-D i-F ij-B n-D ij

3)مدل ساختار پاسخ گروه‏بندی شده‏6:این مدل با فرمول زیر وقتی به کار می‏رود که سؤالها براساس سهمی که در ساختار پاسخ دارند،یا به زیرمقیاسهای یک یا چند سؤال که در یک ساختار پاسخ سهیم هستند گروه‏بندی شوند.

Log(Pn ij/Pn i(j-1)-B n-D ig-F gj

به گونه کلی،مدلهای اندازه‏گیری راش به پژوهشگران امکان می‏دهد تا مشکلات زیربنایی اندازه‏گیریهای مدل کلاسیک‏ و مقیاسهای خودسنجی،خودارزیابی و خود درجه‏بندی را حل کنند.این مدلها نمونه کاملی از اندازه‏گیری جمع‏پذیر زوجیب‏ است که دو شرط لازم برای تبدیل خصیصه به کمیت،یعنی جمع‏پذیر بودن و ترتیب را برآورده می‏سازد.مدل راش‏ جمع‏پذیر است زیرا تفاوت بین سطح مشاهده شده و سطح مکنون،مستلزم اندازه‏گیری جمع‏پذیر دو متغیر مکنون متفاوت‏ یعنی متغیرهای آزمودنی و سؤال است.افزون بر این،مدل راش دارای ترتیب است زیرا برپایه آن می‏توان متغیرهای‏ آزمودنی و سؤال را در سطح مکنون و از طریق بالاتر یا پایین‏تر بودن نسبت به هم با یکدیگر مقایسه کرد(اکتون، (1). threshold location

(2). conditional maximum likelihood

(3). contiguous

(4). rating scale

(5). partial credit

(6). grouped response-structure

روانشناسنان ایرانی » شماره 13 (صفحه 83)

3002).برخی از مزایای کاربرد مدلهای اندازه‏گیری عبارتند:

1)از پاسخهایی که در قالب مقیاس طبقه‏ای مرتب یا ترتیبی ارائه شوند،می‏توان یک اندازه فاصله‏ای حقیقی تولید کرد(روایت و لایرنس،9891؛مربیتز،موریس و گریپ،9891).

2)مشخص می‏شود هر سؤال تا چه حد می‏تواند سازه موردنظر را اندازه‏گیری کند.به بیان دیگر،این مدل نشان‏ می‏دهد که آیا سؤالهای مقیاس،یک سازه زیربنایی یا یک بعد واحد را تشکیل می‏دهند.این فرایند در واقع تک‏بعدی‏ بودن مقیاس را آزمون می‏کند(رایت و استون،6991).

3)می‏توان نشان داد که هر سؤال چه جایگاهی در پویستار اندازه‏گیری دارد.تعیین ترتیب سؤالها در پیوستار اندازه‏گیری از اهمیت زیادی در ارزیابی روایی مقیاس برخوردار است.زیرا توزیع سؤالها در طول پیوستار باید معنادار باشد تا نشان دهد سازه موردنظر به خوبی اندازه‏گیری شده است.افزون بر این،شواهد مربوط به همسانی نسبی این توزیع در طول زمان یا در بین نمونه‏های مختلف،نشان می‏دهد که سازه مورد اندازه‏گیری پایایی دارد(اسمیت،1002).

4)می‏توان تعیین کرد که مقیاس تا چه اندازه توانسته است آزمودنیها را اندازه‏گیری کند.مدل راش افزون بر اینکه‏ نشان می‏دهد آیا مقیاس برای اندازه‏گیری آزمودنیها به گونه مناسب تهیه شده،مشخص می‏کند که آیا هر آزمودنی نیز به‏ گونه معتبری اندازه‏گیری شده است(آیا نمره افراد مطابق با الگوی مورد انتظار است).به بیان دیگر،روشهای راش نه تنها برای بررسی ویژگیهای آزمون مفیدند بلکه می‏توانند راهنمای مناسبی برای توسعه مقیاس نیز باشند.

منابع

(به تصویر صفحه مراجعه شود)

پایان مقاله

مروری بر پژوهشها: روی آوردهای نوین در روان سنجی (قسمت چهارم) مدلهای نظریه سؤال - پاسخ، مدلهای ارزشی

URL : http://www.noormags.com/view/fa/ArticlePage/324567

عنوان مقاله: مروری بر پژوهشها: روی آوردهای نوین در روان سنجی (قسمت چهارم) مدلهای نظریه سؤال - پاسخ، مدلهای ارزشی (4 صفحه)

نویسنده : عسگری، علی

چکیده :


کلمات کلیدی :


روانشناسنان ایرانی » شماره 14 (صفحه 199)

--------------------------------------------------------------------------------



مروری بر پژوهشها روی‏آوردهای نوین در روان‏سنجی‏ قسمت چهارم:مدلهای نظریه سؤال-پاسخ،مدلهای دو ارزشی

New Approaches to Psychometrics Part Four:Models of Item Response Theory,Dichotomous Models Ali Asgari,PhD University of Welfare and Rehabilitation 


برای بررسی داده‏های دو ارزشی مدلهای متعددی در IRT وجود دارد.اما انتخاب یک مدل باید برپایه ملاحظات نظری و تجربی،مانند برازش داده-مدل‏1صورت گیرد.هر مدل با استفاده از ارزش عددی یک یا چند پارامتر،خم ویژه بخصوصی‏ را معین می‏کند و از لحاظ انتقال اطلاعات درباره ویژگیهای فنی سؤالها ابزار مفیدی به شمار می‏آید(بیکر،2002/1831). به منظور محاسبه احتمال پاسخ درست در سطوح مختلف توانایی،هریک از مدلها از یک معادله ریاضی استفاده می‏کنند.


به گونه کلی،مدلهای‏ IRT را می‏توان به دو خانواده مدلهای تک‏بعدی‏2و چندبعدی‏3تقسیم کرد(تیسن و اورلاندو، 1002،رایت،2991).مدلهای تک‏بعدی مستلزم تنها یک بعد واحد از خصیصه(توانایی)است.درحالی‏که،در مدلهای‏ چندبعدی فرض بر آن است که داده‏ها از خصایص چند وجهی یا چندگانه به دست می آیند.باوجوداین،به دلیل‏ پیچیدگی فزاینده مدلهای چندبعدی،در بیشتر پژوهشها و کاربردهای‏ IRT از مدلهای تک‏بعدی استفاده می‏شود.


افزون بر این،مدلهای‏ IRT برپایه تعداد پاسخهای نمره‏گذاری شده نیز طبقه‏بندی می‏شود.یک سؤال چند گزینه‏ای‏ در واقع یک مدل دو ارزشی است حتی اگر دارای چهار یا پنج گزینه باشد.زیرا فقط به‏گونه درست/نادرست(صحیح/غلط) نمره‏گذاری می‏شود.طبقه دیگر مدلها،برای داده‏های چند ارزشی به کار می‏روند که در آن مقدار نمره هر پاسخ متفاوت‏ است.برای نمونه،چنانکه در قسمت قبل بیان شد،مدل چند ارزشی راش در واقع تعمیم این مدل به داده‏های مربوط به‏ دو یا چند طبقه مرتب شده است.مدلهای دو ارزشی‏ IRT را می‏تون برپایه تعداد پارامترهایی که در آنها به کار می‏رود نیز توصیف کرد.بدین ترتیب،در مدل سه پارامتری،هر سه پارامتر دشواری( b ،جایگاه سؤال)،قدرت تشخیص( a ،شیب‏ سؤال)و حدس( c ،مجانب‏5پایین خم ویژه)به کار می‏روند.درحالی‏که در مدل دو پارامتری فرض بر این است که داده‏ها کمینه حدس را دارند اما براساس جایگاه و قدرت تشخیص سؤال متغیرند،و سرانجام در مدل تک پارامتری مقدار حدس‏ و قدرت تشخیص سؤالها برابر فرض می‏شوند و تنها جایگاه سؤال برآورد می‏شود.افزون بر این،از لحاظ نظری یک مدل‏ چهار پارامتری نیز وجود دارد که پارامتر چهارم آن مجانب بالایی خم ویژه است.اما این مدل به‏ندرت به کار برده می‏شود (هامبلتون و سوامیناتان،1991؛تیسن و اورلاندو،1002).



مدل پارامتری

مدل منطقی تک پارامتری ساده‏ترین مدل‏ IRT است و همانگونه که از نام آن پیداست برای کاربرد نظریه سؤال-پاسخ‏ تنها برآورد یک پارامتر،یعنی درجه دشواری‏ (b) ،برای آن لازم است.برپایه این مدل،پارامتر قدرت تشخیص برای همه‏ سؤالها ثابت و برابر با 1/0 قرار داده می‏شود؛یعنی تنها پارامتر دشواری می‏تواند مقادیر مختلفی اختیار کند.معادله این‏ مدل به قرار زیر است: Pi(?)1+e-(?-bi)/1 


که در آن: p(?) احتمال پاسخ درست برای سطح معینی از توانایی، e برابر با 2/817، -(?-b) انحراف منطقی است. model-data fit .(1)


unidimensional .(2)


multidimensional .(3)


multiple .(4)


asymptote .(5)



روانشناسنان ایرانی » شماره 14 (صفحه 200)

--------------------------------------------------------------------------------


مروری بر پژوهشها


برای نمونه،برپایه فرمول بالا،احتمال پاسخ درست به سؤالی با درجه دشواری 1/0 برای فردی که در سطح توانایی‏ (?)-/3 قرار دارد،برابر با 0/20 خواهد بود.چون مقدار پارامتر تشخیص در معادله بالا که همواره برابر با 0/1 است، معمولا در فرمول نشان داده نمی‏شود.بنابر نظر هاروی و هامر(9991)،تک پارامتر،از لحاظ اجرایی،به نمره‏ای از توانایی‏ اطلاق می‏شود که با احتمال 05 درصدی پاسخ به یک سؤال انشایی سروکار دارد.چون مقدار پارامتر قدرت تشخیص در مدل راش برابر با مقدار ثابت 1/0 است،بیشینه مقدار تابع آگاهی حاصل از آن جایگاه محدودی دارد.به بیان دیگر، بیشینه مقدار تابع آگاهی سؤال برابر با 0/52 است.زیرا وقتی 0/5 P(?) باشد، P(?)q(?)0/25 خواهد بود.ازاین‏رو، بیشینه مقدار نظری آگاهی برای یک تست در مدل تک پارامتری برابر با حاصلضرب تعداد سؤالهای در عدد 0/52 خواهد بود.



مدل دو پارامتری

در این مدل،افزون بر جایگاه سؤال،قدرت تشخیص‏ (a) نیز برآورد می‏شود و برای خم ویژه سؤال‏ (ICC) این امکان‏ فراهم می‏آید تا برای سؤالهای مختلف،شیبهای مختلفی را به نمایش بگذارد.پارامتر تشخیص این حقیقت را آشکار می‏کند که برخی سؤالها رابطه نیرومندتر(یا ضعیف‏1تری)با سازه بنیادی مورد اندازه‏گیری(توانایی)دارند.بنابراین،مقادیر بالاتر در این پارامتر،نشان‏دهنده رابطه محکم‏تر و سختر است(تورنتون،2002).بنابر نظر هاروی و هامر(9991)قدرت‏ تشخیص از اهمیت زیادی در IRT برخوردار است.زیرا مقدار آگاهی حاصل از یک سؤال را به گونه مستقیم تعیین می‏کند. بدین ترتیب،سؤالهایی که قدرت تشخیص بیشتری دارند،در صورت برابر بودن سایر عوامل،آگاهی بیشتری درباره توانایی‏ (?) به دست می‏دهند.معادله تابع منطقی دو پارامتری به قرار زیر است: Pi(?j)1+exp]-Dai(?j-bi)[/1 


برای نمونه در ادامه مثال مربوط به مدل تک پارامتری،احتمال پاسخ درست برای سؤالی با همان درجه دشواری و قدرت تشخیص 0/5 برای فردی در سطح توانایی 0/3- (?) ،برابر با 0/21 است.در اینجا ملاحظه می‏شود که احتمال‏ پاسخ درست با احتساب قدرت تشخیص،افزایش یافته است.در مدل دو پارامتری،مانندمدل راش،دشواری سؤال‏ نقطه‏ای در مقیاس توانایی است که احتمال پاسخ درست برای افرادی که در آن سطح از توانایی هستند برابر یا 0/5 است. افزون بر این در این مدل(مانند مدل سه پارامتری)قبل از آنکه خم ویژه سؤال شیب پیدا کند،باید مقدار پارامتر تشخیص کاملا بزرگ،دست کم(1/7)باشد(بیکر،2002/1831).مقدار مثبت و بزرگ در مدل‏های راش و دو پارامتری‏ موجب می‏شود که دنباله پایین خم به صفر نزدیک گردد.



مدل پارامتری

یکی از رایج‏ترین مدلهایی که روان شناسان از آن استفاده می‏کنند مدل منطقی سه پارامتری است.این مدل در ابتدا برای‏ مدلسازی‏2داده‏های حاصل از توانایی شناختی به کار می‏رفت،اما به تازگی برای داده‏های شخصیتی نیز به کار می‏رود (امبرستون و رایس،0002).مدل سه پارامتری کلی‏تر از مدلهای تک و دو پارامتری است.گرچه مدل دو پارامتری با یکی‏ از حیاتی‏ترین ویژگیهای مدل راش،یعنی این اصل قطعی سروکار دارد که همه سؤالها از لحاظ قدرت تشخیص شبیه به‏ یکدیگرند،اما واقعیت مهم دیگری را که ممکن است در بین سؤالهای مختلف وجود داشته باشد نادیده می‏گیرد.واقعیت‏ مهمی که در اندازه‏گیریهای تستی وجود دارد این است که آزمودنیها می‏توانند پاسخ درست را از طریق حدس به دست‏ آورند.بنابراین،احتمال پاسخ درست،مؤلفه کوچکی را که ناشی از حدس است نیز دربرمی‏گیرد.هیچ یک از دو مدل خم‏ ویژه سؤال که بحث آن گذشت پدیده حدس را به حساب نمی‏آورند.


برن بام‏3(8691،نقل از بیکر،2002/1831)در مدل منطقی دو پارامتری تغییری ایجاد کرده است که برپایه آن


feeble .(1)


modeling .(2)


Birnbuam .(3)



روانشناسنان ایرانی » شماره 14 (صفحه 201)

--------------------------------------------------------------------------------


مروری بر پژوهشها


پارامتر دیگری را که بیانگر سهم حدس در احتمال پاسخ درست است نیز دربرمی‏گیرد.بنابراین،مدل سه پارامتری این‏ واقعیت را که مجانب پایین خم ویژه سؤال با احتساب حدس،ممکن است مستلزم پذیرش مقادیر غیر صفر1باشد،آشکار می‏کند(هاروی و هامر،9991).یکی از اثرات جانبی کاربرد پارامتر حدس،تغییر تعریف دشواری است.برپایه دو مدل پیشین،پارامتر b نقطه‏ای در مقیاس توانایی است که احتمال به دست آوردن پاسخ درست در آن برابر با 0/5 است. اما اکنون حد پایین خم ویژه سؤال نه عدد صفر بلکه مقدار C است.ازاین‏رو،می‏توان پارامتر C را به عنوان پایین‏ترین‏ سطح مقدار احتمال پاسخ درست تعریف کرد.بنابراین،پارامتر دشواری معرف نقطه‏ای در مقیاس توانایی است که احتمال‏ پاسخ درست آن دقیقا برابر با متوسط C و 0/1 است.


نمونه‏ای از خم ویژه و تابع آگاهی سؤال برپایه مدل سه پارامتری در شکل 1 نشان داده شده است.در این نمودار می‏توان به راحتی مشاهده کرد که چگونه پارامتری اول و دوم در متأثر از پارامتر سوم(حدس)هستند.سطح دشواری یا بتا برابر با 0/21 است.درحالی‏که پارامتر حدس برابر با 0/71 و قدرت تشخیص نیز در سطح 0/29 قرار دارد.ویژگیهای‏ این سؤال نشان می‏دهد که برای یک آزمون توانایی بسیار مناسب است.معادله تابع منطقی سه پارامتری به قرار زیر است:


(به تصویر صفحه مراجعه شود) شکل 1:نمودار خم ویژه و تابع آگاهی سؤال در مدل سه پارامتری


Pi(?j)ci+1+exp]-Dai(?j-bi)[/1-ci 


در ادامه مثالهای بالا،احتمال پاسخ درست برای سؤالی با همان مقادیر دشواری و قدرت تشخیص،که احتمال حدس‏ در آن برابر با 0/2 باشد برای فردی در سطح توانایی 0/3- (?) ،برابر با 0/592 خواهد بود.در اینجا نیز مشاهده‏ می‏شود که چگونه احتمال پاسخ درست با محاسبه پارامتر سوم(حدس)تغییر می‏کند.


در مورد کارکرد و مبانی مدل سه پارامتری بین صاحبنظران اختلاف‏نظر وجود دارد(موناهان،لی و بانکمن،7002؛ بیکر،1831/2002؛تورنتون،0002).به اعتقاد بیکر(1831/2002)تغییری که برن باوم در مدل دو پارامتری،به منظور گنجاندن عامل حدس ایجاد کرده،موجب شده است برخی از ویژگیهای خوب ریاضی تابع منطقی از دست برود و واقعیت‏ این است که مدل سه پارامتری از نظر فنی یک مدل منطقی(لوجستیک)به حساب نمی‏آید.افزون بر این در مدل سه‏ پارامتری به سبب وجود پارامتر حدس،خم ویژه تست در مقایسه با مدل دو پارامتری،با پارامترهای دشواری و قدرت تشخیص‏ یکسان،خطی‏تر و سطح کلی تابعش آگاهی آن پایین‏تر است.در شرایطی که مقادیر a و b در هر دو مدل یکسان باشد،تابع‏ آگاهی مدل دو پارامتری برابر با حد بالایی تابع آگاهی در مدل سه پارامتری خواهد بود.اما نتایج پژوهش هاسکنز و دی‏ بوئک(1002)کارکرد مدل سه پارامتری را به گونه دیگری نشان می‏دهد.به اعتقاد این پژوهشگران: برپایه مدل سه پارامتری چهار چوبی برای مدلسازی داده‏های مؤلفه‏ای‏2ارائه می‏شود که از مدلهای نظریه‏ سؤال-پاسخ برای سؤالهای چند ارزشی استفاده می‏کند.این چهار چوب دقتهای پاسخ‏3را نسبت به تکالیف‏ پیچیده شناختی،که براساس عناصر اساسی‏تر مانند ساختارهای دانش،فرایندهای شناختی و راهبردها تجزیه‏ می‏شود،مدلسازی می‏کند(ص 91). nonzero .(1)


componential data .(2)


response accuracies .(3)



روانشناسنان ایرانی » شماره 14 (صفحه 202)

--------------------------------------------------------------------------------


مروری بر پژوهشها



مدل چهار پارامتری

یکی دیگر از مدلهای کمتر شناخته شده‏ IRT ،مدل چهار پارامتری است.در این مدل افزون بر سه پارامتر a ، b و c ،پارامتر چهارم،یعنی مجانب بالای خم ویژه سؤال‏ (ū) نیز برآورد می‏شود.برپایه این مدل،احتمال عدم‏موفقیت حتی برای‏ تواناترین آزمودنیها در سؤالهای بسیار دشوار قابل ملاحظه و برآورد خواهد بود.با آنکه مدل چهارم پارامتری از لحاظ مفهومی بسیار جالب است،از لحاظ عملی مطالعات کمی در مورد آن انجام شده است.زیرا تعداد پارامترهایی که باید برای‏ آن برآورد شود بسیار زیاد است(سیجتسما و همکر،0002).در IRT مدلهای دیگری مانند مدل منطقی یک-پارامتری‏3 (OPLM) ،بتای دو جمله‏ای مرکب چهار پارامتری‏4 (4PBCB) توسعه یافته که شرح آنها در این مقاله کوتاه نمی‏گنجد. از خوانندگان علاقمند دعوت می‏شود تا برای مطالعه بیشتر به منابعی معتبر در این زمینه مانند موناهان،لی و بانکمن‏ (7002)،سیجتسما و همکر(0002)،لرد(0891)مراجعه کنند.


با آنکه مدلهای نظریه سؤال-پاسخ امکانات گسترده‏ای در اختیار تست‏سازان و روان شناسان قرار داده است،به اعتقاد برخی صاحبنظران(هاروی و هامر،9991؛تورنتون،2002)دانستن محدودیتهای آن از اهمیت زیادی برخوردار است. پژوهشگران باید همواره به یاد داشته باشند که هنگام اندازه‏گیری،در واقع در حال برازش یک مدل ریاضی با مفروضه‏ها و محدودیتهای معینی هستند و هیچ تضمینی هستند و هیچ ندارد که مدلهایی که برای یک راهبرد معین در IRT به کار می‏رود برازش کافی با داده‏ها داشته باشد.



منابع

بیکر،اف.بی.(1831).پایه‏های اساسی در تئوری سؤال پاسخ(نظریه‏های جدید روان‏سنجی).ترجمه حیدر علی هومن و علی عسگری،تهران،نشر پارسا (تاریخ انتشار اثر اصلی،2002).


Embretson,S.E. Reise,S.P.(2000).Item response theory for psychologists.Mahwah,NJ:Erlbaum. 


Hambleton.R.K.,Swaminathan,H., Rogers,H.J(1991).Fundamentals of item response theory.Newbury Park,CA:Sage Press. 


Harvey,R., Hammer,A.(1999).Item response theory.Counseling Psychologist,27,353-383. 


Hoskens,M., Deboeck,P.(2001).Multidimensional componential item response models for poly- tomous items.Applied Psychological Measurement,25,19-37. 


Lord,F.M.(1980).Applications of item response to practical testing problems.Hillsdale,NJ:Erlbaum 


Monahan,P.O.,Lee,W., Ankenmann,R.D.(2007).Generating Dichotomous Item Scores with the Four- Parameter Beta Compound Binomial Model.Journal of Educational Measurement,44,211-225. 


Sijtsma,k., Hemker,B.T.(2000).A taxonomy of IRT models for ordering persons.Journal of Educational and Behavioral Statistics,25,391-415. 


Thornton,A.(2002).Aprimer on 2-and3-parameter item response theory models.Paper presented in Annual Meeting of the College of Education,University of North Texas(2nd,Denton,TX,February 1). 


Thissen,D. Orlando,M.(2001).Item response theory scored in two categories.In D.Thissen Wainer,H.(Eds.),Test scoring(pp.73-140).Mahwah,NJ:Lawrence Erlbaum Associates,Inc. 


Wright,B.D.(1992).IRT in the 1990s:Which models work best?Rasch Measurement Transactions,6(1),196-200 


One-Parameter Logistic Model .(1)


Four Parameter Beta Compound Binomial .(2)



پایان مقاله


مقایسه مدل های اندازه گیری (کلاسیک و سؤال پاسخ) از لحاظ برآورد پارامترهای سؤال و توانایی

URL : http://www.noormags.com/view/Magazine/ViewPages.aspx?ArticleId=216353

عنوان مقاله: مقایسه مدل های اندازه گیری (کلاسیک و سؤال پاسخ) از لحاظ برآورد پارامترهای سؤال و توانایی (16 صفحه)

نویسنده : فراهانی، مهدی

چکیده :


کلمات کلیدی :


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 83)

--------------------------------------------------------------------------------



مقایسهء مدل‏های اندازه‏گیری(کلاسیک و سؤال-پاسخ)از لحاظ برآورد پارامترهای‏ سؤال و توانایی

معرفی مقاله


نوشتهء مهدی فراهانی


نظریه‏های اندازه‏گیری از یک بعد به دو دستهء اساسی تقسیم‏ می‏شود:نظریهء کلاسیک و نظریه‏های جدید اندازه‏گیری (IRT) 1. این پژوهش از طریق داده‏های حاصل از اجرای سه آزمون‏ ریاضیات،فیزیک و درس فنی که در مورد 430 نفر از داوطلبان‏ کنکور داخلی وزارت نیرو اجرا شده بود،به‏مقایسهء نظریات‏ کلاسیک و جدید از لحاظ برآورد پارامترهای سؤال و توانایی‏ پرداخته است.


تحلیل‏های کلاسیک داده‏ها از طریق برنامهء SPSS و برآورد پارامترهای سؤال و توانایی برحسب مدل‏های جدید اندازه‏گیری از طریق نرم‏افزار رایانه‏ای BILOG در کالیفرنیای آمریکا انجام‏ گرفته است.مقایسهء مدل‏های مختلف اندازه‏گیری از نظر برآوردهای‏ متفاوت یا مشابه پارامترهای سؤال به‏وسیلهء تابع آگاهی و آزمون t وابسته،به آزمون و ارزیابی گذاشته شد.نتایج نشان داد که مدل‏ کلاسیک و مدل‏های IRT برآوردهای متفاوتی برای پارامترهای‏ سؤال به‏دست می‏دهند و برآورد پارامترهای سؤال برپایهء مدل‏های


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 84)

--------------------------------------------------------------------------------


IRT ،به‏ویژه مدل سه پارامتری،دقیق‏تر از برآورد پارامترهای سؤال‏ براساس مدل کلاسیک و مدل‏های ساده‏تر IRT است.مقایسهء مدل‏ها از نظر برآورد متفاوت پارامتر توانایی آزمودنی‏ها به‏وسیلهء آزمون کای اسکوئر آزموده شد.نتایج این مرحله نیز تفاوت مدل‏ها را در برآورد پارامتر توانایی آشکار ساخت و نشان داد که مدل سه‏ پارامتری نسبت به مدل کلاسیک و حتی مدل‏های یک و دو پارامتری IRT برآوردهای متفاوت‏تر و دقیق‏تری ارائه می‏دهد.


این مقاله خلاصه‏ای است از پایان‏نامهء تحصیلی دورهء کارشناسی ارشد آقای مهدی فراهانی،کارشناس آموزش وزارت نیرو که با راهنمایی آقای دکتر محمد کاظم سلیمی‏زاده،عضو هیأت علمی‏ دانشگاه علامه طباطبایی تهیه‏شده و در اختیار فصلنامه قرار گرفته‏ است.بدین وسیله از ایشان سپاس‏گزاری می‏شود.


«فصلنامه»



تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 85)

--------------------------------------------------------------------------------


مقدمه

مدل یا نظریه،رکن اساسی هر رشتهء علمی محسوب می‏شود.دراندازه‏گیری و روان‏سنجی نیز نظریه‏ها و مدل‏هایی وجود دارد که از لحاظ تاریخی و سیر روند تکاملی،به‏ دو دستهء کلاسیک(نظریهء ضعیف نمرهء حقیقی)و سؤال-پاسخ(به اختصار IRT )تقسیم‏ می‏شوند(1).


مبانی مدل کلاسیک اندازه‏گیری را در اوایل قرن حاضر،اسپیرمن معرفی و پایه‏ریزی‏ کرد(2).این مدل سپس در دو کتاب گالیکسن و لرد و ناویک به اوج توسعه و بسط خود رسید(3 و 4)اما هم‏زمان با بسط این مدل،ضعف‏های جدی آن بیش‏تر آشکار شد و روان‏سنجان و متخصصان آزمون‏سازی را بیش از پیش به‏سمت مدل‏های جدید سوق داد (5).از نیمهء دوم قرن بیستم به‏تدریج زمینهء ارائهء نظریات جدید مطرح شد و کسانی مانند لرد (6)،راش(به‏نقل از رایت،1977)(7)،برن‏بام(8)،رایت و همبلتون(9)در این مسیر گام‏های مؤثری برداشتند.


هم‏اینک فعالیت‏های آزمون‏سازی و اندازه‏گیری در زمینه‏های مختلف-از پیشرفت‏ تحصیلی گرفته تا سنجش نگرش‏ها و...-در آمریکا و اروپا و براساس مدل‏های جدید (IRT) بررسی و ساخته می‏شود و مدل کلاسیک اعتبار بیش‏تر برای بحث در مورد تاریخچهء نهضت آزمون‏سازی یا برآورد پارامترهای نظریات جدید به‏عنوان برآورد اوّلیه‏ و مقدماتی مورد استفاده قرار می‏گیرد.معلمان هرچند در محدودهء کلاس درس به‏ظاهر کم‏تر می‏توانند از مدل‏های اندازه‏گیری بهره ببرند اما اطلاع از مبانی نظری طراحی،اجرا و تجزیه و تحلیل آزمون‏های پیشرفت تحصیلی و یافته‏های جدید،بینش و بصیرت بهتری در مورد یکی از وظایف مهم معلمان-یعنی سنجش محصلان-در اختیار آن‏ها قرار می‏دهد.



مطالعهء منابع مربوط به موضوع پژوهش

در بعضی از مطالعات قبلی،محققان به‏مقایسهء مدل‏ها از نظر دقت برآورد پارامترهای‏ سؤال و توانایی پرداخته و برخی دیگر،تأثیر حجم نمونهء آزمودنی و سؤال یا نقض‏ مفروضات را در برآورد پارامترها بررسی کرده‏اند.با توجه به محدودیت مقالهء حاضر، به‏طور عمده نتایج دستهء اوّل(مقایسهء مدل‏ها در برآورد پارامترها)ارائه می‏شود.


یکی از نتایج مطالعات مربوط به‏مقایسهء دقت برآورد پارامترها در مدل‏های‏ اندازه‏گیری حاکی از آن است که مدل منطقی سه پارامتری نسبت به مدل‏های یک و دو پارامتری با آزمون‏های 20 سؤالی در برآورد جایگاه افراد در صفت مکنون و رتبه‏بندی‏ آزمودنی‏ها براساس صفت مورد سنجش دارای قدرت بیش‏تری است.نکتهء دیگر آن‏که


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 86)

--------------------------------------------------------------------------------


پژوهشگران با تقسیم آزمودنی‏ها به دو گروه بالا و پایین(0 تا 5/2-- ?L و 5/2 تا 0- ?u ) و مقایسهء دقت برآورد جایگاه حقیقی افراد برحسب مدل‏های IRT ،نشان دادند که افزایش‏ دقت و قابلیت پیش‏بینی توانایی افراد توسط مدل سه پارامتری نسبت به سایر مدل‏ها،در گروه‏های باتوانش پایین بیش‏تر از گروه‏های باتوانش بالاست؛زیرا امکان استفاده از حدس‏ و شانس کاذب در گروه‏های با توانایی کم بیش‏تر است و تنها مدل سه پارامتری در برآورد پارامترها به‏عامل Ci (مجانب پایین ICC )توجه می‏کند.مقایسهء مدل‏های یک و دو پارامتری(بررسی تأثیر پارامتر قدرت تشخیص سؤال در برآورد توانایی افراد)تمایز و تفاوت جدی نشان نداد(10).


راید برای تحلیل داده‏های چهار خرده آزمون مورد استفاده-شامل محاسبات عددی، تجسم فضای سه‏بعدی،خزانهء لغات و استدلال ریاضی-از نرم‏افزارهای BILOG و TESTFACT بهره گرفت و براساس یک نمونهء 406 نفره از آزمودنی‏ها و با حذف‏ سؤال‏هایی که کم‏تر از 75 درصد آزمودنی‏ها به آن‏ها پاسخ داده بودند،نتیجه گرفت که هر چهار خرده‏آزمون از لحاظ سطح دشواری سؤال‏ها و قدرت تشخیص افراد در سطوح‏ مختلف توانایی،تفاوت داشته است.بنابراین،مدل‏های یک و دو پارامتری از لحاظ برآورد پارامترها تفاوت معنی‏دار نشان داده‏اند(11).


هومن در تحقیقی با استفاده از آزمون تهران-استنفرد-بینه (TSB) (12)به بررسی و مقایسهء برآورد پارامترهای دشواری و توانایی پرداخت و درواقع،توانمندی مدل راش را در برآورد پارامترها در شرایط نقض مفروضات بررسی کرد.نتیجهء کلی تحقیق مذکور آن‏ است که مدل راش برای برآورد پارامتر دشواری سؤال‏ها وقتی ai سؤال‏ها تفاوت دارد، مناسب نیست اما برای برآورد توانایی افراد مناسب و خوب است(13).


در مورد مدل دوپارامتری و تفاوت برآورد توانایی برپایهء آن و مدل کلاسیک، انصارین به پژوهش دست زد.او با استفاده از داده‏های حاصل از اجرای آزمون هوش‏ تهران-استنفرد-بینه (TSB) به برآورد منحنی ویژهء سؤال‏ها،پارامترهای دشواری و قدرت تشخیص سؤال‏ها و توانایی آزمودنی‏ها اقدام کرد.نتیجه آن‏که نمرات خام یکسان‏ دارای برآورد یکسانی از توانایی و موقعیت آزمودنی بر روی پیوستار مکنون نبودند(14 و 15).


دیوجی طی یک بررسی،کاربرد مدل یک پارامتری راش را برای سؤال‏های چند گزینه‏ای مورد بررسی قرار داده است اما به‏رغم استفاده از مدل راش برای برآورد پارامترها در سؤال‏های چند گزینه‏ای،به‏عقیدهء دیوجی به‏علت نبود پارامتر حدس و قدرت‏ تشخیص یکسان در مدل راش،این کاربردها درست نیست(16).البته علاوه بر دیوجی،


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 87)

--------------------------------------------------------------------------------


محققان دیگری هم به نامناسب بودن استفاده از مدل راش برای سؤال‏های چند گزینه‏ای‏ اشاره کرده‏اند؛از جمله،آندرسن عدم برازش مدل را به نابرابری قدرت تشخیص نسبت‏ داده است.همبلتون و تراب نشان داده‏اند که مدل دوپارامتری،توزیع نمرات را بهتر از مدل راش پیش‏بینی می‏کند(9).


همبلتون و موری از طریق نمودار باقی‏مانده برای آزمون‏های ریاضی،برازش مدل سه‏ پارامتری و عدم برازش مدل تک‏پارامتری را برای داده‏ها مطرح کرده‏اند(16).


یکی از موضوع‏ها و نکات مهم در مورد مدل‏های IRT ،حجم نمونهء آزمودنی‏ها و سؤال‏ است.این دو عامل،به‏ویژه در مدل سه‏پارامتری،می‏تواند بر برآورد پارامترهای سؤال و توانایی تأثیرات جدی داشته باشد.همبلتون و کوک در یک مطالعه با انتخاب آزمون‏هایی‏ با سه طول 10،20 و 80 سؤالی و نمونه‏هایی با حجم 50،200 و 1000 آزمودنی به‏ بررسی اثرات حجم نمونهء آزمودنی و ویژگی‏های خزانهء سؤال و تعداد سؤال بر خطای‏ استاندارد برآورد توانایی اقدام کردند.طول آزمون 10 سؤالی حد اقل طول ممکن برای‏ یک آزمون و آزمون 80 سؤالی نیز از طول‏های متداول تست است.در مورد حجم نمونهء آزمودنی 50 و 1000 نفر نیز به‏همین‏گونه استدلال کرده‏اند.سؤال‏ها از دو خزانهء سؤال‏ استخراج شدند.در عمل،سؤال‏های خزانهء 1 دارای دامنهء عریض‏تری برای پارامترهای‏ دشواری و قدرت تشخیص سؤال بودند.پارامتر حدس هردو خزانهء سؤال 25/0 در نظر گرفته شد.جمع‏بندی نتایج این مطالعه به‏صورت زیر است:


1.حجم نمونهء پاسخ‏گویان و طول آزمون،دو عامل بسیار مهم در دقت منحنی‏های SE(?) است.موارد نقض و استثنای این امر به نوسانات نمونه‏گیری مربوط می‏شود.


2.در کرانه‏های پیوستار توانایی،دقت منحنی‏های SE(?) حتی با وجود نمونه‏های‏ بزرگ آزمودنی،بسیار پایین است.


3.در اکثر موارد با نمونه‏های 200 آزمودنی و 20 سؤال،دقت برآورد خطای‏ استاندارد توانایی قابل قبول خواهد بود.البته این نکته بیش‏تر در دامنهء وسط توانایی‏ [1+،1-]صادق است.


4.افزایش طول تست از 10 به 20 سؤال بیش از افزایش آن از 20 به 80 سؤال،دقت‏ SE را بهبود می‏بخشد.


5.در مورد حجم نمونه نیز افزایش افراد از 50 به 200،بیش از 200 به 1000 نفر دقت‏ برآورد SE را ارتقا می‏دهد(17).


لرد طی یک مطالعه و ضمن مقایسهء مدل‏های یک و دوپارامتری IRT در برآورد نمرهء حقیقی آزمودنی‏ها،تلاش کرده است تأثیر حجم نمونه را بررسی کند.داده‏های مطالعه


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 88)

--------------------------------------------------------------------------------


شامل پاسخ 3000 دانش‏آموز کلاس ششم به آزمون خزانهء لغات متروپولیتن با برنامه‏ LOGIST تجزیه و تحلیل شده است.نتایج مطالعه نشان داد وقتی حجم نمونه کوچک‏ باشد،پارامتر قدرت تشخیص (ai) سؤال‏ها و پارامتر مجانب یا حدس سؤال‏ها (ci) را نمی‏توان به‏دقت تعیین کرد.ازاین‏رو،در بعضی موقعیت‏های معین و محدود و با حجم‏ نمونهء کوچک‏تر از 100 یا 200 آزمودنی،برآوردکنندهء نمره حقیقی X آزمودنی در مدل‏ راش(یک‏پارامتری)می‏تواند اندکی بهتر از برآوردکنندهء نمرهء حقیقی برپایهء مدل دو پارامتری باشد(6).



بیان اهداف و فرضیه‏های پژوهش

هدف اصلی پژوهش حاضر مقایسهء مدل‏های اندازه‏گیری(کلاسیک و سؤال-پاسخ)از لحاظ برآوردهای متفاوت یا مشابهی است که برای پارامترهای سؤال‏های آزمون و توانایی‏ آزمودنی‏ها به‏دست می‏دهند.


فرضیه‏های این پژوهش که آزمون آن‏ها مورد توجه است،عبارت‏اند از:


1.کاربرد مدل‏های سؤال-پاسخ(با تعداد پارامتر مناسب)برای برآورد دقیق‏ مشخصات سؤال بر مدل کلاسیک برتری دارد.


2.برآورد توانایی آزمودنی‏ها با استفاده از مدل‏های IRT (با تعداد پارامتر مناسب)از برآورد توانایی افراد برپایهء مدل کلاسیک دقیق‏تر است.


3.در صورت وجود عامل حدس در پاسخ دادن به سؤال‏ها،افزودن پارامتر حدس (Ci) به مدل IRT ،مدل برازنده‏تری برای داده‏ها ایجاد می‏کند.



روش اجرای پژوهش


الف.آزمودنی‏ها

جامعهء این پژوهش را همهء داوطلبان آزمون ورودی دوره‏های داخلی وزارت نیرو تشکیل می‏دهد و نمونهء تحقیق تعداد 553 نفر از داوطلبانی هستند که در آزمون داخلی‏ گزینش دانشجو(مورخ 6/3/1373)در رشتهء قدرت(مقطع کاردانی)شرکت کرده‏اند. برای نمونه‏برداری همهء شرکت‏کنندگان انتخاب شدند.در واقع،شرکت‏کنندگان در آزمون‏ مذکور نمونه‏ای از همهء داوطلبان فرض شده‏اند.حجم نمونهء اوّلیه 553 نفر بود اما تعدادی از پاسخ‏نامه‏ها به‏علت مخدوش و غیرقابل استفاده بودن از نمونه حذف شد و حجم نمونهء نهایی به 430 نفر کاهش یافت.



تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 89)

--------------------------------------------------------------------------------



ب.روش‏های آماری

برای تجزیه و تحلیل داده‏ها ابتدا در ایران مشخصه‏های کلاسیک سؤال‏ها و آزمون‏ها محاسبه شد.سپس داده‏ها که شامل پاسخ‏های 430 آزمودنی به سؤال‏های چهار گزینه‏ای سه‏ خرده‏آزمون 20 سؤالی بود،از طریق نظام شبکهء جهانی اطلاعات (Internet به یکی از دانشگاه‏های آمریکا(دانشگاه UCLA )ارسال گردید.پس از تحلیل داده‏ها با نرم‏افزار بای‏لوگ،خروجی کامپیوتر شامل برآورد پارامترهای سؤال و توانایی افراد،به ایران‏ فرستاده شد.13خلاصهء اطلاعات در مورد خرده‏آزمون ریاضیات به‏همراه نمودارهای‏ دشواری و قدرت تشخیص سؤال‏ها در پایان مقاله ارائه شده است(نمودار شمارهء 1 و 2 و جدول شمارهء 4).


برای تعیین برتری مدل‏های سؤال-پاسخ بر مدل کلاسیک در برآورد دقیق مشخصات‏ سؤال(فرضیهء 1 پژوهش)از یک ابزار نیرومند نظریات جدید اندازه‏گیری به نام تابع‏ آگاهی‏14استفاده شد.تابع آگاهی نظامی است که ورودی آن پارامترهای سؤال و خروجی‏ آن میزان آگاهی‏دهندگی آزمون می‏باشد.متفاوت بودن تابع آگاهی یک آزمون برحسب‏ مدل‏های اندازه‏گیری،بیانگر تفاوت مدل‏ها از برآوردهایی است که برای پارامترهای‏ سؤال‏های آزمون مذکور محاسبه شده است.برای بررسی معناداری تفاوت تابع آگاهی‏ آزمون‏ها به‏علت وابسته بودن داده‏ها،از آزمون t برای داده‏های وابسته استفاده شد و تابع‏ آگاهی هر آزمون که براساس مدل‏های یک و دوپارامتری و کلاسیک برآورد شده بود،با تابع آگاهی همان آزمون در مدل سه‏پارامتری مقایسه گردید.معناداری تفاوت این توابع‏ آگاهی با t آزمون شد.


به‏منظور آزمون فرضیهء دوم-تفاوت یا عدم تفاوت مدل‏ها در برآورد توانایی و سطح‏ صفت مکنون آزمودنی‏ها-از آزمون مجذور کای از نوع نیکویی برازش استفاده شد تا مدل‏های یک و دوپارامتری و کلاسیک را در مقایسه با مدل سه‏پارامتری آزمون کند. برای این منظور،ابتدا نمرات به مقیاس استاندارد یا Z برده شدند و سپس به 12 طبقه از [5/2-،3-]تا[3،5/2]تقسیم گردیدند.آن‏گاه فراوانی طبقات براساس آزمون نیکویی‏ برازش با درجات آزادی‏1- k - df مقایسه و در دو سطح معناداری 05/0 و 01/0 بررسی‏ شد.


برای بررسی و تعیین برازش یا عدم برازش هریک از مدل‏های IRT با داده‏ها،یعنی به‏ منظور آزمون فرضیهء 3 پژوهش مبنی بر برازندگی بیش‏تر مدل سه‏پارامتری نسبت به سایر مدل‏های IRT ،نرم‏افزار BILOG از نوعی آزمون مجذور کای استفاده می‏کند.فرض صفر آزمون نیکویی برازش مدل-داده‏ها بر تناسب و برازش مدل با داده‏ها تأکید می‏ورزد و در


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 90)

--------------------------------------------------------------------------------


واقع،تفاوت مدل با داده‏ها را انکار می‏کند و فرض خلاف عدم برازش را بیان می‏دارد.در عمل،سطح احتمال مجذور کای محاسبه‏شدهء هر سؤال با 01/0 و 05/0 مقایسه می‏شود. در صورت بزرگ‏تر بودن سطح احتمال هر سؤال از 01/0 یا 05/0،نتیجه گرفته می‏شود که سؤال با مدل دارای برازش نسبی(05/0> ? >01/0)یا برازش کامل(05/0< ? ) است.



پ.ابزار گردآوری داده‏ها

ابزار مورد استفاده برای گردآوری داده‏های پژوهش شامل سه آزمون بیست سؤالی‏ ریاضیات،فیزیک و درس فنی به‏صورت چهار گزینه‏ای بوده است.درس‏های مذکور جزء مواد امتحانی اصلی و مشترک آزمون‏های گزینش دانشجو در وزارت نیرو به‏شمار می‏روند.سایر مواد امتحانی تعداد آزمودنی کمی دارد.این آزمون‏ها به‏وسیلهء متخصصان‏ حیطه‏های مزبور که معمولا جزء کارشناسان وزارت نیرو هستند،طراحی و تهیه می‏شود.در مورد نحوهء اجرای ابزار تا حد قابل قبولی می‏توان شرایط استاندارد و اصولی را برای آن‏ها در نظر گرفت.از جمله در ابتدای دفترچهء آزمون دربارهء شیوهء پاسخ‏گویی به‏ سؤال‏ها،مدت زمان اجرا،وجود نمرهء منفی در آزمون،تعداد سؤال‏های هر خرده‏آزمون و ...توضیحاتی ذکر شده است.



یافته‏های پژوهش

برای آزمون فرضیهء 1،مقایسهء مدل سه‏پارامتری و مدل کلاسیک از نظر برآوردهایی‏ که برای پارامترهای سؤال‏ها به‏دست می‏دهند،از تابع آگاهی خرده‏آزمون‏ها بهره گرفته شد. تفاوت توابع آگاهی هر آزمون که حاصل مدل‏های مختلف بود،محاسبه و با آزمون t برای‏ داده‏های وابسته آزمون شد.نتایج نشان داد که نه تنها بین تابع آگاهی هر آزمون براساس‏ مدل کلاسیک تفاوت قابل توجهی دیده می‏شود و این تفاوت حتی در سطح‏ 01/0> ? و با بیش از 99 درصد اطمینان معنادار است بلکه توابع آگاهی مدل‏های دو پارامتری و یک‏پارامتری نیز برای آزمون از تابع آگاهی هر خرده‏آزمون براساس مدل‏ کلاسیک در همین سطح تفاوت معناداری دارد.در واقع،با درجهء آزادی 32 و مقدار t مبین 45/2 تنها توابع آگاهی آزمون‏ها بین مدل‏های یک و دوپارامتری معنادار نبود و سایر مقادیر همه تفاوت معناداری داشتند.بنابراین،می‏توان گفت علاوه بر مدل سه‏ پارامتری IRT ،حتی مدل‏های دو و یک‏پارامتری نیز پارامترهای سؤال‏ها را دقیق‏تر و مناسب‏تر از مدل کلاسیک برآورد می‏کنند و فرضیهء صفر رد و فرضیهء اوّل پژوهش با بیش‏ از 99 درصد اطمینان تأیید می‏شود(جدول شمارهء 1).



تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 91)

--------------------------------------------------------------------------------


جدول شمارهء 1-محاسبهء آزمون t گروه‏های وابسته برای تفاوت بین توابع آگاهی آزمون‏ها برحسب مدل‏های مختلف


(به تصویر صفحه مراجعه شود) 45/2-01/0 t(cr) 69/1-05/0 t(cr) 32- df 33- n 


فرضیهء 2 مدعی است که مدل سه‏پارامتری نظریهء سؤال-پاسخ توانایی افراد را نسبت به‏ مدل کلاسیک اندازه‏گیری به‏گونه‏ای متفاوت و دقیق‏تر برآورد می‏کند.به این ترتیب،باید برای آزمون این فرضیه،تفاوت مدل سه‏پارامتری از مدل کلاسیک در برآورد توانایی‏ بررسی شود.به این منظور،آزمون مجذور کای بین مدل سه‏پارامتری و مدل کلاسیک‏ (البته مدل‏های دو و یک‏پارامتری نیز)اجرا شد تا تفاوت فراوانی‏های افراد در طبقات‏ مختلف آزمون شود.نتایج نشان داد که نه تنها توانایی برآوردشده برای افراد براساس مدل‏ سه‏پارامتری از مدل کلاسیک متفاوت است بلکه حتی مدل‏های دو و یک‏پارامتری نیز در برآورد پارامتر توانایی آزمودنی‏ها با مدل سه‏پارامتری تفاوت و تمایز دارد.این امر در سطح 01/0> ? هم معنی‏دار بود.از سوی دیگر،از آن‏جا که مدل سه‏پارامتری از لحاظ تعداد پارامتر مناسب‏ترین مدل برای داده‏های حاضر محسوب می‏شود و طبق نتایج آزمون‏ خوبی برازندگی،برازش و مناسبت کاملا آشکاری با داده‏های پژوهش دارد،توانایی‏ برآوردشده برای افراد را که از مدل سه‏پارامتری به‏دست آمده است،می‏توان دقیق‏تر و مناسب‏تر از توانایی حاصل از سایر مدل‏های اندازه‏گیری تلقی کرد.بنابراین،فرضیهء صفر رد و فرضیهء دوم پژوهش حاضر نیز با بیش از 99 درصد اطمینان تأیید می‏شود(جدول‏ شمارهء 2).



تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 92)

--------------------------------------------------------------------------------


جدول شمارهء 2-برازندگی مدل-داده‏ها برحسب مدل‏های IRT (تعداد سؤال‏ها)


(به تصویر صفحه مراجعه شود) 8<؟ df ؟>2 9<؟ df ؟>2 9<؟ df ؟>3


جدول شمارهء 3-مجذور کای محاسبه‏شده بین پارامتر توانایی مدل سه‏پارامتری‏ و مدل‏های دو و یک‏پارامتری و کلاسیک


(به تصویر صفحه مراجعه شود) 725/24-01/0 X2(cr) 675/19-05/0 X2(cr) 11- df 


برای آزمون فرضیهء 3 پژوهش از نوعی آزمون خوبی برازندگی استفاده شد و برازش‏ سؤال‏های آزمون با مدل‏های یک،دو و سه‏پارامتری بررسی گردید.براساس نتایج به‏دست‏ آمده،مدل سه‏پارامتری برازش چشم‏گیری با داده‏ها داشت؛درحالی‏که نه تنها مدل دو پارامتری بلکه مدل یک‏پارامتری نیز بدون برازش شناخته شد.بنابراین،فرضیهء سوم‏ پژوهش نیز با بیش از 99 درصد اطمینان و در سطح 01/0> ? معنادار شناخته شد و فرض‏ صفر رد و فرض پژوهش(خلاف)تأیید گردید.بدین ترتیب مدل سه‏پارامتری،برای‏ داده‏های آزمون‏های مورد استفاده در این پژوهش نسبت به سایر مدل‏های IRT برازنده‏تر و مناسب‏تر شناخته شد(جدول شمارهء 3).



تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 93)

--------------------------------------------------------------------------------



نتیجه‏گیری

مطابق نتایج تحقیقات و مطالعات قبلی در زمینهء نظریه‏های جدید اندازه‏گیری، IRT و مقایسهء آن با نظریهء کلاسیک آزمون،این مطالعه نیز نشان داد که در سطح بالایی از اطمینان‏ می‏توان گفت:


1.مدل‏های IRT نسبت به‏مدل کلاسیک اندازه‏گیری در برآورد پارامترهای سؤال‏ها و توانایی آزمودنی‏ها دارای مناسبت،دقت و برازندگی بیش‏تری است.این نتیجه در مورد آزمون‏های پیشرفت تحصیلی چهار گزینه‏ای که مبنای مطالعهء حاضر بوده است،با بیش از 99 درصد اطمینان صدق می‏کند.


2.در بین مدل‏های نظریهء سؤال-پاسخ (IRT) برای برآورد پارامترهای سؤال و توانایی‏ افراد،مدل سه‏پارامتری در مورد آزمون‏های پیشرفت تحصیلی چند گزینه‏ای این پژوهش، نسبت به مدل‏های یک و دوپارامتری برتری خاصی نشان داد.


3.در بین مدل‏های یک و دوپارامتری IRT از لحاظ برآورد پارامترهای سؤال‏ براساس داده‏های خرده‏آزمون‏های حاضر،تفاوت چشم‏گیری ملاحظه نمی‏شود.ازاین‏رو می‏توان تأثیرگذاری پارامتر قدرت تشخیص سؤال‏ها را بر برآورد پارامتر دشواری چندان‏ شدید و جدی ندانست.به‏زبان دیگر،سؤال‏های مورد استفاده در خرده‏آزمون‏های این‏ مطالعه دارای قدرت تشخیص خیلی متفاوت و مؤثری نیستند اما در مورد برآورد پارامتر توانایی آزمودنی‏ها،می‏توان نتیجه گرفت که براساس داده‏های حاضر،بین مدل‏های یک و دوپارامتری در مقام مقایسه با مدل سه‏پارامتری،برآورد پارامتر توانایی تا حدی متفاوت‏ است و در مورد آزمون‏های چند گزینه‏ای پارامتر شیب بر روی برآورد پارامتر توانایی‏ تأثیر داشته است.



تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 94)

--------------------------------------------------------------------------------



پی‏نوشت‏ها

(1).نظریات جدید اندازه‏گیری و روان‏سنجی نخست با اصطلاح صفت مکنون یا خصیصهء مکنون به‏شدت‏ پیوند خورد اما به‏تدریج با عنوان نظریهء سؤال-پاسخ یا Item Response Theory (با علامت اختصاری‏ IRT )یا نظریهء منحنی ویژهء سؤال رواج یافت که برای مقاصد آزمون‏سازی و تحلیل آماری داده‏ها مناسب‏تر به‏نظر می‏رسد(همبلتون،1993).


(2). Information Function 


(3).برای تحلیل داده‏ها در آمریکا به‏وسیلهء نرم‏افزار BILOG ،علاوه بر مساعی فراوان استاد محترم راهنما آقای دکتر سلیمی‏زاده،نگارنده بر خود لازم می‏داند از عنایت استاد ارجمند دکتر جمال عابدی،عضو هیأت علمی دانشگاه مذکور که تحلیل داده‏ها را مسیر کردند،تشکر و سپاس‏گزاری نماید.



منابع

1. Allen.J.M.. Yen, M.W.(1979).Introduction to measurement thoery.California: wadsworth. 


2.ثرندایک،رابرت؛روان‏سنجی کاربردی،مترجم:حیدر علی هومن،تهران،دانشگاه تهران،1369.


(به تصویر صفحه مراجعه شود)


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 95)

--------------------------------------------------------------------------------


(به تصویر صفحه مراجعه شود) 12.هومن،حیدر علی؛مقایسهء مدل تک‏پارامتری راش و مدل دوپارامتری،پایان‏نامهء منتشرنشدهء دانشگاه‏ آزاد اسلامی،1373.


13.هومن،حیدر علی؛هوش‏آزمای انفرادی تهران-استنفرد-بینه.فصلنامهء علوم تربیتی دانشگاه تهران، ویژه‏نامهء روان‏سنجی،دورهء جدید،سال یکم،شمارهء 1-4.


14.انصارین،علیرضا؛برآورد خم ویژهء سؤال و توانایی آزمودنی‏ها در مقیاس تهران-استنفرد-بینه بر پایهء مدل دوپارامتری صفت مکنون،پایان‏نامهء منتشرنشدهء دانشگاه آزاد اسلامی،1371.


15.هومن،حیدر علی؛روش تهیهء آزمون هوش،تهران،دانشگاه تهران،1375.


16. Divgi.D.R.(1986).Does the Rasch model really work for multiple choice items? Not if you look closely.Journal of Educational Measurement, 23,283-298. 


17. Hambleton, R.K.. Cook.L.L.(1983).The robustness of item response models and effects of test length and sample size on the precision of ability estimates.In D.J.Weiss(Ed.). New horizons in testing(pp.31-49).New York:Academic Press. 



تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 96)

--------------------------------------------------------------------------------



پیوست‏ها

نمودار 1


(به تصویر صفحه مراجعه شود) نمودار 2


(به تصویر صفحه مراجعه شود)


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 97)

--------------------------------------------------------------------------------


جدول شمارهء 4-آماره‏ها و پارامترهای سؤال‏های خرده‏آزمون ریاضی برحسب مدل‏های کلاسیک و سؤال-پاسخ (IRT) 


(به تصویر صفحه مراجعه شود)


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 98)

--------------------------------------------------------------------------------


پایان مقاله


بعد یابی یا تحلیل عامل بر اساس نظریه ی سوال پاسخ

به دلیل محدودیت هایی که بر تحلیل عاملی و روش های بعد سنجی که در حوزه ی آزمون سازی حاکم است باید جایگزین های مناسبی برای آن پیدا شود. محدودیت های روش های عملی بعد یابی بر اساس تحلیل عامل در زمان کنونی را می توان به خطی بودن روش ها و عدم استفاده از کل داده های موجود در حوزه ی آزمون سازی اشاره کرد. در صورتی که از دید روانسنجان استفاده از مدل های متغیر مکنون با سوالات بنیادی روبرو نباشد می توان از روش های سوال پاسخ برای تحلیل ابعاد استفاده کرد. روش های سوال پاسخ علاوه بر این که می توانند بعد یابی کنند می توانند پارامتر سوالات و پارامتر توانایی های افراد در ابعاد مختلف را به صورت همزمان برآورد نمایند بنابراین به نظر بنده آینده ی تحلیل عاملی  را نظریه ی سوال پاسخ رقم خواهد زد و بسیاری از مشکلات بعد یابی کنونی را از میان برخواهد داشت. البته مشخص است که استفاده از مدل های مختلف نظریه ی سوال پاسخ مستلزم پذیرش مفروضات آن و فلسفه حاکم بر منطق آن می باشد. البته برای بسیاری از افراد که اکنون از تحلیل عاملی استفاده می کنند و هیچ چیز در مورد بنیاد منطق و فلسفه ی آن و محدودیت های آن نمی دانند فرقی نمی کند چرا که با گسترش نظریه ی سوال پاسخ در حوزه ی بعد یابی به سرعت یک نرم افزار را فراگرفته و در این حوزه مشغول به بعد یابی و مشاوره به سایر افراد و دانشجویان می شوند و از خطر آنها چیز ی کاسته نخواهد شد  کما این که ممکن است خود را سردمداران این نظریه  بدانند و به سایرین بقولانند.

ضرغامی

zar100@gmail.com

09122263167

معرفي يك كتاب

فهرست مطالب

فصل اول: سابقه تاريخي سنجش و انداز هگيري و روا نسنجي...................................................................... 1

عوامل مؤثر در كشف و گسترش رو شهاي انداز هگيري:

-1 پيدايش روان شناسي تجربي .......................................................................................................................... 2

-2 مطالعه تفاوت هاي فردي................................................................................................................................ 3

-3 مطالعه باليني افراد غيرعادي ......................................................................................................................... 3

فرازهائي از اقدامات مربوط به تاريخچه شكل گيري روان سنجي و سنجش و انداز هگيري.......................... 4

9..................................................................................................................................................... ( خودآزمائي ( 1

فصل دوم: اندازه گيري و ارزشيابي در آموزش و پرورش............................................................................ 19

ارزشيابي چيست؟.............................................................................................................................................. 20

مراحل اندازه گيري.............................................................................................................................................. 21

فلسفه ارزشيابي ................................................................................................................................................. 24

26................................................................................................................................................... ( خودآزمائي ( 2

فصل سوم: امتحان ................................................................................................................................................ 41

-1 مفهوم امتحان................................................................................................................................................ 41

-2 انواع امتحان و موارد كاربردي آنها............................................................................................................ 41

-3 هدف هاي امتحان .......................................................................................................................................... 45

-4 مراحل انجام امتحان..................................................................................................................................... 47

-5 طرح ريزي امتحان......................................................................................................................................... 47

-5-1 مراحل طرح ريزي امتحان......................................................................................................................... 48

-5-1-1 تهيه فهرستي از هدفهاي رفتاري درس............................................................................................. 48

طبقه بندي و تحليل هدف هاي آموزشي در حيطه يادگيري ............................................................................. 51

سطوح يادگيري در حيطه شناختي.................................................................................................................... 51

سطوح يادگيري در حيطه عاطفي....................................................................................................................... 54

سطوح يادگيري در حيطه رواني – حركتي ...................................................................................................... 56

-5-1-2 تهيه فهرستي از محتواي درس.......................................................................................................... 59

-5-1-3 تهيه جدول دوبعدي مشخصات سؤالهاي امتحان............................................................................ 59

62.................................................................................................................................................. ( خودآزمائي ( 3

فصل چهارم: تهيه پرس شهاي امتحان ................................................................................................................ 79

-1 پرسش هاي عيني .......................................................................................................................................... 79

انواع پرسش هاي عيني ....................................................................................................................................... 79

الف) يادآوري..................................................................................................................................................... 79

ب) تشخيص و يا شناسايي.............................................................................................................................. 80

-1-1 پرسش هاي چند گزينه اي و اصول تهيه آنها......................................................................................... 80

اصول تهيه پرسش هاي چند گزينه اي............................................................................................................... 81

-1-2 پرسش هاي صحيح – غلط (متناوب پاسخ) ........................................................................................... 87

-1-3 پرس شهاي جور كردني.......................................................................................................................... 88

نكات مورد توجه در تهيه سؤال هاي جوركردني............................................................................................ 89

-1-4 پرسش هاي كامل كردني.......................................................................................................................... 90

نكات مورد توجه در نوشتن پرسش هاي كامل كردني................................................................................... 90

-1-5 پرسش هاي كوتاه پاسخ .......................................................................................................................... 91

نمونه هائي از سؤال هاي محدود پاسخ.............................................................................................................. 91

-2 پرسش هاي انشائي...................................................................................................................................... 94

مقايسه سؤال هاي عيني و انشائي (مزايا و محدوديت ها)............................................................................... 96

99 ................................................................................................................................................... ( خودآزمائي ( 4

فصل پنجم: اجراي امتحان ................................................................................................................................. 115

-1 تنظيم پرسش هاي آزمون.......................................................................................................................... 115

-2 اجراي آزمون............................................................................................................................................. 117

-3 تصحيح و نمره گذاري پرسش هاي آزمون............................................................................................... 119

-3-1 تصحيح و نمره گذاري سؤال هاي عيني................................................................................................ 119

-3-2 تصيح و نمره گذاري پرسش هاي انشائي............................................................................................. 122

كاربرد نمرات ................................................................................................................................................... 124

-4 تجزيه و تحليل نتايج امتحان و استفاده از آن در كشف نارسائ يهاي دانش آموزان ......................... 126

131................................................................................................................................................. ( خودآزمائي ( 5

فصل ششم: آزمون و انواع آن........................................................................................................................... 143

-1 طبقه بندي آزمون ها.................................................................................................................................... 144

-1-1 انواع آزمون ها از نظر طرز اجرا........................................................................................................... 144

- آزمون هاي فردي.......................................................................................................................................... 144

- آزمون هاي گروهي....................................................................................................................................... 144

-1-2 انواع آزمون ها از نظر دقت ساخت....................................................................................................... 145

آزمون استاندارد شده (تراز شده).................................................................................................................. 145

-1-3 انواع آزمون ها از نظر شكل و فرم....................................................................................................... 145

-1-4 آزمون هاي سرعت و آزمون هاي قدرت.............................................................................................. 145

-1-5 انواع آزمون ها از نظر استفاده از كلام................................................................................................ 146

-1-6 آزمون هاي ملاك مرجع و آزمون هاي گروه مرجع........................................................................... 146

-1-7 آزمون هاي وابسته به فرهنگ در برابر آزمون هاي نابسته با فرهنگ............................................. 147

-1-8 آزمون هاي عيني و آزمون هاي ذهني.................................................................................................. 147

-1-9 انواع آزمون ها از نظر موضوع ............................................................................................................ 147

مهارت هاي ذهني مورد اندازه گيري به وسيله آزمون پيشرفت تحصيلي.................................................. 147

-1-10 انواع آزمون ها از نظر درجه كمي شدن متغير مورد مطالعه ......................................................... 150

-2 فرضيه هاي اساسي سنجش يا ارزشيابي................................................................................................ 151

153 ............................................................................................................................................... ( خودآزمائي ( 6

فصل هفتم: تجزيه و تحليل پرس شهاي آزمون............................................................................................. 169

مراحل تجزيه و تحليل سؤال هاي آزمون ...................................................................................................... 169

-1 مراحل تجزيه و تحليل پرسش هاي عيني................................................................................................. 170

-2 بررسي سطح دشواري سؤال هاي آزمون .............................................................................................. 177

اصلاح سطح دشواري سؤال ها براي حذف عامل حدس و گمان................................................................ 188

-3 محاسبه شاخص هاي آماري مربوط به آزمون...................................................................................... 179

-4 تجزيه و تحليل گزينه ها در پرسش هاي چند گزينه اي............................................................................ 181

-5 تجزيه و تحليل پرسش هاي انشائي .......................................................................................................... 183

-6 ساير روش هاي تجزيه و تحليل سؤال هاي آزمون................................................................................. 184

-6-1 ضريب همبستگي دورشته اي نقطه اي..........................................................................................................

-6-2 ضريب همبستگي دورشته اي.......................................................................................................................

-6-3 روائي سؤال هاي آزمون ....................................................................................................................... 188

-6-4 ضريب فاي ( ) ................................................................................................................................. 190

193..................................................................................................... (rt ) -6-5 ضريب همبستگي تتراكوريك

منحني خصيصه سؤال ................................................................................................................................... 195

تجزيه و تحليل پرسش هاي آزمون................................................................................................................. 196

نظريه سؤال – پاسخ....................................................................................................................................... 199

ارزشيابي انواع مختلف همبستگي ها در تجزيه و تحيل سؤال ها................................................................. 201

205 ................................................................................................................................................ ( خودآزمائي ( 7

فصل هشتم: روائي آزمون................................................................................................................................ 227

-1 تعريف روائي ............................................................................................................................................. 227

-2 شواهد روائي آزمون ................................................................................................................................ 228

-3 انواع روائي................................................................................................................................................. 229

-3-1 روائي وابسته به محتوا......................................................................................................................... 229

-3-2 روائي وابسته به ملاك.......................................................................................................................... 231

-3-2-1 روائي پيش بيني ................................................................................................................................ 232

-3-2-2 روائي همزمان .................................................................................................................................. 232

الف) روائي تقارني........................................................................................................................................... 233

ب) روائي توافقي.............................................................................................................................................. 233

-3-2-3 معيار يا ضابطه................................................................................................................................ 233

خصوصيات معيار (همان منبع) ...................................................................................................................... 234

-3-2-4 ضريب روائي ملاكي......................................................................................................................... 235

-3-2-5 پيش بيني متغير ملاك براساس نمره آزمون.................................................................................. 236

-3-2-6 عوامل مؤثر بر ضريب روائي ملاكي.....................................................................................................

-3-3 روائي سازه (روائي مفهومي) ............................................................................................................... 238

243.................................................................................................................................................( خودآزمائي ( 8

فصل نهم: اعتبار آزمون..................................................................................................................................... 259

-1 مفهوم نظري اعتبار آزمون........................................................................................................................ 260

-2 تعريف اعتبار.............................................................................................................................................. 260

-3 منابع خطاي اندازه گيري آزمون................................................................................................................ 261

-3-1 روش هاي اعتباريابي در نمونه گيري زماني........................................................................................ 261

-3-1-1 روش بازآزمائي............................................................................................................................... 262

-3-1-2 اعتبار آزمون هاي همتا ..................................................................................................................... 264

-3-2 روش هاي اعتباريابي در نمونه گيري حيطه......................................................................................... 265

-3-2-1 روش دو نيمه كردن.......................................................................................................................... 266

-3-2-2 روش كودر ريچارد سون................................................................................................................ 267

268.............................................................(KR الف) استفاده از فرمول شماره 20 كودر – ريچاردسون ( 20

ب) استفاده از فرمول شماره 21 كودر – ريچاردسون ............................................................................... 268

-3-2-3 روش كاپلان ............................................................................................................................................

-3-2-4 روش آلفاي كرونباخ...............................................................................................................................

-4 اعتبار نمره گذاري يا درجه بندي................................................................................................................ 271

-5 اعتبار آزمون هاي ملاك مرجع.................................................................................................................. 271

-6 روش هاي افزايش ضريب اعتبار آزمون.................................................................................................. 272

-7 خطاي معيار اندازه گيري........................................................................................................................... 274

-8 برآورد نمره واقعي آزمودني با استفاده از خطاي معيار اندازه گيري.................................................. 275

-9 ضريب اعتبار بهينه ................................................................................................................................... 276

-10 رابطه روائي و اعتبار آزمون.................................................................................................................. 277

-11 عملي بودن آزمون.................................................................................................................................. 277

279................................................................................................................................................ ( خودآزمائي ( 9

فصل دهم: نرم يا هنجار.................................................................................................................................... 303

-1 تعريف نرم ................................................................................................................................................. 303

-2 مشخصات مطلوب نرم ها........................................................................................................................... 304

-3 انواع نرم..................................................................................................................................................... 304

-3-1 انواع نرم از نظر وسعت جامعه هدف.................................................................................................. 305

-3-2 انواع نرم از نظر نوع گروه نرم............................................................................................................ 305

محدوديت هاي نرم هاي سني و كلاسي .......................................................................................................... 308

-3-3 نرم هاي بهنجار شده ............................................................................................................................. 312

-3-3-1 نمره هاي انحراف معيار.................................................................................................................... 312

-3-3-2 نمره معيار تراز شده........................................................................................................................ 312

312...............................................................................................................................................T -3-3-3 نمره

313......................................................................................................................................CEEB -3-3-4 نمره

-3-3-5 معادل هاي هوشبهر.......................................................................................................................... 313

-3-3-6 نمره هاي نه بخشي........................................................................................................................... 314

-4 نيمرخ رواني............................................................................................................................................... 316

-5 مراحل تهيه آزمون استاندارد شده .......................................................................................................... 319

322............................................................................................................................................. ( خودآزمائي ( 10

فصل يازدهم: آزمون هاي هوشي...................................................................................................................... 335

الف) آزمون هاي فردي هوش.......................................................................................................................... 335

-1 آزمون هاي هوشي بينه............................................................................................................................. 335

-2 آزمون هاي استنفرد بينه........................................................................................................................... 336

336 ....................................................................................................................... مقياس استنفرد بينه فرم 1937

338....................................................................................................................... مقياس استنفرد بينه فرم 1960

-3 مقياس هاي هوشي وكسلر......................................................................................................................... 341

342 ..................................................................................... (WAIS-R) مقياس هوش وكسلر براي بزرگسالان

344 ...............................................................................................Wisc-R مقياس هوشي وكسلر براي كودكان

345 .................................................................Wppsi مقياس هوشي وكسلر براي كودكان پيش آموزشگاهي

ب) آزمون هاي گروهي هوش.......................................................................................................................... 345

-1 آزمون ارتشي طبقه بندي شده آلفا و بتا .................................................................................................. 345

-2 آزمون نابسته با فرهنگ ريون.................................................................................................................. 347

-3 آزمون نابسته به فرهنگ كتل .................................................................................................................... 348

فصل دوازدهم: آزمون هاي شخصيت............................................................................................................... 349

-1 پرسش نامه ها يا آزمون هاي عيني شخصيت........................................................................................... 349

351.............................................................................................................................................MMpi تراز جديد

-2 آزمون هاي شخصيتي فرافكن ................................................................................................................... 357

الف) آزمون ررشاخ......................................................................................................................................... 358

مشخصات روان سنجي آزمون ررشاخ.......................................................................................................... 359

361........................................................................................................... (T.A.T) ب) آزمون اندريافت موضوع

362...........................................................................................................T.A.T مشخصات روان سنجي آزمون

363................................................................................................. سؤال هاي كنكور كارشناسي ارشد سال 1388

جداول آماري........................................................................................................................................................ 370

منابع ....................................................................................................................................................................... 378

١

فصل اول

سابقه تاريخي سنجش و اندازه گيري و روان سنجي

امر استفاده از سنجش و اندازه گيري در زندگي روزمره انسان سابقه اي بس طولاني

و مهم دارد . انسان هاي اوليه در مراسم گوناگون از قبيل جشن ها و مسابقات به منظور

مقايسه توانائي و قابليت افراد و قضاوت د ر مورد آنان (مثلاً قدرت بدني، مهارت و

خبرگي اشخاص ) به صورتي بسيار ابتدائي و ذهني در كلام و رفتار خود از مفاهيم

اندازه گيري و ارزشيابي بهره مند مي ش دند. اين اقدامات مشخص كننده وضع كلي

اندازه گيري و سنجش تا اوائل قرن بيستم در ارتباط با زندگي بشر است.

عده اي از روان شناسان معتقدند كه ارزشيابي براي اولين بار در كشور چين حدود

3000 سال پيش انجام گرفته است و برخي نيز ظهور ارزشيابي را به سال 165 پيش از

ميلاد نسبت مي دهند و معتقدند كه در اين زمان افراد را تحت آزمايش قرار م ي دادند و به

مشاغل مختلف مي گماشتند. در قرون وسطي ارزشيابي استعدادها در بيشتر دانشگا ه هاي

اروپا رواج مي يابد. كريستيان ون ولف در 1732 رشته رياضي روان شناسي را تحت

عنوان روان سنجي داير مي كند.

ويلهم وندت روان شناس آلماني اولين كسي است كه پيش از همه به روان سنجي

علاقمند شده است . او در سال 1879 اولين آزم ايشگاه روان شناسي را در شهر لايپزي ك

آلمان تأسيس كرد و سپس اين نهضت در تمام دنيا گسترش يافت.

به موازات اين اقدام، روش هاي مشاهده و كنترل دقيق تر مي شوند و وندت پديده هاي

مورد مطالعه را با وسايل و روش هاي دقيق كنترل مي كند و از آن پس روان شناسان

١٩

فصل دوم

اندازه گيري و ارزشيابي در آموزش و پرورش

نقش اصلي معلم در فرآيند آموزش و پرورش فراهم ساختن شرايط و امكانات

مناسب آموزش ي و پرورش ي و هدايت يادگيري دانش آموزان به منظور كمك به رشد و

تكامل همه جانبه آنان است . معلم به همين منظور بايد هر يك از دانش آموزان را بخوبي

بشناسد.

شناخت دانش آموزان عبارت از كسب آگاهي هاي لازم در مورد جنبه هاي مختلف

رفتار و ويژگي هاي آنان است . يعني معلم بايد از ويژگي هاي جسماني، رواني، اجتماعي و

عاطفي و همچنين علائق و توانائي ها و نارسائي هاي هر يك از دانش آموزان و رابطه اين

ويژگي ها با هم و تأثير آنها در رفتار به خوبي آگاه باشد . شاخت دانش آموزان مستلزم

جمع آوري و تحليل اطلاعات لازم در مورد آنان براساس اصول و روش هاي علمي است .

به دست آوردن اطلاعات لازم در مورد هر فرد را بر مبناي رو ش هاي علمي

1 مي نامند. 2 « اندازه گيري »

اطلاعات حاصل از اندازه گيري ممكن است به صورت ك مي (عددي) و يا به صورت

اندازه گيري عبارت است از » توصيف (كيفي) باشد. كه در صورت كمي مي توان گفت

اختصاص دادن اعداد به مقادير مختلفي از صفات برحسب قواعد معين كه صحت آنها را

مي توان از راه آزمايش بررسي كرد . 3 و يا مي توان گفت اندازه گيري يعني فرآيند منظم

1 - Measurement

-2 نقل از كتاب اصول روان سنجي تأليف دكتر حسن پاشاشريفي

-3 نقل از كتاب مباني آزمون هاي رواني، تأليف مگنوسون، ترجمه محمدتقي براهني

٤١

فصل سوم

امتحان

-1 مفهوم امتحان:

امتحان حالت خاصي از ارزشيابي است كه ناظر بر سنجش آموخته هاي دانش آموزان

است. به مفهوم علمي امتحان عبارت است از تعيين ميزان تغييرات حاصل در جنبه هاي

خاصي از رفتار شاگرد در فواصل زماني معين در جهت نيل به هدف هاي آموزشي و

پرورشي (اصول روانسنجي، شريفي)

امتحان يا ارزشيابي يكي از عناصر مهم فرايند آموزش و پرورش است كه اطلاعات

مفيدي را براي تعيين سطح كارآئي و بهبود شرايط آموزش ي فراهم مي سازد . علاوه بر

اين، امتحان نقش ناظر بر ساي ر عناصر آموزش و پرورش از قبيل : هد ف هاي آموزشي،

برنامه هاي درسي، روش هاي تدريس، امكانات، تجهيزات و عوامل انساني و غير انساني

را بر عهده دارد.

-2 انواع امتحان و موارد كاربردي آنها:

امتحان را از دو ديدگاه مي توان طبقه بندي كرد . از نظر هدف و از نظر ماهيت موضوع

يادگيري

الف) انواع امتحان از نظر هدف

برحسب هدفي كه معلم ازانجام امتحان دارد، م يتوان آن را به چهار نوع تقسيم كرد:

- امتحان ورودي (تشخيصي) كه در ابتداي هر دوره آموزشي به منظور تعيين

معلومات و رفتار ورودي و سنجش آمادگي دانش آموز ان براي يادگيري درس جديد

براساس محتواي آموزشي پيش نياز آن درس به عمل مي آيد.

79

فصل چهارم

تهيه پرسش هاي امتحان

پس از تهيه جدول دو بعدي مشخصات سوال ها مي توان به نوشتن پرس ش هاي

امتحان پرداخت مجموعه پرسش هائي را كه تمامي اهداف و محتواي مطرح شده در يك

جدول دو بعدي را شامل مي شوند آزمون مي نامند. پرسش هاي آزمون را به طور كلي به

دو صورت عيني و انشائي م يتوان نوشت.

از آنجا كه هر پرسش بايد از يك سو با هدف و از سوي ديگر با محتواي خاصي كه

در جدول دو بعدي مطرح شده هماهنگ باشد، بنابراين تعيين نوع پرسش با چگونگي

برآيند يادگيري مورد نظر در جدول بستگي پيدا مي كند . اينك به توضيح پرس ش هاي

عيني و انشائي، اصول تهيه و موارد كاربردي هر كدام به تفكيك م يپردازيم.

-1 پرسش هاي عيني

پرسش عيني به سوالي گفته مي شود كه اولاً نمره گذاري آن مستقل از نظر شخصي

و قضاوت ذهني ارزشياب باشد . يعني تصحيح كنندگان مختلف به آن نمره مساوي

بدهند. ثانياً در اين گونه از پرسش ها معمولاً آزمايش شونده خود پاسخ سوال را تهيه

نمي كند، بلكه از بين پاسخ هاي داده شده پاسخ درست را پيدا كرده و مشخص م يكند.

انواع پرسش هاي عيني

پرسش هاي عيني بطور كلي يا از نوع يادآوري هستند و يا از نوع تشخيص و

شناسائي.

الف) يادآوري: در اين نوع، پاسخ دهنده جواب سوال را از ميان آموخته هاي قبلي

خود پيدا كرده و مشخص مي سازد. پرسش هاي يادآوري نيز به دو دسته يادآوري ساده

و جملات تكميلي تقسيم مي شوند. يادآوري ساده سوالي است كه احتياج به پاسخ كوتاهي

١١٥

فصل پنجم

اجراي امتحان

سوال هاي آزمون پس از تهيه براساس بودجه بندي جدول دو بعدي، مورد بررسي و

بازبيني قرار مي گيرند. اجراي اين مهم در جهت پاسخگوئي به پرس ش هاي زير انجام

مي گيرد:

الف) آيا هر سوال يكي از هدف هاي مهم درس را كه در جدول دو بعدي پيش بيني

شده است اندازه مي گيرد؟

ب) آيا هر سوال داراي يك پاسخ درست و مشخص است و گزينه هاي انحرافي ضمن

اينكه پاسخ كليد نيستند به ظاهر موجه و منطقي جلوه مي كنند؟

ج) آيا هر سوال كاملاً روشن و دور از ابهام تهيه شده است؟

د) آيا نوع پرسش تهيه شده براي اندازه گيري برآيند مورد نظر مناسب است؟

ه) آيا تمام اصول و نكات لازم در تهيه پرس شها رعايت شده است؟

د) آيا پاسخ درست هيچ پرسشي مستقيماً و يا ضمني در پرسش هاي ديگر قابل

استنباط نيست؟

ز) آيا هر پرسشي مستقل از پرس شهاي ديگر است؟

ح) آيا مجموعه پرسش هاي تهيه شده تمامي قسمت هاي جد ول دو بعدي را در بر

مي گيرد؟

-1 تنظيم پرسش هاي آزمون

پس از آنكه پرسش هاي تهيه شده با توجه به موارد مذكور مورد بازبيني و بررسي

قرار گرفت، تهيه كننده اقدام به تنظيم و مرتب كردن آنها طي مراحل زير م ينمايد:

143

فصل ششم

آزمون و انواع آن

همانطوري كه در ابتداي فصل ( 4) اشاره شد مجموعه پرسش هائي را كه تمامي

1« آزمون » اهداف و محتواي مطرح شده در يك جدول دو بعدي را در بر مي گيرند

مي نامند.

آزمون عبارت يك وسيله عيني 2 و محاسبه شده اي 3 است كه براي اندازه گيري

نمونه اي از حالات و رفتار معين فر د بكار مي رود. منظور از عيني بودن آن است كه

وسيله سنجش مشخص و قطعي بوده و در همه حال نتيجه اندازه گيري آن تابع نظر

شخص و طرز قضاوت ارزشياب قرار نگيرد . منظور از محاسبه شده يا استاندارد آن

است كه قبلاً در بوته تجربيات و محاسبات لازم گداخته شده و شرايط و خصوصياتي را

كه هر قسمت بايد دارا باشد در خود جمع داشته باشد . اين خصوصيات عبارتند از :

روائي 4، اعتبار 5 و نرم يا هنجار 6 كه در مورد اين خصوصيات در فصل هاي بعدي كتاب

به طور مشروح سخن خواهيم گفت.

از آنجا كه با هيچ وسيله اي نمي توان همه استعد ادها، معلومات، رغبت ها و بطور كلي

از رفتار و « نمونه اي » خصوصيات فرد را اندازه گيري كرد، بنابراين هر آزمون فقط

حالات فرد را اندازه مي گيرد و براي اندازه گيري همه حالات و رفتار فرد بايد از ابزارها و

. آزمون ها و معيارهاي مختلف استفاده نمود 7

1 -Test

2 -Objective

3 -Standardized

4 -Validity

5 -Reliability

6 -Norm

7 - نقل از كتاب اصول علمي تهيه، اجرا و استاندارد كردن تست، يوسف اردبيلي 1348

١٦٩

فصل هفتم

تجزيه و تحليل پرسش هاي آزمون

تجزيه و تحليل آماري پاسخ هائي كه به سوال هاي امتحان داده شده است نشان

مي دهد كه هر يك از سوال ها و بطور كلي امتحان تا چه اندازه با هد ف هاي مورد نظر

مطابقت داشته است.

اگر هدف آزمايش اندازه گيري پيشرفت نسبي دانش آ موزان، يعني مقايسه پيشرفت

آنان با يكديگر (آزمون گروه مرجع ) باشد در اين صورت سوال هاي امتحان بايد نتايج

آماري معيني را كه شرح داده مي شود در بر داشته باشد و تهيه كننده سوال هاي امتحان

نيز بايد سوال ها را به گونه اي بنويسد كه نتايج مورد نظر از آن به دست آيد . از سوي

ديگر اگر هدف امتحان، اندازه گيري پيشرفت دانش آموزان براساس معيارهاي معلم يعني

تعيين ميزان آموخته هاي دانش آموزان باشد، در اين صورت سوال هاي امتحان بايد

طوري نوشته شود كه ميزان نيل به هدف هاي معلم سنجيده شود (آزمون ملاك مرجع ).

لذا آن دسته از خصائص آماري مورد نظر خواهد بود كه منعكس كننده هدف هاي تعليم

باشند نه اندازه گيري پيشرفت نسبي دانش آموزان و مقايسه آنان با يكديگر . از آنجا كه

تاكيد بر ملاك نسبي در اندازه گيري پيشرفت تحصيلي از دير زماني مورد توجه تهيه

كننده و ناشران آزمون ها بوده است، بنابراين به بيان مراحل و نحوة تجزيه و تحليل

سوال ها در آزمون هائي كه براي اندازه گيري پيشرفت نسبي دانش آموزان به كار

مي روند مي پردازيم.

مراحل تجزيه و تحليل سوا لهاي آزمون

از آنجا كه مراحل تجزيه و تحليل سوال هاي عيني و انشائي در مواردي با هم متفاوت

است به همين جهت آنها را در دو بخش جداگانه مورد بررسي قرار مي دهيم.

٢٢٧

فصل هشتم

روائي 1 آزمون

-1 تعريف روائي

اولين و مهم ترين سوالي كه بايد در مورد هر وسيله و ابزار اندازه گيري بشود،

مربوط به مقدار روائي آن است . منظور از اين سوال آن است كه معلوم شود آيا وسيله

يا ابزار آنچه را كه مورد نظر است و تمام آنچه را مورد نظر است و فقط آنچه را مورد

نظر است اندازه گيري مي كند يا نه ؟ به عبارت ديگر آيا اين وسيله اندازه گيري حقيقتاً

صفتي را كه براي اندازه گيري آن ساخته شده است مي سنجد يا خير؟

روائي عبارت است از توافق بين نمره هاي آزمون با ويژگي يا صفتي كه آزمون براي

اندازه گيري آن ساخ ته شده است (گاپلان و ساكوز 1989 )، يعني اين كه آزمون بايد

چيزي را اندازه بگيرد كه براي اندازه گيري آن ساخته شده است . به بيان ديگر روائي

يعني ميزان كارآئي آزمون براي انداز هگيري خصيصه مورد نظر.

روائي مهم ترين ويژگي يك آزمون به حساب مي آيد و مقصود از آن مناسب بودن، با

معنا بودن و مفيد بودن استنبا ط هائي است كه از روي نمره آزمون به عمل م يآيد . براي

تاييد اين گونه استنباط ها، لازم است شواهدي جمع آوري شود كه در فرهنگ روانشناسي

ناميده مي شود. « رواسازي آزمون »

1 -Validity

259

فصل نهم

اعتبار آزمون

از نتايج اندازه گيري با وسايل سنجش وقتي مي توان عملاً استفاده كرد كه اين وسايل

شرايط بخصوصي را دارا باشند . نخست اينكه وسيله اندازه گيري بخصوصي كه در

شرايط خاصي و به منظور خاصي به كار مي رود بايد حقيقتاً صفت مورد اندازه گيري را

بسنجد (داراي روائي باشد ). ثانياً نتيجه اصل از اندازه گيري بايد اعتبار داشته باشد . يعني

اگر شي يا شخص مورد نظر را در تحت شرايط مشابهي مجدداً آزمايش كنيم، نتيجه

مشابهي به دست آيد . بنابراين داده هاي حاصل از اندازه گيري بايد از دو لحاظ قابل

اطمينان باشند. اولاً معناي مشخصي داشته باشند و ثانياً بازيافتني 1 باشند.

-1 مفهوم نظري اعتبار 2 آزمون

از نظر تئوري مي توان اعتبار را به عنوان اندازه اي براي تعيين تفاوت بين نمره هاي

مشاهده شده 3 و نمره هاي واقعي 4 دانست . منظور از نمره مشاهده شده نمره اي است كه

دانش آموز عملاً در نتيجه گذراندن آزمون به دست مي آورد و مراد از نمره واقعي

نمره اي است كه دانش آموز در نتيجه گذراندن آزموني به دست مي آورد كه از هر نوع

خطاي اندازه گيري به دور باشد. همچنين مي توان گفت نمره مشاهده شده نمر ه اي است

كه دانش آموز از گذراندن يك آزمون منتخب از ميان آزمون هاي ممكن بي شمار گرفته

است. اما نمره واقعي ميانگين نمراتي است كه با گذراندن تعداد بي شماري از آزمون هاي

1 -Reproducible

2 -Reliability

3 -Observed Score

4 -True Score

303

فصل دهم

نرم يا هنجار

-1 تعريف نرم

به معيار و مقياس محاسبه شده 1 و متحد الشكل يا همترازي 2 كه براي سنجش و

مقايسه بكار مي رود، نرم 3 گويند . نرم مقياس و ميزاني است كه از كار يا بازده كار و يا

از قوا و معلومات و استعدادهاي يك گروه نمونه طبيعي به دست آمده ا ست و مقدار كار،

يا بازده كار و توانائي و معلومات افراد ديگر را مي توان با آن سنجيد، تا معلوم شود

شخص در يك جنبه خاص رواني و يا بدني، هنگام مقايسه با افراد متجانس و مشابه

خود در چه وضعي و يا در چه جائي قرار مي گيرد. (اردبيلي، اصول علمي تهيه، اجرا، و

استاندارد كردن تست).

به بيان ديگر نرم يا هنجار عبارت است از متوسط عملكرد گروه نمونه اي از

آزمودني ها كه به روش تصادفي از يك جامعه معين انتخاب مي شوند . نرم آزمون هاي

استاندارد شده براساس توزيع نمره هاي خام گروه نمونه اي از آزمودني ها به دست

مي آيد كه ميانگين و نق طه 50 درصدي (ميانه) نمونه هائي از متوسط عملكرد گروه و به

عبارت ديگر نرم يا هنجار گروه است.

در آزمون هاي گروه مرجع، نرم يا هنجار مقياس محاسبه شده اي است كه نمره خام

آزمودني با آن مقايسه مي شود تا عملكرد وي نسبت به متوسط عملكرد گروه مورد

ارزشيابي قرار گيرد (شريفي: اصول روان سنجي و روان آزمائي)

1 -Standardized

2 -Uniform

3 -Norm

335

فصل يازدهم

آزمون هاي هوشي

الف) آزمون هاي فردي هوش

-1 آزمون هاي هوشي بينه

اين آزمون ها كه از مقياس مشهور بينه سيمون مشتق شده و مورد تجديد نظر قرار

گرفته اند، چون از آزمون هاي كلامي و غير كلامي تشكيل شده اند، مي توان آنها را

مقياس هاي مختلط دانست . نخستين فرم آنها در 1905 در فرانسه استاندارد شد . بينه

آزمون هوش خود را بر اساس دو اصل تدوين كرد : ( 1) تعريف سن ( 2) مفهوم توانائي

كلي ذهني

منظور بينه از اصل اول اين بود كه توانائ ي هاي عقلي كودكان مسن تر بيشتر از

كودكان خردسال تر است بر اين اساس، تكاليفي را كه ح دود 3

2

تا

4

3

كودكان گروه سني

معين از عهده انجام آن بر مي آمدند، ولي كودكان خردسا ل تر كمتر و كودكان بزرگتر

بيشتر از اين نسبت مي توانستند آن را انجام دهند براي گروه مورد نظر مناسب

مي دانستند در اجراي اصل دوم بينه توج ه خود را به اندازه گيري هوش (توانائي هاي كلي

ذهني) معطوف داشت و از اندازه گيري عناصر تشكيل دهنده هوش صرف نظر كرد .

بنابراين هر تكليفي كه با كل توانائي مورد اندازه گيري او همبستگي داشت در محتواي

آزمون قرار گرفت . بدين ترتيب نخستين فرم آزمون هوشي بينه از 30 سؤ ال (تكليف )

تشكيل و بر اساس مقياس سني درجه بندي شد.

از بين مقياس هاي مربوط به آزمون بينه مواردي از آن را كه در حال حاضر استفاده

مي شوند به اختصار مطالعه مي كنيم.

349

فصل دوازدهم

آزمون هاي شخصيت

طرفداران مكتب صفات شخصيت عقيده دارند كه هر فرد تركيب وحدت يافته اي از

صفات بدني و رواني است . آنان ضمن تاكيد بر تفاوت هاي فردي در صفات شخصيت، به

طبقه بندي افراد بر اساس برخي از صفات مشترك معتقدند . به نظر روان شناسان مكتب

صفات شخصيت، هر چند الگوي صفات شخصيتي هر فرد متمايز از ديگران است، در

بعضي موارد نيز وجوه اشتراك مقايسه پذير بين افراد وجود دارد، به همين جهت

تفاوت هاي فردي را مي توان به عنوان پراكندگي يا تغيير پذيري تعدادي از صفات و

خصائص اساسي شخصيت آدمي تلقي كرد. (شريفي، اصول روا نسنجي و روان آزمائي).

بعضي ديگر از روان شناسان در سنجش شخصيت آدمي فرضيه فرافكني را مطرح

كرده اند. بر اساس اين فرضيه هنگامي كه شخص يك محرك مبهم را تفسير مي كند تفسير

وي از اين محرك، بازتابي از نيازها، احساسات، انگيزه ها، تجارب زندگي و رفتارهاي

شرطي شده اوست . آزمون هاي شخصيتي فرافكن بر اساس اين نظريه ساخته شده اند .

(همان مرجع)

بنابراين آزمون هاي شخصيت را مي توان به دو طبقه عمده تقسيم كرد : آزمون هاي

عيني شخصيت و آزمو نهاي فرافكن.

-1 پرسش نامه ها يا آزمون هاي عيني شخصيت

آزمون هاي عيني شخصيت به صورت پر سش نامه با پرسش هاي بسته تهيه مي شوند

مشخص مي كند. در تهيه « نه » يا « آري » كه آزمودني پاسخ خود را به سوال ها به صورت

اين پرسش نامه ها فرض بر اين است كه اولاً شخصيت آدمي متشكل از مجموعه صفات يا

خصوصیات یک مقیاس اندازه گیری خوب

خصوصیات یک مقیاس اندازه گیری خوب

 یکی از ویژگیهای متغیر قابلیت اندازه گیری آن است. چنانچه از وزن به عنوان یک   متغیر  نام  ببریم بهترین راه اندازه گیری آن بر اساس کیلوگرم یا گرم می باشد در موردقد هم سانتیمتر یا مترازعهده آن برمی آید.اما در مورد رضایت بیماران از ارائه خدمات یا میزان شنوایی یا ناتوانی و معلولیت از چه ملاک هایی باید استفاده کرد .برای اندازه گیری هر عنصر نیاز به مقیاس اندازه گیری وجود دارد.یک مقیاس خوب باید دارای ویژگیهای زیر باشد:

علمی: بر گرفته ومتناسب با اصول علمی باشد.

جامع:  بتواند تمام موارد متغیررا شامل شود.

مناسب: برای اندازه گیری آن متغیر باشد.

قوی: تلاش شود قویترین مقیاس باشد.

غیر قابل جمع: رده های مشترک نداشته باشد.

رده های کافی: موردی را فراموش نکرده باشیم.

رده های تعریف شده: گروهها و رده های آن تعریف شده باشند.

عملی: قابلیت انجام داشته باشد.

برای ارزشیابی اندازه گیری ها می توان از الگو های دیگری استفاده کرد؛الگویی که مشتمل بر ویژگی های متعددی که ما علاقه مند یم ،اندازه گیری های ما داشته باشد.

تمایز 

مرتب کردن از نظر مقدار 

فاصله های مساوی

صفر مطلق

این چهار ویژگی برای تعیین سطح اندازه گیری اسمی ،رتبه ای ،فاصله ای یا نسبی به کار برده می شود.


اهميت احاطه به آزمون سازي در زمان ساخت يا هنجاريابي به آزمون يا پرسشنامه

امروزه انواع آزمون های روانشناسی و دیگر ابزار سنجش علوم انسانی بصورت گسترده در زمینه های مختلف مورداستفاده قرار می گیرند، از جمله در مدارس، دانشکده ها، صنایع، کلینیک های روانشناسی، سازمان های دولتی و نظامی و غيره. از این رو در تمامي مراكز مهم دنيا روانسنجان و روانشناسان به خدمت گرفته مي شوند، تا ابزاري را براي سنجش اهداف مشخص و از قبل طرح شده، به روش هاي علمي تهيه نمايند.


آزمون ها به عنوان مهمترين ابزار سنجش بطور دقیق برای  سرند کردن متقاضیان مشاغل و پست هاي خدمتي، طبقه بندی و جایگزینی افراد در زمینه های مختلف، مشاوره و راهنمایی( شغلی،آموزشی و تربیتی)، ارتقاء، نگهداری یا اخراج، تشخیص و تجویز درمانهای روانی و داروئی، ارزیابی تغییرات شناختی درون فردی و بین فردی در اثر برنامه  های مداخله ای و اجرای تحقیق در باره رشد فردی در طول زمان و اثر بخشی برنامه مورد استفاده قرار می گیرند. همچنین آزمون ها جهت بررسی بسیاری از حوادث و اتفاقات روانی– اجتماعی به کار می روند(آیکن، 1991). 


اگر چه آزمون ها تصمیمات کاملا درست در باره ا فراد فراهم نمی کنند با این حال آکادمی ملی علوم در یک نشست اختصاصی به این نتیجه رسید که در کل، آزمون ها بهترین، عادلانه ترین و اقتصادی ترین روش بدست آوردن اطلاعات لازم جهت تصمیم گیری های مهم درباره افراد هستند(مورفی و دیوید شوفر، 1991). باتوجه به این که آزمون ها منشا و مقصد چنین تصمیم گیری هایی هستند، لازم است فرآیند سنجش و اندازه گیری با دقت هرچه بیشتر را انجام شوند. بنابراین بسیار مهم است زمانی که قصد استفاده از یک آزمون روانی را داریم خصوصا در اجراي با حجم بالا، تمام فرایند ساخت و هنجاریابی آن را مورد بازبینی قرار دهیم. 

فراخوان اولويت هاي پژوهشي سال 1391 پژوهشکده آمار  

به نظر من بيشتر پژوهشهاي مورد نياز توسط دانشجويان و اساتيد رشته هاي سنجش و اندازه گيري و دانشجويان جمعيت شناسي مي تواند انجام شود

در ادامه ليست اولويت هاي پژوهشي پژوهشكده ي آمار ارائه مي شود. 

باسمه تعالی

فراخوان اولويت هاي پژوهشي سال 1391 پژوهشکده آمار 



روش شناسی

1 روش تهیه تراز غذایی ایران

2 روش‌ پیش‌بینی مقدار تولید محصولات استراتژیک کشاورزی

3 محاسبه شاخص‌های اقتصادی خانوار در مناطق کوچک جغرافیایی با روش‌های برآورد نواحی کوچک

4 بررسی تفاوت‌های بین نظرسنجی با آمارگیری‌های رسمی

5 روش‌های کاهش خطاهای نمونه‌گیری در آمارگیری‌های چرخشی

6 تعدیل فصلی برآوردها در آمارگیری‌های مستمر

7 بررسی و مدل‌بندی خطای اندازه‌گیری در طرح‌های آمارگیری 

8 بررسی کاربرد داده‌کاوی در آمارهای رسمی

9 بررسی روش‌های آمارگیری از جوامع نادر

10 بررسی روش‌های آمارگیری از جوامع پنهان

11 روش برآورد سرمایه‌گذاری به تفکیک بخش‌های عمومی، خصوصی و تعاونی 

12 استفاده از آمارگيري تلفني در طرح‌های آمارگيري 

13 بررسي روش‌هاي برخورد با داده‌هاي دور افتاده در آمارگيري‌ها

14 بررسی سازگاری درونی و بیرونی نتایج آمارگیری‌ها

15 بررسی و تعیین روش جانهی و برآورد اطلاعات کارگاه‌های صنعتی برای جبران بی‌پاسخی

16 استفاده از چارچوب‌های چندگانه در آمارگیری‌ها

17 استفاده از چارچوب‌های ناحیه‌ای در آمارگیری‌ها

18 به‌کارگیری روش‌های نمونه‌گیری جدید در آمارگیری‌های نمونه‌ای با هدف بهبود برآورد

19 به‌کارگیری روش‌های انطباق رکوردها در پیوند دادگان آمارگیری‌ها

20 به‌کارگیری روش‌های هم گروه‌های ساختگی در پیوند دادگان آمارگیری‌ها

21 به‌کارگیری روش‌های چند سطحی در تحلیل نتایج آمارگیری‌ها

22 بررسی روش‌های جانهی واحد در آمارگیری‌ها

23 امکان‌سنجی استفاده از داده‌های فضایی در براوردهای کوچک ناحیه‌ای

24 بهبود دادن کیفیت سیستم گردآوری داده‌ها با استفاده از روش طرح آزمایش‌ها

25 اندازه‌گیری تأثیر عوامل مؤثر بر میزان بی‌پاسخی در آمارگیری‌های خانواری

26 ارائه‌ی براورد و پیش‌بینی جمعیت نیروهای مشمول خدمت نظام وظیفه تا سال ۱۴۰۰

27 جانهی چندگانه‌ی اقلام در آمارگیری‌ها با استفاده از سه رویکرد پارامتری، نیمه‌پارامتری و ناپارامتری

28 بررسی روش‌های ترکیب کردن داده‌های حاصل از آمارگیرهای احتمالی و نااحتمالی

29 کنترل کیفیت کدگذاری در آمارگیری‌ها با استفاده از نمونه‌گیری پذیرشی

30 روش‌های حفظ محرمانگی در انتشار داده‌ها

31 همسان‌سازی و یکپارچه کردن آدرس جغرافیایی در چارچوب‌های آماری سرشماری‌ها

32 بررسی ایجاد حوزه‌های سرشماری یکتا برای استفاده در تمامی طرح‌های آماری و سرشماری

33 تهیه نقشه کاربری اراضی برای آمارهای کشاورزی با استفاده از تصاویر ماهواره‌ای

34 بازسازی shapefile سرشماری‌های گذشته با مبنا قرار دادن نقشه‌های سال 1390

35 طرح تهیه کد شناسایی ملی آبادی‌های کشور در جهت بهبود آمارهای ثبتی

36 تطبیق جمعیت شهرهای کشور در سرشماری های 1335 تا 1390 براساس محدوده های جغرافیایی سرشماری 1390   

37 همانند سازی نتایج سرشماری 1385 و 1390 براساس تغییرات تقسیمات جغرافیایی

38 تولید آمار های مورد نیاز در زمینه مهاجرت داخلی براساس اطلاعات ثبت تغییر نشانی و کد پستی در پایگاه اطلاعات جمعیت کشور

39 توسعه آمار و اطلاعات ثبتی جمعیتی به صورت مکان محور (داده های مکانی جمعیتی)

40 بررسی روش های قابل استفاده برای سرشماری  1395

41 توسعه روش‌های ادیت و جانهی اتوماتیک برای داده‌های پیوسته در سرشماری‌ها

42 بررسی روش‌های کدگذاری اطلاعات باز


طراحی آمارگیری‌های جدید

1 طراحی آمارگیری ناتوانی در ایران

2 براورد شغل‌های ایجاد شده در کشور

3 طراحی آمارگیری مصرف دخانیات

4 طراحی آمارگیری طولی از ویژگی‌های اجتماعی- اقتصادی خانوار 

5 مطالعات تطبیقی برای اجرای سرشماری کشاورزی


محاسبه و تحلیل آمارها و شاخص‌ها

1 تهیه حساب‌های کار

2 برآورد اشتغال غیر رسمی در بازار کار ایران

3 بررسی وضعیت اشتغال در بین کودکان و نوجوانان

4 آینده‌نگری وضعیت بازار کار ایران با توجه به تحولات جمعیتی

5 تعیین و محاسبه شاخص‌های امنیت شغلی

6 بررسی شاخص‌های بازار کار در ایران طی سال‌های مختلف

7 بررسی تأثیر سرمایه‌ی انسانی (سن، تحصیلات و …) بر درآمد خانوار

8 بررسی رابطه بین تعداد افراد خانوار و درآمد خانوار

9 طراحی و ساخت جدول سالانه عمر در ایران 

10 گروه‌بندی خانوارها از نظر سطح زندگی بر اساس داده‌های طرح آمارگیری از هزینه و درآمد خانوار

11 بررسی رابطه بین سرمایه‌گذاری و ایجاد اشتغال

12 بررسی سازگاری شاخص‌های حاصل از آمارگیری نیروی کار با اطلاعات ثبتی

13 بررسی تأثیر افراد چند شغله در بازار کار کشور

14 بررسی روند نرخ مشارکت اقتصادی در کشور و متغیرهای مؤثر بر آن

15 بررسی رابطه مهاجرت با درآمد خانوار

16 برآورد تعداد خانوارهای کشور تا سال 1404

17 تعیین و محاسبه شاخص‌های نوآوری 

18 بررسی نسبت داده به ستانده در تعدیل نتایج طرح آمارگیری از کارگاه‌های صنعتی

19 پیش‌بینی تعداد واحدهای مسکونی مورد نیاز تا سال 1404

20 پیش‌بینی قیمت مسکن تا سال 1404

21 تعیین عوامل مؤثر بر تورم در سه دهه گذشته اقتصاد ایران

22 برآورد مهاجرین بین استانی در سال‌های بین دو سرشماری 1385 تا 1390

23 تقسيم‌بندي كشور به مناطق همگن كشاورزي

24 بررسی توزیع مشاغل در کشور

25 برآورد پس‌انداز و درآمد خانوار

26 بررسی روند سن ازدواج در ایران و عوامل موثر بر آن

27 بررسی رابطه شغل و درامد در کشور

28 تعیین شاخص‌های مناسب برای طبقه‌بندی کشور به مناطق همگن اجتماعی و اقتصادی 

29 بررسی جریان بازار کار دانش آموختگان مراکز آموزش عالی

30 شاخص‌های مسکن امن

31 بررسی وضعیت سواد و تحصیلات

32 بررسی وضعیت سالمندان

33 بررسی وضعیت اقتصادی و اجتماعی جوانان

34 تحلیل نتایج سرشماری عمومی نفوس و مسکن 1390 

35 شناسایی عوامل موثر بر ترک تحصیل در ایران

36 بررسی عوامل موثر بر افزایش شکاف ثروت با استفاده از روش تحلیل مولفه‌های اصلی

37 شناسایی مشخصه‌های مشترک برای تلفیق طرح نیروی کار و هزینه و درآمد خانوار

38 بررسی الگوی مصرف خانوارها پس از هدفمندسازی یارانه‌ها

39 براورد جمعیت شهرستان‌های کشور براساس تطبیق محدوده‌های جغرافیایی 1391

40 براورد مهاجرین در سال‌های بین سرشماری

41 بررسی رابطه‌ی تورم و نرخ بیکاری

42 بررسی روند و ترکیب صادرات و واردات کشور طی سال‌های متوالی

43 امکان‌سنجی پیش‌بینی رشد اقتصادی مبتنی بر مدل‌های آماری

44 بررسی هزینه‌های زندگی در کلان شهرها

45 بررسی اشتغال در ایران بر اساس تعداد ساعت کار


ارزیابی

1 ارزیابی داده‌های باروری در سرشماری‌های عمومی نفوس و مسکن با استفاده از روش‌های جمعیت شناسی

طراحی نرم‌افزارها و بانک‌های اطلاعاتی

1 طراحی نرم‌افزار بومی پیش‌بینی جمعیت

2 طراحی نرم‌افزار انطباق رکوردها در آمارگیری‌ها

3 روش‌های بررسی قابلیت اعتماد نرم‌افزارها در فرایند پردازش داده‌ها

4 امکان سنجی استفاده از نرم افزارCSPro در طرح‌های آمارگیری

5 توسعه نرم‌افزار پارس

6 تهیه نرم‌افزار شناسنامه آبادی‌های کشور

7 انطباق فایل سرشماری1390 با فایل ثبت‌ احوال

8 انطباق فایل سرشماری عشایری 1387 با فایل ثبت‌ احوال

9 تجزیه و تحلیل آمارهای ثبتی (وقایع چهارگانه حیاتی)



سوالات آزمون جامع دکترا سنجش-22 تیر 1391- ساعت 8:45 الی 1:15. نظریه سوال-پاسخ

نظریه سوال-پاسخ

1.       نامتغیر بودن پارامترهای سوال و توانایی را چگونه توجیه می کنید؟ چرا این ویژگی در مدل کلاسیک وجود ندارد؟

2.       در فرایند همترازسازی نمرات آزمون ها وجود چه شرایطی لازم است و چه عواملی را باید در نظر گرفت؟

3.       ماتریس زیر حاوی پاسخ های 5 نفر به 4 سوال پنج گزینه ای می باشد. با استفاده از روش JML پارامترهای سوال و توانایی را برآورد کرده و در مورد برازش داده ها با مدل یک پارامتری اظهار نظر کنید.

 

سوالات

 

افراد

4

3

2

1

1

0

1

1

A

0

1

0

1

B

1

1

1

0

C

1

0

1

0

D

0

1

0

1

E

 

4.       مفروضات الگوی دو جمله ای را نام ببرید.

5.       کاربردهای عملی خصیصه مکنون را شرح دهید.

استفاده از نظريه سوال پاسخ براي مقايسه ي نمرات افتراقي مانند نمرات پيش آزمون و پس آزمون

يكي از دغدغه هاي پژوهش هايي كه پيش آزمون و پس آزمون دارند، اثري است كه پيش آزمون بر نمرات پس آزمون مي گذارد و روشهاي مختلفي در ادبيات طرح هاي آزمايشي و روش تحقيق براي كنترل آن در نظر گرفته شده است. يك آزمون پيشرفت را در نظر بگيريد. در آزمون هاي پيشرفت مشاهده عملكرد پايين در پيش آزمون نسبت به پس آزمون معمول است. با آگاهي از اين آزمون ساز ممكن است سوالات آسان تري براي پيش آزمون و سوالات دشوارتري را براي پس آزمون بر گزيند. در هر موقعيت تستي دقت اندازه گيري در ناحيه اي از توانايي كه به احتمال بيشتر آزمودني ها در آنجا قرار گرفته اند، بيشينه مي شود. از اين گذشته، بخاطر آن كه هر دو آزمون توانايي واحدي را اندازه مي گيرند، و برآوردهاي توانايي به گروه خاصي از سوالات بستگي ندارد، مي توان رشد را از طريق كم كردن برآورد توانايي پيش آزمون از برآورد هاي توانايي پس آزمون اندازه گيري كرد.

ﻣﻘﺎﯾﺴﻪ ﻣﺪل اﻧﺪازهﮔﯿﺮی ﮐﻼﺳﯿﮏ و ﻣﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ      ﺳﺆالـ ﭘﺎﺳﺦ از ﻧﻈﺮ وﯾﮋﮔﯽﻫﺎی ﺳﺆال   

Archive of SID

ﻣﻘﺎﯾﺴﻪ ﻣﺪل اﻧﺪازهﮔﯿﺮی ﮐﻼﺳﯿﮏ و ﻣﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ    

ﺳﺆالـ ﭘﺎﺳﺦ از ﻧﻈﺮ وﯾﮋﮔﯽﻫﺎی ﺳﺆال    

دﮐﺘﺮ ﻋﻠﯽ دﻻور

  

ﻋﻠﯽ ﻣﻘﺪم زاده

∗∗

  

ﺳﯿﺪه ﻃﯿﺒﻪ ﻣﻄﯿﻌﯽ ﻟﻨﮕﺮودی

∗∗∗

  

   

ﭼﮑﯿﺪه   

ﻫﺪف ﭘﮋوﻫﺶ ﺣﺎﺿﺮ، ﻣﻘﺎﯾﺴﻪ دو ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ اﻧﺪازهﮔﯿﺮی و ﻣﺪل                   

ﺳﺆال ـ ﭘﺎﺳﺦ ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ از ﻧﻈﺮ وﯾﮋﮔﯽﻫﺎی ﺳﺆال ﺑﻮده اﺳﺖ.  روش ﺗﺤﻘﯿﻖ از ﻧﻮع

ﮐﺎرﺑﺮدی ـ ﺗﻮﺻﯿﻔﯽ ﺑﻮده و ﺑﺮای دﺳﺘﯿﺎﺑﯽ ﺑﻪ اﯾﻦ ﻫﺪف، ﭘﮋوﻫﺶ ﺗﻮﺻﯿﻔﯽ اﻧﺠﺎم ﺷﺪه اﺳﺖ. 

در ﺑﺮرﺳﯽ ﻋﻤﻠﯽ، ﺑﺮای آزﻣﻮن اﺧﺘﺼﺎﺻﯽ رﯾﺎﺿﯽ، از ﭘﺎﺳﺨﻨﺎﻣﻪﻫﺎی داوﻃﻠﺒﺎن رﺷﺘﻪ رﯾﺎﺿﯽ ـ

ﻓﯿﺰﯾﮏ در آزﻣﻮن ورودی داﻧﺸﮕﺎهﻫﺎی ﮐﺸﻮر در ﺳﺎل 1384 اﺳﺘﻔﺎده ﺷﺪ.  از ﺑﯿﻦ ﮐﻠﯿﻪ

داوﻃﻠﺒﺎن رﺷﺘﻪ رﯾﺎﺿﯽ ـ ﻓﯿﺰﯾﮏ ﺷﺮﮐﺖﮐﻨﻨﺪه در آزﻣﻮن ﺳﺎل 1384، ﺑﻪ روش ﻧﻤﻮﻧﻪﮔﯿﺮی

ﺳﯿﺴﺘﻤﺎﺗﯿﮏ، ﯾﮏ ﮔﺮوه ﻧﻤﻮﻧﻪ 3000 ﻧﻔﺮی اﻧﺘﺨﺎب ﺷﺪ و ﺳﻪ ﺳﺆال اﯾﻦ ﭘﮋوﻫﺶ، ﻣﻮرد ﺑﺮرﺳﯽ

ﻗﺮار ﮔﺮﻓﺖ.  ﺑﺮای ﺗﺤﻠﯿﻞ دادهﻫﺎ از روشﻫﺎی آﻣﺎری ﻣﻮرد اﺳﺘﻔﺎده در ﻣﺪل ﮐﻼﺳﯿﮏ (ﺷﺎﻣﻞ

ﻣﯿﺎﻧﮕﯿﻦ ﯾﺎ درﺟﻪ دﺷﻮاری ﺳﺆاﻻت، وارﯾﺎﻧﺲ ﺳﺆاﻻت و ﻫﻤﺒﺴﺘﮕﯽ دورﺷﺘﻪای)  اﺳﺘﻔﺎده ﺷﺪ. 

ﺑﺮای ﺗﺤﻠﯿﻞ دادهﻫﺎ در ﻧﻈﺮﯾﻪ ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆال ـ ﭘﺎﺳﺦ، از روش آزﻣﻮن t واﺑﺴﺘﻪ، ﺿﺮﯾﺐ

ﻫﻤﺒﺴﺘﮕﯽ و آزﻣﻮن ﻣﻌﻨﯽداری اﺳﺘﻔﺎده ﺷﺪ.  ﻧﺘﺎﯾﺞ ﺗﺤﻘﯿﻖ ﻧﺸﺎن داد ﮐﻪ ﭘﺎراﻣﺘﺮﻫﺎی ﻣﺤﺎﺳﺒﻪ

ﺷﺪه ﺳﺆال در ﻣﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆال ـ ﭘﺎﺳﺦ، ﺑﺮﻋﮑﺲ ﻣﺪل ﮐﻼﺳﯿﮏ، واﺑﺴﺘﻪ ﺑﻪ ﺳﺆال

                                                          

∗ اﺳﺘﺎد داﻧﺸﮑﺪه روان ﺷﻨﺎﺳﯽ و ﻋﻠﻮمﺗﺮﺑﯿﺘﯽ داﻧﺸﮕﺎه ﻋﻼﻣﻪﻃﺒﺎﻃﺒﺎﯾﯽ_(delavarali@yahoo.com)  

∗∗ ﮐﺎرﺷﻨﺎس ارﺷﺪ ﺳﻨﺠﺶ و اﻧﺪازهﮔﯿﺮی داﻧﺸﮕﺎه ﻋﻼﻣﻪﻃﺒﺎﻃﺒﺎﯾﯽ و دﻓﺘﺮ آزﻣﻮنﺳﺎزی و روانﺳﻨﺠﯽ ﺳﺎزﻣﺎن ﺳﻨﺠﺶ آﻣﻮزش

  (Irsoyali_s2000@yahoo.com )ﮐﺸﻮر

∗∗∗ ﮐﺎرﺷﻨﺎس ارﺷﺪ ﺗﺤﻘﯿﻘﺎت آﻣﻮزﺷﯽ داﻧﺸﮕﺎه ﺗﻬﺮان و دﻓﺘﺮ آزﻣﻮنﺳﺎزی و روانﺳﻨﺠﯽ ﺳﺎزﻣﺎن ﺳـﻨﺠﺶ آﻣـﻮزش ﮐـﺸﻮر ( 

  (stml90@yahoo.com

www.SID.irArchive of SID

ﻓﺼﻠﻨﺎﻣﮥ ﻧﻮآورﯾﻬﺎی آﻣﻮزﺷﯽ، ﺷﻤﺎرۀ 18، ﺳﺎل ﭘﻨﺠﻢ، زﻣﺴﺘﺎن 1385

                              

42

اﺳﺖ ﻧﻪ ﺑﻪ آزﻣﻮدﻧﯽ.  ﺑﻨﺎﺑﺮاﯾﻦ، ﻣﯽﺗﻮان ﻧﺘﯿﺠﻪ ﮔﺮﻓﺖ ﮐﻪ ﻧﻈﺮﯾﻪ   ﺳﺆال ـ ﭘﺎﺳﺦ ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ،

ﻫﻢ از ﻟﺤﺎظ ﻧﻈﺮی و ﻫﻢ از ﻟﺤﺎظ ﻋﻤﻠﯽ ﺑﺮ ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ  ﻣﺰﯾﺖ و ﺑﺮﺗﺮی دارد.  

ﮐﻠﯿﺪ واژﮔﺎن: ﻣﺪل ﮐﻼﺳﯿﮏ اﻧﺪازهﮔﯿﺮی، ﻣﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆال ـ ﭘﺎﺳﺦ، وﯾﮋﮔﯽﻫﺎی ﺳﺆال.  

  

ﻣﻘﺪﻣﻪ   

ﺑﻪﻗﻮل ﺛﺮﻧﺪاﯾﮏ

1

 (1982)  ﺗﺎرﯾﺦ اﻧﺪازهﮔﯿﺮیﻫﺎی رواﻧﯽ و ﺗﺮﺑﯿﺘﯽ در ﻗﺮن ﺑﯿﺴﺘﻢ ، در واﻗﻊ

ﺗﺎرﯾﺦ ﮐﺸﻒ و اﺧﺘﺮاع اﺑﺰارﻫﺎ و روشﻫﺎی اﻧﺪازهﮔﯿﺮی اﺳﺖ ﮐﻪ ﺑﻪ ﻃﺮﯾﻘﯽ اﺳﺘﺎﻧﺪارد و ﺗﺤﺖ ﺷﺮاﯾﻂ

ﯾﮑﺴﺎن، رﻓﺘﺎرﻫﺎﯾﯽ را ﮐﻪ ﻣﻨﻌﮑﺲ ﮐﻨﻨﺪه ﺧﺼﯿﺼﻪﻫﺎی اﻓﺮاد اﺳﺖ، آﺷﮑﺎر ﻣﯽﮐﻨﺪ و ﻣﻮرد ﺳﻨﺠﺶ

ﻗﺮار ﻣﯽدﻫﺪ.  اراﺋﻪ ﻧﻈﺮﯾﻪﻫﺎی ﻧﻮﯾﻦ اﻧﺪازهﮔﯿﺮی در ﻗﺮن ﺣﺎﺿﺮ، ﺑﻪ ﭘﯿﺸﺮﻓﺖ ﻓﻨﻮن و اﺑﺰارﻫﺎی

اﺳﺘﺎﻧﺪارد ﺷﺪهای اﻧﺠﺎﻣﯿﺪه اﺳﺖ ﮐﻪ اﻧﺪازهﮔﯿﺮی و ﺗﺒﺪﯾﻞ ﺗﻮاﻧﺶﻫﺎی ﻓﺮدی ﺑﻪ ﻣﻘﯿﺎسﻫﺎی ﻗﺎﺑﻞ ﻗﺒﻮل

ﺑﺮای ﺗﻮﺻﯿﻒ، ﺗﻔﺴﯿﺮ و ﺑﺮآورد ﺗﻔﺎوتﻫﺎی ﻓﺮدی را اﻣﮑﺎنﭘﺬﯾﺮ ﻣﯽﺳﺎزد (اﻓﺮوز و ﻫﻮﻣﻦ، 1375). 

ﺗﻼشﻫﺎی ﻧﺨﺴﺘﯿﻦ ﺑﺮای ﺗﮑﻮﯾﻦ ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ اﻧﺪازهﮔﯿﺮی

2

در دﻫﻪ 1890 آﻏﺎز ﺷﺪ. اﯾﻦ ﻧﻈﺮﯾﻪ، از

روشﻫﺎی دﯾﺮﯾﻨﻪ ﺑﺮای ﺳﺎﺧﺖ و ﺗﻮﺳﻌﻪ آزﻣﻮنﻫﺎ در ﺣﻮزه ﻋﻠﻮم اﻧﺴﺎﻧﯽ اﺳﺖ ﮐﻪ از اواﯾﻞ دﻫﻪ

1900 ﺑﺮای ﺗﻮﺳﻌﻪ اﺑﺰارﻫﺎی اﻧﺪازهﮔﯿﺮی و ﺗﻌﯿﯿﻦ ﻣﯿﺰان ﻫﻤﺨﻮاﻧﯽ آزﻣﻮنﻫﺎ ﺑﺎ ﻧﻈﺮﯾﻪ و ﻧﻤﺮهﮔﺬاری

اﻣﺘﺤﺎﻧﺎت اﺳﺘﻔﺎده ﺷﺪه اﺳﺖ. اوج ﺗﮑﺎﻣﻞ  اﯾﻦ ﻧﻈﺮﯾﻪ را ﺑﻌﺪ از اﺳﭙﯿﺮﻣﻦ

3

، ﻣﯽﺗﻮان در دو ﮐﺘﺎب: (1) 

«ﻣﺒﺎﻧﯽ ﻧﻈﺮی آزﻣﻮنﻫﺎی رواﻧﯽ

4

»  ﮔﺎﻟﯿﮑﺴﻦ

5

 (1950)  و «ﺗﺌﻮریﻫﺎی آﻣﺎری ﻧﻤﺮات آزﻣﻮنﻫﺎی

رواﻧﯽ

6

  ﻟﺮد و ﻧﺎوﯾﮏ

7

 (1968) ﻣﺸﺎﻫﺪه ﮐﺮد (ﻫﻤﺒﻠﺘﻮن و واﻧﺪر ﻟﯿﻨﺪن

8

  .(1982 ،

ﮔﺮﭼﻪ ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ اﻧﺪازهﮔﯿﺮی ﻣﺪت زﻣﺎن ﻃﻮﻻﻧﯽ ﺑﻪ ﺟﺎﻣﻌﻪ روان ﺳﻨﺠﯽ ﺧﺪﻣﺖ ﮐﺮده

اﺳﺖ؛ اﻣﺎ ﺑﺮﺧﯽ ﻣﻄﺎﻟﻌﺎت، ﻣﺤﺪودﯾﺖﻫﺎﯾﯽ را در اﯾﻦ ﻧﻈﺮﯾﻪ (از ﺟﻤﻠﻪ ﮔﺎﻟﯿﮑﺴﻦ، 1950؛ ﻟﺮد و

ﻧﺎوﯾﮏ، 1968؛ ﻫﻤﺒﻠﺘﻮن و ﺳﻮاﻣﯿﻨﺎﺗﺎن و راﺟﺮز

9

، 1991 ) و در آزﻣﻮنﻫﺎی ﺳﺎﺧﺘﻪ ﺷﺪه ﺑﺮ اﺳﺎس آن

ﻧﺸﺎن ﻣﯽدﻫﺪ (رک: ﻟﺮد، 1980 و ﻫﻤﺒﻠﺘﻮن، 1989).   

زﻣﯿﻨﻪ اراﺋﻪ ﻧﻈﺮﯾﻪﻫﺎی ﺟﺪﯾﺪ اﻧﺪازهﮔﯿﺮی، از اواﯾﻞ ﻧﯿﻤﻪ دوم ﻗﺮن ﺑﯿﺴﺘﻢ و ﺑﻪ وﺳﯿﻠﻪ اﻓﺮادی

ﭼﻮن ﻟﺮد (در ﺳﺎلﻫﺎی 1952ﺗﺎ 1953  )، راش

10

 (1958 ﺗﺎ 1968  )، راﯾﺖ

11

 (1968)، ﻫﻤﺒﻠﺘﻮن

(1979 و 1983)  و ... ﻓﺮاﻫﻢ ﺷﺪ.  ﻧﻈﺮﯾﺎت ﺟﺪﯾﺪ اﻧﺪازهﮔﯿﺮی، ﭼﻪ از ﻟﺤﺎظ روشﻫﺎی آﻣﺎری و ﺑﻪ

ﮐﺎرﮔﯿﺮی ﺗﻮاﺑﻊ و ﻣﺪلﻫﺎی رﯾﺎﺿﯽ و ﭼﻪ از ﺟﻬﺖ ﻣﻔﺮوﺿﻪﻫﺎی ﻧﻈﺮی و ﻧﺘﺎﯾﺞ ﮐﺎرﺑﺮدی، ﺗﻔﺎوتﻫﺎی

ﭼﺸﻤﮕﯿﺮی ﺑﺎ ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ اﻧﺪازهﮔﯿﺮی دارد.  اﯾﻦ ﻧﻈﺮﯾﻪ در دﻫﻪ 1950 ﺑﻪﻋﻨﻮان ﯾﮏ ﺟﺎﯾﮕﺰﯾﻦ

ﺑﺮای ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ اﻧﺪازهﮔﯿﺮی ﻣﻌﺮﻓﯽ ﺷﺪ.  

                                                          

  1.  Thorndike                                 2.  classical test theory (CTT)      3.  Spearman 

  4.  theory of mental tests               5.  Gulliksen

6.  statistical theories of mental test scores                                        7.  Lord & Novick 

8.  Hambleton & Vander Linden                                                        9. Ragerz                  

  10.  Rasch                                      11.  Wright

www.SID.irArchive of SID

                                                      ﻣﻘﺎﯾﺴﻪ ﻣﺪل اﻧﺪازهﮔﯿﺮی ﮐﻼﺳﯿﮏ و ﻣﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ... 43

ﻧﻈﺮﯾﻪ ﺳﺆال- ﭘﺎﺳﺦ، ﯾﮏ ﻧﻈﺮﯾﻪ ﺟـﺎﻣﻊ آﻣـﺎری درﺑـﺎره ﻋﻤﻠﮑـﺮد ﺳـﺆال آزﻣـﻮن و آزﻣـﻮدﻧﯽ و

ﭼﮕﻮﻧﮕﯽ ﺳﻨﺠﺶ ﺗﻮاﻧﺎﯾﯽﻫﺎﯾﯽ اﺳﺖ. ﻣﻘﯿﺎس ﺳﺆال – ﭘﺎﺳﺦﻫﺎ ﻣﯽﺗﻮاﻧﺪ ﮔﺴﺴﺘﻪ ﯾﺎ ﭘﯿﻮﺳﺘﻪ ﺑﺎﺷﺪ؛ ﻣـﯽ

ﺗﻮاﻧﺪ دوارزﺷﯽ و ﯾﺎ ﭼﻨﺪارزﺷﯽ ﻧﻤﺮهﮔﺬاری ﺷﻮد؛ ﻃﺒﻘﺎت ﻧﻤﺮه ﺳﺆال ﻣﯽﺗﻮاﻧـﺪ ﻣـﻨﻈﻢ و ﯾـﺎ ﻧـﺎﻣﻨﻈﻢ

ﺑﺎﺷﺪ؛ ﯾﮏ ﺗﻮاﻧﺎﯾﯽ ﯾﺎ ﭼﻨﺪ ﺗﻮاﻧﺎﯾﯽ ﻣـﯽﺗﻮاﻧـﺪ در آزﻣـﻮن ﻣـﺴﺘﺘﺮ ﺑﺎﺷـﺪ؛ ﻫـﻢﭼﻨـﯿﻦ در ارﺗﺒـﺎط ﺑـﯿﻦ            

ﺳﺆال – ﭘﺎﺳﺦﻫﺎ و ﺗﻮاﻧﺎﯾﯽ ﯾﺎ ﺗﻮاﻧﺎﯾﯽﻫﺎﯾﯽ ﮐﻪ ﻣﯽﺗﻮاﻧﺪ ﻣﺸﺨﺺ ﺷﻮد، ﭼﻨﺪ روش (ﯾﺎ ﻣـﺪل) وﺟـﻮد

دارد (ﻫﻤﺒﻠﺘﻮن و ﺟﻮﻧﺰ

1

   .( 1993 ،

اﯾﻦ ﻧﻈﺮﯾﻪ ﺑﺮ ﻧﻈﺮﯾﻪ ﯾﺎ اﻟﮕﻮی ﺻﻔﺖ ﻣﮑﻨﻮن اﺳﺘﻮار اﺳﺖ. ﻧﻈﺮﯾﻪ ﺳـﺆال- ﭘﺎﺳـﺦ ﺑـﺎ اﺳـﺘﻔﺎده از

ﻣﺪلﻫﺎی رﯾﺎﺿﯽ ﭘﯿﭽﯿﺪهﺗﺮ از آﻧﭽﻪ در ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ اﻧﺪازهﮔﯿﺮی ﺑﻪﮐﺎر ﻣﯽرود، ﯾﮏ ﺗـﺎﺑﻊ رﯾﺎﺿـﯽ

ﺑﻪدﺳﺖ ﻣﯽدﻫﺪ ﮐﻪ ﺑﺎ اﺳﺘﻔﺎده از آن ﻣﯽﺗﻮان اﺣﺘﻤﺎل ﭘﺎﺳﺦ درﺳﺖ ﺑﻪ ﯾﮏ ﺳﺆال آزﻣـﻮن را ﺑـﻪﻋﻨـﻮان

ﺗﺎﺑﻌﯽ از «ﺗﻮاﻧﺎﯾﯽ

2

» آزﻣﻮدﻧﯽ و ﻫﻢﭼﻨﯿﻦ ﺑﺮﺧﯽ وﯾﮋﮔﯽﻫﺎی ﺳﺆال ﻣﻌﺮﻓﯽ ﮐﺮد. ﺑـﻪ ﺳـﺨﻦ دﯾﮕـﺮ، در

ﻧﻈﺮﯾﻪ ﺳﺆال – ﭘﺎﺳﺦ، ﻓﺮض ﺑﺮ اﯾﻦ اﺳﺖ ﮐﻪ ً ﻣﺜﻼ اﺣﺘﻤﺎل ﭘﺎﺳﺦ درﺳﺖ دادن ﺑﻪ ﯾﮏ ﺳـﺆال ﺟﺒـﺮ ﺑـﺎ

اﻓﺰاﯾﺶ داﻧﺶ ﺟﺒﺮ آزﻣﻮدﻧﯽ اﻓﺰاﯾﺶ ﻣﯽﯾﺎﺑﺪ و اﯾﻦ، ﺑﺎﻟﻘﻮه ﯾﮏ ﺑﯿﺎن ﻣﻨﻄﻘﯽ اﺳﺖ (ﺳﯿﻒ، 1380).  

ﻣﺪلﻫﺎی ﻧﻈﺮﯾﻪ ﺳﺆال ـ ﭘﺎﺳﺦ را ﻣﯽﺗﻮان ﺑﻪ دو ﻧـﻮع ﭘﺎراﻣﺘﺮﯾـﮏ و ﻧﺎﭘﺎراﻣﺘﺮﯾـﮏ ﺗﻘـﺴﯿﻢ ﮐـﺮد. 

ﻣﺪلﻫﺎی ﻧﺎﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆال ـ ﭘﺎﺳﺦ، اﺟﺎزه ﻣﯽدﻫﺪ ﮐﻪ ﭘﺎراﻣﺘﺮﻫﺎی ﻫﺮ ﺳﺆال، ﻣﺜﻞ ﺿﺮﯾﺐ دﺷﻮاری و

ﺿﺮﯾﺐ ﺗﻤﯿﺰ ﺳﺆال را ﺑﺎ رﺗﺒﻪﺑﻨﺪی ﭘﺎﺳﺦدﻫﻨﺪﮔﺎن ﺑﺮ اﺳﺎس ﻧﻤﺮه آنﻫـﺎ (ﺗﻌـﺪاد ﭘﺎﺳـﺦﻫـﺎی درﺳـﺖ

ﺑﻪﻋﻼوه ﺧﻄﺎی ﺗﺼﺎدﻓﯽ) ﮐﻪ روی θ ﻣﺮﺗﺐ ﺷﺪهاﺳﺖ، ﺑﺮآورد ﮐﻨﯿﻢ.      

ﻣﻮﻓﻘﯿﺖ در ﮐﺎرﺑﺮد ﻣﺪلﻫـﺎی ﻏﯿﺮﭘﺎراﻣﺘﺮﯾـﮏ ﺳـﺆال- ﭘﺎﺳـﺦ (IRT) ﺑـﺮ ﻓـﺮض ﻫـﺎی ﻣﻌﯿﻨـﯽ

اﺳﺘﻮاراﺳﺖ ﮐﻪ ﺑﻪ ﻣﺎﻫﯿﺖ ﭘﺎﺳﺦ ﺳﺆاﻻت ﺑﺮ ﻣﯽ ﮔﺮدد. ﺑﻪﻋﺒﺎرت دﯾﮕﺮ، ﻣـﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾـﮏ ﺳـﺆال-

ﭘﺎﺳﺦ ﺑﺮ ﭘﺎﯾﻪ ﻓﺮضﻫﺎﯾﯽ ﺑﻨﺎ ﺷﺪه اﺳﺖ.اﯾﻦ ﻣﺪل ﻣﺒﺘﻨﯽ ﺑﺮ ﺳﻪ ﻓﺮض اﺳﺎﺳﯽ اﺳﺖ ؛اوﻟـﯿﻦ ﻓـﺮض ﺑـﺎ

ﺳﺎﺧﺘﺎر اﺑﻌﺎد دادهﻫﺎی آزﻣﻮن؛ دوﻣﯽ ﺑﺎ ﺷﮑﻞ رﯾﺎﺿﯽ ﺗﺎﺑﻊ وﯾﮋﮔﯽ ﺳﺆال ﯾﺎ ﻣﻨﺤﻨﯽ وﯾﮋه ﺳﺆال، ﮐﻪ ﺑـﺎ

ICC ﻧﺸﺎن داده ﻣﯽﺷﻮد (ﻫﻤﺒﺘﻠﻮن و ﺟﻮﻧﺰ، 1993) و ﺳﻮﻣﯽ ﺑﺎ ﯾﮑﻨﻮاﺧﺘﯽ ﺗﻮاﺑﻊ ﺳﺆال – ﭘﺎﺳـﺦﻫـﺎ

ارﺗﺒﺎط دارد.  

  

اﻟﻒ – ﺗﮏﺑﻌﺪی ﺑﻮدن    

اوﻟﯿﻦ ﻓﺮض، ﺗﮏﺑﻌﺪی ﺑﻮدن اﺳﺖ.  ﯾﻌﻨﯽ، ﻫﻤﻪ ﺳﺆاﻻت آزﻣﻮن ﯾﮏ ﺻﻔﺖ ﻣﮑﻨﻮن ﻣﺸﺎﺑﻪ را

اﻧﺪازه ﻣﯽﮔﯿﺮﻧﺪ (ﺳﯿﺠﺖﺳﻤﺎ و ﻣﻮﻟﻨﺎر2002). ﺑﻪ ﺗﻌﺒﯿﺮ دﯾﮕﺮ، ﺗﮏﺑﻌﺪی ﺑﻮدن آزﻣﻮن ـ ﯾﻌﻨﯽ اﺣﺘﻤﺎل

ﻋﻤﻠﮑﺮد ﻣﻮﻓﻘﯿﺖآﻣﯿﺰ آزﻣﻮدﻧﯽ در ﻣﺠﻤﻮﻋﻪای از ﺳﺆاﻻت ـ را ﻣﯽﺗﻮان ﺑﻪﺻﻮرت ﯾﮏ ﻣﺪل رﯾﺎﺿﯽ

ﮐﻪ ﻓﻘﻂ ﯾﮏ ﭘﺎراﻣﺘﺮ ﺗﻮاﻧﺎﯾﯽ دارد، اراﺋﻪ ﮐﺮد (دراﻧﺰ و ﮐﯿﻨﮕﺴﺘﻦ

3

، 1985 ). اﻟﺒﺘﻪ ﻫﻤﺒﻠﺘﻮن (1989) 

                                                          

1. Hambleton & Jones                         2.  ability                      3. Dorans & Kingston        

    

www.SID.irArchive of SID

ﻓﺼﻠﻨﺎﻣﮥ ﻧﻮآورﯾﻬﺎی آﻣﻮزﺷﯽ، ﺷﻤﺎرۀ 18، ﺳﺎل ﭘﻨﺠﻢ، زﻣﺴﺘﺎن 1385

                              

44

ﻣﯽﮔﻮﯾﺪ ﮐﻪ ﻓﺮض ﺗﮏﺑﻌﺪی ﺑﻪﺻﻮرت ﮐﺎﻣﻞ ﺻﺎدق ﻧﺨﻮاﻫﺪ ﺑﻮد، زﯾﺮا ﻫﻤﯿﺸﻪ ﯾﮏﺳﺮی ﻋﻮاﻣﻞ

ﺷﻨﺎﺧﺘﯽ، ﺷﺨﺼﯿﺘﯽ، اﺟﺮاﯾﯽ و ... وﺟﻮد دارد ﮐﻪ – ﺣﺪاﻗﻞ ﺗﺎ اﻧﺪازهای – ﻋﻤﻠﮑﺮد در آزﻣﻮن را

ﺗﺤﺖﺗﺄﺛﯿﺮ ﻗﺮار ﻣﯽدﻫﺪ.  ﻫﻤﺒﻠﺘﻮن وﮐﻮک (1977)  ﺑﻪﻧﻘﻞ از ﻟﺮد در 1968 ﻣﯽﻧﻮﯾﺴﻨﺪ ﮐﻪ ﻓﺮض

ﺗﮏﺑﻌﺪی ﺑﻮدن در ﻣﻮرد ﻣﺠﻤﻮﻋﻪ ﺳﺆاﻻت آزﻣﻮنﻫﺎی ﭼﻨﺪﮔﺰﯾﻨﻪای، ﺑﻪﻃﻮر ﮐﺎﻣﻞ ﺑﺮای ﺑﺴﯿﺎری از

آزﻣﻮنﻫﺎ ﻣﺼﺪاق ﻧﺪارد؛ ﻫﺮ ﭼﻨﺪ ﻟﺮد اﺿﺎﻓﻪ ﻣﯽﮐﻨﺪ ﮐﻪ در ﺑﻌﻀﯽ ﻣﻮارد ﺑﺎ ﺗﻘﺮﯾﺐ ﺧﻮﺑﯽ ﻗﺎﺑﻞ ﻗﺒﻮل

اﺳﺖ.   

  

ب- اﺳﺘﻘﻼل ﻣﻮﺿﻌﯽ    

ﻓﺮض اﺳﺘﻘﻼل ﻣﻮﺿﻌﯽ ﺑﻪ اﯾﻦ ﻣﻌﻨﯽ اﺳﺖ ﮐﻪ ﭘﺎﺳﺦ ﻓﺮد ﺑﻪ ﯾﮏ ﺳﺆال، ﺗﺤﺖﺗﺄﺛﯿﺮ ﭘﺎﺳﺦﻫﺎی او

ﺑﻪ ﺳﺆاﻻت دﯾﮕﺮ آزﻣﻮن ﻧﯿﺴﺖ. ﺑﺮای ﻣﺜﺎل، اﺳﺘﻘﻼل ﻣﻮﺿﻌﯽ ﻣﻤﮑﻦ اﺳﺖ ﺑﺎ ﯾﺎدﮔﯿﺮی ای ﮐﻪ ﺑـﺮ اﺛـﺮ

ﺗﻤﺮﯾﻦ ﺑﻪوﺟﻮد آﻣﺪه ﻧﻘﺾ ﺷﻮد (ذواﻟﻔﻘﺎر ﻧﺴﺐ،1385). اﯾﻦ اﻣﺮ در ﻃﻮل اﺟﺮای آزﻣﻮن، ﻫﻨﮕﺎﻣﯽ ﮐﻪ

ﻧﻤﺮهﮔﺬاری روی ﺻﻔﺖ ﻣﮑﻨﻮن ﺻﻮرت ﻣﯽﮔﯿﺮد، رخ ﻣﯽدﻫﺪ. در ﺻﻮرﺗﯽﮐﻪ اﺣﺘﻤﺎل ﭘﺎﺳﺦ ﺑﻪ ﺳـﺆال

ﻣﻌﯿﻨﯽ ﺑﺮای آزﻣﻮدﻧﯽ 0/2 ،A و ﺑﺮای آزﻣﻮدﻧﯽ 0/9 ،B ﺑﺎﺷـﺪ و ﭼﻨﺎﻧﭽـﻪ ﭘﺎﺳـﺦﻫـﺎی آزﻣـﻮدﻧﯽﻫـﺎ

ﺑﻪﺻﻮرت ﻣﻮﺿﻌﯽ ﻣﺴﺘﻘﻞ از ﯾﮑﺪﯾﮕﺮ ﺑﺎﺷﺪ، اﺣﺘﻤﺎل اﯾﻦﮐـﻪ ﻫـﺮ دوی آﻧﻬـﺎ ﭘﺎﺳـﺦ درﺳـﺖ ﺑﺪﻫﻨـﺪ،

ﻣﺴﺎوی ﺑﺎ 0/2)(0/9) =0/18) اﺳﺖ (آﻟﻦ و ﯾﻦ، 1979 / ﺗﺮﺟﻤﻪ ﻋﻠﯽ دﻻور، 1374).  

  

ج- ﯾﮑﻨﻮاﺧﺘﯽ ﺗﻮاﺑﻊ ﺳﺆال ﭘﺎﺳﺦﻫﺎ   

ﻓﺮض ﺑﻌﺪی اﯾﻦ اﺳﺖ ﮐﻪ اﺣﺘﻤﺎل ﺷﺮﻃﯽ ( θ)

p ﺑﻪﻃـﻮر ﯾﮑﻨﻮاﺧـﺖ روی θ ﺑـﺪون ﮐـﺎﻫﺶ i

اﺳﺖ. اﯾﻦ ﻓﺮض در ﻣﻌﺎدﻟﻪ1 ﻧﺸﺎن داده ﺷﺪه اﺳﺖ. ﺑﻪروﺷﻨﯽ ﻣﯽﺗﻮان دﯾـﺪ وﻗﺘـﯽ ﻫـﻢ ﮐـﻪ اﺣﺘﻤـﺎل

= 0 Xi

اﺳﺖ، ﺑﺎ ﺗﺎﺑﻊ ﺳﺆال ـ ﭘﺎﺳﺦ ﻗﺎﺑﻞ ﺗﻮﺻﯿﻒ اﺳﺖ.  

( = 0θ ) =1 − ( =1θ )                                    (1) ﻣﻌﺎدﻟﻪ

i

Xi

   p X p

ﻣﺪلﻫﺎی ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆال ـ ﭘﺎﺳﺦ، دو ﻧﻮع اﺳﺖ: (اﻟﻒ) ﻣﺪل ﻫﻤﮕﻨﯽ ﯾﮑﻨـﻮاﺧﺘﯽ

1

و (ب) 

ﻣﺪل ﻫﻤﮕﻨﯽ ﯾﮑﻨﻮاﺧﺘﯽ ﺟﻔﺘﯽ

2

. ﻣﺪل ﻫﻤﮕﻨﯽ ﯾﮑﻨﻮاﺧﺘﯽ ﺑﺮ ﻣﺒﻨﺎی ﻓﺮض ﺗﮏﺑﻌـﺪی ﺑـﻮدن، اﺳـﺘﻘﻼل

ﻣﻮﺿﻌﯽ و ﯾﮑﻨﻮاﺧﺘﯽ ﻗﺮار ﮔﺮﻓﺘﻪ اﺳﺖ. اﯾﻦ ﻣﺪل ﺑﻪﺻﻮرت ﻫﻤﮕﻮن اﯾﺠﺎد ﺷﺪهاﺳﺖ. ﺗﻮاﺑـﻊ ﺳـﺆال ـ

ﭘﺎﺳﺦ آن ﺑﻪﺻﻮرت ﯾﮑﻨﻮاﺧـﺖ ﺑـﻪ ﺻـﻔﺖ ﻣﮑﻨـﻮن ارﺗﺒـﺎط دارد. اﻫﻤﯿـﺖ ﮐـﺎرﺑﺮدی ﻣـﺪل ﻫﻤﮕﻨـﯽ

ﯾﮑﻨﻮاﺧﺘﯽ اﯾﻦ اﺳﺖ ﮐﻪ ﻣﯽﺗﻮان ﭘﺎﺳﺦدﻫﻨـﺪﮔﺎن را ﺑـﺎ ﻧﻤـﺮهﮐـﻞ، روی ﻣﻘﯿـﺎس θ رﺗﺒـﻪﺑﻨـﺪی ﮐـﺮد. 

ﺑﻨﺎﺑﺮاﯾﻦ، ﻣﺪﻟﯽ اﺳﺖ ﮐﻪ در آن، اﻓﺮاد ﺑﺮاﺳﺎس ﯾﮏ ﻣﻘﯿﺎس ﺗﺮﺗﯿﺒﯽ ﻣﻮرد اﻧﺪازهﮔﯿﺮی ﻗﺮار ﻣـﯽﮔﯿﺮﻧـﺪ. 

اﮔﺮ c را ﻣﻘﺪاری ﺛﺎﺑﺖ درﻧﻈﺮ ﺑﮕﯿﺮﯾﻢ و اﯾﻦ ﻣﻘﺪار ﺛﺎﺑﺖ را ﺑﺎ s و t ﺟﻤﻊ ﮐﻨـﯿﻢ، ﺑـﻪ ﺷـﺮط ﺑﺮﻗـﺮاری

  :داﺷﺖ ﺧﻮاﻫﯿﻢ o ≤ s ≤ t ≤ k راﺑﻄﻪ

                                                          

1. monotone homogeneity model

2. double  homogeneity model

www.SID.irArchive of SID

                                                      ﻣﻘﺎﯾﺴﻪ ﻣﺪل اﻧﺪازهﮔﯿﺮی ﮐﻼﺳﯿﮏ و ﻣﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ... 45

p( > c X = s) ≤ p( > c X = t)                              (2) ﻣﻌﺎدﻟﻪ θ +

θ +

                      

ﻣﻌﺎدﻟﻪ (2) ﺑﻪ اﯾﻦ ﻣﻌﻨﯽ اﺳﺖ ﮐﻪ اﻓﺮاد را ﻣﯽﺗﻮان ﺑﺎ

+

X ﺑﻪﺻﻮرت اﺣﺘﻤـﺎﻟﯽ روی θ رﺗﺒـﻪﺑﻨـﺪی

ﮐﺮد.  

دوﻣﯿﻦ ﻣﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆالـ ﭘﺎﺳﺦ ﺑﺮای ﺳـﺆاﻻت دوارزﺷـﯽ، ﻣـﺪل ﻫﻤﮕﻨـﯽ ﯾﮑﻨـﻮاﺧﺘﯽ

ﺟﻔﺘﯽ (DMM) اﺳﺖ. اﯾﻦ ﻣﺪل در ﺳﻪ ﻓﺮض ﺑﺎ اوﻟﯿﻦ ﻣﺪل ﻣﺸﺘﺮک اﺳﺖ.  ﺑـﺮای ﻓﻬـﻢ ﺑﻬﺘـﺮ اﯾـﻦ

ﻣﻄﻠﺐ، اول ﺑﻪ ﺳﺆالﻫﺎی دوارزﺷﯽ ﻣﯽﭘﺮدازﯾﻢ ﮐﻪ ﺑﻪﺻﻮرت ο و 1 ﻧﻤـﺮهﮔـﺬاری ﻣـﯽﺷـﻮﻧﺪ. ﻧﻤـﺮه

ﺷﺮﻃﯽ ﻣﻮرداﻧﺘﻈﺎر ﻫﺮ ﺳﺆال ﺑﺮاﺑﺮ اﺳﺖ ﺑﺎ ﻣﻘﺎدﯾﺮ ﺗﺎﺑﻊ ﺳﺆال ـ ﭘﺎﺳﺦ آن. ﯾﻌﻨﯽ:   

ﻣﻌﺎدﻟﻪ (3)  

( θ ) 0 ( 0θ ) 1 ( 1θ ) (θ )                   E X i

= × P X i

= + × P X i

= = Pi

  

ﺑﻪﻋﺒﺎرت دﯾﮕﺮ، ﺗﻐﯿﯿﺮﻧﺎﭘﺬﯾﺮی ﺗﺮﺗﯿﺐ ﺑﺮ اﯾﻦ دﻻﻟﺖ دارد ﮐـﻪ اﺣﺘﻤـﺎل ﭘﺎﺳـﺨﮕﻮﯾﯽ ﺑـﻪ ﺳـﺆال i

P j ﮐﻮﭼﮏﺗﺮ ﻣﺴﺎوی ﺳﺆال j اﺳﺖ:                                                  

≤Pi

  

ﺑﺮای ﺗﺤﻠﯿﻞ دادهﻫﺎ در ﻣﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆال– ﭘﺎﺳﺦ، دو ﺑﺮرﺳﯽ ﺻﻮرت ﻣﯽﮔﯿﺮد.  

Pi اﻟﻒ – ﺑﺮرﺳﯽ ﭘﺬﯾﺮش ﺳﺆال (

   (

در ﻧﻈﺮﯾﻪ ﺳﺆال ـ ﭘﺎﺳﺦ، ً ﻋﻤﻮﻣﺎ و ﻣـﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾـﮏ آن ً ﺧـﺼﻮﺻﺎ، وﯾﮋﮔـﯽﻫـﺎی ﺳـﺆاﻻت،

ﻣﺴﺘﻘﻞ از وﯾﮋﮔﯽﻫﺎی آزﻣﻮدﻧﯽﻫﺎی ﻧﻤﻮﻧﻪ ﻣﻌﯿﻦ و درواﻗﻊ ﺑـﺮ اﺳـﺎس ﺟﺎﻣﻌـﻪ آزﻣـﻮدﻧﯽﻫـﺎ ﺑـﺮآورد

ﻣﯽﺷﻮد (ﺳﯿﺠﺖﺳﻤﺎ و ﻣﻮﻟﻨﺎر2002). اﯾﻦ ﭘﺎراﻣﺘﺮ ﻧﺸﺎن ﻣﯽدﻫﺪ ﮐﻪ ﻣﻨﺤﻨﯽ وﯾﮋﮔﯽ ﺳـﺆال در ﮐﺠـﺎی

ﻣﻘﯿﺎس ﺗﻮاﻧﺎﯾﯽ ﻗﺮار دارد و ﻣﻌﺎدل دﺷﻮاری ﺳﺆال در ﻧﻈﺮﯾﻪ               ﺳﺆال ـ ﭘﺎﺳـﺦ در راﺑﻄـﻪ ﺑـﺎ

ﺳﻄﺢ ﺻﻔﺖ زﯾﺮﺑﻨﺎﯾﯽ θ اﺳﺖ (ﻣﻮﻟﻨﺎر، 1997).  

ب- ﺑﺮرﺳﯽ ﻣﻘﯿﺎسﭘﺬﯾﺮی ﺗﮏﺗﮏ ﺳﺆالﻫﺎ                                                                                                             

ﺷﻮد، ﺳـﺆال را در ﺗﻤﺎﯾﺰﮔـﺬاری ﯾـﺎ ﺗـﺸﺨﯿﺺ i ﻧﺸﺎن داده ﻣﯽ ﻗـﺪرت اﯾﻦ ﭘﺎراﻣﺘﺮ ﮐﻪ ﺑﺎ ﻧﻤﺎد H

آزﻣﻮدﻧﯽﻫﺎ در ﺳﻄﻮح ﻣﺨﺘﻠﻒ ﺗﻮاﻧﺎﯾﯽ ﻧﺸﺎن ﻣﯽدﻫﺪ و ﺗﻌﯿﯿﻦ ﻣﯽﮐﻨﺪ ﮐﻪ ﻫﺮ ﺳﺆال آزﻣﻮن ﺗﺎ ﭼﻪ ﺣـﺪ

ﻣﯽ ﺗﻮاﻧﺪ آزﻣﻮدﻧﯽﻫﺎ را در ﺳﻄﻮح ﻣﺨﺘﻠﻒ ﺗﻮاﻧﺎﯾﯽ ﺗﻔﮑﯿﮏ ﮐﻨﺪ. در واﻗﻊ، اﯾـﻦ ﭘـﺎراﻣﺘﺮ ﻧـﺸﺎندﻫﻨـﺪه

ﻫﻤﺴﻮﯾﯽ و ﻫﻤﺎﻫﻨﮕﯽ ﺳﺆال ﺑﺎ ﮐﻞ آزﻣﻮن اﺳﺖ و ﯾﺎ ﺑﯿﺎﻧﮕﺮ آن اﺳﺖ ﮐـﻪ آﯾـﺎ ﺳـﺆال ﻫﻤـﺎن وﯾﮋﮔـﯽ

ﻣﻮردﻧﻈﺮ آزﻣﻮن را اﻧﺪازهﮔﯿﺮی ﻣﯽﮐﻨﺪ ﯾﺎ ﻧﻪ؟ ﻫﺮ ﭼﻪ ﻗﺪر ﻗﺪرت ﺗـﺸﺨﯿﺺ ﺳـﺆال ﺑـﯿﺶ ﺗـﺮ ﺑﺎﺷـﺪ،

ﻧﺸﺎندﻫﻨﺪه اﯾﻦ اﺳﺖ ﮐﻪ آزﻣﻮدﻧﯽﻫﺎﯾﯽ ﺑﺎ ﺗﻮاﻧﺎﯾﯽ ﭘﺎﯾﯿﻦ، ﮐﻪ در ﮐﻞ آزﻣﻮن ﻋﻤﻠﮑﺮد ﭘﺎﯾﯿﻨﯽ داﺷـﺘﻪاﻧـﺪ،

ﺑﻪ اﺣﺘﻤﺎل زﯾﺎد ﺑﻪ ﺳﺆال ﻣﻮردﻧﻈﺮ ﻏﻠﻂ ﭘﺎﺳﺦ ﻣﯽ دﻫﻨﺪ و آزﻣﻮدﻧﯽﻫﺎﯾﯽ ﺑﺎ ﺳﻄﻮح ﺑﺎﻻی ﺗﻮاﻧﺎﯾﯽ، ﮐـﻪ

در ﮐﻞ آزﻣﻮن ﻋﻤﻠﮑﺮد ﺑﺎﻻﯾﯽ داﺷﺘﻪاﻧﺪ، ﺑﻪ اﺣﺘﻤﺎل زﯾﺎد ﺳﺆال ﻣﺰﺑـﻮر را ﺑـﻪﺻـﻮرت ﺻـﺤﯿﺢ ﭘﺎﺳـﺦ

www.SID.irArchive of SID

ﻓﺼﻠﻨﺎﻣﮥ ﻧﻮآورﯾﻬﺎی آﻣﻮزﺷﯽ، ﺷﻤﺎرۀ 18، ﺳﺎل ﭘﻨﺠﻢ، زﻣﺴﺘﺎن 1385

                              

46

ﻣﯽدﻫﻨﺪ. ﻟﺮد (1980) ﺑﯿﺎن ﻣﯽﮐﻨﺪ ﮐﻪ ﻣﯿﺰان اﯾﻦ ﭘﺎراﻣﺘﺮ ﻧﺸﺎن ﻣﯽدﻫﺪ ﮐﻪ ﻫـﺮ ﭼـﻪ ﺑـﻪ ﺳـﻤﺖ ﺑـﺎﻻی

ﺧﺼﯿﺼﻪ ﻣﮑﻨﻮن ﻣﻮرد ﺳﻨﺠﺶ ﺑﺮوﯾﻢ، اﺣﺘﻤﺎل ﭘﺎﺳﺦ ﺻﺤﯿﺢ ﺑﻪ ﺳﺆال اﻓﺰاﯾﺶ ﻣﯽﯾﺎﺑﺪ. ﭼﻨﺎﻧﭽـﻪ ﻧﻤـﺮه

i ﻧـﺸﺎن دﻫـﯿﻢ ﭘﺎﺳـﺦ دو ﻓﺮد (a) در ﯾﮏ آزﻣﻮن ﻣﻌﯿﻦ را ﺑﺎ X و ﭘﺎﺳﺦ وی ﺑﻪ ﻫـﺮ ﺳـﺆال را ﺑـﺎ u

،

ارزﺷـــﯽ و ﺷـــﺎﻣﻞ ﺻـــﻔﺮ و ﯾـــﮏ اﺳـــﺖ و ﻧﻤـــﺮه ﻫـــﺮ ﻓـــﺮد در ﯾـــﮏ آزﻣـــﻮن n ﺳـــﺆاﻟﯽ:  

( )  ( ) ∑

=

= =

n

i

Ta

Xa

uia

1

ε ε . در ﺻﻮرﺗﯽﮐﻪ ﻓﺮد در ﺳﻄﺢ ﺗﻮاﻧﺎﯾﯽ ﻣﺸﺨﺺ ﺑﺎﺷـﺪ، ﻋﺒـﺎرت ﻓـﻮق

ﺑﻪﺻﻮرت ﯾﮏ ﻋﺒﺎرت ﺷﺮﻃﯽ روی θ ﺗﻌﺮﯾﻒ ﻣﯽﺷﻮد: 

ε ( )

IA

θ

N

I

TA ∑ U

=

=

1

از ﻃﺮف دﯾﮕﺮ، ﻃﺒﻖ آزﻣﺎﯾﺶ ﺑﺮﻧﻮﻟﯽ

1

ﺑﺮای ﻣﺘﻐﯿﺮﻫﺎی دوﺟﻤﻠﻪای، اﺣﺘﻤﺎل ﺷـﺮﻃﯽ وﻗـﻮع ﯾـﮏ

ﺣﺎدﺛﻪ ﺑﻪﺻﻮرت زﯾﺮ اﺳﺖ: 

( ) ( ) ( )

( )

( ) θ

θ

ε θ θ θ

IA

IA IA

IA IA IA IA IA

P

P U

U P U P U

=

= =

= = + =

1

1. 1 0. 0

(ﻟﺮد و ﻧﺎوﯾﮏ، 1968 ).   

اﺣﺘﻤﺎل ﺑﺮوز ﯾﮏ ﭘﯿﺸﺎﻣﺪ ﻧﺎﺳﺎزﮔﺎر ﻋﺒﺎرت اﺳﺖ از ﻣﺠﻤـﻮع اﺣﺘﻤـﺎلﻫـﺎی ﻫـﺮ دو آن ﻫـﺎ ﮐـﻪ

ﻣﺴﺎوی ﯾﮏ ﺧﻮاﻫﺪ ﺑﻮد. از ﻃﺮﻓﯽ، در ﺗﻮزﯾﻊ دو ﺟﻤﻠـﻪای ﮐـﻪ در آن ﺑـﺎ ﻣﺘﻐﯿـﺮ دوارزﺷـﯽ ﮔﺴـﺴﺘﻪ

ﺳﺮوﮐﺎر دارﯾﻢ، در ﺻﻮرت ﺑﺮوز ﯾﮏ ﭘﯿﺸﺎﻣﺪ، ﭘﯿﺸﺎﻣﺪ دﯾﮕﺮ ﻏﯿﺮﻣﻤﮑﻦ ﺧﻮاﻫﺪ ﺑﻮد. ﺑﻨﺎﺑﺮاﯾﻦ، در واﻗـﻊ

آﻧﭽﻪ ﺑﺎﻗﯽ ﻣﯽﻣﺎﻧﺪ، اﺣﺘﻤﺎل ﭘﯿﺸﺎﻣﺪ ﻣﻮردﻧﻈﺮ اﺳﺖ. در اﯾﻦ ﺟﺎ ﻣﻨﻈﻮر، اﺣﺘﻤﺎل ﭘﺎﺳﺦ درﺳﺖ ﻓﺮد a ﺑﺎ

ﺳﻄﺢ ﺗﻮاﻧﺎﯾﯽ θ ﺑﻪ ﺳﺆال i ( ﯾﻌﻨﯽ( Pia (θ ) اﺳﺖ. ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻣﻄﺎﻟﺐ ﺑﯿﺎن ﺷﺪه، ﭘﺲ:

T = P ( ) θ

N

I =

A

∑ IA

1

ﯾﻌﻨﯽ، ﻧﻤﺮه ﺣﻘﯿﻘﯽ آزﻣﻮدﻧﯽ a در ﯾﮏ آزﻣﻮن n ﺳﺆاﻟﯽ، ﺑﺮاﺑﺮ ﺑﺎ ﻣﺠﻤﻮع اﺣﺘﻤـﺎلﻫـﺎی ﺷـﺮﻃﯽ

ﭘﺎﺳﺦﻫﺎی او ﺑﻪ ﺳﺆاﻻت آزﻣﻮن ﻣﺬﮐﻮر ﺧﻮاﻫﺪ ﺑـﻮد. در ﺻـﻮرﺗﯽ ﮐـﻪ اﺣﺘﻤـﺎل ﺷـﺮﻃﯽ ﺑـﺮای ﻫﻤـﻪ

ﺳﺆاﻻت و آزﻣﻮدﻧﯽﻫﺎ ﻣﺤﺎﺳﺒﻪ و ﺟﻤﻊ ﺷﻮد، ﻧﻤﺮه ﺣﻘﯿﻘﯽ آزﻣﻮن ﺑﻪدﺳﺖ ﻣﯽآﯾﺪ؛ در ﻣﻌﺎدﻟﻪ ﺑﺎﻻ، ﺗﺄﺛﯿﺮ

ﺗﻌﺪاد ﺳﺆاﻻت آزﻣﻮن ﺑﺮ ﻧﻤﺮه ﺣﻘﯿﻘﯽ آزﻣﻮن و آزﻣﻮدﻧﯽ ﺑﻪوﺿﻮح ﻣﺸﺎﻫﺪه ﻣﯽﺷﻮد. ﻫـﺮ ﻗـﺪر ﺗﻌـﺪاد

ﺳﺆاﻻت آزﻣﻮن ﺑﯿﺸﺘﺮ ﺷﻮد، ﺗﻌﺪاد ( pia(θ ﻫﺎ اﻓﺰاﯾﺶ ﻣﯽﯾﺎﺑﺪ و ﺑﻪﺗﺒـﻊ آن T ﻫـﻢ اﻓـﺰاﯾﺶ ﺧﻮاﻫـﺪ

                                                          

1 - Bernoly

www.SID.irArchive of SID

                                                      ﻣﻘﺎﯾﺴﻪ ﻣﺪل اﻧﺪازهﮔﯿﺮی ﮐﻼﺳﯿﮏ و ﻣﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ... 47

داﺷﺖ. از ﻃﺮف دﯾﮕﺮ، اﺣﺘﻤﺎل ﭘﺎﺳﺨﮕﻮﯾﯽ ﺻﺤﯿﺢ ﺑﻪ ﺳﺆاﻻت دﺷﻮار ﮐﻢ ﺗﺮ از ﺳﺆاﻻت ﺳﺎده اﺳـﺖ؛

ﺑﻨﺎﺑﺮﯾﻦ در ﺻﻮرت ﻧﺎﻣﺴﺎوی ﺑﻮدن درﺟﻪ دﺷﻮاری ﺳﺆاﻻت دو آزﻣﻮن ﻧﺎﻣﻮازی، ﺑﺮآورد ﻧﻤﺮه ﺣﻘﯿﻘـﯽ

ﯾﮏ آزﻣﻮدﻧﯽ در آن آزﻣﻮن ﻣﺘﻔﺎوت ﺧﻮاﻫﺪ ﺑﻮد و ﺑﻪﻋﺒﺎرت دﯾﮕﺮ، ﺑـﺮآورد ﻧﻤـﺮه ﺣﻘﯿﻘـﯽ آزﻣـﻮدﻧﯽ،

ﺻﺮفﻧﻈﺮ از ﻋﻮاﻣﻞ دﯾﮕﺮ، واﺑﺴﺘﻪ ﺑﻪ آزﻣﻮن، ﻧﻮﺳﺎﻧﺎت ﻧﻤﻮﻧﻪﺑـﺮداری و ﺗﻌـﺪاد ﺳـﺆاﻻت ﻣﻮﺟـﻮد در

آزﻣﻮن ﺧﻮاﻫﺪ ﺑﻮد (از ﻣﻌﺎﯾﺐ ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ اﻧﺪازهﮔﯿﺮی ﮐﻪ ﻗﺒﻼ ﺑﻪ آن اﺷﺎره ﺷﺪ). اﻟﺒﺘﻪ ﻫﻤـﺎنﻃـﻮر

ﮐﻪ ﻟﺮد و ﻧﺎوﯾﮏ (1968) ﻓﺮﻣﻮﻟﯽ را اراﺋﻪ ﻧﻤﻮدهاﻧﺪ، ﺑﺎ در دﺳﺖ داﺷﺘﻦ ﺷﺎﺧﺺﻫﺎی ﮐﻼﺳﯿﮏ ﺳـﺆال

و ﻓﺮد ﻣﯽﺗﻮان ﻧﻤﺮه واﻗﻌﯽ را ﺑﻪﻃﻮر ﺗﻘﺮﯾﺒﯽ ﺑﻪدﺳﺖ آورد. 

R ( ) T a

X a

= r

xx

X a

+ (1 − r

xx

)X

ﺑﺮآورد رﮔﺮﺳﯿﻮن ﻧﻤﺮه ﺣﻘﯿﻘﯽ آزﻣﻮدﻧﯽ a از روی ﻧﻤـﺮه ﻣـﺸﺎﻫﺪه ﺷـﺪه وی، ﻧﯿﺎزﻣﻨـﺪ داﺷـﺘﻦ

ﺑﺮآوردی از اﻋﺘﺒﺎر آزﻣﻮن، ﻧﻤﺮه ﻣﺸﺎﻫﺪه ﺷﺪه آزﻣﻮدﻧﯽ a و ﻣﯿﺎﻧﮕﯿﻦ آزﻣﻮن اﺳﺖ. ﻧﺘﯿﺠﻪ، ﺑﺮآوردی از

ﻧﻤﺮه ﺣﻘﯿﻘﯽ ﻓﺮد a از روی ﻧﻤﺮه ﻣﺸﺎﻫﺪه ﺷﺪه او ﺧﻮاﻫﺪ ﺑﻮد. ﻧﮑﺘﻪ دﯾﮕﺮ آنﮐـﻪ، اﮔـﺮ اﺣﺘﻤـﺎلﻫـﺎی

ﺷﺮﻃﯽ ﻣﻌﺎدﻟﻪ ﻓﻮق ﻣﻌﺪلﮔﯿﺮی ﺷﻮد و ﻣﯿﺎﻧﮕﯿﻦ ﭘﺎﺳﺦ ﺻﺤﯿﺢ در ﻫﺮ ﺳﻄﺢ ﺑﺮای ﺳـﺆالﻫـﺎ ﺑـﻪدﺳـﺖ

آﯾﺪ، از ﻃﺮﯾﻖ آن ﻣﯽﺗﻮان ﻣﻨﺤﻨﯽ وﯾﮋه آزﻣﻮن (TCC) را رﺳﻢ ﮐﺮد.

( )

( )

n

p

T P

i

∑ i

=

= =

1

θ

θ

اﺣﺘﻤﺎلﻫﺎی ﺷﺮﻃﯽ ﭘﺎﺳﺦ ﻫﻤﻪ آزﻣﻮدﻧﯽﻫﺎی ﺳﻄﺢ ﻣﻌﯿﻨﯽ از θ ﺑﻪ ﺳﺆاﻻت آزﻣﻮن، ﺟﻤﻊ ﺷﺪه،

ﺑﺮ ﺗﻌﺪاد ﺳﺆاﻻت ﺗﻘﺴﯿﻢ ﻣﯽﺷﻮد. ﻧﺘﯿﺠﻪ اﯾﻦ ﻣﺤﺎﺳﺒﻪ، ﻣﺘﻮﺳﻂ اﺣﺘﻤـﺎل ﭘﺎﺳـﺦ ﺻـﺤﯿﺢ ﺑـﻪ ﺳـﺆاﻻت

آزﻣﻮن در آن ﺳﻄﺢ ﺗﻮاﻧﺎﯾﯽ ﺧﻮاﻫﺪ ﺑﻮد. ﺑﺎ اداﻣﻪ ﻣﺤﺎﺳﺒﻪ ﻓﻮق ﺑﺮای θﻫﺎی ﻣﺨﺘﻠﻒ ﻣﯽﺗﻮان (TCC) 

را رﺳﻢ ﮐﺮد ﮐﻪ در آن، ﻣﺤﻮر اﻓﻘﯽ ﺷﺎﻣﻞ ﺗﻮاﻧﺎﯾﯽ ﯾﺎ θ و ﻣﺤﻮر ﻋﻤﻮدی ﯾﺎ y ﺷﺎﻣﻞ ﻣﺘﻮﺳﻂ اﺣﺘﻤﺎل

ﻣﺤﺎﺳﺒﻪ ﺷﺪه ﯾﺎ ( p(θ اﺳﺖ.   

ﺑﺎ ﮔﺬﺷﺖ ﺑﯿﺶ از 60 ﺳﺎل از ﮐﺎر ﻧﻈﺮﯾﻪ ﺳﺆال ـ ﭘﺎﺳﺦ و ﮔﺴﺘﺮش ﭘﺮﺷﺘﺎب ﻣﺒﺎﻧﯽ ﻧﻈﺮی آن در

ﺗﻤﺎم ﺳﺎلﻫﺎی دﻫﻪ 1980 و اواﯾﻞ ﺳﺎلﻫﺎی دﻫﻪ 1990، ﻣﺘﺄﺳـﻔﺎﻧﻪ در ﮐـﺸﻮر ﻣـﺎ اﯾـﻦ ﻧﻈﺮﯾـﻪ ﻫﻨـﻮز

آنﭼﻨﺎن ﮐﻪ ﺑﺎﯾﺪ و ﺷﺎﯾﺪ ﺷﻨﺎﺧﺘﻪ ﺷﺪه ﻧﯿﺴﺖ و ﺗﻌﺪاد ﺗﺤﻘﯿﻘﺎت در اﯾﻦ زﻣﯿﻨـﻪ ﺑـﺴﯿﺎر اﻧـﺪک اﺳـﺖ و

ﻫﻨﻮز ﻧﻈﺮﯾﻪ ﺳﺆال ـ ﭘﺎﺳﺦ ﺑـﻪﻃـﻮر اﻋـﻢ و ﻣـﺪل ﻧﺎﭘﺎراﻣﺘﺮﯾـﮏ ﺳـﺆال ـ ﭘﺎﺳـﺦ ﺑـﻪﻃـﻮر اﺧـﺺ، در

اﻧﺪازهﮔﯿﺮی ﺗﻮاﻧﺎﯾﯽﻫﺎی داوﻃﻠﺒﺎن در ﭘﺎﺳﺨﮕﻮﯾﯽ ﺑﻪ ﺳﺆاﻻت آزﻣﻮنﻫﺎی ورود ﺑﻪ ﻣﺮاﮐﺰ آﻣﻮزش ﻋﺎﻟﯽ

و دﯾﮕﺮ آزﻣﻮنﻫﺎ راه ﻧﯿﺎﻓﺘﻪ اﺳﺖ؛ در ﺣﺎﻟﯽﮐﻪ اﻟﺰاﻣﺎت ﺟﺎﻣﻌﻪ ﻣﺎ، ﺑﻪوﯾﮋه در ﺳﺎلﻫﺎی اﺧﯿﺮ و ﺑﺎ ﺗﻮﺟـﻪ

ﺑﻪ ﺧﯿﻞ ﻋﻈﯿﻢ داوﻃﻠﺒﺎن داﻧﺸﮕﺎهﻫﺎ و ﻣﺮاﮐﺰ و ﻣﻮﺳﺴﺎت آﻣﻮزش ﻋﺎﻟﯽ اﯾﺠﺎب ﻣﯽﮐﻨﺪ ﮐﻪ اﻓﺮاد، ﻫﺮﭼﻪ

دﻗﯿﻖﺗﺮ و درﺳﺖﺗﺮ، ﺑﺮﻣﺒﻨـﺎی ﺗﻮاﻧـﺎﯾﯽﻫـﺎی ذﻫﻨـﯽ ﺧـﻮد از ﯾﮑـﺪﯾﮕﺮ ﻣﺘﻤـﺎﯾﺰ و ﺑـﺮای ﺗﺤـﺼﯿﻞ در

www.SID.irArchive of SID

ﻓﺼﻠﻨﺎﻣﮥ ﻧﻮآورﯾﻬﺎی آﻣﻮزﺷﯽ، ﺷﻤﺎرۀ 18، ﺳﺎل ﭘﻨﺠﻢ، زﻣﺴﺘﺎن 1385

                              

48

داﻧﺸﮕﺎهﻫﺎ و ﻣﺆﺳﺴﺎت آﻣﻮزش ﻋﺎﻟﯽ اﻧﺘﺨﺎب ﺷﻮﻧﺪ. ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻣﻄﺎﻟﺐ ﻓـﻮق، اﯾـﻦ ﭘﺮﺳـﺶ ﻣﻄـﺮح

اﺳﺖ ﮐﻪ: ﻣﺪل اﻧﺪازهﮔﯿﺮی ﮐﻼﺳﯿﮏ و ﻣﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆالـ ﭘﺎﺳﺦ از ﻧﻈﺮ وﯾﮋﮔـﯽﻫـﺎی ﺳـﺆال،

ﭼﻪ ﺗﻔﺎوﺗﯽ ﺑﺎ ﯾﮑﺪﯾﮕﺮ دارﻧﺪ؟  

ﺑﻪﻣﻨﻈﻮر ﭘﺎﺳﺨﮕﻮﯾﯽ ﺑﻪ ﭘﺮﺳﺶ ﯾﺎد ﺷﺪه، ﺑﺎ اﺳﺘﻔﺎده از دادهﻫﺎی ﺣﺎﺻﻞ از اﺟﺮای اﯾﻦ ﭘـﮋوﻫﺶ،

ﭘﺮﺳﺶﻫﺎی زﯾﺮ ﻣﻮردﻧﻈﺮ ﻗﺮار ﮔﺮﻓﺖ:   

1ـ ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ اﻧﺪازهﮔﯿﺮی و ﻣﺪل ﻧﺎﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆال ـ ﭘﺎﺳﺦ، ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻋﻤﻠﮑﺮد اﻓﺮاد در

آزﻣﻮن رﯾﺎﺿﯽ، از ﻧﻈﺮ ﺑﺮآورد ﺷﺎﺧﺺ ﯾﺎ ﭘﺎراﻣﺘﺮ ﺳﻄﺢ دﺷﻮاری ﺳﺆاﻻت آزﻣﻮن، ﭼﻪ ﺗﻔﺎوﺗﯽ دارﻧﺪ؟   

2ـ ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ اﻧﺪازهﮔﯿﺮی و ﻣﺪل ﻧﺎﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆال ـ ﭘﺎﺳﺦ، ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻋﻤﻠﮑﺮد اﻓﺮاد در

آزﻣﻮن رﯾﺎﺿﯽ، از ﻧﻈﺮ ﺑﺮآورد ﺷﺎﺧﺺ ﯾﺎ ﭘﺎراﻣﺘﺮ ﻗـﺪرت ﺗـﺸﺨﯿﺺ ﺳـﺆاﻻت آزﻣـﻮن، ﭼـﻪ ﺗﻔـﺎوﺗﯽ

دارﻧﺪ؟   

  

روش           

ﺟﺎﻣﻌﻪ   

ﺑﻪﻣﻨﻈﻮر ﭘﺎﺳﺦ ﺑﻪ ﭘﺮﺳـﺶﻫـﺎی ﭘﮋوﻫـﺸﯽ ﻣـﻮردﻧﻈﺮ، ﺟﺎﻣﻌـﻪ ای از ﮐﻠﯿـﻪ داوﻃﻠﺒـﺎن ورود ﺑـﻪ

داﻧﺸﮕﺎهﻫﺎی ﮐﺸﻮر در رﺷﺘﻪ رﯾﺎﺿﯽ ـ ﻓﯿﺰﯾﮏ در ﺳﺎل 1384اﻧﺘﺨﺎب ﺷﺪ. ﺟﺪول 1، ﺗﻌﺪاد داوﻃﻠﺒـﺎن

ﺷﺮﮐﺖ ﮐﻨﻨﺪه در ﮐﻨﮑﻮر ﺳﺮاﺳﺮی 1384 را در رﺷﺘﻪ رﯾﺎﺿﯽـ ﻓﯿﺰﯾﮏ ﻧﺸﺎن ﻣﯽدﻫﺪ.  

   

ﺟﺪول 1. ﺗﻌﺪاد داوﻃﻠﺒﺎن ﺷﺮﮐﺖﮐﻨﻨﺪه در ﮐﻨﮑﻮر ﺳﺮاﺳﺮی 1384    

در رﺷﺘﻪ رﯾﺎﺿﯽ ـ ﻓﯿﺰﯾﮏ   

رﺷﺘﻪ  زن  درﺻﺪ  ﻣﺮد  درﺻﺪ  ﮐﻞ  

  302511  54/09  163643  45/91  138868  ﻓﯿﺰﯾﮏ -رﯾﺎﺿﯽ

ﻧﻤﻮﻧﻪﮔﯿﺮی ﺑﺮ اﺳﺎس دﺳﺘﺮﺳﯽ ﺑﻪ ﻓﻬﺮﺳﺖ ﺗﺼﺎدﻓﯽ داوﻃﻠﺒﺎن و ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺑﺮﻧﺎﻣـﻪ ﮐـﺎﻣﭙﯿﻮﺗﺮی

ﻃﺮاﺣﯽ ﺷﺪه در ﺳﺎزﻣﺎن ﺳﻨﺠﺶ آﻣﻮزش ﮐﺸﻮر،  ﺑﺎ اﺳﺘﻔﺎده از روش ﻧﻤﻮﻧﻪﮔﯿﺮی ﻣﻨﻈﻢ اﻧﺠﺎم ﺷﺪ. از

ﺑﯿﻦ ﮐﻠﯿﻪ داوﻃﻠﺒﺎن ﺷﺮﮐﺖﮐﻨﻨﺪه در ﮔﺮوه آزﻣﺎﯾﺸﯽ رﯾﺎﺿﯽ ـ ﻓﯿﺰﯾﮏ، ﯾﮏ ﮔﺮوه 3000 ﻧﻔﺮی ﺑـﻪﻃـﻮر

ﺗﺼﺎدﻓﯽ اﻧﺘﺨﺎب ﺷﺪ و ﭘﺲ از ﺣﺬف آزﻣﻮدﻧﯽﻫﺎﯾﯽ ﮐﻪ ﺑﻪدرﺳﺘﯽ ﺑـﻪ ﺳـﺆاﻻت ﭘﺎﺳـﺦ ﻧﮕﻔﺘـﻪ ﺑﻮدﻧـﺪ

(ﻣﻨﻈﻮر، اﻓﺮادی ﻫﺴﺘﻨﺪ ﮐﻪ ﭘﺎﯾﯿﻦﺗﺮ از

4

1 ﻧﻤﺮه ﮐﻞ ﯾﺎ ﺣﺪ ﺷﺎﻧﺲ را ﮐﺴﺐ ﮐﺮده ﺑﻮدﻧﺪ)، از ﺑﯿﻦ اﻓـﺮاد

ﺑﺎﻗﯽ ﻣﺎﻧﺪه ﭼﻨﺪ ﻧﻤﻮﻧﻪﮔﯿﺮی ﺻﻮرت ﮔﺮﻓﺖ.   

ﺑﺮﻃﺒﻖ ﻧﻈﺮ ﻃﺮﻓﺪاران ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ، ﯾﮑﯽ از ﻣﺰاﯾﺎی اﯾﻦ ﻧﻈﺮﯾﻪ آن اﺳﺖ ﮐﻪ ﺣﺠـﻢ ﻧﻤﻮﻧـﻪ در

آن ﻧﺴﺒﺖ ﺑﻪ ﻧﻈﺮﯾﻪ ﻣﺪل ﭘﺎراﻣﺘﺮﯾﮏ     ﺳﺆالـ ﭘﺎﺳﺦ و ﻣﺪل ﻏﯿﺮ ﭘﺎراﻣﺘﺮﯾـﮏ ﺳـﺆال – ﭘﺎﺳـﺦ، ﮐـﻢ ﺗـﺮ

www.SID.irArchive of SID

                                                      ﻣﻘﺎﯾﺴﻪ ﻣﺪل اﻧﺪازهﮔﯿﺮی ﮐﻼﺳﯿﮏ و ﻣﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ... 49

اﺳﺖ. ﻣﻄﺎﻟﻌﺎت اﻧﺪﮐﯽ وﺟﻮد دارد ﮐﻪ ﺗﺄﺛﯿﺮ ﺣﺠﻢ ﻧﻤﻮﻧﻪ را ﺑﺮ ﺑﺮآوردﻫﺎﯾﯽ ﮐﻪ ﺑﺮای ﭘﺎﯾـﺎﯾﯽ ﭘﺎراﻣﺘﺮﻫـﺎ

ﺻﻮرت ﻣﯽﮔﯿﺮد، ﺑﻪﻃﻮر ﻣﻨﻈﻢ ﺑﺮرﺳﯽ ﮐﺮده ﺑﺎﺷﺪ. ﺣﺪاﻗﻞ ﺣﺠﻢ ﻧﻤﻮﻧﻪ ﭘﯿﺸﻨﻬﺎدی ﺑﺮای ﺑـﻪﮐـﺎرﮔﯿﺮی

ﻣﻮﺛﺮ CTT در داﻣﻨﻪای از ﺣﺪود 300 ﺗﺎ 500 ﻣﺘﻐﯿﺮ اﺳﺖ. اﻟﺒﺘﻪ ﺗﺮﺟﯿﺢ داده ﻣﯽﺷﻮد ﮐﻪ ﺣﺠﻢ ﻧﻤﻮﻧﻪ

1000 ﺑﺎﺷﺪ (ﺗﺮوﺳﮑﻮﺳﮑﯽ، 1999 ﺑﻪﻧﻘﻞ از ﻧﺎﻧﺎﻟﯽ، 1967). ﻣﻄﺎﺑﻖ ﭘـﮋوﻫﺶﻫـﺎی ﻣﻮﺟـﻮد در زﻣﯿﻨـﻪ

آزﻣﻮنﺳﺎزی، ﮐﺎرﺑﺮد ﻣﻮﻓﻖ ﻣﺪلﻫﺎی ﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆال – ﭘﺎﺳﺦ و ﻣﺪل ﻫﺎی ﻏﯿﺮ ﭘﺎراﻣﺘﺮﯾﮏ ﺳـﺆال –

ﭘﺎﺳﺦ  ﻣﺴﺘﻠﺰم اﺳﺘﻔﺎده از ﺳﺆاﻻت و آزﻣﻮدﻧﯽﻫﺎﯾﯽ ﺑﺎ ﺣﺠﻢ ﺑﺰرگ اﺳﺖ ﺗـﺎ ﺑﺘـﻮان ﺑـﻪﻃـﻮر ﻫﻤﺰﻣـﺎن

ﺻﻔﺖ ﻣﮑﻨﻮن و ﭘﺎراﻣﺘﺮﻫﺎی ﺳﺆال را ﺑـﺮآورد ﮐـﺮد (ﻟـﺮد، 1968 و ﻫﻤﺒﻠﺘـﻮن و ﺳـﻮآﻣﯿﻨﺎﺗﺎن، 1985). 

ﺑﻨﺎﺑﺮاﯾﻦ در ﭘﮋوﻫﺶ ﺣﺎﺿﺮ، ﺑﺮ اﺳﺎس ﺗﺤﻘﯿﻘﺎت اﻧﺠﺎم ﺷﺪه در ﻫﺮ دو ﻧﻈﺮﯾﻪ و ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻧـﺮماﻓـﺰار

ﮐﺎﻣﭙﯿﻮﺗﺮی ﺑﻪﮐﺎر رﻓﺘﻪ، از ﺑﯿﻦ داوﻃﻠﺒﺎن ﮔﺮوه آزﻣﺎﯾﺸﯽ رﯾﺎﺿﯽـ ﻓﯿﺰﯾﮏ و از ﺑـﯿﻦ ﮔـﺮوهﻫـﺎی ﻧﻤﻮﻧـﻪ

ﻣﺨﺘﻠﻒ، در ﻧﻬﺎﯾﺖ دو ﻧﻤﻮﻧﻪ 1000 ﻧﻔﺮی، ﮐﻪ در آنﻫﺎ ﺗﻔﺎوت ﺗﻮاﻧﺎﯾﯽ آزﻣـﻮدﻧﯽﻫـﺎ ﺑـﯿﺶ ﺗـﺮ ﺑـﻮد،

اﻧﺘﺨﺎب ﺷﺪ.   

  

اﺑﺰار و روش اﺟﺮا و ﺗﺤﻠﯿﻞ دادهﻫﺎ   

در آزﻣﻮن ورودی داﻧﺸﮕﺎهﻫﺎی اﯾﺮان از آزﻣﻮنﻫﺎی ﭘﯿﺸﺮﻓﺖ ﺗﺤﺼﯿﻠﯽ اﺳـﺘﻔﺎده ﻣـﯽﺷـﻮد. اﯾـﻦ

آزﻣﻮنﻫﺎ در ﺳﺎزﻣﺎن ﺳﻨﺠﺶ و ﺗﻮﺳﻂ اﺳﺘﺎدان و ﻃﺮاﺣﺎن زﺑﺪه و ﮐﺎرﮐـﺸﺘﻪ ﮐـﺸﻮر ﻃﺮاﺣـﯽ و ﺗﻬﯿـﻪ

ﻣﯽﺷﻮد. اﺑﺰار ﻣﻮرد اﺳﺘﻔﺎده ﺑﺮای ﺟﻤﻊآوری دادهﻫﺎی ﭘﮋوﻫﺶ، ﭘﺎﺳﺨﻨﺎﻣﻪﻫﺎی 55 ﺳـﺆاﻟﯽ داوﻃﻠﺒـﺎن

در آزﻣﻮن اﺧﺘﺼﺎﺻﯽ درس رﯾﺎﺿﯽ ﺑﻮد.  

در ﻣﻮرد ﺗﻌﺪاد ﺳﺆاﻻت در ﻣﻘﺎﯾﺴﻪ ﻣﺪلﻫﺎ، ﺻﺎﺣﺐﻧﻈﺮان، ﺣـﺪاﻗﻞ ﺣﺠـﻢ ﻧﻤﻮﻧـﻪ ﺳـﺆال را 15

ذﮐﺮ ﮐﺮدهاﻧﺪ. ﻟﯿﮑﻦ ﻣﺎﻧﻨﺪ آزﻣﻮدﻧﯽﻫﺎ، ﺗﻌﺪاد ﺳﺆاﻻت ﺧﺮدهآزﻣﻮنﻫﺎ ﻧﯿـﺰ از ﺗﻌـﺪاد ﭘﺎراﻣﺘﺮﻫـﺎی ﻣـﺪل

ﺗﺄﺛﯿﺮ ﻣﯽﭘﺬﯾﺮد. (ﻫﻤﺒﻠﺘﻮن، 1989).  

ﺑﺮای ﺗﺠﺰﯾﻪ و ﺗﺤﻠﯿﻞ دادهﻫﺎ از ﻧﺮماﻓﺰارﻫﺎی ﮐـﺎﻣﭙﯿﻮﺗﺮی SPSS وMSP اﺳـﺘﻔﺎده ﺷـﺪ. اﺑﺘـﺪا

ﺗﺤﻠﯿﻞﻫﺎ و ﻣﺸﺨﺼﻪﻫﺎی ﮐﻼﺳﯿﮏ ﺳﺆالﻫﺎ و آزﻣﻮنﻫﺎ از ﻃﺮﯾﻖ SPSS ﻣﺤﺎﺳﺒﻪ ﺷﺪ و ﺳﭙﺲ دادهﻫﺎ

ﺑﺎ ﻧﺮماﻓﺰار MSP ﺗﺤﻠﯿﻞ ﺷﺪ. روشﻫﺎ و ﺷﺎﺧﺺﻫﺎی ﻣﻮرد اﺳﺘﻔﺎده ﺑﺮای ﺗﺤﻠﯿﻞ ﺳـﺆاﻻت ﺑـﺮ ﭘﺎﯾـﻪ

ﻣﺪل ﮐﻼﺳﯿﮏ اﻧﺪازهﮔﯿﺮی، ﺷﺎﻣﻞ ﻣﯿﺎﻧﮕﯿﻦ ﯾﺎ درﺟﻪ دﺷﻮاری ﺳـﺆاﻻت، وارﯾـﺎﻧﺲ ﺳـﺆاﻻت، ﺿـﺮﯾﺐ

ﻫﻤﺒﺴﺘﮕﯽ دو رﺷﺘﻪای (rbis) و ﺿﺮﯾﺐ ﻫﻤﺒﺴﺘﮕﯽ دو رﺷﺘﻪای ﻧﻘﻄﻪای (rpbis) ﺑﻮد. در اﯾﻦ ﻣﺪل ﻧﯿـﺰ

ﺑﺮای آزﻣﻮنﻫﺎ از ﭘﺎﯾﺎﯾﯽ ﺑﻪ روش ﺿﺮﯾﺐ آﻟﻔﺎ (ﮐﻮدرـ رﯾﭽﺎردﺳـﻮن 20)، ﺗﻮزﯾـﻊ ﻓﺮاواﻧـﯽ و ﻧﻤـﻮدار

ﻧﻤﺮات آزﻣﻮنﻫﺎ و ... اﺳﺘﻔﺎده ﺷﺪ.   

ﺑﻪ ﻣﻨﻈﻮر ﺗﺤﻠﯿﻞ دادهﻫﺎ در ﻧﻈﺮﯾﻪ ﻣﺪل ﻏﯿﺮ ﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆالـ ﭘﺎﺳﺦ، از روشﻫﺎی آﻣﺎری ﻣﺎﻧﻨـﺪ

آزﻣﻮن t واﺑﺴﺘﻪ، ﺿﺮﯾﺐ ﻫﻤﺒﺴﺘﮕﯽ ﭘﯿﺮﺳﻮن  و آزﻣﻮنﻫﺎی ﻣﻌﻨﯽداری آن ﻫـﺎ اﺳـﺘﻔﺎده ﺷـﺪ و ﺳـﭙﺲ

ﻣﻘﺎﯾﺴﻪﻫﺎی ﻣﻮردﻧﻈﺮ اﻧﺠﺎم ﮔﺮﻓﺖ.  

   

www.SID.irArchive of SID

ﻓﺼﻠﻨﺎﻣﮥ ﻧﻮآورﯾﻬﺎی آﻣﻮزﺷﯽ، ﺷﻤﺎرۀ 18، ﺳﺎل ﭘﻨﺠﻢ، زﻣﺴﺘﺎن 1385

                              

50

ﻧﺘﺎﯾﺞ    

ﺑﺎ اﺳﺘﻔﺎده از آزﻣﻮن اﺧﺘﺼﺎﺻﯽ رﯾﺎﺿﯽ رﺷﺘﻪ رﯾﺎﺿﯽـ ﻓﯿﺰﯾﮏ، ﺳﺆال اول ﺗﺤﻘﯿﻖ، ﯾﻌﻨﯽ ﺗﺄﺛﯿﺮ

ﺧﺼﻮﺻﯿﺎت آزﻣﻮدﻧﯽﻫﺎ ﺑﺮ وﯾﮋﮔﯽﻫﺎی ﺳﺆال، ﺑﺮرﺳﯽ ﺷﺪ.  در ﺗﺤﻠﯿﻞ ﺳﺆاﻻت آزﻣﻮن رﯾﺎﺿﯽ ﺑﻪ

روش ﮐﻼﺳﯿﮏ، 6 ﺳﺆال ﮐﻪ ﻓﺎﻗﺪ ﺑﺮازﻧﺪﮔﯽ ﺑﻮد، ﺣﺬف ﺷﺪ و 49 ﺳﺆال ﺑﺎﻗﯽ ﻣﺎﻧﺪ. ﺑﺎر دﯾﮕﺮ ﺑﺎ ﻣﺪل

ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆالـ ﭘﺎﺳﺦ اﯾﻦ ﺳﺆاﻻت ﺗﺤﻠﯿﻞ ﺷﺪﻧﺪ.  ﺑﻪدﻧﺒﺎل آن، ﺑﺎ اﺳﺘﻔﺎده از ﺿﺮﯾﺐ ﻣﻘﯿﺎس

ﭘﺬﯾﺮی، آزﻣﻮن ﺑﺮازﻧﺪﮔﯽ ﺑﺮای ﻫﺮ ﺳﺆال و ﮐﻞ آزﻣﻮن ﻣﺤﺎﺳﺒﻪ ﺷﺪ.ﺳﺆال ﻫﺎﯾﯽ ﮐﻪ ﺿﺮﯾﺐ

ﻣﻘﯿﺎسﭘﺬﯾﺮی ﮐﻢ ﺗﺮ از 0/3 دارﻧﺪ، در ﺣﺪود 23 ﺳﺆال ﺑﻮدﻧﺪ. ﺑﺎ ﺗﻮﺟﻪ ﺗﻌﺪاد زﯾﺎد ﺳﺆالﻫﺎی ﺣﺬف

ﺷﺪﻧﯽ، آﻧﻬﺎ را 5 ﺗﺎ 5 ﺗﺎ ﮐﻨﺎر ﮔﺬاﺷﺘﯿﻢ.  در ﻣﺠﻤﻮع، 11 ﺳﺆال ﮐﻨﺎر ﮔﺬاﺷﺘﻪ ﺷﺪ و 44 ﺳﺆال ﺑﺮای

ﺗﺠﺰﯾﻪ و ﺗﺤﻠﯿﻞ ﺑﺎﻗﯽ ﻣﺎﻧﺪ.  

ﻫﻢﭼﻨﯿﻦ ﻫﻤﺎنﻃﻮر ﮐﻪ ﺟﺪول 2 ﻧﺸﺎن ﻣﯽدﻫﺪ، ﺿﺮاﯾﺐ ﻫﻤﺒﺴﺘﮕﯽ ﺑﺮآورد ﺷﺎﺧﺺﻫﺎی

دﺷﻮاری، ﻗﺪرت ﺗﺸﺨﯿﺺ در ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ (CTT) ﻣﻘﺎدﯾﺮ ﺑﺴﯿﺎر ﭘﺎﯾﯿﻨﯽ را ﻧﺸﺎن ﻣﯽدﻫﺪ؛ در

ﺣﺎﻟﯽﮐﻪ در ﻣﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆال– ﭘﺎﺳﺦ (NIRT)  ﻫﻤﺒﺴﺘﮕﯽ ﺑﺴﯿﺎر ﺑﺎﻻﯾﯽ ﺑﯿﻦ ﻣﻘﺎدﯾﺮ ﺑﺮآورد

ﺷﺪه اﯾﻦ دو ﭘﺎراﻣﺘﺮ در دو ﮔﺮوه ﻧﻤﻮﻧﻪ وﺟﻮد دارد.  اﯾﻦ ﻧﮑﺘﻪ ﺑﯿﺎﻧﮕﺮ آن اﺳﺖ ﮐﻪ ﺑﺮآورد اﯾﻦ

ﺷﺎﺧﺺﻫﺎ در ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ، ﯾﮏ ﺑﺮآورد ﻣﺘﻐﯿﺮ و ﻏﯿﺮﺛﺎﺑﺖ اﺳﺖ؛ وﻟﯽ در NIRT ﭼﻨﯿﻦ ﻧﯿﺴﺖ.

ﻻزم ﺑﻪ ذﮐﺮ اﺳﺖ ﮐﻪ در ﻧﺮماﻓﺰار  MSP، ﮐﻪ ﺑﺮای ﺗﺤﻠﯿﻞ ﻣﺪل ﻏﺒﺮﭘﺎراﻣﺘﺮﯾﮏ ﺑﻪﮐﺎر ﻣﯽرود،

Pi ﻣﺤﺒﻮﺑﯿﺖ ﺳﺆال (

Hi )  ﻣﻌﺎدل ﺿﺮﯾﺐ دﺷﻮاری و ﻣﻘﯿﺎسﭘﺬﯾﺮی (

)  ﻣﻌﺎدل ﺿﺮﯾﺐ ﺗﺸﺨﯿﺺ در

ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻣﯽﺷﻮد.    

   

ﺟﺪول 2. ﻣﻘﺎﯾﺴﻪ ﺿﺮاﯾﺐ ﻫﻤﺒﺴﺘﮕﯽ ﺷﺎﺧﺺﻫﺎی ﺳﺆال در CTT و NIRT    

  ﻪ ﯾ ﻧﻈﺮ

ﺴﻪ ﯾ ﻣﻮرد  ﻣﻘﺎ

ت ﺳﺆاﻻ ﺗﻌﺪاد

ﯽ ﺎﺿ ﯾ آزﻣﻮن ر

  ﺑﺮازش ی دارا

ﯽ ﻫﻤﺒﺴﺘﮕ ﺐ ﺿﺮﯾ

  ﺑﺮآورد ﺷﺎﺧﺺ

  ی ﺎ ﭘﺎراﻣﺘﺮ دﺷﻮار ﯾ

  ی دار ﯽ ﺳﻄﺢ ﻣﻌﻨ

ﯽ ﺐ ﻫﻤﺒﺴﺘﮕ ﯾﺮﺿ

ﺎﯾ ﺑﺮآورد ﺷﺎﺧﺺ

  ﻗﺪرت ﭘﺎراﻣﺘﺮ

ﯿ ﺗﺸﺨ

ﺳﻄﺢ   

ﺺ  

  ی دار ﯽ ﻣﻌﻨ

  0/039  0/299  0/019  0/335  49 CTT

  0/000  0/941  0/000  0/989  44  NIRT

www.SID.irArchive of SID

                                                      ﻣﻘﺎﯾﺴﻪ ﻣﺪل اﻧﺪازهﮔﯿﺮی ﮐﻼﺳﯿﮏ و ﻣﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ... 51

ﻣﻘﺎﯾﺴﻪ ﺿﺮﯾﺐ ﻫﻤﺒﺴﺘﮕﯽ:  ﺑﻪﻣﻨﻈﻮر ﺑﺮرﺳﯽ ﺛﺒﺎت ﺷـﺎﺧﺺ ﯾـﺎ ﻣﺤﺒﻮﺑﯿـﺖ ﺳـﺆال از ﺿـﺮﯾﺐ

ﻫﻤﺒﺴﺘﮕﯽ ﻧﻘﻄﻪای ﯾﺎ ﺑﻪﻋﺒﺎرﺗﯽ ﺿﺮﯾﺐ ﻫﻤﺒـﺴﺘﮕﯽ ﭘﯿﺮﺳـﻮن اﺳـﺘﻔﺎده ﺷـﺪ. ﻧﺘـﺎﯾﺞ ﻣﻘﺎﯾـﺴﻪ ﺿـﺮاﯾﺐ

ﻫﻤﺒﺴﺘﮕﯽ در اﯾﻦ دو ﻧﻈﺮﯾﻪ، در ﺟﺪول 3 آﻣﺪه اﺳﺖ.   

  

ﺟﺪول 3. ﻣﻘﺎﯾﺴﻪ ﺿﺮاﯾﺐ ﻫﻤﺒﺴﺘﮕﯽ ﺷﺎﺧﺺﯾﺎ ﻣﺤﺒﻮﺑﯿﺖ ﺳﺆال   

 (دﺷﻮاری ﺳﺆال) در دو ﮔﺮوه ﻧﻤﻮﻧﻪ ﺑﺎ روش CTT و NIRT   

روش ﻣﻘﺎﯾﺴﻪ  ﺗﻌﺪاد ﺳﺆاﻻت  ﺿﺮﯾﺐ ﻫﻤﺒﺴﺘﮕﯽ rpbis ﺳﻄﺢ ﻣﻌﻨﯽداری  

  0/019  0/335  48  CTT

  0/000  0/989  45  NIRT

ﺑﺮرﺳﯽ ﺟﺪول ﻓﻮق، ﻧﺸﺎن ﻣﯽدﻫﺪ ﮐﻪ ﻫﻤﺒﺴﺘﮕﯽ ﭘﺎراﻣﺘﺮ ﻣﺤﺒﻮﺑﯿﺖ ﺳﺆال (دﺷﻮاری ﺳـﺆال) در

ﻧﻈﺮﯾﻪ NIRT ﺑﺴﯿﺎر ﺑﺎﻻ ﺑﻮده (rpbis= 0/989) و ﺗﻔﺎوت ﻓﺎﺣﺸﯽ ﺑـﯿﻦ اﯾـﻦ ﺿـﺮﯾﺐ ﻫﻤﺒـﺴﺘﮕﯽ در

NIRT و CTT وﺟﻮد دارد ﮐﻪ ﺑﯿﺎﻧﮕﺮ ﯾﮑﺴﺎن ﺑـﻮدن ﻣﻘـﺎدﯾﺮ ﺑـﺮآورده ﺷـﺪه ﻣﺤﺒﻮﺑﯿـﺖ ﺳـﺆال در

NIRT اﺳﺖ.  

از آزﻣﻮن t واﺑﺴﺘﻪ ﻧﯿﺰ ﺑﺮای ﻧﺸﺎن دادن ﺗﻔﺎوت دو ﻧﻈﺮﯾﻪ در ﺑﺮآورد ﺷﺎﺧﺺ ﯾﺎ ﻣﺤﺒﻮﺑﯿﺖ ﺳﺆال

اﺳﺘﻔﺎده ﺷﺪ. ﺟﺪول 3 ﻣﻘﺎﯾﺴﻪ اﯾﻦ دو ﻧﻈﺮﯾﻪ را ﻧﺸﺎن ﻣﯽدﻫﺪ.   

  

ﺟﺪول4. ﻣﻘﺎﯾﺴﻪ دو ﻧﻈﺮﯾﻪ CTT و NIRT از ﻧﻈﺮ ﺷﺎﺧﺺﯾﺎ ﻣﺤﺒﻮﺑﯿﺖ  ﺳﺆاﻻت ﺑﺎ

اﺳﺘﻔﺎده از آزﻣﻮن t در دو ﮔﺮوه ﻧﻤﻮﻧﻪ   

ﻣﯿﺎﻧﮕﯿﻦ ﺳﻄﺢ دﺷﻮاری  

ﺧﻄﺎی اﺳﺘﺎﻧﺪارد

ﻣﯿﺎﻧﮕﯿﻦ ﺳﻄﺢ

دﺷﻮاری  

  ﺴﻪ ﯾ ﻘﺎ روش ﻣﻮرد ﻣ

  ﺗﻌﺪاد

  ت ﺳﺆاﻻ

  A ﮔﺮوه

  B ﮔﺮوه

  A ﮔﺮوه

  B ﮔﺮوه

  t آزﻣﻮن

  ) d.f  (ی درﺟﻪ آزاد

  دار ﯽ ﺳﻄﺢ ﻣﻌﻨ

  49 CTT

  0/3802

sd=0/28

  0/1105

  sd=0/15

  0/001  48  6/34  0/017  0/037

  44 NIRT

  1/1098

  sd=1/13

  1/1045

  sd=1/14

  /388  43  0/79  0/17  0/17

www.SID.irArchive of SID

ﻓﺼﻠﻨﺎﻣﮥ ﻧﻮآورﯾﻬﺎی آﻣﻮزﺷﯽ، ﺷﻤﺎرۀ 18، ﺳﺎل ﭘﻨﺠﻢ، زﻣﺴﺘﺎن 1385

                              

52

ﻫﻤﺎنﻃﻮر ﮐﻪ ﻣﻼﺣﻈﻪ ﻣﯽﺷﻮد، ﻣﯿﺎﻧﮕﯿﻦ ﺳﻄﺢ دﺷﻮاری در دو ﮔﺮوه CTT ﺑﺎ ﯾﮑﺪﯾﮕﺮ ﻣﺘﻔﺎوت

ﺑﻮد؛ در ﺣﺎﻟﯽﮐﻪ اﯾﻦ ﻣﯿﺰان در NIRT ﺗﻘﺮﯾ ًﺒﺎ ﯾﮑﺴﺎن اﺳﺖ. ﺧﻄﺎی اﺳﺘﺎﻧﺪارد ﻣﯿﺎﻧﮕﯿﻦ ﺳﻄﺢ دﺷﻮاری

ﻧﯿﺰ در دو ﮔﺮوه در CTT ﻣﺘﻔﺎوت ﺑﻮده اﺳﺖ؛ در ﺣﺎﻟﯽﮐﻪ اﯾﻦ ﻣﯿﺰان در NIRT ﺑـﺴﯿﺎر ﻧﺰدﯾـﮏ ﺑـﻪ

ﯾﮑﺪﯾﮕﺮ اﺳﺖ. آزﻣﻮن t در CTT ﻧﺸﺎن ﻣﯽدﻫﺪ ﮐﻪ ﺗﻔﺎوت ﺑـﯿﻦ دو ﺑـﺮآورد ﺳـﻄﺢ دﺷـﻮاری در دو

ﮔﺮوه آزﻣﻮدﻧﯽ ﻣﻌﻨﯽدار اﺳﺖ؛ ﯾﻌﻨﯽ ﻣﻘﺎدﯾﺮ ﺑﺮآورد ﺷﺪه در دو ﮔـﺮوه ﺑـﺎ ﯾﮑـﺪﯾﮕﺮ ﺗﻔـﺎوت ﻣﻌﻨـﯽدار

دارﻧﺪ؛ در ﺣﺎﻟﯽﮐﻪ در NIRT  آزﻣﻮن t واﺑﺴﺘﻪ ﻧﺸﺎن ﻣﯽدﻫﺪ ﮐﻪ ﺗﻔﺎوت ﺑﯿﻦ دو ﮔﺮوه از ﻧﻈﺮ ﺑﺮآورد

ﭘﺎراﻣﺘﺮ دﺷﻮاری، ﻣﻌﻨﯽدار ﻧﯿﺴﺖ و ﻣﻘﺎدﯾﺮ ﺑﺮآورد ﺷـﺪه ﭘـﺎراﻣﺘﺮ دﺷـﻮاری در دو ﮔـﺮوه ﻣﺘﻔـﺎوت از

آزﻣﻮدﻧﯽﻫﺎ در NIRT ﯾﮑﺴﺎن ﯾﺎ ﺗﻘﺮﯾ ً ﺒـﺎ ﯾﮑـﺴﺎن اﺳـﺖ. اﯾـﻦ ﻣـﺴﺌﻠﻪ ﺑﯿـﺎﻧﮕﺮ ﺗﺄﺛﯿﺮﻧﺎﭘـﺬﯾﺮی ﺑـﺮآورد

ﻣﺤﺒﻮﺑﯿﺖ ﺳﺆال از وﯾﮋﮔﯽﻫﺎی آزﻣﻮدﻧﯽﻫﺎ در ﻧﻈﺮﯾﻪ ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆال ـ ﭘﺎﺳﺦ اﺳﺖ.  

از آنﺟﺎ ﮐﻪ در ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ، ﺷﺎﺧﺺ ﻗﺪرت ﺗﺸﺨﯿﺺ ﺳﺆال، ﺿﺮﯾﺐ ﻫﻤﺒﺴﺘﮕﯽ ﻧﻘﻄﻪای

اﺳﺖ، در NIRT ﻣﻘﯿﺎس ﭘﺬﯾﺮی، ﻣﻌﺎدل  ﺑﺮآورد ﺷﺎﺧﺺ ﯾﺎ ﭘﺎراﻣﺘﺮ ﻗﺪرت ﺗﺸﺨﯿﺺ ﯾﺎ ﺷﯿﺐ ﺳﺆال

(a1)  اﺳﺖ.  ﺟﺪول 5، ﺿﺮﯾﺐ ﻫﻤﺒﺴﺘﮕﯽ آزﻣﻮن رﯾﺎﺿﯽ را در ﺑﺮآورد ﺷﺎﺧﺺ ﻗﺪرت ﺗﺸﺨﯿﺺ در

دو ﮔﺮوه ﻧﻤﻮﻧﻪ در  CTT و NIRT ﻧﺸﺎن ﻣﯽدﻫﺪ.    

  

ﺟﺪول 5- ﻣﻘﺎﯾﺴﻪ ﺿﺮاﯾﺐ ﻫﻤﺒﺴﺘﮕﯽ ﺷﺎﺧﺺﯾﺎ ﻣﻘﯿﺎس ﭘﺬﯾﺮی    

(ﭘﺎراﻣﺘﺮ ﻗﺪرت ﺗﺸﺨﯿﺺ) ﺳﺆال در دو ﮔﺮوه ﻧﻤﻮﻧﻪ ﺑﺎ روش CTT و NIRT   

روش ﻣﻘﺎﯾﺴﻪ   ﺗﻌﺪاد ﺳﺆاﻻت  ﺿﺮﯾﺐ ﻫﻤﺒﺴﺘﮕﯽ rpbis ﺳﻄﺢ ﻣﻌﻨﯽداری  

  0/034  0/310  49  CTT

  0/001  0/941  44  NIRT

ﻫﻤﺎنﻃﻮر ﮐﻪ ﻣﻼﺣﻈﻪ ﻣﯽﺷﻮد، ﺿﺮﯾﺐ ﻫﻤﺒﺴﺘﮕﯽ در CTT ﺑﺮاﺑﺮ0/310 و در NIRT  ﺑﺮاﺑﺮ

0/941 اﺳﺖ. اﯾﻦ ﻣﯿﺰان ﻧﺸﺎندﻫﻨﺪه ﻫﻤﺒﺴﺘﮕﯽ ﺑﺴﯿﺎر ﺑﺎﻻ در ﻧﻈﺮﯾﻪ ﻏﯿﺮﭘﺎرﻣﺘﺮﯾﮏ ﺳﺆال ـ ﭘﺎﺳﺦ (در

ﻣﻘﺎﯾﺴﻪ ﺑﺎ ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ) در ﺑﺮآورد ﺷﺎﺧﺺ ﯾﺎ ﭘﺎراﻣﺘﺮ ﻗﺪرت ﺗﺸﺨﯿﺺ اﺳﺖ.   

  

www.SID.irArchive of SID

                                                      ﻣﻘﺎﯾﺴﻪ ﻣﺪل اﻧﺪازهﮔﯿﺮی ﮐﻼﺳﯿﮏ و ﻣﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ... 53

ﺟﺪول 6 ـ ﻣﻘﺎﯾﺴﻪ دو ﻧﻈﺮﯾﻪ CTT و NIRT از ﻧﻈﺮ ﺷﺎﺧﺺﯾﺎ ﻣﻘﯿﺎسﭘﺬﯾﺮی (

ﭘﺎراﻣﺘﺮ ﻗﺪرت ﺗﺸﺨﯿﺺ) ﺳﺆال ﺑﺎ اﺳﺘﻔﺎده از آزﻣﻮن t   

ﻣﯿﺎﻧﮕﯿﻦ ﺳﻄﺢ

دﺷﻮاری  

ﺧﻄﺎی اﺳﺘﺎﻧﺪارد

ﻣﯿﺎﻧﮕﯿﻦ ﺳﻄﺢ

دﺷﻮاری  

  ﺴﻪ ﯾ روش ﻣﻮرد ﻣﻘﺎ

  ﺗﻌﺪاد

  ت ﺳﺆاﻻ

  A ﮔﺮوه

  B ﮔﺮوه

  A ﮔﺮوه

  B ﮔﺮوه

t آزﻣﻮن

  ) d.f  (ی درﺟﻪ آزاد

  دار ﯽ ﺳﻄﺢ ﻣﻌﻨ

  49 CTT

  0/2777

sd=0/08

  0/1441

  sd=0/05

  0/001  48  9/35  0/009  0/014

  44 NIRT

  0/7933

  sd=0/23

  0/7932

  sd=0/22

  0/898  43  -0/12  0/036  0/037

ﻫﻤﺎنﻃﻮر ﮐﻪ در ﺟﺪول 6 ﻣﻼﺣﻈﻪ ﻣﯽﺷﻮد، در ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ، ﻣﯿﺎﻧﮕﯿﻦ ﺷﺎﺧﺺ ﻗﺪرت

ﺗﺸﺨﯿﺺ در دو ﮔﺮوه ﺗﻔﺎوت زﯾﺎدی داﺷﺘﻪ اﺳﺖ؛ در ﺣﺎﻟﯽﮐﻪ در ﻧﻈﺮﯾﻪ ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆال ـ ﭘﺎﺳﺦ،

ﻣﯿﺎﻧﮕﯿﻦ ﻗﺪرت ﺗﺸﺨﯿﺺ و sd آنﻫﺎ در دو ﮔﺮوه آزﻣﻮدﻧﯽ ﺑﺴﯿﺎر ﻧﺰدﯾﮏ ﺑﻪﯾﮑﺪﯾﮕﺮ اﺳﺖ.  ﺧﻄﺎی

اﺳﺘﺎﻧﺪارد ﻣﯿﺎﻧﮕﯿﻦ ﻗﺪرت ﺗﺸﺨﯿﺺ ﻧﯿﺰ در CTT در دو ﮔﺮوه ﻧﻤﻮﻧﻪ، ﻣﺘﻔﺎوت اﺳﺖ؛ وﻟﯽ در

NIRT اﯾﻦ ﻣﻘﺎدﯾﺮ ﺗﻘﺮﯾ ًﺒﺎ ﯾﮑﺴﺎن اﺳﺖ.  آزﻣﻮن t در CTT در ﺳﻄﺢ 0/001 ﻣﻌﻨﯽدار اﺳﺖ؛ ﯾﻌﻨﯽ

ﺑﺮآورد ﺷﺎﺧﺺ ﻗﺪرت ﺗﺸﺨﯿﺺ در دو ﻧﻤﻮﻧﻪ در CTT ﺗﻔﺎوت ﻣﻌﻨﯽداری ﺑﺎ ﯾﮑﺪﯾﮕﺮ دارد؛ اﻣﺎ در

NIRT    ﺗﻔﺎوت ﺑﯿﻦ دو ﮔﺮوه در ﺑﺮآورد اﯾﻦ ﺷﺎﺧﺺ ﻣﻌﻨﯽدار ﻧﯿﺴﺖ.  ﺑﻪﻋﺒﺎرﺗﯽ در ﻧﻈﺮﯾﻪ

ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆال ـ ﭘﺎﺳﺦ ، ﺿﺮﯾﺐ ﻣﻘﯿﺎس ﭘﺬﯾﺮی (ﭘﺎراﻣﺘﺮ ﻗﺪرت ﺗﺸﺨﯿﺺ) ﺛﺎﺑﺖ اﺳﺖ و

ﺗﺤﺖﺗﺄﺛﯿﺮ وﯾﮋﮔﯽﻫﺎی ﮔﺮوه آزﻣﻮدﻧﯽﻫﺎ ﻗﺮار ﻧﻤﯽﮔﯿﺮد و از ﯾﮏ ﮔﺮوه ﺑﻪ ﮔﺮوه دﯾﮕﺮ، ﻣﻘﺎدﯾﺮ آن

ﻣﺸﺎﺑﻪ اﺳﺖ؛ در ﻧﺘﯿﺠﻪ ﻣﻘﺎدﯾﺮ ﺑﺮآوردﺷﺪه در دو ﮔﺮوه، ﺗﻔﺎوت ﻣﻌﻨﯽداری ﺑﺎ ﯾﮑﺪﯾﮕﺮ ﻧﺪارﻧﺪ؛ اﻣﺎ در

ﻧﻈﺮﯾﻪ CTT، ﺗﻔﺎوت ﺑﯿﻦ ﻣﻘﺎدﯾﺮ ﺑﺮآوردﺷﺪه ﺷﺎﺧﺺﻫﺎی ﺳﺆال، زﯾﺎد و ﺗﻔﺎوت ﺑﯿﻦ دو ﮔﺮوه

ﻣﻌﻨﯽدار اﺳﺖ.   

  

www.SID.irArchive of SID

ﻓﺼﻠﻨﺎﻣﮥ ﻧﻮآورﯾﻬﺎی آﻣﻮزﺷﯽ، ﺷﻤﺎرۀ 18، ﺳﺎل ﭘﻨﺠﻢ، زﻣﺴﺘﺎن 1385

                              

54

ﺑﺤﺚ و ﻧﺘﯿﺠﻪﮔﯿﺮی   

در ﺑﺮرﺳﯽ اول، ﺗﻔﺎوت دو ﻧﻈﺮﯾﻪ از ﻧﻈﺮ ﭘﺎراﻣﺘﺮ ﺳﻄﺢ دﺷﻮاری در ﮐﻼﺳﯿﮏ   ﯾﺎ ﻣﺤﺒﻮﺑﯿﺖ

ﺳﺆال   ﻧﻈﺮﯾﻪ ﻣﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ   ﺳﺆال – ﭘﺎﺳﺦ، ﻣﻮرد ﻣﻄﺎﻟﻌﻪ ﻗﺮار ﮔﺮﻓﺖ و ﻧﺘﺎﯾﺞ زﯾﺮ ﺑﻪ دﺳﺖ

i آﻣﺪ:  در ﻣﺪل ﮐﻼﺳﯿﮏ، درﺟﻪ دﺷﻮاری ﺳﺆال ( p

)  ﺑﺎ اﻧﺘﺨﺎب ﻧﻤﻮﻧﻪای از آزﻣﻮدﻧﯽﻫﺎ ﺗﻐﯿﯿﺮ ﻣﯽﮐﻨﺪ؛

ﯾﻌﻨﯽ ﯾﮏ ﺳﺆال ﺑﺮای ﮔﺮوه ﻧﻤﻮﻧﻪ ﻗﻮیﺗﺮ،آﺳﺎن و ﺑﺮای ﮔﺮوه ﻧﻤﻮﻧﻪ ﺿﻌﯿﻒﺗﺮ،دﺷﻮار ﺧﻮاﻫﺪ ﺑﻮد؛ در

ﺣﺎﻟﯽﮐﻪ ﺑﺮرﺳﯽﻫﺎ ﻧﺸﺎن داد ﮐﻪ در ﻧﻈﺮﯾﻪ ﻣﺪل ﻏﯿﺮﭘﺎرﻣﺘﺮﯾﮏ   ﺳﺆال ـ ﭘﺎﺳﺦ، ﺿﺮﯾﺐ ﻣﻘﯿﺎسﭘﺬﯾﺮی

Hi)، ﻧﺎﻣﺘﻐﯿﺮ و ﺗﻘﺮﯾ ًﺒﺎ ﺛﺎﺑﺖ اﺳﺖ و ﻣﯽﺗﻮان ﻧﺤﻮه ﭘﺎﺳﺨﮕﻮﯾﯽ اﻓﺮادی را ﮐﻪ ً ﻗﺒﻼ ﺑﺎ آن ﺳﺆال ﻣﻮاﺟﻪ

)

ﻧﺸﺪهاﻧﺪ، در اﯾﻦ ﻧﻈﺮﯾﻪ ﭘﯿﺶﺑﯿﻨﯽ ﮐﺮد.  در ﺿﻤﻦ، اﯾﻦ ﺷﺎﺧﺺ ﺗﺤﺖﺗﺄﺛﯿﺮ وﯾﮋﮔﯽﻫﺎی آزﻣﻮدﻧﯽﻫﺎ ﯾﺎ

ﺳﺆاﻻت دﯾﮕﺮ ﺗﻐﯿﯿﺮ ﻧﻤﯽﮐﻨﺪ.در اﯾﻦ زﻣﯿﻨﻪ ﻣﻮﮐﻦ (1997)  ﺑﻪ ﻧﺘﺎﯾﺞ ﻣﺸﺎﺑﻪ دﺳﺖ ﯾﺎﻓﺖ.  ﺑﺮ اﺳﺎس

ﻣﯿﺰان دﺷﻮاری آزﻣﻮن در ﻧﻈﺮﯾﻪ ﮐﻼﺳﯿﮏ، ﻧﺴﺒﺖ ﭘﺎﺳﺦﻫﺎی ﺻﺤﯿﺢ و ﻧﻤﺮات اﻓﺮاد ﮔﺮوه ﻧﻤﻮﻧﻪ ﺗﻐﯿﯿﺮ

ﻣﯽﮐﻨﺪ و ﺑﺮﺣﺴﺐ ﻣﯿﺰان دﺷﻮاری آزﻣﻮن، ﺗﻮاﻧﺎﯾﯽ اﻓﺮاد، ﺑﯿﺸﯿﻨﻪ ﯾﺎ ﮐﻤﯿﻨﻪ ﺑﺮآورد ﻣﯽﺷﻮد؛ وﻟﯽ در

ﻧﻈﺮﯾﻪ ﻣﺪل ﻏﯿﺮﭘﺎرﻣﺘﺮﯾﮏ ﺳﺆال ـ ﭘﺎﺳﺦ، ﺿﺮﯾﺐ ﻣﻘﯿﺎسﭘﺬﯾﺮی، ﺑﺪون ﺗﺄﺛﯿﺮ از ﻣﯿﺰان ﺗﻮاﻧﺎﯾﯽ اﻓﺮاد

ﺑﺮآورد ﻣﯽﺷﻮد و وﯾﮋﮔﯽﻫﺎی ﺳﺆاﻻت آزﻣﻮن، ﺗﺄﺛﯿﺮی ﺑﺮ ﻣﻘﺪار ﺑﺮآورد ﺷﺪه ﻧﺪارد.  رﻣﺰی                       

(1997) ﺗﺤﻠﯿﻞﻫﺎﯾﯽ را ﺑﺎ اﺳﺘﻔﺎده از ﻣﺪلﻫﺎی ﻫﻤﮕﻨﯽ ﯾﮑﻨﻮاﺧﺘﯽ و ﻫﻤﮕﻨﯽ ﯾﮑﻨﻮاﺧﺘﯽ ﺟﻔﺘﯽ اﻧﺠﺎم

داد و  ﺑﺮرﺳﯽ ﺗﺤﻘﯿﻘﯽ وی ﻧﯿﺰ ﻣﻄﺎﻟﺐ ﻓﻮق را ﺗﺄﯾﯿﺪ ﮐﺮد.

در ﺑﺮرﺳﯽ ﺳﺆال دوم ﺗﺤﻘﯿﻖ، ﯾﻌﻨﯽ ﺗﻔﺎوت دو ﻧﻈﺮﯾﻪ از ﻧﻈﺮ ﺷﺎﺧﺺ ﻗﺪرت ﺗﺸﺨﯿﺺ ﺳﺆال

در ﮐﻼﺳﯿﮏ و ﺿﺮﯾﺐ ﻣﻘﯿﺎسﭘﺬﯾﺮی، ﻧﺘﺎﯾﺞ زﯾﺮ ﺑﻪدﺳﺖ آﻣﺪ:  ﺷﺎﺧﺺ ﻗﺪرت ﺗﻤﯿﺰ در ﻧﻈﺮﯾﻪ

ﮐﻼﺳﯿﮏ اﻧﺪازهﮔﯿﺮی، ﻣﺎﻧﻨﺪ ﺷﺎﺧﺺ دﺷﻮاری ﺳﺆال، از ﻧﻤﻮﻧﻪﻫﺎی ﻣﺨﺘﻠﻒ آزﻣﻮدﻧﯽ ﺗﺄﺛﯿﺮات ﻣﺘﻔﺎوﺗﯽ

را ﻣﯽﭘﺬﯾﺮد. اﯾﻦ ﻧﻈﺮﯾﻪ ﺑﺮآوردﻫﺎﯾﯽ واﺑﺴﺘﻪ ﺑﻪ ﻧﻤﻮﻧﻪ اراﺋﻪ ﻣﯽﮐﻨﺪ و ﺗﺤﺖﺗﺄﺛﯿﺮ ﻧﺎﻫﻤﮕﻮﻧﯽ ﮔﺮوه، اﯾﻦ

ﻣﺸﺨﺼﻪ اﻓﺰاﯾﺶ ﻣﯽﯾﺎﺑﺪ؛ در ﺣﺎﻟﯽﮐﻪ در ﻧﻈﺮﯾﻪ  ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆال ـ ﭘﺎﺳﺦ، ﺿﺮﯾﺐ ﻣﻘﯿﺎسﭘﺬﯾﺮی،   

ﺷﺎﺧﺼﯽ اﺳﺖ ﮐﻪ ﻣﯿﺰان اﻃﻼﻋﯽ را ﮐﻪ ﯾﮏ ﺳﺆال درﺑﺎره ﺳﻄﺢ ﺗﻮاﻧﺎﯾﯽ ﻣﻮرد ﺳﻨﺠﺶ اراﺋﻪ ﻣﯽﮐﻨﺪ،

ﻧﺸﺎن ﻣﯽدﻫﺪ.  ﺿﺮﯾﺐ ﻣﻘﯿﺎسﭘﺬﯾﺮی در ﻧﻈﺮﯾﻪ NIRT، ﻧﺎﻣﺘﻐﯿﺮ اﺳﺖ و ﺑﻪ ﮔﺮوهﻫﺎی ﻣﺨﺘﻠﻒ

آزﻣﻮدﻧﯽﻫﺎ ﻗﺎﺑﻞ ﺗﻌﻤﯿﻢ اﺳﺖ.  ﺗﻐﯿﯿﺮﻧﺎﭘﺬﯾﺮی ﯾﮑﯽ از ﻣﻬﻢﺗﺮﯾﻦ وﯾﮋﮔﯽﻫﺎی اﯾﻦ ﻧﻈﺮﯾﻪ اﺳﺖ (ﻣﻮﻟﻨﺎرو

1997 و ﺗﺮﺳﮑﻮﺳﮑﯽ 1999 ).   

  

www.SID.irArchive of SID

                                                      ﻣﻘﺎﯾﺴﻪ ﻣﺪل اﻧﺪازهﮔﯿﺮی ﮐﻼﺳﯿﮏ و ﻣﺪل ﻏﯿﺮﭘﺎراﻣﺘﺮﯾﮏ... 55

ﻣﻨﺎﺑﻊ   

آﻟﻦ، ﻣﺮیﺟﯽ؛ ﯾﻦ، وﻧﺪیام (1374). ﻣﻘﺪﻣﻪای ﺑﺮ ﻧﻈﺮﯾﻪﻫﺎی اﻧﺪازهﮔﯿـﺮی (روانﺳـﻨﺠﯽ)، ﺗﺮﺟﻤـﻪ ﻋﻠـﯽ

دﻻور، ﺗﻬﺮان: اﻧﺘﺸﺎرات ﺳﻤﺖ (1979).  

اﻓﺮوز، ﻏﻼﻣﻌﻠﯽ؛ ﻫﻮﻣﻦ، ﺣﯿﺪرﻋﻠﯽ (1375). روش ﺗﻬﯿﻪ آزﻣﻮن ﻫﻮش: ﻫﻮشآزﻣﺎی ﺗﻬﺮان ـ اﺳـﺘﻨﻔﻮرد ـ

ﺑﯿﻨﻪ (T.S.B)، ﺗﻬﺮان: ﻣﻮﺳﺴﻪ اﻧﺘﺸﺎرات و ﭼﺎپ داﻧﺸﮕﺎه ﺗﻬﺮان.  

ﺛﺮﻧﺪاﯾﮏ، راﺑﺮت (1375). روانﺳﻨﺠﯽ ﮐﺎرﺑﺮدی، ﺗﺮﺟﻤﻪ ﺣﯿﺪرﻋﻠﯽ ﻫـﻮﻣﻦ. ﺗﻬـﺮان: اﻧﺘـﺸﺎرات داﻧـﺸﮕﺎه

ﺗﻬﺮان.   

ﺳﯿﻒ، ﻋﻠﯽاﮐﺒﺮ (1380). روشﻫﺎی اﻧﺪازهﮔﯿﺮی و ارزﺷﯿﺎﺑﯽ آﻣﻮزﺷﯽ. ﻧﺸﺮ دوران.  

ﻣﻮﻟﻦ آﯾﺮ، اﯾﻮدﺑﻠﯿﻮ؛ ﺳﯿﺠﺖﺳﻤﺎ، ﮐﻼس     (1385). ﻣﻘﺪﻣﻪ ﺑﺮ ﺗﺌﻮری ﻧﺎﭘﺎراﻣﺘﺮﯾﮏ ﺳﺆال – ﭘﺎﺳﺦ (ﺑﻪﻫﻤﺮاه

ﻧﺮماﻓﺰار)، ﺗﺮﺟﻤﻪ ﺳﻠﯿﻤﺎن ذواﻟﻔﻘﺎریﻧﺴﺐ: ﻣﺸﻬﺪ: اﻧﺘﺸﺎرات ﮐﺘﺎﺑﺨﺎﻧﻪای راﯾﺎﻧﻪای (2002).

  

Gulliksen, H. (1950). Theory of  Mental tests. Newyork: John Wiley & 

Sons.

Hambleton, R. K. (1989). Principles and selected applications of Item 

Response Theory. In R. Linn (Ed), Educational Measurement (3rd end). 

Newyork: Memillan. PP: 147-200.

Hambleton, R. K. & Cook, L. L. (1977). Latent Trait models and their use 

in the analysis of Educational test data. Journal of  Educational Measurement. 

14(2), P: 75-94. 

Hambleton, R. K. & Swaminathan, H. (1985). Item Response Theory: 

Principles and  Applications, Boston: Kluwer.    

Hambleton, R.K ; Jones, R. W. (1993). Comparison of Classical Test 

Theory and Item Response Theory and Their Applications to Test 

Development. Educational  Measurement: Issues and Practice. 12(3), 38-47. 

Hambleton, R. K. & Vander Linden, Wim. J. (1982). Advance in Item 

Response Theory and Applications: An Introduction, Applied Psychplogical 

Measurement. 6(4), 373- 378. 

Lord, F. M. & Novick, M. R. (1968). Statistical Theories of mental test 

scores.Reading, MA: Addison-Wesley. 

Lord, F. M. (1980). Applications of Item Response Theory to Practice 

Testing Problems, Hillsdale, N.J: Lawrence Erlbaum.

www.SID.irArchive of SID

ﻓﺼﻠﻨﺎﻣﮥ ﻧﻮآورﯾﻬﺎی آﻣﻮزﺷﯽ، ﺷﻤﺎرۀ 18، ﺳﺎل ﭘﻨﺠﻢ، زﻣﺴﺘﺎن 1385

                              

56

Mokken, R.J. (1997). Nonparametric  models for dichotomous responses. 

In: Hambleton, R.K. and Van der Linden, W.J. (Ed’s). Handbook of Modern 

Item Response Theory. New York-Berlin: Springer-Verlag, pp. 351-367.

Molenaar, I. W. (1997). Nonparametric models for dichotomous responses. 

In: Hambleton, R.K. and Van der Linden, W.J. (ed’s). Handbook of Modern 

Item Response Theory. New York-Berlin: Springer-Verlag, pp. 369-379

Ramsey, J . (1997). Nonparametric Models for Dichotomous Responses. 

In: Hambleton, R.K. and Van der Linden, W.J. (ed’s). Handbook of Modern 

Item Response Theory. New York-Berlin: Springer-Verlag, pp. 369-379

 Truskosky, D.M. (1999). An empirical examination of Classical Test 

Theory and Item Response Theory parameters: implications for research and 

practice in small- and large- sample assessment, Department of Psychology in 

the graduate school Southern Illinois  university at Carbondale.

Wright, B.D. & Stone, M.H. (1979). Best Test Design. Chicago: MESA 

Press. 

www.SID.ir

استفاده از نظريه سوال پاسخ در مدل بندي داده هاي بيان ژن

 
تحت شرايط  خاص پژوهشي موقعيت هايي پيش مي آيد كه در آن تعداد متغيرهاي مشاهده شده بيشتر از تعداد متغيرهاي مكنون يا پنهان مي باشند. مثلا در بيان ژني (gene expression)  تعداد ژن ها كه متغيرهاي پنهان اند بيشتر از تعداد موقعيت هاي زيستي كه مشاهده شده هستند مي باشند، در اين مواقع تحليل داده ها با استفاده از  رورش هاي كلاسيك آماري يا استفاده از الگوهاي يادگيري ماشين غير ممكن است. در اين حالت براي پيش بيني طبقه ها نمي توان از روش هايي كه در داده كاوي استفاده مي شود استفاده كرد. به عنوان مثال كاربرد تحليل تشخيصي يا تحليل تمييز منجر به over-fitting شدن مدل مي شود. در اين حالت مدل پيش بيني شده با داده هاي اصلي به خوبي برازش پيدا مي كند اما ممكن است پيش بيني خوبي براي داده ها ارائه ندهد. راه معمول براي حل اين مشكل كاهش تعداد متغيرها است اين كار از طريق روش ها گزينش و يا فرافكني متغيرها به ابعاد كمتر امكان پذير است. اگر چه تحليل هاي آماري كه براي داده هاي microarray استفاده مي شود از حوزه هاي مهمي پژوهشي است اما مقالات كمي به اين مورد پرداخته اند. دانشمندان معتقداند كه تحليل داده هاي با ابعاد بالا يكي از مهمترين موضوعات پژوهشي است كه در آينده به آن بيشتر پرداخته مي شود.



دو راه مهمي كه براي مديريت كردن اين مشكل وجود دارد يكي اين است كه متغيرهاي نامرتبط و تكراري حذف شود و متغيرهايي باقي بمانند كه در ژن هاي بيان شده بيشترين تمايز را ايجاد كنند. استفاده از روش هاي چند متغيري آماري نيز مي تواند براي حل اين مشكل استفاده شود. مثلا استفاده از روش تحليل عاملي خطي و غير خطي و يا تحليل خوشه اي. در مورد مثال بالا يعني داده هاي بيان ژن روش تحليل خوشه اي يك راه حل معمول است.



هدف تحليل خوشه اي آشكارسازي ساختار مكنون و شناسايي الگوهاي جالب زير بنايي داده هاي مشاهده شده است. پيش بيني طبقه يكي از جنبه هاي مهم مربوط به مطالعات microarray است. بر اساس اين پيش بيني مي توان براي يك نمونه ي زيستي (متغيرهاي مشاهده شده) و بر اساس نيمرخ بيان شده ي آنها طبقه شان را مشخص نمود. اگر چه تحليل خوشه اي ابزار مهمي در پيدا كردن خوشه ها و كشف الگوهاي مربوط به داده هاي بيان ژن است اما پيش بيني با اين روش امكان ندارد. خروجي تحليل خوشه اي گروههايي است كه داراي مقياس اسمي اند و بنابراين مثلا با روش تحليل مولفه هاي اصلي كه در آن متغيرهاي خروجي پيوسته اند و مي توان براي پيش بيني از آن استفاده كرد متفاوتند. تحليل خوشه اي اطلاعات كمي مناسبي براي خوشه ژن ها مهيا نمي كند مخصوصا مشخص نمي كند كه هر خوشه چقدر از خوشه ي ديگر روي پيوستار مقياس اندازه گيري متفاوت است. در عين حال خوشه بندي سلسله مراتبي اطلاعاتي در مورد اين كه در هر سطح چه دسته ژن هايي با يكديگر قرار دارند مهيا مي كند ولي همانطور كه گفته شد تحليل خوشه اي اطلاعات كمي معتبر آماري در مورد هر خوشه ي ژن مشخص نمي كند.



بر مبناي نظريه ي سوال پاسخ هر ژن را مي توان يك سوال در نظر گرفت و هر نمونه ي زيستي را يك فرد و بنابراين امكان استفاده از نظريه ي سوال پاسخ براي داده هاي بيان ژن مهيا مي شود. در اين صورت سطح بيان به عنوان پاسخ يك نمونه بيولوژيكي خاص به يك ژن خاص تعريف مي شود. در يك نمونه ي خاص با استفاده از نيمرخ بيان ژن ها در يك خوشه مشخص مي توانيم با بيان يك متغير مكنون از طريق برازش با مدل راش احتمال سطح بيان بالا را بدست آوريم. فرض كنيد كه ما i متغير مشاهده شده و j نمونه داريم. در اين مثال ژن ها متغيرهاي مشاهده شده اند و Uij اگر برابر با يك باشد به اين معني است كه سطح بيان ژن در نمونه ي j بالا است و در صورتي كه مقدار آن صفر باشد سطح بيان ژن در نمونه ي j پايين است. مدل راش احتمال سطح بالاي بيان ژن را براي نمونه ي j پيش بيني مي كند. پارامترهاي مدل راش در اين انطباق برابرند با



تتا: پارامتر نمونه است كه بيانگر متغير مكنون مربوط به نمونه مي باشد كه از طريق ژن i  اندازه گيري مي شود.



درجه دشواري: در اين مثال درجه ي دشواري پارامتر مربوط به ژن است. نمونه ها براي ژن هايي كه پارامتر آنها بالا است، به نسبت كمتري سطح بيان بالا ارائه مي دهند.



در ضمن در اين مثال از روش برآورد درستنمايي شرطي براي براورد پارامترها استفاده مي شود.



 

چند طرح اصلی جمع آوري داده براي مطالعه همتراز سازي

چند طرح اصلی جمع آوري داده براي مطالعه همتراز سازي
همتراز سازي آزمون یک اقدام مهم تجربی است. این عمل بین نمره هاي خام یا نمره
هاي مقیاس دردو یا بیشتر از دو فرم آزمون ارتباط برقرارمی کند: داده ها از چندین فرم
آزمون جمع آوري شده و سپس روش هاي مناسب همتراز سازي براي تبدیل نمرات اجرا می
شود. چندین روش براي همتراز نمودن نمرات در چند فرم آزمون وجوددارد هر یک از این
روشها بر روي طرح ویژه اي ازجمع آوري داده متمرکز هستند در اینجا تنها برروي سه طرح
اصلی بحث می شود.
به یک گروه آزمودنی Y و X طرح 1- طرح تک گروهی: در این طرح هر دو فرم
داده می شود. یک اشکال این طرح زمان زیادي است که براي اجرا نیاز دارد. وقتی افراد به
سوال هاي آزمون دوم پاسخ می دهند خستگی می تواند نقش مهمی در عملکرد آنها بازي کند
بنابر این بهترین کار این است که آزمون ها در دسته هاي مختلفی بر روي تعدادي ازآزمودنی
ها اجرا شود.
5
آزمون بر روي Y و X طرح 2- طرح گروه هاي تصادفی: در این طرح فرم هاي
نمونه هاي تصادفی متفاوتی از جامعه اجرا می شود. در امتحانات با مقیاس وسیع یکی از آزمون
یک آزمون جدید است ،Y آزمون قدیمی است و آزمون دیگر، مثلاً آزمون ،X ها مثلاً آزمون
که می خواهیم با آزمون قدیمی همتراز شودبررسی همتراز سازي در این موقعیت با استفاده
از طرح هاي 1 و 2 امکان پذیر نیست چرا که محتواي آزمون جدید قبل از موقع دردسترس
بوده است. طرح 3 این امکان را ندارد.
طرح 3- طرح آزمون لنگر 1
Y و X که از لحاظ عملکرد با آزمون هاي V در این طرح تمامی افراد به آزمون
برروي گروه دیگر اجرا V بر روي یک گروه و Y و X برابراست پاسخ می دهند آزمون هاي
می شود. ممکن است دو گروه به صورت غیر تصادفی با یکدیگر متفاوت باشند آزمون
و X آزمون لنگر نامیده می شود. این آزمون می تواند خرده آزمونی از فرم هاي ،V مشترك
می تواند یک V باشد که در این صورت به آن آزمون لنگر درونی 2 می گویند . آزمون Y
آزمون مستقل باشد که به آن آزمون لنگر بیرونی 3 گفته می شود.
به V می توانند بوسیله ي میانگین هاي مشترك یا آزمون لنگر Y و X آزمون هاي
یکدیگر مربوط شوند طرح 3 می تواند با دو گروه نمونه تصادفی نیز اجرا شود. برتري طرح
3 نسبت به طرح 2 این است که تفاوت هاي احتمالی بین دو گروه تصادفی پاسخ دهندگان می
تواند اصلاح شود و براي این اصلاح یک تصحیح آماري نیز پیشنهاد شده است. براي این تصحیح
1– Anchor test
2– Internal Anchor Test
3– External Anchor Test
6
را اندازه گیري کند اما هرچه Y و X سازه یکسانی مانند آزمون هاي V لازم نیست که آزمون
وجود داشته باشد تصحیح بهتري انجام می شود. Y و X و فرم هاي V همبستگی بالاتري بین
سوال هاي یک آزمون لنگردرونی باید نسبت به محتوا، غیر حساس باشند . همچنین
عملکرد مشابهی داشته باشند یعنی سوال ها ،Y و X سوال هاي مشترك باید در هر دو فرم
اجرا شده است ممکن Y مدت ها قبل از آزمون X باید مشابه عمل کنند. فرض کنید آزمون
اجرا شده دشوار به نظر Y قدیمی شده باشند و زمانی که آزمون X است سوال هاي آزمون

برسند چنین سوال هاي قدیمی به عنوان سوال هاي لنگر مناسب نیستند.

ارزشیابی نتایج همترازسازي

براي معادل سازي آزمون ها علاوه بر انتخاب طرح همترازسازي داشتن یک تعریف عملیاتی از همترازسازي

و انتخاب روش برآورد یک رابطه همترازسازي ضروري است بعد از همترازسازي نتایج آن باید ارزشیابی شوند

این نوع ارزشیابی از همترازسازي مستلزم تعیین و معرفی معیاري براي ارزشیابی و معادل سازي باشد (هریس و

. ( کراس 1993

برآورد خطاي تصادفی ،سازگاري نتایج همترازسازي با نتایج قبلی و بررسی تحقق شرایط همترازسازي

(تقارن، توانایی یکسان، برابري و ثبات ناپذیري جامعه) می توانند به عنوان پایه هاي براي تعریف و پرورش

معیار ارزشیابی همترازسازي مورد استفاده قرار گیرند.

براي مثال با استفاده از برآورد خطاي تصادفی و سازگاري نتایج همترازسازي با نتایج قبلی می توان حدود

نمره مورد انتظار براي آزمودنی ها را محاسبه نمود و ازمقایسه نمره کسب شده با حدود نمره مورد انتظار به

عنوان معیاري براي ارزشیابی همترازسازي استفاده نمود. بررسی یکسانی آمارتوزیع نمرات برآورد شده با توزیع

نمرات روي فرم پایه معیار دیگري براي ارزشیابی همترازسازي است.

با توجه به ویژگی همترازسازي نمرات مشاهده شده، نمره معادل شده هر آزمودنی صرف نظر از اینکه کدام

فرم را امتحان داده باشد باید نمره یکسانی باشد. پس اگر چند فرم یک آزمون به عنوان امتحان ورودي براي

داوطلبین یک موسسه آموزشی اجرا شود و زیر گروه هاي که فرم ها را امتحان می دهند یکسان باشند (انتخاب

تصادفی و حجم مساوي در گروه ها) در صورتیکه نوع فرم در نمره بدست آمده تاثیري نداشته باشد تعداد

پذیرفته شدگان از هر فرم آزمون باید به هم نزدیک باشند و این معیاري براي ارزشیابی نتایج از دیدگاه یک

موسسه آموزشی به شمار می رود.براي مطالعه بحث هاي بیشتر در زمینه ارزشیابی همترازسازي به کولن و برنان

1995 ) مراجعه شود. )

خانم دكتر اكبري

بکار بردن IRT به منظور ارزیابی سوال و ویژگی های مقیاس به منظور بهبود مقیاس

بکار بردن IRT به منظور ارزیابی سوال و ویژگی های مقیاس به منظور بهبود مقیاس
سطوح آستانه سوال و همچنین قدرت تشخیص سوالات می تواند از طریق ICC و همچنین منحنی های آگاهی مشخص می شوند. این کار سبب می شود تا  از طریق آن بتوان سوالاتی که را که در ارتباط با توزیع صفت مکنون خوب عمل می کنند را شناسایی کرد. علاوه بر این سطح سازه ی زیر بنایی که توسط سوال اندازه گیری می شود، امکان تکرار  سوالات در ارتباط با سایر سوالات دیگر و مناسب بودن مقیاس چک می شود. IRT  ابزار قدرتمندی در ساخت سوالات کوتاه، پایا و منطبق با هدف در راستای حرکت به سمت مطالعه ی جامعه می باشد.
تحلیل کل مقیاس از طریق تابع آگاهی، خطای استاندارد اندازه گیری و پایایی انجام می شود. نظریه ی کلاسیک برای همه ی نمرات یک ضریب پایایی ارائه می دهد. پایایی بالا برای همه ی حیطه ی خصیصه ی مکنون مناسب نیست و وابسته به هدف پژوهش می باشد. با توجه به نظریه سوال پاسخ می توان مشخص کرد که سوالاتی که قرار است اضافه شود بهتر است برای کدام حوزه صفت مکنون باشد این عمل از طریق فنون مبتنی بر نظریه ی کلاسیک امکان پذیر نیست. به طور کلی اطلاعاتی که از طریق IRT در طول پیوستار صفت مکنون بدست می آید از طریق نظریه ی کلاسیک قابل دستیابی نیست، اگر چه ممکن است ویژگی های سوال بدست آمده از دو نظریه نزدیک به هم باشند. مهمترین فایده ی IRT نمایش جامع محتوی و توانایی تعیین بهینه ی طبقات پاسخ برای تک تک سوالات است و نمرات فرد در آزمون های مختلف که یک صفت را اندازه می گیرند یکسان است به تعبیر دیگر یعنی، سوالات آزمون وابسته به نمونه نیست.

چرا با وجود مزایای IRT  از آن استفاده نمی شود؟

چند محدودیت اساسی سبب می شود که پژوهشگران به سمت استفاده از این نظریه در گسترش آزمون نروند. اولین دلیل آن این است که اکثر پژوهشگران برای استفاده از نظریه ی کلاسیک آموزش دیده اند و پژوهشگرانی که در زمینه ی IRT خبره باشند کم است. از طرفی تفسیر آماره هایی که از نظریه ی کلاسیک بدست می آیند ساده است ولی تفسیر نتایج بدست آمده از طریق IRT به دانش تخصصی و پیشرفته از نظریه ی اندازه گیری است و در ضمن پیچیده گی فرمول های بکار رفته در این نظریه و منطق زیربنایی آنها بر کمتر استفاده شدن آنها می افزاید. نرم افزارهایی که برای نظریه ی کلاسیک استفاده می شود در دسترس است و آشنایی با آماره های بدست آ»ده نیز آسان است به عنوان مثال آلفای کرونباخ یکی از آماره های کلاسیک است.  اما نرم افزارهای IRT متنوع، تخصصی و وابسته به مدل مناسب برای دادها است. چک کردن مفروضات در IRT مشکل تر و مفاهیم آ« نیز اختصاصی است اما مفروضات کلاسیک مبتنی بر مفروضات عام آزمون های آماری است. ادبیات و نرم افزار  پشتیبان IRT برای پژوهشگران خارج از حوزه ی اندازه گیری آموزشی مهیا نشده است.