نظریه ی احتمال و فعالیت ذهنی

نظریه ی احتمال به عنوان منطق گسترش یافته، جنبه های زیادی از وجوه فعالیت های ذهنی انسان را بازتولید می کند. فردی که truth را بیان می کند اما به آن اعتقادی ندارد و کسانی که اعتقاد ندارد  مدام در حال استدلال (reasoning ) برای اثبات حقیت اند. نظریه ی احتمال چرایی و شرایط چنین اتفاقی را توضیح می دهد. نظریه ی احتمال در قامت نوعی منطق نشان می دهد که چطور دو نفر با اطلاعات واحد، ممکن است نظراتی در جهت های متضاد داشته باشند. همچنین به ما چیزهایی در مورد راهی (methodology) نشان می دهد که ذهن mind انسانی در زمان قضاوت کردن شهودی که بخش عظیمی از این قضاوت ناخودآگاه است، بکار می گیرد.     

انحراف روانشناسی و تحریف روانکاوی

انحراف روانشناسی و تحریف روانکاوی

دکتر داود نوده ئی*، دکتر محمدحسین ضرغامی**، دکتر مهدی ربیعی***

* مرکز تحقیقات علوم رفتاری، پژوهشکده سبک زندگی، دانشگاه علوم پزشکی بقیة‌الله، تهران، ایران

** مرکز تحقیقات علوم رفتاری، پژوهشکده سبک زندگی، دانشگاه علوم پزشکی بقیة‌الله، تهران، ایران

***گروه روانشناسی بالینی، دانشگاه علوم پزشکی بقیة‌الله، تهران، ایران

چکیده

مقاله حاضر یک مطالعه ‏ی مقدماتی است که باهدف تبیین و تصریح انحراف روانشناسی و تحریف روانکاوی انجام‌شده است، روش تحقیق حاضر از نوع مروریروایتی(narrative review) با یک رویکرد تحلیلی-انتقادی در حوزه روانشناسی و روانکاوی است. در این تحقیق، انحراف روانشناسی در حوزه‏های هستی‏شناسی، معرفت‌شناسی، روش‏شناسی و کارکرد فردی و اجتماعی آن بررسی و تفاوت آن با روانکاوی تصریح و تحریف‏های صورت گرفته در روانکاوی مشخص و تمیز داده‌شده است. این مقاله از سه بخش[1] نسبتـاً متمایز، تشکیل‌شده است. در بخش اول به هستی‏شناسی و معرفت‏شناسی نفس و روان پرداخته شد، سپس انحراف صورت گرفته در پژوهش‏های روان‌شناختی در مقایسه با تحقیق در حوزه‏ی روان مطرح شد و در بخش نهایی، انحراف روانشناسی از خاستگاه لغوی خود و تمایز آن از روانکاوی و تحریفات صورت گرفته در روانکاوی تصریح شد. نتایج این تحقیق روایت از آن دارد که "روانشناسی" از ریشه‌های خود جدا و از مسیر حقیقت‌یابی در حوزه روان خارج‌شده است و ازآنجایی‌که "روانکاوی" این ریشه‌ها را یادآوری و پیگیری می‏کند، به‌صورت خودآگاه و ناخودآگاه با مقاومت روبرو می‏شود که یکی از پیامدها و تبعات آن، تحریف روانکاوی است[2].

کلیدواژه‌ها: هستی ‏شناسی، معرفت‌شناسی، روش ‏شناسی، روانشناسی، روانکاوی، تحریف، انحراف.

Abstract

This is an introductory article about psychology as a deviation and distortions of psychoanalysis. The analytical-critical narrative review has been used as a research method. Deviation of psychology from ontological, epistemological and methodological perspective has been marked and its individual and social functions have been reviewed, then the differences between psychology and psychoanalysis and distortions of psychoanalysis explicitly stated. This article has three distinguishable parts, the first part, includes some ontological and epistemological problems about soul and psych, psychological research method inability to study psychological constructs as a whole was elaborated on the second part. Finally, the deviation of psychology from its lexical root, psychology and psychoanalysis differentiations and distortion of psychoanalysis was mentioned in the third part. This article has shown psychology has been separated from its roots, therefor psychology is sterile in the study of the psyche, On the other hand since psychoanalysis recalls and follows these roots consciously and unconsciously encounter whit resistance that distortion of psychoanalysis is one kind of resistance.

Key words: Ontology, epistemology, methodology, psychology, psychoanalysis, deviation, distortion.


[1]. نویسنده‌ی بخش اول: داود نوده‏ئی، بخش دوم: محمدحسین ضرغامی و بخش سوم: مهدی ربیعی است.

[2] . نوشته‌های این متن متأثر از کتاب، سخنرانی‌ها و درس‌نامه‌های خانم دکتر میترا کدیور و مقالات و نوشته‌ها اعضای انجمن فرویدی و معلمان کلاس‌های آشنایی با فروید- لکان انجمن فرویدی است، باوجوداینکه تمام تلاش بر این بود تا مطالب ارائه‌شده در متن به‌صورت دقیق ارجاع داده شود ولی بخش بزرگی از مطالب ممکن است به تصور نویسندگان این مقاله به قلم خودشان باشد ولی در اصل متأثر از افراد مذکور یا عالمان دیگر است.

لینک دریافت پی دی اف مقاله: 

لینک دانلود کامل مقاله لطفا کلیک کنید

فلسفه علم و آمار

فلسفه ی علم و آمار

یکی از موضوعات مهمی که به فلسفه ی آمار مربوط است نظریه ی تاییدی (confirmation theory) است. این نظریه یک نظریه ی فلسفی است که ارتباط بین نظریه ی علمی و شواهد تجربی را بررسی و مطالعه می کند. نظریه ی آمار بخش مهمی از نظریه ی تاییدی است که رابطه ی بین تئوریهای آماری و شواهدی که از نمونه بدست می آید را توضیح داده و در مورد ان قضاوت می کند. اگر جامع تربه نظریه ی آماری نگاه کنیم، متوجه می شویم که نظریه ی آماری بخشی از فلسفه ی روش شناسی است. به عنوان مثال نظریه ی عمومی در باب این موضوع که آیا علم به دانش منجر می شود و چگونه به دانش منجر می شود؟ بنابراین آمار یک مولفه در مجموعه ی وسیع تری از روش های علمی قرار می گیرد که از شکل دهی مفاهیم، طرح های آزمایشی، مداخله و مشاهده، تایید، نحوه ی عمل و نظریه پردازی، تشکیل شده است.

موضوعات خاص دیگری در فلسفه ی علم وجود دارد که با واژگان آماری بیان می شوند و یا در مجاورت آن قرار دارند. یکی از این موضوعات فرآیند اندازه گیری و به بیان خاص تر، اندازه گیری متغیرهای مکنون بر مبنای اصول آماری از روی متغیرهای آشکار است. به این رویکرد اندازه گیری، نظریه ی بازنمودی اندازه گیری (representational theory of measurement) می گویند.  که بر آمار بنا نهاده شده است و فنون مختلفی مانند تحلیل عاملی را در بر می گیرد. این تکنیک ها از طریق ساختارهای ریاضی، پدیده ی تجربی را به صورت روشن مفهوم بندی می کنند.

موضوع مهم دیگر که فلسفه علم رو تشکیل می دهد مبحث علیت است. فلاسفه از نظریه ی احتمال به منظور دستیابی به روابط علی استفاده کرده اند. استفاده از تئوری آمار از 1956 در اصل علیت مشترک ریچنباخ  تا حال حاضر و بررسی علیت و آمار (با نظریه ی علیت احتمالاتی) ادامه داشته است. در زمان حاضر نیز آمار پایه ی تحلیل های مفهومی در روابط علی است.

علاوه بر این بعضی از تکنیک های خاص آماری مانند تحلیل عاملی و شبکه های بیزی، بحث های مفهومی (فلسفی) را بدون این که خود خواسته باشد، پیش می کشند. اگر چه موضوعات زیادی در فلسفه علم وامدار روشن سازی های آماری هستند به عنوان مثال: یکپارچگی، آگاهی بخشی و ارائه ی شاهد، با این وجود، حوزه ی گسترده ای از بحث های فلسفه ی علم در فهم آمار کمک کننده اند. در این بین می توان به بحث هایی در باره ی آزمایش و مداخله، مفاهیم شانس و ماهیت مدل های علمی و واژگان نظری اشاره کرد. 

معرفی اجمالی روان سنجی

روانشناسی از هنگامی به صورت یک علم مستقل درآمد که به آزمایشگاه کشیده شد، پدیده های روانی (احساس ، ادراک ، یادگیری ، حافظه ،شخصیت و … ) به صورت عینی (Objective) و عملیاتی (Operational) تعریف گردید و روشهای آماری و طرح تحقیقاتی برای اندازه گیری و کنترل آنها مورد استفاده قرار گرفت. پیش از آن موضوعات مورد مطالعه در آن اغلب کلی و مبهم و تعریف ناپذیر بودند. در واقع مطالعه و تحقیق در مورد موضوعات مختلف روان شناسی در طی قرون متمادی مورد توجه بوده است اما آنچه روان شناسی را به علت علم مستقل شناساند، استفاده از روشهای آماری و طرحهای تحقیقی برای آزمایشهای روان شناختی و ساخت وسایل روان سنجی بود. 

تعریف روان سنجی

در روان شناسی مجموعه شیوه‌هایی که به روان شناس کمک می‌کند تا پدیده‌های روانی انسان را از حالت کیفی به حالت کمی (عددی) در آورد اصطلاحا روان سنجی (Psychometrics) می‌گویند. روان سنجی در معنای وسیع کلمه به معنی استفاده از روشهای آماری و آزمایش و در معنای محدود کلمه به معنی بهره گیری از آزمونهای روانی برای اندازه گیری پدیده‌های روانی است. 

اهمیت روان سنجی و اندازه گیری

اهمیت استفاده از روشهای آماری در روان شناسی

آمار یکی از کاربردی‌ترین شاخه‌های ریاضی است. در واقع زندگی انسان امروز با آمار پیوند خورده است و روان شناسی نیز که یکی ازشاخه‌های علوم انسانی است بدون آمار در تجزیه و تحلیل مسائل ناتوان است. به عبارت دیگر مفاهیم روان شناختی این گرایش از علم اکثرا به صورت کیفی بوده و به درستی قابل کاربرد نمی‌باشد و فقط با روشهای آماری است که می‌توان به داده‌ها و نتایج قابل اعتماد دست یافت و آنها را به صورت کمی نشان داد. 

اهمیت استفاده از روان سنجی

انسانها در همه دوران به این موضوع علاقه داشتند که یکدیگر را شناخته و طبقه بندی کنند. این طبقه بندی و شناخت هم شامل مسائل جسمی (نظیر قوی و ضعیف ، سالم و بیمار و …) و مسائل روانی و ذهنی (نظیر هوش ، استعداد ، شخصیت و …) بوده است. در عصر حاضر نیز این مسئله به موضوعی بسیار مهم و حیاتی تبدیل شده است و اهمیت روان سنجی در این است وسایل علمی لازم را برای این شناخت و طبقه بندی در اختیار جامعه و متخصصان علوم انسانی قرار می‌دهد. در واقع اهمیت روان سنجی در دل سوالاتی از قبیل : چه کسی با هوش یا عقب مانده است؟ ، یک فرد بخصوص چه نوع استعدادی دارد؟ و یا چگونه می‌توان به شناختی از شخصیت و خصوصیات فردی افراد دست یافت؟ قرار دارد. 

کاربردهای روان سنجی و اندازه گیری

کاربرد روشهای آماری در روان شناسی

از لحاظ توصیفی آمار در روان شناسی کاربرد فوری و عملی دارد. آمار توصیفی روان شناس و محقق علم رفتاری را کمک می‌کند تا با نگاهی عینی و کمی با پدیده‌های روانی - اجتماعی بنگرد و آنها را توسط شاخصهای آماری نظیر میانگین (Mean) ، انحراف استاندارد (Standard deviation) و یا منحنی بهنجار (Normal curve) بیان می‌کند. از طرف دیگر کاربرد آمار به صورت استنباطی در روان شناسی به حل مسائل پژوهشی و یافتن روابط علت و معلولی (Cause and effect) ، همبستگی (Correlation) کمک کرده ، باعث توسعه و پیشرفت نظری و کاربردی روان شناسی و علوم رفتاری می‌شود. 

کاربرد روشهای روان سنجی

پیش بینی

تقسیم گیری مستلزم آن است که افراد بتوانند میزان موفقیت خود را در آینده در زمینه معینی نظیر پیشرفت تحصیلی یا شغلی پیش بینی (Prediction) کنند. روان سنجی برای اندازه گیری توانایی پیشرفت تحصیلی و سایر ویژگیهای افراد بکار می‌رود. در واقع پیش بینی بر داده‌های کمی معتبرتر و دقیقتر از تفکر واهی است. 

گزینش

در برخی از موسسات و سازمان‌ها مانند دانشکده‌ها و سازمان‌های استخدام کننده آزمونها برای گزینش (Selection) یا در بعضی افراد مورد استفاده قرار می‌گیرند. 

طبقه بندی

طیقه بندی (Classification) عبارت است از گروه بندی افراد براساس تقسیمات منطقی. طبقه بندی مستلزم آن است که معلوم شود یک فرد خاص در چه گروهی جای داده شود و یا براساس چه روشی مورد آموزش یا درمان قرار گیرد. روان سنجی ابزار و وسایل لازم را برای طبقه بندی افراد فراهم می کند. 

ارزشیابی

ابزارهای روان سنجی به منظور قضاوت و ارزشیابی (Evaluation) در مورد برنامه ، روشها ، تدابیر درمانی و میزان پیشرفت افراد و … مورد استفاده قرار می‌گیرند. 


معنای سنجش

تعریف سنجش

بر اساس نظر هریس استفاناکیس (200)، واژه assess از واژه لاتین assidere گرفته شده است و به معنی to sit beside (کنار کسی نشستن) و to assess یعنی to sit beside the learner (کنار یادگیرنده نشستن) است.

به نظر می رسد در این جا منظور این است که یاددهنده و یادگیرنده باید با هم کار کنند. یاددهنده باید در کنار یادگیرنده بنشیند و از آن چه یاد گرفته و از پیشرفتی که داشته است، آگاه شود. در این تعریف بر سنجش مستمر به جای سنجش بر اساس امتحان پایانی تاکید شده است.

هر سنجشی مبتنی بر سه رکن است:

الگویی برای چگونگی ارایه دانش و توسعه شایستگی در یک حیطه محتوایی توسط یادگیرنده،

تکالیف یا موقعیت هایی که بررسی عملکرد یادگیرنده را ممکن می سازد و

روش تفسیر استنباط کردن از شواهد مربوط به عملکرد.

منبع:http://assessment.blogsky.com/1392/09

سنجش شناختی-تشخیصی

سنجش شناختی-تشخیصی به منظور اندازه­گیری ساختارهای دانش ویژه و مهارت­های پردازش در فراگیران تدوین شده است تا اطلاعاتی در مورد نقاط قوت و ضعف شناختی فراهم آورد. سنجش شناختی-تشخیصی هنوز در ابتدای راه است، اما پایه آن به خوبی تدوین شده است. در سال 1980 دو فصل از کتاب اندازه­گیری روبرت لین شروعی برای تمایل و نیاز زیاد به سنجش شناختی-تشخیصی بود. فصل روایی سامویل مسیک و فصل آخر اسنو و دیوید لوهمانز، دلالت­های روانشناسی شناختی برای اندازه­گیری آموزشی، به یکپارچه کردن همراهی روانشناسی شناختی در اندازه­گیری آموزشی کمک کرد.

مدل­های شناختی-تشخیصی به منظور ارایه اطلاعات مورد نظر به صورت نیمرخ­های نمره که محدودیت مدل­های نظریه سوال-پاسخ را رفع می­کند، تدوین شده اند. انواع مختلف مدل­های شناختی-تشخیصی در ادبیات اندازه­گیری ارایه شده است. به طور کلی این مدل­ها، وضعیت­های مختلف مورد نظر محققان (مثل انواع سازه، پاسخ، و بعدیت) در روانسنجی و علوم شناختی و یادگیری را پوشش می­دهند. به دلیل محبوبیت این مدل­ها، مطالعاتی در میان محققان به منظور درک و یکپارچه کردن این مدل­ها انجام شده است. انواع مختلفی از مدل­های تشخیصی-شناختی در ادبیات وجود دارد و در عمل نیز استفاده شده است. برای مقایسه این مدل­ها، سه متغیر را می­توان مد نظر قرار داد: متغیر پاسخ­های دو ارزشی و چندارزشی، متغیر مکنون دو ارزشی و چندارزشی و متغیر گروه­بندی جبرانی یا غیر جبرانی صفت مکنون.

الگوهایخاص صفت، مهارت و عدم مهارت طبقه­ها یا گروه­های مکنون را که بر اساس آن مدل­های شناختی-تشخیصی، آزمودنی­ها را طبقه بندی می­کند را تعریف می­کند. به دلیل این­که صفت­ها و بنابراین طبقه­ها قبل از تحلیل تعریف می­شوند، این مدل­ها، مدل­های طبقه مکنون تاییدی هستند که طبقه بندی آزمودنی­ها بر اساس پاسخ به سوالات تعیین می­شود.به دلیل ماهیت تاییدی این مدل­ها، تدوین یک آزمون تشخیصی ابتدا مستلزم صفاتی است که به وسیله تحقیقات شناختی برای حیطه مورد نظر مهم تشخیص داده شده است، می باشد. سپس، هر سوال آزمون برای اندازه­گیری یک یا چند صفت طراحی می­شود. به دلیل این­که یک سوال می­تواند بیش از یک صفت را اندازه گیری کند، چند بعدی بودن درون و بین سوالات وجود دارد. همخوانی سوال-صفت در ماتریس کیو ارایه می شود. ماتریسی که در آن 1 نشان می­دهد که یک سوال یک صفت را اندازه­گیری می­کند و درایه صفر بدین معناست که آن سوال آن صفت را اندازه­گیری نمی­کند. دقت طبقه­بندی مدل­های شناختی-تشخیصی به همخوانی درست سوالات با صفات بر می­گردد، به گونه­ای که تعیین نادرست ماتریس کیو منجر به طبقه­بندی غلط می­شود.

هدف اندازه­گیری تشخیصی شبیه تشخیص­های معمول است با این تفاوت که بافتی که در آن اندازه گیری می­شود، رسمی­تر است. مثلاً فردی که باید مورد تشخیص قرار گیرد می­تواند بیماری باشد که در بیمارستان از نظر روانی مورد ارزیابی قرار می­گیرد، فراگیری که در مدرسه به عنوان دانش­آموزی مستعد جایابی می­شود، یا بازیکنی که کالایی را در دنیای مجازی خریداری می­کند. در این­گونه موارد هدف اندازه­گیری شناختی عبارت است از: تشخیص اختلال احتمالی و تعیین اثربخش­ترین برنامه درمانی برای بیمار، شناسایی نقاط قوت و ضعف در حیطه محتوایی خاص و تعیین بهترین راهبرد تمرین برای آن فراگیر، یا تشخیص ویژگی­های رفتار خرید و ارایه راهبردهای بازاریابی برای آن بازیکن. به منظور ارایه نیمرخ دقیق افراد با توجه به ویژگی­های مورد نظر در این موقعیت، سوالاتی به طور خاص طراحی می­شود، یا تکالیفی به این افراد ارایه می­شود و پاسخ­های فرد و رفتارهای مرتبط به آن ثبت می­شود. رفتارها می­تواند شامل پاسخ­های کلامی به سوالات باز پاسخ توسط بیمارباشد، پاسخ­های کتبی به سوالات چند گزینه­ای توسط فراگیر باشد، یا پیگیری فعالیت­ها در محیط­های اجباری توسط بازیکن باشد.

مدل­های طبقه­بندی شناختی، زیر مجموعه­ای از مدل­های روانسنجی هستند که افراد را بر اساس متغیرهای مکنون طبقه­ای چندگانه طبقه­بندی می­کنند. پایه­ طبقه­بندی در این مدل­ها بر اساس داده­های پاسخ مشاهده شده که از طریق سنجش تشخیصی جمع آوری شده­اند، است. این مدل­ها مکانیسمی برای بررسی داده­های جمع­آوری شده، ارایه می­دهند.اگر طبقه­بندی­ها، درک مهمی از ویژگی­های مکنون افراد را تایید کند پس استفاده از این مدل­ها می­تواند تحلیل­های عملی مفیدی را فراهم کند. این مدل­ها ابزاری تدوین می­کنند که تحلیل­هایی که در آن انواع رفتار افراد وابسته به الگوی داده­ها با وزن­های مختلف است را ممکن می­سازد. اما انتخاب این که چگونه الگوهای رفتاری تدوین شده اند(تصمیم­گیری در مورد این که چه صفاتی باید ارایه شوند، چه اطلاعاتی باید استخراج شود، چگونه باید اطلاعات استخراج شده را به صورت خروجی برای یک مدل آماری کدگذاری کرد) تنها ملاحظه­ای است که تدوین کننده سنجش شناختی باید مد نظر قرار دهد. صفت­در این مدل­ها نشان دهنده سازه­ای مثل دانش یا بیماری روانی است و طبقه بندی افراد بر اساس صفات است. صفات از متغیرهای پنهان طبقه ای مشتق می­شوند، بنابراین لازم است که طبقه بندی از نظر آماری از داده­های قابل مشاهده پاسخ دهندگان استنباط شود.این مدل­ها، همبستگی آماری را ارایه می­دهند.

راپ و تمپلین (2008) نه ویژگی اصلی که می­تواند برای مقایسه مدل­های شناختی-تشخیصی با دیگر مدل­های متغیر مکنون مورد استفاده قرار گیرد را فهرست کردند. برخی از آن­ها عبارت است از: 1)ماهیت چندبعدی­شان، 2)ماهیت تاییدی بودنشان، 3)پیچیدگی ساختار عاملی­شان و 4) ماهیت تشخیصی بودن تفسیرهای­شان. مدل­های تحلیل عاملی و نظریه سوال-پاسخ وقتی مورد استفاده قرار می­گیرد که ساختارهای بارگذاری ساده­تر است(مثلاً هر سوال فقط بر روی یک بعد بار دارد.)، اما مدل­های شناختی-تشخیصی دارای ساختارهای پیچیده بارگذاری هستند که معمولاً مستلزم چندین توانایی به هم مرتبط هستند.

در این مدل­ها، پیوستار مفروض به دو دسته مجرا مثل ماهر یا غیرماهر در زمینه­های آموزشی و اختلال داشتن یا اختلال نداشتن در زمینه روانشناسی بالینی تقسیم می­شود .ویژگی­­هایی که احتمال­شان بیش­تر از 5/. است را به عنوان تشخیص مثبت (یعنی ماهر)، و ویژگی­های که کم­تر از 5/. هستند به عنوان تشخیص منفی (غیرماهر) در نظر گرفته می­شوند.احتمال­های نزدیک به 5/. نشان دهنده آن هستند که متغیرهای مشاهده شده، اطلاعات کافی ارایه نمی­دهد تا بتوان بر اساس آن تشخیص روشنی ارایه داد و طبقه­بندی را به شدت مبهم می­کند. هدف اصلی این مدل­ها، تشخیص است و این ویژگی استفاده از این مدل­ها برای داده­های حاصل از سنجش تشخیصی را از استفاده از مدل­های تحلیل عاملی تاییدی و نظریه سوال-پاسخ برای داده­های حاصل از ارزشیابی جایابی، پذیرش و گواهینامه متفاوت می­کند. سنجش شناختی-تشخیصی برای معلمان، والدین و مسوولین آموزشی که متمایلند میزان اطلاعاتی را که دانش آموزان در آن مهارت کسب کرده اند را بدانند، مفید هستند.

با وجود اهمیت مدل­های شناختی-تشخیصی، مباحث مهم و محدودیت­هایی در استفاده از این مدل­ها وجود دارد که نیاز به بحث دارد. مهم­ترین مبحث، بحث روایی است.روایی نتایج در این مدل­ها به نظریه زیربنایی آن­ها بستگی داد. بخصوص اگر تعریف معیارها دقیقاً مشخص نشده باشد یا اگر این معیارها به تشخیص مربوط نباشد، نتایج حاوی اطلاعات تشخیصی با روایی کم خواهد بود. البته این دغدغه به طور کلی در مورد مدل­های متغیر پنهان وجود دارد. در استفاده از اطلاعات تشخیصی حاصل از مدل­هایشناختی-تشخیصی باید مد نظر قرار گیرد که دانشی که بر اساس نتایج به دست می آید به این بستگی دارد که تا چه حد نظریه زیربنایی مبتنی بر واقعیت است. علاوه بر روایی، تدوین ماتریس کیو که تعریف معیارهای مورد اندازه­گیری را ارایه می­دهد نیز یکی دیگر از دغدغه­های این مدل­هاست. کیفیت برازش مدل شناختی-تشخصی به کیفیت ماتریس کیو استفاده شده در تحلیل بستگی دارد. تعریف این ماتریس باید زیربنای نظری حیطه ابزار را با نتایج تجربی تحلیل ترکیب کند. شاید مهم­ترین نکته در نتایج این مدل­ها، تصدیق بیرونی براوردهای تشخیصی است. ساخت ابزار برای اهداف تشخیصی باید به کمک اندازه­های روایابی بیرونی انجام شود. به زعم تاتسوکا (2005) "در حالت واقعی، سه واژه مهم عبارت است از موقعیت، موقعیت و موقعیت. در مدل­یابی تشخیصی، سه واژه مهم عبارت است از روایابی، روایابی و روایابی." روایابی بیرونی، تفسیر برآوردهای تشخیصی نتایج مدل شناختی-تشخیصی را را مطمین می­سازد. این مدل­ها را می­توان با ابزار­های موجود به کار برد ولی باید توجه کرد در بسیاری از موارد پرسشنامه­ها، گویه­های طرح شد به منظور استفاده از مدل تحلیل عاملی تاییدی (با یک ساختار ساده)به منظور اندازه­گیری ملاک­های مکنون در یک پیوستار و نه در یک طبقه­بندی تدوین شده اند. مشکلاتی مشابه نیز در استفاد از این مدل­ها در اندازه­گیری آموزشی وجود دارد زیرا این آزمون­ها برای تحلیل در مقیاسی تک بعدی طراحی شده اند. معمولاً این آزمون­ها با انتخاب سوال­هایی حداکثر اطلاعات را با توجه به پیوستار مکنون ارایه می­دهد. طبقه بندی بر اساس یک پیوستار مکنون می­تواند منجر به برآوردهایی شود که در آن افراد زیادی یا همه صفات را دارند و یا هیچ کدام را ندارند. در این­گونه موارد، همه همبستگی­های بین صفات (بر اساس مدل ساختاری) واحد (تمایل به این­که یک پیوستار زیربنای داده­هاست) می­شوند.

در مقایسه با مدل­های نظریه پاسخ-سوال چند بعدی (MIRT)، این مدل­ها در هر بعد به سوال­های بسیار کم­تری برای کسب برآوردهای پایا نیاز دارد (تمپلین و برادشاو، 2013). مدل­های نظریه پاسخ-سوال چند بعدی مستلزم سوال­های بیشتری هستند و شاید یکی از دلایل غالب ماندن مدل­های تک بعدی در آموزش علی رغم نیاز دولت­ها و نیاز معلمان به مدل­های نظریه سوال-پاسخ چند بعدی برای گرفتن بازخوردهای دقیق و ظریف، همین مطلب باشد.

اهمیت مدل­های شناختی-تشخیصی در مقایسه با نظریه کلاسیک آزمون و نظریه سوال-پاسخ از آن­جا ناشی می­شود که در این مدل­ها نیمرخ دانش آموزان ارایه می­شود که در آن مجموعه­ای از مهارت­های یا صفت­های دو ارزشی که فرد در آن به مهارت رسیده یا نرسیده است نمایش داده می­شود. نیمرخ­های صفات گسسته، اطلاعاتی در مورد نیازهای گروهی از دانش آموزان در اختیار معلم قرار می­دهد (برخلاف مدل­های نظریه سوال-پاسخ چند بعدی که پروفایلی از نمرات ارایه می­دهد).

http://assessment.blogsky.com/1392/10/page/3

مدل معادلات ساختاری فازی

مدل هاي ساختاري فازي در علوم انسانی

مدل هاي ساختاري فازي به منظور تبيين پديده ها تبيين مي شوند. مدل هاي ساختاري در قالب مدل سازي معادله ي ساختاري اغلب بدليل مشكلاتي نظير سنجش دقيق سازه ها، همخطي چندگانه ميان متغييرهاي پنهان مستقل، مشكلات مربوط به تشخيص مدل در صورت پيچيده شدن و همچنين برآوردهاي نامناسب پارامترها در چنين وضعيتي (نظير واريانس هاي منفي يا ضرايب استاندارد گاما و بتاي بالاتر از 1 و يا بارهاي عاملي بزرگتر از 1) به صورتي نسبتا ساده  طرح مي شوند. به اين معنا كه تعداد سازه هاي پنهان بيروني و دروني كمتر از آنچه در واقعيت اجتماعي دخالت دارند به مدل وارد مي شوند.

اگر فرض شود پژوهشگري مدل معادلات ساختاري تدوين كرده است كه بر اساس يك سازه ي پنهان مي خواهد سه سازه ي ديگري را تبيين نمايد شكلي مانند زير خواهد داشت:

  

مدل ساختاري فازي به پژوهشگران اين امكان را مي دهند كه در وارد كردن سازه هاي پنهان با كمتر محدوديتي به لحاظ دقت در سنجش مواجه شويم. از آنجا كه منبع اصلي داده ها در تدوين مدل هاي ساختاري فازي ديدگاه كارشناسان و خبرگان مرتبط با موضوع است انتظار مي رود متغييرهاي بكار رفته در تحليل هاي ارائه شده از طرف آنها تا حد زيادي به لحاظ مفهومي داراي فضاي مشتركي باشند. بنابراين اگر اين گروه از افراد از مفاهيمي نظير دمكراسي توسعه ي اقتصادي، مشاركت، دين داري و .. استفاده مي كنند انتظار داريم كه هر مفهوم نزد كارشناسان مختلف سنجه ها يا معرف هاي كم و بيش يكساني داشته باشند. تبيين يك سازه بر مبناي تركيب علي سه سازه ديگر در يك مدل ساختاري فازي مي تواند مانند شكل زير نمايش داده شود.


نظریه رویه facet theory

 گوتمن سسبب پدید آمدن مجموعه روش هایی از قبیل تحلیل مقیاس گذاری چند بعدی و تحلیل مقیاس نمای مرتب بخشی شده است که اینک در بسیاری از پژوهش ها استفاده می شود. این نظریه به مدد نظریه ی مجموعه های کانتور و با هدف اعتبار سازه ایجاد شده بود و اکنون دارای نرم افزارهای زیادی است که می توان از آنها استفاده کرد. گاتمن این نظریه را ابتدا به منظور حل مسائل مربوط به هوش استفاده کرد و بعد کاربردهای زیادی در حل مبانی کاربردی پیدا کرد. گوتمن باعث توسعه ی روش های تحلیل عاملی، تحلیل مقیاس نمای گوتمن نظریه انگاره یا تصویر، نظریه ی پایایی و نظریه ی رویه شده است. این مجموعه عظیم از روش های تحلیلی نشان می دهد که تعاریف سازه های رفتاری موضوعی است که به شدت مورد توجه گوتمن بوده است. در زمانی که فیشر به دنبال تدوین طرح های آزمایشی و فنون استنباطی به منظور تعمیم یافته ها از نمونه به جامعه بود، یکی از توجهات اصلی گوتمن صورت بندی تعریف جامعه ی محتوا بود. بدون تعریف دقیق جامعه ی محتوا و بدون درک روشن از ماهیت تعاریف (که مهمتر است)، هدف علمی یافتن رابطه در درون محتوای جامعه نامیسر می نمود. چگونه یک فرد می تواند جامعه ی محتوا را تدوین کرده و یا یک چهارچوب تعاریف برای برخی از مفاهیم تدوین کند؟ اگر رابطه ای وجود داشته باشد فرد چه انتظاری در یافتن تعریف جامعه محتوایی و مشاهده های تجربی بر روی متغیرهای نمونه گیری از جامعه خواهد داشت؟ سوالاتی از این قبیل در رشد و تدوین نظریه رویه نقش مهمی داشته است. 

نظریه ی رویه بر مبنای نظریه ی مجموعه ها از ریاضیات گرفته شده است. تعریف جامعه باید از طریق مجموعه ای پایا از متغیرها ارائه شود. از آنجا که نظریه ی رویه برای فرآیند شناسایی مولفه های اصلی مجموعه ی متغیرها و ارتباطی که این مولفه ها با داده های تجربی دارند نظریه ی بسیار سودمندی تلقی می شود. به این دلیل است که کومبز معتقد است که نظریه ی رویه تنها تلاش نظامداری است که تا به حال برای تکلیف ظریف و پیچیده شناسایی مرزهای دامنه رفتاری انجام شده است.  نظریه ی رویه یک نظریه ی ساختاری است دقیقا مانند والد خود یعنی نظریه ی مجموعه ها. در این نظریه سازه های رفتاری تعریف می شود، فرضیه های مربوط به تناظر بین تعاریف و مشاهدات تجربی که مربوط به متغیرهای نشان دهنده ی سازه اند، آزمون می گردد. از آنجا که در حوزه ی علوم اجتماعی و رفتاری بررسی های تجربی به گردآوری داده ها خاص از متغیره مربوط است، شناخت رویه های تاثیرگذار در این فرآیند الزامی است. مثلا مجموعه سوالات پرسشنامه که یک پیمایش را پدید می آورد و یا ممکن است مجموعه اشیاء هندسی که در یک آزمایش ادراک بصری انجام می شود گزینش شوند. این داده ها و محرک ها به این دلیل جمع آوری نمی شوند که مورد علاقه ی مستقیم پژوهشگر قرار دارند بلکه احتمالا بیشتر به این دلیل که نماینده و نشانگر مجموعه بزرگتری از جامعه ی رفتارها می باشند، انتخاب می گردند. به این دلیل چون امکان تعریف کل جامعه وجود ندارد، تعریف آن از طریق مجموعه هایی انجام می شود که ویژگی های مفهومی اساسی آن جامعه را دارایند. این دلیل مبنای اصلی نظریه ی رویه است. در واقع تعریف خود رویه نیز از همین جا ناشی می شود. تعریف مبسوط این لغت در نظریه ی تعمیم پذیری مطرح شده است. تعریف مجموعه اولین بار توسط کانتور مطرح شد در یک مجموعه عناصر خوب تعیین شده طوری گرد هم آمده اند که از نظر ما یک کل منفرد را پدید می آورند. این کل منفرد معمولا مجموعه نامیده می شود و عناصر خوب تعین شده در آن عناصر مجموعه می باشند. کانتور می گوید ادراک ما در باره ی عناصر مجموعه منجر به بیان قانونی می شود که ویژگی مشترک عناصر آن مجموعه را نشان می دهد. قانون مطرح شده برای یک مجموعه منحصر به فرد است. گوتمن برای پژوهش های رفتاری معتقد است که متغیرهای گرد هم آمده باید منجر به شناسایی ویژگی های ادراکی یا معنایی منجر شود به این ویژگی های ادراکی یا معنایی که از گردهم آیی متغیرهای مختلف بدست می آید رویه گویند که مولفه های اصلی متغیرهای مورد پژوهش را مشخص می کنند. بنابراین به منظور ساختارمند سازی یا صورت بندی یک سازه لازم است رویه های مختلف مربوط به آن سازه گ.رد آوری شوند. فرض کنید هر رویه یک مولفه ی بنیادی سازه ی مورد نظر را منعکس می کند و رویه های گردآوری شده سازه ی مربوط را نشان می دهند. برای برقراری رابطه ی رویه با سازه ی اصلی تعریف در متن یک جمله که به آن گزاره نگاشتی گویند، استفاده می شود. پس از گزاره های نگاشتی توصیفی ارائه می شود که ماهیت رویه هایی که سنگ بنای اصلی آن را نشان می دهند از طریق این توصیف مشخص می گردد. 


تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و  توانايي برآوردشده در مدل هاي پرسش پاسخ و ك

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و

توانايي برآوردشده در مدل هاي پرسش پاسخ و كلاسيك اندازه گيري

بهنام كريمي 1

محمدرضا فلسفينژاد 2

فريبرز درتاج 3

90/12/ 90 تاريخ پذيرش: 24 /6/ تاريخ وصول: 18

چكيده

زمينه: سهولت نمره گذاري، اجرا و عينيت آزمونهاي چندگزينه اي سبب شده كه به عنوان ابزار

اصلي در سنجش هاي وسيع مورد استفاده قرار گيرد. انتقادهاي زيادي نسبت به سؤالات

چندگزينه اي مطرح شده است. نظير پوشش ندادن به تمامي اهداف تربيتي (سطوح پايين

شناختي را مي سنجند) و استفاده از عامل حدس و گمان در پاسخ به سؤا لها. در اين ميان

عده اي نيز افزايش تعداد گزينههاي سؤال را راهي براي مقابله با اين مشكلات دانست هاند. هدف:

هدف از پژوهش حاضر بررسي تأثير تعداد گزينهها بر ويژگي هاي روان سنجي آزمونها و

سؤالات و همچنين توانايي برآورد شده آزمودنيها در نظريه كلاسيك و پرسش پاسخ بود.

روش: جامعه آماري شامل كليه دانشآموزان سال سوم دبيرستانهاي شهر شيراز بود كه 608

نفر از آنان به شيوه تصادفي به عنوان گروه نمونه انتخاب شدند. براي جمعآوري اطلاعات از دو

آزمون پيشرفت تحصيلي زبان و حسابان كه به همين منظور تهيه و تنظيم شده بودند استفاده شد.

يافتهها: تجزيه و تحليل دادهها نشان داد كه تعداد گزينهها بر پارامترهاي سؤال اثر ندارد و تأثير

karimi.adviser@gmail.com -1 كارشناس ارشد روان سنجي

-2 استاد دانشگاه علامه طباطبايي

F_dortaj@yahoo.com -3 استاد دانشگاه علامه طباطبايي

www.SID.ir

Archive of SID

2 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

تعداد گزينهها بر ويژگيهاي روانسنجي برآورد شده آزمودنيها، در آزمونهاي مختلف

يكسان است. همچنين بين پارامترهاي برآورد شده در نظريه كلاسيك و پرسش پاسخ تفاوت

وجود داشت. نتيجهگيري: بعد از بررسي مفروضههاي نظريه پرسش و پاسخ مشخص شد كه

دادهها با مدل دو پارامتري برازش بهتري دارند، و تفاوتي بين تعداد گزينهها و برازش با مدل

مشاهده نشد. همچنين بين توانايي برآورد شده و تعداد گزينه ها تفاوت مشاهده شد.

واژگان كليدي: آزمون هاي چندگزينه اي، نظريه كلاسيك اندازه گيري، نظريه پرسش

پاسخ.

مقدمه

سهولت نمرهگذاري، اجرا و عينيت آزمون هاي چند گزينه اي سبب شده كه به عنوان ابزار اصلي

در سنجش هاي وسيع 1 مورد استفاده قرار مي گيرد ( نظير كنكور، تافل و... ). انتقادهاي زيادي

نسبت به سؤالات چندگزينه اي مطرح شده است نظير پوشش ندادن تمامي اهداف تربيتي

(سطوح پايين شناختي را م يسنجند)، و استفاده از حدس وگمان كه يكي از اصل يترين ايرادات

نسبت به كنكور سراسري بوده كه منجر به طرح حذف كنكور شده است. در اين ميان عدهاي

نيز افزايش تعداد گزينههاي سؤال را راهي براي مقابله با اين مشكلات دانستهاند.

با اين همه اطلاعات محدود و ناچيزي در مورد اثربخشي رويكردهاي ارائه شده وجود

دارد. اگر چه شعور عادي ميپذيرد كه افزايش تعداد گزينهها حدس زدن را كاهش ميدهد،

اما امكان ايجاد گزينه هاي جالب و جذاب (بيش از 3 يا 4) در بسياري مواقع وجود ندارد. از

طرفي تعيين تعداد مطلوب گزينهها نياز به شواهد علمي و تجربي دارد.

نوشتن سؤال هاي تستي با وجود همه تلا شهايي كه در جهت مكانيزه و كامپيوتري كردن

آن به عمل آمده است همچنان به عنوان يك هنر تلقي مي شود. ابتكار و استادي در گنجاندن

1. large scale assessment

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 3

اين مفاهيم در يك مساله، قاطعيت در جلمه بندي و عبارات مربوط به سؤال به گونه اي كه

مسأله مورد نظر به وضوح بيان شده باشد و سرانجام بينش و مهارت در توليد گزينه هاي

انحرافي به گونه اي كه افراد ضعيف را به خود جلب كند مستلزم طرح و تحليل دقيق سؤالها و

.( تجزيه مستقيم است (ثرندايك به نقل از هومن، 1375

سؤال هاي چندگزينه اي ممكن است به گونه كلي داراي 3.4.5 حتي 6 گزينه باشند اما بيش

از 70 سال پيش متخصصان انداز هگيري كشف كردند كه دليل منطقي كمي براي نوشتن

سؤال هاي چندگزينه اي به صورت 4 يا 5 گزينه اي وجود دارد (اون و فرومن، 1987 ) با اين

وجود متداو لترين نوع پرسش ها چهار گزينه اي است. اما يك پرسش 3 گزينه اي كه براساس

روش هاي عملي و آماري صحيح تهيه شوند به يك پرسش 4 يا 5 گزينه اي كه داراي گزينه

.( هاي معيوب است برتري دارد (سيف، 1386

اما امروزه به چند دليل عمده از آزمون هاي چندگزينه اي بيش از ساير انواع آزمون ها در

حوزه تعليم و تربيت استفاده مي شود: اول به علت آنكه آزمودني قادر است در زمان معين تعداد

زيادي سؤال را پاسخ دهد و به عبارتي ديگر در يك زمان محدود تعداد زيادي از هد فها

آموزشي و بخش مهمي از محتواي درس را اندازه بگيرد. دوم اينكه آزمو نهاي چند گزينه اي

نسبت به آزمون هاي صحيح و غلط و دوگزينه اي كمتر امكان حدس زدن كوركورانه را به

آزمون شونده مي دهند. دليل سوم براي استفاده بيشتر از اين نوع آزمون سهولت در نمره

گذاري و تصحيح و تفسير آن و در نتيجه صرفه جويي در نيروي انساني و وقت و هزينه م يباشد

.( (سيف، 1386

اما معايبي نيزدارد از جمله اينكه ساختن اين آزمو نها بسيار دشوار است و در مقايسه با

آزمون هاي صحيح - غلط خواندن اين آزمون ها و پيدا كردن گزينه درست مستلزم وقت

.( زيادتري است (شريفي، 1384

امروزه آزمون هاي چندگزينه اي استعداد و پيشرفت تحصيلي در حوزه تعليم و تربيت بيش

از ساير موقعيت ها مورد استفاده قرار مي گيرد اما اينكه يك آزمون چندگزينه اي چه تعداد

www.SID.ir

Archive of SID

4 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

گزينه بايستي داشته باشد تا از حداكثر پايايي برخوردار باشد همواره مورد بحث مي باشد. تعداد

گزينه هاي سؤال هاي چندگزينه اي (گزين ههاي درست يا انحرافي) از 2 تا 5 و گاهاً تا 6

متغيراست و به لحاظ نظري هر چه تعداد گزينه ها بيشتر باشد امكان حدس زدن كمتر است اما

ابتدا بايد مشخص كرد در يك آزمون، چند گزينة انحرافي بيشتر، باعث افزايش پايايي سؤال

مي شود به هر حال در عمل ممكن است اضافه كردن گزينه هاي انحرافي واقعا باعث افزايش

پايايي آزمون نشود زيرا پيدا كردن گزينه هاي خوب مشكل است. پايائي هر سؤال از طريق

گزينه هاي انحرافي كه هيچ وقت انتخاب نشد هاند بالا نم يرود مطالعات نشان داد هاند كه به

ندرت مي توان سؤالاتي را يافت كه بيشتر از 3 يا 4 گزينه انحرافي كه به طور مؤثر عمل مي كنند

داشته باشند و گزينه هاي انحرافي خنثي ممكن است به پايايي آزمون لطمه وارد كنند به اين

دليل كه آنها زمان بيشتري را براي خواندن م يگيرند و فضاي آزمون را اشتغال مي كنند

.( (كاپلان و ساكوزو،به نقل از دلاور و درتاج و فرخي، 1386

سؤال هاي تحقيق

آيا پارامتر هاي سؤال نسبت به تعداد گزينه ها حساس است ؟

آيا تأثير تعداد گزين هها بر ويژگي هاي روان سنجي سؤالات و توانايي برآورد شده

آزمودني ها در نظريه كلاسيك و سؤال پاسخ متفاوت است ؟

آيا توانايي برآورد شده آزمودن يها از تعداد گزينه هاي سؤال تأثير مي پذيرد؟

آيا تعداد گزين هها بر برازش داده ها با مدل در نظريه سؤال پاسخ تأثير مي گذارد؟

يك مطالعه درباره مسائلي كه به انتخاب گزين ههاي انحرافي مربوط م يشود پيشنهاد

مي كند كه معمولاً بهتر است 3 يا 4 گزينه انحرافي كه به طور مؤثر عمل مي كنند براي هر سؤال

.( تدوين شود (آناستازي و اربينا، 1997 به نقل از دلاور، 1374

يونسي ( 1386 ) به بررسي ويژگ يهاي روان سنجي سؤال هاي آزمون فراگير رشته

روان شناسي دانشگاه پيام نور در سال 1385 پرداخته و نتايج تحقيق را اين طور بيان م يكند.

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 5

تجزيه و تحليل داد هها نشان داد كه گزينه هاي انحرافي تمامي سؤالات در همه آزمون ها هم

احتمال نيستند و عملكرد معيوبي داشت هاند نتايج تجزيه وتحليل حاكي از اين است كه در

آزمون هاي ادبيات فارسي، روانشناسي و جامعه شناسي مدل دو پارامتري نسبت به مدل سه

پارامتري برازش بهتري با مجموعه داده هاي ازمون دارد.

معلمي اوره ( 1387 )در تحقيقي به مقايسه دقت برآورد توانايي در سؤالات چندگزينه اي

با بكارگيري مدل سازي - سؤال پاسخ دو وچند ارزشي - پرداخته است.نتايج حاصل از برازاندن

مدل دو ارزشي 1و 2و 3 پارامتري بر داده هاي سؤال پاسخ مذكور نشان داد مدل دو پارامتري كه

1 است. دراين NRM از نظر ساختار پارامتري در ميان مدل هاي دو ارزشي نزديك ترين مدل به

ميان از برازندگي بهتري با داد ههاي فوق الذكر برخوردار است ولذا اين مدل به عنوان مدل دو

انتخاب (NRM) ارزشي مناسب جهت مقايسه دقت برآورد توانايي با مدل چند ارزشي برگزيده

شد.

هاديان ( 1376 ) تأثير تعداد گزينه هاي سؤال در اعتبار تست هاي چندگزينه اي را مورد

بررسي قرار داد.هدف از اين پژوهش مطالعه تأثير تعداد گزين هها در اعتبار تس تهاي چند

گزينه اي در بين سه گروه قوي،متوسط وضعيف است وتعيين اين كه چه تعداد گزينه در

هريك از گروه ها بيشترين اعتبار را براي تست فراهم م يكنند. 400 نفر از دانش آموزان دختر

وپسر سال اول دبيرستان هاي نظام جديد مناطق 2و 11 و 18 آموزش وپرورش شهر تهران در سال

75 ) به شيوه نمونه گيري چند مرحله اي انتخاب شدند. - تحصيلي ( 76

براي 4 نوع سؤال 2 تا 5 (KR بعد از اجراي آزمون ضريب اعتبار از طريق فرمول آلفا ( 20

گزينه اي در هر يك از سه گروه متوسط، ضعيف وقوي به دست آمد. ضرايب اعتباربه دست

آمده براي هر فرم از تست مورد مقايسه قرار گرفت نتايج نشان داد كه بين ضريب اعتبار

تست هاي 2تا 5 گزينه اي براي گروه قوي وضعيف تفاوت اساسي ومعناداري وجود ندارد ودر

-1 مدل پاسخ اسمي

www.SID.ir

Archive of SID

6 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

اين دو گروه ضريب اعتبار تس تهاي 2گزينه اي به طور قابل ملاحظه اي از ساير تس تها بيشتر

بود. ولي بين ضرايب اعتبار تست هاي 3تا 5 گزينه اي براي گروه متوسط تفاوت معنادار بود بدين

معني كه تست هاي 3گزينه اي، نسبت به تست هاي با تعداد گزينه هاي بيشتروكمتر از اعتبار

بالاتري برخوردار بود.

1376 )به بررسي تأثير تعداد گزينه ها وزمان اجراي آزمون بررسي نمره كل - بيرقي ( 77

آزمون پرداخته است. داده هاي جمع آوري شده برروي 200 نفر گروه نمونه انجام شده است.

آزمودني ها بر اساس نمره هاي حاصل از يك آزمون ادبيات جداگانه كه در ابتداي تحقيق اجرا

شده است، به دو گروه تقسيم شده اند.ويكي از گروه ها به يك آزمون سه گزين هاي وگروه

دوم به يك آزمون 4گزينه اي كمتر از ميانگين نمرات 3گزينه اي است يعني افزايش تعداد

گزينه ها باعث كاهش نمره كل آزمون شده است.

پاك نژاد ( 1377 ) به بررسي، تأثير تعداد گزينه هاي سؤال ومدت زمان پاسخ دهي برپايايي

آزمون هاي چندگزينه اي پيشرفت تحصيلي پرداخته است. تحقيق حاضر به منظور بررسي تأثير

تعداد گزينه هاي سؤال ومدت زمان پاسخ دهي بر پايايي 1 آزمون هاي چندگزينه اي پيشرفت

تحصيلي برروي يك نمونه 400 نفري از دانش آموزان سال سوم دبيرستان نظام جديد آموزش

متوسطه شهرستان انديمشك كه در سال تحصيل فرهنگ ومعارف اسلامي انجام شده است.

دراين تحقيق، ضرايب پايايي آزمون هاي چهارگزينه اي،سه گزينه اي، و دوگزينه اي وآزمون

چهارگزينه اي با مدت زمان پاسخ دهي كوتاه و بلند با استفاده از آزمون هاي معني دار بودن

مورد α=0 . اختلاف بين دو ضريب همبستگي در نمونه هاي همبسته ومستقل در سطوح 05

مقايسه قرار گرفته اند نتايج حاكي از آن بود كه بين ضرايب پايايي آزمون هاي چهارگزينه اي و

سه گزينه اي اختلاف معني داري نمي باشد. وبين ضرايب پايايي آزمون هاي چهارگزينه اي و دو

گزينه اي اختلاف معني دار مي باشد.

1. Reliability

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 7

2009 ) در تحقيقي برروي آزمون هاي ورودي مدارس و دانشگاه ها با بيان ) تام بوركارد 1

SAT اين كه بايد از آزمون ها و سؤالات چند گزينه اي استفاده شود ادعا مي كند تس تهاي

داراي مشكلات خاص وسيستماتيك است. بوركارد مي گويد مشكلات زيربنايي، ناشي از باز

پاسخ بودن بعضي از سؤالات است. همچنين ادعا مي كند كه مهارت تفكر انتقادي دراين

آزمون ها (باز پاسخ) واقعي نيست. زيرا آزمون گران به راحتي نم يتوانند ادعاي خود را درمورد

كودكان 6 تا 11 ساله ثابت كنند. بوركارد بيان مي كند باجايگزيني آزمون هاي چند گزينه اي به

جاي باز پاسخ ديگر مشكلي نخواهيم داشت زيرا اين تست ها به دقت دانش وتوانايي را ارزيابي

ميكنند. با آزمون هاي چندگزين هاي مي توان مقايسه هاي سال به سال از عملكرد دانش آموزان

داشت. بوركارد ( 2009 ) مي گويد در جهان واقعي كسي فاقد دانش نيست و استفاده از سؤالات

انشايي و باز پاسخ امري خطير و فاجعه بار وبسيار پرهزينه براي سنجش عملكرد افراد است.

2008 ) باتحقيقي به عنوان دشواري سؤالات آزمون هاي چند ) گاتس شال وكوبينجر 2

گزينه اي،بيان داشته كه آزمون هاي چندگزينه اي خود مشكل زاست زيرا اغلب به راحتي فرد به

جواب درست دست پيدا مي كند و باعث مي شود آزمودني يك حدس زننده خوش شانس

باشد. در اين تحقيق (كوبينجر وگاتس شال، 2008 ) از آزمون هاي موازي استفاده شد كه از

لحاظ محتوا شبيه به هم هستند اما پاسخ هاي آنها متفاوتند. 173 تست به صورت تصادفي در

كتابچه هايي ارائه شدند. با انجام تحليل مدل راش بعد از حذف 39 سؤال با مدل راش برازش

گزينه اي تفاوت معني X داشت نتيجه اوليه به اين صورت بود كه آزمون چندگزينه اي 5تا

داراي با آزمون جواب آزاد نداشت. در اين تحقيق بيان شده است اگر از سؤالات با فرمت 1

گزينه صحيح از 5 گزينه انحرافي و 1 گزينه صحيح از 4 گزينه انحرافي استفاده شود. چندان

تفاوتي نمي كند.

1. Tom burkard

2. Kubinger ,Gottschall

www.SID.ir

Archive of SID

8 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

در تحقيقي توسط جيمز و ماروي ( 2008 ) با عنوان تأثير گزينه معيوب در امتحانات چند

گزينه اي ارزيابي پرستاران به انتقاد از امتحانات چندگزين هاي پرداخته و با تاسف بيان كرده

است كه رواج گزينه هاي معيوب در امتحانات معلم ساخته باعث تبعات منفي زيادي شده

است.در اين تحقيق با يك بررسي دراز مدت برروي دانش آموختگان بوردپرستاري مشخص

شد افراد با نمره بالا وقتي دوباره آزمون شدند نتايج به نحوي بود كه انگار ارزيابي هاي قبلي،

غلط بودند (دانش آموزان نمرات پاييني در آزمون جديد گرفتند). به گفته جيمز و ماروي

2008 ) ممكن است در ظاهر فقط براي دانش آموزان دوره پرستاري اتفاق افتاده باشد. ولي پر )

واضح است كه در تمام عرصه ها به همين نحو است، جيمز و ماروي پيشنهاد م يكنند عيوب

سؤالات چندگزينه اي با دقت بيشتري بررسي شود و براي تمام سطوح موفقيت وتوانايي بررسي

شود.

2008 ) در پژوهش خود با عنوان استفاده از طرح آشيانه اي براي ) يانگ سوك سو 1

داده هاي آزمون هاي چندگزينه اي ادعا مي كند، موقعي كه راه حل و استراتژي صحيح در

ممانعت از انتخاب گزين ههاي انحرافي به كاربرده م يشود، مي تواند فرايند زير بنايي سؤالات

آزمون هاي چندگزينه اي را بهتر نشان دهد.اين رساله مدل جديدي براي ارزيابي سؤالات چند

ارائه مي دهد. به (MML) گزينه اي با استفاده از الگوريتم برآورد بيشينه درست نمايي كناري

علاوه سؤالات وطبقه كاربرد اطلاعات براي هر مدل به كار رفته است. و به ارزيابي عملكرد هر

مدل و مطالعات مشابه براي كشف پارامترهاي سؤال، پرداخته است. در كاربرد مدل به وسيله

استفاده كرده است. (Likelihood Ratio) از نسبت بيشينه تست DIF تحليل

چاين چي ( 2007 ) رساله دكتري خود را با عنوان تأثير حدس در ارزيابي ابعاد (تك بعدي

بودن وچند بعدي بودن) آزمون هاي چندگزينه اي ارائه كرده است. در اين تحقيق 4 شاخص

براي ارزيابي تك بعدي بودن مورد استفاده قرار گرفته است نسبت واريانس، تحليل هاي

وتفاوت خي دو. RMSR موازي، تبديل

1. Young suk suh

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 9

2004 ) بيان مي كند كه آزمو نهاي چندگزينه اي بيشترين تعداد را در ) واي مين هوانگ 1

ميان تنوع بسيار زياد آزمون ها به خود اختصاص داده است. آزمون هاي چندگزينه اي عمومي

براي مواردي مثل تعيين پيشرفت، تعيين پايه دانش، دانشجويان ابقا يا ارتقا درجه علمي مورد

استفاده قرار م يگيرد. بر همين اساس م يگويد علي رغم نفوذ آزمون هاي چند گزينه اي،

شواهد تجربي حاكي از آن است كه چگونگي نوشتن آزمون هاي چند گزينه اي دچار كاستي

است.

2008 ) بيان مي كند ابهام در آيت مهاي تست باعث ورود واريانس هاي نا مربوط ) آلن ام 2

در آزمون هاي چندگزينه اي مي شود.

كارين –وودفورد وپيتر بانكرافت ( 2009 ) در مقاله اي تحت عنوان آزمون هاي چندگزينه اي

را سخت تصور نكنيد به بررسي آزمون هاي چندگزينه اي پرداخته است. وچگونگي ساخت،

اجزا و محدودي تهاي اين آزمو نها را مورد بررسي قرار داده است. در بخشي از اين مقاله به

تعداد گزينه ها در آزمو نهاي چندگزينه اي پرداخته و اظهار مي دارد كه در سا لهاي اخير

بيشترين اظهارنظرها به آزمو نهاي 3و 4و 5 گزينه اي معطوف بوده است. وبيان م يكند كه ادعاي

آنها كه 5 گزينه اي را انتخاب م يكنند بيشتر به خاطر از بين بردن حدس است. اين پژوهشگران

استفاده از 3 گزينه اي يا 4 يا 5 گزينه اي را معطوف به مقتضي زمان كاربرد م يدانند تا از

اشتباهات دوري شود.

2006 ) در تحقيقي در دانشگاه كانساي ژاپن آثار كاهش تعداد ) تتسو هيتوشيزوكا 3

گزينه ها سؤالات برروي مشخص ههاي روان سنجي آزمون ورودي دانشگاه كانساي را مورد

بررسي قرار داد.اين آزمون به صورت يك سري سؤالات 4 گزينه اي بود كه براي غربالگري

مورد استفاده قرار مي گرفت كه با حذف يك گزينه به يك آزمون سه گزينه اي تبديل شد. وبر

روي گروه ديگري اجرا شد. پاسخ به دو آزمون ومقايسه دو آزمون نشان داد كه درجه سهولت

1. Yi min Huang

2. Oleen-m

3. Tetsuhito shizuka

www.SID.ir

Archive of SID

10 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

و پارامتر تشخيص به طور معناداري تغيير نكرد. نتايج اين تحقيق پيشنهاد مي كند كه سؤالات سه

گزينه اي همان كارايي سؤالات 4 گزينه اي را دارد ودر اصل م يتوان به جاي 4 گزينه اي از سه

گزينه اي استفاده كرد.

2005 ) در تحقيقي بيان مي كند كه سؤالات چندگزينه اي بهترين كاربرد را ) مايكل سي 1

در زمينه آزمون هاي پيشرفت تحصيلي دارند. و براي به دست آوردن سؤالاتي با محتواي عالي

و با كيفيت سؤالات سه گزينه اي مي تواند از سؤالات 4 يا 5 گزينه اي برتري داشته باشد. به

گفته مايكل سي ( 2005 ) محققان در طي 80 سال تحقيق مدارك تجربي به دست آورده اند كه

سؤالات 3 گزينه اي بهترين كاربرد را دارد و نياز به اين سؤالات روز به روز بايد مورد توجه

قرار گيرد.

1980 ) به مقايسه آزمون سه گزينه اي و چهارگزين هاي پرداخته وبيان ) رالف جي استاراتون 2

داشته است كه هر چند بيشتر كتاب هاي اندازه گيري به طور معمول سؤالات 5 يا 4 گزينه اي را

توصيه م يكنند، اما مطالعات تجربي نشان داده است كه سؤالات سه گزين هاي در شرايط خاص

بهينه تر است. در اين تحقيق پايايي وخطاي استاندارد اندازه گيري آزمون سه گزينه اي برابر يا

حتي بهتر از سؤالات 4 گزينه اي ويا 2 گزينه اي بود واين نتايج با در نظر گرفتن زمان آزمون

بود. رالف ( 1980 ) پيشنهاد م يكند از سؤالات سه گزينه اي در كلا سهاي عمومي استفاده شود.

روش

باتوجه به هدف اصلي پژوهش كه به بررسي تأثير تعداد گزين ههاي سؤال در ويژگ يهاي

روان سنجي آزمون وتوانايي برآورد شده مي پردازد، بهترين روش تحقيق روش تجربي م يباشد.

جامعه آماري تحقيق حاضر شامل كليه دانش آموزان دبيرستان هاي شهر شيراز و بخش

كربال فارس م يباشد.

1. Michael. c

2. Ralph G. straton

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 11

گروه نمونه اين تحقيق عبارت است از 608 نفر دانش آموز سال سوم دبيرستان رشته

رياضي، به صورت تصادفي خوش هاي به علت وسعت منطقه جغرافيايي و پراكندگي جامعه

آماري و عدم دسترسي به همه آنان صورت گرفت. براي همگون كردن آزمودن يها در تحليل،

آزمودني هاي دختر وپسر از هم تفكيك نشدند.

با توجه به اين كه كاربرد موفقيت آميز مدل هاي نظريه سؤال پاسخ نياز به حجم نمونه

كافي وطول مناسب آزمون براي برآورد دقيق پارامتر هاي توانايي و پارامتر هاي سؤال دارد، بر

نمونه به صورت زير انتخاب ،IRT طبق تحقيقات و پژوه شهاي انجام شده در مورد مدل هاي

خواهد شد 20 سؤال و 200 آزمودني براي مدل تك پارامتري، 30 سؤال و 500 آزمودني براي

مدل دو پارامتري و 60 سؤال و 1000 آزمودني براي مدل سه پارامتري توصيه م يشود از طرف

ديگر بعضي مطالعات حتي حجم نمونه 200 نفر و 20 سؤال را براي كسب برآوردهاي قابل

.( قبول كافي دانسته اند (همبلتون و كوك، 1983

داده ها در تحقيق حاضر از طريق آزمون پيشرفت تحصيلي درس حسابان، و زبان عمومي

در رشته رياضي فيزيك سال سوم دبيرستان جمع آوري شد.

آزمون هاي موردنظر توسط جمعي از دبيران حسابان وهندسه وزبان عمومي شهرستان

خرامه از سؤالات كنكور سا لهاي قبل، 20 سؤال تهيه شد. در ساخت اين آزمون ها به نكات زير

توجه شد:

با توجه به زمان سپري شده از سال تحصيلي اين آزمو نها از يك سوم كتاب تدريس شده

تهيه شد. وبه تاييد گروه رياضي و زبان آموزش پرورش شيراز وشهرستان خرامه رسيد. بعد از

ساخت سؤالات به صورت 4گزينه اي توسط دبيران گزين هاي ديگر به سؤالات 4گزينه اي اضافه

شد و سؤالات به صورت 5گزينه اي، از سؤالات 4گزينه اي يك گزينه غلط (گزينه انحرافي)

حذف گرديد و سؤالات 3گزينه اي تهيه شد. دراصل در تمام فرم تهاي 3و 4و 5 گزينه اي گزينه

صحيح و سؤال مشابه بود. روايي آزمون به صورت محتوايي و ظاهري توسط دبيران حسابان

www.SID.ir

Archive of SID

12 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

وزبان شهرستان خرامه بررسي شد ودر يك مدرسه به عنوان نمونه اجرا شد و پايايي سؤالات با

روش آلفاي كرونباخ مشخص و سؤالات مناسب جايگزين سؤالات نامناسب شد.

يافته ها

به منظور ارزيابي تأثير تعداد گزين هها بر ويژگي هاي روا نسنجي آزمون ها وسؤالات و همچنين

توانايي برآورد شده آزمودني ها در آزمون حسابان و زبان در نظريه كلاسيك اندازه گيري و

پرسش پاسخ، داد هها با استفاده از دو آزمون حسابان و زبان كه هر كدام با فرمت 3و 4و 5

گزينه اي ساخته شده بودند، از گروه نمون هاي كه از 120 دختر و 491 پسر ( 608 نفر به آزمون

زبان و 611 نفر به آزمون حسابان)تشكيل شده بودند و از جامعه به صورت تصادفي انتخاب

شده بودند جمع آوري شد. ابتدا پايايي آزمو نها از طريق آلفاي كرونباخ سنجيده شد و سپس

با استفاده از تحليل عاملي به بررسي مفروضه تك بعدي بودن آزمون پرداختيم. بعد از بررسي

مفروضات اوليه به تحليل نتايج پرداخته و ضرايب تميز و دشواري و حدس آزمو نها محاسبه

و از DIF پارامترها با هم مقايسه شدند. براي مقايسه پارامتر ها از منطق z شد و با استفاده از

آناليز واريانس آميخته نيزاستفاده شد.

جدول 1. جدول پايايي كل آزمون هاي حسابان و زبان

آلفاي كرونباخ (كودرريچارد سون ) آزمون وتعداد گزينه ها تعداد سؤالات

0.755 حسابان 3 گزينهاي 17

0.753 حسابان 4 گزين هاي 17

0.798 حسابان 5 گزينه اي 17

0.774 زبان 3گزينه اي 17

0.780 زبان 4گزينه اي 17

0.762 زبان 5 گزينهاي 17

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 13

به منظور بررسي پيش فرض هاي نظريه پرسش پاسخ از تحليل عاملي براي بررسي تك

بعدي بودن آزمون ها استفاده شد با توجه به ارز شهاي ويژه به دست آمده و اسكري هاي به

( آزمون هاي مورد استفاده تك بعدي بودند. همبلتون ( 1989 SPSS دست آمده از نرم افزار

ذكر م يكند كه چنانكه فرض تك بعدي بودن برقرار باشد. مفروضه استقلال موضعي نيز برقرار

است. باتوجه به اين مطلب در آزمون مذكور مفروضه ي استقلال موضعي نيز برقرار است و

آزمون ها مناسب براي تحليل با نظريه پرسش پاسخ مي باشد.

تحليل شد و BILOG-MG بعد از بررسي پيش فر ضهاي آماري داد هها با نرم افزار

محاسبه شد. IRT ضرايب تشخيص وتميز در دو نظريه كلاسيك و

براي بررسي حساسيت پارامترهاي سؤال نسبت به تعداد گزين هها از 3 روش، براي محاسبه

استفاده شد:

Z - اولين روش استفاده از فرمول

2 2

1 2

E1 E2 S S

b b

Z

در تحليل پارامترهاي سؤال DIF - دوم استفاده از منطق

تعريف اساسي نظريه سؤال پاسخ از كار كرد افتراقي سؤال، روش بسيار ساده اي فراهم

مي كند كه براساس آن مي توان كاركرد افتراقي سؤال را مورد بررسي قرار داد. يعني، انتخاب

نمونه بزرگي از آزمودني ها از دو جامعه، اجراي مقياس موردنظر (منظور تبديل داده ها به

مقياسي مشترك م يباشد) و برآورد پارامترهاي سؤال به طور جداگانه براي هر دو گروه و

سپس مقايسه ديداري منحني هاي سؤال پاسخ. تنها در صورتي پارامتر هاي سؤال (يا نمره هاي

به دست آمده از سطوح صفت) كه به طور جداگانه براي دو يا چند گروه برآورد شده اند قابل

مقايسه اند كه محقق اين پيش فرض را بپذيرد كه گروه ها در متغير صفت مكنون توزيع يكساني

دارند. به طور اخص،سؤال در صورتي كاركرد افتراقي را نشان مي دهد كه منحني سؤال پاسخ

آن در بين گروه هاي مختلف متفاوت باشند و يا اينكه بين هريك از پارامترهاي سؤال در بين

www.SID.ir

Archive of SID

14 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

0

0.2

0.4

0.6

0.8

1

1.2

-3 -2.75 -2.5 -2.25 -2 -1.75 -1.5 -1.25 -1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 2.75 3

سوال 11 زبان 5 گزينه سوال 11 زبان 4 گزينه ای

0

0.2

0.4

0.6

0.8

1

1.2

-3 -2.75 -2.5 -2.25 -2 -1.75 -1.5 -1.25 -1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 2.75 3

سوال 3 زبان 5 گزينه سوال 3 زبان 3 گزينه

ICC در اين مورد تفاوت DIF گروه ها تفاوت و جود داشته باشد. (فلسفي نژاد، 1388 ) ملاك

مي باشد. P( )i  P( )i ها و قدر مطلق 2

- سوم استفاده از آناليز واريانس آميخته

بررسي شده اند آورده شده است. DIF هايي كه به روش منطق ICC در زير نمونه اي از

نمودار 1. بيشترين تفاوت در سؤال 11 زبان 4 و 5 گزينه اي

نمودار 2. كمترين تفاوت در سؤال 2 زبان 3 و 5 گزينه اي

ICC ها نشان داد تفاوت فقط در چند سؤال قابل توجه است و اكثر ICC نتايج بررسي

نيز تأييد شد. Z سؤالات تفاوت زيادي با هم ندارند. اين نتايج با استفاده از تبديل پارامتر ها به

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 15

براي بررسي تفاوت ضريب دشواري در آزمون زبان Z جدول 2. استفاده از قدر مطلق

جدول، تفاوت ضرايب دشواري آزمو نهاي زبان 3 و 4 و 5 گزينه اي را نشان مي دهد. ستون

اول سمت راست تفاوت ضرب دشواري زبان 3 و 5 گزينه اي و در ستون دوم زبان 4و 5

جدول Z محاسبه شد. با توجه به Z گزينه اي و در ستون سوم زبان 3و 4 گزينه اي با استفاده از

در سطح معني داري 0.05 تفاوت بين ضرايب دشواري آزمون زبان 3 و 4 و 5 گزينه اي فقط در

سؤالات 2و 14 آزمون زبان 3و 4 گزينه اي و سؤال 1 ازمون 4 و 5 گزينه اي مشاهده شد.

ضريب دشواري z

5و 3 گزينه اي

ضريب دشواري z

4و 5 گزينه اي

ضريب دشواري z

3و 4 گزينه اي

زبان

1.162 2.026 سؤال 1 0.7202

2.0728 0.5577 0.7548 سؤال 2

1.294 1.289 0.839 سؤال 3

1.032 0.6524 0.7366 سؤال 4

2.109 1.2685 0.9425 سؤال 5

1.2936 1.5130 0.9970 سؤال 6

0.1334 1.3198 0.9569 سؤال 7

0.8411 0.5529 0.8510 سؤال 8

1.152 1.241 0.9682 سؤال 9

2.087 0.4433 0.8489 سؤال 10

1.2684 0.6051 0.4249 سؤال 11

1.0211 1.2277 0.8553 سؤال 12

1.0681 0.5240 0.8730 سؤال 13

2.457 سؤال 14 6387.1 0.8688

1.1006 1.0369 سؤال 15 0.9682

0.0299 1.073 0.777 سؤال 16

1.3654 1.2199 0.9485 سؤال 17

www.SID.ir

Archive of SID

16 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

براي بررسي تأثير تعداد گزينه ها بر ويژگي هاي روا نسنجي سؤالات و توانايي برآورد شده

استفاده شد (mixed ) آزمودني ها در نظريه كلاسيك و سؤال پاسخ از تحليل واريانس آميخته

كه نتايج تحليل آزمون زبان در جداول زير آورده شده است.

IRT,CTT جدول 3. خروجي آناليز واريانس آميخته براي بررسي تفاوت ضريب دشواري زبان در

sig F ms Df Ss منابع تغيير

درون گروهي

0.418 1.561 0.514 2 تعداد گزينه ها 1.028

تعامل 0.042 3.340 1.1 2 2.2

خطا 0.329 64 21.080

برون گروهي

0.000 41.407 20.207 1 مدل 20.207

خطا 0.488 32 15.617

IRT,CTT جدول 4. خروجي آناليز واريانس آميخته براي بررسي تفاوت ضريب تميز زبان در

CTT,IRT ضريب تميز زبان در

sig f ms df Ss منابع تغيير

درون گروهي

0.495 0.712 0.827 2 تعداد گزينه ها 1.653

0.452 0.804 0.934 تعامل 2 1.867

1.161 خطا 64 74.33

برون گروهي

مدل 0.000 26.498 30.761 1 30.761

1.161 خطا 32 17.199

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 17

با توجه به سطح معني داري منابع تغيير درون گروهي و برون گروهي نتايج زير حاصل شد

بين ضرايب تميز و دشواري و تعداد گزينه ها تفاوت معني داري وجود ندارد و لي بين

پارامترهاي محاسبه شده در دو نظريه كلاسيك و پرسش پاسخ تفاوت وجود دارد.

براي بررسي تأثير تعداد گزينه هاي سؤال بر توانايي از آزمون خي 2 استفاده شد كه نتايج

آن در جداول زير موجود مي باشد.

جدول 5. آزمون خي 2 براي بررسي تفاوت تواناي يهاي آزمون هاي زبان 3 و 4و 5 گزينه اي وآزمون

حسابان 3و 4و 5 گزينه اي

زبان 3و 4و 5 گزينه ارزش درجه آزادي سطح معني داري (دودامنه)

0.027 4 10.981 خي 2

تعداد مورد ها 608

نتايج بررسي تفاوت با خي 2 نشان داد كه بين تعداد گزين هها و توانايي آزمون هاي 3و 4و 5

گزينه اي تفاوت معني دار است.

بحث و نتيجهگيري

سؤال 1: آيا پارامتر هاي سؤال نسبت به تعداد گزينه ها حساس است ؟

براي اين منظور از خروجي نرم افزار بايلوگ ضريب هاي تميز و دشواري و حدس در

مورد تحليل قرار DIF و سپس با منطق z نظريه پرسش پاسخ استخراج كرده و ابتدا با فرمول

گرفت. علاوه بر آن از تحليل واريانس آميخته نيز استفاده شد.

حسابان 3و 4و 5 گزينه ارزش درجه آزادي سطح معني داري (دودامنه)

0.000 4 20.228 خي 2

تعداد مورد ها 610

www.SID.ir

Archive of SID

18 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

ضريب تميز، ضريب دشواري، ضريب حدس ، هر : z مقايسه پارامترها با استفاده از فرمول

بحراني در Z محاسبه شده و Z تبديل شده و با هم مقايسه شدند. با توجه به Z سؤال دو به دو به

سطح 0.05 تفاوت معني داري بين ضرايب دشواري و تميز وحدس در آزمون هاي 3 و 4 و 5

گزينه اي مشاهده نشد.

نتايج تحليل واريانس آميخته نيز نشان داد كه بين ضرايب تميز و دشواري و آزمون هاي 3

و 4 و 5 گزينه اي تفاوت معني داري وجود ندارد.براي بهتر نشان دادن اين موضوع از منطق

ها، فقط در تعداد اندكي از سؤالات قابل توجه ICC استفاده شد تفاوت مشاهده شده بين DIF

بودند و بقيه سؤالات تفاوت زيادي باهم نداشتند.

تتسو هيتو شيزوكا ( 2006 )مبني بر اين كه بين ضرايب » نتايج اين تحقيق با تحقيقات

همسو مي باشد. « دشواري و تميز سؤالات 3 و 4 گزينه اي تفاوتي وجود ندارد

سؤال دوم: آيا تأثير تعداد گزينه ها بر ويژگ يهاي روا نسنجي سؤالات و توانايي برآورد

شده آزمودني ها در نظريه كلاسيك و سؤال پاسخ متفاوت است ؟

براي بررسي تأثير تعداد گزينه ها بر ويژگي هاي روا نسنجي سؤالات و توانايي برآورد شده

استفاده (MIXED ) آزمودني ها در نظريه كلاسيك و سؤال پاسخ از تحليل واريانس آميخته

شد. نتايج تحليل نشان داد كه پارامترهاي محاسبه شده در نظريه كلاسيك و پرسش پاسخ باهم

متفاوت بودند.

تفاوت در برآورد پارامترهاي سؤال در » اين نتايج با تحقيق احمدي آذر ( 1387 )، مبني بر

همسو مي باشد. « نظريه سؤال پاسخ و كلاسيك اندازه گيري

سؤال 3: آيا توانايي برآورد شده آزمودن يها از تعداد گزينه هاي سؤال تأثير مي پذيرد؟

براي بررسي اين سؤال توانايي بدست آمده از هر سه فرمت آزمون،ازخي 2 براي بررسي

تفاوت استفاده شد. خي 2 محاسبه شده معني دار بود و تفاوت در برآورد توانايي در فرمت هاي

آزمون هاي 3 و 4 و 5گزينه اي مشاهده شد. باتوجه به نمودارهاي فراواني توانايي به دست آمده و

درصد پاسخ هاي صحيح افراد و توابع آگاهي آزمون هاي مختلف نتايج زير نيز حاصل شد.

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 19

افراد با توانايي كم و متوسط در آزمون هاي 3گزينه اي و 4 گزينه اي عملكرد بهتري داشتند و

افراد با توانايي ضعيف در آزمون هاي 5 گزينه اي عملكرد بدتري داشتند. بررسي درصد

پاسخ هاي صحيح افراد نشان داد در آزمون هاي 3 گزينه اي درصد پاسخ هاي صحيح به مراتب

بالاتر از فرمت هاي ديگر بود همچنين در بررسي توابع آگاهي فرمت هاي مختلف آزمون

مشخص شد آزمو نهاي 3 گزينه اي به اندازه آزمون هاي 4 گزينه اي آگاهي دهنده توانايي افر اد

است.شايد بتوان اين را مطرح كرد كه آزمون هاي 3 گزينه اي به همان مقدار آزمون هاي 4

گزينه اي، توانايي را م يسنجند و مي توان به جاي يكديگر به كار برد.

سؤال 4: آيا تعداد گزينه ها بر برازش با مدل در نظريه سؤال پاسخ تاثير مي گذارد ؟

مقدار - BILOG-MG براي بررسي برازش مدل در نظريه پرسش پاسخ از نرم افزار

2 در آخرين چرخش استخراج كرده و براي هر سه مدل آن را با خي 2 بحراني Loglikelihood

با درجه آزادي برابر با تعداد سؤال ها مقايسه كرديم.

(اگر خي 2 مشاهده شده از خي 2 بحراني كوچكتر باشد، معلوم مي شود كه به لحاظ

آماري بين برازش مدل ها تفاوت معناداري و جود ندارد و ميتوان هريك را به جاي ديگري به

اختيار گزارش كرد. ولي براساس اصل امساك بهتر است مدل داراي پارامترهاي كمتر را

انتخاب كرد.)

-2 به دست آمده و خي 2 جدول با درجه آزادي 17 كه برابر log likelihood با توجه به

27 نتايج زير به دست آمد: آزمون هاي زبان و حسابان در فرمت هاي 3 و 4 و 5 / است با 59

گزينه اي با مدل دو پارامتري برازش بهتري داشت.اين نشان دهنده اين است كه م يتوان از

پارامتر حدس در آزمون هاي چندگزينه اي صرف نظر كرد.

www.SID.ir

Archive of SID

20 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

منابع فارسي

احمدي، آذر. ( 1387 ). نمره كل سازي با استفاده از تكني كهاي نظريه كلاسيك و مقايسه آن با

مد لهاي نظريه سؤال پاسخ در كنكور كارشناسي رشته رياض . ي پايان نامه كارشناسي ارشد.

تهران: دانشگاه علامه طباطبايي.

آلن ام،جي وين دبليو ام. ( 1384 ). مقدم هاي بر نظري ههاي اندازه گيري ( روان سنجي)، ترجمه

.( علي،دلاور، تهران: سمت (تاريخ انتشار به زبان اصلي 1982

بيرقي، ابولفضل. ( 1377 ). بررسي اثر تعداد گزين هها و زمان بر روي نمره كل در آزمو نهاي پيشرفت

تحصيل . ي پايان نامه كارشناسي ارشد. تهران: دانشگاه علامه طباطبايي.

ثرندايك، برت ال. ( 1369 ). روان سنجي كاربردي. ترجمه هومن، حيدرعلي دانشگاه تهران.

سيده مؤمني، سيد طاهره. ( 1379 ). تأثير عامل حدس بر نمره هاي آزمو نهاي چندگزين هاي پيشرفت

تحصيل . ي پايان نامه كارشناسي ارشد.تهران: دانشگاه علامه طباطبايي.

سيف، علي اكبر. ( 1365 ). اندازه گيري پيشرفت تحصيل ، ي تهران: انتشارات آگاه.

( شريفي حسن پاشا،اصول روان سنجي در روان آزمايي، انتشارات رشد( 1384

فتوحي، ليلا. ( 1387 ). بررسي كاركرد افتراقي سؤالات كنكور كارشناسي ارشد رشته روا نشناس . ي

فلسفي نژاد، محمد رضا. ( 1388 ). مباني نظري پرسش پاس . خ زير چاپ.

كاپلان، روبرت ام؛ ساكوز، دنيس پ. ( 2004 ). روان آزماي ، ي مترجم علي، دلاور، فريبرز درتاج،

. نورعلي فرخي، تهران: نشر ارسباران، 1386

معلمي اوره، مهرناز. ( 1387 ). مقايسه دقت برآورد توانايي در سؤالات چند گزينه اي با بكارگيري

مدل سازي – سؤال پاسخ دو وچند ارزش . يپايان نامه كارشناسي ارشد.تهران. دانشگاه علامه

طباطبايي.

1375 ). تأثير گزينه هاي سؤال در اعتبار تست هاي چندگزين هاي. كتابنامه ص - هاديان، مينا. ( 76

.108 -111

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 21

منابع لاتين

Chien-chi-yeh (2007). The effect of gussing on assessing dimentionality in multiple

choice test,university of Pittsburgh.

Educational and psychological measurement ,vol,40,no,2,357-365/(1980) SAGE

publication /a comparison of the two ,three and four choice item test given/fixed total

number of choice /RALPH G,STRATON

James ware&marve(2008).impact of item-writing flaws in multiple choice question on

student achievement in high-stakes nursing,assessment.42:198-20

Karyn woodfard ,peter Bancroft,(2009).multiple chioice questions not

considered harmful,queensland university of technology.

Kobinger&Christian.h.ghottschall(2008).item difficulty of multiple choice test dependant

on different ietm response formats,university of Vienna.

Olleen m,(2008).heffernan.university of Alberta.

Michael c rodrigrez (2005),tree option are optimal for multiple –choice

item/uni/washin.vol;24,lss,2;pg3,11pgs.

TOM burkard.uk.cps,januray (2009).multiplechoice.

Youngsuk suh (2008),nested logit models for multiple choice item response

data.university of Wisconsin-madison..

Tetsuhito shizuka and coworkers(2006)a comparison of three and four option English

test for university entrance selection,purposes in japan.language testing (2006);23;35.

YI MIN huang.(2004),the impact of the all-of-the above option and student ability in

multiple choice testing,Washington state university college of education.

www.SID.ir

برنامه اي به منظور برآورد تتاي افراد بر اساس مدل پاسخ مدرج سوال پاسخ(زماني كه پارامترهاي سوالات موجو

يكي از مشكلات موجود در نرم افزارهاي بر آورد تتاي افراد يا توانايي افراد بر اساس مدل هاي مختلف سوال پاسخ اين است كه نرم افزارهايي مانند بايلوگ و مالتي لوگ و ساير نرم افزارهاي موجود پارامترهاي سوالات و افراد را به طور همزمان بدست مي آورند( منظور از همزمان در اينجا روش برآورد پارامتر نيست) يعني شما زماني كه بانك سوال مدرجي داشته باشيد و بخواهيد از تتاي فرد را برآورد سازيد نمي توانيد از اين نرم افزارها استفاده كنيد به اين منظور بنده برنامه اي به زبان آر نوشته ام كه در صورت نياز مي توانيد ايميل زده و از آن استفاده كنيد.

ZAR100@GMAIL.COM

تحليل عاملي3

5.  مفاهیم کلیدی در تحلیل عاملی

قبل از پرداختن به این تکنیک آماری، لازم است برخی از مفاهیم کلیدی این روش معرفی گردند.

اشتراک : میزان واریانس مشترک بین یک متغیر با سایر متغیرهای بکار گرفته شده در تحلیل.

مقدار خاص :میزان واریانس تبیین شده بوسیله هر عامل را بیان می کند. یکی از ضوابط پرکاربرد در تعیین تعداد عاملها ، مقدار ویژه است که آن را معیار راکد نیز می گویند. در تحلیل عاملی مقدار ویژه برابر1می باشد ولی ما می توا نیم در بسته آماری این مقدار را زیاد کنیم . در تحلیل عاملی مولفه های اصلی آنها هستند، که مقدار ویژه آنان بیشتر از 1 باشد. ولی اگر این مقدار کمتر از 1 باشد، عاملهای مورد نظر از لحاظ اماری  معنی دار نیست و باید از تحلیل کنار گذاشته شود .

عامل :عبارتست ترکیب خطی متغیرهای اصلی،که نشان دهنده خلاصه ای از متغیرهای مشاهده شده است.

بار عاملی : همبستگی بین متغیرهای اصلی و عوامل. مجذور مقادیر بار عاملی ،نشان می دهند که چند درصد از واریانس در یک متغیر توسط آن عامل تبیین می شود.

ماتریس عاملی : جدولی است که بارهای عاملی کلیه متغیرها را در هر عامل نشان می دهد.

چرخش عاملی : فرآیندی برای تعدیل محور عامل به منظود دستیابی به عاملهای معنی دار وساده است. یکی از مفاهیم مهم در تحلیل عاملی ‏‏‏‏ چرخش  عاملهاست. که این مفهوم دقیقا به همان معنا دلالت دارد که در فرآیند چرخش عاملی ، محورهای مختصات عاملها را به دور مبدا چرخش داده است تا اینکه موقعیت جدیدی را بدست آورد ما در اینجا دونوع چرخش داریم :

1- چرخش متعامد  

2- چرخش متمایل  

چرخش متعامد: عاملها مستقل از یکدیگر هستند.

چرخش متمایل: عاملها بایکدیگر همبستگی دارند. 


تحليل عاملي 2

3.  تعریف تحلیل عاملی

برای تحلیل عاملی، تعاریف مختلفی ارائه شده است که از آن میان می توان به موارد ذیل اشاره کرد:

تحلیل عاملی نامی است عمومی برای برخی از روشهای چند متغیره که هدف اصلی آن خلاصه کردن داده هاست. این روش به بررسی همبستگی درونی تعداد زیادی از متغیرها می پردازد و در نهایت آنها را در قالب عاملهای عمومی محدودی دسته بندی کرده تبیین می کند. در این تکنیک تمام متغیرها به عنوان متغیر وابسته قرار می گیرد.

تحلیل عاملی روشی به هم وابسته بوده که در آن کلیه متغیرها بطور همزمان مد نظر قرار می گیرد. در این تکنیک، هریک از متغیرها به عنوان یک متغیر وابسته لحاظ می گردد.

تحلیل عاملی یک شیوه آماری است که می تواند جهت تحلیل روابط متقابل میان گروه بزرگی از متغیــرها و برای توصیف این متغیرها براساس ابعاد مشترک پنهان میان عوامل به کار رود.این شیوه آماری به یافتن راهی جهت تلخیص اطلاعات موجود در تعدادی متغیرهای اصلی می پردازد و آنها را به یک سری عامل های کوچکتر با کمترین میزان ریزش اطلاعات تبدیل  می کند.

4.  درك مفهومي تحليل عاملي و كاربرد آن

بنا بر آنچه گفته شد، تحليل عاملي تكنيكي است كه كاهش تعداد زيادي از متغيرهاي وابسته به هم را به صورت تعداد كوچكتري از ابعاد پنهان يا مكنون امكان پذير مي سازد. هدف عمده آن رعايت اصل اقتصاد و صرفه جويي از طريق كاربرد كوچكترين مفاهيم تبيين كننده به منظور تبيين بيشينه مقدار واريانس مشترك در ماتريس همبستگي است. مفروضه اساسي تحليل عاملي اين است كه عامل هاي زيربنايي متغيرها را مي توان براي تبيين پديده هاي پيچيده به كاربرد و همبستگي هاي مشاهده شده بين متغيرها ،حاصل اشتراك آنها در اين عامل ها است. هدف تحليل عاملي تشخيص اين عامل هاي مشاهده ناپذير بر پايه مجموعه اي از متغيرهاي مشاهده پذير است. عامل، متغير جديدي است كه از طريق تركيب خطي نمره هاي اصلي متغيرهاي مشاهده شده بر پايه فرمول زير برآورد مي شود:

Fj=∑WjiXi=Wj1X1+Wj2X2+…+WjpXp

كه در آن W ها بيانگر ضرايب نمره عاملي و P معرف تعداد متغيرها است. اين عامل ها، في نفسه، سازه هاي فرضي يا نظري هستند كه به تفسير ثبات و هماهنگي در مجموعه داده ها كمك مي كنند. بنابراين ارزش تحليل عاملي اين است كه طرح سازماني مفيدي ارائه مي دهد كه مي توان آن را براي تفسير انبوهي از رفتار با بيشترين صرفه جويي در سازه هاي تبيين كننده، به كار برد.

اميد اين است كه تعداد كمي از اين عامل ها (يعني تركيب هاي خطي نمره هاي اصلي متغيرهاي مشاهده شده) بتواند تقريبا همه اطلاعاتي را كه توسط مجموعه بزرگتري از متغيرها به دست مي آيد در برگرفته در نتيجه توصيف ويژگي هاي فرد را ساده سازد. از اين گذشته اميدوار هستيم كه با توسعه صحيح عامل ها، متغيرهايي به وجود آوريم كه دلالت بر يك سازه روشن و با معناي روان شناختي داشته باشد به گونه اي كه توصيف ما از شخص نه فقط ساده تر، بلكه روشن تر و قاطع تر باشد. 


تحليل عاملي 1

تحلیل عاملی یکی از فنون پیشرفته امار چند متغیری است که در جهت دستیابی به بسیاری از هدفهای علمی و پژوهشی مانند مدلسازی ،فرضیه سازی،رواسازی تست ها،تشخیص پاره تست ها، وفراهم ساختن زمینه اجرای سایر روشهای پیشرفته اماری مانند رگرسیون چند متغیری و معادلات ساختاری به کار می رود.اما پیچیدگی و دشواری درک ،اجرا تفسیر نتایج تحلیل عاملی موجب شده است بسیاری از کاربران بدون اشنایی با منطق زیر بنایی ،محدودیتها ونیز دامنه کاربرد آن ،به اجرا و بکارگیری یافته های حاصل از ان بپردازند و بدین ترتیب زمینه ساز تفسیر های نامعتبر و ناروا ونیز تعمیم های نادرست از پدیده ها ومتغیرهای مورد مطالعه گردند. تحقیق حاضر، به معرفی این تکنیک، کاربردها و روشهای پیاده سازی آن می پردازد.

2.  مقدمه

نخستين كار درباره تحليل عاملي، توسط چارلز اسپيرمن (1940) صورت گرفت، كه به گونه كلي « پدر» اين روش شناخته شده است. بعد از او كارل پيرسن)1901(، روش «محورهاي اصلي» را پيشنهاد كرد و هتلينگ (1933) آن را به گونه كاملتري توسعه داد.

بسياري از كارهاي نخستين در تحليل عاملي، يعني در طول سال هاي 1900 تا 1930، به كاربرد مدل اسپيرمن در بسياري از مسايل عملي و بررسي شرايط مناسب براي استفاده از آن مدل اختصاص يافته است. در طول اين دوره، علاوه بر خود اسپيرمن، دانشمندان ديگري مانند سيريل برت، كارل هليزينگر، ترومن كلي، كارل پيرسن و گادفري تامسون، كمك هاي شاياني به ادبيات تحليل عاملي كرده اند. در اوايل سال 1930، آشكار شد كه مدل تك عاملي عمومي اسپيرمن براي توصيف روابط بين متغيرهاي يك مجموعه هميشه كافي نيست.

ترستون احتمالا برجسته ترين تحليلگر عاملي نوين بوده و نفوذ قابل ملاحظه اي در توسعه اين روش از سال هاي 1930 تا كنون داشته است. مسئوليت توسعه روش «سانتروئيد» با اوست كه در مقياس گسترده اي قبل از ظهور كامپيوترهاي پر سرعت به كار رفته است. او همچنين مسئول مفهوم ساختار ساده است كه توسط بيشتر تحليلگران به عنوان معرف يك راه حل تحليل عاملي ايده آل در نظر گرفته شده است.

كارهاي اوليه در تحليل عاملي  كه توسط دانشمندان ياد شده انجام گرفته ، بيشتر توجيه نظري دارد، هر چند هيچ يك از آن ها آماده براي آزمون هاي آماري فرضيه هاي خاص درباره ساختارهاي عاملي مجموعه هاي معيني از متغيرها نبوده است. اما، وقتي كامپيوترهاي پر سرعت در اختيار قرار گرفت در اواسط تا اواخر سال هاي 1950، حركتي از تئوري گرائي به سوي آنچه تحليل عاملي اكتشافي ناميده مي شود، به وجود آمد. اين حركت به گونه آشكار از طريق تئوري عامل مشترك ترستون تشويق، و از طريق فرمول بندي عمومي هتلينگ (1993)، درباره عمليات رياضي مولفه هاي اصلي كه قبل از آن به دليل محاسبات فوق العاده پيچيده و پرزحمت آن ، به كار نرفته بود تسهيل شد. چنين به نظر مي رسد كه در طول سال هاي 1950 و 1960، تقريبا هر كس، هر چيزي را تحليل عاملي مي كرده است، به اين اميد كه روابط پيچيده ظاهري بين متغيرهاي يك مجموعه را مي توان ساده كرد و به گونه ساده تري تفسير نمود (ليندمن و همكاران، 1980). در طول اين دوره همچنين تعداد روشهاي تحليل عاملي با ابداع تحليل تصوير (گاتمن، 1953)، تحليل عاملي بنيادي (رائو، 1955) و (هريس،1962)، تحليل عاملي آلفا (كيسر و كافري، 1965) و روش كمترين پس ماند (هامن و جونز، 1966)، به گونه قابل توجهي توسعه يافت. با اين وجود، روشهاي تحليل اكتشافي نتوانست آن گونه كه انتظار مي رفت، كمك موثري براي آزمون و پالايش تئوري روان شناختي باشد. 

مقاله هتلينگ (1933) درباره تحليل مولفه هاي اصلي نخستين كمك قابل توجه يك آماردان را به تحليل عاملي معرفي كرد، و اين وضعيت تا موقعي ادامه داشت كه مقاله لاولي (1940) درباره روش بيشينه احتمال (ML) منتشر شد. لاولي نشان داد كه تحليل عاملي مي تواند به عنوان يك تكنيك آماري جالب در بسياري از موقعيت هاي پژوهشي كاربرد داشته باشد. واكنش هاي له و عليه اين روشها نيز تا وقتي كه آزمون فرضيه هاي خاص درباره پارامترهاي مدل تحليل عاملي مورد توجه قرار گرفت (مثلا جارزكاگ، 1984)، همچنان ادامه داشت. هر چند كارهاي جارزكاگ اساسا مبتني بر روش ML لاولي بود، اما بسياري از مسايل محاسباتي و تفسيري را كه لاولي با آن مرتبط نبود، روشهاي باك و بارگمن (1966) و جارزكاگ (1984) به سبب تاكيد بر آزمون فرضيه، به عنوان روشهاي تحليل عاملي تاييدي طبقه بندي مي شود. هر چند توليد فرضيه هايي كه بايد آزمون شود اغلب دشوار است، اما اين روشها به وضوح بر تحليل عامل اكتشافي به سبب توسعه و آزمون تئوري مزيت دارد. البته براي تدوين چنين فرضيه هايي مي توان ابتدا تحليل عاملي اكتشافي را اجرا كرد و سپس اين فرضيه ها را از طريق تحليل عاملي تاييدي آزمود.


مدل فازي سوال پاسخ3

مدل سوال پاسخ فازي

روش هاي ساخت اعداد فازي با استفاده از FIRM براي اندازه گيري روانشناختي به صورت زير است: 

گام اول: از افراد خواسته مي شود تا درصدهاي مد نظر خود را در هر گزينه وارد كنند. مسلم است كه مجموع درصد ها در هر گزينه بايد 100 شود. 

گام دوم: با توجه به روش هاي اشاره شده در بالا، نمره دهي سنتي محاسبه مي شود. 

گام سوم: پارامتر گام محاسبه مي شود. 

گام چهارم: داده هاي قطعي بدست آمده به داده هاي فازي تبديل مي شوند. روش فازي سازي داده ها استفاده از تابع عضويت مثلثي است.

گزينه هاي ليكرتي موجود مي توانند به اعداد نرمال فازي تبديل شوند. اين گزينه ها ماهيتا زباني اند كه توابع عضويت مثلثي دارند. اين توابع عضويت در زير نشان داده شده اند:

 

در اين شكل ابتدا پارامترهاي گام محاسبه مي شوند. اين پارامترها از طريق مدل PCM محاسبه مي شوند. ما در نظر مي گيريم افرادي كه در حوزه ي توانايي منفي 3 تا يك قرار گرفته اند، گزينه ي يك را انتخاب خواهند كرد. بر اين اساس عدد فازي مثلثي   تشكيل مي شود كه در  آن كرانه ها عباتند از 3- و   و   بيشترين ارزش عضويت را دارا است. 

افرادي كه توانايي آنها در بين پارامتر مرحله ي اول و پارامتر مرحله ي دوم قرار گرفته است، گزينه ي دو را انتخاب خواهند كرد و نقطه ي مياني بين اين دو پارامتر بيشترين درجه ي عضويت را مي گيرند. بنابراين عدد فازي   داراي كرانه هاي   و   خواهد بود و بيشترين ارزش در نقطه ي مياني اين دو كرانه يعني در   قرار مي گيرد. از  به   خط بريده اي ترسيم مي شود تا سمت چپ و راست عدد فازي از يكديگر منفك شوند. 

به  طور مشابه ما   و  

را براي شكل بندي گزينه هاي 3 و 4 استفاده مي كنيم. در زير شكل مربوطه مشخص شده است:


مدل فازي سوال پاسخ2

ساخت اعداد فازي به وسيله ي FIRM

نظريه فازي بيان مي كند كه درجه ي عضويت در يك طبقه ي خاص يك ارزش پيوسته است كه به طور متناوب از صفر به سمت يك پيش مي رود، مي باشد نه اين كه مانند روش هاي كلاسيك تنها دو مقدار صفر يا يك را انتخاب كند. با توجه به اين موضوع در مدل فازي سوال پاسخ آزمودني ها در انتخاب بيش تر از يك گزينه در هر سوال آزاد اند و در عوض در هر گزينه ي انتخاب شده درصد قرار مي گيرد. درصد هاي وارد شده درجه ي عضويت را مشخص مي كنند كه بعضي از آزمودني ها به آن طبقه تعلق دارند. بعلاوه جمع درصدها بايد برابر 100 درصد شود. سرانجام اعداد فازي نرمال براي گزينه هاي 1 تا 4 (به عنوان مثال در يك مقياس ليكرت 4 تايي) ساخته بدست مي آيد. جدول زير جدولي است كه در آن مثال هايي از نمره دهي فازي و سنتي نشان داده شده  اند. 

 در نمره دهي سنتي گزينه اي كه بيشترين درصد را دار است معيار نمره دهي است. در اين روش اگر دو گزينه بيشترين درصد را به خود اختصاص داده باشد، در اين صورت گزينه ي پايين تر به عنوان گزينه ي اصلي در نظر گرفته مي شود. در روش نمره دهي فازي، مجموع اعداد فازي در عضويت آنها ضرب مي شود. از آنجا كه محاسبات مدل اعتبار پاره اي نيازمند اعداد قطعي است نتايج نمره دهي سنتي بعنوان داده هاي قطعي در مدل اعتبار جزئي استفاده مي شود. در حالي كه نتايج حاصل از روش فازي (اعداد فازي) براي تحليل هاي بعدي آماده مي شوند. 


مدل فازي سوال پاسخ1

مدل فازي سوال پاسخ: 
هدفي كه در اين ارائه دنبال مي شود، معرفي و شناسايي يك رويكرد جديد به نام مدل فازي سوال پاسخ(Fuzzy item response model) است. در اين رويكرد، نظريه ي سوال پاسخ با نظريه ي مجموعه هاي فازي تركيب مي شود. اين مدل مربوط به حوزه ي سنجش و اندازه گيري است. بعد از معرفي اين مدل مثالي از كاربردي شدن اين مدل توسط وو و چي يو زده مي شود و اين مثال توضيح داده مي شود.
در نظريه ي كلاسيك اندازه گيري روشي وجود دارد به نام"روش جمع متوالي(Successive Integral)" ، يا روش "نمرات خام". اين روش در حوزه ي نمره گذاري در اندازه گيري روانشناختي  مورد توجه است. در اين روش گزينه هاي مربوط به يك گزاره يا سوال داراي فواصل برابر در نظر گرفته مي شوند و پشت سرهم جمع بسته مي شوند. به عنوان مثال 1 و 2 و ... به گزينه هاي كاملا موافقم، موافقم و .... داده مي شود. اين روش بسيار ساده است و از روش هاي محبوب و فراگير در اندازه گيري روانشناسي قلمداد مي شود. اين روش مورد انتقادات زيادي قرار گرفته است. مفروضه ي برابري گزينه هاي مجاور، سوال برانگيز است. دوم اين كه مقياس رتبه دهي ماهيتا زباني است تا عددي. بنابراين كاربرد نظريه ي فازي در اين مورد پذيرفتني و قابل دفاع است و جايگزين بسيار شايسته اي براي روش نمرات خام محسوب مي شود. 
استفاده از تابع عضويت از اين جهت كه سبب كاربرد مجموعه هاي فازي در حوزه ي اندازه گيري علوم انساني مي شود، بسيار حائز اهميت است. در مهندسي و علوم روش هاي تعريف و ساخت تابع عضويت فراوان است. بعضي از اين روش ها عبارتند از روش هاي شهودي، انتقال احتمالات به فضاي امكان، هيستوگرام ها، نزديكترين همسايگي، شبكه هاي عصبي پسخوراند، خوشه بندي، تجزيه ي آميخته. با اين وجود در اندازه گيري روانشناختي روش هاي بكارگرفته شده و استخراج شده كم اند. بعضي از مطالعات رويكرد فازي را در كنار نظريه ي كلاسيك استفاده كرده اند و به مجموعه هاي پاياتر و صحيح تر از نمرات خام دست يافته اند. استفاده از اين رويكرد قوي در نظريه هاي صفت مكنون نيز به اندازه گيري و سنجش صحيح تر و درست تر نائل مي شود. در CTT نمرات خام پايه ي اصلي است. براي دستيابي به اندازه گيري معنادار، اندازه گيري بايد تك بعد، خطي، بدون تعبير و عيني باشد. نمره ي خام داراي اين ويژگي ها نيست. مشخص است كه IRT نسبت به نظريه كلاسيك ارجح است در اين رويكرد نياز به خطي بودن وجود ندارد و نمرات وابسته ي به نمونه سوالات يا نمونه افراد نيست. 
كاربرد مجموعه هاي فازي در يك مثال: مدل PCM يك مدل تك بعد براي سوالات چند بخشي است. اين مدل دشواري يك سري از طبقات كه به آنها گام مي گويند، را پامتري مي كند. يكي از ويژگي هاي اين روش اين است كه امكان تغيير گام در بين سوالات آن وجود دارد و اين ويژگي اي متمايز كننده ي براي آن محسوب مي شود. مدل PCM عضوي از خانواده ي مدل هاي خصيصه مكنون  راش محسوب مي شود كه داراي دو ويژگي عينيت خاص (Objective Specificity) در مقايسه ي سوالات و افراد و قدرت تفكيك پارامتر(Parameter separability) را دارا است. 
در اين ارائه مي خواهيم نحوه ي كاربرد نظريه ي فازي در مدل PCM را شرح داده تا از اين راه اعداد فازي بسازيم و اين اعداد فازي را در اندازه گيري روانشناسي به كار ببريم و يك مثال تجربي انجام شده را ذكر كنيم. 
براي درك بهتر بايد روش PCM توضيح داده شود و سپس نحوه ي ساخت اعداد فازي ذكر شود. 

مدل فازي سوال پاسخ1

مدل فازي سوال پاسخ: 
هدفي كه در اين ارائه دنبال مي شود، معرفي و شناسايي يك رويكرد جديد به نام مدل فازي سوال پاسخ(Fuzzy item response model) است. در اين رويكرد، نظريه ي سوال پاسخ با نظريه ي مجموعه هاي فازي تركيب مي شود. اين مدل مربوط به حوزه ي سنجش و اندازه گيري است. بعد از معرفي اين مدل مثالي از كاربردي شدن اين مدل توسط وو و چي يو زده مي شود و اين مثال توضيح داده مي شود.
در نظريه ي كلاسيك اندازه گيري روشي وجود دارد به نام"روش جمع متوالي(Successive Integral)" ، يا روش "نمرات خام". اين روش در حوزه ي نمره گذاري در اندازه گيري روانشناختي  مورد توجه است. در اين روش گزينه هاي مربوط به يك گزاره يا سوال داراي فواصل برابر در نظر گرفته مي شوند و پشت سرهم جمع بسته مي شوند. به عنوان مثال 1 و 2 و ... به گزينه هاي كاملا موافقم، موافقم و .... داده مي شود. اين روش بسيار ساده است و از روش هاي محبوب و فراگير در اندازه گيري روانشناسي قلمداد مي شود. اين روش مورد انتقادات زيادي قرار گرفته است. مفروضه ي برابري گزينه هاي مجاور، سوال برانگيز است. دوم اين كه مقياس رتبه دهي ماهيتا زباني است تا عددي. بنابراين كاربرد نظريه ي فازي در اين مورد پذيرفتني و قابل دفاع است و جايگزين بسيار شايسته اي براي روش نمرات خام محسوب مي شود. 
استفاده از تابع عضويت از اين جهت كه سبب كاربرد مجموعه هاي فازي در حوزه ي اندازه گيري علوم انساني مي شود، بسيار حائز اهميت است. در مهندسي و علوم روش هاي تعريف و ساخت تابع عضويت فراوان است. بعضي از اين روش ها عبارتند از روش هاي شهودي، انتقال احتمالات به فضاي امكان، هيستوگرام ها، نزديكترين همسايگي، شبكه هاي عصبي پسخوراند، خوشه بندي، تجزيه ي آميخته. با اين وجود در اندازه گيري روانشناختي روش هاي بكارگرفته شده و استخراج شده كم اند. بعضي از مطالعات رويكرد فازي را در كنار نظريه ي كلاسيك استفاده كرده اند و به مجموعه هاي پاياتر و صحيح تر از نمرات خام دست يافته اند. استفاده از اين رويكرد قوي در نظريه هاي صفت مكنون نيز به اندازه گيري و سنجش صحيح تر و درست تر نائل مي شود. در CTT نمرات خام پايه ي اصلي است. براي دستيابي به اندازه گيري معنادار، اندازه گيري بايد تك بعد، خطي، بدون تعبير و عيني باشد. نمره ي خام داراي اين ويژگي ها نيست. مشخص است كه IRT نسبت به نظريه كلاسيك ارجح است در اين رويكرد نياز به خطي بودن وجود ندارد و نمرات وابسته ي به نمونه سوالات يا نمونه افراد نيست. 
كاربرد مجموعه هاي فازي در يك مثال: مدل PCM يك مدل تك بعد براي سوالات چند بخشي است. اين مدل دشواري يك سري از طبقات كه به آنها گام مي گويند، را پامتري مي كند. يكي از ويژگي هاي اين روش اين است كه امكان تغيير گام در بين سوالات آن وجود دارد و اين ويژگي اي متمايز كننده ي براي آن محسوب مي شود. مدل PCM عضوي از خانواده ي مدل هاي خصيصه مكنون  راش محسوب مي شود كه داراي دو ويژگي عينيت خاص (Objective Specificity) در مقايسه ي سوالات و افراد و قدرت تفكيك پارامتر(Parameter separability) را دارا است. 
در اين ارائه مي خواهيم نحوه ي كاربرد نظريه ي فازي در مدل PCM را شرح داده تا از اين راه اعداد فازي بسازيم و اين اعداد فازي را در اندازه گيري روانشناسي به كار ببريم و يك مثال تجربي انجام شده را ذكر كنيم. 
براي درك بهتر بايد روش PCM توضيح داده شود و سپس نحوه ي ساخت اعداد فازي ذكر شود. 

مفهوم نظری و تجربی

مفهوم نظری و تجربی
مفهوم کلمه یا واژگانی است که معنایی را انتقال دهد. بنا براین به دسته ای از محرک ها می تواند اطلاق شود که ویژگی های مشترکی دارند. بنابراین زمانی که مفهومی مانند میز ارائه می شود به این معنی نیست که برای تمام محرک ها ویژگی های یکسانی در نظر گرفته می شود. مفهوم قابلیت جزئی شدن دارد. برای مثال با افزایش ویژگی ها بعضی از مفاهیم کلی اول فصل مشترک ثانوی پیدا می کنند. این کار می تواند آنقدر ادامه پیدا کند تا مفهوم به یک واحد تقلیل یابد. مفهوم نیازمند مصادیق است. مفاهیم به دو دسته ی کلی نظری و تجربی تقسیم می شوند. مفاهیم تجربی را مفاهیم ملموس نیز می گویند. ولی چیزی که مشخص است تمام مفاهیم ماهیتا مجردند چرا که از نمادهای بدوی و استنتاجی تشکیل شده اند که انتزاعی اند. اما در مورد مفاهیم ملموس مشاهده کنندگان در مورد آن توافق دارند. البته این تعمیم و توافق دارای درجات و در مورد تمام مفاهیم به یک اندازه نیست. زمانی که یک مفهوم ملموس را گسترش می دهند از تعریف استفاده می کنند. ولی زمانی که مفهوم نظری را گسترش می دهند از توضیح استفاده می کنند. مفاهیم نظری به عنوان وسایل تفکر استفاده می شوند در صورتی که مفاهیم تجربی ابزاری هستند که از طریق آنها برای آزمون تفکر از مشاهده استفاده می شود.
هویت یک مفهوم به سه طریق قابل شناسایی است. یا از طریق ویژگی های آن مانند رنگ و طول وغیره.
یا از طریق بیان ساخت آن یعنی چگونگی بوجود آمدن آن یا چیزهای بوجود آورنده ی آن.
یا از طریق قرار دادن عناصر و ترکیب آن با یکدیگر.
سوال این است که یک مفهوم نظری را تا چه میزان باید توضیح داد؟ پاسخ به این سوال وابسته به هدف یا اهداف پژوهشگر است که می خواهد مفهوم را به کار گیرد. در صورتی که توضیحات پیشین در مورد یک مفهوم مورد قبول پژوهشگر نباشد باید توضیح داده شود و آزمون شود.
مفاهیم تجربی را به دو طریق می توان تعریف کرد. یا از طریق تعریف اساسی و ساختاری. یعنی تعریف مفهوم با استفاده از واژگان و لغات دیگر یا تعریف مفهوم از طریق مفاهیم دیگر. و دومین روش تعریف عملیاتی یا کاربردی.

ارزش يابي آزمون نظري آزمون گواهينامة رانندگي بر اساس

ارزش يابي آزمون نظري آزمون گواهينامة رانندگي بر اساس
نظرية سؤال  پاسخ و مقايسة آن با نظرية كلاسيك آزمون
اسماعيل مام شريفي 1
علي دلاور 2
آزاده بلوكي 3
سميه شعباني 4
چكيده
زمينه: اين پژوهش با هدف بررسي ويژگي هاي روان سنجي سؤالات آزمون نظري آزمون گواهينامة رانندگي انجام و
اجرا شده است. نمونة مورد مطالعه را 350 نفر از پاسخ دهندگان آزمون تشكيل دادند كه به روش نمونه گيري خوشه
اي چند مرحله اي انتخاب شده بودند و تعداد 30 سؤال از سؤالات آزمون نظري آزمون گواهينامة رانندگي، كه به
روش تصادفي ساده استخراج شده بودند، به عنوان نمونه سوالات مورد بررسي قرار گرفتند. براي بررسي ويژگي هاي
روان سنجي سؤالات آزمون، از دو نظرية كلاسيك آزمون و سؤال - پاسخ استفاده گرديده و نتايج به دست آمده از
آنها با هم مقايسه و بررسي شده است. روش پژوهش توصيفي بوده و در مرحلة اول صحت نمونه گيري بررسي
گرديد. جهت تعيين تك بعدي بودن آزمون از روش آلفاي كرانباخ و تحليل عاملي استفاده شد. سپس تجزيه و تحليل
سؤالات آزمون با نظرية كلاسيك و نظرية سؤال - پاسخ انجام گرفت و پارامترهاي سؤال (دشواري، تشخيص و
حدس) و توانايي به دليل نامعلوم بودن به روش برآورد همزمان مورد انداز هگيري قرار گرفت.
يافته ها: نتايج، بيان كنندة تك بعدي بودن آزمون و استقلال موضعي آن است. پس از تعيين مفروضه هاي اصلي
برازش مدل - داده ها مورد بررسي قرار گرفت كه نتايج نشان داد مدل دو پارامتري برازش بهتري با ،IRT نظرية
وابسته مورد بررسي قرار T مجموعة داده ها دارد. در مرحلة بعد معناداري پارامترهاي سؤال و توانايي توسط آزمون
گرفت. نتايج نشان داد كه رابطة معناداري بين دقت برآورد پارامترهاي دشواري، شيب و توانايي در دو نظرية
كلاسيك و سؤال - پاسخ وجود ندارد. به منظور بررسي پايايي و ثبات نتايج آزمون در اجراي اول، بر روي نمونه اي
به حجم 30 نفر، بازآزمايي بعمل آمد. از آنجائيكه آزمون مورد نظر از نوع ملاك مرجع مي باشد، براي بررسي توافق
بين تصميم ها از ضريب پايايي كاپا استفاده شد. نتايج نشان داد كه رابطة معناداري بين اجراي اول و اجراي دوم وجود
دارد و آزمون مورد نظر از پايايي و ثبات كافي در اجراهاي مختلف برخوردار است.
بحث و نتيجه گيري: تحليل پارامترهاي سؤال و آزمودني ها، نشان دهندة سادگي آزمون و قدرت جداسازي
خوب توانايي آزمون شوندگان بوده و بر اين اساس مي توان نتيجه گرفت كه سؤالات آزمون براي آزمودني هايي با
توانايي پايين از مناسبت و دقت بيشتري برخوردار است. ميزان توانايي برآورد شده در نظرية سؤال - پاسخ در مقايسه با
نمرة آزمودني در نظرية كلاسيك به ميزان واقعي نزديك تر است. با توجه به توانايي هاي برآورد شده مي توان
سؤالات متناسب با توانايي آزمودني ها را انتخاب نمود و اين مي تواند به ايجاد بانك سؤال منجر شود.
واژگان كليدي: ارزش يابي، آزمون، آزمون گواهينامه رانندگي، نظرية سؤال - پاسخ، نظرية كلاسيك آزمون.
Esmaeil.sharifi@gmail.com ( 1. دانشجوي كارشناسي ارشد (نويسندة مسئول
2. استاد دانشگاه علامه طباطبائي
3. دانشجوي كارشناسي ارشد
4. دانشجوي كارشناسي ارشد
90/8/ تاريخ وصول: 3
91/2/ تاريخ پذيرش: 23
2 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
مقدمه
امروزه در بسياري از جوامع از سه عامل انسان، راه و وسيلة نقليه به عنوان تعيين كننده هاي
اصلي تصادفات نام برده مي شود كه در اين ميان عامل انساني نقش اصلي را به خود
اختصاص داده است. يعقوبي ( 1379 ) نيز در علت شناسي تصادف هاي رانندگي از 4 عامل
انساني، جاده، وسيلة نقليه و محيط نام مي برد كه در 90 تا 95 درصد تصادفات رانندگي در
ايران، عامل انساني را داراي نقش اصلي و اول در حوادث رانندگي دانسته است.
1 ميليون نفر در دنيا به علت تصادفات رانندگي جان خود را از دست / ساليانه بيش از 26
2004 )، و اغلب مرگ و ميرهاي ناشي از حوادث ، مي دهند ( پدين، اسكار فيلد و سليت 1
رانندگي، در كشورهاي با درآمد كم و متوسط و براي جوانان اتفاق م ي افتد (كوپيتز و
2005 ). سازمان بهداشت جهاني پيش بيني كرده است كه در سال 2020 ، مرگ و ، كروپر 2
.(2004 ، 2 ميليون نفر خواهد رسيد (رومانا 3 / مير ناشي از حوادث رانندگي به 34
بر اساس آمارها سالانه حدود 25 هزار نفر نيز در جاده هاي ايران كشته م ي شوند و
سوانح رانندگي پس از بيماري ها ي قلبي - عروقي، دومين عامل مرگ و مير در ايران
12 ميليون مصدوم و معلول، از پيامد هاي 7 سال / محسوب مي شود. 141 هزار كشته، 5
تصادفات در كشور است و خسارات جاني و مالي 7 سال تصادفات رانندگي در ايران ب ا
پيامد هاي يك جنگ يا چند زلزلة مهيب برابري م ي كند . موثق تر ين آمار تصادفات
رانندگي در كشور از كشته شدن 140 هزار و 933 نفر طي 7 سال گذشته (ابتداي 77 تا
انتهاي 83 ) حكايت دارد و اين در حالي است كه وقوع اين حوادث بيش از 12 ميليون
مصدوم و 500 هزار معلول مادام العمر بر جاي گذارده است. مرگ ناشي از تصادفات يك
ساله در كشور با تلفات انساني ناشي از زلزلة بم برابر بوده، اما چون اين حوادث ناگهاني
نيست چندان مشهود به نظر نمي رسد. با وجود اينكه ايران كمتر از يك صدم جمعيت جهان
1. Peden, Scufield, & Sleet
2. Kopits & Cropper
3. Romana
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 3
را دارد بيش از يك چهلم ( 3 درصد) از حوادث ترافيكي را به خود اختصاص داده است
.( (خبرگزاري فارس، 1385
2 درصد از كل تصادفات جاده اي در ايران اتفاق / بر اساس آمارهاي سازمان يونيسف 5
مي افتد و اين به آن معنا است كه آمار تصادفات جادهاي در ايران 20 برابر ديگر كشورهاي
جهان است. در واقع، ميزان كشته شدگان تصادفات جاده اي در دنيا، به ازاي هر ده هزار
خودرو 3 نفر بوده، در حالي كه در ايران به ازاي هر ده هزار خودرو حدود 33 نفر بوده است
(سوري و همكاران، 1388 ). آلمان كمتر از يك چهارم ايران مساحت دارد و تعداد
اتومبيل هايش بيش از 4 برابر ايران است. با اين همه شمار قربانيان حوادث رانندگي در ايران
بيش از 10 برابر آلمان است (بيمة ايران، 2008 ). همچنين انگلستان نيز با وجود 6 برابر بودن
.( تعداد وسايل نقليهاش، 32 باركمتر از ايران تلفات جادهاي دارد (سلماني و همكاران، 1387
در پيامدهاي ناشي از حوادث، پديدة كوه يخ، يك فرايند واقعي است. قلة كوه يخ كه
معمولاً مورد توجه قرار مي گيرد و به ظاهر كوچك است شامل موارد مرگ ناشي از
حوادث است، ولي بدنة عظيم اين كوه از بستري شدگان، آسيب ديدگان نيازمند خد مات
سرپايي و درمان هاي خانگي توأم با ناتوا ني ها ي گذرا يا ماندگار تشكيل شده است و
عواقب رواني، اجتماعي و اقتصادي حوادث نيز بر اين بزرگي مي افزايد.
پايين بودن سطح فرهنگ صحيح ترافيك و عدم توجه كافي به قوانين و مقررات و حقوق
سايرين و رعايت نشدن آيين نامة رانندگي، ناشي از ناكافي بودن آموزش نظري و عملي
رانندگي، قبل و بعد از صدور گواهينامه، موجب شده است آمار تصادفات رانندگي در ايران
شمار كشته ها و مجروحين ناشي از آن افزايش پيدا كرده و بالاترين رتبه را در بين ملل جهان
كسب كند و اين يعني مواجه شدن با پيامدهاي جبران ناپذير از دست رفتن سرماية انساني.
اگرچه در يك برنامه پيشگيرانة جامع براي كاهش تصادفات و تلفات، بايد به هر 4 عامل
انساني، جاده، وسيلة نقليه و محيط پرداخت (آيتي، 1371 ، نقل از يعقوبي، 1379 )، اما به نظر
مي رسد كه مداخله در عامل انساني (با توجه به نقش زياد آن در تصادفات رانندگي در ايران)
4 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
اثربخش تر باشد. چرا كه نتايج مطالعات انجام شده نيز نشان ميدهد كه مي توان از 98 درصد
حوادث پيشگيري نمود (عراقي و واحديان، 1384 ). مراد از عامل انساني عابرين، سرنشين ها،
رانندگان و عوامل رواني، رفتاري، فرهنگي و اجتماعي مؤثر بر آن ها مي باشد.
امروزه نقش آموزش در افزايش كارآيي، بهرهوري و توسعة اقتصادي كشورها بيش از
پيش اهميت يافته است، چرا كه در دنياي كنوني داشتن كارخانهها، زمين، ابزار و ماشين -
.( آلات سرمايه محسوب نمي شود، بلكه ثروت در منابع انساني نهفته است (خالدي، 1387
آموزش اين توانايي را دارد تا براي بهبود و پيشرفت كشورهاي كمتر توسعه يافته زمينة
لازم را فراهم سازد و سياست هاي لازم براي مقابله با اين بحران جهاني را اتخاذ نمايد
(لوئيز، 1990 ، نقل از سهرابي، 1384 ). بسياري از كشورهاي در حال توسعه دربارة مرگ و
مير در كشور خود اطلاعات محدو دي دارند (خي و وانگ 2004،1 ). با مطالعات
اپيدميولوژيك در علوم پزشكي، علوم اجتماعي و علوم رفتاري مي توان در جهت كاهش
حوادث و عواقب ناشي از آن ها گام برداشت، چرا كه آس يب ها ي ناشي از حوادث
.(2005 ، رانندگي يك مشكل بزرگ بهداشتي در دنيا به شمار مي آيد (پدن و تورويان 2
قاعدتاً زماني يك جامعه به كمال رسيده است كه آموزش به گونه اي صحيح در آن
انتقال يافته باشد و اين نيز نمي تواند محقق شود مگر با يك برنامه ريزي فراگير و مستمر به
منظور تدوين و آموزش اصول صحيح رانندگي براي سنين مختلف و با روش هاي متنوع و
مورد قبول (احمدي، 1385 ). به هنگام توجه به روند تكاملي كشورهاي توسعه يافته،
همواره شاهد ارتباط نزديك بين آموزش، پژوهش، ارزش يابي و رشد فناوري از يك سو و
پيشرفت اقتصادي و اجتماعي از سوي ديگر مي باشيم.
يكي از اين فعاليت ها در زمينة كاستن از رخدادهاي مرتبط با رانندگي، توجه وي ژه و
مجدد به آزمون نظري گواهينامة رانندگي از زواياي مختلف و مقايسة آن با ديگر كشورها
است كه مي تواند به عنوان اقدامي پيشگيرانه در جهت كاستن از رخداد حوادث رانندگي به
1. Chi & Wang
2. Peden & Toroyan
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 5
شمار آيد. آزمون نظري، آزمون استاندارد شده اي است كه براي تصميم گيري در مورد
رسيدن فرد به دانش نظري كافي و ساختن راننده اي ايمن و بي خطر از فرد طراحي شده
.(2004 ، است (ويبرگ 1
در حال حاضر آزمون نظري گواهينامة رانندگي در ايران شامل مجموعه اي از
پرسشنامه هاي 30 سؤالي است كه تعدادي از سؤالات آن به صورت تصويري و رنگي
مي باشد . هر سؤال داراي 4 گزينه است كه يكي از گزينه ها صحيح و بقيه انحرافي
مي باشند. زمان پاسخگويي به آزمون محدود، و 20 دقيقه مي باشد. با توجه به اينكه آزمون
از نوع ملاك مرجع و دو ارزشي است، ملاك قبولي در آن پاسخگويي صحيح به 26
86 ) مي باشد. / سؤال از 30 سؤال (نمرة برش 67
امروزه پس از گذشت چندين سال از برگزاري اين آزمون و فعاليت مراكز آموزشي
مربوطه در كشور، بايد پرسيد كه:
اين آزمون تا چه اندازه توانسته است به نيازهاي فرد و جامعه پاسخ دهند؟ 
آيا اين آزمون به اهداف طرح شدة اولية خود رسيده است؟ 
مواد (سؤالات) اين آزمون تا چه اندازه از معيارهاي روان سنجي و استاندارد هاي 
مربوطه برخوردارند؟
پاسخ به اين سؤال ها و سؤال هاي مشابه مستلزم استفاده از سازوكار ارزشيابي آزمون از
بعد روان سنجي است.
متوليان امر بايد به موازات گسترش آموزش هاي ترافيكي، به نتايج آنچه تاكنون در اين
زمينه هزينه شده، بپردازند. چرا كه با هزينه هاي بسياري كه براي اين آموزش ها صرف
مي شود ايجاد اصلاحات در آن ضروري به نظر مي رسد. اصلاحاتي كه مي توان از آن به
ياد كرد. « نوگرايي 2 » عنوان
يكي از مسائل كليدي، در دورنماي آزمون نظري گواهينامة رانندگي، بازسازي مداوم آن
1. Weberg
2 . modernization
6 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
از طريق فرايند ارزش يابي است. يك نظام آموزشي ايستا پاسخگوي ماهيت پوياي توسعه
نيست، چرا كه نيازها و اولويت هاي يك دهه، مسلماً با نيازهاي دهة بعد متفاوت است، گرچه
دانش و مهارت هاي بنيادين معيني ممكن است همچنان با اهميت باقي بمانند، با اين حال
مسائلي كه براي نسل گذشته مهم بوده، امروزه كاملاً بي اهميت است (حسيني، 1380 ). بر اين
1997 ) هم عقيده بود و اين گفته را تأييد كرد كه اگر نظام آموزشي ) اساس مي توان با پاتون 1
.( به سازوكار ارزشيابي مجهز باشد، نتايج مطلوب حاصل خواهد شد (نقل از بازرگان، 1386
بنابراين، ارزشيابي آزمون نظري گواهينامة رانندگي از اهميت حياتي برخوردار است.
در اين ميان علم روان سنجي به عنوان شاخه اي از روان شناسي كاربردي، در پي يافتن
شيوه هايي است كه به كمك آن بتواند صفات رواني انسان را به صورت كمي و مقايسه
پذير ارائه دهد و در اين راه اغلب از محاسبات آماري كه در خيلي از موارد بسيار پيچيده و
1982 ، ترجمة هومن، 1375 ). به نظر مي - ، پيشرفته نيز مي شود، سود مي جويد (ثرندايك 2
رسد كه فعلاً در ايران، جز درموارد استثنايي، ساختن آزمون محدود به تهية سؤال است و
كمتر كسي به خصوصيات علمي آزمون ها و سؤالات توجه دارد. اين عدم توجه به مباني
علمي آزمون سازي در سازمان هاي خارج از دانشگاه ها بيشتر نمايان است تا جايي كه
بعضي از اين سازمان ها در ظرف چند روز آزمون به خصوصي را آمادة اجرا م ي كنند كه
براي ساختن آن در كشوري مثل آمريكا، شايد يكي دو سال وقت لازم باشد (مگنوسون،
.( 1966 ، ترجمة براهني، 1370
استفاده كنندگان آزمون در انتخاب، اجرا، نمره گذاري يا تفسير يك آزمون بايد
هدف ها، راه هاي وصول به آن ها و نتايج احتمالي را بدانند. داشتن هدف هاي مطلوب كافي
نيست؛ استفاده كنندگان بايد روش هاي ضروري به حداكثر رساندن كارايي و به حداقل
رساندن عوامل نامطلوب را بدانند. شايستگي در استفاده از آزمون، تركيبي است از شناخت
اصول روان سنجي، اطلاع از موقعيت مشكل زا كه در آن آزمون انجام مي شود و مهارت
1. Patton
2. Thorndike
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 7
فني. اگر آزمون ها درست به كار برده شوند، ابزار مفيدي هستند؛ در غير اين صورت به
.( 1979 ، ترجمة دلاور، 1384 ، ابزار خطرناكي تبديل مي شوند (آلن و ين 1
نظريههاي آزمون در علم روان سنجي به دو مقوله تقسيم مي شوند: اول: نظرية كلاسيك
كه قدمت آن به مفهوم اسپيرمن 2 از نمرة مشاهده شده، كه شامل مؤلفه ها ي ،(CTT) آزمون
يا نظرية صفت مكنون كه در ،(IRT) حقيقي و خطا است مي رسد. دوم: نظرية سؤال  پاسخ
در جهت توسعه IRT حيطه و قلمرو آزمودن نقش مهمي را ايفا مي نمايد. مدل هاي مشتق از
و بسط آزمون ها، همتراز سازي نمرات آزمون ها ي غير موازي، بررسي تورش سؤال و
.(1982 ، گزارش نمرات مورد استفاده قرارمي گيرند ( همبلتون و واندرليندن 3
در واقع، يك آزمون مي تواند از زواياي مختلف مورد مطالعه واقع شده و سؤالا ت آن
از لحاظ دقت IRT نيز بر طبق نظريات متفاوت ارزش گذاري شود . مقايسة مدل ها ي
برآورد پارامترهاي مدل، مورد توجه محققان بسيار طي سال هاي اخير بوده است . يكي از
تحقيقات قابل توجه در زمينة بررسي آزمون نظري آزمون گواهينامة رانندگي، پژو هشي
است كه توسط ماري ويبرگ در سال 2004 و در دانشگاه يومي سوئد انجام گرفته است .
آزمون نظري گواهينامة رانندگي در سوئد شامل 65 سؤال چند گزينه اي ( 2 تا 6 گزين ه) و
80 درصد) است. نمونة مورد بررسي در اين پژوهش ) از نوع ملاك مرجع با نمرة برش 52
شامل 5404 نفر آزمون شونده بوده كه به 65 سؤال مذكور پاسخ داده اند. برآورد
پارامترهاي سؤال و توانايي از طريق روش بيشينة درست نمايي حاشيه اي صورت گرفته
است. هدف اين پژوهش ارزش يابي آزمون نظري گواهينامة رانندگي با استفاده از نظرية
سؤال  پاسخ و همچنين مقايسة مدل ها ي سه گانة اين نظريه با همديگر در برآورد
پارامترهاي آزمون مورد بررسي، بوده است. نتايج پژوهش وي نشان م ي دهد كه نظرية
سؤال  پاسخ ، ابعاد متفاوت و اطلاعات ارزشمندي به دست مي دهد . با مقايسه مدل ها ي
1. Allen & Yen
2. Spearman
3. Hambleton & Vanderlinden
8 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
يك، دو و سه پارامتري در برآورد پارامترها مشخص شده است كه مدل سه پارامتري به
برآورد دقيقتري در مقايسه با مدل هاي يك و دو پارامتري منجر شده است.
1983 )، با مقايسة اين مدل ها از طريق شبيه سازي كامپيوتري نشان ) همبلتون و كوك 1
دادند كه، مدل منطقي سه پارامتري نسبت به مدل هاي يك و دو پارامتري با آزمون هاي 20
سؤالي داراي قدرت بيشتري در برآورد جايگاه افراد در صفت مكنون و رتبه بندي
1993 ) با هدف مقايسة ) آزمودني ها براساس صفت مورد سنجش بوده است . رايد 2
و با استفاده از تحليل خرده آزمون هاي محاسبات عددي، تجسم فضايي سه IRT مدل هاي
بعدي، خزانة لغات و استدلال رياضي، نتيجه گرفت كه هر 4 خرده آزمون از لحا ظ سطح
دشواري سؤالات و قدرت تشخيص بين افراد در سطوح مختلف توانايي تفاوت داشته اند .
بنابراين مدل هاي يك و دو پارامتري از لحاظ برآورد پارامترها تفاوت معني دار نشان
داده اند. ليكن به دليل تأثير نداشتن عامل حدس در پاسخگويي به سؤالات، مدل ها ي دو و
سه پارامتري تفاوت معني داري در برآورد پارامترها نداشته اند.
نتايج مقايسة مدل هاي مختلف از نظر برآورد پارامترهاي سؤال و توانايي در پژوهش
برآوردهاي متفاوتي براي IRT فراهاني ( 1375 ) نشان داد كه، مدل كلاسيك و مدل ها ي
به و ي ژه IRT پارامترهاي سؤال بدست مي دهند و برآورد پارامترهاي سؤال بر پاية مدل ها ي
مدل سه پارامتري، دقيق تر از برآورد پارامترهاي سؤال بر اساس مدل كلاسيك و مدل ها ي
است. همچنين مقايسة مدل ها از نقطه نظر برآورد توانايي آزمود ني ها نشان داد IRT ساده تر
كه مدل سه پارامتري برآورد متفاوت و دقيقتري از مدل كلاسيك و حتي مدل هاي يك و
ارائه مي دهد. در پژوهش محمد زاده ( 1375 )، نيز مشخص شد كه IRT دو پارامتري
مشخصه هاي آماري سؤالات در مدل كلاسيك وابسته به نمونه بوده و برآورد توانايي
آزمودني هم، وابسته به سؤالات آزمون است، اما در مدل ها ي جديد اندازه گيري اين
برآوردها مستقل از هم مي باشند. مقايسة مدل ها از لحاظ ميزان دخالت پارامتر حدس، اعتبار
1. Cook
2. Reid
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 9
اندازهگيري و آگاهي دهندگي، برتري مدل هاي جديد اندازهگيري را نشان داده است.
نشان داد كه نظرية سؤال  پاسخ در IRT و CTT صالحي ( 1376 ) با مقايسة دو نظرية
مقايسه با نظرية كلاسيك توانمندتر و كارآمد تر بوده و با خطاي استاندارد اندازه گيري
كمتر، آگاهي دهندگي و دقت بيشتري پارامترهاي سؤال و توانايي را برآورد نموده است .
همچنين اين نظريه در سطوح بالاي توانايي داراي بيشترين ميزان آگاهي بوده است. يونسي
نيز ( 1385 ) با بررسي ويژگي هاي روان سنجي سؤالات آزمون هاي فراگير رشتة
روان شناسي بر اساس نظرية سؤال  پاسخ ، به اين نتيجه رسيد كه مدل دو پارامتري نسبت به
مدل سه پارامتري برازش بهتري با مجموعة داده ها داشته است و اين نشان دهندة كم اثر
بودن عامل حدس در پاسخگويي به سؤالات، تلقي شده است.
امروزه با مدرن شدن آموزش، ارزش يابي به عنوان يكي از مؤلفه ها ي آموزش مورد
استفاده قرار گرفته و نوآوري هايي در زمينة آن پديد آمده است. يكي از اين نوآور ي ها
مربوط به بكارگيري كامپيوتر در فرايند سنجش و ارزي ابي و آزمون متقاضيان گواهينامة
رانندگي در كشورهاي اروپايي مي باشد به طوريكه بسياري از مراكز آموزشي به برگزاري
آزمون هاي كامپيوتري اقدام مي كنند. يكي از مهم ترين كاربردهاي تجزيه و تحليل روان
سنجي سؤالات، ايجاد يك مجموعه (بانك) سؤال استاندارد از سؤالات موجود م ي باشد
كه اين خود مقدمه اي است براي ايجاد و گسترش آزمون هاي انطباقي كامپيوتري.
در ايران، آزمون گواهينامة رانندگي شامل يك آزمون نظر ي و يك آزمون عملي
است، كه در اين پژوهش بر آزمون نظري تأكيد شده است . در آزمون نظري گواهينامة
رانندگي از نسخه هاي ثابت و متعددي جهت آزمون استفاده مي شود. اما در ايران، تاكنون
تحقيقات منسجمي در ارتباط با ارزش يابي سؤالات اين آزمون صورت نگرفته و به همين
دليل و نيز اهميت اين آزمون ها در تأثيرگذاري بر پيشگيري از رخداد رانندگي از طريق
آموزش هاي قبل از صدور گواهينامة رانندگي، ضروري به نظر مي رسد تحقيقاتي انجام
گيرد تا ميزان دستيابي به اهداف از پيش تعيين شده در زمينة مؤلفه ها ي روان سنجي يك
10 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
آزمون استاندارد، مشخص گردد. بنابراين هدف از پژوهش حاضر ارزش يابي و بررسي
و (IRT) ويژگي هاي سؤالات آزمون نظري گواهينامة رانندگي طبق نظرية سؤال  پاسخ
با IRT در كنار بررسي برازش مدل ها ي ،(CTT) مقايسة آن با نظرية كلاسيك آزمون
مجموعه داده هاي آزمون بوده است.
روش
در پژوهش حاضر جامعه آماري مورد مطالعه، شامل كلية سؤالات ( 194 سؤال ) آزمون
نظري گواهينامة رانندگي در شهر تهران و در سال 1388 بوده است.
به منظور كسب اطلاعات دقيق در مورد جامعه، بررسي يكايك عناصر جامعه مطلوب
به نظر مي رسد. اما معمولاً اين كار غير ممكن يا غير عملي است. با توجه به اينكه، نظريه
هاي روان سنجي، نظريه هاي نمونه هاي بزرگ هستند. قانون كلي در اين مورد بزرگ ترين
اندازة ممكن را تصويب مي كند. رايت و استون براي مدل يك پارامتري حداقل حجم
نمونة آزمودني ها را 200 نفر ذكر كرده اند. بعضي از محققان هم براي مدل دو پارامتري
500 نفر و براي مدل سه پارامتري 1000 نفر را لازم دانسته اند تا به برآورد هاي نامتغير و
.(1993 ، نااريب از پارامترهاي مدل منجر نشود (همبلتون، جونز و راجرز 1
بنابراين با توجه به نتايج تحقيقات صورت گرفته، حجم نمونة سؤالات مور د بررسي،
تعداد 30 سؤال بوده كه به روش كاملاً تصادفي انتخاب گرديد. همچنين در اين پ ژوهش
به منظور انتخاب حجم نمونة آزمودنيها، با استفاده از روش نمونه گيري خوشه اي چ ند
مرحله اي، پاسخ هاي يك نمونة 350 نفري به آزمون محقق ساخته انتخاب شده است .
انتخاب حجم 30 سؤالي به دليل رعايت شكل صوري آزمون هاي برگزار شده توسط راهور
ناجا بوده است.
روش پژوهش نيز با توجه به اهداف پژوهش و بر حسب نحوة گردآوري داده ها ،
توصيفي بوده است.
1 . Hambleton, Jones & Rogers
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 11
SPSS جهت تجزيه و تحليل داده هاي جمع آوري شده، با استفاده از نرم افزارهاي
از بررسي هاي مرتبط با سنجش مؤلفه هاي روان سنجي آزمون، از قبيل؛ ،BILOG – MG و
ضريب دشواري، ضريب تمييز، واريانس سؤالات، ضريب هبستگي دو رشته اي نقطه اي
استفاده گرديد. تك بعدي بودن آزمون با محاسبة آلفاي كرونباخ و انجام تحليل عاملي
بررسي و سپس استقلال موضعي آزمون بدست آمد. با استفاده از آزمون خي دو (
 2 ) در
مورد برازش مدل با داده ها قضاوت شد و پس از اينكه معلوم شد كدام مدل بهترين برازش را
با داده هاي آزمون دارد، پارامترهاي برآورد شدة سؤال (دشواري، تشخيص و حدس ) و
توانايي آزمودني ها با استفاده از روش ها ي برآورد همزمان پ ارامترهاي سؤال و توانايي،
استخراج گرديد. سپس منحني ويژگي تمامي سؤالات براي رسم نمودارها، تابع آگاهي
سؤالات براي مقايسة تفاوت مدل ها، تابع آگاهي آزمون، منحني خطاي استاندارد آزمون و
منحني تواناييهاي آزمودنيها ترسيم گرديد. در ادامه، بيشينة آگاهي به همراه سط ح توانايي
سؤالات، بيشينة آگاهي آزمون و همچنين نقطه اي كه بيشينة آگاهي در آنها به وجود مي آيد،
محاسبه و نقطه اي كه بيشترين ميزان آگاهيدهندگي آزمون ها در آن دامنه قرار دارد و نيز
توزيع بيشينة آگاهي و خطاي استاندارد توانايي آزمون نيز آورده شد.
2 با PL و مدل CTT در مرحلة بعد همبستگي بين پارامترهاي دشواري و تمييز در مدل
استفاده از ضريب همبستگي پيرسون محاسبه و در ادامه به منظور بررسي معناداري
وابسته T پارامترهاي سؤال و توانايي در نظرية كلاسيك و سؤال  پاسخ از آزمون معناداري
استفاده گرديد.
همچنين به منظور بررسي پايايي و ثبات نتايج آزمون نظري گواهينامة رانندگي در اجراي
اول، مجدداً اين آزمون با همان شرايط اوليه، پس از يك هفته سپري شدن از اجراي اول، بر
روي 30 نفر از همان نمونة اوليه اجرا گرديد. از آنجائيكه آزمون مورد نظر از نوع ملاك
مرجع مي باشد، جهت بررسي توافق بين تصميم ها از ضريب پايايي به روش كاپا استفاده شد.
داده هاي اوليه و اصلي جهت استفاده در تجزيه و تحليل سؤالات آزمون نظري
12 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
گواهينامه رانندگي، پاسخ هاي اولية كلية شركت كنند گان به آزمون مذكور در مراكز
آموزش و آزمون گيري مي باشد كه در مراحل مختلف جمع آوري شده است . جهت
انتخاب سؤالات پرسشنامه، از كتاب "آموزش جامع قوانين و مقررات راهنمايي و
رانندگي" (از انتشارات معاونت راهور ناجا و منبع اصلي آزمون نظري). استفاده گرديد. آن
شامل 10 بخش محتوايي با سؤالات اختصاصي در هر بخش بوده و در مجموع 194 سؤال
را در بر مي گيرد. در مرحلة اول از ميان اين سؤالات، 30 سؤال به شيوة كاملاً تصادفي و با
در نظر داشتن ميزان نسبت در هر بخش محتوايي، انتخاب شد . از ميان سؤالات انتخابي
تعدادي سؤال تصويري و رنگي نيز در نظر گرفته شد. در انتها گزينه هاي انحرافي و گزينة
صحيح سؤالات به شيوة تصادفي براي سؤالات آزمون در نظر گرفته شد.
يافته ها
34 درصد بقيه زن / 65 درصد افراد مرد و 3 / در ميان حجم نمونة ( 350 نفر) مورد بررسي 7
24/ بوده اند، كه ميانگين و انحراف استاندارد نمرات افراد در آزمون نظري برگزار شده، 55
4 بوده و با توجه به ملاك قبولي در آزمون (كسب نمرة 26 از 30 ) تعداد 169 نفر قبول / و 4
48/28 درصد) و 181 نفر مردود شده اند. اين نشان مي دهد بيش از نصف افراد گروه، به )
.( ملاك مورد نظر، جهت قبولي در آزمون نرسيده اند (نمودار 1
5 10 15 20 25 30 35
Frequency
40
30
20
10
0
36
39 39
36
19
22
30
22 21
25
17
15
2
9
6
4
1
2 2 3
Mean =24.55
Std. Dev. =4.395
N =350
SCORE
نمودار 1 . منحني توزيع فراواني نمرات آزمون گواهينامة رانندگي
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 13
در مرحلة اول، جهت تجزيه و تحليل سؤالات آزمون بر طبق نظرية كلاسيك آزمون،
درجة دشواري، ضريب تميز و انحراف استاندارد سؤالات محاسبه گرديد كه نتايج آن در
جدول 1 ارائه گرديده است.
(CTT) جدول 1- پارامترهاي سؤالات آزمون گواهينامة رانندگي بر اساس نظرية كلاسيك
سئوال
ضريب دشواري
(P)
ضريب تميز
) (rpbis
انحراف
استاندارد
سئوال
ضريب دشواري
(P)
ضريب تمييز
) (rpbis
انحراف
استاندارد
. /50 . /24 . /55 16 . /17 . /23 . /97 1
. /38 . /35 . /82 17 . /45 . /39 . /71 2
. /24 . /28 . /93 18 . /31 . /29 . /89 3
. /32 . /35 . /88 19 . /35 . /31 . /86 4
. /42 . /39 . /77 20 . /23 . /17 . /94 5
. /43 . /38 . /74 21 . /47 . /33 . /66 6
. /45 . /51 . /72 22 . /22 . /37 . /94 7
. /49 . /32 . /58 23 . /24 . /39 . /94 8
. /27 . /21 . /92 24 . /38 . /44 . /82 9
. /47 . /42 . /66 25 . /20 . /33 . /95 10
. /36 . /29 . /85 26 . /41 . /4 . /78 11
. /38 . /37 . /82 27 . /25 . /4 . /93 12
. /50 . /30 . /52 28 . /27 . /32 . /92 13
. /45 . /28 . /72 29 . /41 . /37 . /79 14
. /22 . /17 . /95 30 . /28 . /32 . /91 15
0 (سؤال / سؤالات آزمون بين 52 (P) نتايج نشان مي دهد كه؛ دامنة ضريب دشواري
،16 ، 0 (سؤال 1) در نوسان بوده است. بنابراين بر اساس اين نتايج، سؤالات 6 / 28 ) و 97
25 و 28 سؤالات مناسبي محسوب شده و بقية سؤالات نيز به دليل ضرايب دشواري ،23
بالا، سؤالات آساني محسوب م ي شوند . ميانگين و انحراف استاندارد پارامتر دشواري
0 است كه در مجموع نشاندهندة آسان بودن كل آزمون م ي باشد . / 0 و 12 / سؤالات 81
( 0 (سؤال 22 / 0 (سؤالات 5 و 30 ) و 51 / سؤالات آزمون بين 17 (rpbis) دامنة ضريب تمييز
29 و 30 كه دار اي ،26 ،24 ،18 ،16 ،5 ،3 ، در نوسان بوده است . به استثناي سؤالات 1
( 0 / ضرايب تمييز پاييني مي باشند، بقية سؤالات از ضرايب تمييز نسبتاً خوبي (بالاتر از 3
14 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
0 است كه / 0 و 08 / برخوردارند. ميانگين و انحراف استاندارد پارامتر تمييز سؤالات 33
نشاندهندة قدرت تمييز نسبتاً مناسب كل آزمون در جداسازي افراد قوي و ضعيف
مي باشد. بر طبق نتايج جدول بالا، ارتباط خاصي ميان سؤالات با ضرايب دشواري بالا و
پايين مشاهده نمي شود.
ابتدا ،(IRT) در مرحلة بعد جهت انجام تحليل سؤالات با استفاده از نظرية سؤال  پاسخ
يعني مفروضه هاي تك بعدي بودن و استقلال ، IRT مفروضه هاي اساسي و اولية نظرية
موضعي بررسي گرديد. مفروضة اول با استفاده از ضريب پايايي و تحليل عاملي مورد
بررسي قرار گرفت.
براي بررسي پايايي سؤالات آزمون به روش لوپ، ابتدا ضريب پايايي كلية سؤالات و
ميزان پايايي تك تك سؤالات تعيين گرديد. سپس با استفاده از فرمول آلفاي كرانباخ
بدست آمد، كه نشاندهندة همساني دروني بالاي α = . / ضريب پايايي كل آزمون 82
سؤالات آزمون مي باشد.
قبل از انجام تحليل عاملي بايد از اعتبار داده ها اطمينان داشته باشيم، براي اين منظور از
كه روشي براي بررسي صحت نمونه گيري (KMO) آزمون كايزر - ميجر - الكين
.( مي باشد، استفاده شده است (جدول 2
و آزمون كرويت بارتلت KMO جدول 2. اندازة
0 /767 (KMO) اندازة كفايت نمونهگيري كايزر- ميجر- الكين
آزمون كرويت بارتلت
1510/ مجذور كاي تقريبي 824
درجات آزادي 435
0 / سطح معناداري 001
برابر 789 / . بوده كه نشان دهندة كفايت نسبتاً بالاي KMO با توجه به جدول 2، مقدار
نمونه گيري و تناسب داده ها براي تحليل عاملي است، و از آنجايي كه داده هاي بالاتر از
بدست آمده رضايت بخش است . KMO 0/7 براي تحليل مناسب هستند، لذا مقدار
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 15
0، با درجات آزادي 435 و با مقدار مجذور / همچنين آزمون كرويت بارتلت در سطح 001
1510 معنادار بوده است و مي توان گفت كه داده ها براي اجراي تحليل عاملي از / كاي 824
تناسب قابل قبولي برخوردار بوده و نتايج تحليل عاملي قابل اعتماد مي باشد.
با توجه به نتايج بدست آمده، داده ها براي آزمون تحليل عاملي از تناسب برخوردار
بوده، و ماتريس همبستگي حاصل از تحليل عاملي نشان م ي دهد كه، عامل اول با ارزش
17 درصد واريانس عامل ها را تبيين كرده است . (سه / 5/21 حدود 36 (P-Value) ويژه
5 درصد واريانس). اين عامل غالب توسط نمودار / 1 و 57 / برابر عامل دوم با ارزش ويژه 67
اسكري (نمودار 2) بدست آمده نيز تأييد شده است.
Component Number
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
Eigenvalue
6
5
4
3
2
1
0
نمودار 2. منحني اسكري آزمون نظري گواهينامة رانندگي
بنابراين، مي توان نتيجه گرفت كه آزمون گواهينامة رانندگي تك بعدي بوده و يك
عامل غالب، عملكرد افراد را در آزمون تبيين مي كند. چنانچه فرض تك بعدي بودن برقرار
.( باشد، مفروضة استقلال موضعي نيز برقرار است (همبلتون، 1989
پس از اثبات تك بعدي بودن و استقلال موضعي آزمون (نمودار 2)، كه از پيش
است ،(IRT) فرض هاي مهم تجزيه و تحليل سؤالات آزمون بر طبق نظرية سؤال  پاسخ
(همبلتون و سواميناتان، 1985 ؛ نقل از ويبرگ، 2004 )، ضرايب د شواري، شيب، حدس،
نوعي آزمون مجذور خي به همراه سطح احتمال مربوطه، براي مدل ها ي يك، دو و سه
4 و 5 آورده شده است. ، پارامتري محاسبه گرديد كه نتايج آن در جداول 3
16 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
1) بر اساس PL) جدول 3. مقادير پارامترهاي تعدادي از سؤالات آزمون در مدل يك پارامتري
IRT نظرية
(p) معناداري χ خي دو 2 (b) سؤال دشواري
0/61 1 -3/49 1
*0/001 18/5 -0/24 16
*0/001 16/9 -1/03 22
-1/ ميانگين 82
-2 Log Likelihood =7982/8283
0/ انحراف استاندارد 93
0/ * عدم برازش سؤال با مدل در سطح 01
3) بر اساس PL) جدول 4. مقادير پارامترهاي تعدادي از سؤالات آزمون در مدل سه پارامتري
IRT نظرية
سئوال
دشواري
(b)
شيب
(a)
حدس
(c)
خي دو
χ2
معناداري
(p)
. /3 6 . /5 1/41 -. /65 4
. /41 5 . /5 . /59 -2/35 5
. /49 5/5 . /35 1/38 . /02 25
0/45 1/35 - . / ميانگين 76
-2 Log Likelihood =7865/ انحراف 2979
استاندارد
. /05 . /78 . /91
IRT 2) بر اساس نظرية PL) جدول 15 . مقادير پارامترهاي آزمون در مدل دو پارامتري
سئوال دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
سئوال (p) دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
(p)
. /49 7/6 . /4 -0/36 16 . /46 1/6 1 -2/7 1
. /54 5 . /79 -1/53 17 . /71 4/5 . /75 -0/96 2
. /98 . /4 0/94 -2/24 18 . /08 8/1 . /84 -1/95 3
. /91 1/5 0/87 -1/82 19 . /27 5/1 . /78 -1/76 4
. /43 7 . /8 -1/22 20 . /21 5/9 . /57 -3/26 5
. /62 5/3 0/76 -1/12 21 . /96 2/5 0/61 -0/79 6
. /93 1/8 1/17 -0/82 22 . /2 4/6 1/4 - 1/97 7
1. به دليل برازش يافتن مدل 2 پارامتري با مجموعة داده هاي آزمون، نتايج مقادير پارامترهاي آزمون در اين مدل به صورت كامل
آورده شده است.
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 17
سئوال دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
سئوال (p) دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
(p)
. /51 7/2 . /52 -0/49 23 . /95 . /3 1/59 -1/79 8
. /66 3/3 . /65 -2/63 24 . /98 . /7 1/07 - 1/28 9
. /87 3/1 . /8 -0/71 25 . /96 0/3 1/45 -2/03 10
. /46 5/6 . /64 -1/93 26 . /91 2/6 0/83 -1/25 11
. /76 2/6 . /87 -1/46 27 . /29 2/4 1/57 - 1/73 12
. /05 15 . /52 -0/12 28 . /28 5 . /96 -2/06 13
. /06 13/3 . /55 -1/19 29 . /76 3/4 . /77 -1/34 14
. /97 0/5 . /63 -3/19 30 . /98 0/4 . /99 -1/95 15
-2 Log Likelihood = 7889/2777
با توجه به نتايج بدست آمده، سؤالات 16 و 22 با مدل يك پارامتري برازش ندارند، اما
χ بقية سؤالات، با مدل هاي دو و سه پارامتري داراي برازش هستند. سطح معناداري مقادير 2
سئوالات نيز نشان مي دهد كه تمام سؤالات با مدل ها ي دو و سه پارامتري برازش دارند
بنابراين مي توان نتيجه گرفت كه مدل هاي دو و سه پارامتري برآورد دقيق تري .(P> 0/05)
از پارامترهاي سؤال، نسبت به مدل يك پارامتري بدست مي دهند.
اما جهت تعيين برازش مدل- داده ها 1 و اينكه كداميك از مدل ها ي يك، دو و سه
در  2loglikelihood پارامتري با اين مجموعه از داده ها برازش بهتري دارند، از مقدار
آخرين چرخش و آزمون خي دو براي مقايسة آنها به صورت زير استفاده گرديد:
براي مدل هاي يك و دو پارامتري و تعيين اينكه كداميك برازش بهتري با اين مجموعه
از داده ها دارد، نتيجة زير بدست آمد:
2 ( 2log 1 ) ( 2log 2 )
   likelihood L   likelihood L
= (7982/8283 - 7889/2777) = 93/5506 χ2
0 به / 0 و 01 / جدول در سطح 05 χ با توجه به اينكه درجه آزادي آزمون 30 مي باشد، 2
جدول در هر دو χ محاسبه شده از 2 χ 43 مي باشد و چون قدر مطلق 2 / 50 و 77 / ترتيب 89
1 . Model – Data Fit
18 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
سطح 95 و 99 درصد اطمينان بزرگ تر است، بنابراين فرض صفر رد مي شود و نتيجه گرفته
مي شود كه مدل دو پارامتري نسبت به مدل يك پارامتري برازش بهتري با اين مج موعه از
داده ها دارد.
براي مدل هاي دو و سه پارامتري و تعيين اينكه كداميك برازش بهتري با اين مجموعه
از داده ها دارد، نتيجة زير بدست آمد:
2 ( 2log 2 ) ( 2log 3 )
   likelihood L   likelihood L
= (7889/2777 – 7865/2979) = 23/9798 χ2
0 به / 0 و 01 / جدول در سطح 05 χ با توجه به اينكه درجة آزادي آزمون 30 مي باشد، 2
جدول در هر دو χ محاسبه شده از 2 χ 43 مي باشد. چون قدر مطلق 2 / 50 و 77 / ترتيب 89
سطح 95 و 99 درصد اطمينان كوچك تر است، بنابراين فرض صفر تأييد مي شود و نتيجه
گرفته مي شود كه مدل دو پارامتري نسبت به مدل سه پارامتري برازش بهتري با اين
مجموعه از داده ها دارد.
جدول، به لحاظ آماري بين برازش χ محاسبه شده از 2 χ البته به دليل كوچك تر بودن 2
مدل هاي دو و سه پارامتري تفاوت معناداري وجود ندارد، اما بنا بر اصل امساك (امبرتسون
2000 ؛ نقل از شريفي و همكاران، 1388 ) مدل دو پارامتري به دليل دارا بودن ، و رايس 1
پارامترهاي كمتر نسبت به مدل سه پارامتري، به عنوان مدلي كه بهترين برازش را با
مجموعة داده ها دارد، معرفي مي شود.
ها، نتيجه گرفته مي شود كه مدل دو χ بنابراين با توجه به نتايج بدست آمده از مقايسة 2
پارامتري نسبت به مدل هاي يك و سه پارامتري با داده هاي آزمون نظري آزمون گواهينامة
رانندگي برازش بهتري دارد.
آزمون گواهينامة (ICC) در نمودارهاي زير (نمودار 3) منحني هاي ويژگي سؤالات
رانندگي در مدل دو پارامتري آمده است. توجه كنيد كه سؤالات از سمت چپ به راست
شماره گذاري شده اند.
1. Embretson & Reise
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 19
1 - 6
7 - 12
13 - 18
19 - 24
25 - 30
آزمون گواهينامة رانندگي در مدل دو پارامتري (ICC) نمودار 3. منحني ويژگي سؤالات
با توجه به مقادير پارامترهاي سؤالات آزمون در مدل دو پارامتري (جدول 5)، و منحني
ويژگي سؤالات آزمون (نمودار 3)، براي آزمون گواهينامة رانندگي و در مدل دو پارامتري
25 و 28 كه داراي ضرا يب ،23 ،22 ،16 ،6 ، نتيجه مي گي ريم كه به استثناي سؤالات 2
دشواري متوسط مي باشند، بقية سؤالات آزمون داراي ضرايب دشواري منفي و پاييني بوده
و منحني ويژگي آنها به سمت چپ متمايل است و بنابراين سؤالات آساني محسوب
مي شوند. در اين ميان سؤال 5 آسان ترين سؤال است.
شيب تمام سؤالات نيز قابل قبول بوده و از قدرت تشخيص مناسب برخوردارند، تنها
سؤال 16 داراي شيب و قدرت تشخيص نسبتاً پايين و كمتر از 5/ . است . در اين ميان سؤال
12 از بالاترين شيب در بين سؤالات برخوردار است. همچنين بر اساس نتايج بدست آمده،
1 - و 77 / . است كه نشان دهندة / ميانگين و انحراف استاندارد پارامتر دشواري سؤالات 58
. / آسان بودن كل آزمون مي باشد. ميانگين و انحراف استاندارد پارامتر شيب سؤالات نيز 86
و 3/ . است كه نشاندهندة قدرت تمييز قابل قبول در جداسازي افراد قوي و ضعيف مي باشد.
در ادامه، بيشينة آگاهي سؤالات و سطوح توانايي مربوطه (جدول 6) و نيز منح ني
20 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
آگاهي و خطاي استاندارد آزمون گواهينامة رانندگي (نمودار 4) آورده شده است . بايد
توجه شود در نقاطي از منحني كه آگاهي به بالاترين حد مي رسد، خطاي استاندارد به صفر
ميل مي كند، در واقع با افزايش آگاهي آزمون، خطاي استاندارد كاهش مي يابد و بالعكس.
جدول 6 . بيشينة آگاهي و سطح توانايي تعدادي از سؤالات آزمون در مدل دو پارامتري
سؤال بيشينة آگاهي سطح توانايي سؤال بيشينة آگاهي سطح توانايي
-0/36 . /11 16 -2/7 . /73 1
-1/53 . /46 17 -0/96 . /4 2
-2/24 . /64 18 -1/95 . /51 3
-1/82 . /55 19 -1/76 . /44 4
-1/22 . /47 20 -3/26 . /23 5
-1/12 . /42 21 -0/79 . /27 6
-0/82 1 22 - 1/97 1/4 7
-0/49 . /19 23 -1/79 1/83 8
-2/63 . /31 24 - 1/28 . /82 9
-0/71 . /46 25 -2/03 1/53 10
-1/93 . /29 26 -1/25 . /5 11
-1/46 . /55 27 - 1/73 1/78 12
-0/12 . /19 28 -2/06 . /67 13
-1/19 . /22 29 -1/34 . /43 14
-3/19 . /28 30 -1/95 . /71 15
-3 -2 -1 0 1 2 3
0
5
10
15
20
Scale Score
I nformation
0
0.44
0.88
1.32
1.76
2.20
S tandard E rror
و خطاي استاندارد آزمون گواهينامة رانندگي در مدل دو پارامتري (TIF) نمودار 4. منحني تابع آگاهي
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 21
در منحني فوق خطوط پيوسته، منحني آگاهي، و خطوط نقطه چين، منحني خطاي
استاندارد آزمون گواهينامة رانندگي را نشان مي دهد. بيشتري ن ميزان آگاهي دهندگي در
1- است و اين بدان معني است كه اين آزمون براي افرادي كه داراي / 2- تا 4 / دامنة تتاي 2
اين سطوح از توانايي هستند بيشترين مناسبت و كاربرد را دارد . در واقع ميزان آگاهي
دهندگي آزمون در سطوح پايين توانايي، بالا مي باشد. بيشينة مقدار آگاهي آن نيز در سطح
15 مي باشد . از طرفي ميزان آگاهي دهندگي اين آزمون در / 1- و برابر 99 / توانايي 95
سطوح توانايي بالا، بسيار اندك است. توزيع بيشينة آگاهي و خطاي استاندارد نمودار 4، و
نيز توزيع فراواني و سطوح مختلف توانايي آزمودني ها، متعلق به نمودار 5 ، در جدول 7
آمده است.
جدول 7. توزيع بيشينة آگاهي و خطاي استاندارد توانايي آزمون گواهينامة رانندگي در مدل دو پارامتري
توانايي (تتا) فراواني بيشينة آگاهي خطاي استاندارد
1/04 8/44 0 -2/85
0 /64 11/3 2 -2/55
0 /36 14/2 4 -2/25
0 /23 15/99 1 -1/95
0 /25 15/7 12 -1/65
0 /4 13/77 33 -1/35
0 /63 11/36 16 -1/05
0 /94 9/08 26 -0/75
1/32 7/05 63 -0/45
1/8 5/34 25 -0/15
2/1 4/38 21 0/15
2/88 3/21 29 0/45
3/7 2/34 43 0/75
4/66 1/7 27 1/05
5/78 1/24 12 1/35
7/08 0 /91 36 1/65
8/58 0 /67 0 1/95
10/3 0 /49 0 2/25
12/26 0 /36 0 2/55
14/49 0 /27 0 2/85
22 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
-3 -2 -1 0 1 2 3
0
10
20
30
40
50
60
70
Ability
Frequency
نمودار 5. منحني توزيع توانايي آزمودني ها در آزمون گواهينامة رانندگي در مدل دو پارامتري
براي تعيين معناداري پارامترهاي سؤا ل و توانايي، در مرحلة اول ميانگين و انحراف
استاندارد اين پارامترها در مدل كلاسيك و مدل دو پارامتري بر اساس داده هاي بدست
.( آمدة اوليه (داده هاي خام) محاسبه گرديد (جدول 8
CTT و IRT جدول 8. مقايسة پارامترهاي سئوال و توانايي در آزمون گواهينامة رانندگي بر اساس نظرية
شاخص آماري
CTT IRT CTT IRT CTT IRT
توانايي (θ) توانايي (rpbis) تميز (a) تميز (P) دشواري (b) دشواري
. /0007 - . /005 . /33 . /86 . /82 -1 / ميانگين 58
. /99 1/01 . /07 . /3 . /13 . / انحراف استاندارد 77
--- . /49 - . / همبستگي پيرسون 9
2 با استفاده PL و مدل CTT سپس همبستگي بين پارامترهاي دشواري و تمييز در مدل
از ضريب همبستگي پيرسون محاسبه گرديد . ضرايب همبستگي بدست آمده به لحاظ
.( 0 معنادار هستند (جدول 8 / آماري در سطح 01
همچنين جهت سنجش تفاوت معناداري بين پارامترهاي سؤال در دو مدل، داده هاي
تبديل و از آن ها آزمون Z محاسبه شدة (داده هاي خام ) پارامترهاي سؤال، به نمرات
وابسته به عمل آمد. با توجه به نتايج بدست آمده (جدول 9) از مقايسة ميانگين T معناداري
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 23
بدست t پارامتر هاي دشواري، شيب و توانايي در دو مدل، نتيجه گرفته مي شود كه، مقادير
0 معنادار نبوده و بنابراين تفاوت معناداري بين دقت برآورد پارامترهاي / آمده در سطح 05
مذكور در دو نظرية كلاسيك و سؤال  پاسخ وجود ندارد.
و IRT جدو ل 9. مقايسة پارامترهاي سئوال و توانايي در آزمون گواهينامة رانندگي بر اساس نظرية
CTT
پارامترها شاخص
مدل ميانگين انحراف
استاندارد
Sig df T
1/05 . / دشواري كلاسيك 01
. /952 29 . / دو پارامتري 061 1 - . /01
. /97 . / تمييز كلاسيك 01
. /898 29 - . / دو پارامتري 129 1/03 . /03
. /99 . / توانايي كلاسيك 0007
. /963 349 . / دو پارامتري 047 1/01 - . /005
در انتها، به منظور بررسي پايايي و ثبات نتايج آزمون نظري گواهينامة رانندگي، مجدداً
آزمون مذكور با همان شرايط اوليه، پس از يك هفته سپري شدن از اجراي اول، بر روي
30 نفر از همان نمونة اوليه اجرا گرديد. از آنجائي كه آزمون مورد نظر از نوع ملاك مرجع
مي باشد، براي بررسي توافق بين تصميم ها از ضريب پايايي به روش كاپا استفاده شد . در
اين روش مقدار ضريب پايايي، نشان دهندة ميزان توافق تصم يم ها ي نمونة مورد نظر در
ارتباط با چگونگي پاسخگويي به سؤالات آزمون در دو بار اجراي آزمون است. نمرة حد
تسلط در اين آزمون كسب نمرة 26 در 30 سؤال مورد نظر است. در واقع مي توان گفت
86 مي باشد. / كه ملاك قبولي در آزمون و يا نقطة برش آزمون، 67
24 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
جدول 10 . طرح تعيين پايايي بر اساس توافق بين تصميم ها
آزمون اول
رسيده به حد تسلط نرسيده به حد تسلط
2 10
17 1
N = a + b + c + d
بر اساس داده هاي اخذ شده از اجراي دوم، مقدار ضريب كاپا برابر 79 / . بوده و با
در سطح 99 / . كمتر از 01 / . م ي باشد ، مي توان نتيجه P = (. / توجه به اينكه مقدار ( 001
گرفت كه رابطة معناداري بين اجراي اول و اجراي دوم در نمونة مورد نظر وجود دارد. اين
نتيجه نشان مي دهد كه آزمون مورد نظر از پايايي و ثبات كافي در اجراهاي مختلف
برخوردار بوده است.
بحث و نتيجه گيري
معمولاً در علت شناسي تصادف هاي رانندگي از 4 عامل انساني، جاده، وسيلة نقليه و محيط
نام برده مي شود. اما در 90 تا 95 درصد تصادفات رانندگي در ايران، عامل انساني نقش اصلي
1/ و اول را در حوادث رانندگي به عهده دارد (يعقوبي، 1379 ). با اينكه ساليانه بيش از 26
ميليون نفر در دنيا به علت تصادفات رانندگي جان خود را از دست م ي دهند (پدين، اسكار
فيلد و سليت، 2004 )، اما بسياري از كشورهاي در حال توسعه دربارة مرگ و مير در كشور
خود اطلاعات محدودي دارند (خي و وانگ، 2004 ). با مطالعات اپيدميولوژيك مي توان در
جهت كاهش حوادث و عواقب ناشي ازآنها گام برداشت، چرا كه آس يب ها ي ناشي از
.( حوادث رانندگي يك مشكل بزرگ بهداشتي در دنيا است (پدن و تورويان، 2005
رسيده به حد تسلط
آزمون دوم
نرسيده به حد تسلط
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 25
در واقع آموزش اين توانايي را دارد تا براي بهبود و پيشرفت كشورهاي كمتر توسعه يافته
زمينة لازم را فراهم سازد و سياست هاي لازم براي مقابله با اين بحران جهاني را اتخاذ نمايد (
لوئيز، 1990 ، نقل از سهرابي، 1384 ). نتايج مطالعات انجام شده نشان نيز مي دهد كه مي توان با
.( اقدامات پيشگيرانه از 98 درصد حوادث جلوگيري نمود (عراقي و واحديان، 1384
يكي از فعاليت ها در اين زمينه، توجه به آزمون هاي نظري گواهينامة رانندگي از زواياي
مختلف و مقايسة آن با ديگر كشورها است كه مي توان د به عنوان اقدامي پيشگيرانه در
كاهش رخداد حوادث رانندگي به شمار آيد. آزمون گواهينامة رانندگي در ايران شامل
يك آزمون نظري و يك آزمون عملي (شهري يا جاده ) است . آزمون نظري، آزمون
استاندارد شده اي است كه براي تصميم گيري در مورد رسيدن فرد به دانش نظري كافي و
ساختن راننده اي ايمن و بي خطر طراحي شده، و مي تواند از زواياي متفاوت مطالعه شده
.( و سؤالات آن نيز بر طبق نظريات مختلف ارزش گذاري شود (ويبرگ، 2004
هدف اين پژوهش، بررسي ويژگي هاي روان سنجي سؤالات آزمون نظري گواهينامة
در ايران (IRT) و نظرية سؤال  پاسخ (CTT ) رانندگي بر طبق نظرية كلاسيك آزمون
بوده است.
تحليل ويژگي روان سنجي سؤالات آزمون نظري گواهينامة رانندگي طبق نظرية
كلاسيك نشان داد كه، بيشتر سؤالات اين آزمون، سؤالات آساني محسوب شده و افرادي با
كمترين توانايي، قادر به پاسخگويي صحيح به تعدادي از سؤالات هستند . همچنين سؤالات
آسان داراي انحراف استاندارد و واريانس پاييني بوده و به واريانس كل آزمون كمك زيادي
نمي كنند و در واقع اطلاعات زيادي را دربارة تفاوت هاي آزمودني ها به ما نم ي دهند . بيشتر
سؤالات آزمون از ضرايب تمييز نسبتاً قابل قبولي برخوردارند. اين بدان معني است كه بيشتر
سؤالات آزمون قادر به جداسازي مناسب آزمودني هاي قوي و ضعيف مي باشند.
ضريب پايايي كل آزمون نيز نشان دهندة تجانس دروني نسبتاً بالاي سؤالات آزمون
مي باشد.
26 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
تحليل ويژگي هاي روان سنجي سؤالات آزمون نظري آزمون گواهينامة رانندگي طبق
نظرية سؤال  پاسخ نشان داد كه پس از برآورد پارامترها و با بررسي ميزان برازندگي
تك تك سؤالات با مدل هاي يك، دو و سه پارامتري، هيچ سؤالي وجود ندارد كه به
صورت همزمان با هر سه مدل برازش نداشته باشد . بنابراين هيچكدام از سؤالات حذف
نمي شوند. بررسي منحني ويژگي سؤالات نشان مي دهد كه بيشتر سؤالات آزمون داراي
ضرايب دشواري منفي و پاييني بوده و منحني ويژگي آنها به سمت چپ متمايل است و
بنابراين سؤالات آساني محسوب مي شوند. ميانگين و انحراف استاندارد پارامتر دشواري
1- و 77 / . است كه نشان دهندة آسان بودن كل آزمون مي باشد. شيب بيشتر / سؤالات 58
سؤالات آزمون قابل قبول بوده و از قدرت تشخيص مناسب در جداسازي آزمود ني ها ي
قوي و ضعيف برخوردارند. تنها سؤال 16 داراي شيب و قدرت تشخيص پايين و كمتر از
5/ . است. ميانگين و انحراف استاندارد پارامتر شيب سؤالات نيز 86 / . و 3/ . است كه
نشان دهندة قدرت تمييز قابل قبول در جداسازي افراد قوي و ضعيف مي باشد.
در مجموع مي توان نتيجه گرفت كه بيشتر سؤالات آزمون داراي ضرايب دشواري
پايين و ضرايب تمييز قابل قبولي مي باشند.
بررسي منحني آگاهي دهندگي نشان مي دهد كه بيشترين ميزان آگاهي دهندگي اين
1- بوده و بيشينة مقدار آگاهي آن نيز در سطح توانايي / 2- تا 4 / آزمون در دامنة توانايي 2
15 مي باشد. اين بدان معني است كه اين آزمون در سطوح پايين تتا / -1/95 و برابر 99
(توانايي) از آگاهي دهندگي بالايي برخوردار بوده و براي آزمودني هايي با توانايي پايين
-1/ 1، در سطح توانايي 79 / مناسب مي باشد . در اين ميان سؤال 8 با بيشينة آگاهي 83
بيشترين ميزان آگاهي دهندگي را در اين مجموعه از سؤالات به خود اختصاص داده است.
همچنين منحني توزيع توانايي آزمود ني ها نشان م ي دهد كه بيشتر ين فراواني آزمون
شوندگان با 63 نفر متعلق به سطح توانايي 45 / .- مي باشد.
تحليل ويژگي هاي روان سنجي سؤالات آزمون نظري گواهينامة رانندگي طبق نظرية
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 27
سؤال  پاسخ نشان داد كه اين آزمون تك بعدي مي باشد. اين نتيجه با تحليل عاملي سؤالات
آزمون بدست آمد. اثبات تك بعدي بودن آزمون به اين معنا است كه مفروضة استقلال
موضعي نيز برقرار است. در مرحلة بعد پارامترهاي سؤال و توانايي در مدل هاي يك، دو و سه
پارامتري بدست آمد. به منظور مقايسة مدل ها در برازش با داده هاي آزمون، از آزمون خي
دو استفاده گرديد. نتايج نشان داد كه مدل دو پارامتري نسبت به مدل هاي يك و سه پارامتري
برازش بهتري با داده هاي آزمون دارد. اين بدان معني است كه عامل حدس در پاسخگويي
آزمودني ها به سؤالات نقش زيادي نداشته است. همچنين با توجه به اطلاعات بدست آمده،
سؤالات 16 و 22 با مدل يك پارامتري برازش ندارند. اما تمام سؤالات با مدل ها ي دو و سه
پارامتري داراي برازش هستند. بنابراين مي توان با توجه به برازش تمام سؤالات آزمون، با
مدل هاي دو و سه پارامتري، نتيجه گرفت كه مدل هاي دو و سه پارامتري برآورد دقيق تر ي از
پارامترهاي سؤال نسبت به مدل يك پارامتري بدست مي دهد.
نتايج اين پژوهش از لحاظ تفاوت در دقت برآورد پارامترهاي سؤال و توانايي به روش
سؤال  پاسخ نسبت به روش كلاسيك، نشان م ي دهد كه، برآورد پارامترهاي سؤال و
توانايي به روش سؤال  پاسخ از واريانس و دامنة وس يع تر ي نسبت به روش كلاسيك
برخوردار بوده و برخلاف مدل كلاسيك، قاد ر به برآورد پارامترهاي سؤال و توانايي
تلقي CTT مستقل از همديگر مي باشد. به بيان ديگر آنچه به عنوان نقطة ضعف در نظرية
، مي شود، وابستگي پارامترهاي آن به نمونة مورد بررسي است (همبلتون و سواميناتان 1
ويژگي و ،IRT 2000 ). در واقع ثبات و استقلال پارامترها در نظرية ، 1985 ، نقل از استيج 2
1980 ، نقل از استيج، 2000 ). در اين رابطه ، مزيت مهم اين نظريه به شمار مي رود (لرد 3
IRT و CTT 2010 )، نيز نشان دادند كه اگرچه هر دو نظرية ) شاركنس و دي آنجلو 4
مي توانند در به دست آوردن اطلاعات يكسان در مورد مقدار سئوالات آزمون در رابطه با
1 . Hambleton & Swaminathan
2 . Stage
3 . Lord
4 . Sharkness & DeAngelo
28 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
صفت مكنون اندازه گيري شده، مفيد باشند، اما اين دو نظريه اندازه هاي متفاوتي از دقت
آزمون بدست مي دهند.
به منظور مقايسه و تعيين معناداري پارامترهاي سؤال و توانا يي در آزمون گواهينامة
رانندگي، در مرحلة اول ميانگين و انحراف استاندارد پارامترهاي دشواري، شيب و توانايي
در دو مدل كلاسيك و دو پارامتري بر اساس داده هاي بدست آمدة اوليه (داده هاي خام )
و مدل CTT محاسبه گرديد. سپس همبستگي بين پارامترهاي دشواري و تميز در مدل
2 با استفاده از ضريب همبستگي پيرسون محاسبه گرديد، كه ضرايب همبستگي بدست PL
0 معنادار بودند. در مرحلة بعد، داده هاي محاسبه شده / آمده به لحاظ آماري در سطح 01
تبديل و از آن ها Z (داده هاي خام) براي پارامترهاي سؤال و توانايي در دو مدل، به نمرات
محاسبه شده از مقايسة دو ميانگين و T وابسته به عمل آمد. با توجه به T آزمون معناداري
مندرج در جدول در سطح 95 / . ، نتيجه گرفته مي شود كه تفاوت معناداري بين دقت T
برآورد پارامترهاي دشواري، شيب و توانايي در دو نظرية كلاسيك و سؤال  پاسخ وجود
ندارد. با مقايسة نتايج متفاوت معنادار ي ها ي بدست آمده توسط آزمون ها ي رابطه
وابسته) مي توان نتيجه گرفت كه نظريه هاي كلاسيك و سؤال  T) (پيرسون) و تفاوت
پاسخ داراي رابطة معناداري بوده و هر دو نظريه از ميزان دقت تقريباً مشابه و يكساني در
برآورد پارامترهاي سؤال و توانايي برخوردارند و در واقع تفاوت معناداري بين دو نظريه در
برآورد پارامترها وجود ندارد.
پژوهش هاي انجام ،CTT بر IRT امروزه، با وجود مزيت هاي نظري شناخته شدة نظرية
يافته از طريق بررسي ويژگي هاي تجربي نيز به نتايج مشابه، متغير و بعضاً متناقضي منتهي
شده است.
به CTT و IRT بچگار 1 و همكاران ( 2003 ) در مطالعة خود با استفاده از نظريه هاي
اين نتيجه رسيدند كه؛ نظرية سئوال - پاسخ حالت گسترش يافتة نظرية كلاسيك است، و
1 . Bechger
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 29
مفاهيم هر دو نظريه به هم وابسته هستند. با اين حال ثابت شده است كه نظرية سئوال -
پاسخ در جايي كه نظرية كلاسيك ناتوان به نظر مي رسد مي تواند مفيد واقع شود.
بررسي پارامترهاي سئوال و توانايي با استفاده از تكنيك مونت كارلو و از طريق داده
2002 ) نشان داد كه، برآورد ) هاي شبيه سازي شده در مطالعة مكدونالد و پانونن 1
قابل مقايسه، مشابه و دقيق اند. همچنين CTT و IRT پارامترهاي سئوال و توانايي در نظرية
در اغلب شرايط تجربي IRT نتايج حاكي از آن بود كه برآورد پارامترهاي تمييز مبتني بر
در برخي از شرايط خاص از دقت CTT دقيق بوده، اما برآورد پارامترهاي تمييز مبتني بر
پايين تري برخوردار بوده است. پيامدهاي نتايج اين مطالعه براي تجزيه و تحليل روان سنجي
سئوالات و انتخاب سئوال مورد بحث قرار گرفته است. نتيجة پژوهش استيج ( 2000 ) نيز
نشان داد كه؛ نظريه هاي جديد و كلاسيك اندازه گيري به يك اندازه قادرند داده هاي
آزمون را به صورت منظم پيش بيني كنند. اما به دليل تفاوت قابل ملاحظه ي موجود بين دو
نظريه در تئوري و اجرا و در نتيجه برآورد دقيق تر پارامترهاي سئوال و توانايي توسط نظرية
IRT كه در برخي تحقيقات ب ه اثبات رسيده است، نظرية ،CTT نسبت به نظريه IRT
دارد. CTT برتري قابل ملاحظه اي بر نظرية
،(IRT) 2010 ) مشخص گرديد كه، مدل پاسخ مدرج ) در مطالعة سنكتاي و سنكتاي 2
براي برآورد پارامترهاي آماري در يك نمونة بزرگ و نيز تحليل مدل معادلات ساختاري
دقيق تر از مدل كلاسيك آزمون است. اما مدل كلاسيك آزمون نيز همچنان ابزار آماري
پايايي در تحليل رگرسيون و در نمونه هايي با اندازة كوچك محسوب مي شود . همچنين
هنگامي كه پارامترهاي فرد، ناشناخته فرض مي شود و پارامترهاي سئوال نيز به صورت
و IRT شناخته شده و يا شناخته نشده باشد، توان بدست آمده با استفاده از نظريه هاي
مشابه و يكسان، و هميشه پايين تر از توان مورد انتظار در نقطة انتهايي توزيع طبيعي CTT
1 . Macdonald & Paunonen
2 . Siengthai & Siengthai
30 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
.(2010 ، است. تعداد سئوالات نيز تأثير قابل توجهي بر توان در هر دو روش دارد (سبيل 1
تجزيه و تحليل نهايي پارامترهاي سؤال و آزمود ني ها در آزمون نظري گواهينامة
رانندگي كه توسط راهور ناجا برگزار مي شود، نشان داد كه سؤالات اين آزمون بر اساس
نظرية كلاسيك و نظرية سؤال  پاسخ ، براي آزمودني ها يي با توانايي پايين از مناسبت و
دقت بيشتري برخوردار است. اين بدان دليل است كه با توجه به ضرايب دشواري بدست
آمده، بيشتر سؤالات آزمون ساده و آسان مي باشند. اما از آنجائي كه آزمون مورد نظر از
نوع ملاك مرجع است، سؤالي كه از لحاظ محتوايي با ارزش است، لزوماً به دليل آسان
بودن از آزمون كنار گذاشته نمي شود (ويبرگ، 2004 ). پارامتر تمييز آزمون نيز در هر دو
نظريه از ضرايب قابل قبولي برخوردار بوده و نشان مي دهد كه اين آزمون تا حد زيادي از
قدرت جداسازي افراد قوي و ضعيف در سطوح پايين توانايي برخوردار م ي باشد . البته با
توجه به اينكه آزمون نظري گواهينامة رانندگي از نوع آزمون هاي ملاكي م ي باشد ، حتي
سئوال هايي با ضرايب تمييز پايين نيز كنار گذاشته نم ي شوند ، چرا كه چنين سئوالاتي
.( توانايي اندازه گيري هدف را نشان مي دهند (كيامنش، 1387
به منظور بررسي پايايي و ثبات نتايج آزمون نظري گواهينامة رانندگي، مجدداً آزمون
مذكور با همان شرايط اوليه، پس از يك هفته سپري شدن از اجراي اول، بر روي 30 نفر از
همان نمونة اوليه اجرا گرديد. بر اساس ضريب كاپاي بدست آمده مي توان نتيجه گرفت
كه رابطة معناداري بين اجراي اول و اجراي دوم در نمونة مورد نظر وجود دارد. اين نتيجه
نشان داد كه آزمون مورد نظر از پايايي و ثبات كافي در اجراهاي مختلف برخوردار است .
در واقع تغيير چنداني در تعداد و درصد افرادي كه در اجراي اول آزمون موفق و يا ناموفق
بوده اند، نسبت به اجراي دوم آزمون وجود نداشته و مي توان نتيجه گرفت كه، ثبات تصميم
گيري در دو بار اجراي آزمون وجود داشته است.
پايين بودن ميانگين نمرات آزمودنيها در اين پژوهش، نسبت به نمرة ملاك، با در نظر
1 . Sebille
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 31
گرفتن سادگي آزمون، نشاندهندة توانايي پايين آزمون شوندگان م ي باشد . البته ميز ان
توانايي برآورد شده در نظرية سؤال  پاسخ در مقايسه با نمرة آزمودني در نظرية كلاسيك،
به ميزان واقعي نزديك تر است و با توجه به توانايي ها ي برآورد شده، مي توان سؤالات
متناسب با توانايي آزمودني ها را انتخاب نمود و اين مي تواند به ايجاد بانك سؤال و توسعة
در آزمون نظري گواهينامة رانندگي منجر شود . ،(CAT) آزمون هاي انطباقي كامپيوتري
2002 ) نيز بدان اشاره شده است . وي با بررسي سئوالات ) مزيتي كه در بررسي هاروي 1
بر روش ها ي IRT مزي ت ها ي نظرية ،(MBTI) آزمون تجديد نظر شده مايرز - بريگز
را بدين گونه برشمرد: CTT مبتني بر نظرية
(الف) دادن شرح مفصل از عملكرد افراد در سئوالات آزمون
(ب) ثبات و تغيير ناپذيري شاخص هاي دقت سؤال و آزمون در سراسر طيف نمرات
(ج) امكان ارزيابي سوگيري سؤال و آزمون در رابطه با زير گروه هاي جمعيتي
(د) اندازه گيري كيفي و با ثبات از ويژگي هاي هر پاسخ دهنده
(ه) امكان تهية آزمون هاي انطباقي كامپيوتري با هدف كاهش زمان آزمايش، بدون فدا
كردن دقت اندازه گيري.
IRT يافته هاي ديگر (شاركنس و دي آنجلو، 2010 ) نيز نشان داد كه در مجموع نظرية
اطلاعات بسيار جامع تري در مورد دقت اندازه گيري و نيز نقشة راه واضح تر ي براي بهبود
براي ساخت مقياس و توسعة IRT مقياس فراهم مي كند. همچنين اين يافته ها ، از نظرية
زمينه يابي در آموزش عالي پشتيباني مي كنند.
1 . Harvey
32 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
منابع
آلن، مري. جي؛ و وندي، ام. ين ( 1384 ). مقدمه اي بر نظري ه هاي اندازه گيري (روان سنجي ).
.( 12 . (تاريخ انتشار به زبان اصلي، 1982 - ترجمة علي دلاور. تهران: سمت. صص 13
احمدي، فهيمه ( 1385 ). علل وقوع تصادفات در معابر شهري.
براي (IRT) امبرتسون، سوزان اي؛ و رايس، استيون پي ( 1388 ). نظريه هاي جديد روان سنجي
روان شناسان. ترجمة حسن پاشاشريفي، ولي الله فرزاد، مجتبي حبيبي عسگرآباد و بلال
.( ايزانلو. تهران: رشد. ص 490 . (تاريخ انتشار به زبان اصلي، 2000
بازرگان، عباس ( 1386 ). ارزشيابي آموزشي: مفاهيم، الگوها و فرآيند عملياتي. تهران: سمت.
.Http://www.bih.ir . بيمة ايران. ( 2008 ). تفاوت هاي حوادث رانندگي در آلمان و ايران
ثرندايك، آر، ال ( 1375 ). روان سنجي كاربردي. ترجمة حيدرعلي هومن. تهران : دانشگاه تهران .
.( (تاريخ انتشار به زبان اصلي، 1982
حسيني، ميرزا حسن ( 1380 ). لزوم توجه به نكته هاي مثبت آموزش از راه دور در دنيا.
خالدي، محمد ( 1387 ). ارزيابي اثربخشي آموزش هاي فني و حرفه اي، هنرستان ها و دوره هاي
علمي و كاربردي به تفكيك خصوصي و دولتي در اشتغال، مؤسسة كار و تأمين اجتماعي.
؛ خبرگزاري فارس ( 1385 ). گروه اجتماعي، حوزة قضايي و انتظامي. شمارة 8508010184
.1385/08/01
سلماني، محمد؛ رمضان زاده لسبويي، مهدي؛ دريكوند، مسلم و ثابتي، فرخ ( 1387 ). بررسي عوامل
مؤثر بر تصادفات جاده اي و ارائة راهكارهايي براي كاهش آن، مورد مطالعه : منظومة
، روستايي جنوب خور و بيابانك. پژوهش هاي جغرافياي انساني، شمارة 65 ، پاييز 1387
.87- صص 104
سهرابي، منيره ( 1384 ). بررسي تطبيقي سير تحولات آموزش از راه دور در توسعه كمي و كيفي
آموزش عالي به ويژه دانشگاه هاي مجازي در كشورهاي انگلستان، آمريكا و ايران، تهران:
پايان نامة كارشناسي ارشد، دانشگاه علامه طباطبائي.
سوري، حميد؛ عيني، الهه؛ موحدي نژاد، عباسعلي؛ محفوظ پور، سعاد؛ موحدي، محمد؛ رضا زاده
.( آذري، منصور؛ وفايي، رضا؛ حات مآبادي، حميدرضا و مسعودي نژاد، محمدرضا ( 1388
اراية الگوي عملي نقشة سياست گذاري در سوانح ترافيكي كشور در سال 1387 . مجلة
پژوهشي حكيم، پاييز 88 دورة دوازدهم، شماره سوم.
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 33
صالحي، احمد ( 1376 ). بررسي مشخصه هاي روان سنجي آزمون پ ره بورد رشتة زنان و زايمان
پايان نامة كارشناسي ارشد، تهران : ، IRT كشور ايران بر اساس نظرية سؤال  پاسخ
دانشگاه علامه طباطبائي.
عراقي، عزت؛ و واحديان، محمد ( 1384 ). بررسي عوامل مستعد كننده و آس يب ها ي ناشي از
، تصادفات با موتورسيكلت در شهرستان مشهد سال 1384 . مجلة افق دانش (دوره 13
شماره 1). دانشكدة علوم پزشكي و خدمات بهداشتي ،درماني گناباد.
فراهاني، مهدي ( 1375 ). مقايسة مدل هاي اندازه گيري (كلاسيك و سؤال  پاسخ ) از لحاظ برآورد
پارامترهاي سؤال و توانايي. پايان نامة كارشناسي ارشد، تهران: دانشگاه علامه طباطبائي.
- كيامنش، عليرضا ( 1387 ). روش هاي ارزش يابي آموزشي. تهران: دانشگاه پيام نور . صص 119
.118
محمد زاده رومياني، مهري ( 1375 )، روش هاي گزينش سؤال در مدل كلاسيك اندازه گيري و
پايان نامة كارشناسي ارشد، تهران، دانشگاه علامه طباطبائي. ،IRT مدل هاي جديد
مگنوسون، داويد ( 1370 ). مباني نظري آزمون هاي رواني. ترجمة محمد نقي براهني . تهران : نشر
.( دانشگاه تهران. (تاريخ انتشار به زبان اصلي، 1966
يعقوبي، حميد ( 1379 ). بررسي نقش عوامل انساني در بروز تصادفات رانندگي در ايران . نشري ة
انديشه و رفتار، سال ششم، شماره يك.
يونسي، جليل ( 1385 )، بررسي ويژگي هاي روان سنجي سؤالات آزمون هاي فراگير رشته
روانشناسي دانشگاه پيام نور در سال 1385 ، پايان نامة كارشناسي ارشد، تهران، دانشگاه
علامه طباطبائي.
Bechger, T. M., Maris, Gunter., Verstralen, H. H. F. M. & Béguin, A, A. (2003).
Using Classical Test Theory in Combination with Item Response Theory.
Applied Psychological Measurement Vol. 27, No 5,pp 319–334.
Chi, GB., & Wang, sy. (2004). Pattern of road traffic injuries in china. Zhonghua lio
xing bing zue za zhi. (7):598-601.
Hambleton, R. K., & Vanderlinden, W. J. (1982). Advance in item response theory
and application: An introuduction applied psychological measurement,6,4,
372-378.
Hambleton, R. K., & Cook, L. L. (1983). The robustness of item rrsponse models
effects of test length and sample aize on the precision of ability estimates. In D
jweis(Ed.) New horizons in testing (pp.31- 49) New York: Academic press.
Hambleton, R. K. (1989). Principles and selected applications of item- response
theory. In R. Linn (Ed.) Educational measurement, (3rd Ed). New York:
Macmillan. 147-200.
34 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
Hambleton, R. K., Jones, R. W. & Rogers, H. J. (1993). Independence of item
parameter etimtion errors in test development. Journal of Educational
Measurment,30,143 – 155.
Harvey, R. J., & Hammer, A. L. (2002). Item Response Theory. Virginia
Polytechnic Institute & State University & Consulting Psychologists Press, Inc.
Kopits, E., & Cropper, M. (2005). Traffic fatalities and economie growth,
Accidanalprev; 37(1):169-78.
Macdonald, P,. & Paunonen, S. V. (2002). A Monte Carlo Comparison of Item and
Person Statistics Based on Item Response Theory versus Classical Test
Theory. Educational and Psychological Measurement Vol. 62 No. 6, .pp 921-
943. University of Western Ontario.
Peden, M., & Toroyan, T. (2005). Counting road traffic deaths and injuries: poor
data should not detract from doing some thing. Annals of emergency
medicine.46(2):158-60.
Peden, M., Scufield, R., & Sleet, D. (2004). World report on road traffic injury
prevention. Geneva: world health organization.
Reid, C. A. (1993). Latent trait modeling of the general aptitude test battery used
with a rehabilitation client population: An investigation of Model – Data Fit.
Source: DAI – B 54/12 , P. 6497, JUN 1994.
Romana, E. (2004). World health day:road safety is no accident. Paris, Farance.
Sébille, V., Hardouin, JB., Le Néel, T., Kubis, G., Boyer, F., Guillemin, F., &
Falissard, B. (2010). Methodological issues regarding power of classical test theory
(CTT) and item response theory (IRT) -based approaches for the comparison
of patient-reported outcomes in two groups of patients- a simulation study.
BMC Medical Research Methodology.
Sharkness, J,. & DeAngelo, L. (2010). Measuring Student Involvement: A
Comparison of Classical Test Theory and Item Response Theory in the
Construction of Scales from Student Surveys. Res High Educ 52, pp 480–507.
Siengthai, Sukirno & Sununta. (2010). The comparison of graded response model
and classical test theory in human resource research: a model fitness test.
Research and Practice in Human Resource Management.18 (2), pp77-
90.Singapore, Human Resources Institute & Curtin University of Technology.
Stage, C. (2000). A Comparison Between Item Analysis Based on Item Response
Theory and Classical Test Theory. A Study of the SweSAT Subtest ERC.
Wiberg, M. (2004). Classical test theory vs.item response theory: An evaluation of
the theory test the Swedish Driving-License test. 1-27.

همتراز سازي آزمون ها test equating

در بسیاري از موقعیت هاي روانشناختی و آموزشی، چندین فرم از یک آزمون براي سنجش

توانایی پیشرفت عملکرد و مانند آن قابل استفاده است. وقتی چند فرم آزمون براي اندازه گیري

توانایی یکسانی اجرا می شود در حقیقت قادر به مقایسه نمرات آزمون افراد هستیم با آزمون هاي

موازي این کار به صورت مستقیم انجام می شود. آزمون هاي موازي محتواي یکسانی را اندازه می

گیرند و ویژگی آماري مشترکی دارند ( تساوي میانگین، انحراف استاندارد و پایایی).

نمره ها در آزمون هاي موازي کاملاً قابل تعویض بوده و هیچ مشکلی در زمینه مقایسه

نمرات در فرم هاي موازي آزمون پیش نمی آید. اغلب، چند فرم از یک آزمون که ویژگی

یکسانی را اندازه می گیرند موازي نبوده و مقایسه ي نمرات به راحتی انجام نمی شود چون

فرم هاي مختلف آزمون در چند خصوصیت با هم تفاوت دارند (عدم تساوي میانگین ها،

واریانس ها، پایایی ها و مانند آن) بنابر این قبل از مقایسه نمرات آزمودنی ها در چند فرم از

یک آزمون ایجاد تعادل بین نمرات خام در فرم هاي مختلف از یک آزمون لازم است این عمل

همتراز سازي 1 آزمون ها نام دارد. اگر چه نظریه پردازان و عمل کنندگان به نظریه ها با هم

اختلاف عقیده دارند براي نمره هاي همتراز شده شرایطی وجود دارد که باید به اتفاق نظ ر

برسند مانند شرایطی که بعد از اجراي روش هاي همتراز سازي نمرات بدست آمده است.

روش همتراز سازي نه فقط باید بتواند توانایی مبادله ي نمرات را داشته باشد بلکه باید

به محتواي آزمون و جامعه هدفی که آزمون براي آنها در نظر گرفته شده نیز مربوط باشد.

به منظور دقت بیشترچهار ویژگی لازم براي نمره هاي آزمون همتراز شده در زیر آمده

(2005 است. ( گراجتر و وندرکمپ 2

1.equating

2.Graijter & Vanmder Kamp

3

-1 توانایی یکسان 1: مثلاً فرم هاي مختلف آزمون بایستی ویژگی یکسانی ( توانایی، پیشرفت

عملکرد)اندازه بگیرند.

-2 برابري 2: براي هرگروه از آزمودنی ها توانایی یکسانی تعیین شود، توزیع فراوانی شرطی

بعد از تبدیل با توزیع فراوانی شرطی از نمره هاي آزمون (Y نمره ها از یک آزمون (مثلاً

یکسان است. (X دیگر (مثلاً

-3 جامعه ثابت 3: صرف نظر از اینکه نمونه یا گروه افراد چگونه استخراج شده اند تبدیل

نمرات یکسان است.

مانند انتقال نمره ها از Y به X -4 تقارن 4: تبدیل برگشت پذیر است انتقال نمره ها از فرم

است. در رابطه با ویژگی دوم گفته شده است که اگر برابري کامل بعد از X به فرم Y فرم

آزمون مشاهده شود، هر دو فرم آزمون بر Y و X همترازي یا تبدیل نمره هاي فرم هاي

.(1980 ، مبناي نظریه کلاسیک آزمون کاملاً موازي هستند (لرد

تئوري يا نظريه ي رويه FACET

نظريه ي FACET توسط لوئس گاتمن و به منظور يكپارچه كردن نظريه و تحقيق گسترش يافته است. بيشتر مفاهيم رواني و اجتماعي چند متغيري هستند و بنابراين مطالعه ي آنها نيازمند يك طرح سيستماتيك و منظم براي تعريف مشاهدات است. علاوه بر اين اگر طرح تعريف به نتايج تراكمي منجر شود، بايد در قالبي مطرح شود كه به درك روابط سيستماتيك و نظامند با داده هاي تجربي منجر شود. ايده ي ترسيم گاتمن به منظور ارتقاء هر دو هدف ارائه شده است: گزاره ي ترسيم كه ابزار پايه اي در نظريه ي FACET است در برگيرنده ي رويه هاي مختلفي است. هر رويه در گزاره ي ترسيم راهي است براي خوشه بندي كردن مفاهيم پژوهش و نقش مشخص هر رويه را تعيين مي كند. با توجه به نظر گاتمن، مفروضه ي اساسي و پايه اي نظريه ي FACET نقش رويه ها در گزاره ي ترسيم دليلي را براي مفروضه انطباق بين چهارچوب تعريف ( گزاره ي ترسيم) و يك وجه از داده هاي تجربي فراهم مي آورد. مثالهاي زيادي از با استفاده از رويكرد FACET و دستيابي به يك ساختار قانمونمند ارائه شده است كه دليلي است بر حمايت از مفروضه ي عمومي نظريه ي FACET.


 

اندازه گیری چند رویه ای راش (Many-facet rasch measurement)

نویسنده: محمد حسین ضرغامی(zar100@gmail.com) 09122263167

اندازه گیری چند رویه ای راش (Many-facet rasch measurement) :

این مدل اندازه گیری به سنجش عملکردی بسیار کمک کرده است. البته این مدل یکی از مدلهای تلفیقی دو نظریه ی تعمیم پذیری و نظریه ی سوال پاسخ است که به آنها GIRM گفته می شود. نظریه ی تعمیم پذیری نظریه ی نمونه گیری است که به پژوهشگر کمک می کند تا منابع خطای خود را به قسمت های مختلف تقسیم نماید. این تقسیم منابع خطا می تواند به شفاف شدن بهتر واریانس مورد مطالعه کمک نماید. از طرفی نظریه ی راش به عنوان یکی از نظریه های اندازه گیری که خود یک نظریه ی مقیاس گذاری است امکان سنجش و اندازه گیری تکالیف را فراهم می آورد. در سنجش عملکردی به جای سوالات و گزاره ها که در پرسشنامه ها و آزمون های شناختی استفاده می شوند از اصطلاح تکلیف استفاده می شود. بنابراین با استفاده از مدل سوال پاسخ می توان به مقیاس بندی و پارامتری کردن تکالیف و دستیابی به درجه دشواری و شیب تکالیف و همچنین عملکرد افتراقی سوالات دست یافت. حوزه ی کاربرد مدل چند رویه ای راش یا مدل های جیرم بیشتر در آموزش و آزمون سازی زبان و همچنین سنجش و اندازه گیری فعالیت های حرکتی در تربیت بدنی و ورزش وهمچنین استاندارد سازی رفتار و عملکرد بر می گردد که می تواند برای دانشجویان و دانش پژوهان در حوزه های مختلف مدیریت مورد نیاز باشد. استفاده از این رویکرد به منظور کالیبره کردن مصاحبه ها و امتحانات شفاهی مانند امتحانات قرائت کاربرد زیادی پیدا کرده است. حوزه های زبان آموزی و آِزمون سازی زبان مجموعه ی گسترده و متنوعی از روش ها را در بر می گیرد که هدف آنها اندازه گیری مهارت زبانی فرد یا چند جنبه مختلف این مهارت است. زمانی که رتبه دهنده یا امتیاز دهنده به دانش آموزان یا شرکت کننده گان رتبه می دهند نظرات آنها می تواند به عنوان یک رویه در کنار توانایی دانش آموزان و شرکت کنندگان و درجه ی سختی تکلیف ایجاد واریانس نماید که می تواند وابسته به هدف پژوهش واریانس خطا و یا واریانس مورد پژوهش قلمداد شوند. به این رویکرد اسامی مختلفی داده اند مانند

Many-facet rasch model, multi-facet rasch model,many faceted conjoint measurement, multi faceted rasch modeling

نرم افزارهای مختلفی برای اندازه گیری و سنجش در این حوزه استفاده شده اند که یکی از آنها FACET است که توسط گروه طراح نرم افزار WINSTEP  ایجاد شده است.

اندازه گیری رویکرد اندازه گیری چند رویه ای راش یا مدل های دیگر GIRM دارای سه گام مهم زیر می باشند.

گام اول: شکل دهی به مفروضات بر پایه ی رویه های مورد پژوهش که به یک سنجش مشخص مربوط می شود.

 

گام دوم: مشخص کردن مدل های اندازه گیری که برای مطالعه ی هر یک از رویه ها باید استفاده شود. در این بخش بحث گزینش مدل اندازه گیری مطرح است و بسیار به روانسنجی و سنجش و اندازه گیری مربوط است وباید به مدل های مختلف و روش های ترکیبی نظریات مختلف اندازه گیری آشنابود.

گام سوم: بکار بردن مدل برای در نظر گرفتن اثر هر رویه به صورت بهترین روش ممکن

Item response theory

Generalozabiltiy theory

Rasch model

FACET

Language testing

Sport

Performance assessment

task

 

مروری بر پژوهشها: روی آوردهای نوین در دوران سنجی (قسمت سوم) مدلهای نظریه سؤال - پاسخ، مدلهای راش

عنوان مقاله: مروری بر پژوهشها: روی آوردهای نوین در دوران سنجی (قسمت سوم) مدلهای نظریه سؤال - پاسخ، مدلهای راش (4 صفحه)
نویسنده : عسگری، علی
چکیده :
کلمات کلیدی :
روانشناسنان ایرانی » شماره 13 (صفحه 80)

مروری بر پژوهشها روی‏آوردهای نوین در روان‏سنجی‏ قسمت سوم:مدلهای نظریه سؤال-پاسخ،مدلهای راش

New Approaches to Psychometrics part Three:Models of Item Response Theory,Rasch Models

علی عسگری

دانشجوی دکتری

دانشگاه تهران

Ali Asgari PhD Candidate Tehran University

در هفتاد سال گذشته نظریه‏پردازان متعددی تلاش کرده‏اند تا نشان دهند که چگونه می‏توان از اندازه‏ها و فراوانیهای‏ عینی،1،اندازه‏های انتزاعی‏2به دست آورد.یکی از عملی‏ترین و رایج‏ترین روی‏آوردهایی که برای این منظور به کار می‏رود، مدل راش‏3است.جورج راش،ریاضیدان دانمارکی،این روی‏آورد را در سال 3591 و به منظور تحلیل پاسخهای یک رشته‏ از آزمونهای خواندن به وجود آورد.با آنکه وی را پدر تحلیل راش می‏دانند،اما بنجامین رایت‏4را باید قیم قانونی آن‏ دانست.رایت و همکارانش در دانشگاه شیکاگو روشهای پیشرفته و ابزارهای تحلیل راش را توسعه،و کاربرد آن را در حوزه‏های مختلف عملی ارتقا بخشیدند(ماسوف و فیشر،2002).

مدلهای رایش در واقع روی‏آوردی ریاضی برای آزمون این فرضیه است که اندازه‏های مربوط به معنا5و واحد یک سازه‏ را می‏توان از ابزاری که برای آن خصیصه تهیه شده است به دست آورد.وقتی داده‏ها با این مدلها برازش پیدا می‏کنند به‏ معنای آن است که ابزار اندازه‏گیری و اندازه‏ها در یک واحد فاصله‏ای مشترک مقیاس‏بندی شده‏اند و می‏توانند در انواع یا شکلهای مختلف آن ابزار و نیز در بین نمونه‏های مختلف یک جامعه ثابت باقی بمانند(رایت و استون،9791).

مدلهای راش،در واقع نوعی آزمون همسانی درونی‏6در نظریه سؤال-پاسخ‏اند که برای داده‏های دوارزشی و چند ارزشی به کار می‏روند.در این مدلها نیز مانند مقیاسهای گاتمن‏7،فرض بر این است که همه سؤالها و مواد یک آزمون که‏ یک‏سازه را اندازه‏گیری می‏کنند،یک نوع رابطه مرتب شده‏8را تشکیل می‏دهند.یک آزمون ممکن است دارای همسانی‏ درونی مرتب‏شده‏ای باشد،حتی اگر مجموعه سؤالهای آن همبستگی بالایی باهم نداشته باشند(همسانی درونی‏ جمع‏پذیر9،مانند آنچه از طریق آلفای کرونباخ‏01یا تحلیل عاملی‏11آزمون می‏شود).همسانی درونی مرتب شده بیانگر وجود عامد دشواری است.بدین ترتیب،یک سؤال دشوار می‏تواند پاسخ به سؤالهای با دشواری کمتر را پیش‏بینی کند اما عکس آن امکان‏پذیر نیست(رایت،6991).

وقتی پژوهشگران برای رواسازی یک مجموعه از متغیرهای نشانگر در یک مقیاس از تحلیل عاملی استفاده می‏کنند، فرض را بر این قرار می‏دهند که با یک مدل خطی و جمع‏پذیر روبه‏رو هستند.خطی بودن بخشی از همبستگی و مبنایی‏ برای خوشه‏بندی‏21متغیرهای نشانگر در یک عامل است.در جمع‏پذیری نیز فرض بر این است فقط زمانی معنای همه‏ سؤالها دارای همسانی درونی است،که همبستگی بالایی با یکدیگر داشته باشند.باوجوداین،ممکن است که سؤالها فاقد همبستگی درونی بالا،اما دارای رابطه مرتب‏شده نیرومندی باشند(رایت،5891).به همین دلیل بسیاری از پژوهشگران‏ ترجیح می‏دهند برای ساخت و توسعه مقیاسها به جای مدلهای جمع‏پذیر مانند آلفای کرونباخ و تحلیل عاملی،از مدلهای‏ راش استفاده کنند.زیرا این مدلها نه تنها روابط جمع‏پذیر بین متغیرهای نشانگر،بلکه رابطه ترتیبی سؤالها(مانند ترتیب‏ (1). concrete

(2). abstract

(3). Rasch

(4). Wright,B.D.

(5). meaning

(6). internal consistency

(7). Guttmann

(8). ordered relationship

(9). additively

(01). cronbach

(11). factor analysis

(21). clustering

روانشناسنان ایرانی » شماره 13 (صفحه 81)

دشواری)را نیز به حساب می‏آورند(تنورگرت،گیلپسی و کینگما،3991).نظریه زیربنایی مدلهای راش در بسیاری جنبه‏ها شبیه به نظریه سؤال-پاسخ است.به بیان دیگر،مدل راش برای داده‏های دو ارزشی اغلب به عنوان مدل تک پارامتری‏ نظریه سؤال-پاسخ در نظر گرفته می‏شود.اما هواداران این مدل،آن را دارای ویژگی خاصی می‏دانند که از مدلهای‏ IRT متمایز است.به گونه اختصاصی،ویژگی معرف مدلهای راش صورتبندی انتزاعی‏1و ریاضی مقایسه نامتغیر است که‏ می‏تواند برای اندازه‏گیری موفقیت‏آمیز سازه‏ها یک ملاک معتبر فراهم کند(سادوس،گارمندی،کیوز و الیوت،4002).این‏ ویژگی انتزاعی،مدلهای رایش را از سایر مدلهایی که برای پاسخ به سؤالها یادمواد آزمون به کار می‏روند متمایز و آن را به‏ عنوان مدلهای ایده‏آل یا استاندارد مطرح می‏سازد.

بنابر نظر آندریش(4002)دیدگاه‏2یا پارادایم‏3مدلهای راش به گونه بارزی با سایر مدلهای اندازه‏گیری تفاوت دارد.در اغلب مدلها هدف اصلی توصیف مجموعه‏ای از داده‏هاست.به همین منظور پارامترها تعدیل می‏شوند و برپایه اینکه چگونه‏ با داده‏ها برازش می‏یابند،رد یا پذیرفته می‏شوند.اما هدف از به کار بردن مدل راش به دست آوردن داده‏هایی است که با مدل برازش داشته باشد.منطق زیربنایی این دیدگاه آن است که مدلهای راش مستلزم شرایطی هستند که برای‏ اندازه‏گیری باید برآورده شوند.درست همانگونه که عموما در اندازه‏گیریهای علم فیزیک وجود دارد.

برای درک این منطق زیربنایی بیان مثالی در اندازه‏گیری وزن می‏تواند مفید باشد.فرض کنید وزن شئ‏ A در یک‏ موقعیت به گونه قابل ملاحظه‏ای بیشتر از وزن شئ‏ B اندازه‏گیری شده است.سپس بلافاصله در یک موقعیت دیگر،این‏ وزن شئ‏ B است که بیشتر از وزن‏ A به دست می‏آید.در اینجا شرط اساسی اندازه‏گیری،یعنی یکسان و نامتغیر بودن‏ نتایج حاصل از مقایسه دو اندازه‏گیری،صرف‏نظر از سایر عوامل،برآورده نشده است.این شرط اساسی در ساختار انتزاعی‏ مدل راش است.بنابراین،مدلهای راش برای تناسب و برازش یافتن با داده‏ها،تغییر و تعدیل نمی‏شوند.بلکه روش‏ اندازه‏گیری باید تغییر یابد تا این شرط را برآورده سازد.درست همانگونه که در مثال بالا مقیاس وزن باید تغییر کند.زیرا بین دو شئ در دو اندازه‏گیری جداگانه نتایج متفاوتی به دست داده است.علاوه بر این،در پارادایم مدلهای رایش تأکید بر مطالعه و تعیین بی‏نظمی‏4در داده‏هاست که از طریق این مدل آشکار می‏شود(رایت،6991).

خانواده مدلهای راش

لاینرس(6002)مدلهای راش را در دو طبقه کلی دو ارزشی و چندارزشی به شرح زیر تقسیم‏بندی می‏کند:

مدل دو ارزشی:این مدل که در آن پاسخها به دو طبقه(بلی-خیر،درست-نادرست)تقسیم می‏شوند،شناخته‏شده‏ترین‏ و رایج‏ترین مدل راش و دارای تابع ساده منطقی است.برای داده‏های دو ارزشی جایگاه یک سؤال در یک مقیاس،متناظر یا جایگاه آزمودنی در نقطه‏ای است که احتمال موفقیت برابر با 0/5 است.به گونه کلی،احتمال پاسخ درست آزمودنی به‏ یک سؤال با درجه دشواری کمتر از جایگاه آزمودنی،بیشتر از 0/5 و احتمال پاسخ درست آزمودنی به یک سؤال با درجه‏ دشواری بالاتر از جایگاه آزمودنی،کمتر از 0/5 است.وقتی پاسخ فرد برپایه دشواری سؤال از کمترین تا بیشترین فهرست‏ شود،بیشترین شباهت را به الگوی گاتمن دارد.با این فرمول: Loge(Pnil/Pin0)-B n-D i

که در آن:

P ni -احتمال آنکه آزمودنی‏ n که با سؤال‏ i روبه‏رو می‏شود در طبقه‏ j -اندازه‏گیری می‏شود.

B n -توانایی فرد n

D ij -دشواری سؤال‏ i ،نقطه‏ای که در آن بالاترین و پایین‏ترین طبقه‏های سؤال احتمال برابر دارند.

F ij اندازه مدرج کردن طبقه‏ j-1 .نقطه‏ای که در آن طبقه‏های‏ j-1 و j نسبت به اندازه سؤال احتمال برابر دارند.

مدلهای چندارزشی:مدلهای چندارزشی راش نخستین بار توسط اندریش(8791،4002)و به منظور کاربرد مدل راش‏ (1). formal

(2). perspective

(3). Paradigm

(4). anomalies

روانشناسنان ایرانی » شماره 13 (صفحه 82)

برای داده‏های حاصل از مقیاس لیکرت ارائه شد.این مدلها در واقع تعمیم مدلهای دو ارزشی و نوعی مدل اندازه‏گیری‏ است که در زمینه‏هایی به کار می‏رود که هدف از آن اندازه‏گیری صفت با توانایی از طریق فرایندی است که در آن پاسخ‏ به سؤالها با اعداد صحیح متوالی نمره‏گذاری شود این مدل را می‏توان در مقیاسهای لیکرت،درجه‏بندی و نیز سؤالهای‏ مربوط به اندازه‏گیریهای ترتیبی که در آنها نمره‏های متوالی بالاتر بیانگر سطح فزاینده پیشرفت و توانمندی است به کار برد.

از سوی دیگر،مدلهای چندارزشی یک اندازه‏گیری احتمالی کلی و دارای این ویژگی متمایز است که برای کاربرد نمره‏های عددی متوالی یک بنیان نظری محکم فراهم آورده است.افزون بر این ویژگی،مدلهای چندارزشی امکان آزمون‏ جدی این فرضیه را فراهم می‏آورد که طبقه‏های پاسخ،معرف سطح افزایشی یک خصیصه یا صفت مکنون است.ازاین‏رو داده‏ها،مرتب شده به حساب می‏آیند.در این مدل،نمره یک سؤال معین در واقع فراوانی تعداد جایگاه آستانه‏1در صفت‏ مکنونی است که آزمودنی از آن بالاتر قرار دارد.جایگاه آستانه بر روی پیوستار مکنون معمولا از ماتریس سؤال-پاسخ و از طریق فرآیند برآورد بیشینه احتمال شرطی‏2استنباط می‏شود.

به گونه کلی،شاخص اصلی فرایند اندازه‏گیری در این مدل آن است که آزمودنیها در یک مجموعه طبقه‏های مرتب شده‏ مجاور3گروه‏بندی شوند.شکل‏بندی پاسخهایی که در یک زمینه آزمایشی معین به کار می‏روند،می‏تواند از طریق روشهای‏ مختلفی به این شاخص دست یابد.برای نمونه،ممکن است آزمودنی طبقه‏ای را انتخاب کند که به نظر وی به بهترین‏ صورت سطح حمایت وی را از سؤال یا عبارت نشان می‏دهد.افزون بر این،امکان دارد داوران آزمودنیها را برپایه‏ ملاکهایی که به خوبی تعریف شده‏اند در طبقه‏های مختلف قرار دهند،و سرانجام ممکن است آزمودنی یک محرک‏ فیزیکی را برپایه شباهتی که به مجموعه محرکهای مرجع دارد،طبقه‏بندی کند.وقتی پاسخها فقط در دو طبقه قرار داشته باشند،مدل چندارزشی راش به مدلی برای داده‏های دوارزشی تبدیل می‏شود.در این مدل خاص،دشواری سؤال و آستانه(منفرد)یکسان خواهد بود.انواع مدلهای چندارزشی به قرار زیرند:

1)مدل مقیاس درجه‏بندی‏4:این مدل زمانی به کار می‏رود که تعداد آستانه سؤالها یکسان و تفاوت بین جایگاه هر آستانه معین با میانگین جایگاه آستانه‏ها برابر یا بین همه سؤالها یکسان باشد.فرمول این مدل به قرار زیر است:

Log(Pn ij/Pn i(j-1)-B n-D i-F j 2)مدل امتیاز جزئی‏5:از این مدل اختصاصا در زمینه‏های آموزشی و تربیتی استفاده می‏شود(مسترز،2891).هرچند ساختار ریاضی این مدل با مدل مقیاس درجه‏بندی یکسان است،اما امکان محاسبه آستانه‏های مختلف را برای سؤالهای‏ مختلف فراهم می‏آورد.فرمول این مدل عبارت است از:

Log(Pn ij/Pni(j-1)-B n-D i-F ij-B n-D ij

3)مدل ساختار پاسخ گروه‏بندی شده‏6:این مدل با فرمول زیر وقتی به کار می‏رود که سؤالها براساس سهمی که در ساختار پاسخ دارند،یا به زیرمقیاسهای یک یا چند سؤال که در یک ساختار پاسخ سهیم هستند گروه‏بندی شوند.

Log(Pn ij/Pn i(j-1)-B n-D ig-F gj

به گونه کلی،مدلهای اندازه‏گیری راش به پژوهشگران امکان می‏دهد تا مشکلات زیربنایی اندازه‏گیریهای مدل کلاسیک‏ و مقیاسهای خودسنجی،خودارزیابی و خود درجه‏بندی را حل کنند.این مدلها نمونه کاملی از اندازه‏گیری جمع‏پذیر زوجیب‏ است که دو شرط لازم برای تبدیل خصیصه به کمیت،یعنی جمع‏پذیر بودن و ترتیب را برآورده می‏سازد.مدل راش‏ جمع‏پذیر است زیرا تفاوت بین سطح مشاهده شده و سطح مکنون،مستلزم اندازه‏گیری جمع‏پذیر دو متغیر مکنون متفاوت‏ یعنی متغیرهای آزمودنی و سؤال است.افزون بر این،مدل راش دارای ترتیب است زیرا برپایه آن می‏توان متغیرهای‏ آزمودنی و سؤال را در سطح مکنون و از طریق بالاتر یا پایین‏تر بودن نسبت به هم با یکدیگر مقایسه کرد(اکتون، (1). threshold location

(2). conditional maximum likelihood

(3). contiguous

(4). rating scale

(5). partial credit

(6). grouped response-structure

روانشناسنان ایرانی » شماره 13 (صفحه 83)

3002).برخی از مزایای کاربرد مدلهای اندازه‏گیری عبارتند:

1)از پاسخهایی که در قالب مقیاس طبقه‏ای مرتب یا ترتیبی ارائه شوند،می‏توان یک اندازه فاصله‏ای حقیقی تولید کرد(روایت و لایرنس،9891؛مربیتز،موریس و گریپ،9891).

2)مشخص می‏شود هر سؤال تا چه حد می‏تواند سازه موردنظر را اندازه‏گیری کند.به بیان دیگر،این مدل نشان‏ می‏دهد که آیا سؤالهای مقیاس،یک سازه زیربنایی یا یک بعد واحد را تشکیل می‏دهند.این فرایند در واقع تک‏بعدی‏ بودن مقیاس را آزمون می‏کند(رایت و استون،6991).

3)می‏توان نشان داد که هر سؤال چه جایگاهی در پویستار اندازه‏گیری دارد.تعیین ترتیب سؤالها در پیوستار اندازه‏گیری از اهمیت زیادی در ارزیابی روایی مقیاس برخوردار است.زیرا توزیع سؤالها در طول پیوستار باید معنادار باشد تا نشان دهد سازه موردنظر به خوبی اندازه‏گیری شده است.افزون بر این،شواهد مربوط به همسانی نسبی این توزیع در طول زمان یا در بین نمونه‏های مختلف،نشان می‏دهد که سازه مورد اندازه‏گیری پایایی دارد(اسمیت،1002).

4)می‏توان تعیین کرد که مقیاس تا چه اندازه توانسته است آزمودنیها را اندازه‏گیری کند.مدل راش افزون بر اینکه‏ نشان می‏دهد آیا مقیاس برای اندازه‏گیری آزمودنیها به گونه مناسب تهیه شده،مشخص می‏کند که آیا هر آزمودنی نیز به‏ گونه معتبری اندازه‏گیری شده است(آیا نمره افراد مطابق با الگوی مورد انتظار است).به بیان دیگر،روشهای راش نه تنها برای بررسی ویژگیهای آزمون مفیدند بلکه می‏توانند راهنمای مناسبی برای توسعه مقیاس نیز باشند.

منابع

(به تصویر صفحه مراجعه شود)

پایان مقاله

مروری بر پژوهشها: روی آوردهای نوین در روان سنجی (قسمت چهارم) مدلهای نظریه سؤال - پاسخ، مدلهای ارزشی

URL : http://www.noormags.com/view/fa/ArticlePage/324567

عنوان مقاله: مروری بر پژوهشها: روی آوردهای نوین در روان سنجی (قسمت چهارم) مدلهای نظریه سؤال - پاسخ، مدلهای ارزشی (4 صفحه)

نویسنده : عسگری، علی

چکیده :


کلمات کلیدی :


روانشناسنان ایرانی » شماره 14 (صفحه 199)

--------------------------------------------------------------------------------



مروری بر پژوهشها روی‏آوردهای نوین در روان‏سنجی‏ قسمت چهارم:مدلهای نظریه سؤال-پاسخ،مدلهای دو ارزشی

New Approaches to Psychometrics Part Four:Models of Item Response Theory,Dichotomous Models Ali Asgari,PhD University of Welfare and Rehabilitation 


برای بررسی داده‏های دو ارزشی مدلهای متعددی در IRT وجود دارد.اما انتخاب یک مدل باید برپایه ملاحظات نظری و تجربی،مانند برازش داده-مدل‏1صورت گیرد.هر مدل با استفاده از ارزش عددی یک یا چند پارامتر،خم ویژه بخصوصی‏ را معین می‏کند و از لحاظ انتقال اطلاعات درباره ویژگیهای فنی سؤالها ابزار مفیدی به شمار می‏آید(بیکر،2002/1831). به منظور محاسبه احتمال پاسخ درست در سطوح مختلف توانایی،هریک از مدلها از یک معادله ریاضی استفاده می‏کنند.


به گونه کلی،مدلهای‏ IRT را می‏توان به دو خانواده مدلهای تک‏بعدی‏2و چندبعدی‏3تقسیم کرد(تیسن و اورلاندو، 1002،رایت،2991).مدلهای تک‏بعدی مستلزم تنها یک بعد واحد از خصیصه(توانایی)است.درحالی‏که،در مدلهای‏ چندبعدی فرض بر آن است که داده‏ها از خصایص چند وجهی یا چندگانه به دست می آیند.باوجوداین،به دلیل‏ پیچیدگی فزاینده مدلهای چندبعدی،در بیشتر پژوهشها و کاربردهای‏ IRT از مدلهای تک‏بعدی استفاده می‏شود.


افزون بر این،مدلهای‏ IRT برپایه تعداد پاسخهای نمره‏گذاری شده نیز طبقه‏بندی می‏شود.یک سؤال چند گزینه‏ای‏ در واقع یک مدل دو ارزشی است حتی اگر دارای چهار یا پنج گزینه باشد.زیرا فقط به‏گونه درست/نادرست(صحیح/غلط) نمره‏گذاری می‏شود.طبقه دیگر مدلها،برای داده‏های چند ارزشی به کار می‏روند که در آن مقدار نمره هر پاسخ متفاوت‏ است.برای نمونه،چنانکه در قسمت قبل بیان شد،مدل چند ارزشی راش در واقع تعمیم این مدل به داده‏های مربوط به‏ دو یا چند طبقه مرتب شده است.مدلهای دو ارزشی‏ IRT را می‏تون برپایه تعداد پارامترهایی که در آنها به کار می‏رود نیز توصیف کرد.بدین ترتیب،در مدل سه پارامتری،هر سه پارامتر دشواری( b ،جایگاه سؤال)،قدرت تشخیص( a ،شیب‏ سؤال)و حدس( c ،مجانب‏5پایین خم ویژه)به کار می‏روند.درحالی‏که در مدل دو پارامتری فرض بر این است که داده‏ها کمینه حدس را دارند اما براساس جایگاه و قدرت تشخیص سؤال متغیرند،و سرانجام در مدل تک پارامتری مقدار حدس‏ و قدرت تشخیص سؤالها برابر فرض می‏شوند و تنها جایگاه سؤال برآورد می‏شود.افزون بر این،از لحاظ نظری یک مدل‏ چهار پارامتری نیز وجود دارد که پارامتر چهارم آن مجانب بالایی خم ویژه است.اما این مدل به‏ندرت به کار برده می‏شود (هامبلتون و سوامیناتان،1991؛تیسن و اورلاندو،1002).



مدل پارامتری

مدل منطقی تک پارامتری ساده‏ترین مدل‏ IRT است و همانگونه که از نام آن پیداست برای کاربرد نظریه سؤال-پاسخ‏ تنها برآورد یک پارامتر،یعنی درجه دشواری‏ (b) ،برای آن لازم است.برپایه این مدل،پارامتر قدرت تشخیص برای همه‏ سؤالها ثابت و برابر با 1/0 قرار داده می‏شود؛یعنی تنها پارامتر دشواری می‏تواند مقادیر مختلفی اختیار کند.معادله این‏ مدل به قرار زیر است: Pi(?)1+e-(?-bi)/1 


که در آن: p(?) احتمال پاسخ درست برای سطح معینی از توانایی، e برابر با 2/817، -(?-b) انحراف منطقی است. model-data fit .(1)


unidimensional .(2)


multidimensional .(3)


multiple .(4)


asymptote .(5)



روانشناسنان ایرانی » شماره 14 (صفحه 200)

--------------------------------------------------------------------------------


مروری بر پژوهشها


برای نمونه،برپایه فرمول بالا،احتمال پاسخ درست به سؤالی با درجه دشواری 1/0 برای فردی که در سطح توانایی‏ (?)-/3 قرار دارد،برابر با 0/20 خواهد بود.چون مقدار پارامتر تشخیص در معادله بالا که همواره برابر با 0/1 است، معمولا در فرمول نشان داده نمی‏شود.بنابر نظر هاروی و هامر(9991)،تک پارامتر،از لحاظ اجرایی،به نمره‏ای از توانایی‏ اطلاق می‏شود که با احتمال 05 درصدی پاسخ به یک سؤال انشایی سروکار دارد.چون مقدار پارامتر قدرت تشخیص در مدل راش برابر با مقدار ثابت 1/0 است،بیشینه مقدار تابع آگاهی حاصل از آن جایگاه محدودی دارد.به بیان دیگر، بیشینه مقدار تابع آگاهی سؤال برابر با 0/52 است.زیرا وقتی 0/5 P(?) باشد، P(?)q(?)0/25 خواهد بود.ازاین‏رو، بیشینه مقدار نظری آگاهی برای یک تست در مدل تک پارامتری برابر با حاصلضرب تعداد سؤالهای در عدد 0/52 خواهد بود.



مدل دو پارامتری

در این مدل،افزون بر جایگاه سؤال،قدرت تشخیص‏ (a) نیز برآورد می‏شود و برای خم ویژه سؤال‏ (ICC) این امکان‏ فراهم می‏آید تا برای سؤالهای مختلف،شیبهای مختلفی را به نمایش بگذارد.پارامتر تشخیص این حقیقت را آشکار می‏کند که برخی سؤالها رابطه نیرومندتر(یا ضعیف‏1تری)با سازه بنیادی مورد اندازه‏گیری(توانایی)دارند.بنابراین،مقادیر بالاتر در این پارامتر،نشان‏دهنده رابطه محکم‏تر و سختر است(تورنتون،2002).بنابر نظر هاروی و هامر(9991)قدرت‏ تشخیص از اهمیت زیادی در IRT برخوردار است.زیرا مقدار آگاهی حاصل از یک سؤال را به گونه مستقیم تعیین می‏کند. بدین ترتیب،سؤالهایی که قدرت تشخیص بیشتری دارند،در صورت برابر بودن سایر عوامل،آگاهی بیشتری درباره توانایی‏ (?) به دست می‏دهند.معادله تابع منطقی دو پارامتری به قرار زیر است: Pi(?j)1+exp]-Dai(?j-bi)[/1 


برای نمونه در ادامه مثال مربوط به مدل تک پارامتری،احتمال پاسخ درست برای سؤالی با همان درجه دشواری و قدرت تشخیص 0/5 برای فردی در سطح توانایی 0/3- (?) ،برابر با 0/21 است.در اینجا ملاحظه می‏شود که احتمال‏ پاسخ درست با احتساب قدرت تشخیص،افزایش یافته است.در مدل دو پارامتری،مانندمدل راش،دشواری سؤال‏ نقطه‏ای در مقیاس توانایی است که احتمال پاسخ درست برای افرادی که در آن سطح از توانایی هستند برابر یا 0/5 است. افزون بر این در این مدل(مانند مدل سه پارامتری)قبل از آنکه خم ویژه سؤال شیب پیدا کند،باید مقدار پارامتر تشخیص کاملا بزرگ،دست کم(1/7)باشد(بیکر،2002/1831).مقدار مثبت و بزرگ در مدل‏های راش و دو پارامتری‏ موجب می‏شود که دنباله پایین خم به صفر نزدیک گردد.



مدل پارامتری

یکی از رایج‏ترین مدلهایی که روان شناسان از آن استفاده می‏کنند مدل منطقی سه پارامتری است.این مدل در ابتدا برای‏ مدلسازی‏2داده‏های حاصل از توانایی شناختی به کار می‏رفت،اما به تازگی برای داده‏های شخصیتی نیز به کار می‏رود (امبرستون و رایس،0002).مدل سه پارامتری کلی‏تر از مدلهای تک و دو پارامتری است.گرچه مدل دو پارامتری با یکی‏ از حیاتی‏ترین ویژگیهای مدل راش،یعنی این اصل قطعی سروکار دارد که همه سؤالها از لحاظ قدرت تشخیص شبیه به‏ یکدیگرند،اما واقعیت مهم دیگری را که ممکن است در بین سؤالهای مختلف وجود داشته باشد نادیده می‏گیرد.واقعیت‏ مهمی که در اندازه‏گیریهای تستی وجود دارد این است که آزمودنیها می‏توانند پاسخ درست را از طریق حدس به دست‏ آورند.بنابراین،احتمال پاسخ درست،مؤلفه کوچکی را که ناشی از حدس است نیز دربرمی‏گیرد.هیچ یک از دو مدل خم‏ ویژه سؤال که بحث آن گذشت پدیده حدس را به حساب نمی‏آورند.


برن بام‏3(8691،نقل از بیکر،2002/1831)در مدل منطقی دو پارامتری تغییری ایجاد کرده است که برپایه آن


feeble .(1)


modeling .(2)


Birnbuam .(3)



روانشناسنان ایرانی » شماره 14 (صفحه 201)

--------------------------------------------------------------------------------


مروری بر پژوهشها


پارامتر دیگری را که بیانگر سهم حدس در احتمال پاسخ درست است نیز دربرمی‏گیرد.بنابراین،مدل سه پارامتری این‏ واقعیت را که مجانب پایین خم ویژه سؤال با احتساب حدس،ممکن است مستلزم پذیرش مقادیر غیر صفر1باشد،آشکار می‏کند(هاروی و هامر،9991).یکی از اثرات جانبی کاربرد پارامتر حدس،تغییر تعریف دشواری است.برپایه دو مدل پیشین،پارامتر b نقطه‏ای در مقیاس توانایی است که احتمال به دست آوردن پاسخ درست در آن برابر با 0/5 است. اما اکنون حد پایین خم ویژه سؤال نه عدد صفر بلکه مقدار C است.ازاین‏رو،می‏توان پارامتر C را به عنوان پایین‏ترین‏ سطح مقدار احتمال پاسخ درست تعریف کرد.بنابراین،پارامتر دشواری معرف نقطه‏ای در مقیاس توانایی است که احتمال‏ پاسخ درست آن دقیقا برابر با متوسط C و 0/1 است.


نمونه‏ای از خم ویژه و تابع آگاهی سؤال برپایه مدل سه پارامتری در شکل 1 نشان داده شده است.در این نمودار می‏توان به راحتی مشاهده کرد که چگونه پارامتری اول و دوم در متأثر از پارامتر سوم(حدس)هستند.سطح دشواری یا بتا برابر با 0/21 است.درحالی‏که پارامتر حدس برابر با 0/71 و قدرت تشخیص نیز در سطح 0/29 قرار دارد.ویژگیهای‏ این سؤال نشان می‏دهد که برای یک آزمون توانایی بسیار مناسب است.معادله تابع منطقی سه پارامتری به قرار زیر است:


(به تصویر صفحه مراجعه شود) شکل 1:نمودار خم ویژه و تابع آگاهی سؤال در مدل سه پارامتری


Pi(?j)ci+1+exp]-Dai(?j-bi)[/1-ci 


در ادامه مثالهای بالا،احتمال پاسخ درست برای سؤالی با همان مقادیر دشواری و قدرت تشخیص،که احتمال حدس‏ در آن برابر با 0/2 باشد برای فردی در سطح توانایی 0/3- (?) ،برابر با 0/592 خواهد بود.در اینجا نیز مشاهده‏ می‏شود که چگونه احتمال پاسخ درست با محاسبه پارامتر سوم(حدس)تغییر می‏کند.


در مورد کارکرد و مبانی مدل سه پارامتری بین صاحبنظران اختلاف‏نظر وجود دارد(موناهان،لی و بانکمن،7002؛ بیکر،1831/2002؛تورنتون،0002).به اعتقاد بیکر(1831/2002)تغییری که برن باوم در مدل دو پارامتری،به منظور گنجاندن عامل حدس ایجاد کرده،موجب شده است برخی از ویژگیهای خوب ریاضی تابع منطقی از دست برود و واقعیت‏ این است که مدل سه پارامتری از نظر فنی یک مدل منطقی(لوجستیک)به حساب نمی‏آید.افزون بر این در مدل سه‏ پارامتری به سبب وجود پارامتر حدس،خم ویژه تست در مقایسه با مدل دو پارامتری،با پارامترهای دشواری و قدرت تشخیص‏ یکسان،خطی‏تر و سطح کلی تابعش آگاهی آن پایین‏تر است.در شرایطی که مقادیر a و b در هر دو مدل یکسان باشد،تابع‏ آگاهی مدل دو پارامتری برابر با حد بالایی تابع آگاهی در مدل سه پارامتری خواهد بود.اما نتایج پژوهش هاسکنز و دی‏ بوئک(1002)کارکرد مدل سه پارامتری را به گونه دیگری نشان می‏دهد.به اعتقاد این پژوهشگران: برپایه مدل سه پارامتری چهار چوبی برای مدلسازی داده‏های مؤلفه‏ای‏2ارائه می‏شود که از مدلهای نظریه‏ سؤال-پاسخ برای سؤالهای چند ارزشی استفاده می‏کند.این چهار چوب دقتهای پاسخ‏3را نسبت به تکالیف‏ پیچیده شناختی،که براساس عناصر اساسی‏تر مانند ساختارهای دانش،فرایندهای شناختی و راهبردها تجزیه‏ می‏شود،مدلسازی می‏کند(ص 91). nonzero .(1)


componential data .(2)


response accuracies .(3)



روانشناسنان ایرانی » شماره 14 (صفحه 202)

--------------------------------------------------------------------------------


مروری بر پژوهشها



مدل چهار پارامتری

یکی دیگر از مدلهای کمتر شناخته شده‏ IRT ،مدل چهار پارامتری است.در این مدل افزون بر سه پارامتر a ، b و c ،پارامتر چهارم،یعنی مجانب بالای خم ویژه سؤال‏ (ū) نیز برآورد می‏شود.برپایه این مدل،احتمال عدم‏موفقیت حتی برای‏ تواناترین آزمودنیها در سؤالهای بسیار دشوار قابل ملاحظه و برآورد خواهد بود.با آنکه مدل چهارم پارامتری از لحاظ مفهومی بسیار جالب است،از لحاظ عملی مطالعات کمی در مورد آن انجام شده است.زیرا تعداد پارامترهایی که باید برای‏ آن برآورد شود بسیار زیاد است(سیجتسما و همکر،0002).در IRT مدلهای دیگری مانند مدل منطقی یک-پارامتری‏3 (OPLM) ،بتای دو جمله‏ای مرکب چهار پارامتری‏4 (4PBCB) توسعه یافته که شرح آنها در این مقاله کوتاه نمی‏گنجد. از خوانندگان علاقمند دعوت می‏شود تا برای مطالعه بیشتر به منابعی معتبر در این زمینه مانند موناهان،لی و بانکمن‏ (7002)،سیجتسما و همکر(0002)،لرد(0891)مراجعه کنند.


با آنکه مدلهای نظریه سؤال-پاسخ امکانات گسترده‏ای در اختیار تست‏سازان و روان شناسان قرار داده است،به اعتقاد برخی صاحبنظران(هاروی و هامر،9991؛تورنتون،2002)دانستن محدودیتهای آن از اهمیت زیادی برخوردار است. پژوهشگران باید همواره به یاد داشته باشند که هنگام اندازه‏گیری،در واقع در حال برازش یک مدل ریاضی با مفروضه‏ها و محدودیتهای معینی هستند و هیچ تضمینی هستند و هیچ ندارد که مدلهایی که برای یک راهبرد معین در IRT به کار می‏رود برازش کافی با داده‏ها داشته باشد.



منابع

بیکر،اف.بی.(1831).پایه‏های اساسی در تئوری سؤال پاسخ(نظریه‏های جدید روان‏سنجی).ترجمه حیدر علی هومن و علی عسگری،تهران،نشر پارسا (تاریخ انتشار اثر اصلی،2002).


Embretson,S.E. Reise,S.P.(2000).Item response theory for psychologists.Mahwah,NJ:Erlbaum. 


Hambleton.R.K.,Swaminathan,H., Rogers,H.J(1991).Fundamentals of item response theory.Newbury Park,CA:Sage Press. 


Harvey,R., Hammer,A.(1999).Item response theory.Counseling Psychologist,27,353-383. 


Hoskens,M., Deboeck,P.(2001).Multidimensional componential item response models for poly- tomous items.Applied Psychological Measurement,25,19-37. 


Lord,F.M.(1980).Applications of item response to practical testing problems.Hillsdale,NJ:Erlbaum 


Monahan,P.O.,Lee,W., Ankenmann,R.D.(2007).Generating Dichotomous Item Scores with the Four- Parameter Beta Compound Binomial Model.Journal of Educational Measurement,44,211-225. 


Sijtsma,k., Hemker,B.T.(2000).A taxonomy of IRT models for ordering persons.Journal of Educational and Behavioral Statistics,25,391-415. 


Thornton,A.(2002).Aprimer on 2-and3-parameter item response theory models.Paper presented in Annual Meeting of the College of Education,University of North Texas(2nd,Denton,TX,February 1). 


Thissen,D. Orlando,M.(2001).Item response theory scored in two categories.In D.Thissen Wainer,H.(Eds.),Test scoring(pp.73-140).Mahwah,NJ:Lawrence Erlbaum Associates,Inc. 


Wright,B.D.(1992).IRT in the 1990s:Which models work best?Rasch Measurement Transactions,6(1),196-200 


One-Parameter Logistic Model .(1)


Four Parameter Beta Compound Binomial .(2)



پایان مقاله


مقایسه مدل های اندازه گیری (کلاسیک و سؤال پاسخ) از لحاظ برآورد پارامترهای سؤال و توانایی

URL : http://www.noormags.com/view/Magazine/ViewPages.aspx?ArticleId=216353

عنوان مقاله: مقایسه مدل های اندازه گیری (کلاسیک و سؤال پاسخ) از لحاظ برآورد پارامترهای سؤال و توانایی (16 صفحه)

نویسنده : فراهانی، مهدی

چکیده :


کلمات کلیدی :


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 83)

--------------------------------------------------------------------------------



مقایسهء مدل‏های اندازه‏گیری(کلاسیک و سؤال-پاسخ)از لحاظ برآورد پارامترهای‏ سؤال و توانایی

معرفی مقاله


نوشتهء مهدی فراهانی


نظریه‏های اندازه‏گیری از یک بعد به دو دستهء اساسی تقسیم‏ می‏شود:نظریهء کلاسیک و نظریه‏های جدید اندازه‏گیری (IRT) 1. این پژوهش از طریق داده‏های حاصل از اجرای سه آزمون‏ ریاضیات،فیزیک و درس فنی که در مورد 430 نفر از داوطلبان‏ کنکور داخلی وزارت نیرو اجرا شده بود،به‏مقایسهء نظریات‏ کلاسیک و جدید از لحاظ برآورد پارامترهای سؤال و توانایی‏ پرداخته است.


تحلیل‏های کلاسیک داده‏ها از طریق برنامهء SPSS و برآورد پارامترهای سؤال و توانایی برحسب مدل‏های جدید اندازه‏گیری از طریق نرم‏افزار رایانه‏ای BILOG در کالیفرنیای آمریکا انجام‏ گرفته است.مقایسهء مدل‏های مختلف اندازه‏گیری از نظر برآوردهای‏ متفاوت یا مشابه پارامترهای سؤال به‏وسیلهء تابع آگاهی و آزمون t وابسته،به آزمون و ارزیابی گذاشته شد.نتایج نشان داد که مدل‏ کلاسیک و مدل‏های IRT برآوردهای متفاوتی برای پارامترهای‏ سؤال به‏دست می‏دهند و برآورد پارامترهای سؤال برپایهء مدل‏های


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 84)

--------------------------------------------------------------------------------


IRT ،به‏ویژه مدل سه پارامتری،دقیق‏تر از برآورد پارامترهای سؤال‏ براساس مدل کلاسیک و مدل‏های ساده‏تر IRT است.مقایسهء مدل‏ها از نظر برآورد متفاوت پارامتر توانایی آزمودنی‏ها به‏وسیلهء آزمون کای اسکوئر آزموده شد.نتایج این مرحله نیز تفاوت مدل‏ها را در برآورد پارامتر توانایی آشکار ساخت و نشان داد که مدل سه‏ پارامتری نسبت به مدل کلاسیک و حتی مدل‏های یک و دو پارامتری IRT برآوردهای متفاوت‏تر و دقیق‏تری ارائه می‏دهد.


این مقاله خلاصه‏ای است از پایان‏نامهء تحصیلی دورهء کارشناسی ارشد آقای مهدی فراهانی،کارشناس آموزش وزارت نیرو که با راهنمایی آقای دکتر محمد کاظم سلیمی‏زاده،عضو هیأت علمی‏ دانشگاه علامه طباطبایی تهیه‏شده و در اختیار فصلنامه قرار گرفته‏ است.بدین وسیله از ایشان سپاس‏گزاری می‏شود.


«فصلنامه»



تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 85)

--------------------------------------------------------------------------------


مقدمه

مدل یا نظریه،رکن اساسی هر رشتهء علمی محسوب می‏شود.دراندازه‏گیری و روان‏سنجی نیز نظریه‏ها و مدل‏هایی وجود دارد که از لحاظ تاریخی و سیر روند تکاملی،به‏ دو دستهء کلاسیک(نظریهء ضعیف نمرهء حقیقی)و سؤال-پاسخ(به اختصار IRT )تقسیم‏ می‏شوند(1).


مبانی مدل کلاسیک اندازه‏گیری را در اوایل قرن حاضر،اسپیرمن معرفی و پایه‏ریزی‏ کرد(2).این مدل سپس در دو کتاب گالیکسن و لرد و ناویک به اوج توسعه و بسط خود رسید(3 و 4)اما هم‏زمان با بسط این مدل،ضعف‏های جدی آن بیش‏تر آشکار شد و روان‏سنجان و متخصصان آزمون‏سازی را بیش از پیش به‏سمت مدل‏های جدید سوق داد (5).از نیمهء دوم قرن بیستم به‏تدریج زمینهء ارائهء نظریات جدید مطرح شد و کسانی مانند لرد (6)،راش(به‏نقل از رایت،1977)(7)،برن‏بام(8)،رایت و همبلتون(9)در این مسیر گام‏های مؤثری برداشتند.


هم‏اینک فعالیت‏های آزمون‏سازی و اندازه‏گیری در زمینه‏های مختلف-از پیشرفت‏ تحصیلی گرفته تا سنجش نگرش‏ها و...-در آمریکا و اروپا و براساس مدل‏های جدید (IRT) بررسی و ساخته می‏شود و مدل کلاسیک اعتبار بیش‏تر برای بحث در مورد تاریخچهء نهضت آزمون‏سازی یا برآورد پارامترهای نظریات جدید به‏عنوان برآورد اوّلیه‏ و مقدماتی مورد استفاده قرار می‏گیرد.معلمان هرچند در محدودهء کلاس درس به‏ظاهر کم‏تر می‏توانند از مدل‏های اندازه‏گیری بهره ببرند اما اطلاع از مبانی نظری طراحی،اجرا و تجزیه و تحلیل آزمون‏های پیشرفت تحصیلی و یافته‏های جدید،بینش و بصیرت بهتری در مورد یکی از وظایف مهم معلمان-یعنی سنجش محصلان-در اختیار آن‏ها قرار می‏دهد.



مطالعهء منابع مربوط به موضوع پژوهش

در بعضی از مطالعات قبلی،محققان به‏مقایسهء مدل‏ها از نظر دقت برآورد پارامترهای‏ سؤال و توانایی پرداخته و برخی دیگر،تأثیر حجم نمونهء آزمودنی و سؤال یا نقض‏ مفروضات را در برآورد پارامترها بررسی کرده‏اند.با توجه به محدودیت مقالهء حاضر، به‏طور عمده نتایج دستهء اوّل(مقایسهء مدل‏ها در برآورد پارامترها)ارائه می‏شود.


یکی از نتایج مطالعات مربوط به‏مقایسهء دقت برآورد پارامترها در مدل‏های‏ اندازه‏گیری حاکی از آن است که مدل منطقی سه پارامتری نسبت به مدل‏های یک و دو پارامتری با آزمون‏های 20 سؤالی در برآورد جایگاه افراد در صفت مکنون و رتبه‏بندی‏ آزمودنی‏ها براساس صفت مورد سنجش دارای قدرت بیش‏تری است.نکتهء دیگر آن‏که


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 86)

--------------------------------------------------------------------------------


پژوهشگران با تقسیم آزمودنی‏ها به دو گروه بالا و پایین(0 تا 5/2-- ?L و 5/2 تا 0- ?u ) و مقایسهء دقت برآورد جایگاه حقیقی افراد برحسب مدل‏های IRT ،نشان دادند که افزایش‏ دقت و قابلیت پیش‏بینی توانایی افراد توسط مدل سه پارامتری نسبت به سایر مدل‏ها،در گروه‏های باتوانش پایین بیش‏تر از گروه‏های باتوانش بالاست؛زیرا امکان استفاده از حدس‏ و شانس کاذب در گروه‏های با توانایی کم بیش‏تر است و تنها مدل سه پارامتری در برآورد پارامترها به‏عامل Ci (مجانب پایین ICC )توجه می‏کند.مقایسهء مدل‏های یک و دو پارامتری(بررسی تأثیر پارامتر قدرت تشخیص سؤال در برآورد توانایی افراد)تمایز و تفاوت جدی نشان نداد(10).


راید برای تحلیل داده‏های چهار خرده آزمون مورد استفاده-شامل محاسبات عددی، تجسم فضای سه‏بعدی،خزانهء لغات و استدلال ریاضی-از نرم‏افزارهای BILOG و TESTFACT بهره گرفت و براساس یک نمونهء 406 نفره از آزمودنی‏ها و با حذف‏ سؤال‏هایی که کم‏تر از 75 درصد آزمودنی‏ها به آن‏ها پاسخ داده بودند،نتیجه گرفت که هر چهار خرده‏آزمون از لحاظ سطح دشواری سؤال‏ها و قدرت تشخیص افراد در سطوح‏ مختلف توانایی،تفاوت داشته است.بنابراین،مدل‏های یک و دو پارامتری از لحاظ برآورد پارامترها تفاوت معنی‏دار نشان داده‏اند(11).


هومن در تحقیقی با استفاده از آزمون تهران-استنفرد-بینه (TSB) (12)به بررسی و مقایسهء برآورد پارامترهای دشواری و توانایی پرداخت و درواقع،توانمندی مدل راش را در برآورد پارامترها در شرایط نقض مفروضات بررسی کرد.نتیجهء کلی تحقیق مذکور آن‏ است که مدل راش برای برآورد پارامتر دشواری سؤال‏ها وقتی ai سؤال‏ها تفاوت دارد، مناسب نیست اما برای برآورد توانایی افراد مناسب و خوب است(13).


در مورد مدل دوپارامتری و تفاوت برآورد توانایی برپایهء آن و مدل کلاسیک، انصارین به پژوهش دست زد.او با استفاده از داده‏های حاصل از اجرای آزمون هوش‏ تهران-استنفرد-بینه (TSB) به برآورد منحنی ویژهء سؤال‏ها،پارامترهای دشواری و قدرت تشخیص سؤال‏ها و توانایی آزمودنی‏ها اقدام کرد.نتیجه آن‏که نمرات خام یکسان‏ دارای برآورد یکسانی از توانایی و موقعیت آزمودنی بر روی پیوستار مکنون نبودند(14 و 15).


دیوجی طی یک بررسی،کاربرد مدل یک پارامتری راش را برای سؤال‏های چند گزینه‏ای مورد بررسی قرار داده است اما به‏رغم استفاده از مدل راش برای برآورد پارامترها در سؤال‏های چند گزینه‏ای،به‏عقیدهء دیوجی به‏علت نبود پارامتر حدس و قدرت‏ تشخیص یکسان در مدل راش،این کاربردها درست نیست(16).البته علاوه بر دیوجی،


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 87)

--------------------------------------------------------------------------------


محققان دیگری هم به نامناسب بودن استفاده از مدل راش برای سؤال‏های چند گزینه‏ای‏ اشاره کرده‏اند؛از جمله،آندرسن عدم برازش مدل را به نابرابری قدرت تشخیص نسبت‏ داده است.همبلتون و تراب نشان داده‏اند که مدل دوپارامتری،توزیع نمرات را بهتر از مدل راش پیش‏بینی می‏کند(9).


همبلتون و موری از طریق نمودار باقی‏مانده برای آزمون‏های ریاضی،برازش مدل سه‏ پارامتری و عدم برازش مدل تک‏پارامتری را برای داده‏ها مطرح کرده‏اند(16).


یکی از موضوع‏ها و نکات مهم در مورد مدل‏های IRT ،حجم نمونهء آزمودنی‏ها و سؤال‏ است.این دو عامل،به‏ویژه در مدل سه‏پارامتری،می‏تواند بر برآورد پارامترهای سؤال و توانایی تأثیرات جدی داشته باشد.همبلتون و کوک در یک مطالعه با انتخاب آزمون‏هایی‏ با سه طول 10،20 و 80 سؤالی و نمونه‏هایی با حجم 50،200 و 1000 آزمودنی به‏ بررسی اثرات حجم نمونهء آزمودنی و ویژگی‏های خزانهء سؤال و تعداد سؤال بر خطای‏ استاندارد برآورد توانایی اقدام کردند.طول آزمون 10 سؤالی حد اقل طول ممکن برای‏ یک آزمون و آزمون 80 سؤالی نیز از طول‏های متداول تست است.در مورد حجم نمونهء آزمودنی 50 و 1000 نفر نیز به‏همین‏گونه استدلال کرده‏اند.سؤال‏ها از دو خزانهء سؤال‏ استخراج شدند.در عمل،سؤال‏های خزانهء 1 دارای دامنهء عریض‏تری برای پارامترهای‏ دشواری و قدرت تشخیص سؤال بودند.پارامتر حدس هردو خزانهء سؤال 25/0 در نظر گرفته شد.جمع‏بندی نتایج این مطالعه به‏صورت زیر است:


1.حجم نمونهء پاسخ‏گویان و طول آزمون،دو عامل بسیار مهم در دقت منحنی‏های SE(?) است.موارد نقض و استثنای این امر به نوسانات نمونه‏گیری مربوط می‏شود.


2.در کرانه‏های پیوستار توانایی،دقت منحنی‏های SE(?) حتی با وجود نمونه‏های‏ بزرگ آزمودنی،بسیار پایین است.


3.در اکثر موارد با نمونه‏های 200 آزمودنی و 20 سؤال،دقت برآورد خطای‏ استاندارد توانایی قابل قبول خواهد بود.البته این نکته بیش‏تر در دامنهء وسط توانایی‏ [1+،1-]صادق است.


4.افزایش طول تست از 10 به 20 سؤال بیش از افزایش آن از 20 به 80 سؤال،دقت‏ SE را بهبود می‏بخشد.


5.در مورد حجم نمونه نیز افزایش افراد از 50 به 200،بیش از 200 به 1000 نفر دقت‏ برآورد SE را ارتقا می‏دهد(17).


لرد طی یک مطالعه و ضمن مقایسهء مدل‏های یک و دوپارامتری IRT در برآورد نمرهء حقیقی آزمودنی‏ها،تلاش کرده است تأثیر حجم نمونه را بررسی کند.داده‏های مطالعه


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 88)

--------------------------------------------------------------------------------


شامل پاسخ 3000 دانش‏آموز کلاس ششم به آزمون خزانهء لغات متروپولیتن با برنامه‏ LOGIST تجزیه و تحلیل شده است.نتایج مطالعه نشان داد وقتی حجم نمونه کوچک‏ باشد،پارامتر قدرت تشخیص (ai) سؤال‏ها و پارامتر مجانب یا حدس سؤال‏ها (ci) را نمی‏توان به‏دقت تعیین کرد.ازاین‏رو،در بعضی موقعیت‏های معین و محدود و با حجم‏ نمونهء کوچک‏تر از 100 یا 200 آزمودنی،برآوردکنندهء نمره حقیقی X آزمودنی در مدل‏ راش(یک‏پارامتری)می‏تواند اندکی بهتر از برآوردکنندهء نمرهء حقیقی برپایهء مدل دو پارامتری باشد(6).



بیان اهداف و فرضیه‏های پژوهش

هدف اصلی پژوهش حاضر مقایسهء مدل‏های اندازه‏گیری(کلاسیک و سؤال-پاسخ)از لحاظ برآوردهای متفاوت یا مشابهی است که برای پارامترهای سؤال‏های آزمون و توانایی‏ آزمودنی‏ها به‏دست می‏دهند.


فرضیه‏های این پژوهش که آزمون آن‏ها مورد توجه است،عبارت‏اند از:


1.کاربرد مدل‏های سؤال-پاسخ(با تعداد پارامتر مناسب)برای برآورد دقیق‏ مشخصات سؤال بر مدل کلاسیک برتری دارد.


2.برآورد توانایی آزمودنی‏ها با استفاده از مدل‏های IRT (با تعداد پارامتر مناسب)از برآورد توانایی افراد برپایهء مدل کلاسیک دقیق‏تر است.


3.در صورت وجود عامل حدس در پاسخ دادن به سؤال‏ها،افزودن پارامتر حدس (Ci) به مدل IRT ،مدل برازنده‏تری برای داده‏ها ایجاد می‏کند.



روش اجرای پژوهش


الف.آزمودنی‏ها

جامعهء این پژوهش را همهء داوطلبان آزمون ورودی دوره‏های داخلی وزارت نیرو تشکیل می‏دهد و نمونهء تحقیق تعداد 553 نفر از داوطلبانی هستند که در آزمون داخلی‏ گزینش دانشجو(مورخ 6/3/1373)در رشتهء قدرت(مقطع کاردانی)شرکت کرده‏اند. برای نمونه‏برداری همهء شرکت‏کنندگان انتخاب شدند.در واقع،شرکت‏کنندگان در آزمون‏ مذکور نمونه‏ای از همهء داوطلبان فرض شده‏اند.حجم نمونهء اوّلیه 553 نفر بود اما تعدادی از پاسخ‏نامه‏ها به‏علت مخدوش و غیرقابل استفاده بودن از نمونه حذف شد و حجم نمونهء نهایی به 430 نفر کاهش یافت.



تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 89)

--------------------------------------------------------------------------------



ب.روش‏های آماری

برای تجزیه و تحلیل داده‏ها ابتدا در ایران مشخصه‏های کلاسیک سؤال‏ها و آزمون‏ها محاسبه شد.سپس داده‏ها که شامل پاسخ‏های 430 آزمودنی به سؤال‏های چهار گزینه‏ای سه‏ خرده‏آزمون 20 سؤالی بود،از طریق نظام شبکهء جهانی اطلاعات (Internet به یکی از دانشگاه‏های آمریکا(دانشگاه UCLA )ارسال گردید.پس از تحلیل داده‏ها با نرم‏افزار بای‏لوگ،خروجی کامپیوتر شامل برآورد پارامترهای سؤال و توانایی افراد،به ایران‏ فرستاده شد.13خلاصهء اطلاعات در مورد خرده‏آزمون ریاضیات به‏همراه نمودارهای‏ دشواری و قدرت تشخیص سؤال‏ها در پایان مقاله ارائه شده است(نمودار شمارهء 1 و 2 و جدول شمارهء 4).


برای تعیین برتری مدل‏های سؤال-پاسخ بر مدل کلاسیک در برآورد دقیق مشخصات‏ سؤال(فرضیهء 1 پژوهش)از یک ابزار نیرومند نظریات جدید اندازه‏گیری به نام تابع‏ آگاهی‏14استفاده شد.تابع آگاهی نظامی است که ورودی آن پارامترهای سؤال و خروجی‏ آن میزان آگاهی‏دهندگی آزمون می‏باشد.متفاوت بودن تابع آگاهی یک آزمون برحسب‏ مدل‏های اندازه‏گیری،بیانگر تفاوت مدل‏ها از برآوردهایی است که برای پارامترهای‏ سؤال‏های آزمون مذکور محاسبه شده است.برای بررسی معناداری تفاوت تابع آگاهی‏ آزمون‏ها به‏علت وابسته بودن داده‏ها،از آزمون t برای داده‏های وابسته استفاده شد و تابع‏ آگاهی هر آزمون که براساس مدل‏های یک و دوپارامتری و کلاسیک برآورد شده بود،با تابع آگاهی همان آزمون در مدل سه‏پارامتری مقایسه گردید.معناداری تفاوت این توابع‏ آگاهی با t آزمون شد.


به‏منظور آزمون فرضیهء دوم-تفاوت یا عدم تفاوت مدل‏ها در برآورد توانایی و سطح‏ صفت مکنون آزمودنی‏ها-از آزمون مجذور کای از نوع نیکویی برازش استفاده شد تا مدل‏های یک و دوپارامتری و کلاسیک را در مقایسه با مدل سه‏پارامتری آزمون کند. برای این منظور،ابتدا نمرات به مقیاس استاندارد یا Z برده شدند و سپس به 12 طبقه از [5/2-،3-]تا[3،5/2]تقسیم گردیدند.آن‏گاه فراوانی طبقات براساس آزمون نیکویی‏ برازش با درجات آزادی‏1- k - df مقایسه و در دو سطح معناداری 05/0 و 01/0 بررسی‏ شد.


برای بررسی و تعیین برازش یا عدم برازش هریک از مدل‏های IRT با داده‏ها،یعنی به‏ منظور آزمون فرضیهء 3 پژوهش مبنی بر برازندگی بیش‏تر مدل سه‏پارامتری نسبت به سایر مدل‏های IRT ،نرم‏افزار BILOG از نوعی آزمون مجذور کای استفاده می‏کند.فرض صفر آزمون نیکویی برازش مدل-داده‏ها بر تناسب و برازش مدل با داده‏ها تأکید می‏ورزد و در


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 90)

--------------------------------------------------------------------------------


واقع،تفاوت مدل با داده‏ها را انکار می‏کند و فرض خلاف عدم برازش را بیان می‏دارد.در عمل،سطح احتمال مجذور کای محاسبه‏شدهء هر سؤال با 01/0 و 05/0 مقایسه می‏شود. در صورت بزرگ‏تر بودن سطح احتمال هر سؤال از 01/0 یا 05/0،نتیجه گرفته می‏شود که سؤال با مدل دارای برازش نسبی(05/0> ? >01/0)یا برازش کامل(05/0< ? ) است.



پ.ابزار گردآوری داده‏ها

ابزار مورد استفاده برای گردآوری داده‏های پژوهش شامل سه آزمون بیست سؤالی‏ ریاضیات،فیزیک و درس فنی به‏صورت چهار گزینه‏ای بوده است.درس‏های مذکور جزء مواد امتحانی اصلی و مشترک آزمون‏های گزینش دانشجو در وزارت نیرو به‏شمار می‏روند.سایر مواد امتحانی تعداد آزمودنی کمی دارد.این آزمون‏ها به‏وسیلهء متخصصان‏ حیطه‏های مزبور که معمولا جزء کارشناسان وزارت نیرو هستند،طراحی و تهیه می‏شود.در مورد نحوهء اجرای ابزار تا حد قابل قبولی می‏توان شرایط استاندارد و اصولی را برای آن‏ها در نظر گرفت.از جمله در ابتدای دفترچهء آزمون دربارهء شیوهء پاسخ‏گویی به‏ سؤال‏ها،مدت زمان اجرا،وجود نمرهء منفی در آزمون،تعداد سؤال‏های هر خرده‏آزمون و ...توضیحاتی ذکر شده است.



یافته‏های پژوهش

برای آزمون فرضیهء 1،مقایسهء مدل سه‏پارامتری و مدل کلاسیک از نظر برآوردهایی‏ که برای پارامترهای سؤال‏ها به‏دست می‏دهند،از تابع آگاهی خرده‏آزمون‏ها بهره گرفته شد. تفاوت توابع آگاهی هر آزمون که حاصل مدل‏های مختلف بود،محاسبه و با آزمون t برای‏ داده‏های وابسته آزمون شد.نتایج نشان داد که نه تنها بین تابع آگاهی هر آزمون براساس‏ مدل کلاسیک تفاوت قابل توجهی دیده می‏شود و این تفاوت حتی در سطح‏ 01/0> ? و با بیش از 99 درصد اطمینان معنادار است بلکه توابع آگاهی مدل‏های دو پارامتری و یک‏پارامتری نیز برای آزمون از تابع آگاهی هر خرده‏آزمون براساس مدل‏ کلاسیک در همین سطح تفاوت معناداری دارد.در واقع،با درجهء آزادی 32 و مقدار t مبین 45/2 تنها توابع آگاهی آزمون‏ها بین مدل‏های یک و دوپارامتری معنادار نبود و سایر مقادیر همه تفاوت معناداری داشتند.بنابراین،می‏توان گفت علاوه بر مدل سه‏ پارامتری IRT ،حتی مدل‏های دو و یک‏پارامتری نیز پارامترهای سؤال‏ها را دقیق‏تر و مناسب‏تر از مدل کلاسیک برآورد می‏کنند و فرضیهء صفر رد و فرضیهء اوّل پژوهش با بیش‏ از 99 درصد اطمینان تأیید می‏شود(جدول شمارهء 1).



تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 91)

--------------------------------------------------------------------------------


جدول شمارهء 1-محاسبهء آزمون t گروه‏های وابسته برای تفاوت بین توابع آگاهی آزمون‏ها برحسب مدل‏های مختلف


(به تصویر صفحه مراجعه شود) 45/2-01/0 t(cr) 69/1-05/0 t(cr) 32- df 33- n 


فرضیهء 2 مدعی است که مدل سه‏پارامتری نظریهء سؤال-پاسخ توانایی افراد را نسبت به‏ مدل کلاسیک اندازه‏گیری به‏گونه‏ای متفاوت و دقیق‏تر برآورد می‏کند.به این ترتیب،باید برای آزمون این فرضیه،تفاوت مدل سه‏پارامتری از مدل کلاسیک در برآورد توانایی‏ بررسی شود.به این منظور،آزمون مجذور کای بین مدل سه‏پارامتری و مدل کلاسیک‏ (البته مدل‏های دو و یک‏پارامتری نیز)اجرا شد تا تفاوت فراوانی‏های افراد در طبقات‏ مختلف آزمون شود.نتایج نشان داد که نه تنها توانایی برآوردشده برای افراد براساس مدل‏ سه‏پارامتری از مدل کلاسیک متفاوت است بلکه حتی مدل‏های دو و یک‏پارامتری نیز در برآورد پارامتر توانایی آزمودنی‏ها با مدل سه‏پارامتری تفاوت و تمایز دارد.این امر در سطح 01/0> ? هم معنی‏دار بود.از سوی دیگر،از آن‏جا که مدل سه‏پارامتری از لحاظ تعداد پارامتر مناسب‏ترین مدل برای داده‏های حاضر محسوب می‏شود و طبق نتایج آزمون‏ خوبی برازندگی،برازش و مناسبت کاملا آشکاری با داده‏های پژوهش دارد،توانایی‏ برآوردشده برای افراد را که از مدل سه‏پارامتری به‏دست آمده است،می‏توان دقیق‏تر و مناسب‏تر از توانایی حاصل از سایر مدل‏های اندازه‏گیری تلقی کرد.بنابراین،فرضیهء صفر رد و فرضیهء دوم پژوهش حاضر نیز با بیش از 99 درصد اطمینان تأیید می‏شود(جدول‏ شمارهء 2).



تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 92)

--------------------------------------------------------------------------------


جدول شمارهء 2-برازندگی مدل-داده‏ها برحسب مدل‏های IRT (تعداد سؤال‏ها)


(به تصویر صفحه مراجعه شود) 8<؟ df ؟>2 9<؟ df ؟>2 9<؟ df ؟>3


جدول شمارهء 3-مجذور کای محاسبه‏شده بین پارامتر توانایی مدل سه‏پارامتری‏ و مدل‏های دو و یک‏پارامتری و کلاسیک


(به تصویر صفحه مراجعه شود) 725/24-01/0 X2(cr) 675/19-05/0 X2(cr) 11- df 


برای آزمون فرضیهء 3 پژوهش از نوعی آزمون خوبی برازندگی استفاده شد و برازش‏ سؤال‏های آزمون با مدل‏های یک،دو و سه‏پارامتری بررسی گردید.براساس نتایج به‏دست‏ آمده،مدل سه‏پارامتری برازش چشم‏گیری با داده‏ها داشت؛درحالی‏که نه تنها مدل دو پارامتری بلکه مدل یک‏پارامتری نیز بدون برازش شناخته شد.بنابراین،فرضیهء سوم‏ پژوهش نیز با بیش از 99 درصد اطمینان و در سطح 01/0> ? معنادار شناخته شد و فرض‏ صفر رد و فرض پژوهش(خلاف)تأیید گردید.بدین ترتیب مدل سه‏پارامتری،برای‏ داده‏های آزمون‏های مورد استفاده در این پژوهش نسبت به سایر مدل‏های IRT برازنده‏تر و مناسب‏تر شناخته شد(جدول شمارهء 3).



تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 93)

--------------------------------------------------------------------------------



نتیجه‏گیری

مطابق نتایج تحقیقات و مطالعات قبلی در زمینهء نظریه‏های جدید اندازه‏گیری، IRT و مقایسهء آن با نظریهء کلاسیک آزمون،این مطالعه نیز نشان داد که در سطح بالایی از اطمینان‏ می‏توان گفت:


1.مدل‏های IRT نسبت به‏مدل کلاسیک اندازه‏گیری در برآورد پارامترهای سؤال‏ها و توانایی آزمودنی‏ها دارای مناسبت،دقت و برازندگی بیش‏تری است.این نتیجه در مورد آزمون‏های پیشرفت تحصیلی چهار گزینه‏ای که مبنای مطالعهء حاضر بوده است،با بیش از 99 درصد اطمینان صدق می‏کند.


2.در بین مدل‏های نظریهء سؤال-پاسخ (IRT) برای برآورد پارامترهای سؤال و توانایی‏ افراد،مدل سه‏پارامتری در مورد آزمون‏های پیشرفت تحصیلی چند گزینه‏ای این پژوهش، نسبت به مدل‏های یک و دوپارامتری برتری خاصی نشان داد.


3.در بین مدل‏های یک و دوپارامتری IRT از لحاظ برآورد پارامترهای سؤال‏ براساس داده‏های خرده‏آزمون‏های حاضر،تفاوت چشم‏گیری ملاحظه نمی‏شود.ازاین‏رو می‏توان تأثیرگذاری پارامتر قدرت تشخیص سؤال‏ها را بر برآورد پارامتر دشواری چندان‏ شدید و جدی ندانست.به‏زبان دیگر،سؤال‏های مورد استفاده در خرده‏آزمون‏های این‏ مطالعه دارای قدرت تشخیص خیلی متفاوت و مؤثری نیستند اما در مورد برآورد پارامتر توانایی آزمودنی‏ها،می‏توان نتیجه گرفت که براساس داده‏های حاضر،بین مدل‏های یک و دوپارامتری در مقام مقایسه با مدل سه‏پارامتری،برآورد پارامتر توانایی تا حدی متفاوت‏ است و در مورد آزمون‏های چند گزینه‏ای پارامتر شیب بر روی برآورد پارامتر توانایی‏ تأثیر داشته است.



تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 94)

--------------------------------------------------------------------------------



پی‏نوشت‏ها

(1).نظریات جدید اندازه‏گیری و روان‏سنجی نخست با اصطلاح صفت مکنون یا خصیصهء مکنون به‏شدت‏ پیوند خورد اما به‏تدریج با عنوان نظریهء سؤال-پاسخ یا Item Response Theory (با علامت اختصاری‏ IRT )یا نظریهء منحنی ویژهء سؤال رواج یافت که برای مقاصد آزمون‏سازی و تحلیل آماری داده‏ها مناسب‏تر به‏نظر می‏رسد(همبلتون،1993).


(2). Information Function 


(3).برای تحلیل داده‏ها در آمریکا به‏وسیلهء نرم‏افزار BILOG ،علاوه بر مساعی فراوان استاد محترم راهنما آقای دکتر سلیمی‏زاده،نگارنده بر خود لازم می‏داند از عنایت استاد ارجمند دکتر جمال عابدی،عضو هیأت علمی دانشگاه مذکور که تحلیل داده‏ها را مسیر کردند،تشکر و سپاس‏گزاری نماید.



منابع

1. Allen.J.M.. Yen, M.W.(1979).Introduction to measurement thoery.California: wadsworth. 


2.ثرندایک،رابرت؛روان‏سنجی کاربردی،مترجم:حیدر علی هومن،تهران،دانشگاه تهران،1369.


(به تصویر صفحه مراجعه شود)


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 95)

--------------------------------------------------------------------------------


(به تصویر صفحه مراجعه شود) 12.هومن،حیدر علی؛مقایسهء مدل تک‏پارامتری راش و مدل دوپارامتری،پایان‏نامهء منتشرنشدهء دانشگاه‏ آزاد اسلامی،1373.


13.هومن،حیدر علی؛هوش‏آزمای انفرادی تهران-استنفرد-بینه.فصلنامهء علوم تربیتی دانشگاه تهران، ویژه‏نامهء روان‏سنجی،دورهء جدید،سال یکم،شمارهء 1-4.


14.انصارین،علیرضا؛برآورد خم ویژهء سؤال و توانایی آزمودنی‏ها در مقیاس تهران-استنفرد-بینه بر پایهء مدل دوپارامتری صفت مکنون،پایان‏نامهء منتشرنشدهء دانشگاه آزاد اسلامی،1371.


15.هومن،حیدر علی؛روش تهیهء آزمون هوش،تهران،دانشگاه تهران،1375.


16. Divgi.D.R.(1986).Does the Rasch model really work for multiple choice items? Not if you look closely.Journal of Educational Measurement, 23,283-298. 


17. Hambleton, R.K.. Cook.L.L.(1983).The robustness of item response models and effects of test length and sample size on the precision of ability estimates.In D.J.Weiss(Ed.). New horizons in testing(pp.31-49).New York:Academic Press. 



تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 96)

--------------------------------------------------------------------------------



پیوست‏ها

نمودار 1


(به تصویر صفحه مراجعه شود) نمودار 2


(به تصویر صفحه مراجعه شود)


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 97)

--------------------------------------------------------------------------------


جدول شمارهء 4-آماره‏ها و پارامترهای سؤال‏های خرده‏آزمون ریاضی برحسب مدل‏های کلاسیک و سؤال-پاسخ (IRT) 


(به تصویر صفحه مراجعه شود)


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 98)

--------------------------------------------------------------------------------


پایان مقاله


خصوصیات یک مقیاس اندازه گیری خوب

خصوصیات یک مقیاس اندازه گیری خوب

 یکی از ویژگیهای متغیر قابلیت اندازه گیری آن است. چنانچه از وزن به عنوان یک   متغیر  نام  ببریم بهترین راه اندازه گیری آن بر اساس کیلوگرم یا گرم می باشد در موردقد هم سانتیمتر یا مترازعهده آن برمی آید.اما در مورد رضایت بیماران از ارائه خدمات یا میزان شنوایی یا ناتوانی و معلولیت از چه ملاک هایی باید استفاده کرد .برای اندازه گیری هر عنصر نیاز به مقیاس اندازه گیری وجود دارد.یک مقیاس خوب باید دارای ویژگیهای زیر باشد:

علمی: بر گرفته ومتناسب با اصول علمی باشد.

جامع:  بتواند تمام موارد متغیررا شامل شود.

مناسب: برای اندازه گیری آن متغیر باشد.

قوی: تلاش شود قویترین مقیاس باشد.

غیر قابل جمع: رده های مشترک نداشته باشد.

رده های کافی: موردی را فراموش نکرده باشیم.

رده های تعریف شده: گروهها و رده های آن تعریف شده باشند.

عملی: قابلیت انجام داشته باشد.

برای ارزشیابی اندازه گیری ها می توان از الگو های دیگری استفاده کرد؛الگویی که مشتمل بر ویژگی های متعددی که ما علاقه مند یم ،اندازه گیری های ما داشته باشد.

تمایز 

مرتب کردن از نظر مقدار 

فاصله های مساوی

صفر مطلق

این چهار ویژگی برای تعیین سطح اندازه گیری اسمی ،رتبه ای ،فاصله ای یا نسبی به کار برده می شود.


اهميت احاطه به آزمون سازي در زمان ساخت يا هنجاريابي به آزمون يا پرسشنامه

امروزه انواع آزمون های روانشناسی و دیگر ابزار سنجش علوم انسانی بصورت گسترده در زمینه های مختلف مورداستفاده قرار می گیرند، از جمله در مدارس، دانشکده ها، صنایع، کلینیک های روانشناسی، سازمان های دولتی و نظامی و غيره. از این رو در تمامي مراكز مهم دنيا روانسنجان و روانشناسان به خدمت گرفته مي شوند، تا ابزاري را براي سنجش اهداف مشخص و از قبل طرح شده، به روش هاي علمي تهيه نمايند.


آزمون ها به عنوان مهمترين ابزار سنجش بطور دقیق برای  سرند کردن متقاضیان مشاغل و پست هاي خدمتي، طبقه بندی و جایگزینی افراد در زمینه های مختلف، مشاوره و راهنمایی( شغلی،آموزشی و تربیتی)، ارتقاء، نگهداری یا اخراج، تشخیص و تجویز درمانهای روانی و داروئی، ارزیابی تغییرات شناختی درون فردی و بین فردی در اثر برنامه  های مداخله ای و اجرای تحقیق در باره رشد فردی در طول زمان و اثر بخشی برنامه مورد استفاده قرار می گیرند. همچنین آزمون ها جهت بررسی بسیاری از حوادث و اتفاقات روانی– اجتماعی به کار می روند(آیکن، 1991). 


اگر چه آزمون ها تصمیمات کاملا درست در باره ا فراد فراهم نمی کنند با این حال آکادمی ملی علوم در یک نشست اختصاصی به این نتیجه رسید که در کل، آزمون ها بهترین، عادلانه ترین و اقتصادی ترین روش بدست آوردن اطلاعات لازم جهت تصمیم گیری های مهم درباره افراد هستند(مورفی و دیوید شوفر، 1991). باتوجه به این که آزمون ها منشا و مقصد چنین تصمیم گیری هایی هستند، لازم است فرآیند سنجش و اندازه گیری با دقت هرچه بیشتر را انجام شوند. بنابراین بسیار مهم است زمانی که قصد استفاده از یک آزمون روانی را داریم خصوصا در اجراي با حجم بالا، تمام فرایند ساخت و هنجاریابی آن را مورد بازبینی قرار دهیم. 

فراخوان اولويت هاي پژوهشي سال 1391 پژوهشکده آمار  

به نظر من بيشتر پژوهشهاي مورد نياز توسط دانشجويان و اساتيد رشته هاي سنجش و اندازه گيري و دانشجويان جمعيت شناسي مي تواند انجام شود

در ادامه ليست اولويت هاي پژوهشي پژوهشكده ي آمار ارائه مي شود. 

باسمه تعالی

فراخوان اولويت هاي پژوهشي سال 1391 پژوهشکده آمار 



روش شناسی

1 روش تهیه تراز غذایی ایران

2 روش‌ پیش‌بینی مقدار تولید محصولات استراتژیک کشاورزی

3 محاسبه شاخص‌های اقتصادی خانوار در مناطق کوچک جغرافیایی با روش‌های برآورد نواحی کوچک

4 بررسی تفاوت‌های بین نظرسنجی با آمارگیری‌های رسمی

5 روش‌های کاهش خطاهای نمونه‌گیری در آمارگیری‌های چرخشی

6 تعدیل فصلی برآوردها در آمارگیری‌های مستمر

7 بررسی و مدل‌بندی خطای اندازه‌گیری در طرح‌های آمارگیری 

8 بررسی کاربرد داده‌کاوی در آمارهای رسمی

9 بررسی روش‌های آمارگیری از جوامع نادر

10 بررسی روش‌های آمارگیری از جوامع پنهان

11 روش برآورد سرمایه‌گذاری به تفکیک بخش‌های عمومی، خصوصی و تعاونی 

12 استفاده از آمارگيري تلفني در طرح‌های آمارگيري 

13 بررسي روش‌هاي برخورد با داده‌هاي دور افتاده در آمارگيري‌ها

14 بررسی سازگاری درونی و بیرونی نتایج آمارگیری‌ها

15 بررسی و تعیین روش جانهی و برآورد اطلاعات کارگاه‌های صنعتی برای جبران بی‌پاسخی

16 استفاده از چارچوب‌های چندگانه در آمارگیری‌ها

17 استفاده از چارچوب‌های ناحیه‌ای در آمارگیری‌ها

18 به‌کارگیری روش‌های نمونه‌گیری جدید در آمارگیری‌های نمونه‌ای با هدف بهبود برآورد

19 به‌کارگیری روش‌های انطباق رکوردها در پیوند دادگان آمارگیری‌ها

20 به‌کارگیری روش‌های هم گروه‌های ساختگی در پیوند دادگان آمارگیری‌ها

21 به‌کارگیری روش‌های چند سطحی در تحلیل نتایج آمارگیری‌ها

22 بررسی روش‌های جانهی واحد در آمارگیری‌ها

23 امکان‌سنجی استفاده از داده‌های فضایی در براوردهای کوچک ناحیه‌ای

24 بهبود دادن کیفیت سیستم گردآوری داده‌ها با استفاده از روش طرح آزمایش‌ها

25 اندازه‌گیری تأثیر عوامل مؤثر بر میزان بی‌پاسخی در آمارگیری‌های خانواری

26 ارائه‌ی براورد و پیش‌بینی جمعیت نیروهای مشمول خدمت نظام وظیفه تا سال ۱۴۰۰

27 جانهی چندگانه‌ی اقلام در آمارگیری‌ها با استفاده از سه رویکرد پارامتری، نیمه‌پارامتری و ناپارامتری

28 بررسی روش‌های ترکیب کردن داده‌های حاصل از آمارگیرهای احتمالی و نااحتمالی

29 کنترل کیفیت کدگذاری در آمارگیری‌ها با استفاده از نمونه‌گیری پذیرشی

30 روش‌های حفظ محرمانگی در انتشار داده‌ها

31 همسان‌سازی و یکپارچه کردن آدرس جغرافیایی در چارچوب‌های آماری سرشماری‌ها

32 بررسی ایجاد حوزه‌های سرشماری یکتا برای استفاده در تمامی طرح‌های آماری و سرشماری

33 تهیه نقشه کاربری اراضی برای آمارهای کشاورزی با استفاده از تصاویر ماهواره‌ای

34 بازسازی shapefile سرشماری‌های گذشته با مبنا قرار دادن نقشه‌های سال 1390

35 طرح تهیه کد شناسایی ملی آبادی‌های کشور در جهت بهبود آمارهای ثبتی

36 تطبیق جمعیت شهرهای کشور در سرشماری های 1335 تا 1390 براساس محدوده های جغرافیایی سرشماری 1390   

37 همانند سازی نتایج سرشماری 1385 و 1390 براساس تغییرات تقسیمات جغرافیایی

38 تولید آمار های مورد نیاز در زمینه مهاجرت داخلی براساس اطلاعات ثبت تغییر نشانی و کد پستی در پایگاه اطلاعات جمعیت کشور

39 توسعه آمار و اطلاعات ثبتی جمعیتی به صورت مکان محور (داده های مکانی جمعیتی)

40 بررسی روش های قابل استفاده برای سرشماری  1395

41 توسعه روش‌های ادیت و جانهی اتوماتیک برای داده‌های پیوسته در سرشماری‌ها

42 بررسی روش‌های کدگذاری اطلاعات باز


طراحی آمارگیری‌های جدید

1 طراحی آمارگیری ناتوانی در ایران

2 براورد شغل‌های ایجاد شده در کشور

3 طراحی آمارگیری مصرف دخانیات

4 طراحی آمارگیری طولی از ویژگی‌های اجتماعی- اقتصادی خانوار 

5 مطالعات تطبیقی برای اجرای سرشماری کشاورزی


محاسبه و تحلیل آمارها و شاخص‌ها

1 تهیه حساب‌های کار

2 برآورد اشتغال غیر رسمی در بازار کار ایران

3 بررسی وضعیت اشتغال در بین کودکان و نوجوانان

4 آینده‌نگری وضعیت بازار کار ایران با توجه به تحولات جمعیتی

5 تعیین و محاسبه شاخص‌های امنیت شغلی

6 بررسی شاخص‌های بازار کار در ایران طی سال‌های مختلف

7 بررسی تأثیر سرمایه‌ی انسانی (سن، تحصیلات و …) بر درآمد خانوار

8 بررسی رابطه بین تعداد افراد خانوار و درآمد خانوار

9 طراحی و ساخت جدول سالانه عمر در ایران 

10 گروه‌بندی خانوارها از نظر سطح زندگی بر اساس داده‌های طرح آمارگیری از هزینه و درآمد خانوار

11 بررسی رابطه بین سرمایه‌گذاری و ایجاد اشتغال

12 بررسی سازگاری شاخص‌های حاصل از آمارگیری نیروی کار با اطلاعات ثبتی

13 بررسی تأثیر افراد چند شغله در بازار کار کشور

14 بررسی روند نرخ مشارکت اقتصادی در کشور و متغیرهای مؤثر بر آن

15 بررسی رابطه مهاجرت با درآمد خانوار

16 برآورد تعداد خانوارهای کشور تا سال 1404

17 تعیین و محاسبه شاخص‌های نوآوری 

18 بررسی نسبت داده به ستانده در تعدیل نتایج طرح آمارگیری از کارگاه‌های صنعتی

19 پیش‌بینی تعداد واحدهای مسکونی مورد نیاز تا سال 1404

20 پیش‌بینی قیمت مسکن تا سال 1404

21 تعیین عوامل مؤثر بر تورم در سه دهه گذشته اقتصاد ایران

22 برآورد مهاجرین بین استانی در سال‌های بین دو سرشماری 1385 تا 1390

23 تقسيم‌بندي كشور به مناطق همگن كشاورزي

24 بررسی توزیع مشاغل در کشور

25 برآورد پس‌انداز و درآمد خانوار

26 بررسی روند سن ازدواج در ایران و عوامل موثر بر آن

27 بررسی رابطه شغل و درامد در کشور

28 تعیین شاخص‌های مناسب برای طبقه‌بندی کشور به مناطق همگن اجتماعی و اقتصادی 

29 بررسی جریان بازار کار دانش آموختگان مراکز آموزش عالی

30 شاخص‌های مسکن امن

31 بررسی وضعیت سواد و تحصیلات

32 بررسی وضعیت سالمندان

33 بررسی وضعیت اقتصادی و اجتماعی جوانان

34 تحلیل نتایج سرشماری عمومی نفوس و مسکن 1390 

35 شناسایی عوامل موثر بر ترک تحصیل در ایران

36 بررسی عوامل موثر بر افزایش شکاف ثروت با استفاده از روش تحلیل مولفه‌های اصلی

37 شناسایی مشخصه‌های مشترک برای تلفیق طرح نیروی کار و هزینه و درآمد خانوار

38 بررسی الگوی مصرف خانوارها پس از هدفمندسازی یارانه‌ها

39 براورد جمعیت شهرستان‌های کشور براساس تطبیق محدوده‌های جغرافیایی 1391

40 براورد مهاجرین در سال‌های بین سرشماری

41 بررسی رابطه‌ی تورم و نرخ بیکاری

42 بررسی روند و ترکیب صادرات و واردات کشور طی سال‌های متوالی

43 امکان‌سنجی پیش‌بینی رشد اقتصادی مبتنی بر مدل‌های آماری

44 بررسی هزینه‌های زندگی در کلان شهرها

45 بررسی اشتغال در ایران بر اساس تعداد ساعت کار


ارزیابی

1 ارزیابی داده‌های باروری در سرشماری‌های عمومی نفوس و مسکن با استفاده از روش‌های جمعیت شناسی

طراحی نرم‌افزارها و بانک‌های اطلاعاتی

1 طراحی نرم‌افزار بومی پیش‌بینی جمعیت

2 طراحی نرم‌افزار انطباق رکوردها در آمارگیری‌ها

3 روش‌های بررسی قابلیت اعتماد نرم‌افزارها در فرایند پردازش داده‌ها

4 امکان سنجی استفاده از نرم افزارCSPro در طرح‌های آمارگیری

5 توسعه نرم‌افزار پارس

6 تهیه نرم‌افزار شناسنامه آبادی‌های کشور

7 انطباق فایل سرشماری1390 با فایل ثبت‌ احوال

8 انطباق فایل سرشماری عشایری 1387 با فایل ثبت‌ احوال

9 تجزیه و تحلیل آمارهای ثبتی (وقایع چهارگانه حیاتی)



آموزش و سنجش

آموزش و سنجش دو پديده اي هستند كه با يكديگر در ارتباط تنگاتنگ بوده و بر همديگر اثرات

مستقيمي دارند. تغيير در شيوه ها، مطالب و معيارهاي آموزشي بر نحوه سنجش مطالب فراگرفته شده

اثر مي گذارد. به همين ترتيب تغيير در شيوه هاي سنجش نيز اثرات مستقيمي بر فرايند آموزش دارد .

بنابراين لازمة نظام آموزشي موفق كه اهداف پيش تعيين شده اي را دنبال م ي كند ، وجود يك نظام

سنجش است كه بتواند پاسخ گوي فعاليت هاي آموزشي نظام بوده، نكات قوت و ضعف آن را با شيوة

علمي روشن كرده و به متوليان مربوط، راهكار مناسب ارائه دهد (فرهادي، 1381 به نقل از كريميان ،

روانسنجی و اندازه گیری  نگاه اجمالي

روانشناسی از هنگامی به صورت یک علم مستقل درآمد که به آزمایشگاه کشیده شد، پدیده های روانی (احساس، ادراک ، یادگیری ، حافظه ، هوش ، شخصیت و … ) به صورت عینی (Objective) و عملیاتی (Operational) تعریف گردید و روشهای آماری و طرح تحقیقاتی برای اندازه گیری و کنترل آنها مورد استفاده قرار گرفت. پیش از آن موضوعات مورد مطالعه در آن اغلب کلی و مبهم و تعریف ناپذیر بودند. در واقع مطالعه و تحقیق در مورد موضوعات مختلف روان شناسی در طی قرون متمادی مورد توجه بوده است اما آنچه روان شناسی را به علت علم مستقل شناساند، استفاده از روشهای آماری و طرحهای تحقیقی برای آزمایشهای روان شناختی و ساخت وسایل روان سنجی بود. 
تعریف روان سنجی

در روان شناسی مجموعه شیوه‌هایی که به روان شناس کمک می‌کند تا پدیده‌های روانی انسان را از حالت کیفی به حالت کمی (عددی) در آورد اصطلاحا روان سنجی (Psychometrics) می‌گویند. روان سنجی در معنای وسیع کلمه به معنی استفاده از روشهای آماری و آزمایش و در معنای محدود کلمه به معنی بهره گیری از آزمونهای روانی برای اندازه گیری پدیده‌های روانی است. 
اهمیت روان سنجی و اندازه گیری

اهمیت استفاده از روشهای آماری در روان شناسی

آمار یکی از کاربردی‌ترین شاخه‌های ریاضی است. در واقع زندگی انسان امروز با آمار پیوند خورده است و روان شناسی نیز که یکی از شاخه‌های علوم انسانی است بدون آمار در تجزیه و تحلیل مسائل ناتوان است. به عبارت دیگر مفاهیم روان شناختی این گرایش از علم اکثرا به صورت کیفی بوده و به درستی قابل کاربرد نمی‌باشد و فقط با روشهای آماری است که می‌توان به داده‌ها و نتایج قابل اعتماد دست یافت و آنها را به صورت کمی نشان داد. 
اهمیت استفاده از روان سنجی

انسانها در همه دوران به این موضوع علاقه داشتند که یکدیگر را شناخته و طبقه بندی کنند. این طبقه بندی و شناخت هم شامل مسائل جسمی (نظیر قوی و ضعیف ، سالم و بیمار و …) و مسائل روانی و ذهنی (نظیر هوش ، استعداد ، شخصیت و …) بوده است. در عصر حاضر نیز این مسئله به موضوعی بسیار مهم و حیاتی تبدیل شده است و اهمیت روان سنجی در این است وسایل علمی لازم را برای این شناخت و طبقه بندی در اختیار جامعه و متخصصان علوم انسانی قرار می‌دهد. در واقع اهمیت روان سنجی در دل سوالاتی از قبیل : چه کسی با هوش یا عقب مانده است؟ ، یک فرد بخصوص چه نوع استعدادی دارد؟ و یا چگونه می‌توان به شناختی از شخصیت و خصوصیات فردی افراد دست یافت؟ قرار دارد. 
کاربردهای روان سنجی و اندازه گیری

کاربرد روشهای آماری در روان شناسی

از لحاظ توصیفی آمار در روان شناسی کاربرد فوری و عملی دارد. آمار توصیفی روان شناس و محقق علم رفتاری را کمک می‌کند تا با نگاهی عینی و کمی با پدیده‌های روانی - اجتماعی بنگرد و آنها را توسط شاخصهای آماری نظیر میانگین (Mean) ، انحراف استاندارد (Standard deviation) و یا منحنی بهنجار (Normal curve) بیان می‌کند. از طرف دیگر کاربرد آمار به صورت استنباطی در روان شناسی به حل مسائل پژوهشی و یافتن روابط علت و معلولی (Cause and effect) ، همبستگی (Correlation) کمک کرده ، باعث توسعه و پیشرفت نظری و کاربردی روان شناسی و علوم رفتاری می‌شود. 
کاربرد روشهای روان سنجی

پیش بینی

تقسیم گیری مستلزم آن است که افراد بتوانند میزان موفقیت خود را در آینده در زمینه معینی نظیر پیشرفت تحصیلی یا شغلی پیش بینی (Prediction) کنند. روان سنجی برای اندازه گیری توانایی پیشرفت تحصیلی و سایر ویژگیهای افراد بکار می‌رود. در واقع پیش بینی بر داده‌های کمی معتبرتر و دقیقتر از تفکر واهی است. 
گزینش

در برخی از موسسات و سازمان‌ها مانند دانشکده‌ها و سازمان‌های استخدام کننده آزمونها برای گزینش (Selection) یا در بعضی افراد مورد استفاده قرار می‌گیرند. 
طبقه بندی

طیقه بندی (Classification) عبارت است از گروه بندی افراد براساس تقسیمات منطقی. طبقه بندی مستلزم آن است که معلوم شود یک فرد خاص در چه گروهی جای داده شود و یا براساس چه روشی مورد آموزش یا درمان قرار گیرد. روان سنجی ابزار و وسایل لازم را برای طبقه بندی افراد فراهم می کند. 
ارزشیابی

ابزارهای روان سنجی به منظور قضاوت و ارزشیابی (Evaluation) در مورد برنامه ، روشها ، تدابیر درمانی و میزان پیشرفت افراد و … مورد استفاده قرار می‌گیرند.