X
تبلیغات
سنجش و اندازه گیری - معرفی سنجش و اندازه گیری و روانسنجی

سنجش و اندازه گیری

سنجش و اندازه گیری سازه های انسانی و رفتاری و زمینه های وابسته به آن (ضرغامی09122263167)

معرفی کتاب درسی نظریه مدرن سئوال پاسخ

کتاب درسی نظریه مدرن سئوال پاسخ

پیشگفتار 

1. نظریه سئوال پاسخ: تاریخ مختصر، مدل های رایج، و گسترش آن ها

جیم جی. ون در لیندن و رونالد کی. رونالد کی. هامبلتون

1. مدل هایی برای سئوال ها با فرمت های چندگانه

معرفی

2. مدل دسته های صوری: آر. دارل باک

3. مدلی پاسخی برای سئوال های چهار گزینه ای: دیوید تیسن و لین استاینبرگ

4. مدل مقیاس رتبه بندی: ارلینگ بی. اندرسون

5. مدل پاسخ امتیارداده شده:فوکیمو سامه جیما

6. مدل اعتبار جزیی: جفری ان. مسترز و بنجامین دی. رایت

7. مدل مرحله ای برای تحلیل اعتبار جزئی: ان دی ورهلست، سی ای دبلیو گلاس و اچ اچ دی وریس

8. مدل های ترتیبی برای پاسخ های مرتب شده: گرهارد توتس

9. یک مدل اعتباری جزیی تعمیم یافته: ایجی موراکی

II. مدل هایی برای زمان پاسخ و یا تلاش های متعدد بر روی سئوال ها

معرفی

10. یک مدل لوژیستیک برای آزمون های زمان محدود: ان دی ورلست، اچ. اچ. اف. ام. ورسترالن و ام.جی. اچ جانسن

11. مدل هایی برای سرعت و آزمون های محدود زمانی: ادوارد. ای روسکام

12. تلاش های متعدد، مدل های سئوال پاسخ تک سئوالی: جودیت ای. اسپری

II. مدل هایی برای توانایی های متعدد و یا اجژای شناختی

مقدمه

13. مدل های خطی یک لوژیستیکی راش: گرهارد اچ فیشر

14. مدل های پاسخ با پیش بینی کننده های روشن: آئلکو ای. زوییندرمن

15. مدل چند بعدی نورمال-اوگیو: پودریک پی. مک دونالد

16.مدل های چند بعدی لوژیستیک خطی برای داده های دوگانه سئوال پاسخ: مارک دی. رکاس

17. مدل سئوال پاسخ چند بعدی خزی لاگ برای سئوال هایی که به چند روش نمره داده می شوند: هنک کلدرمن

18. مدل های پاسخ چند اجزایی: سوزان ایی امبرستون

19. مدل های لوژیستیک خطی چندبعدی برای تغییر: گرهارد اچ. فیشر و الیزابت سلیگر

IV. مدل های غیر پارامتریک

مقدمه

20. مدل های غیر پارامتری برای پاسخ های دوکانه: روبرت جی. موکن

21. مدل های غیر پارامترای برای پاسخ های چندگانه: ایوو دبلیو مولنار

22. یک رویکرد عملی برای مدل سازی داده های آزمون: جی. او. رمسی

V. مدل هایی برای سئوال های noغیر تک نوا

مقدمه

23. مدل سئوال پاسخ hyperbolic cosine برای بازکردن پاسخ ها افراد به سئوال ها:  دیوید آندریچ

24. پارلا: مدل سئوال پاسخ برای تحلیل مدل لوزی: هربرت هوجیتینک

VI. مدل هایی با فرضیات خاص در مورد فرآیند پاسخ

مقدمه

25. سئوال پاسخ گروهی متعدد: آر. دارل باک و میشل اف. زیموسکی

26. مدل های ترکیبی لوژیستیک: جیزگن روست

27. مدل هایی برای پاسخ های مبتنی بر یک محل

28. مدل های ناجور برای فرمت های آزمون که اجازه نمایش اطلاعات جزیی را می دهند: تی. پی هاچینسون




برچسب‌ها: کتاب درسی, نظریه مدرن سوال پاسخ
+ نوشته شده در  دوشنبه 25 فروردین1393ساعت   توسط محمد حسین ضرغامی  | 

معرفی یک کتاب: شناخت و سنجش

معرفی یک کتاب: شناخت و سنجش

The Learning Sciences in Educational Assessment: The Role of Cognitive Models

 کتاب علوم یادگیری در سنجش آموزشی: نقش مدل های شناختی از دکتر لیتون و گیرل، انتشارات کمبریج در سال 2011 کتابی است دارای 7 فصل که در آن مطالبی راجع به مدل های شناختی در درک مطلب، استدلال علمی و استدلال ریاضی مطرح کرده است. علاوه بر این در این کتاب مطالبی راجع به سنجش آموزشی در مقیاس بزرگ و مدل های آماری مبتنی بر شناخت نیز بحث شده است.

در مقذمه این کتاب آمده است: آزمون های پیشرفت تحصیلی در مقیاس بزرگ باید بر اساس علم یادگیری انسان طراحی کرد. نمرات آزمون، اطلاعات ارزشمندی را در مورد کیفیت یادگیری و پیشرفت تحصیلی ارایه می دهد که در آینده منجر به رشد اقتصادی و نوآوری می شود.

علوم یادگیری، حیطه ای بین رشته ای است. اگرچه پایه هایش به تکنولوژی آموزشی، مطالعات اجتماعی-فرهنگی، علوم کامپیوتر، انسان شناسی، و علوم شناختی بر می گردد، تاکید اصلی آن بر چیزی است که یادگیری انسان را موفق تر می کند. برای به حداکثر رساندن یادگیری، مکانیسم هایی که باعث یا مانع یادگیری می شوند شناسایی و بررسی شده اند. در این زمینه، علوم شناختی نقش مهمی را بازی کرده است. اثر آن می تواند به سازنده گرایی پیاژه برگردد که بر ساختارهای کیفی متفاوت دانش و تفکر کودکان را در رابطه با دانش و تفکر بزرگسالان و اهمیت آموزشی شناسایی این تفاوت ها به عنوان دانش جدید  تاکید می کند.

بر اساس نظر سایر، 5 واقعیت اساسی در مورد یادگیری عبارت است از:

1.درک مفهومی عمیقی برای استفاده از دانش لازم است.

2.نه فقط تدریس بلکه یادگیری نیز باید مورد تاکید قرار گیرد.

3.محیط یادگیری باید ایجاد شود.

4.دانش مبتنی بر خودش ساخته می شود.

5.تفکر.

در بخش پایانی این کتاب آمده است: تحقیقات انجام شده در زمینه کاربرد اصول شناختی در سنجش خصوصاً در حیطه روش های آماری مبتنی بر شناخت در حال رونق است. از دو قرن پیش یعنی از زمان انتشار کتاب ها و مقالات، استنباط هایی راجع به دانش و مهارت آزمودنی ها که به اطلاعات مفصلی در مورد سازمان، ارایه و تولید صفات از مدل شناختی نیاز دارد. تمایل به ترکیب شناخت با سنجش منجر به تحقیقات زیادی شده است که به منظور شناسایی و ارزیابی دانش و مهارت های آزمودنی ها با استفاده از روش های آماری چدید طراحی شده است. انجمن امریکایی تحقیقات آموزشی، گروه ویژه ای به نام شناخت و سنجش را در سال 2007 شکل داد تا سکویی برای محققان ایجاد کند که رشته های روانشناسی شناختی، علوم شناختی، روانشناسی تربیتی، سنجش آموزشی و آمار را بری حل مشکلات پیچیده سنجش با استفاده رویکرد چند رشته ای را ترکیب می کند. شماره ویژه ای از مجله اندازه گیری آمورشی که در سال 2007 منتشر شد به روش های آماری مبتنی بر شناخت اختصاص یافت. هم چنین در سال 2007، انتشارات دانشگاه کمبریج کتابی تحت عنوان سنجش شناختی-تشخیصی در آموزش را چاپ کرد. در سال 2008 مجله اندازه گیری: تحقیقات بین رشته ای و رویکردها، شماره کاملی از مجله را به موضوع روش های آماری مبتنی بر شناخت اختصاص داد.

منبع: www.assessment.blogsky.com


برچسب‌ها: شناخت و سنجش
+ نوشته شده در  چهارشنبه 7 اسفند1392ساعت   توسط محمد حسین ضرغامی  | 

معرفی اجمالی روان سنجی

روانشناسی از هنگامی به صورت یک علم مستقل درآمد که به آزمایشگاه کشیده شد، پدیده های روانی (احساس ، ادراک ، یادگیری ، حافظه ،شخصیت و … ) به صورت عینی (Objective) و عملیاتی (Operational) تعریف گردید و روشهای آماری و طرح تحقیقاتی برای اندازه گیری و کنترل آنها مورد استفاده قرار گرفت. پیش از آن موضوعات مورد مطالعه در آن اغلب کلی و مبهم و تعریف ناپذیر بودند. در واقع مطالعه و تحقیق در مورد موضوعات مختلف روان شناسی در طی قرون متمادی مورد توجه بوده است اما آنچه روان شناسی را به علت علم مستقل شناساند، استفاده از روشهای آماری و طرحهای تحقیقی برای آزمایشهای روان شناختی و ساخت وسایل روان سنجی بود. 

تعریف روان سنجی

در روان شناسی مجموعه شیوه‌هایی که به روان شناس کمک می‌کند تا پدیده‌های روانی انسان را از حالت کیفی به حالت کمی (عددی) در آورد اصطلاحا روان سنجی (Psychometrics) می‌گویند. روان سنجی در معنای وسیع کلمه به معنی استفاده از روشهای آماری و آزمایش و در معنای محدود کلمه به معنی بهره گیری از آزمونهای روانی برای اندازه گیری پدیده‌های روانی است. 

اهمیت روان سنجی و اندازه گیری

اهمیت استفاده از روشهای آماری در روان شناسی

آمار یکی از کاربردی‌ترین شاخه‌های ریاضی است. در واقع زندگی انسان امروز با آمار پیوند خورده است و روان شناسی نیز که یکی ازشاخه‌های علوم انسانی است بدون آمار در تجزیه و تحلیل مسائل ناتوان است. به عبارت دیگر مفاهیم روان شناختی این گرایش از علم اکثرا به صورت کیفی بوده و به درستی قابل کاربرد نمی‌باشد و فقط با روشهای آماری است که می‌توان به داده‌ها و نتایج قابل اعتماد دست یافت و آنها را به صورت کمی نشان داد. 

اهمیت استفاده از روان سنجی

انسانها در همه دوران به این موضوع علاقه داشتند که یکدیگر را شناخته و طبقه بندی کنند. این طبقه بندی و شناخت هم شامل مسائل جسمی (نظیر قوی و ضعیف ، سالم و بیمار و …) و مسائل روانی و ذهنی (نظیر هوش ، استعداد ، شخصیت و …) بوده است. در عصر حاضر نیز این مسئله به موضوعی بسیار مهم و حیاتی تبدیل شده است و اهمیت روان سنجی در این است وسایل علمی لازم را برای این شناخت و طبقه بندی در اختیار جامعه و متخصصان علوم انسانی قرار می‌دهد. در واقع اهمیت روان سنجی در دل سوالاتی از قبیل : چه کسی با هوش یا عقب مانده است؟ ، یک فرد بخصوص چه نوع استعدادی دارد؟ و یا چگونه می‌توان به شناختی از شخصیت و خصوصیات فردی افراد دست یافت؟ قرار دارد. 

کاربردهای روان سنجی و اندازه گیری

کاربرد روشهای آماری در روان شناسی

از لحاظ توصیفی آمار در روان شناسی کاربرد فوری و عملی دارد. آمار توصیفی روان شناس و محقق علم رفتاری را کمک می‌کند تا با نگاهی عینی و کمی با پدیده‌های روانی - اجتماعی بنگرد و آنها را توسط شاخصهای آماری نظیر میانگین (Mean) ، انحراف استاندارد (Standard deviation) و یا منحنی بهنجار (Normal curve) بیان می‌کند. از طرف دیگر کاربرد آمار به صورت استنباطی در روان شناسی به حل مسائل پژوهشی و یافتن روابط علت و معلولی (Cause and effect) ، همبستگی (Correlation) کمک کرده ، باعث توسعه و پیشرفت نظری و کاربردی روان شناسی و علوم رفتاری می‌شود. 

کاربرد روشهای روان سنجی

پیش بینی

تقسیم گیری مستلزم آن است که افراد بتوانند میزان موفقیت خود را در آینده در زمینه معینی نظیر پیشرفت تحصیلی یا شغلی پیش بینی (Prediction) کنند. روان سنجی برای اندازه گیری توانایی پیشرفت تحصیلی و سایر ویژگیهای افراد بکار می‌رود. در واقع پیش بینی بر داده‌های کمی معتبرتر و دقیقتر از تفکر واهی است. 

گزینش

در برخی از موسسات و سازمان‌ها مانند دانشکده‌ها و سازمان‌های استخدام کننده آزمونها برای گزینش (Selection) یا در بعضی افراد مورد استفاده قرار می‌گیرند. 

طبقه بندی

طیقه بندی (Classification) عبارت است از گروه بندی افراد براساس تقسیمات منطقی. طبقه بندی مستلزم آن است که معلوم شود یک فرد خاص در چه گروهی جای داده شود و یا براساس چه روشی مورد آموزش یا درمان قرار گیرد. روان سنجی ابزار و وسایل لازم را برای طبقه بندی افراد فراهم می کند. 

ارزشیابی

ابزارهای روان سنجی به منظور قضاوت و ارزشیابی (Evaluation) در مورد برنامه ، روشها ، تدابیر درمانی و میزان پیشرفت افراد و … مورد استفاده قرار می‌گیرند. 



برچسب‌ها: روان سنجی, علم اندازه گیری روانی
+ نوشته شده در  سه شنبه 29 بهمن1392ساعت   توسط محمد حسین ضرغامی  | 

معنای سنجش

تعریف سنجش

بر اساس نظر هریس استفاناکیس (200)، واژه assess از واژه لاتین assidere گرفته شده است و به معنی to sit beside (کنار کسی نشستن) و to assess یعنی to sit beside the learner (کنار یادگیرنده نشستن) است.

به نظر می رسد در این جا منظور این است که یاددهنده و یادگیرنده باید با هم کار کنند. یاددهنده باید در کنار یادگیرنده بنشیند و از آن چه یاد گرفته و از پیشرفتی که داشته است، آگاه شود. در این تعریف بر سنجش مستمر به جای سنجش بر اساس امتحان پایانی تاکید شده است.

هر سنجشی مبتنی بر سه رکن است:

الگویی برای چگونگی ارایه دانش و توسعه شایستگی در یک حیطه محتوایی توسط یادگیرنده،

تکالیف یا موقعیت هایی که بررسی عملکرد یادگیرنده را ممکن می سازد و

روش تفسیر استنباط کردن از شواهد مربوط به عملکرد.

منبع:http://assessment.blogsky.com/1392/09


برچسب‌ها: معنای سنجش
+ نوشته شده در  یکشنبه 20 بهمن1392ساعت   توسط محمد حسین ضرغامی  | 

سنجش شناختی-تشخیصی

سنجش شناختی-تشخیصی به منظور اندازه­گیری ساختارهای دانش ویژه و مهارت­های پردازش در فراگیران تدوین شده است تا اطلاعاتی در مورد نقاط قوت و ضعف شناختی فراهم آورد. سنجش شناختی-تشخیصی هنوز در ابتدای راه است، اما پایه آن به خوبی تدوین شده است. در سال 1980 دو فصل از کتاب اندازه­گیری روبرت لین شروعی برای تمایل و نیاز زیاد به سنجش شناختی-تشخیصی بود. فصل روایی سامویل مسیک و فصل آخر اسنو و دیوید لوهمانز، دلالت­های روانشناسی شناختی برای اندازه­گیری آموزشی، به یکپارچه کردن همراهی روانشناسی شناختی در اندازه­گیری آموزشی کمک کرد.

مدل­های شناختی-تشخیصی به منظور ارایه اطلاعات مورد نظر به صورت نیمرخ­های نمره که محدودیت مدل­های نظریه سوال-پاسخ را رفع می­کند، تدوین شده اند. انواع مختلف مدل­های شناختی-تشخیصی در ادبیات اندازه­گیری ارایه شده است. به طور کلی این مدل­ها، وضعیت­های مختلف مورد نظر محققان (مثل انواع سازه، پاسخ، و بعدیت) در روانسنجی و علوم شناختی و یادگیری را پوشش می­دهند. به دلیل محبوبیت این مدل­ها، مطالعاتی در میان محققان به منظور درک و یکپارچه کردن این مدل­ها انجام شده است. انواع مختلفی از مدل­های تشخیصی-شناختی در ادبیات وجود دارد و در عمل نیز استفاده شده است. برای مقایسه این مدل­ها، سه متغیر را می­توان مد نظر قرار داد: متغیر پاسخ­های دو ارزشی و چندارزشی، متغیر مکنون دو ارزشی و چندارزشی و متغیر گروه­بندی جبرانی یا غیر جبرانی صفت مکنون.

الگوهایخاص صفت، مهارت و عدم مهارت طبقه­ها یا گروه­های مکنون را که بر اساس آن مدل­های شناختی-تشخیصی، آزمودنی­ها را طبقه بندی می­کند را تعریف می­کند. به دلیل این­که صفت­ها و بنابراین طبقه­ها قبل از تحلیل تعریف می­شوند، این مدل­ها، مدل­های طبقه مکنون تاییدی هستند که طبقه بندی آزمودنی­ها بر اساس پاسخ به سوالات تعیین می­شود.به دلیل ماهیت تاییدی این مدل­ها، تدوین یک آزمون تشخیصی ابتدا مستلزم صفاتی است که به وسیله تحقیقات شناختی برای حیطه مورد نظر مهم تشخیص داده شده است، می باشد. سپس، هر سوال آزمون برای اندازه­گیری یک یا چند صفت طراحی می­شود. به دلیل این­که یک سوال می­تواند بیش از یک صفت را اندازه گیری کند، چند بعدی بودن درون و بین سوالات وجود دارد. همخوانی سوال-صفت در ماتریس کیو ارایه می شود. ماتریسی که در آن 1 نشان می­دهد که یک سوال یک صفت را اندازه­گیری می­کند و درایه صفر بدین معناست که آن سوال آن صفت را اندازه­گیری نمی­کند. دقت طبقه­بندی مدل­های شناختی-تشخیصی به همخوانی درست سوالات با صفات بر می­گردد، به گونه­ای که تعیین نادرست ماتریس کیو منجر به طبقه­بندی غلط می­شود.

هدف اندازه­گیری تشخیصی شبیه تشخیص­های معمول است با این تفاوت که بافتی که در آن اندازه گیری می­شود، رسمی­تر است. مثلاً فردی که باید مورد تشخیص قرار گیرد می­تواند بیماری باشد که در بیمارستان از نظر روانی مورد ارزیابی قرار می­گیرد، فراگیری که در مدرسه به عنوان دانش­آموزی مستعد جایابی می­شود، یا بازیکنی که کالایی را در دنیای مجازی خریداری می­کند. در این­گونه موارد هدف اندازه­گیری شناختی عبارت است از: تشخیص اختلال احتمالی و تعیین اثربخش­ترین برنامه درمانی برای بیمار، شناسایی نقاط قوت و ضعف در حیطه محتوایی خاص و تعیین بهترین راهبرد تمرین برای آن فراگیر، یا تشخیص ویژگی­های رفتار خرید و ارایه راهبردهای بازاریابی برای آن بازیکن. به منظور ارایه نیمرخ دقیق افراد با توجه به ویژگی­های مورد نظر در این موقعیت، سوالاتی به طور خاص طراحی می­شود، یا تکالیفی به این افراد ارایه می­شود و پاسخ­های فرد و رفتارهای مرتبط به آن ثبت می­شود. رفتارها می­تواند شامل پاسخ­های کلامی به سوالات باز پاسخ توسط بیمارباشد، پاسخ­های کتبی به سوالات چند گزینه­ای توسط فراگیر باشد، یا پیگیری فعالیت­ها در محیط­های اجباری توسط بازیکن باشد.

مدل­های طبقه­بندی شناختی، زیر مجموعه­ای از مدل­های روانسنجی هستند که افراد را بر اساس متغیرهای مکنون طبقه­ای چندگانه طبقه­بندی می­کنند. پایه­ طبقه­بندی در این مدل­ها بر اساس داده­های پاسخ مشاهده شده که از طریق سنجش تشخیصی جمع آوری شده­اند، است. این مدل­ها مکانیسمی برای بررسی داده­های جمع­آوری شده، ارایه می­دهند.اگر طبقه­بندی­ها، درک مهمی از ویژگی­های مکنون افراد را تایید کند پس استفاده از این مدل­ها می­تواند تحلیل­های عملی مفیدی را فراهم کند. این مدل­ها ابزاری تدوین می­کنند که تحلیل­هایی که در آن انواع رفتار افراد وابسته به الگوی داده­ها با وزن­های مختلف است را ممکن می­سازد. اما انتخاب این که چگونه الگوهای رفتاری تدوین شده اند(تصمیم­گیری در مورد این که چه صفاتی باید ارایه شوند، چه اطلاعاتی باید استخراج شود، چگونه باید اطلاعات استخراج شده را به صورت خروجی برای یک مدل آماری کدگذاری کرد) تنها ملاحظه­ای است که تدوین کننده سنجش شناختی باید مد نظر قرار دهد. صفت­در این مدل­ها نشان دهنده سازه­ای مثل دانش یا بیماری روانی است و طبقه بندی افراد بر اساس صفات است. صفات از متغیرهای پنهان طبقه ای مشتق می­شوند، بنابراین لازم است که طبقه بندی از نظر آماری از داده­های قابل مشاهده پاسخ دهندگان استنباط شود.این مدل­ها، همبستگی آماری را ارایه می­دهند.

راپ و تمپلین (2008) نه ویژگی اصلی که می­تواند برای مقایسه مدل­های شناختی-تشخیصی با دیگر مدل­های متغیر مکنون مورد استفاده قرار گیرد را فهرست کردند. برخی از آن­ها عبارت است از: 1)ماهیت چندبعدی­شان، 2)ماهیت تاییدی بودنشان، 3)پیچیدگی ساختار عاملی­شان و 4) ماهیت تشخیصی بودن تفسیرهای­شان. مدل­های تحلیل عاملی و نظریه سوال-پاسخ وقتی مورد استفاده قرار می­گیرد که ساختارهای بارگذاری ساده­تر است(مثلاً هر سوال فقط بر روی یک بعد بار دارد.)، اما مدل­های شناختی-تشخیصی دارای ساختارهای پیچیده بارگذاری هستند که معمولاً مستلزم چندین توانایی به هم مرتبط هستند.

در این مدل­ها، پیوستار مفروض به دو دسته مجرا مثل ماهر یا غیرماهر در زمینه­های آموزشی و اختلال داشتن یا اختلال نداشتن در زمینه روانشناسی بالینی تقسیم می­شود .ویژگی­­هایی که احتمال­شان بیش­تر از 5/. است را به عنوان تشخیص مثبت (یعنی ماهر)، و ویژگی­های که کم­تر از 5/. هستند به عنوان تشخیص منفی (غیرماهر) در نظر گرفته می­شوند.احتمال­های نزدیک به 5/. نشان دهنده آن هستند که متغیرهای مشاهده شده، اطلاعات کافی ارایه نمی­دهد تا بتوان بر اساس آن تشخیص روشنی ارایه داد و طبقه­بندی را به شدت مبهم می­کند. هدف اصلی این مدل­ها، تشخیص است و این ویژگی استفاده از این مدل­ها برای داده­های حاصل از سنجش تشخیصی را از استفاده از مدل­های تحلیل عاملی تاییدی و نظریه سوال-پاسخ برای داده­های حاصل از ارزشیابی جایابی، پذیرش و گواهینامه متفاوت می­کند. سنجش شناختی-تشخیصی برای معلمان، والدین و مسوولین آموزشی که متمایلند میزان اطلاعاتی را که دانش آموزان در آن مهارت کسب کرده اند را بدانند، مفید هستند.

با وجود اهمیت مدل­های شناختی-تشخیصی، مباحث مهم و محدودیت­هایی در استفاده از این مدل­ها وجود دارد که نیاز به بحث دارد. مهم­ترین مبحث، بحث روایی است.روایی نتایج در این مدل­ها به نظریه زیربنایی آن­ها بستگی داد. بخصوص اگر تعریف معیارها دقیقاً مشخص نشده باشد یا اگر این معیارها به تشخیص مربوط نباشد، نتایج حاوی اطلاعات تشخیصی با روایی کم خواهد بود. البته این دغدغه به طور کلی در مورد مدل­های متغیر پنهان وجود دارد. در استفاده از اطلاعات تشخیصی حاصل از مدل­هایشناختی-تشخیصی باید مد نظر قرار گیرد که دانشی که بر اساس نتایج به دست می آید به این بستگی دارد که تا چه حد نظریه زیربنایی مبتنی بر واقعیت است. علاوه بر روایی، تدوین ماتریس کیو که تعریف معیارهای مورد اندازه­گیری را ارایه می­دهد نیز یکی دیگر از دغدغه­های این مدل­هاست. کیفیت برازش مدل شناختی-تشخصی به کیفیت ماتریس کیو استفاده شده در تحلیل بستگی دارد. تعریف این ماتریس باید زیربنای نظری حیطه ابزار را با نتایج تجربی تحلیل ترکیب کند. شاید مهم­ترین نکته در نتایج این مدل­ها، تصدیق بیرونی براوردهای تشخیصی است. ساخت ابزار برای اهداف تشخیصی باید به کمک اندازه­های روایابی بیرونی انجام شود. به زعم تاتسوکا (2005) "در حالت واقعی، سه واژه مهم عبارت است از موقعیت، موقعیت و موقعیت. در مدل­یابی تشخیصی، سه واژه مهم عبارت است از روایابی، روایابی و روایابی." روایابی بیرونی، تفسیر برآوردهای تشخیصی نتایج مدل شناختی-تشخیصی را را مطمین می­سازد. این مدل­ها را می­توان با ابزار­های موجود به کار برد ولی باید توجه کرد در بسیاری از موارد پرسشنامه­ها، گویه­های طرح شد به منظور استفاده از مدل تحلیل عاملی تاییدی (با یک ساختار ساده)به منظور اندازه­گیری ملاک­های مکنون در یک پیوستار و نه در یک طبقه­بندی تدوین شده اند. مشکلاتی مشابه نیز در استفاد از این مدل­ها در اندازه­گیری آموزشی وجود دارد زیرا این آزمون­ها برای تحلیل در مقیاسی تک بعدی طراحی شده اند. معمولاً این آزمون­ها با انتخاب سوال­هایی حداکثر اطلاعات را با توجه به پیوستار مکنون ارایه می­دهد. طبقه بندی بر اساس یک پیوستار مکنون می­تواند منجر به برآوردهایی شود که در آن افراد زیادی یا همه صفات را دارند و یا هیچ کدام را ندارند. در این­گونه موارد، همه همبستگی­های بین صفات (بر اساس مدل ساختاری) واحد (تمایل به این­که یک پیوستار زیربنای داده­هاست) می­شوند.

در مقایسه با مدل­های نظریه پاسخ-سوال چند بعدی (MIRT)، این مدل­ها در هر بعد به سوال­های بسیار کم­تری برای کسب برآوردهای پایا نیاز دارد (تمپلین و برادشاو، 2013). مدل­های نظریه پاسخ-سوال چند بعدی مستلزم سوال­های بیشتری هستند و شاید یکی از دلایل غالب ماندن مدل­های تک بعدی در آموزش علی رغم نیاز دولت­ها و نیاز معلمان به مدل­های نظریه سوال-پاسخ چند بعدی برای گرفتن بازخوردهای دقیق و ظریف، همین مطلب باشد.

اهمیت مدل­های شناختی-تشخیصی در مقایسه با نظریه کلاسیک آزمون و نظریه سوال-پاسخ از آن­جا ناشی می­شود که در این مدل­ها نیمرخ دانش آموزان ارایه می­شود که در آن مجموعه­ای از مهارت­های یا صفت­های دو ارزشی که فرد در آن به مهارت رسیده یا نرسیده است نمایش داده می­شود. نیمرخ­های صفات گسسته، اطلاعاتی در مورد نیازهای گروهی از دانش آموزان در اختیار معلم قرار می­دهد (برخلاف مدل­های نظریه سوال-پاسخ چند بعدی که پروفایلی از نمرات ارایه می­دهد).

http://assessment.blogsky.com/1392/10/page/3


برچسب‌ها: سنجش شناختی, تشخیصی, صفت, ماتریس کیو, مدل های چندبعدی
+ نوشته شده در  چهارشنبه 16 بهمن1392ساعت   توسط محمد حسین ضرغامی  | 

رشته سنجش و اندازه گيري

رشته سنجش و اندازه گیری، علم بین­رشته­ای نسبتاً جدیدی است که برای درک مفاهیم آن لازم است تسلط کافی در حیطه­های زیر داشت:

  •  داشتن دانش در زمینه مباحث سنجش و اندازه­گیری، روش­شناسی، ارزیابی و ارزشیابی است.

  • داشتن دانش در حیطه ریاضی بخصوص در حیطه جبر خطی و حسابان و آمار به طور نظری و کاربردی

  •  داشتن دانش در زمینه نرم افزارهای مختلف آماری و توانایی استفاده از آن­ها. علاوه بر این باید در زمینه برنامه نویسی کامپیوتری هم به تسلط نسبی رسید چرا که امروزه در بسیاری از مقالات جدید از نرم افزارهایی که نیاز به کد نویسی دارند مثل  استفاده می­شود.

  • داشتن دانش در مورد یک سازه رفتاری خاص در یکی از حیطه­های علوم رفتاری مثل علوم تربیتی، روان­شناسی، مدیریت، پرستاری، پزشکی و به طور کلی هر علمی که با انسان سر و کار دارد.

علاوه بر این از آن­جایی که این رشته در ایران جدید است دانشجویان باید از سطح زبان انگلیسی مناسبی برخوردار باشند بخصوص در مهارت­های شنیدن و حرف زدن. بسیاری از کارگاه­های تخصصی و اساتید صاحب نظر در این حیطه خارج از ایران می باشد. هم­چنین کتاب­های فارسی کمی در این حیطه ترجمه شده است و معمولاً مقالات و کتاب­های ترجمه­ شده به دلیل جدید بودن مباحث، کمی مبهم به نظر می رسد.

مطالعه در زمینه خلاقیت، تفکر انتقادی و  فلسفه علم نیز برای دانشجویان تحصیلات تکمیلی توصیه می شود.

بسیار مهم: مهم­تر از همه ارتباط دادن این مجموعه دانش با هم و داشتن ایده­ای مناسب است. دانستن قوی­ترین روش­های آمار و ریاضی و توانایی قوی در برنامه­نویسی کامپیوتری بدون دانستن نظریه­های مربوط به یک سازه مربوط به انسان هیچ مفهومی نخواهد داشت و در نهایت منجر به سر در گمی می­شود مگر برای کسانی که خواهان انجام تحقیقات صرفاً نظری در این رشته باشند و این امر مستلزم دانشی بسیار قوی در حیطه ریاضیات و آمار است.

پس باید صبورانه و هدفمند وارد این رشته شد و مطالعه مداوم داشت.

برای نمونه زمینه آموزشی دکتر تمپلین (. TemplinDrاستاد دانشگاه Nebraska-Lincoln را برای شما از سایت  ایشون  (http://JonathanTemplin.com ) در این جا قرار می­دهم.

Ph.D. in Psychology (Quantitative; 2004

University of Illinois at Urbana-Champaign

M.A. in Psychology (2002

University of Illinois at Urbana-Champaign

M.S. in Statistics (2002

University of Illinois at Urbana-Champaign

B.A. in Psychology (magna cum laude; 1998

California State University, Sacramento; Minor: Statistics

A.A. in General Studies (1996

American River College; Sacramento, California

A.S. in Mathematics and Physical Science (1996

American River College; Sacramento, California

 

 

به طور کلی ادامه تحصیل دادن در مقطع دکترا نیاز به انگیزه بالا دارد. نقل قول زیر از سایت topuniversities جالب است:    

Professor Daniel Drezner of Tufts University recently quipped: “Should you get a PhD? Only if you are crazy or crazy about  your subject”.0 

  

دکتر درنزل، استاد دانشگاه توفتز طنز گونه گفته است: اگر شما قصد گرفتن مدرک دکترا را دارید یا باید ديوانه باشید یا باید  شیفته رشته تحصیلی خود باشید. 

منبع 

http://assessment.blogsky.com/1392/09


برچسب‌ها: رشته سنجش و اندازه گيري
+ نوشته شده در  چهارشنبه 16 بهمن1392ساعت   توسط محمد حسین ضرغامی  | 

لیست بعضی از مجلات سنجش و اندازه گیری به همراه impact factor آنها

Journals

Applied Measurement in Education: Impact Factor 0.200

Applied Psychological Measurement: Impact Factor 0.574

Assessment: Impact Factor 2.324

Behavior Research Methods: Impact Factor 1.737

Behaviormetrika

British Journal of Mathematical and Statistical Psychology: Impact Factor 1.372

Educational and Psychological Measurement: Impact Factor 0.872

Educational Measurement: Issues and Practice

European Journal of Psychological Assessment: Impact Factor 1.262

Evaluation and Program Planning: Impact Factor 0.735

Evaluation Practice: Impact Factor 1.104

International Journal of Methods in Psychiatric Research Impact Factor 1.979:

International Journal of Organizational Analysis

International Journal of Selection and Assessment: Impact Factor 0.861

Journal of Applied Measurement

Journal of Applied Psychology: Impact Factor 3.769

Journal of Consumer Research: Impact Factor 1.592

Journal of Educational and Behavioral Statistics: Impact Factor 1.706

Journal of Educational Measurement: Impact Factor 0.694

Journal of Nursing Measurement

International Journal of Organizational Analysis

Journal of Personality Assessment: Impact Factor 1.678

Journal of Psychoeducational Assessment: Impact Factor 0.837

Journal of Psychology: Interdisciplinary and Applied: Impact Factor 0.588

Journal of Social Service Research: Impact Factor 0.140

Measurement and Evaluation in Counseling and Development: Impact Factor 0.611

Measurement in Physical Education and Exercise Science

Measurement: Interdisciplinary Research and Perspectives

Medical Care: Impact Factor 3.194

Methodology: European Journal of Research Methods for the Behavioral and Social Sciences

Methods of Psychological Research

Multivariate Behavioral Research: Impact Factor 1.647

Organizational Research Methods: Impact Factor 3.019

Psychological Assessment: Impact Factor 2.773

Psychological Bulletin: Impact Factor 12.568

Psychological Methods: Impact Factor 5.140

Psychological Review: Impact Factor 11.765

Psychometrika: Impact Factor 1.053

Quality & Quantity: International Journal of Methodology

Statistical Methods in Medical Research: An International Review Journal

Statistics in Medicine

Structural Equation Modeling

Journal of Mathematical Psychology: Impact Factor 1.846
American Journal of Evaluation

American Evaluation Association/Sage

Explores decisions and challenges related to conceptualizing, designing and conducting evaluations. Offers original articles about the methods, theory, ethics, politics, and practice of evaluation.   Features broad, multidisciplinary perspectives on issues in evaluation relevant to education, public administration, behavioral sciences, human services, health sciences, sociology, criminology and other disciplines and professional practice fields.

1.16

(The)American Statistician

American Statistical Association

Publishes general-interest articles about current national and international statistical problems and programs, interesting and fun articles of a general nature about statistics and its applications, and the teaching of statistics.  

0.98^

Applied Measurement in Education

Taylor & Francis

Because interaction between the domains of research and application is critical to the evaluation and improvement of new educational measurement practices, the journal’s prime objective is to improve communication between academicians and practitioners. To help bridge the gap between theory and practice, articles in this journal describe original research studies, innovative strategies for solving educational measurement problems, and integrative reviews of current approaches to contemporary measurement issues.

0.33

Applied Psychological Measurement

Sage

Cutting-edge methodologies and related empirical research in educational, organizational, industrial, social and clinical settings, including brief reports of exploratory, small-sample, or replication studies; computer program reviews of commercially available software packages used in applied measurement; book reviews of important new publications; announcements of statistical and measurement meetings, symposia and workshops.

1.14

Assessment

Sage

Applied clinical assessment, with an emphasis on information relevant to the use of assessment measures, including test development, validation, and interpretation practices. Articles cover the assessment of cognitive and neuropsychological functioning, personality, and psychopathology, as well as empirical assessment of clinically relevant phenomena, such as behaviors, personality characteristics, and diagnoses.

2.338

Assessment and Evaluation in Higher Education

Taylor & Francis

Publishes papers and reports on all aspects of assessment and evaluation within higher education. Its purpose is to advance understanding of assessment and evaluation practices and processes, particularly the contribution that these make to student learning and to course, staff and institutional development. Welcomes research-based, reflective or theoretical studies which help to illuminate the practice of assessment and evaluation in higher education. The journal is aimed at all higher education practitioners, irrespective of discipline.

(Not available)

Assessment for Effective Intervention

Sage

Provides critical analysis of practitioner-developed assessment procedures, as well as papers that focus on published tests. Features articles that describe the relationship between assessment and instruction, introduce innovative assessment strategies; outline diagnostic procedures; analyze relationships between existing instruments; and review assessment techniques, strategies, and instrumentation.

(Not available)

Behavior Research Methods

Psychonomic Society/Springer

Methods, techniques, and instrumentation of research in experimental psychology. The journal focuses particularly on the use of computer technology in psychological research.

2.40

British Journal of Mathematical and Statistical Psychology

The British Psychological Society/Wiley

Articles relating to areas of psychology which have a greater mathematical or statistical aspect of their argument than is usually acceptable to other journals. Include articles that address substantive psychological issues or that develop and extend techniques useful to psychologists. New models for psychological processes, new approaches to existing data, critiques of existing models and improved algorithms for estimating the parameters of a model are examples of articles which may be favoured.

1.42

Educational Assessment, Evaluation, and Accountability

Springer

Publishes a wide array of articles aimed at exploring "current issues in the evaluation of teacher and administrator performance." Many articles are reports of research including instrument validation studies, other articles are more conceptual.

(Not available)

Educational Evaluation & Policy Analysis

Sage

Publishes scholarly articles of theoretical, methodological, or policy interest to those engaged in educational policy analysis, evaluation, and decision making. It is a multidisciplinary policy journal and considers original research from multiple disciplines, theoretical orientations, and methodologies.

1.92

Educational Measurement: Issues and Practice

NCME/Wiley

Articles that illuminate issues in educational measurement and inform the practice of educational measurement. Aimed at practitioners and users of tests and includes information about proven practices in testing, news of interest to the educational measurement community, and organizational news of the NCME. Addresses a broad public that includes NCME members, school personnel, other professional educators, legislators, and interested citizens. Its primary purpose is to promote a better understanding of and reasoned debate on timely measurement issues of practical importance to educators and the public.

0.78

Educational and Psychological Measurement

Sage

Refereed scholarly work from all academic disciplines interested in the study of measurement theory, problems, and issues. Theoretical articles address new developments and techniques, and applied articles deal with innovation applications.

0.83

European Journal of Psychological Assessment

European Association of Psychological Assessment/
Hogrefe

Articles which provide seminal information on both theoretical and applied developments in this field. Articles reporting the construction of new measures or an advancement of an existing measure are given priority. The journal is directed to practitioners as well as to academicians: The conviction of its editors is that the discipline of psychological assessment should, necessarily and firmly, be attached to the roots of psychological science, while going deeply into all the consequences of its applied, practice-oriented development.


1.82

Evaluation

Sage

Publishes multidisciplinary, interdisciplinary and issue-based contributions from across the social sciences and related disciplines, including, but not limited to: politics, economics and public administration; psychology, sociology and anthropology; education, health and law; information science and information technology.

(Not available)

Evaluation Review

Sage

Brings together the latest applied evaluation methods used in a wide range of disciplines; presents the latest quantitative and qualitative methodological developments, as well as related applied research issues.

0.84

Evaluation & the Health Professions

Sage

Provides health-related professionals with state-of-the-art methodological, measurement, and statistical tools for conceptualizing the etiology of health promotion and problems, and developing, implementing, and evaluating health programs, teaching and training services, and products that pertain to a myriad of health dimensions.

1.21

 

Evaluation and Program Planning

 

Elsevier

 
The primary goals of the journal are to assist evaluators and planners to improve the practice of their professions, to develop their skills and to improve their knowledge base. Reports on individual evaluations should include presentation of the evaluation setting, design, analysis and results. Because of our focus and philosophy, however, we also want a specific section devoted to "lessons learned". This section should contain advice to other evaluators about how you would have acted differently if you could do it all over again. The advice may involve methodology, how the evaluation was implemented or conducted, evaluation utilization tactics, or any other wisdom that you think could benefit your colleagues. More general articles should provide information relevant to the evaluator/planner's work. This might include theories in evaluation, literature reviews, critiques of instruments, or discussions of fiscal, legislative, legal or ethical issues affecting evaluation or planning.


0.71

Health Services and Outcomes Research Methodology

Springer

Reflecting the multidisciplinary nature of the field, Health Services and Outcomes Research Methodology addresses the needs of interlocking communities: methodologists in statistics, econometrics, social and behavioral sciences

(Not available)

International Journal of Behavioral Development

International Society for the Study of Behavioral Development/
Sage

Promotes the discovery, dissemination and application of knowledge about developmental processes at all stages of the life span - infancy, childhood, adolescence, adulthood and old age. The Journal is already the leading international outlet devoted to reporting interdisciplinary research on behavioural development, and is now, in response to the rapidly developing fields of behavioural genetics, neuroscience and developmental psychopathology, seeking to expand its scope to these and other related new domains of scholarship.

1.30

International Journal of Educational and Psychological Assessment

Time-Taylor

Articles that tackle empirical reports, scholarly reviews, and academic essays within the domain of education and psychological assessment, measurement, and evaluation. Varied use of methodologies, educational levels, and approaches to assessment are acceptable. The readership of journal looks at the theoretical and practical implications of the assessment results on a variety of fields such as education, schooling, fields of psychology, and other related fields in the social sciences. Articles that focus on the relevance of assessment and evaluation in various educational and psychological settings are preferred.

(Not available)

International Journal of Methods in Psychiatric Research

Wiley

High-standard original research of a technical, methodological, experimental and clinical nature, contributing to the theory, methodology, practice and evaluation of mental and behavioral disorders. The journal targets in particular detailed methodological and design papers from major national and international multicenter studies. MPR aims at the rapid publication of articles of highest methodological quality in such areas as epidemiology, biostatistics, generics, psychopharmacology, psychology and the neurosciences. Articles informing about innovative and critical methodological, statistical and clinical issues, including nosology can be submitted as regular papers and brief reports.

2.34

International Journal of Psychology

Intl Union of Psych Science/
Psychology Press

Supports the IUPsyS in fostering the development of international psychological science. It aims to strengthen the dialog within psychology around the world and to facilitate communication among different areas of psychology and among psychologists from different cultural backgrounds. IJP is the outlet for empirical basic and applied studies and for reviews that either (a) incorporate perspectives from different areas within psychology or across different disciplines, (b) test the culture-dependent validity of psychological theories, or (c) integrate literature from different regions in the world. IJP does not publish technical articles, validations of questionnaires and tests, or clinical case studies.

1.07

International Journal of Selection and Assessment

Wiley

Original articles related to all aspects of personnel selection, staffing, and assessment in organizations. Using an effective combination of academic research with professional-led best practice, IJSA aims to develop new knowledge and understanding in these important areas of work psychology and contemporary workforce management.

0.86

International Journal of Testing

Int'l Test Commission/
Taylor & Francis

Advancement of theory, research, and practice in the area of testing and assessment in psychology, education, counseling, organizational behavior, human resource management, and related disciplines. IJT publishes original articles addressing theoretical issues, methodological approaches, and empirical research as well as integrative and interdisciplinary reviews of testing-related topics and reports of current testing practices. It is important when submitting articles to IJT to consider the messages for international readers; to place the context of the study into an international perspective; to indicate ways that assessment or testing ideas can be adapted or generalized across borders; to focus more on the construct than on the method when discussing validation studies; to discuss applications that have universal messages; to relate to ITC guidelines for adaptation; or to discuss equitable assessment practices that transcend borders or demonstrate uniqueness within a country.

0.90

Journal of the American Statistical Association

American Statistical Asssociation

Articles focus on statistical applications, theory, and methods in economic, social, physical, engineering, and health sciences.

2.06^

Journal of Applied Measurement

JAM

Refereed scholarly work from all academic disciplines that relates to measurement theory and its application to developing variables. The development of variables that map the persons and items onto a common metric, operational defined by the items, that are invariant across samples of persons and items, is a cornerstone of developing an understanding of the phenomena being measured and the construction and verification of hypotheses based on these phenomena.

 

(Not available)

Journal of Applied Psychology

APA

Original investigations that contribute new knowledge and understanding to fields of applied psychology (other than clinical and applied experimental or human factors, which are more appropriate for other American Psychological Association journals). The journal primarily considers empirical and theoretical investigations that enhance understanding of cognitive, motivational, affective, and behavioral psychological phenomena. The journal accepts work that is conducted in the field or in the laboratory, where the data (quantitative or qualitative) are analyzed with elegant or simple statistics, so long as the data or theoretical synthesis advances understanding of psychological phenomena and human behavior that have practical implications. Topics include testing and personnel selection, performance measurement and management.

3.98

Journal of Educational and Behavioral Statistics

American Statistical Assoc & American Educational Research Association/Sage

Articles that develop original statistical methods useful for the applied statistician working in educational or behavioral research. Typical articles present new methods of analysis. In addition, critical reviews of current practice, tutorial presentations of less well-known methods, and novel applications of already known methods are published.

1.64

Journal of Educational Measurement

NCME/Wiley

Original measurement research, reviews of measurement publications, and reports on innovative measurement applications. The topics addressed will interest those concerned with the practice of measurement in field settings, as well as be of interest to measurement theorists. In addition to presenting new contributions to measurement theory and practice, JEM also serves as a vehicle for improving educational measurement applications in a variety of settings.

1.05

Journal of Experimental Education

Taylor & Francis

he journal is divided into three sections: Learning, Instruction, and Cognition; Motivation and Social Processes; and Measurement, Statistics, and Research Design. Authors must indicate in the cover letter to which section they are submitting their manuscript.

1.63

Journal of Mathematical Psychology

Society for Mathematical Psychology/
Elsevier

Articles, monographs and reviews, notes and commentaries, and book reviews in all areas of mathematical psychology. Empirical and theoretical contributions are equally welcome. Areas of special interest include, but are not limited to, fundamental measurement and psychological process models, such as those based upon neural network or information processing concepts.

1.58

Journal of Multivariate Analysis

Elsevier

A central medium for the publication of important research in the general area of multivariate analysis, the Journal of Multivariate Analysis presents articles on fundamental theoretical aspects of the field as well as on other aspects concerned with significant applications of new theoretical methods. Research areas include Bayes models, cluster analysis, estimation, factor analysis, multidimensional scaling and general multivariate methods, multivariate ANOVA, time series and many more

1.01

Journal of Nonparametric Statistics

American Statistical Association

Provides a medium for the publication of research and survey work in nonparametric statistics and related areas, including: nonparametric modeling, nonparametric function estimation, rank and other robust and distribution-free procedures, resampling methods, and lack-of-fit testing  

0.46^

Journal of Nursing Measurement

Springer

Specifically addresses instrumentation in nursing. It serves as a prime forum for disseminating information on instruments, tools, approaches, and procedures developed or utilized for measuring variables in nursing research, practice, and education. Particular emphasis is placed on evidence for the reliability and validity or sensitivity and specificity of such instruments. The journal includes innovative discussions of theories, principles, practices, and issues relevant to nursing measurement.

(Not available)

Journal of Personality Assessment

Society for Personality Assessment/
Taylor & Francis

Articles dealing with the development, evaluation, refinement, and application of personality assessment methods. Address empirical, theoretical, instructional, or professional aspects of using psychological tests, interview data, or the applied clinical assessment process. They also advance the measurement, description, or understanding of personality, psychopathology, and human behavior. Broadly concerned with developing and using personality assessment methods in clinical, counseling, forensic, and health psychology settings; with the assessment process in applied clinical practice; with the assessment of people of all ages and cultures; and with both normal and abnormal personality functioning.

1.55

Journal of Psychoeducational Assessment

Sage

Provides psychologists with current information about psychological and educational assessment practices and instrumentation. JPA is known internationally for the quality of its assessment-related research, theory and position papers, practice applications, and book and test reviews. JPA's topics include "best practices" in assessment, cross-cultural assessment, differential diagnoses, and psychometric properties of instruments, plus much more.

0.72

Journal of Psychology: Interdisciplinary and Applied

Taylor & Francis

Original manuscripts of an interdisciplinary and/or applied nature. Empirical research and theoretical articles fall within the scope of the journal, as do reviews that are consistent with the applied and interdisciplinary foci of the journal. Specifically, emphasis is placed on the publication of articles in applied areas of psychology including, but not necessarily limited to, such subdisciplines as clinical/counseling, industrial/organizational, education/school, and measurement/assessement. Both quantitative and qualitative methods are appropriate. In addition, multidisciplinary authorship is encouraged, as is work that fosters novel ideas, identifies mediating variables, includes transboundary issues, and most importantly, encourages critical analysis.

0.65

Journal of Quantitative Analysis in Sports

American Statistical Association

Covers topics as measuring player performance, projecting performance from “minor” leagues to “major” leagues, strategy, economics and psychology, in all sports.

(Not available)

Journal of the Royal Statistical Society

Series A (Statistics in Society)

Wiley-Blackwell

Publishes papers that demonstrate how statistical thinking, design and analyses play a vital role in all walks of life and benefit society in general. There is no restriction on subject matter. For example, medicine, business and commerce, industry, economics and finance, education and teaching, physical and biomedical sciences, the environment, the law, government and politics, demography, psychology, sociology and sport, all fall within its remit.

The journal's emphasis is on clearly written quantitative approaches to problems in the real world rather than the exposition of technical detail.

2.57

Series B (Statistical Methodology)

Wiley-Blackwell

Publishes work that is at the leading edge of methodological development, with a strong emphasis on relevance to statistical practice. Included are papers on study design, statistical models, methods of analysis and the theory that underlies them - almost invariably motivated or illustrated by real examples.

3.50

Series C (Applied Statistics)

Wiley-Blackwell

Publishes papers which deal with novel solutions to real life statistical problems by adapting or developing methodology, or by demonstrating the proper application of new or existing statistical methods to them. At their heart therefore the papers in the journal are motivated by examples and statistical data of all kinds.

0.65

JSeries D (The Statistician)

Wiley-Blackwell

It is a valuable resource for professional statisticians involved in industry, business, academic and applied research and consulting, and education.

Papers reflect current research and practice in statistics worldwide and cover important topics in an informative and accessible way. The prime purpose of papers in the journal is one of exposition for a general statistical readership, without heavy emphasis on describing technical detail.

0.62

Journal of Statistical Software

American Statistical Assoc./UCLA Statistics Staff & Statistics Computing Support Fund.

Publishes articles, book reviews, code snippets, and software reviews on the subject of statistical software and algorithms. Presents research that demonstrates the joint evolution of computational and statistical methods and techniques. 

2.65^

Journal of Statistics Education

American Statistical Association

Disseminates knowledge for the improvement of statistics education at all levels, including elementary, secondary, post-secondary, post-graduate, continuing, and workplace education.

(Not available)

Measurement: Interdisciplinary Research and Perspectives

Lawrence Erlbaum

Devoted to the interdisciplinary study of measurement in the human sciences, Measurement features focus articles along with commentaries that embody dialogue and debate across multiple perspectives. The journal's overarching theme is to promote the development, critique, and enrichment of the concepts and practices of measurement. Contributors share a common link, the serious study of measurement from a broad range of disciplines and perspectives, including psychometrics, ethnography, social theory, psychology, education, linguistics, sociology, policy studies, history and law. Through peer commentary and authors' responses, Measurement provides an opportunity for discussion to the general readership outside the specific authors and reviewers of a particular manuscript. Focus articles include seminal papers on important issues in the field in the form of single papers, sets of linked papers, or summaries of recently published books on one of the following genres.

(Not available)

Measurement and Evaluation in Counseling and Development

Assoc. for Assessment in Counseling and Education

Articles range in appeal from those that deal with theoretical and other problems of the measurement specialist to those directed to the administrator, the counselor, or the personnel worker--in schools and colleges, public and private agencies, business, industry, and government.  All articles clearly describe implications for the counseling field and for practitioners, educators, administrators, researchers, or students in assessment, measurement, and evaluation. 

0.90

Methodology: European Journal of Research Methods for the Behavioral and Social Sciences

European Association of Methodology/
Hogrefe

Interdisciplinary exchange of methodological research and applications in the different fields, including new methodological approaches, review articles, software information, and instructional papers that can be used in teaching. Three main disciplines are covered: data analysis, research methodology, and psychometrics. The articles published in the journal are not only accessible to methodologists but also to more applied researchers in the various disciplines.

(Not available)

Multivariate Behavioral Research

Society of Multivariate Experimental Psychology/
Taylor & Francis

Substantive, methodological, and theoretical articles in all areas of the social and behavioral sciences. Substantive articles report on applications of sophisticated multivariate research methods to study topics of substantive interest in personality, health, intelligence, industrial/organizational, and other behavioral science areas. Methodological articles present and/or evaluate new developments in multivariate methods, or address methodological issues in current research. Integrative articles related to pedagogy involving multivariate research methods, and to historical treatments of interest and relevance to multivariate research methods are also encouraged.

1.29

Organizational Research Methods

Sage

Brings relevant methodological developments to a wide range of researchers in organizational and management studies and promotes a more effective understanding of current and new methodologies and their application in organizational settings. ORM has positioned itself among elite scholarly journals, known for high-quality manuscripts from the qualitative and quantitative domains, micro and macro perspectives.

4.42

Practical Assessment, Research & Evaluation

PAREonline

On-line journal to provide access to refereed articles that can have a positive impact on assessment, research, evaluation, and teaching practice. Publishes scholarly syntheses of research and ideas about methodological issues and practices designed to help members of the community keep up-to-date with effective methods, trends, and research developments from a variety of settings. Manuscripts should be short, 2000-8000 words or about eight pages in length, exclusive of tables and references, and have clear generalizable implications for practice in education, certification, or licensure.

(Not available)

Psychological Assessment

APA

Empirical research on measurement and evaluation relevant to the broad field of clinical psychology. Submissions are welcome in the areas of assessment processes and methods. Included are (a) clinical judgment and the application of decision-making models, (b) paradigms derived from basic psychological research in cognition, personality–social psychology, and biological psychology, and (c) development, validation, and application of assessment instruments, observational methods, and interviews

The focus of the journal is the diagnosis and evaluation of psychological characteristics or processes and assessment of the effectiveness of interventions. Assessment of personality, psychopathological symptoms, cognitive and neuropsychological processes, and interpersonal behavior are all relevant. Methodological, theoretical, and review articles addressing clinical assessment processes and methods will also be considered.

2.59

Psychological Bulletin

APA

Evaluative and integrative research reviews and interpretations of issues in scientific psychology. Both qualitative (narrative) and quantitative (meta-analytic) reviews will be considered, depending on the nature of the database under consideration for review. Integrative reviews or research syntheses focus on empirical studies and seek to summarize past research by drawing overall conclusions from many separate investigations that address related or identical hypotheses. Both cumulative and historical approaches (i.e., ones that organize a research literature by highlighting temporally unfolding developments in a field) can be used. Integrative research reviews that develop connections between areas of research are particularly valuable.

11.98

Psychological Methods

APA

Methods for collecting, analyzing, understanding, and interpreting psychological data. Its purpose is the dissemination of innovations in research design, measurement, methodology, and quantitative and qualitative analysis to the psychological community. The journal solicits

original theoretical, quantitative, empirical, and methodological articles; reviews of important methodological issues; tutorials; articles illustrating innovative applications of new procedures to psychological problems; articles on the teaching of quantitative methods; and reviews of statistical software. The journal welcomes submissions that show the relevance to psychology of procedures developed in other fields.

3.19

Psychological Review

APA

Articles that make important theoretical contributions to any area of scientific psychology, including systematic evaluation of alternative theories. Papers mainly focused on surveys of the literature, problems of method and design, or reports of empirical findings are not appropriate.

Psychological Review also publishes, as Theoretical Notes, commentary that contributes to progress in a given subfield of scientific psychology. Such notes include, but are not limited to, discussions of previously published articles, comments that apply to a class of theoretical models in a given domain, critiques and discussions of alternative theoretical approaches, and meta-theoretical commentary on theory testing and related topics.

7.78

Psychometrika

Psychometric Society

Articles on the development of psychology as a quantitative rational science, including the advancement of theory and methodology for behavioral data analysis in psychology, education, and the social and behavioral sciences generally, the development of quantitative models of psychological phenomena, as well as statistical methods and mathematical techniques for evaluating psychological and educational data.

1.78

Quality and Quantity: International Journal of Methodology

Springer

Papers on models of classification, methods for constructing typologies, models of simulation, neural networks and fuzzy sets for social research, mathematical models applied to social mobility, mathematical models of voting behavior, qualitative methodology and feminist methodology, discussions on the general logic of empirical research, analysis of the validity and verification of social laws, and similar topics. Quality and Quantity is an interdisciplinary journal which systematically correlates disciplines such as mathematics and statistics with the social sciences, particularly sociology, economics, and social psychology. The journal extends discussion of interesting contributions in methodology to scholars worldwide, to promote the scientific development of social research.

0.69

Sociological Methods & Research

Sage

A leading source of quantitative research methodology in the social sciences. Presents new techniques and innovative approaches to recurring research challenges and clarifies existing methods. The journal also provides state-of-the-art tools that researchers and academics need to increase the validity of your research findings.

2.00

Statistical Analysis and Data Mining

American Statistical Association

Addresses the broad area of data analysis, including data mining algorithms, statistical approaches, and practical applications. Topics include problems involving massive and complex datasets, solutions utilizing innovative data mining algorithms and/or novel statistical approaches, and the objective evaluation of analyses and solutions. Of special interest are articles that describe analytical techniques, and discuss their application to real problems, in such a way that they are accessible and beneficial to domain experts across science, engineering, and commerce.  

(Not available)

Statistical Methods in Medical Research

Sage

Articles in all the main areas of medical statistics. Devoted solely to statistics and medicine and aims to keep professionals abreast of the many powerful statistical techniques now available to the medical profession.

1.77

Statistics Education Research Journal

International Association for Statistical Education

Aims to advance research-based knowledge that can help to improve the teaching, learning, and understanding of statistics or probability at all educational levels and in both formal (classroom-based) and informal (out-of-classroom) contexts. Such research may examine, for example, cognitive, motivational, attitudinal, curricular, teaching-related, technology-related, organizational, or societal factors and processes that are related to the development and understanding of stochastic knowledge. In addition, research may focus on how people use or apply statistical and probabilistic information and ideas, broadly viewed. Reports of original research (both quantitative and qualitative), integrative and critical reviews of research literature, analyses of research-based theoretical and methodological models, and other types of papers.

(Not available)

Statistics in Medicine

Wiley

Papers that introduce new statistical methods and either demonstrate their application, preferably through a substantive, real, motivating example or a comprehensive evaluation based on an illustrative example. Alternatively, papers will report on case-studies where creative use or technical generalizations of established methodology is directed towards a substantive application. Reviews of, and tutorials on, general topics relevant to the application of statistics to medicine will also be published.

2.33

Structural Equation Modeling

Taylor & Francis

Refereed scholarly work from all academic disciplines interested in structural equation modeling. These disciplines include, but are not limited to, psychology, medicine, sociology, education, political science, economics, management, and business/marketing. Theoretical articles address new developments; applied articles deal with innovative structural equation modeling applications; the Teacher’s Corner provides instructional modules on aspects of structural equation modeling; book and software reviews examine new modeling information and techniques; and advertising alerts readers to new products. Comments on technical or substantive issues addressed in articles or reviews published in the journal are encouraged; comments are reviewed, and authors of the original works are invited to respond.

3.15

برچسب‌ها: لیست مجلات سنجش و اندازه گیری اندازه تاثیر
+ نوشته شده در  شنبه 18 آبان1392ساعت   توسط محمد حسین ضرغامی  | 

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي برآوردشده در مدل هاي پرسش پاسخ و ك

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و

توانايي برآوردشده در مدل هاي پرسش پاسخ و كلاسيك اندازه گيري

بهنام كريمي 1

محمدرضا فلسفينژاد 2

فريبرز درتاج 3

90/12/ 90 تاريخ پذيرش: 24 /6/ تاريخ وصول: 18

چكيده

زمينه: سهولت نمره گذاري، اجرا و عينيت آزمونهاي چندگزينه اي سبب شده كه به عنوان ابزار

اصلي در سنجش هاي وسيع مورد استفاده قرار گيرد. انتقادهاي زيادي نسبت به سؤالات

چندگزينه اي مطرح شده است. نظير پوشش ندادن به تمامي اهداف تربيتي (سطوح پايين

شناختي را مي سنجند) و استفاده از عامل حدس و گمان در پاسخ به سؤا لها. در اين ميان

عده اي نيز افزايش تعداد گزينههاي سؤال را راهي براي مقابله با اين مشكلات دانست هاند. هدف:

هدف از پژوهش حاضر بررسي تأثير تعداد گزينهها بر ويژگي هاي روان سنجي آزمونها و

سؤالات و همچنين توانايي برآورد شده آزمودنيها در نظريه كلاسيك و پرسش پاسخ بود.

روش: جامعه آماري شامل كليه دانشآموزان سال سوم دبيرستانهاي شهر شيراز بود كه 608

نفر از آنان به شيوه تصادفي به عنوان گروه نمونه انتخاب شدند. براي جمعآوري اطلاعات از دو

آزمون پيشرفت تحصيلي زبان و حسابان كه به همين منظور تهيه و تنظيم شده بودند استفاده شد.

يافتهها: تجزيه و تحليل دادهها نشان داد كه تعداد گزينهها بر پارامترهاي سؤال اثر ندارد و تأثير

karimi.adviser@gmail.com -1 كارشناس ارشد روان سنجي

-2 استاد دانشگاه علامه طباطبايي

F_dortaj@yahoo.com -3 استاد دانشگاه علامه طباطبايي

www.SID.ir

Archive of SID

2 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

تعداد گزينهها بر ويژگيهاي روانسنجي برآورد شده آزمودنيها، در آزمونهاي مختلف

يكسان است. همچنين بين پارامترهاي برآورد شده در نظريه كلاسيك و پرسش پاسخ تفاوت

وجود داشت. نتيجهگيري: بعد از بررسي مفروضههاي نظريه پرسش و پاسخ مشخص شد كه

دادهها با مدل دو پارامتري برازش بهتري دارند، و تفاوتي بين تعداد گزينهها و برازش با مدل

مشاهده نشد. همچنين بين توانايي برآورد شده و تعداد گزينه ها تفاوت مشاهده شد.

واژگان كليدي: آزمون هاي چندگزينه اي، نظريه كلاسيك اندازه گيري، نظريه پرسش

پاسخ.

مقدمه

سهولت نمرهگذاري، اجرا و عينيت آزمون هاي چند گزينه اي سبب شده كه به عنوان ابزار اصلي

در سنجش هاي وسيع 1 مورد استفاده قرار مي گيرد ( نظير كنكور، تافل و... ). انتقادهاي زيادي

نسبت به سؤالات چندگزينه اي مطرح شده است نظير پوشش ندادن تمامي اهداف تربيتي

(سطوح پايين شناختي را م يسنجند)، و استفاده از حدس وگمان كه يكي از اصل يترين ايرادات

نسبت به كنكور سراسري بوده كه منجر به طرح حذف كنكور شده است. در اين ميان عدهاي

نيز افزايش تعداد گزينههاي سؤال را راهي براي مقابله با اين مشكلات دانستهاند.

با اين همه اطلاعات محدود و ناچيزي در مورد اثربخشي رويكردهاي ارائه شده وجود

دارد. اگر چه شعور عادي ميپذيرد كه افزايش تعداد گزينهها حدس زدن را كاهش ميدهد،

اما امكان ايجاد گزينه هاي جالب و جذاب (بيش از 3 يا 4) در بسياري مواقع وجود ندارد. از

طرفي تعيين تعداد مطلوب گزينهها نياز به شواهد علمي و تجربي دارد.

نوشتن سؤال هاي تستي با وجود همه تلا شهايي كه در جهت مكانيزه و كامپيوتري كردن

آن به عمل آمده است همچنان به عنوان يك هنر تلقي مي شود. ابتكار و استادي در گنجاندن

1. large scale assessment

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 3

اين مفاهيم در يك مساله، قاطعيت در جلمه بندي و عبارات مربوط به سؤال به گونه اي كه

مسأله مورد نظر به وضوح بيان شده باشد و سرانجام بينش و مهارت در توليد گزينه هاي

انحرافي به گونه اي كه افراد ضعيف را به خود جلب كند مستلزم طرح و تحليل دقيق سؤالها و

.( تجزيه مستقيم است (ثرندايك به نقل از هومن، 1375

سؤال هاي چندگزينه اي ممكن است به گونه كلي داراي 3.4.5 حتي 6 گزينه باشند اما بيش

از 70 سال پيش متخصصان انداز هگيري كشف كردند كه دليل منطقي كمي براي نوشتن

سؤال هاي چندگزينه اي به صورت 4 يا 5 گزينه اي وجود دارد (اون و فرومن، 1987 ) با اين

وجود متداو لترين نوع پرسش ها چهار گزينه اي است. اما يك پرسش 3 گزينه اي كه براساس

روش هاي عملي و آماري صحيح تهيه شوند به يك پرسش 4 يا 5 گزينه اي كه داراي گزينه

.( هاي معيوب است برتري دارد (سيف، 1386

اما امروزه به چند دليل عمده از آزمون هاي چندگزينه اي بيش از ساير انواع آزمون ها در

حوزه تعليم و تربيت استفاده مي شود: اول به علت آنكه آزمودني قادر است در زمان معين تعداد

زيادي سؤال را پاسخ دهد و به عبارتي ديگر در يك زمان محدود تعداد زيادي از هد فها

آموزشي و بخش مهمي از محتواي درس را اندازه بگيرد. دوم اينكه آزمو نهاي چند گزينه اي

نسبت به آزمون هاي صحيح و غلط و دوگزينه اي كمتر امكان حدس زدن كوركورانه را به

آزمون شونده مي دهند. دليل سوم براي استفاده بيشتر از اين نوع آزمون سهولت در نمره

گذاري و تصحيح و تفسير آن و در نتيجه صرفه جويي در نيروي انساني و وقت و هزينه م يباشد

.( (سيف، 1386

اما معايبي نيزدارد از جمله اينكه ساختن اين آزمو نها بسيار دشوار است و در مقايسه با

آزمون هاي صحيح - غلط خواندن اين آزمون ها و پيدا كردن گزينه درست مستلزم وقت

.( زيادتري است (شريفي، 1384

امروزه آزمون هاي چندگزينه اي استعداد و پيشرفت تحصيلي در حوزه تعليم و تربيت بيش

از ساير موقعيت ها مورد استفاده قرار مي گيرد اما اينكه يك آزمون چندگزينه اي چه تعداد

www.SID.ir

Archive of SID

4 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

گزينه بايستي داشته باشد تا از حداكثر پايايي برخوردار باشد همواره مورد بحث مي باشد. تعداد

گزينه هاي سؤال هاي چندگزينه اي (گزين ههاي درست يا انحرافي) از 2 تا 5 و گاهاً تا 6

متغيراست و به لحاظ نظري هر چه تعداد گزينه ها بيشتر باشد امكان حدس زدن كمتر است اما

ابتدا بايد مشخص كرد در يك آزمون، چند گزينة انحرافي بيشتر، باعث افزايش پايايي سؤال

مي شود به هر حال در عمل ممكن است اضافه كردن گزينه هاي انحرافي واقعا باعث افزايش

پايايي آزمون نشود زيرا پيدا كردن گزينه هاي خوب مشكل است. پايائي هر سؤال از طريق

گزينه هاي انحرافي كه هيچ وقت انتخاب نشد هاند بالا نم يرود مطالعات نشان داد هاند كه به

ندرت مي توان سؤالاتي را يافت كه بيشتر از 3 يا 4 گزينه انحرافي كه به طور مؤثر عمل مي كنند

داشته باشند و گزينه هاي انحرافي خنثي ممكن است به پايايي آزمون لطمه وارد كنند به اين

دليل كه آنها زمان بيشتري را براي خواندن م يگيرند و فضاي آزمون را اشتغال مي كنند

.( (كاپلان و ساكوزو،به نقل از دلاور و درتاج و فرخي، 1386

سؤال هاي تحقيق

آيا پارامتر هاي سؤال نسبت به تعداد گزينه ها حساس است ؟

آيا تأثير تعداد گزين هها بر ويژگي هاي روان سنجي سؤالات و توانايي برآورد شده

آزمودني ها در نظريه كلاسيك و سؤال پاسخ متفاوت است ؟

آيا توانايي برآورد شده آزمودن يها از تعداد گزينه هاي سؤال تأثير مي پذيرد؟

آيا تعداد گزين هها بر برازش داده ها با مدل در نظريه سؤال پاسخ تأثير مي گذارد؟

يك مطالعه درباره مسائلي كه به انتخاب گزين ههاي انحرافي مربوط م يشود پيشنهاد

مي كند كه معمولاً بهتر است 3 يا 4 گزينه انحرافي كه به طور مؤثر عمل مي كنند براي هر سؤال

.( تدوين شود (آناستازي و اربينا، 1997 به نقل از دلاور، 1374

يونسي ( 1386 ) به بررسي ويژگ يهاي روان سنجي سؤال هاي آزمون فراگير رشته

روان شناسي دانشگاه پيام نور در سال 1385 پرداخته و نتايج تحقيق را اين طور بيان م يكند.

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 5

تجزيه و تحليل داد هها نشان داد كه گزينه هاي انحرافي تمامي سؤالات در همه آزمون ها هم

احتمال نيستند و عملكرد معيوبي داشت هاند نتايج تجزيه وتحليل حاكي از اين است كه در

آزمون هاي ادبيات فارسي، روانشناسي و جامعه شناسي مدل دو پارامتري نسبت به مدل سه

پارامتري برازش بهتري با مجموعه داده هاي ازمون دارد.

معلمي اوره ( 1387 )در تحقيقي به مقايسه دقت برآورد توانايي در سؤالات چندگزينه اي

با بكارگيري مدل سازي - سؤال پاسخ دو وچند ارزشي - پرداخته است.نتايج حاصل از برازاندن

مدل دو ارزشي 1و 2و 3 پارامتري بر داده هاي سؤال پاسخ مذكور نشان داد مدل دو پارامتري كه

1 است. دراين NRM از نظر ساختار پارامتري در ميان مدل هاي دو ارزشي نزديك ترين مدل به

ميان از برازندگي بهتري با داد ههاي فوق الذكر برخوردار است ولذا اين مدل به عنوان مدل دو

انتخاب (NRM) ارزشي مناسب جهت مقايسه دقت برآورد توانايي با مدل چند ارزشي برگزيده

شد.

هاديان ( 1376 ) تأثير تعداد گزينه هاي سؤال در اعتبار تست هاي چندگزينه اي را مورد

بررسي قرار داد.هدف از اين پژوهش مطالعه تأثير تعداد گزين هها در اعتبار تس تهاي چند

گزينه اي در بين سه گروه قوي،متوسط وضعيف است وتعيين اين كه چه تعداد گزينه در

هريك از گروه ها بيشترين اعتبار را براي تست فراهم م يكنند. 400 نفر از دانش آموزان دختر

وپسر سال اول دبيرستان هاي نظام جديد مناطق 2و 11 و 18 آموزش وپرورش شهر تهران در سال

75 ) به شيوه نمونه گيري چند مرحله اي انتخاب شدند. - تحصيلي ( 76

براي 4 نوع سؤال 2 تا 5 (KR بعد از اجراي آزمون ضريب اعتبار از طريق فرمول آلفا ( 20

گزينه اي در هر يك از سه گروه متوسط، ضعيف وقوي به دست آمد. ضرايب اعتباربه دست

آمده براي هر فرم از تست مورد مقايسه قرار گرفت نتايج نشان داد كه بين ضريب اعتبار

تست هاي 2تا 5 گزينه اي براي گروه قوي وضعيف تفاوت اساسي ومعناداري وجود ندارد ودر

-1 مدل پاسخ اسمي

www.SID.ir

Archive of SID

6 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

اين دو گروه ضريب اعتبار تس تهاي 2گزينه اي به طور قابل ملاحظه اي از ساير تس تها بيشتر

بود. ولي بين ضرايب اعتبار تست هاي 3تا 5 گزينه اي براي گروه متوسط تفاوت معنادار بود بدين

معني كه تست هاي 3گزينه اي، نسبت به تست هاي با تعداد گزينه هاي بيشتروكمتر از اعتبار

بالاتري برخوردار بود.

1376 )به بررسي تأثير تعداد گزينه ها وزمان اجراي آزمون بررسي نمره كل - بيرقي ( 77

آزمون پرداخته است. داده هاي جمع آوري شده برروي 200 نفر گروه نمونه انجام شده است.

آزمودني ها بر اساس نمره هاي حاصل از يك آزمون ادبيات جداگانه كه در ابتداي تحقيق اجرا

شده است، به دو گروه تقسيم شده اند.ويكي از گروه ها به يك آزمون سه گزين هاي وگروه

دوم به يك آزمون 4گزينه اي كمتر از ميانگين نمرات 3گزينه اي است يعني افزايش تعداد

گزينه ها باعث كاهش نمره كل آزمون شده است.

پاك نژاد ( 1377 ) به بررسي، تأثير تعداد گزينه هاي سؤال ومدت زمان پاسخ دهي برپايايي

آزمون هاي چندگزينه اي پيشرفت تحصيلي پرداخته است. تحقيق حاضر به منظور بررسي تأثير

تعداد گزينه هاي سؤال ومدت زمان پاسخ دهي بر پايايي 1 آزمون هاي چندگزينه اي پيشرفت

تحصيلي برروي يك نمونه 400 نفري از دانش آموزان سال سوم دبيرستان نظام جديد آموزش

متوسطه شهرستان انديمشك كه در سال تحصيل فرهنگ ومعارف اسلامي انجام شده است.

دراين تحقيق، ضرايب پايايي آزمون هاي چهارگزينه اي،سه گزينه اي، و دوگزينه اي وآزمون

چهارگزينه اي با مدت زمان پاسخ دهي كوتاه و بلند با استفاده از آزمون هاي معني دار بودن

مورد α=0 . اختلاف بين دو ضريب همبستگي در نمونه هاي همبسته ومستقل در سطوح 05

مقايسه قرار گرفته اند نتايج حاكي از آن بود كه بين ضرايب پايايي آزمون هاي چهارگزينه اي و

سه گزينه اي اختلاف معني داري نمي باشد. وبين ضرايب پايايي آزمون هاي چهارگزينه اي و دو

گزينه اي اختلاف معني دار مي باشد.

1. Reliability

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 7

2009 ) در تحقيقي برروي آزمون هاي ورودي مدارس و دانشگاه ها با بيان ) تام بوركارد 1

SAT اين كه بايد از آزمون ها و سؤالات چند گزينه اي استفاده شود ادعا مي كند تس تهاي

داراي مشكلات خاص وسيستماتيك است. بوركارد مي گويد مشكلات زيربنايي، ناشي از باز

پاسخ بودن بعضي از سؤالات است. همچنين ادعا مي كند كه مهارت تفكر انتقادي دراين

آزمون ها (باز پاسخ) واقعي نيست. زيرا آزمون گران به راحتي نم يتوانند ادعاي خود را درمورد

كودكان 6 تا 11 ساله ثابت كنند. بوركارد بيان مي كند باجايگزيني آزمون هاي چند گزينه اي به

جاي باز پاسخ ديگر مشكلي نخواهيم داشت زيرا اين تست ها به دقت دانش وتوانايي را ارزيابي

ميكنند. با آزمون هاي چندگزين هاي مي توان مقايسه هاي سال به سال از عملكرد دانش آموزان

داشت. بوركارد ( 2009 ) مي گويد در جهان واقعي كسي فاقد دانش نيست و استفاده از سؤالات

انشايي و باز پاسخ امري خطير و فاجعه بار وبسيار پرهزينه براي سنجش عملكرد افراد است.

2008 ) باتحقيقي به عنوان دشواري سؤالات آزمون هاي چند ) گاتس شال وكوبينجر 2

گزينه اي،بيان داشته كه آزمون هاي چندگزينه اي خود مشكل زاست زيرا اغلب به راحتي فرد به

جواب درست دست پيدا مي كند و باعث مي شود آزمودني يك حدس زننده خوش شانس

باشد. در اين تحقيق (كوبينجر وگاتس شال، 2008 ) از آزمون هاي موازي استفاده شد كه از

لحاظ محتوا شبيه به هم هستند اما پاسخ هاي آنها متفاوتند. 173 تست به صورت تصادفي در

كتابچه هايي ارائه شدند. با انجام تحليل مدل راش بعد از حذف 39 سؤال با مدل راش برازش

گزينه اي تفاوت معني X داشت نتيجه اوليه به اين صورت بود كه آزمون چندگزينه اي 5تا

داراي با آزمون جواب آزاد نداشت. در اين تحقيق بيان شده است اگر از سؤالات با فرمت 1

گزينه صحيح از 5 گزينه انحرافي و 1 گزينه صحيح از 4 گزينه انحرافي استفاده شود. چندان

تفاوتي نمي كند.

1. Tom burkard

2. Kubinger ,Gottschall

www.SID.ir

Archive of SID

8 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

در تحقيقي توسط جيمز و ماروي ( 2008 ) با عنوان تأثير گزينه معيوب در امتحانات چند

گزينه اي ارزيابي پرستاران به انتقاد از امتحانات چندگزين هاي پرداخته و با تاسف بيان كرده

است كه رواج گزينه هاي معيوب در امتحانات معلم ساخته باعث تبعات منفي زيادي شده

است.در اين تحقيق با يك بررسي دراز مدت برروي دانش آموختگان بوردپرستاري مشخص

شد افراد با نمره بالا وقتي دوباره آزمون شدند نتايج به نحوي بود كه انگار ارزيابي هاي قبلي،

غلط بودند (دانش آموزان نمرات پاييني در آزمون جديد گرفتند). به گفته جيمز و ماروي

2008 ) ممكن است در ظاهر فقط براي دانش آموزان دوره پرستاري اتفاق افتاده باشد. ولي پر )

واضح است كه در تمام عرصه ها به همين نحو است، جيمز و ماروي پيشنهاد م يكنند عيوب

سؤالات چندگزينه اي با دقت بيشتري بررسي شود و براي تمام سطوح موفقيت وتوانايي بررسي

شود.

2008 ) در پژوهش خود با عنوان استفاده از طرح آشيانه اي براي ) يانگ سوك سو 1

داده هاي آزمون هاي چندگزينه اي ادعا مي كند، موقعي كه راه حل و استراتژي صحيح در

ممانعت از انتخاب گزين ههاي انحرافي به كاربرده م يشود، مي تواند فرايند زير بنايي سؤالات

آزمون هاي چندگزينه اي را بهتر نشان دهد.اين رساله مدل جديدي براي ارزيابي سؤالات چند

ارائه مي دهد. به (MML) گزينه اي با استفاده از الگوريتم برآورد بيشينه درست نمايي كناري

علاوه سؤالات وطبقه كاربرد اطلاعات براي هر مدل به كار رفته است. و به ارزيابي عملكرد هر

مدل و مطالعات مشابه براي كشف پارامترهاي سؤال، پرداخته است. در كاربرد مدل به وسيله

استفاده كرده است. (Likelihood Ratio) از نسبت بيشينه تست DIF تحليل

چاين چي ( 2007 ) رساله دكتري خود را با عنوان تأثير حدس در ارزيابي ابعاد (تك بعدي

بودن وچند بعدي بودن) آزمون هاي چندگزينه اي ارائه كرده است. در اين تحقيق 4 شاخص

براي ارزيابي تك بعدي بودن مورد استفاده قرار گرفته است نسبت واريانس، تحليل هاي

وتفاوت خي دو. RMSR موازي، تبديل

1. Young suk suh

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 9

2004 ) بيان مي كند كه آزمو نهاي چندگزينه اي بيشترين تعداد را در ) واي مين هوانگ 1

ميان تنوع بسيار زياد آزمون ها به خود اختصاص داده است. آزمون هاي چندگزينه اي عمومي

براي مواردي مثل تعيين پيشرفت، تعيين پايه دانش، دانشجويان ابقا يا ارتقا درجه علمي مورد

استفاده قرار م يگيرد. بر همين اساس م يگويد علي رغم نفوذ آزمون هاي چند گزينه اي،

شواهد تجربي حاكي از آن است كه چگونگي نوشتن آزمون هاي چند گزينه اي دچار كاستي

است.

2008 ) بيان مي كند ابهام در آيت مهاي تست باعث ورود واريانس هاي نا مربوط ) آلن ام 2

در آزمون هاي چندگزينه اي مي شود.

كارين –وودفورد وپيتر بانكرافت ( 2009 ) در مقاله اي تحت عنوان آزمون هاي چندگزينه اي

را سخت تصور نكنيد به بررسي آزمون هاي چندگزينه اي پرداخته است. وچگونگي ساخت،

اجزا و محدودي تهاي اين آزمو نها را مورد بررسي قرار داده است. در بخشي از اين مقاله به

تعداد گزينه ها در آزمو نهاي چندگزينه اي پرداخته و اظهار مي دارد كه در سا لهاي اخير

بيشترين اظهارنظرها به آزمو نهاي 3و 4و 5 گزينه اي معطوف بوده است. وبيان م يكند كه ادعاي

آنها كه 5 گزينه اي را انتخاب م يكنند بيشتر به خاطر از بين بردن حدس است. اين پژوهشگران

استفاده از 3 گزينه اي يا 4 يا 5 گزينه اي را معطوف به مقتضي زمان كاربرد م يدانند تا از

اشتباهات دوري شود.

2006 ) در تحقيقي در دانشگاه كانساي ژاپن آثار كاهش تعداد ) تتسو هيتوشيزوكا 3

گزينه ها سؤالات برروي مشخص ههاي روان سنجي آزمون ورودي دانشگاه كانساي را مورد

بررسي قرار داد.اين آزمون به صورت يك سري سؤالات 4 گزينه اي بود كه براي غربالگري

مورد استفاده قرار مي گرفت كه با حذف يك گزينه به يك آزمون سه گزينه اي تبديل شد. وبر

روي گروه ديگري اجرا شد. پاسخ به دو آزمون ومقايسه دو آزمون نشان داد كه درجه سهولت

1. Yi min Huang

2. Oleen-m

3. Tetsuhito shizuka

www.SID.ir

Archive of SID

10 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

و پارامتر تشخيص به طور معناداري تغيير نكرد. نتايج اين تحقيق پيشنهاد مي كند كه سؤالات سه

گزينه اي همان كارايي سؤالات 4 گزينه اي را دارد ودر اصل م يتوان به جاي 4 گزينه اي از سه

گزينه اي استفاده كرد.

2005 ) در تحقيقي بيان مي كند كه سؤالات چندگزينه اي بهترين كاربرد را ) مايكل سي 1

در زمينه آزمون هاي پيشرفت تحصيلي دارند. و براي به دست آوردن سؤالاتي با محتواي عالي

و با كيفيت سؤالات سه گزينه اي مي تواند از سؤالات 4 يا 5 گزينه اي برتري داشته باشد. به

گفته مايكل سي ( 2005 ) محققان در طي 80 سال تحقيق مدارك تجربي به دست آورده اند كه

سؤالات 3 گزينه اي بهترين كاربرد را دارد و نياز به اين سؤالات روز به روز بايد مورد توجه

قرار گيرد.

1980 ) به مقايسه آزمون سه گزينه اي و چهارگزين هاي پرداخته وبيان ) رالف جي استاراتون 2

داشته است كه هر چند بيشتر كتاب هاي اندازه گيري به طور معمول سؤالات 5 يا 4 گزينه اي را

توصيه م يكنند، اما مطالعات تجربي نشان داده است كه سؤالات سه گزين هاي در شرايط خاص

بهينه تر است. در اين تحقيق پايايي وخطاي استاندارد اندازه گيري آزمون سه گزينه اي برابر يا

حتي بهتر از سؤالات 4 گزينه اي ويا 2 گزينه اي بود واين نتايج با در نظر گرفتن زمان آزمون

بود. رالف ( 1980 ) پيشنهاد م يكند از سؤالات سه گزينه اي در كلا سهاي عمومي استفاده شود.

روش

باتوجه به هدف اصلي پژوهش كه به بررسي تأثير تعداد گزين ههاي سؤال در ويژگ يهاي

روان سنجي آزمون وتوانايي برآورد شده مي پردازد، بهترين روش تحقيق روش تجربي م يباشد.

جامعه آماري تحقيق حاضر شامل كليه دانش آموزان دبيرستان هاي شهر شيراز و بخش

كربال فارس م يباشد.

1. Michael. c

2. Ralph G. straton

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 11

گروه نمونه اين تحقيق عبارت است از 608 نفر دانش آموز سال سوم دبيرستان رشته

رياضي، به صورت تصادفي خوش هاي به علت وسعت منطقه جغرافيايي و پراكندگي جامعه

آماري و عدم دسترسي به همه آنان صورت گرفت. براي همگون كردن آزمودن يها در تحليل،

آزمودني هاي دختر وپسر از هم تفكيك نشدند.

با توجه به اين كه كاربرد موفقيت آميز مدل هاي نظريه سؤال پاسخ نياز به حجم نمونه

كافي وطول مناسب آزمون براي برآورد دقيق پارامتر هاي توانايي و پارامتر هاي سؤال دارد، بر

نمونه به صورت زير انتخاب ،IRT طبق تحقيقات و پژوه شهاي انجام شده در مورد مدل هاي

خواهد شد 20 سؤال و 200 آزمودني براي مدل تك پارامتري، 30 سؤال و 500 آزمودني براي

مدل دو پارامتري و 60 سؤال و 1000 آزمودني براي مدل سه پارامتري توصيه م يشود از طرف

ديگر بعضي مطالعات حتي حجم نمونه 200 نفر و 20 سؤال را براي كسب برآوردهاي قابل

.( قبول كافي دانسته اند (همبلتون و كوك، 1983

داده ها در تحقيق حاضر از طريق آزمون پيشرفت تحصيلي درس حسابان، و زبان عمومي

در رشته رياضي فيزيك سال سوم دبيرستان جمع آوري شد.

آزمون هاي موردنظر توسط جمعي از دبيران حسابان وهندسه وزبان عمومي شهرستان

خرامه از سؤالات كنكور سا لهاي قبل، 20 سؤال تهيه شد. در ساخت اين آزمون ها به نكات زير

توجه شد:

با توجه به زمان سپري شده از سال تحصيلي اين آزمو نها از يك سوم كتاب تدريس شده

تهيه شد. وبه تاييد گروه رياضي و زبان آموزش پرورش شيراز وشهرستان خرامه رسيد. بعد از

ساخت سؤالات به صورت 4گزينه اي توسط دبيران گزين هاي ديگر به سؤالات 4گزينه اي اضافه

شد و سؤالات به صورت 5گزينه اي، از سؤالات 4گزينه اي يك گزينه غلط (گزينه انحرافي)

حذف گرديد و سؤالات 3گزينه اي تهيه شد. دراصل در تمام فرم تهاي 3و 4و 5 گزينه اي گزينه

صحيح و سؤال مشابه بود. روايي آزمون به صورت محتوايي و ظاهري توسط دبيران حسابان

www.SID.ir

Archive of SID

12 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

وزبان شهرستان خرامه بررسي شد ودر يك مدرسه به عنوان نمونه اجرا شد و پايايي سؤالات با

روش آلفاي كرونباخ مشخص و سؤالات مناسب جايگزين سؤالات نامناسب شد.

يافته ها

به منظور ارزيابي تأثير تعداد گزين هها بر ويژگي هاي روا نسنجي آزمون ها وسؤالات و همچنين

توانايي برآورد شده آزمودني ها در آزمون حسابان و زبان در نظريه كلاسيك اندازه گيري و

پرسش پاسخ، داد هها با استفاده از دو آزمون حسابان و زبان كه هر كدام با فرمت 3و 4و 5

گزينه اي ساخته شده بودند، از گروه نمون هاي كه از 120 دختر و 491 پسر ( 608 نفر به آزمون

زبان و 611 نفر به آزمون حسابان)تشكيل شده بودند و از جامعه به صورت تصادفي انتخاب

شده بودند جمع آوري شد. ابتدا پايايي آزمو نها از طريق آلفاي كرونباخ سنجيده شد و سپس

با استفاده از تحليل عاملي به بررسي مفروضه تك بعدي بودن آزمون پرداختيم. بعد از بررسي

مفروضات اوليه به تحليل نتايج پرداخته و ضرايب تميز و دشواري و حدس آزمو نها محاسبه

و از DIF پارامترها با هم مقايسه شدند. براي مقايسه پارامتر ها از منطق z شد و با استفاده از

آناليز واريانس آميخته نيزاستفاده شد.

جدول 1. جدول پايايي كل آزمون هاي حسابان و زبان

آلفاي كرونباخ (كودرريچارد سون ) آزمون وتعداد گزينه ها تعداد سؤالات

0.755 حسابان 3 گزينهاي 17

0.753 حسابان 4 گزين هاي 17

0.798 حسابان 5 گزينه اي 17

0.774 زبان 3گزينه اي 17

0.780 زبان 4گزينه اي 17

0.762 زبان 5 گزينهاي 17

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 13

به منظور بررسي پيش فرض هاي نظريه پرسش پاسخ از تحليل عاملي براي بررسي تك

بعدي بودن آزمون ها استفاده شد با توجه به ارز شهاي ويژه به دست آمده و اسكري هاي به

( آزمون هاي مورد استفاده تك بعدي بودند. همبلتون ( 1989 SPSS دست آمده از نرم افزار

ذكر م يكند كه چنانكه فرض تك بعدي بودن برقرار باشد. مفروضه استقلال موضعي نيز برقرار

است. باتوجه به اين مطلب در آزمون مذكور مفروضه ي استقلال موضعي نيز برقرار است و

آزمون ها مناسب براي تحليل با نظريه پرسش پاسخ مي باشد.

تحليل شد و BILOG-MG بعد از بررسي پيش فر ضهاي آماري داد هها با نرم افزار

محاسبه شد. IRT ضرايب تشخيص وتميز در دو نظريه كلاسيك و

براي بررسي حساسيت پارامترهاي سؤال نسبت به تعداد گزين هها از 3 روش، براي محاسبه

استفاده شد:

Z - اولين روش استفاده از فرمول

2 2

1 2

E1 E2 S S

b b

Z

در تحليل پارامترهاي سؤال DIF - دوم استفاده از منطق

تعريف اساسي نظريه سؤال پاسخ از كار كرد افتراقي سؤال، روش بسيار ساده اي فراهم

مي كند كه براساس آن مي توان كاركرد افتراقي سؤال را مورد بررسي قرار داد. يعني، انتخاب

نمونه بزرگي از آزمودني ها از دو جامعه، اجراي مقياس موردنظر (منظور تبديل داده ها به

مقياسي مشترك م يباشد) و برآورد پارامترهاي سؤال به طور جداگانه براي هر دو گروه و

سپس مقايسه ديداري منحني هاي سؤال پاسخ. تنها در صورتي پارامتر هاي سؤال (يا نمره هاي

به دست آمده از سطوح صفت) كه به طور جداگانه براي دو يا چند گروه برآورد شده اند قابل

مقايسه اند كه محقق اين پيش فرض را بپذيرد كه گروه ها در متغير صفت مكنون توزيع يكساني

دارند. به طور اخص،سؤال در صورتي كاركرد افتراقي را نشان مي دهد كه منحني سؤال پاسخ

آن در بين گروه هاي مختلف متفاوت باشند و يا اينكه بين هريك از پارامترهاي سؤال در بين

www.SID.ir

Archive of SID

14 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

0

0.2

0.4

0.6

0.8

1

1.2

-3 -2.75 -2.5 -2.25 -2 -1.75 -1.5 -1.25 -1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 2.75 3

سوال 11 زبان 5 گزينه سوال 11 زبان 4 گزينه ای

0

0.2

0.4

0.6

0.8

1

1.2

-3 -2.75 -2.5 -2.25 -2 -1.75 -1.5 -1.25 -1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 2.75 3

سوال 3 زبان 5 گزينه سوال 3 زبان 3 گزينه

ICC در اين مورد تفاوت DIF گروه ها تفاوت و جود داشته باشد. (فلسفي نژاد، 1388 ) ملاك

مي باشد. P( )i  P( )i ها و قدر مطلق 2

- سوم استفاده از آناليز واريانس آميخته

بررسي شده اند آورده شده است. DIF هايي كه به روش منطق ICC در زير نمونه اي از

نمودار 1. بيشترين تفاوت در سؤال 11 زبان 4 و 5 گزينه اي

نمودار 2. كمترين تفاوت در سؤال 2 زبان 3 و 5 گزينه اي

ICC ها نشان داد تفاوت فقط در چند سؤال قابل توجه است و اكثر ICC نتايج بررسي

نيز تأييد شد. Z سؤالات تفاوت زيادي با هم ندارند. اين نتايج با استفاده از تبديل پارامتر ها به

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 15

براي بررسي تفاوت ضريب دشواري در آزمون زبان Z جدول 2. استفاده از قدر مطلق

جدول، تفاوت ضرايب دشواري آزمو نهاي زبان 3 و 4 و 5 گزينه اي را نشان مي دهد. ستون

اول سمت راست تفاوت ضرب دشواري زبان 3 و 5 گزينه اي و در ستون دوم زبان 4و 5

جدول Z محاسبه شد. با توجه به Z گزينه اي و در ستون سوم زبان 3و 4 گزينه اي با استفاده از

در سطح معني داري 0.05 تفاوت بين ضرايب دشواري آزمون زبان 3 و 4 و 5 گزينه اي فقط در

سؤالات 2و 14 آزمون زبان 3و 4 گزينه اي و سؤال 1 ازمون 4 و 5 گزينه اي مشاهده شد.

ضريب دشواري z

5و 3 گزينه اي

ضريب دشواري z

4و 5 گزينه اي

ضريب دشواري z

3و 4 گزينه اي

زبان

1.162 2.026 سؤال 1 0.7202

2.0728 0.5577 0.7548 سؤال 2

1.294 1.289 0.839 سؤال 3

1.032 0.6524 0.7366 سؤال 4

2.109 1.2685 0.9425 سؤال 5

1.2936 1.5130 0.9970 سؤال 6

0.1334 1.3198 0.9569 سؤال 7

0.8411 0.5529 0.8510 سؤال 8

1.152 1.241 0.9682 سؤال 9

2.087 0.4433 0.8489 سؤال 10

1.2684 0.6051 0.4249 سؤال 11

1.0211 1.2277 0.8553 سؤال 12

1.0681 0.5240 0.8730 سؤال 13

2.457 سؤال 14 6387.1 0.8688

1.1006 1.0369 سؤال 15 0.9682

0.0299 1.073 0.777 سؤال 16

1.3654 1.2199 0.9485 سؤال 17

www.SID.ir

Archive of SID

16 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

براي بررسي تأثير تعداد گزينه ها بر ويژگي هاي روا نسنجي سؤالات و توانايي برآورد شده

استفاده شد (mixed ) آزمودني ها در نظريه كلاسيك و سؤال پاسخ از تحليل واريانس آميخته

كه نتايج تحليل آزمون زبان در جداول زير آورده شده است.

IRT,CTT جدول 3. خروجي آناليز واريانس آميخته براي بررسي تفاوت ضريب دشواري زبان در

sig F ms Df Ss منابع تغيير

درون گروهي

0.418 1.561 0.514 2 تعداد گزينه ها 1.028

تعامل 0.042 3.340 1.1 2 2.2

خطا 0.329 64 21.080

برون گروهي

0.000 41.407 20.207 1 مدل 20.207

خطا 0.488 32 15.617

IRT,CTT جدول 4. خروجي آناليز واريانس آميخته براي بررسي تفاوت ضريب تميز زبان در

CTT,IRT ضريب تميز زبان در

sig f ms df Ss منابع تغيير

درون گروهي

0.495 0.712 0.827 2 تعداد گزينه ها 1.653

0.452 0.804 0.934 تعامل 2 1.867

1.161 خطا 64 74.33

برون گروهي

مدل 0.000 26.498 30.761 1 30.761

1.161 خطا 32 17.199

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 17

با توجه به سطح معني داري منابع تغيير درون گروهي و برون گروهي نتايج زير حاصل شد

بين ضرايب تميز و دشواري و تعداد گزينه ها تفاوت معني داري وجود ندارد و لي بين

پارامترهاي محاسبه شده در دو نظريه كلاسيك و پرسش پاسخ تفاوت وجود دارد.

براي بررسي تأثير تعداد گزينه هاي سؤال بر توانايي از آزمون خي 2 استفاده شد كه نتايج

آن در جداول زير موجود مي باشد.

جدول 5. آزمون خي 2 براي بررسي تفاوت تواناي يهاي آزمون هاي زبان 3 و 4و 5 گزينه اي وآزمون

حسابان 3و 4و 5 گزينه اي

زبان 3و 4و 5 گزينه ارزش درجه آزادي سطح معني داري (دودامنه)

0.027 4 10.981 خي 2

تعداد مورد ها 608

نتايج بررسي تفاوت با خي 2 نشان داد كه بين تعداد گزين هها و توانايي آزمون هاي 3و 4و 5

گزينه اي تفاوت معني دار است.

بحث و نتيجهگيري

سؤال 1: آيا پارامتر هاي سؤال نسبت به تعداد گزينه ها حساس است ؟

براي اين منظور از خروجي نرم افزار بايلوگ ضريب هاي تميز و دشواري و حدس در

مورد تحليل قرار DIF و سپس با منطق z نظريه پرسش پاسخ استخراج كرده و ابتدا با فرمول

گرفت. علاوه بر آن از تحليل واريانس آميخته نيز استفاده شد.

حسابان 3و 4و 5 گزينه ارزش درجه آزادي سطح معني داري (دودامنه)

0.000 4 20.228 خي 2

تعداد مورد ها 610

www.SID.ir

Archive of SID

18 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

ضريب تميز، ضريب دشواري، ضريب حدس ، هر : z مقايسه پارامترها با استفاده از فرمول

بحراني در Z محاسبه شده و Z تبديل شده و با هم مقايسه شدند. با توجه به Z سؤال دو به دو به

سطح 0.05 تفاوت معني داري بين ضرايب دشواري و تميز وحدس در آزمون هاي 3 و 4 و 5

گزينه اي مشاهده نشد.

نتايج تحليل واريانس آميخته نيز نشان داد كه بين ضرايب تميز و دشواري و آزمون هاي 3

و 4 و 5 گزينه اي تفاوت معني داري وجود ندارد.براي بهتر نشان دادن اين موضوع از منطق

ها، فقط در تعداد اندكي از سؤالات قابل توجه ICC استفاده شد تفاوت مشاهده شده بين DIF

بودند و بقيه سؤالات تفاوت زيادي باهم نداشتند.

تتسو هيتو شيزوكا ( 2006 )مبني بر اين كه بين ضرايب » نتايج اين تحقيق با تحقيقات

همسو مي باشد. « دشواري و تميز سؤالات 3 و 4 گزينه اي تفاوتي وجود ندارد

سؤال دوم: آيا تأثير تعداد گزينه ها بر ويژگ يهاي روا نسنجي سؤالات و توانايي برآورد

شده آزمودني ها در نظريه كلاسيك و سؤال پاسخ متفاوت است ؟

براي بررسي تأثير تعداد گزينه ها بر ويژگي هاي روا نسنجي سؤالات و توانايي برآورد شده

استفاده (MIXED ) آزمودني ها در نظريه كلاسيك و سؤال پاسخ از تحليل واريانس آميخته

شد. نتايج تحليل نشان داد كه پارامترهاي محاسبه شده در نظريه كلاسيك و پرسش پاسخ باهم

متفاوت بودند.

تفاوت در برآورد پارامترهاي سؤال در » اين نتايج با تحقيق احمدي آذر ( 1387 )، مبني بر

همسو مي باشد. « نظريه سؤال پاسخ و كلاسيك اندازه گيري

سؤال 3: آيا توانايي برآورد شده آزمودن يها از تعداد گزينه هاي سؤال تأثير مي پذيرد؟

براي بررسي اين سؤال توانايي بدست آمده از هر سه فرمت آزمون،ازخي 2 براي بررسي

تفاوت استفاده شد. خي 2 محاسبه شده معني دار بود و تفاوت در برآورد توانايي در فرمت هاي

آزمون هاي 3 و 4 و 5گزينه اي مشاهده شد. باتوجه به نمودارهاي فراواني توانايي به دست آمده و

درصد پاسخ هاي صحيح افراد و توابع آگاهي آزمون هاي مختلف نتايج زير نيز حاصل شد.

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 19

افراد با توانايي كم و متوسط در آزمون هاي 3گزينه اي و 4 گزينه اي عملكرد بهتري داشتند و

افراد با توانايي ضعيف در آزمون هاي 5 گزينه اي عملكرد بدتري داشتند. بررسي درصد

پاسخ هاي صحيح افراد نشان داد در آزمون هاي 3 گزينه اي درصد پاسخ هاي صحيح به مراتب

بالاتر از فرمت هاي ديگر بود همچنين در بررسي توابع آگاهي فرمت هاي مختلف آزمون

مشخص شد آزمو نهاي 3 گزينه اي به اندازه آزمون هاي 4 گزينه اي آگاهي دهنده توانايي افر اد

است.شايد بتوان اين را مطرح كرد كه آزمون هاي 3 گزينه اي به همان مقدار آزمون هاي 4

گزينه اي، توانايي را م يسنجند و مي توان به جاي يكديگر به كار برد.

سؤال 4: آيا تعداد گزينه ها بر برازش با مدل در نظريه سؤال پاسخ تاثير مي گذارد ؟

مقدار - BILOG-MG براي بررسي برازش مدل در نظريه پرسش پاسخ از نرم افزار

2 در آخرين چرخش استخراج كرده و براي هر سه مدل آن را با خي 2 بحراني Loglikelihood

با درجه آزادي برابر با تعداد سؤال ها مقايسه كرديم.

(اگر خي 2 مشاهده شده از خي 2 بحراني كوچكتر باشد، معلوم مي شود كه به لحاظ

آماري بين برازش مدل ها تفاوت معناداري و جود ندارد و ميتوان هريك را به جاي ديگري به

اختيار گزارش كرد. ولي براساس اصل امساك بهتر است مدل داراي پارامترهاي كمتر را

انتخاب كرد.)

-2 به دست آمده و خي 2 جدول با درجه آزادي 17 كه برابر log likelihood با توجه به

27 نتايج زير به دست آمد: آزمون هاي زبان و حسابان در فرمت هاي 3 و 4 و 5 / است با 59

گزينه اي با مدل دو پارامتري برازش بهتري داشت.اين نشان دهنده اين است كه م يتوان از

پارامتر حدس در آزمون هاي چندگزينه اي صرف نظر كرد.

www.SID.ir

Archive of SID

20 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

منابع فارسي

احمدي، آذر. ( 1387 ). نمره كل سازي با استفاده از تكني كهاي نظريه كلاسيك و مقايسه آن با

مد لهاي نظريه سؤال پاسخ در كنكور كارشناسي رشته رياض . ي پايان نامه كارشناسي ارشد.

تهران: دانشگاه علامه طباطبايي.

آلن ام،جي وين دبليو ام. ( 1384 ). مقدم هاي بر نظري ههاي اندازه گيري ( روان سنجي)، ترجمه

.( علي،دلاور، تهران: سمت (تاريخ انتشار به زبان اصلي 1982

بيرقي، ابولفضل. ( 1377 ). بررسي اثر تعداد گزين هها و زمان بر روي نمره كل در آزمو نهاي پيشرفت

تحصيل . ي پايان نامه كارشناسي ارشد. تهران: دانشگاه علامه طباطبايي.

ثرندايك، برت ال. ( 1369 ). روان سنجي كاربردي. ترجمه هومن، حيدرعلي دانشگاه تهران.

سيده مؤمني، سيد طاهره. ( 1379 ). تأثير عامل حدس بر نمره هاي آزمو نهاي چندگزين هاي پيشرفت

تحصيل . ي پايان نامه كارشناسي ارشد.تهران: دانشگاه علامه طباطبايي.

سيف، علي اكبر. ( 1365 ). اندازه گيري پيشرفت تحصيل ، ي تهران: انتشارات آگاه.

( شريفي حسن پاشا،اصول روان سنجي در روان آزمايي، انتشارات رشد( 1384

فتوحي، ليلا. ( 1387 ). بررسي كاركرد افتراقي سؤالات كنكور كارشناسي ارشد رشته روا نشناس . ي

فلسفي نژاد، محمد رضا. ( 1388 ). مباني نظري پرسش پاس . خ زير چاپ.

كاپلان، روبرت ام؛ ساكوز، دنيس پ. ( 2004 ). روان آزماي ، ي مترجم علي، دلاور، فريبرز درتاج،

. نورعلي فرخي، تهران: نشر ارسباران، 1386

معلمي اوره، مهرناز. ( 1387 ). مقايسه دقت برآورد توانايي در سؤالات چند گزينه اي با بكارگيري

مدل سازي – سؤال پاسخ دو وچند ارزش . يپايان نامه كارشناسي ارشد.تهران. دانشگاه علامه

طباطبايي.

1375 ). تأثير گزينه هاي سؤال در اعتبار تست هاي چندگزين هاي. كتابنامه ص - هاديان، مينا. ( 76

.108 -111

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 21

منابع لاتين

Chien-chi-yeh (2007). The effect of gussing on assessing dimentionality in multiple

choice test,university of Pittsburgh.

Educational and psychological measurement ,vol,40,no,2,357-365/(1980) SAGE

publication /a comparison of the two ,three and four choice item test given/fixed total

number of choice /RALPH G,STRATON

James ware&marve(2008).impact of item-writing flaws in multiple choice question on

student achievement in high-stakes nursing,assessment.42:198-20

Karyn woodfard ,peter Bancroft,(2009).multiple chioice questions not

considered harmful,queensland university of technology.

Kobinger&Christian.h.ghottschall(2008).item difficulty of multiple choice test dependant

on different ietm response formats,university of Vienna.

Olleen m,(2008).heffernan.university of Alberta.

Michael c rodrigrez (2005),tree option are optimal for multiple –choice

item/uni/washin.vol;24,lss,2;pg3,11pgs.

TOM burkard.uk.cps,januray (2009).multiplechoice.

Youngsuk suh (2008),nested logit models for multiple choice item response

data.university of Wisconsin-madison..

Tetsuhito shizuka and coworkers(2006)a comparison of three and four option English

test for university entrance selection,purposes in japan.language testing (2006);23;35.

YI MIN huang.(2004),the impact of the all-of-the above option and student ability in

multiple choice testing,Washington state university college of education.

www.SID.ir


برچسب‌ها: تعداد گزينه ها, نظريه ي سوال پاسخ, نظريه ي كلاسيك اندازه گيري
+ نوشته شده در  پنجشنبه 19 اردیبهشت1392ساعت   توسط محمد حسین ضرغامی  | 

تحليل عاملي 1

تحلیل عاملی یکی از فنون پیشرفته امار چند متغیری است که در جهت دستیابی به بسیاری از هدفهای علمی و پژوهشی مانند مدلسازی ،فرضیه سازی،رواسازی تست ها،تشخیص پاره تست ها، وفراهم ساختن زمینه اجرای سایر روشهای پیشرفته اماری مانند رگرسیون چند متغیری و معادلات ساختاری به کار می رود.اما پیچیدگی و دشواری درک ،اجرا تفسیر نتایج تحلیل عاملی موجب شده است بسیاری از کاربران بدون اشنایی با منطق زیر بنایی ،محدودیتها ونیز دامنه کاربرد آن ،به اجرا و بکارگیری یافته های حاصل از ان بپردازند و بدین ترتیب زمینه ساز تفسیر های نامعتبر و ناروا ونیز تعمیم های نادرست از پدیده ها ومتغیرهای مورد مطالعه گردند. تحقیق حاضر، به معرفی این تکنیک، کاربردها و روشهای پیاده سازی آن می پردازد.

2.  مقدمه

نخستين كار درباره تحليل عاملي، توسط چارلز اسپيرمن (1940) صورت گرفت، كه به گونه كلي « پدر» اين روش شناخته شده است. بعد از او كارل پيرسن)1901(، روش «محورهاي اصلي» را پيشنهاد كرد و هتلينگ (1933) آن را به گونه كاملتري توسعه داد.

بسياري از كارهاي نخستين در تحليل عاملي، يعني در طول سال هاي 1900 تا 1930، به كاربرد مدل اسپيرمن در بسياري از مسايل عملي و بررسي شرايط مناسب براي استفاده از آن مدل اختصاص يافته است. در طول اين دوره، علاوه بر خود اسپيرمن، دانشمندان ديگري مانند سيريل برت، كارل هليزينگر، ترومن كلي، كارل پيرسن و گادفري تامسون، كمك هاي شاياني به ادبيات تحليل عاملي كرده اند. در اوايل سال 1930، آشكار شد كه مدل تك عاملي عمومي اسپيرمن براي توصيف روابط بين متغيرهاي يك مجموعه هميشه كافي نيست.

ترستون احتمالا برجسته ترين تحليلگر عاملي نوين بوده و نفوذ قابل ملاحظه اي در توسعه اين روش از سال هاي 1930 تا كنون داشته است. مسئوليت توسعه روش «سانتروئيد» با اوست كه در مقياس گسترده اي قبل از ظهور كامپيوترهاي پر سرعت به كار رفته است. او همچنين مسئول مفهوم ساختار ساده است كه توسط بيشتر تحليلگران به عنوان معرف يك راه حل تحليل عاملي ايده آل در نظر گرفته شده است.

كارهاي اوليه در تحليل عاملي  كه توسط دانشمندان ياد شده انجام گرفته ، بيشتر توجيه نظري دارد، هر چند هيچ يك از آن ها آماده براي آزمون هاي آماري فرضيه هاي خاص درباره ساختارهاي عاملي مجموعه هاي معيني از متغيرها نبوده است. اما، وقتي كامپيوترهاي پر سرعت در اختيار قرار گرفت در اواسط تا اواخر سال هاي 1950، حركتي از تئوري گرائي به سوي آنچه تحليل عاملي اكتشافي ناميده مي شود، به وجود آمد. اين حركت به گونه آشكار از طريق تئوري عامل مشترك ترستون تشويق، و از طريق فرمول بندي عمومي هتلينگ (1993)، درباره عمليات رياضي مولفه هاي اصلي كه قبل از آن به دليل محاسبات فوق العاده پيچيده و پرزحمت آن ، به كار نرفته بود تسهيل شد. چنين به نظر مي رسد كه در طول سال هاي 1950 و 1960، تقريبا هر كس، هر چيزي را تحليل عاملي مي كرده است، به اين اميد كه روابط پيچيده ظاهري بين متغيرهاي يك مجموعه را مي توان ساده كرد و به گونه ساده تري تفسير نمود (ليندمن و همكاران، 1980). در طول اين دوره همچنين تعداد روشهاي تحليل عاملي با ابداع تحليل تصوير (گاتمن، 1953)، تحليل عاملي بنيادي (رائو، 1955) و (هريس،1962)، تحليل عاملي آلفا (كيسر و كافري، 1965) و روش كمترين پس ماند (هامن و جونز، 1966)، به گونه قابل توجهي توسعه يافت. با اين وجود، روشهاي تحليل اكتشافي نتوانست آن گونه كه انتظار مي رفت، كمك موثري براي آزمون و پالايش تئوري روان شناختي باشد. 

مقاله هتلينگ (1933) درباره تحليل مولفه هاي اصلي نخستين كمك قابل توجه يك آماردان را به تحليل عاملي معرفي كرد، و اين وضعيت تا موقعي ادامه داشت كه مقاله لاولي (1940) درباره روش بيشينه احتمال (ML) منتشر شد. لاولي نشان داد كه تحليل عاملي مي تواند به عنوان يك تكنيك آماري جالب در بسياري از موقعيت هاي پژوهشي كاربرد داشته باشد. واكنش هاي له و عليه اين روشها نيز تا وقتي كه آزمون فرضيه هاي خاص درباره پارامترهاي مدل تحليل عاملي مورد توجه قرار گرفت (مثلا جارزكاگ، 1984)، همچنان ادامه داشت. هر چند كارهاي جارزكاگ اساسا مبتني بر روش ML لاولي بود، اما بسياري از مسايل محاسباتي و تفسيري را كه لاولي با آن مرتبط نبود، روشهاي باك و بارگمن (1966) و جارزكاگ (1984) به سبب تاكيد بر آزمون فرضيه، به عنوان روشهاي تحليل عاملي تاييدي طبقه بندي مي شود. هر چند توليد فرضيه هايي كه بايد آزمون شود اغلب دشوار است، اما اين روشها به وضوح بر تحليل عامل اكتشافي به سبب توسعه و آزمون تئوري مزيت دارد. البته براي تدوين چنين فرضيه هايي مي توان ابتدا تحليل عاملي اكتشافي را اجرا كرد و سپس اين فرضيه ها را از طريق تحليل عاملي تاييدي آزمود.



برچسب‌ها: تحليل عاملي
+ نوشته شده در  پنجشنبه 19 اردیبهشت1392ساعت   توسط محمد حسین ضرغامی  | 

نظريه ي اندازه گيري و نظريه ي آزمون

نظريه ي اندازه گيري

نظریه ی اندازه گیری که شاخه ای از ریاضیات کاربردی است به پژوهشگر این امکان را می دهد تا کیفیت اندازه های اختصاص داده شده را توصیف، مقوله بندی و ارزشیابی نماید. بنابراین این نظریه معنادار بودن، دقت و سودمندی اندازه گیری ها را بهبود می بخشد. علاوه بر این نظریه ی اندازه گیری روش هایی را برای ایجاد ابزارهای اندازه گیری نوین و بهتر فراهم می آورد. 

1.       نظريه ي آزمون يا الگوي آزمون، نمايش نمادي عوامل موثر بر نمره هاي مشاهده شده است كه با مفروضات آن توصيف مي شود. 

+ نوشته شده در  چهارشنبه 2 اسفند1391ساعت   توسط محمد حسین ضرغامی  | 

آزمون دكتري رشته سنجش و اندازه گيري يا همان روانسنجي

رشته های مجاز به ثبت نام دکتری سنجش و اندازه گیری
رشته های مجاز به شرکت در آزمون دکتری رشته سنجش و اندازه گیری :

فارغ التحصیلان کارشناسی ارشد رشته های زیر می توانند در آزمون دکتری سنجش و اندازه گیری شرکت نمایند:

-         سنجش و اندازه گیری

-         مجموعه روان شناسی ( کلیه گرایش ها )

-         ریاضی

-         آمار

-         فیزیک

-         مجموعه علوم تربیتی (کلیه گرایش ها)
در آزمون نیمه متمرکز سراسری سال ۱۳۹۱ ضرایب دروس رشته سنجش و اندازه گیری به شرح زیر می باشد:

زبان انگلیسی با ضریب ۲

استعداد تحصیلی با ضریب ۱

مجموعه دروس کارشناسی و کارشناسی ارشد با ضریب ۴  شامل دروس زیر

  دروس کارشناسی :

-  آمار و اصول روان سنجی

  دروس کارشناسی ارشد :

- روش تحقیق ( کمی ، کیفی ، آمیخته )

- نظریه ها و روش های اندازه گیری و ارزیابی IRT
ظرفیت پذیرش دکتری سنجش و اندازه گیری
ظرفیت سال ۹۱ آزمون دکتری سنجش و اندازه گیری :

 

میزان ظرفیت در سالهای قبل:

سال ۱۳۹۰ : در کنکور دکتری سال ۹۰ پذیرش طی دو نیمسال اول و دوم و به صورت پذیرش اصلی و تکمیل ظرفیت صورت پذیرفت. در این سال آزمون رشته سنجش و اندازه گیری به صورت مجزا برگزار نمیگردید و کنکور دکتری تحت عنوان ” مجموعه روان شناسی ” برگزار شد. ظرفیت های اصلی و تکمیل ظرفیت این رشته در سال ۱۳۹۰ به صورت زیر می باشد:

ظرفیت اصلی ( نیمسال اول ) :

 

تکمیل ظرفیت ( نیمسال دوم ) :


دروس
-اصول روان‌سنجی وروان آزمایی، دکتر حسن پاشا شریفی ، انتشارات : رشد

-مقدمه‌ای بر نظریه‌های روان‌سنجی، دکتر حمزه‌گنجی و مهرداد ثابت نشر ساوالان
  آمار و اصول روان سنجی

 مجموعه دروس تخصصی در سطح کارشناسی
 
-آمار: فرگوسن ترجمه ی دکتر دلاور و نقشبندی

-روش شناسی آزمایشی، دکتر دلاور

-احتمالات و آمار کاربردی، دکتر علی دلاور، انتشارات :رشد

-روش تحقیق در روانشناسی و علوم تربیتی، دکتر علی دلاور ، انتشارات : ویرایش

-روش‌های آماری در علوم رفتاری، رمضان حسن‌زاده

-روش‌های آماری در علوم رفتاری، دکتر حسن پاشا شریفی و دکتر جعفر نجفی زند، انتشارات: رشد

-روش‌های تحقیق در علوم رفتاری، دکتر حسن پاشا شریفی و نسترن شریفی، انتشارات: سخن.

 
 روش تحقیق(کمی،کیفی،آمیخته) مجموعه دروس تخصصی در سطح کارشناسی ارشد
 
-کتاب همبلتون، ترجمه دکتر فلسفی نژاد، انتشارات دانشگاه علامه

-روش‌‌های اندازه گیری و ارزشیابی آموزشی، دکتر علی اکبر سیف، انتشارات : دوران

-اندازه گیری‌های روانی و تربیتی و فن تهیه تست، دکترحیدر علی هومن ، انتشارات :پارسا

-تحلیلی بر سنجش و اندازه‌گیری ، مریم سیف نراقی و عزت‌ا…. نادری

-مبانی نظری آزمون های روانی، ترجمه ی محمد نقی براهنی، نوشته مگنسون
 نظریه هاوروش های اندازه گیری وارزیابیIRT

+ نوشته شده در  پنجشنبه 19 بهمن1391ساعت   توسط محمد حسین ضرغامی  | 

تعين نقطه ي برشي براي سنجش يك اختلال (تهيه ي پرسشنامه و تعيين نقطه برش)

دوستي قصد دارد نقطه ي برشي براي سنجش اختلالات صدا ویژه معلمان مقطع ابتدایی بسازد. براي انجام اين كار چه مسيري را لازم است طي نمايد؟

در مرحله ي روش و در قدم اول لازم است ابزار انجام اين كار را مشخص نمايند. يعني مشخص كنند كه سنجش اختلالات صدا از چه طريقي انجام خواهد شد. پاسخ ايشان تهيه ي پرسشنامه است و در ضمن قصد دارند ويژگي هاي روانسنجي آن را نيز بيابند. براي تهيه ي پرسشنامه لازم است كه ويژگي هاي پرسشنامه مشخص و تعيين شود يعني پرسشنامه بايد روايي و پايايي داشته باشد كه اين خود مبحث گسترده اي است. به منظور تعيين ويژگي هاي سوالات پرسشنامه بايد از نظريات اندازه گيري بهره برند. اين نظريات كه به تعيين ويژگيهاي سوال كمك مي كنند عبارتند از نظريه ي كلاسيك اندازه گيري و نظريه ي سوال پاسخ. بنابراين لازم است در گام اول اين نظريات شناخته شوند و نرم افزارهاي مربوطه فرا گرفته شود. لازم به ذكر است كه انجام كارهاي روانسنجي در تخصص دانشجويان و اساتيد آمار نمي باشد بلكه نياز به تخصص سنجش و اندازه گيري يا روانسنجي دارد كه اين موضوع براي دوستان علاقمند بعد از شروع به كار كاملا روشن مي شود.

بعد از تعيين ويژگي هاي روانسنجي و حدف اصلاح سوالات در نهايت سوالاتي باقي خواهند ماند كه بر اساس روش هاي علمي مي توان گفت پرسشنامه توانايي سنجش  اختلالات صدا را دارا است. بعد از اين مرحله لازم است نقطه ي برش تعيين شود. تعيين نقطه ي برش نيز مطالعات خاص خود را مي طلبد و از روش هايي مانند نمودارهاي راك تا روش هاي سوال پاسخ استفاده مي شود كه توصيه ي بنده استفاده از روش هاي سوال پاسخ است.

+ نوشته شده در  چهارشنبه 11 بهمن1391ساعت   توسط محمد حسین ضرغامی  | 

روری بر پژوهشها: روی آوردهای نوین در دوران سنجی (قسمت سوم) مدلهای نظریه سؤال - پاسخ، مدلهای راش

عنوان مقاله: مروری بر پژوهشها: روی آوردهای نوین در دوران سنجی (قسمت سوم) مدلهای نظریه سؤال - پاسخ، مدلهای راش 

نویسنده : عسگری، علی

مروری بر پژوهشها روی‏آوردهای نوین در روان‏سنجی‏ قسمت سوم:مدلهای نظریه سؤال-پاسخ،مدلهای راش

در هفتاد سال گذشته نظریه‏پردازان متعددی تلاش کرده‏اند تا نشان دهند که چگونه می‏توان از اندازه‏ها و فراوانیهای‏ عینی،1،اندازه‏های انتزاعی‏2به دست آورد.یکی از عملی‏ترین و رایج‏ترین روی‏آوردهایی که برای این منظور به کار می‏رود، مدل راش‏3است.جورج راش،ریاضیدان دانمارکی،این روی‏آورد را در سال 3591 و به منظور تحلیل پاسخهای یک رشته‏ از آزمونهای خواندن به وجود آورد.با آنکه وی را پدر تحلیل راش می‏دانند،اما بنجامین رایت‏4را باید قیم قانونی آن‏ دانست.رایت و همکارانش در دانشگاه شیکاگو روشهای پیشرفته و ابزارهای تحلیل راش را توسعه،و کاربرد آن را در حوزه‏های مختلف عملی ارتقا بخشیدند(ماسوف و فیشر،2002).


مدلهای رایش در واقع روی‏آوردی ریاضی برای آزمون این فرضیه است که اندازه‏های مربوط به معنا5و واحد یک سازه‏ را می‏توان از ابزاری که برای آن خصیصه تهیه شده است به دست آورد.وقتی داده‏ها با این مدلها برازش پیدا می‏کنند به‏ معنای آن است که ابزار اندازه‏گیری و اندازه‏ها در یک واحد فاصله‏ای مشترک مقیاس‏بندی شده‏اند و می‏توانند در انواع یا شکلهای مختلف آن ابزار و نیز در بین نمونه‏های مختلف یک جامعه ثابت باقی بمانند(رایت و استون،9791).


مدلهای راش،در واقع نوعی آزمون همسانی درونی‏6در نظریه سؤال-پاسخ‏اند که برای داده‏های دوارزشی و چند ارزشی به کار می‏روند.در این مدلها نیز مانند مقیاسهای گاتمن‏7،فرض بر این است که همه سؤالها و مواد یک آزمون که‏ یک‏سازه را اندازه‏گیری می‏کنند،یک نوع رابطه مرتب شده‏8را تشکیل می‏دهند.یک آزمون ممکن است دارای همسانی‏ درونی مرتب‏شده‏ای باشد،حتی اگر مجموعه سؤالهای آن همبستگی بالایی باهم نداشته باشند(همسانی درونی‏ جمع‏پذیر9،مانند آنچه از طریق آلفای کرونباخ‏01یا تحلیل عاملی‏11آزمون می‏شود).همسانی درونی مرتب شده بیانگر وجود عامد دشواری است.بدین ترتیب،یک سؤال دشوار می‏تواند پاسخ به سؤالهای با دشواری کمتر را پیش‏بینی کند اما عکس آن امکان‏پذیر نیست(رایت،6991).


وقتی پژوهشگران برای رواسازی یک مجموعه از متغیرهای نشانگر در یک مقیاس از تحلیل عاملی استفاده می‏کنند، فرض را بر این قرار می‏دهند که با یک مدل خطی و جمع‏پذیر روبه‏رو هستند.خطی بودن بخشی از همبستگی و مبنایی‏ برای خوشه‏بندی‏21متغیرهای نشانگر در یک عامل است.در جمع‏پذیری نیز فرض بر این است فقط زمانی معنای همه‏ سؤالها دارای همسانی درونی است،که همبستگی بالایی با یکدیگر داشته باشند.باوجوداین،ممکن است که سؤالها فاقد همبستگی درونی بالا،اما دارای رابطه مرتب‏شده نیرومندی باشند(رایت،5891).به همین دلیل بسیاری از پژوهشگران‏ ترجیح می‏دهند برای ساخت و توسعه مقیاسها به جای مدلهای جمع‏پذیر مانند آلفای کرونباخ و تحلیل عاملی،از مدلهای‏ راش استفاده کنند.زیرا این مدلها نه تنها روابط جمع‏پذیر بین متغیرهای نشانگر،بلکه رابطه ترتیبی سؤالها(مانند ترتیب‏ (1). concrete 


(2). abstract 


(3). Rasch 


(4). Wright,B.D. 


(5). meaning 


(6). internal consistency 


(7). Guttmann 


(8). ordered relationship 


(9). additively 


(01). cronbach 


(11). factor analysis 


(21). clustering 



روانشناسنان ایرانی » شماره 13 (صفحه 81)

--------------------------------------------------------------------------------


دشواری)را نیز به حساب می‏آورند(تنورگرت،گیلپسی و کینگما،3991).نظریه زیربنایی مدلهای راش در بسیاری جنبه‏ها شبیه به نظریه سؤال-پاسخ است.به بیان دیگر،مدل راش برای داده‏های دو ارزشی اغلب به عنوان مدل تک پارامتری‏ نظریه سؤال-پاسخ در نظر گرفته می‏شود.اما هواداران این مدل،آن را دارای ویژگی خاصی می‏دانند که از مدلهای‏ IRT متمایز است.به گونه اختصاصی،ویژگی معرف مدلهای راش صورتبندی انتزاعی‏1و ریاضی مقایسه نامتغیر است که‏ می‏تواند برای اندازه‏گیری موفقیت‏آمیز سازه‏ها یک ملاک معتبر فراهم کند(سادوس،گارمندی،کیوز و الیوت،4002).این‏ ویژگی انتزاعی،مدلهای رایش را از سایر مدلهایی که برای پاسخ به سؤالها یادمواد آزمون به کار می‏روند متمایز و آن را به‏ عنوان مدلهای ایده‏آل یا استاندارد مطرح می‏سازد.


بنابر نظر آندریش(4002)دیدگاه‏2یا پارادایم‏3مدلهای راش به گونه بارزی با سایر مدلهای اندازه‏گیری تفاوت دارد.در اغلب مدلها هدف اصلی توصیف مجموعه‏ای از داده‏هاست.به همین منظور پارامترها تعدیل می‏شوند و برپایه اینکه چگونه‏ با داده‏ها برازش می‏یابند،رد یا پذیرفته می‏شوند.اما هدف از به کار بردن مدل راش به دست آوردن داده‏هایی است که با مدل برازش داشته باشد.منطق زیربنایی این دیدگاه آن است که مدلهای راش مستلزم شرایطی هستند که برای‏ اندازه‏گیری باید برآورده شوند.درست همانگونه که عموما در اندازه‏گیریهای علم فیزیک وجود دارد.


برای درک این منطق زیربنایی بیان مثالی در اندازه‏گیری وزن می‏تواند مفید باشد.فرض کنید وزن شئ‏ A در یک‏ موقعیت به گونه قابل ملاحظه‏ای بیشتر از وزن شئ‏ B اندازه‏گیری شده است.سپس بلافاصله در یک موقعیت دیگر،این‏ وزن شئ‏ B است که بیشتر از وزن‏ A به دست می‏آید.در اینجا شرط اساسی اندازه‏گیری،یعنی یکسان و نامتغیر بودن‏ نتایج حاصل از مقایسه دو اندازه‏گیری،صرف‏نظر از سایر عوامل،برآورده نشده است.این شرط اساسی در ساختار انتزاعی‏ مدل راش است.بنابراین،مدلهای راش برای تناسب و برازش یافتن با داده‏ها،تغییر و تعدیل نمی‏شوند.بلکه روش‏ اندازه‏گیری باید تغییر یابد تا این شرط را برآورده سازد.درست همانگونه که در مثال بالا مقیاس وزن باید تغییر کند.زیرا بین دو شئ در دو اندازه‏گیری جداگانه نتایج متفاوتی به دست داده است.علاوه بر این،در پارادایم مدلهای رایش تأکید بر مطالعه و تعیین بی‏نظمی‏4در داده‏هاست که از طریق این مدل آشکار می‏شود(رایت،6991).



خانواده مدلهای راش

لاینرس(6002)مدلهای راش را در دو طبقه کلی دو ارزشی و چندارزشی به شرح زیر تقسیم‏بندی می‏کند:


مدل دو ارزشی:این مدل که در آن پاسخها به دو طبقه(بلی-خیر،درست-نادرست)تقسیم می‏شوند،شناخته‏شده‏ترین‏ و رایج‏ترین مدل راش و دارای تابع ساده منطقی است.برای داده‏های دو ارزشی جایگاه یک سؤال در یک مقیاس،متناظر یا جایگاه آزمودنی در نقطه‏ای است که احتمال موفقیت برابر با 0/5 است.به گونه کلی،احتمال پاسخ درست آزمودنی به‏ یک سؤال با درجه دشواری کمتر از جایگاه آزمودنی،بیشتر از 0/5 و احتمال پاسخ درست آزمودنی به یک سؤال با درجه‏ دشواری بالاتر از جایگاه آزمودنی،کمتر از 0/5 است.وقتی پاسخ فرد برپایه دشواری سؤال از کمترین تا بیشترین فهرست‏ شود،بیشترین شباهت را به الگوی گاتمن دارد.با این فرمول: Loge(Pnil/Pin0)-B n-D i 


که در آن:


P ni -احتمال آنکه آزمودنی‏ n که با سؤال‏ i روبه‏رو می‏شود در طبقه‏ j -اندازه‏گیری می‏شود.


B n -توانایی فرد n 


D ij -دشواری سؤال‏ i ،نقطه‏ای که در آن بالاترین و پایین‏ترین طبقه‏های سؤال احتمال برابر دارند.


F ij اندازه مدرج کردن طبقه‏ j-1 .نقطه‏ای که در آن طبقه‏های‏ j-1 و j نسبت به اندازه سؤال احتمال برابر دارند.


مدلهای چندارزشی:مدلهای چندارزشی راش نخستین بار توسط اندریش(8791،4002)و به منظور کاربرد مدل راش‏ (1). formal 


(2). perspective 


(3). Paradigm 


(4). anomalies 



روانشناسنان ایرانی » شماره 13 (صفحه 82)

--------------------------------------------------------------------------------


برای داده‏های حاصل از مقیاس لیکرت ارائه شد.این مدلها در واقع تعمیم مدلهای دو ارزشی و نوعی مدل اندازه‏گیری‏ است که در زمینه‏هایی به کار می‏رود که هدف از آن اندازه‏گیری صفت با توانایی از طریق فرایندی است که در آن پاسخ‏ به سؤالها با اعداد صحیح متوالی نمره‏گذاری شود این مدل را می‏توان در مقیاسهای لیکرت،درجه‏بندی و نیز سؤالهای‏ مربوط به اندازه‏گیریهای ترتیبی که در آنها نمره‏های متوالی بالاتر بیانگر سطح فزاینده پیشرفت و توانمندی است به کار برد.


از سوی دیگر،مدلهای چندارزشی یک اندازه‏گیری احتمالی کلی و دارای این ویژگی متمایز است که برای کاربرد نمره‏های عددی متوالی یک بنیان نظری محکم فراهم آورده است.افزون بر این ویژگی،مدلهای چندارزشی امکان آزمون‏ جدی این فرضیه را فراهم می‏آورد که طبقه‏های پاسخ،معرف سطح افزایشی یک خصیصه یا صفت مکنون است.ازاین‏رو داده‏ها،مرتب شده به حساب می‏آیند.در این مدل،نمره یک سؤال معین در واقع فراوانی تعداد جایگاه آستانه‏1در صفت‏ مکنونی است که آزمودنی از آن بالاتر قرار دارد.جایگاه آستانه بر روی پیوستار مکنون معمولا از ماتریس سؤال-پاسخ و از طریق فرآیند برآورد بیشینه احتمال شرطی‏2استنباط می‏شود.


به گونه کلی،شاخص اصلی فرایند اندازه‏گیری در این مدل آن است که آزمودنیها در یک مجموعه طبقه‏های مرتب شده‏ مجاور3گروه‏بندی شوند.شکل‏بندی پاسخهایی که در یک زمینه آزمایشی معین به کار می‏روند،می‏تواند از طریق روشهای‏ مختلفی به این شاخص دست یابد.برای نمونه،ممکن است آزمودنی طبقه‏ای را انتخاب کند که به نظر وی به بهترین‏ صورت سطح حمایت وی را از سؤال یا عبارت نشان می‏دهد.افزون بر این،امکان دارد داوران آزمودنیها را برپایه‏ ملاکهایی که به خوبی تعریف شده‏اند در طبقه‏های مختلف قرار دهند،و سرانجام ممکن است آزمودنی یک محرک‏ فیزیکی را برپایه شباهتی که به مجموعه محرکهای مرجع دارد،طبقه‏بندی کند.وقتی پاسخها فقط در دو طبقه قرار داشته باشند،مدل چندارزشی راش به مدلی برای داده‏های دوارزشی تبدیل می‏شود.در این مدل خاص،دشواری سؤال و آستانه(منفرد)یکسان خواهد بود.انواع مدلهای چندارزشی به قرار زیرند:


1)مدل مقیاس درجه‏بندی‏4:این مدل زمانی به کار می‏رود که تعداد آستانه سؤالها یکسان و تفاوت بین جایگاه هر آستانه معین با میانگین جایگاه آستانه‏ها برابر یا بین همه سؤالها یکسان باشد.فرمول این مدل به قرار زیر است:


Log(Pn ij/Pn i(j-1)-B n-D i-F j 2)مدل امتیاز جزئی‏5:از این مدل اختصاصا در زمینه‏های آموزشی و تربیتی استفاده می‏شود(مسترز،2891).هرچند ساختار ریاضی این مدل با مدل مقیاس درجه‏بندی یکسان است،اما امکان محاسبه آستانه‏های مختلف را برای سؤالهای‏ مختلف فراهم می‏آورد.فرمول این مدل عبارت است از:


Log(Pn ij/Pni(j-1)-B n-D i-F ij-B n-D ij 


3)مدل ساختار پاسخ گروه‏بندی شده‏6:این مدل با فرمول زیر وقتی به کار می‏رود که سؤالها براساس سهمی که در ساختار پاسخ دارند،یا به زیرمقیاسهای یک یا چند سؤال که در یک ساختار پاسخ سهیم هستند گروه‏بندی شوند.


Log(Pn ij/Pn i(j-1)-B n-D ig-F gj 


به گونه کلی،مدلهای اندازه‏گیری راش به پژوهشگران امکان می‏دهد تا مشکلات زیربنایی اندازه‏گیریهای مدل کلاسیک‏ و مقیاسهای خودسنجی،خودارزیابی و خود درجه‏بندی را حل کنند.این مدلها نمونه کاملی از اندازه‏گیری جمع‏پذیر زوجیب‏ است که دو شرط لازم برای تبدیل خصیصه به کمیت،یعنی جمع‏پذیر بودن و ترتیب را برآورده می‏سازد.مدل راش‏ جمع‏پذیر است زیرا تفاوت بین سطح مشاهده شده و سطح مکنون،مستلزم اندازه‏گیری جمع‏پذیر دو متغیر مکنون متفاوت‏ یعنی متغیرهای آزمودنی و سؤال است.افزون بر این،مدل راش دارای ترتیب است زیرا برپایه آن می‏توان متغیرهای‏ آزمودنی و سؤال را در سطح مکنون و از طریق بالاتر یا پایین‏تر بودن نسبت به هم با یکدیگر مقایسه کرد(اکتون، (1). threshold location 


(2). conditional maximum likelihood 


(3). contiguous 


(4). rating scale 


(5). partial credit 


(6). grouped response-structure 



روانشناسنان ایرانی » شماره 13 (صفحه 83)

--------------------------------------------------------------------------------


3002).برخی از مزایای کاربرد مدلهای اندازه‏گیری عبارتند:


1)از پاسخهایی که در قالب مقیاس طبقه‏ای مرتب یا ترتیبی ارائه شوند،می‏توان یک اندازه فاصله‏ای حقیقی تولید کرد(روایت و لایرنس،9891؛مربیتز،موریس و گریپ،9891).


2)مشخص می‏شود هر سؤال تا چه حد می‏تواند سازه موردنظر را اندازه‏گیری کند.به بیان دیگر،این مدل نشان‏ می‏دهد که آیا سؤالهای مقیاس،یک سازه زیربنایی یا یک بعد واحد را تشکیل می‏دهند.این فرایند در واقع تک‏بعدی‏ بودن مقیاس را آزمون می‏کند(رایت و استون،6991).


3)می‏توان نشان داد که هر سؤال چه جایگاهی در پویستار اندازه‏گیری دارد.تعیین ترتیب سؤالها در پیوستار اندازه‏گیری از اهمیت زیادی در ارزیابی روایی مقیاس برخوردار است.زیرا توزیع سؤالها در طول پیوستار باید معنادار باشد تا نشان دهد سازه موردنظر به خوبی اندازه‏گیری شده است.افزون بر این،شواهد مربوط به همسانی نسبی این توزیع در طول زمان یا در بین نمونه‏های مختلف،نشان می‏دهد که سازه مورد اندازه‏گیری پایایی دارد(اسمیت،1002).


4)می‏توان تعیین کرد که مقیاس تا چه اندازه توانسته است آزمودنیها را اندازه‏گیری کند.مدل راش افزون بر اینکه‏ نشان می‏دهد آیا مقیاس برای اندازه‏گیری آزمودنیها به گونه مناسب تهیه شده،مشخص می‏کند که آیا هر آزمودنی نیز به‏ گونه معتبری اندازه‏گیری شده است(آیا نمره افراد مطابق با الگوی مورد انتظار است).به بیان دیگر،روشهای راش نه تنها برای بررسی ویژگیهای آزمون مفیدند بلکه می‏توانند راهنمای مناسبی برای توسعه مقیاس نیز باشند.




+ نوشته شده در  چهارشنبه 20 دی1391ساعت   توسط محمد حسین ضرغامی  | 

سنجش و اندازه گيري در ايران

به نظر نگارنده، اگر كسي بخواهد در راه طاقت فرساي علم سنجش و اندازه گيري، با نيت فهم پديده هاي رواني و رفتاري ( و نه قصد و هدف ديگر) و افزودن شمعي در گستره ي تاريك جهل انساني قدم بگذارد، بايد از گذرگاه علم حركت نمايد تا شناخت وي براي سايرين قابل اعتماد و قابل كاربرد باشد و خود نيز از پايبندي متحجرانه بدور باشد. به اين منظور پيش شرط استفاده از روش هاي سنجش و اندازه گيري، شناخت علم، تاريخ و فلسفه علم و هستي شناسي، معرفت شناسي و روش شناسي رويكردهاي مختلف علمي به طور عموم و آگاهي از تاريخ و مباني فلسفي و رويكرد علمي زير بنايي هر يك از شيوه هاي سنجش و اندازه گيري است. اگر اين مهم (كه نيازمند زمان و غور در علم است) به انجام رسد، پژوهشگر و دانش آموخته ي آن مي تواند در مسايل مختلف مناسب ترين، مفيد ترين و قابل دفاع ترين روش ها (متدولوژي به عنوان يكي از مهمترين بخش هاي اندازه گيري) و تكنيك ها را بكار گيرد. بر اين اساس و به زعم نگارنده مطالعات سنجش و اندازه گيري در ايران بسيار شبيه به داستان فيل در تاريكي مي ماند.

فیل اندر خانه ی تاریک بود

عرضه را آورده بودندش هنود

از برای دیدنش مردم بسی

اندر آن ظلمت همی شد هر کسی

دیدنش با چشم چون ممکن نبود

اندر آن تاریکی اش کف می بسود

آن یکی را کف به خرطوم اوفتاد

گفت همچون ناودانست این نهاد

آن یکی را دست بر گوشش رسید

آن بر او چون بادبیزن شد پدید

آن یکی را کف چو بر پایش بسود

گفت شکل پیل دیدم چون عمود

آن یکی بر پشت او بنهاد دست

گفت خود این پیل چون تختی بدست

همچنین هر یک به جزوی که رسید

فهم آن می کرد هرجا می شنید

از نظرگه گفتشان شد مختلف

آن یکی دالش لقب داد این الف

در کف هر کس اگر شمعی بدی

اختلاف از گفتشان بیرون شدی

چشم حس همچون کف دستست و بس

نیست کف را بر همه او دسترس

و ......

zar100@gmail.com

+ نوشته شده در  دوشنبه 11 دی1391ساعت   توسط محمد حسین ضرغامی  | 

نظريه ي تعميم پذيري (Generalizability theory) به عنوان نظريه اي براي مطالعه ي رويه ها(facet)ي موجود

نظريه ي تعميم پذيري يكي از نظريات اندازه گيري است كه با استفاده از تركيب نظريه ي كلاسيك سوال پاسخ و روش تحليل واريانس سعي در برآورد ضرايب اعتبار داشته است. قابليت هاي اين نظريه ي امكان مطالعه ي شرايط مختلف و مقايسه ي اعتبار امتيازات در شرايط مختلف را فراهم مي آورد. به مطالعاتي كه براي بررسي شرايط مختلف استفاده مي شوند، مطالعات تصميم گيري مي گويند. اين مطالعات امكان بررسي رويه ها(FACET) هاي مختلف به عنوان منابع مختلف واريانس يا پراكندگي در امتيازات را فراهم مي آورد. مشخص است كه هر چه پراكندگي بر اساس رويه يا FACET مورد مطالعه ( كه به آن رويه ي تفكيكي گويند) بيشتر باشد، بهتر و مناسب تر است (مانند آنچه در تحليل واريانس به عنوان واريانس بين آزمودني ها مطرح است) و هر چه واريانس ناشي از رويه هايي بجز رويه ي مورد مطالعه باشند، كمتر خواهد بود. 

به عنوان مثال زماني كه هدف پژوهش رتبه بندي پژوهشگران مختلف بر اساس كارهاي انجام داده ي آنها مي باشد و اين كار از طريق بررسي اقدامات علمي آنها توسط 5 نفر خبره انجام مي شود، تمايز پژوهشگران هدف اصلي مورد مطالعه و ساير رويه ها به عنوان رويه هاي مزاحم يا ابزاري instrumental facet شمرده مي شوند. 


+ نوشته شده در  پنجشنبه 30 آذر1391ساعت   توسط محمد حسین ضرغامی  | 

روان شناسي سنجش و اندازه گيري

در تعريف اندازه‌ گيري گفته مي‌شود فرآيندي كه تعيين مي‌كند يك شخص يا يك شي چه مقدار از يك ويژگي برخوردار است و سنجش را نوعي اندازه‌گيري مي‌دانند كه در آن از آزمون و وسائل ديگري استفاده مي‌شود. بنابراين تعريف تعيين ويژگيهاي مورد سنجش ، فرآيند اجراي سنجش و بررسي فرآورده‌ها سه بخش مهم سنجش و اندازه‌گيري به شمار مي‌روند. بر اين اساس سنجش و اندازه گيري را در سه بخش عمده مرحله طراحي ، مرحله اجرا و مرحله بررسي فرآورده‌ها مي‌توان خلاصه كرد.

مرحله طراحي سنجش و اصول مربوط به آن


مرحله طراحي با سوالهايي از اين نوع سروكار دارد: چه كاري انجام خواهيم داد، و شامل تصميم‌هايي است درباره فعاليتهايي كه قرار است انجام گيرند. بطور ويژه در اين مرحله اقدامات زير صورت مي‌پذيرند. تحليل موقعيت ، تعيين و توصيف هدفها ، توصيف پيش نيازها ، انتخاب يا توليد وسايل و ابزارهاي مورد نياز ، تدارك برنامه مورد نياز.



به منظور تحليل موقعيت و يا شناخت پيش نيازها ممكن است به راهبردهايي دست زد كه شرائط موجود را بهتر و مناسب‌تر توصيف كند تا بر آن اساس بتوان تصميم‌هاي بعدي را دقيقتر و مناسبتر اتخاذ كرد، و تحليل موقعيت كمك خواهد كرد تا امكانات و شرائط موجود شناسايي شده و بر آن اساس گامهاي بعدي مثلا تهيه ابزار سنجش با واقع بيني صورت گيرد.


تعيين اهداف: سوالاتي از قبيل منظور از اجراي سنجش چيست؟ چگونه نتايجي مورد انتظار است؟ و ... اهداف كلي و جزئي سنجش را تعيين مي‌كنند. تعيين اهداف داراي اهميت زيادي است و به ويژه براي انتخاب و توليد ابزار سنجش بسيار مهم است.


انتخاب و توليد ابزار اندازه گيري: غالبا براي جمع آوري اطلاعات ضروري وسايل يا ابزارهايي مورد نيازند. در صورت موجود بودن وسايل بايد به بررسي و انتخاب مناسبترين آنها اقدام كرد. اگر وسايل مورد نياز موجود نباشند آنگاه بايد آنها را تهيه كرد. تهيه و توليد اين وسايل به دقت ، تخصص و صلاحيت نياز دارد. در هر حال نوع ابزار براي توليد و چه براي انتخاب از ميان ابزارهاي موجود بايد روشن باشد.


نوع ابزار مورد استفاده ممكن است يك آزمون باشد يا روشهاي ديگري چون مصاحبه ، مشاهده بر اين اساس استفاده از آزمون ، مصاحبه ، مشاهده سر ابزار اساسي براي جمع آوري اطلاعات در سنجش و اندازه گيري هستند. استفاده از ابزارهاي داراي روايي پاياني بسيار ضروريست. تعيين رواي با توجه به نوع روايي مورد نظر مثلا روايي محتوايي روايي صوري ، روايي ملاكي ، روايي پيش بيني و ... صورت مي‌گيرد. براي تعيين پاياني نيز از روشهاي بازآزمايي ، تنصيف ، فرمهاي موازي و يا روشهاي آماري مثل آلفاي كروبناخ و ... استفاده مي‌شود.

مرحله اجراي سنجش و اصول مربوط به آن


شرايط اجراي سنجش بستگي به اهداف سنجش دارد كه در مرحله طراحي مشخص مي‌شوند. هر چند ممكن است برخي اهداف نيازي به شرايط و موقعيت مشخص نداشته باشند. مثلا در محل كار فرد آزمودني اجرا شوند، با اين حال رعايت نكاتي كه پاسخگويي و ارائه اطلاعات مفيدتر را ميسر مي‌سازد ضروري است. بطور كلي شرايط اجراي سنجش بايد به گونه‌اي باشد كه از هر لحاظ آسايش جسمي و فكري افراد مورد سنجش را تامين نمايد. اين نكته در رابطه با آزمون شوندگان خردسال با دقت بيشتري رعايت مي‌شود.


علاوه بر شرايط فيزيكي مثل نور ، صوت ، سرما و گرما و ... شرايط رواني افراد مورد سنجش نيز بر عملكرد آنان تاثير دارد. مهمترين اين عوامل اضطراب است كه با اتخاذ تدابيري در مرحله طراحي و اجراي آنها مرحله سنجش بايد، به حداقل برسند. بطور كلي در اين مرحله با سوالاتي از قبيل سروكار داريم كه چگونه آن را انجام مي‌دهيم. روشن است پاسخگويي به اين سوال جوانب مختلف فيزيكي ، زماني و ... را در بر مي‌گيرد. 

مرحله بررسي فرآورده‌ها و اصول مربوط به آن


بعد از تهيه و اجراي فرآيند سنجش براي تفسير و معني دادن به نتايج و مورد استفاده قرار دادن آنها معلوم لازم است كه درباره اطلاعات جمع آوري شده اقداماتي انجام دهيم. در اين مرحله عمدتا نياز به استفاده از روشهاي آماري لازم مي‌شود. بر اين اساس آشنايي با اين روشها و استفاده مناسب و درست از آنها از اصول اساسي سنجش به شمار مي‌رود.



آشنايي با مقياسها شامل مقياس اسمي ، نسبي ، ترتيبي و فاصله‌اي و كاربرد آنها.


آشنايي با آمار توصيفي شامل تعريف متغير ، فراواني ، توزيع فراواني ، نمودارها ، شاخصهاي گزينش مركزي شامل ميانه ، ميانگين ، نماد شاخصهاي پراكندگي شامل دامنه تغيير ، واريانس و انحراف معيار و ... .


آشنايي با آمار استنباطي شامل آشنايي با روشهاي همبستگي ، تحليل واريانس ، في دو ، آزمون تي و ... .

كاربرد سنجش در روان شناسي


اصولا فرآيند سنجش و اندازه ‌گيري اهميت ويژه‌اي در حوزه‌هاي مختلف روان شناسي داراست. شايد بتوان گفت روانشناسي تربيتي از حوزه‌هايي است كه سنجش و اندازه گيري نقشي اساسي ايفا مي‌كند. روان شناسي تربيتي به بررسي اصول سنجش و اندازه‌گيري در زمينه آموزش و پرورش مي‌پردازد. شناسائي اين اصول و كاربرد دقيق آن از مراحل سه گانه اساسي فرآيند آموزش و تدريس به شمار مي‌رود. سه مرحله آموزش كلاسي عبارت است از مراحل پيش از آموزش ، حين آموزش و پس از آموزش.


بخش عمده مرحله پس از آموزش و بخشهايي از مراحل اول و دوم به فرآيند سنجش اختصاصي مي‌يابد. با استفاده از اين فرآيند و با كاربرد اصول آن، معلم يا روان شناسي تربيتي به بررسي رفتارهاي ورودي آغازين براي شروع آموزش ، تغييرات رفتاري در حين آموزش كه حاكي از وجود يادگيري است و نتايج حاصل از يادگيري و ارزشيابي اثر بخشي يادگيري مي‌پردازد. روان شناسان باليني و ساير حوزه‌ها نيز براي سنجش علائم باليني ، ويژگيهاي شخصيتي ، تغييرات رشدي ، تفاوتهاي فردي اصول سنجش را مورد استفاده قرار مي‌دهند.

+ نوشته شده در  جمعه 17 آذر1391ساعت   توسط محمد حسین ضرغامی  | 

معرفي يك كتاب

فهرست مطالب

فصل اول: سابقه تاريخي سنجش و انداز هگيري و روا نسنجي...................................................................... 1

عوامل مؤثر در كشف و گسترش رو شهاي انداز هگيري:

-1 پيدايش روان شناسي تجربي .......................................................................................................................... 2

-2 مطالعه تفاوت هاي فردي................................................................................................................................ 3

-3 مطالعه باليني افراد غيرعادي ......................................................................................................................... 3

فرازهائي از اقدامات مربوط به تاريخچه شكل گيري روان سنجي و سنجش و انداز هگيري.......................... 4

9..................................................................................................................................................... ( خودآزمائي ( 1

فصل دوم: اندازه گيري و ارزشيابي در آموزش و پرورش............................................................................ 19

ارزشيابي چيست؟.............................................................................................................................................. 20

مراحل اندازه گيري.............................................................................................................................................. 21

فلسفه ارزشيابي ................................................................................................................................................. 24

26................................................................................................................................................... ( خودآزمائي ( 2

فصل سوم: امتحان ................................................................................................................................................ 41

-1 مفهوم امتحان................................................................................................................................................ 41

-2 انواع امتحان و موارد كاربردي آنها............................................................................................................ 41

-3 هدف هاي امتحان .......................................................................................................................................... 45

-4 مراحل انجام امتحان..................................................................................................................................... 47

-5 طرح ريزي امتحان......................................................................................................................................... 47

-5-1 مراحل طرح ريزي امتحان......................................................................................................................... 48

-5-1-1 تهيه فهرستي از هدفهاي رفتاري درس............................................................................................. 48

طبقه بندي و تحليل هدف هاي آموزشي در حيطه يادگيري ............................................................................. 51

سطوح يادگيري در حيطه شناختي.................................................................................................................... 51

سطوح يادگيري در حيطه عاطفي....................................................................................................................... 54

سطوح يادگيري در حيطه رواني – حركتي ...................................................................................................... 56

-5-1-2 تهيه فهرستي از محتواي درس.......................................................................................................... 59

-5-1-3 تهيه جدول دوبعدي مشخصات سؤالهاي امتحان............................................................................ 59

62.................................................................................................................................................. ( خودآزمائي ( 3

فصل چهارم: تهيه پرس شهاي امتحان ................................................................................................................ 79

-1 پرسش هاي عيني .......................................................................................................................................... 79

انواع پرسش هاي عيني ....................................................................................................................................... 79

الف) يادآوري..................................................................................................................................................... 79

ب) تشخيص و يا شناسايي.............................................................................................................................. 80

-1-1 پرسش هاي چند گزينه اي و اصول تهيه آنها......................................................................................... 80

اصول تهيه پرسش هاي چند گزينه اي............................................................................................................... 81

-1-2 پرسش هاي صحيح – غلط (متناوب پاسخ) ........................................................................................... 87

-1-3 پرس شهاي جور كردني.......................................................................................................................... 88

نكات مورد توجه در تهيه سؤال هاي جوركردني............................................................................................ 89

-1-4 پرسش هاي كامل كردني.......................................................................................................................... 90

نكات مورد توجه در نوشتن پرسش هاي كامل كردني................................................................................... 90

-1-5 پرسش هاي كوتاه پاسخ .......................................................................................................................... 91

نمونه هائي از سؤال هاي محدود پاسخ.............................................................................................................. 91

-2 پرسش هاي انشائي...................................................................................................................................... 94

مقايسه سؤال هاي عيني و انشائي (مزايا و محدوديت ها)............................................................................... 96

99 ................................................................................................................................................... ( خودآزمائي ( 4

فصل پنجم: اجراي امتحان ................................................................................................................................. 115

-1 تنظيم پرسش هاي آزمون.......................................................................................................................... 115

-2 اجراي آزمون............................................................................................................................................. 117

-3 تصحيح و نمره گذاري پرسش هاي آزمون............................................................................................... 119

-3-1 تصحيح و نمره گذاري سؤال هاي عيني................................................................................................ 119

-3-2 تصيح و نمره گذاري پرسش هاي انشائي............................................................................................. 122

كاربرد نمرات ................................................................................................................................................... 124

-4 تجزيه و تحليل نتايج امتحان و استفاده از آن در كشف نارسائ يهاي دانش آموزان ......................... 126

131................................................................................................................................................. ( خودآزمائي ( 5

فصل ششم: آزمون و انواع آن........................................................................................................................... 143

-1 طبقه بندي آزمون ها.................................................................................................................................... 144

-1-1 انواع آزمون ها از نظر طرز اجرا........................................................................................................... 144

- آزمون هاي فردي.......................................................................................................................................... 144

- آزمون هاي گروهي....................................................................................................................................... 144

-1-2 انواع آزمون ها از نظر دقت ساخت....................................................................................................... 145

آزمون استاندارد شده (تراز شده).................................................................................................................. 145

-1-3 انواع آزمون ها از نظر شكل و فرم....................................................................................................... 145

-1-4 آزمون هاي سرعت و آزمون هاي قدرت.............................................................................................. 145

-1-5 انواع آزمون ها از نظر استفاده از كلام................................................................................................ 146

-1-6 آزمون هاي ملاك مرجع و آزمون هاي گروه مرجع........................................................................... 146

-1-7 آزمون هاي وابسته به فرهنگ در برابر آزمون هاي نابسته با فرهنگ............................................. 147

-1-8 آزمون هاي عيني و آزمون هاي ذهني.................................................................................................. 147

-1-9 انواع آزمون ها از نظر موضوع ............................................................................................................ 147

مهارت هاي ذهني مورد اندازه گيري به وسيله آزمون پيشرفت تحصيلي.................................................. 147

-1-10 انواع آزمون ها از نظر درجه كمي شدن متغير مورد مطالعه ......................................................... 150

-2 فرضيه هاي اساسي سنجش يا ارزشيابي................................................................................................ 151

153 ............................................................................................................................................... ( خودآزمائي ( 6

فصل هفتم: تجزيه و تحليل پرس شهاي آزمون............................................................................................. 169

مراحل تجزيه و تحليل سؤال هاي آزمون ...................................................................................................... 169

-1 مراحل تجزيه و تحليل پرسش هاي عيني................................................................................................. 170

-2 بررسي سطح دشواري سؤال هاي آزمون .............................................................................................. 177

اصلاح سطح دشواري سؤال ها براي حذف عامل حدس و گمان................................................................ 188

-3 محاسبه شاخص هاي آماري مربوط به آزمون...................................................................................... 179

-4 تجزيه و تحليل گزينه ها در پرسش هاي چند گزينه اي............................................................................ 181

-5 تجزيه و تحليل پرسش هاي انشائي .......................................................................................................... 183

-6 ساير روش هاي تجزيه و تحليل سؤال هاي آزمون................................................................................. 184

-6-1 ضريب همبستگي دورشته اي نقطه اي..........................................................................................................

-6-2 ضريب همبستگي دورشته اي.......................................................................................................................

-6-3 روائي سؤال هاي آزمون ....................................................................................................................... 188

-6-4 ضريب فاي ( ) ................................................................................................................................. 190

193..................................................................................................... (rt ) -6-5 ضريب همبستگي تتراكوريك

منحني خصيصه سؤال ................................................................................................................................... 195

تجزيه و تحليل پرسش هاي آزمون................................................................................................................. 196

نظريه سؤال – پاسخ....................................................................................................................................... 199

ارزشيابي انواع مختلف همبستگي ها در تجزيه و تحيل سؤال ها................................................................. 201

205 ................................................................................................................................................ ( خودآزمائي ( 7

فصل هشتم: روائي آزمون................................................................................................................................ 227

-1 تعريف روائي ............................................................................................................................................. 227

-2 شواهد روائي آزمون ................................................................................................................................ 228

-3 انواع روائي................................................................................................................................................. 229

-3-1 روائي وابسته به محتوا......................................................................................................................... 229

-3-2 روائي وابسته به ملاك.......................................................................................................................... 231

-3-2-1 روائي پيش بيني ................................................................................................................................ 232

-3-2-2 روائي همزمان .................................................................................................................................. 232

الف) روائي تقارني........................................................................................................................................... 233

ب) روائي توافقي.............................................................................................................................................. 233

-3-2-3 معيار يا ضابطه................................................................................................................................ 233

خصوصيات معيار (همان منبع) ...................................................................................................................... 234

-3-2-4 ضريب روائي ملاكي......................................................................................................................... 235

-3-2-5 پيش بيني متغير ملاك براساس نمره آزمون.................................................................................. 236

-3-2-6 عوامل مؤثر بر ضريب روائي ملاكي.....................................................................................................

-3-3 روائي سازه (روائي مفهومي) ............................................................................................................... 238

243.................................................................................................................................................( خودآزمائي ( 8

فصل نهم: اعتبار آزمون..................................................................................................................................... 259

-1 مفهوم نظري اعتبار آزمون........................................................................................................................ 260

-2 تعريف اعتبار.............................................................................................................................................. 260

-3 منابع خطاي اندازه گيري آزمون................................................................................................................ 261

-3-1 روش هاي اعتباريابي در نمونه گيري زماني........................................................................................ 261

-3-1-1 روش بازآزمائي............................................................................................................................... 262

-3-1-2 اعتبار آزمون هاي همتا ..................................................................................................................... 264

-3-2 روش هاي اعتباريابي در نمونه گيري حيطه......................................................................................... 265

-3-2-1 روش دو نيمه كردن.......................................................................................................................... 266

-3-2-2 روش كودر ريچارد سون................................................................................................................ 267

268.............................................................(KR الف) استفاده از فرمول شماره 20 كودر – ريچاردسون ( 20

ب) استفاده از فرمول شماره 21 كودر – ريچاردسون ............................................................................... 268

-3-2-3 روش كاپلان ............................................................................................................................................

-3-2-4 روش آلفاي كرونباخ...............................................................................................................................

-4 اعتبار نمره گذاري يا درجه بندي................................................................................................................ 271

-5 اعتبار آزمون هاي ملاك مرجع.................................................................................................................. 271

-6 روش هاي افزايش ضريب اعتبار آزمون.................................................................................................. 272

-7 خطاي معيار اندازه گيري........................................................................................................................... 274

-8 برآورد نمره واقعي آزمودني با استفاده از خطاي معيار اندازه گيري.................................................. 275

-9 ضريب اعتبار بهينه ................................................................................................................................... 276

-10 رابطه روائي و اعتبار آزمون.................................................................................................................. 277

-11 عملي بودن آزمون.................................................................................................................................. 277

279................................................................................................................................................ ( خودآزمائي ( 9

فصل دهم: نرم يا هنجار.................................................................................................................................... 303

-1 تعريف نرم ................................................................................................................................................. 303

-2 مشخصات مطلوب نرم ها........................................................................................................................... 304

-3 انواع نرم..................................................................................................................................................... 304

-3-1 انواع نرم از نظر وسعت جامعه هدف.................................................................................................. 305

-3-2 انواع نرم از نظر نوع گروه نرم............................................................................................................ 305

محدوديت هاي نرم هاي سني و كلاسي .......................................................................................................... 308

-3-3 نرم هاي بهنجار شده ............................................................................................................................. 312

-3-3-1 نمره هاي انحراف معيار.................................................................................................................... 312

-3-3-2 نمره معيار تراز شده........................................................................................................................ 312

312...............................................................................................................................................T -3-3-3 نمره

313......................................................................................................................................CEEB -3-3-4 نمره

-3-3-5 معادل هاي هوشبهر.......................................................................................................................... 313

-3-3-6 نمره هاي نه بخشي........................................................................................................................... 314

-4 نيمرخ رواني............................................................................................................................................... 316

-5 مراحل تهيه آزمون استاندارد شده .......................................................................................................... 319

322............................................................................................................................................. ( خودآزمائي ( 10

فصل يازدهم: آزمون هاي هوشي...................................................................................................................... 335

الف) آزمون هاي فردي هوش.......................................................................................................................... 335

-1 آزمون هاي هوشي بينه............................................................................................................................. 335

-2 آزمون هاي استنفرد بينه........................................................................................................................... 336

336 ....................................................................................................................... مقياس استنفرد بينه فرم 1937

338....................................................................................................................... مقياس استنفرد بينه فرم 1960

-3 مقياس هاي هوشي وكسلر......................................................................................................................... 341

342 ..................................................................................... (WAIS-R) مقياس هوش وكسلر براي بزرگسالان

344 ...............................................................................................Wisc-R مقياس هوشي وكسلر براي كودكان

345 .................................................................Wppsi مقياس هوشي وكسلر براي كودكان پيش آموزشگاهي

ب) آزمون هاي گروهي هوش.......................................................................................................................... 345

-1 آزمون ارتشي طبقه بندي شده آلفا و بتا .................................................................................................. 345

-2 آزمون نابسته با فرهنگ ريون.................................................................................................................. 347

-3 آزمون نابسته به فرهنگ كتل .................................................................................................................... 348

فصل دوازدهم: آزمون هاي شخصيت............................................................................................................... 349

-1 پرسش نامه ها يا آزمون هاي عيني شخصيت........................................................................................... 349

351.............................................................................................................................................MMpi تراز جديد

-2 آزمون هاي شخصيتي فرافكن ................................................................................................................... 357

الف) آزمون ررشاخ......................................................................................................................................... 358

مشخصات روان سنجي آزمون ررشاخ.......................................................................................................... 359

361........................................................................................................... (T.A.T) ب) آزمون اندريافت موضوع

362...........................................................................................................T.A.T مشخصات روان سنجي آزمون

363................................................................................................. سؤال هاي كنكور كارشناسي ارشد سال 1388

جداول آماري........................................................................................................................................................ 370

منابع ....................................................................................................................................................................... 378

١

فصل اول

سابقه تاريخي سنجش و اندازه گيري و روان سنجي

امر استفاده از سنجش و اندازه گيري در زندگي روزمره انسان سابقه اي بس طولاني

و مهم دارد . انسان هاي اوليه در مراسم گوناگون از قبيل جشن ها و مسابقات به منظور

مقايسه توانائي و قابليت افراد و قضاوت د ر مورد آنان (مثلاً قدرت بدني، مهارت و

خبرگي اشخاص ) به صورتي بسيار ابتدائي و ذهني در كلام و رفتار خود از مفاهيم

اندازه گيري و ارزشيابي بهره مند مي ش دند. اين اقدامات مشخص كننده وضع كلي

اندازه گيري و سنجش تا اوائل قرن بيستم در ارتباط با زندگي بشر است.

عده اي از روان شناسان معتقدند كه ارزشيابي براي اولين بار در كشور چين حدود

3000 سال پيش انجام گرفته است و برخي نيز ظهور ارزشيابي را به سال 165 پيش از

ميلاد نسبت مي دهند و معتقدند كه در اين زمان افراد را تحت آزمايش قرار م ي دادند و به

مشاغل مختلف مي گماشتند. در قرون وسطي ارزشيابي استعدادها در بيشتر دانشگا ه هاي

اروپا رواج مي يابد. كريستيان ون ولف در 1732 رشته رياضي روان شناسي را تحت

عنوان روان سنجي داير مي كند.

ويلهم وندت روان شناس آلماني اولين كسي است كه پيش از همه به روان سنجي

علاقمند شده است . او در سال 1879 اولين آزم ايشگاه روان شناسي را در شهر لايپزي ك

آلمان تأسيس كرد و سپس اين نهضت در تمام دنيا گسترش يافت.

به موازات اين اقدام، روش هاي مشاهده و كنترل دقيق تر مي شوند و وندت پديده هاي

مورد مطالعه را با وسايل و روش هاي دقيق كنترل مي كند و از آن پس روان شناسان

١٩

فصل دوم

اندازه گيري و ارزشيابي در آموزش و پرورش

نقش اصلي معلم در فرآيند آموزش و پرورش فراهم ساختن شرايط و امكانات

مناسب آموزش ي و پرورش ي و هدايت يادگيري دانش آموزان به منظور كمك به رشد و

تكامل همه جانبه آنان است . معلم به همين منظور بايد هر يك از دانش آموزان را بخوبي

بشناسد.

شناخت دانش آموزان عبارت از كسب آگاهي هاي لازم در مورد جنبه هاي مختلف

رفتار و ويژگي هاي آنان است . يعني معلم بايد از ويژگي هاي جسماني، رواني، اجتماعي و

عاطفي و همچنين علائق و توانائي ها و نارسائي هاي هر يك از دانش آموزان و رابطه اين

ويژگي ها با هم و تأثير آنها در رفتار به خوبي آگاه باشد . شاخت دانش آموزان مستلزم

جمع آوري و تحليل اطلاعات لازم در مورد آنان براساس اصول و روش هاي علمي است .

به دست آوردن اطلاعات لازم در مورد هر فرد را بر مبناي رو ش هاي علمي

1 مي نامند. 2 « اندازه گيري »

اطلاعات حاصل از اندازه گيري ممكن است به صورت ك مي (عددي) و يا به صورت

اندازه گيري عبارت است از » توصيف (كيفي) باشد. كه در صورت كمي مي توان گفت

اختصاص دادن اعداد به مقادير مختلفي از صفات برحسب قواعد معين كه صحت آنها را

مي توان از راه آزمايش بررسي كرد . 3 و يا مي توان گفت اندازه گيري يعني فرآيند منظم

1 - Measurement

-2 نقل از كتاب اصول روان سنجي تأليف دكتر حسن پاشاشريفي

-3 نقل از كتاب مباني آزمون هاي رواني، تأليف مگنوسون، ترجمه محمدتقي براهني

٤١

فصل سوم

امتحان

-1 مفهوم امتحان:

امتحان حالت خاصي از ارزشيابي است كه ناظر بر سنجش آموخته هاي دانش آموزان

است. به مفهوم علمي امتحان عبارت است از تعيين ميزان تغييرات حاصل در جنبه هاي

خاصي از رفتار شاگرد در فواصل زماني معين در جهت نيل به هدف هاي آموزشي و

پرورشي (اصول روانسنجي، شريفي)

امتحان يا ارزشيابي يكي از عناصر مهم فرايند آموزش و پرورش است كه اطلاعات

مفيدي را براي تعيين سطح كارآئي و بهبود شرايط آموزش ي فراهم مي سازد . علاوه بر

اين، امتحان نقش ناظر بر ساي ر عناصر آموزش و پرورش از قبيل : هد ف هاي آموزشي،

برنامه هاي درسي، روش هاي تدريس، امكانات، تجهيزات و عوامل انساني و غير انساني

را بر عهده دارد.

-2 انواع امتحان و موارد كاربردي آنها:

امتحان را از دو ديدگاه مي توان طبقه بندي كرد . از نظر هدف و از نظر ماهيت موضوع

يادگيري

الف) انواع امتحان از نظر هدف

برحسب هدفي كه معلم ازانجام امتحان دارد، م يتوان آن را به چهار نوع تقسيم كرد:

- امتحان ورودي (تشخيصي) كه در ابتداي هر دوره آموزشي به منظور تعيين

معلومات و رفتار ورودي و سنجش آمادگي دانش آموز ان براي يادگيري درس جديد

براساس محتواي آموزشي پيش نياز آن درس به عمل مي آيد.

79

فصل چهارم

تهيه پرسش هاي امتحان

پس از تهيه جدول دو بعدي مشخصات سوال ها مي توان به نوشتن پرس ش هاي

امتحان پرداخت مجموعه پرسش هائي را كه تمامي اهداف و محتواي مطرح شده در يك

جدول دو بعدي را شامل مي شوند آزمون مي نامند. پرسش هاي آزمون را به طور كلي به

دو صورت عيني و انشائي م يتوان نوشت.

از آنجا كه هر پرسش بايد از يك سو با هدف و از سوي ديگر با محتواي خاصي كه

در جدول دو بعدي مطرح شده هماهنگ باشد، بنابراين تعيين نوع پرسش با چگونگي

برآيند يادگيري مورد نظر در جدول بستگي پيدا مي كند . اينك به توضيح پرس ش هاي

عيني و انشائي، اصول تهيه و موارد كاربردي هر كدام به تفكيك م يپردازيم.

-1 پرسش هاي عيني

پرسش عيني به سوالي گفته مي شود كه اولاً نمره گذاري آن مستقل از نظر شخصي

و قضاوت ذهني ارزشياب باشد . يعني تصحيح كنندگان مختلف به آن نمره مساوي

بدهند. ثانياً در اين گونه از پرسش ها معمولاً آزمايش شونده خود پاسخ سوال را تهيه

نمي كند، بلكه از بين پاسخ هاي داده شده پاسخ درست را پيدا كرده و مشخص م يكند.

انواع پرسش هاي عيني

پرسش هاي عيني بطور كلي يا از نوع يادآوري هستند و يا از نوع تشخيص و

شناسائي.

الف) يادآوري: در اين نوع، پاسخ دهنده جواب سوال را از ميان آموخته هاي قبلي

خود پيدا كرده و مشخص مي سازد. پرسش هاي يادآوري نيز به دو دسته يادآوري ساده

و جملات تكميلي تقسيم مي شوند. يادآوري ساده سوالي است كه احتياج به پاسخ كوتاهي

١١٥

فصل پنجم

اجراي امتحان

سوال هاي آزمون پس از تهيه براساس بودجه بندي جدول دو بعدي، مورد بررسي و

بازبيني قرار مي گيرند. اجراي اين مهم در جهت پاسخگوئي به پرس ش هاي زير انجام

مي گيرد:

الف) آيا هر سوال يكي از هدف هاي مهم درس را كه در جدول دو بعدي پيش بيني

شده است اندازه مي گيرد؟

ب) آيا هر سوال داراي يك پاسخ درست و مشخص است و گزينه هاي انحرافي ضمن

اينكه پاسخ كليد نيستند به ظاهر موجه و منطقي جلوه مي كنند؟

ج) آيا هر سوال كاملاً روشن و دور از ابهام تهيه شده است؟

د) آيا نوع پرسش تهيه شده براي اندازه گيري برآيند مورد نظر مناسب است؟

ه) آيا تمام اصول و نكات لازم در تهيه پرس شها رعايت شده است؟

د) آيا پاسخ درست هيچ پرسشي مستقيماً و يا ضمني در پرسش هاي ديگر قابل

استنباط نيست؟

ز) آيا هر پرسشي مستقل از پرس شهاي ديگر است؟

ح) آيا مجموعه پرسش هاي تهيه شده تمامي قسمت هاي جد ول دو بعدي را در بر

مي گيرد؟

-1 تنظيم پرسش هاي آزمون

پس از آنكه پرسش هاي تهيه شده با توجه به موارد مذكور مورد بازبيني و بررسي

قرار گرفت، تهيه كننده اقدام به تنظيم و مرتب كردن آنها طي مراحل زير م ينمايد:

143

فصل ششم

آزمون و انواع آن

همانطوري كه در ابتداي فصل ( 4) اشاره شد مجموعه پرسش هائي را كه تمامي

1« آزمون » اهداف و محتواي مطرح شده در يك جدول دو بعدي را در بر مي گيرند

مي نامند.

آزمون عبارت يك وسيله عيني 2 و محاسبه شده اي 3 است كه براي اندازه گيري

نمونه اي از حالات و رفتار معين فر د بكار مي رود. منظور از عيني بودن آن است كه

وسيله سنجش مشخص و قطعي بوده و در همه حال نتيجه اندازه گيري آن تابع نظر

شخص و طرز قضاوت ارزشياب قرار نگيرد . منظور از محاسبه شده يا استاندارد آن

است كه قبلاً در بوته تجربيات و محاسبات لازم گداخته شده و شرايط و خصوصياتي را

كه هر قسمت بايد دارا باشد در خود جمع داشته باشد . اين خصوصيات عبارتند از :

روائي 4، اعتبار 5 و نرم يا هنجار 6 كه در مورد اين خصوصيات در فصل هاي بعدي كتاب

به طور مشروح سخن خواهيم گفت.

از آنجا كه با هيچ وسيله اي نمي توان همه استعد ادها، معلومات، رغبت ها و بطور كلي

از رفتار و « نمونه اي » خصوصيات فرد را اندازه گيري كرد، بنابراين هر آزمون فقط

حالات فرد را اندازه مي گيرد و براي اندازه گيري همه حالات و رفتار فرد بايد از ابزارها و

. آزمون ها و معيارهاي مختلف استفاده نمود 7

1 -Test

2 -Objective

3 -Standardized

4 -Validity

5 -Reliability

6 -Norm

7 - نقل از كتاب اصول علمي تهيه، اجرا و استاندارد كردن تست، يوسف اردبيلي 1348

١٦٩

فصل هفتم

تجزيه و تحليل پرسش هاي آزمون

تجزيه و تحليل آماري پاسخ هائي كه به سوال هاي امتحان داده شده است نشان

مي دهد كه هر يك از سوال ها و بطور كلي امتحان تا چه اندازه با هد ف هاي مورد نظر

مطابقت داشته است.

اگر هدف آزمايش اندازه گيري پيشرفت نسبي دانش آ موزان، يعني مقايسه پيشرفت

آنان با يكديگر (آزمون گروه مرجع ) باشد در اين صورت سوال هاي امتحان بايد نتايج

آماري معيني را كه شرح داده مي شود در بر داشته باشد و تهيه كننده سوال هاي امتحان

نيز بايد سوال ها را به گونه اي بنويسد كه نتايج مورد نظر از آن به دست آيد . از سوي

ديگر اگر هدف امتحان، اندازه گيري پيشرفت دانش آموزان براساس معيارهاي معلم يعني

تعيين ميزان آموخته هاي دانش آموزان باشد، در اين صورت سوال هاي امتحان بايد

طوري نوشته شود كه ميزان نيل به هدف هاي معلم سنجيده شود (آزمون ملاك مرجع ).

لذا آن دسته از خصائص آماري مورد نظر خواهد بود كه منعكس كننده هدف هاي تعليم

باشند نه اندازه گيري پيشرفت نسبي دانش آموزان و مقايسه آنان با يكديگر . از آنجا كه

تاكيد بر ملاك نسبي در اندازه گيري پيشرفت تحصيلي از دير زماني مورد توجه تهيه

كننده و ناشران آزمون ها بوده است، بنابراين به بيان مراحل و نحوة تجزيه و تحليل

سوال ها در آزمون هائي كه براي اندازه گيري پيشرفت نسبي دانش آموزان به كار

مي روند مي پردازيم.

مراحل تجزيه و تحليل سوا لهاي آزمون

از آنجا كه مراحل تجزيه و تحليل سوال هاي عيني و انشائي در مواردي با هم متفاوت

است به همين جهت آنها را در دو بخش جداگانه مورد بررسي قرار مي دهيم.

٢٢٧

فصل هشتم

روائي 1 آزمون

-1 تعريف روائي

اولين و مهم ترين سوالي كه بايد در مورد هر وسيله و ابزار اندازه گيري بشود،

مربوط به مقدار روائي آن است . منظور از اين سوال آن است كه معلوم شود آيا وسيله

يا ابزار آنچه را كه مورد نظر است و تمام آنچه را مورد نظر است و فقط آنچه را مورد

نظر است اندازه گيري مي كند يا نه ؟ به عبارت ديگر آيا اين وسيله اندازه گيري حقيقتاً

صفتي را كه براي اندازه گيري آن ساخته شده است مي سنجد يا خير؟

روائي عبارت است از توافق بين نمره هاي آزمون با ويژگي يا صفتي كه آزمون براي

اندازه گيري آن ساخ ته شده است (گاپلان و ساكوز 1989 )، يعني اين كه آزمون بايد

چيزي را اندازه بگيرد كه براي اندازه گيري آن ساخته شده است . به بيان ديگر روائي

يعني ميزان كارآئي آزمون براي انداز هگيري خصيصه مورد نظر.

روائي مهم ترين ويژگي يك آزمون به حساب مي آيد و مقصود از آن مناسب بودن، با

معنا بودن و مفيد بودن استنبا ط هائي است كه از روي نمره آزمون به عمل م يآيد . براي

تاييد اين گونه استنباط ها، لازم است شواهدي جمع آوري شود كه در فرهنگ روانشناسي

ناميده مي شود. « رواسازي آزمون »

1 -Validity

259

فصل نهم

اعتبار آزمون

از نتايج اندازه گيري با وسايل سنجش وقتي مي توان عملاً استفاده كرد كه اين وسايل

شرايط بخصوصي را دارا باشند . نخست اينكه وسيله اندازه گيري بخصوصي كه در

شرايط خاصي و به منظور خاصي به كار مي رود بايد حقيقتاً صفت مورد اندازه گيري را

بسنجد (داراي روائي باشد ). ثانياً نتيجه اصل از اندازه گيري بايد اعتبار داشته باشد . يعني

اگر شي يا شخص مورد نظر را در تحت شرايط مشابهي مجدداً آزمايش كنيم، نتيجه

مشابهي به دست آيد . بنابراين داده هاي حاصل از اندازه گيري بايد از دو لحاظ قابل

اطمينان باشند. اولاً معناي مشخصي داشته باشند و ثانياً بازيافتني 1 باشند.

-1 مفهوم نظري اعتبار 2 آزمون

از نظر تئوري مي توان اعتبار را به عنوان اندازه اي براي تعيين تفاوت بين نمره هاي

مشاهده شده 3 و نمره هاي واقعي 4 دانست . منظور از نمره مشاهده شده نمره اي است كه

دانش آموز عملاً در نتيجه گذراندن آزمون به دست مي آورد و مراد از نمره واقعي

نمره اي است كه دانش آموز در نتيجه گذراندن آزموني به دست مي آورد كه از هر نوع

خطاي اندازه گيري به دور باشد. همچنين مي توان گفت نمره مشاهده شده نمر ه اي است

كه دانش آموز از گذراندن يك آزمون منتخب از ميان آزمون هاي ممكن بي شمار گرفته

است. اما نمره واقعي ميانگين نمراتي است كه با گذراندن تعداد بي شماري از آزمون هاي

1 -Reproducible

2 -Reliability

3 -Observed Score

4 -True Score

303

فصل دهم

نرم يا هنجار

-1 تعريف نرم

به معيار و مقياس محاسبه شده 1 و متحد الشكل يا همترازي 2 كه براي سنجش و

مقايسه بكار مي رود، نرم 3 گويند . نرم مقياس و ميزاني است كه از كار يا بازده كار و يا

از قوا و معلومات و استعدادهاي يك گروه نمونه طبيعي به دست آمده ا ست و مقدار كار،

يا بازده كار و توانائي و معلومات افراد ديگر را مي توان با آن سنجيد، تا معلوم شود

شخص در يك جنبه خاص رواني و يا بدني، هنگام مقايسه با افراد متجانس و مشابه

خود در چه وضعي و يا در چه جائي قرار مي گيرد. (اردبيلي، اصول علمي تهيه، اجرا، و

استاندارد كردن تست).

به بيان ديگر نرم يا هنجار عبارت است از متوسط عملكرد گروه نمونه اي از

آزمودني ها كه به روش تصادفي از يك جامعه معين انتخاب مي شوند . نرم آزمون هاي

استاندارد شده براساس توزيع نمره هاي خام گروه نمونه اي از آزمودني ها به دست

مي آيد كه ميانگين و نق طه 50 درصدي (ميانه) نمونه هائي از متوسط عملكرد گروه و به

عبارت ديگر نرم يا هنجار گروه است.

در آزمون هاي گروه مرجع، نرم يا هنجار مقياس محاسبه شده اي است كه نمره خام

آزمودني با آن مقايسه مي شود تا عملكرد وي نسبت به متوسط عملكرد گروه مورد

ارزشيابي قرار گيرد (شريفي: اصول روان سنجي و روان آزمائي)

1 -Standardized

2 -Uniform

3 -Norm

335

فصل يازدهم

آزمون هاي هوشي

الف) آزمون هاي فردي هوش

-1 آزمون هاي هوشي بينه

اين آزمون ها كه از مقياس مشهور بينه سيمون مشتق شده و مورد تجديد نظر قرار

گرفته اند، چون از آزمون هاي كلامي و غير كلامي تشكيل شده اند، مي توان آنها را

مقياس هاي مختلط دانست . نخستين فرم آنها در 1905 در فرانسه استاندارد شد . بينه

آزمون هوش خود را بر اساس دو اصل تدوين كرد : ( 1) تعريف سن ( 2) مفهوم توانائي

كلي ذهني

منظور بينه از اصل اول اين بود كه توانائ ي هاي عقلي كودكان مسن تر بيشتر از

كودكان خردسال تر است بر اين اساس، تكاليفي را كه ح دود 3

2

تا

4

3

كودكان گروه سني

معين از عهده انجام آن بر مي آمدند، ولي كودكان خردسا ل تر كمتر و كودكان بزرگتر

بيشتر از اين نسبت مي توانستند آن را انجام دهند براي گروه مورد نظر مناسب

مي دانستند در اجراي اصل دوم بينه توج ه خود را به اندازه گيري هوش (توانائي هاي كلي

ذهني) معطوف داشت و از اندازه گيري عناصر تشكيل دهنده هوش صرف نظر كرد .

بنابراين هر تكليفي كه با كل توانائي مورد اندازه گيري او همبستگي داشت در محتواي

آزمون قرار گرفت . بدين ترتيب نخستين فرم آزمون هوشي بينه از 30 سؤ ال (تكليف )

تشكيل و بر اساس مقياس سني درجه بندي شد.

از بين مقياس هاي مربوط به آزمون بينه مواردي از آن را كه در حال حاضر استفاده

مي شوند به اختصار مطالعه مي كنيم.

349

فصل دوازدهم

آزمون هاي شخصيت

طرفداران مكتب صفات شخصيت عقيده دارند كه هر فرد تركيب وحدت يافته اي از

صفات بدني و رواني است . آنان ضمن تاكيد بر تفاوت هاي فردي در صفات شخصيت، به

طبقه بندي افراد بر اساس برخي از صفات مشترك معتقدند . به نظر روان شناسان مكتب

صفات شخصيت، هر چند الگوي صفات شخصيتي هر فرد متمايز از ديگران است، در

بعضي موارد نيز وجوه اشتراك مقايسه پذير بين افراد وجود دارد، به همين جهت

تفاوت هاي فردي را مي توان به عنوان پراكندگي يا تغيير پذيري تعدادي از صفات و

خصائص اساسي شخصيت آدمي تلقي كرد. (شريفي، اصول روا نسنجي و روان آزمائي).

بعضي ديگر از روان شناسان در سنجش شخصيت آدمي فرضيه فرافكني را مطرح

كرده اند. بر اساس اين فرضيه هنگامي كه شخص يك محرك مبهم را تفسير مي كند تفسير

وي از اين محرك، بازتابي از نيازها، احساسات، انگيزه ها، تجارب زندگي و رفتارهاي

شرطي شده اوست . آزمون هاي شخصيتي فرافكن بر اساس اين نظريه ساخته شده اند .

(همان مرجع)

بنابراين آزمون هاي شخصيت را مي توان به دو طبقه عمده تقسيم كرد : آزمون هاي

عيني شخصيت و آزمو نهاي فرافكن.

-1 پرسش نامه ها يا آزمون هاي عيني شخصيت

آزمون هاي عيني شخصيت به صورت پر سش نامه با پرسش هاي بسته تهيه مي شوند

مشخص مي كند. در تهيه « نه » يا « آري » كه آزمودني پاسخ خود را به سوال ها به صورت

اين پرسش نامه ها فرض بر اين است كه اولاً شخصيت آدمي متشكل از مجموعه صفات يا

+ نوشته شده در  چهارشنبه 1 آذر1391ساعت   توسط محمد حسین ضرغامی  | 

سوالات آزمون جامع دکترا سنجش-22 تیر 1391- ساعت 8:45 الی 1:15. نظریه کلاسیک

سوالات آزمون جامع دکترا سنجش-22 تیر 1391- ساعت 8:45 الی 1:15.

نظریه کلاسیک

1. اعتبار چند صفتی-چند روشی را تعریف کنید.

2. تصحیح برای کاهش را تعریف کنید و دلایل اتفاق آن را شرح دهید.

3. اگر بخواهید برای پیش بینی موفقیت شغلی در یک شغل مدلی را تدوین کنید چه مراحلی را پشت سر می گذارید؟ به طور مختصر توضیح دهید.

4. در جدول زير مجموع مجذورات و  مضروبات يك آزمون 6 سؤالي داده شده است كه 100 نفر به آن پاسخ داده اند. ضريب اعتبار را براي كل آزمون و براي دو بخش و براي سه بخش حساب كنيد(بخش ها را به دلخواه انتخاب كنيد) و در پايان در مورد موازي بودن آن ها بحث كنيد. (ص. 42 کتاب گراجتر ترجمه کامکار و دکتر اسکندری مشابه این سوال به نقل از لرد و ناویک هست!)

X1      X2        X3      X4       X5        X6         

X1

X2

X3

X4

X5

X6 79      85        32      62         81       65

85      62        54      36         42       72

32      54

62      36

81      42

65      72


5. دو ارزياب مقالات 5 دانشجو را ارزيابي كرده اند. داده ها در زير آمده است. نمرات بهتر نشان دهنده مقالات بهتر است.

الف) مؤلفه هاي واريانس را محاسبه كنيد؟

ب) ضريب تعميم پذيري و ضريب اتكاپذيري را محاسبه كنيد.

ج) چنان چه سؤالات در ارزيابان آشيانه كنند چه تغييراتي در ضرايب بالا به وجود مي آيد.

ارزيابان

ارزياب 2                                   ارزياب   1

مقاله 2     مقاله 1                  مقاله 2       مقاله  1

1 8            6                          6             4

2

3

4

5

با تشکر از خانم دکتر مقدم azam.moghadam@gmail.com

+ نوشته شده در  دوشنبه 26 تیر1391ساعت   توسط محمد حسین ضرغامی  | 

نظريه ي خصيصه مكنون (سوال پاسخ)

نظریه سوال-پاسخ(IRT)

نویسنده: قاسم کشاورز گرامی - سه شنبه هشتم آذر 1390

نظریه سوال-­ پاسخ شامل خانواده­ اي از مدل­هاي رياضي است که روابط تابعي بين متغيرهاي مشاهده­پذير و سازه­هاي صفات زيربنايي اين متغيرها را نمايش مي دهد که بسیاری از روانسنجان قرن معاصر به آن پرداخته اند.در منابع گوناگون چندین پیش­فرض­ برای مدل های نظریه سوال-پاسخ مطرح شده است که در تمامی آنها  «تک­بعدي بودن»و «استقلال موضعي» مهمترين و اساسي­ترین مفروضه ها معرفی شده اند(متسن امورنن،2002­). تک بعدي بودن به اين معنا است که همة سوالات آزمون فقط يک حوزة توانايي يا دانش را اندازه بگيرد. مفروضة استقلال موضعي بيان مي­کند که پاسخ هاي آمودني ها به سوالات آزمون از لحاظ آماري مستقل از يکديگرند اگر و فقط اگر سطح توانايي آزمودني به عنوان عامل اصلي به حساب آيد. اگر اين پيش فرض برقرار باشد عملکرد آزمودني نبايد تحت تاثير پاسخ­هاي خوب يا بد او در ديگر سوالات باشد. (سیجت سما و مولن­ آیر 2002).


نظرية سوال- پاسخ به جاي تاکيد بر نمرات کل آزمون, بر پاسخ­هاي آزمودني­ها به تک­تک سوال­هاي آزمون تکيه مي­کند. در نظرية سوال- پاسخ با استفاده از مدل هاي رياضي مي­توان احتمال پاسخ درست به يک سوال آزمون را به عنوان تابعي از توانايي آزمون شونده به حساب آورد و همچنين برخي ويژگي­هاي سوال را پيش بيني کرد. ويژگي­هايي که براي سوال­ها يا ماده­هاي آزمون بدست مي آيند به نوع مدل يا الگوي نظريه سوال- پاسخ وابسته اند (سيف, 1383). مدل­های نظریه­ سوال-پاسخ می توانند نمره های دو مقوله ای و چند مقوله ای را تحلیل کنند بشکلی که طبقه بندی نمره­ها می تواند منظم یا نامنظم باشند( رونالد، 2008 ).


+ نوشته شده در  شنبه 10 تیر1391ساعت   توسط محمد حسین ضرغامی  | 

نظريه تعميم پذيري

نظريه تعميم پذيري

در سال 1964، ريموند بي.کتل(812) سه روش عمده را مطرح کرد که بر اساس آنها "اثبات آزمون" را مي توان اندازه گيري کرد (البته وي اين اصطلاح کلي را بيشتر از اصطلاحهاي ديگر ترجيح مي داد). اولين روش، ثبات و توافق نمره ها در دفعات متوالي اجراست؛ يعني، تغييراتي که در يک آزمون و روي يک گروه از افراد در زمانهاي مختلف صورت مي گيرد. کتل اين ثبات را "پايايي" ناميد. دومين نوع ثبات به آزمونهاي مختلف ( يا بخشهاي يک آزمون که معمولاً ماده هاي انفرادي هستند) بر مي گردد و شامل توافق مربوط به يک بار اجراست که با استفاده از چند آزمون (يا بخشهاي آزمون) روي يک گروه از افراد صورت مي گيرد. اين ثبات "همگني" ناميده مي شود. نوع سوم ثبات به افراد مختلف بر مي گردد و شامل توافقي است که در مورد معناي نمره هاي يک آزمون که در يک زمان معين روي مجموعه هاي مختلفي از افراد اجرا شده است. اين نوع ثبات "انتقال پذيري" ( يا سرسختي) ناميده مي شود.

در يک رويکرد مشابه، کرونباخ، گليزر(813)، ناندا(814) و راجارتنام(815) (1972) فرض کردند که اساسي ترين موضوع در پايايي، سؤال مربوط به تعميم دادن مشاهده ها يا اندازه گيريها به طبقه ديگري از مشاهده هاست. بنابراين، به نظر آنها پايايي بايد به بررسي ميزاني مربوط شود که بر اساس آن، نمره هاي حاصل، معرف نمره هاي به دست آمده از شرايط ديگر يا "مجموعه هاي مرجع" مختلف است. مثالها مطالعه نمره هاي حاصل از نمره گذاران مختلف، ماده هاي آزمون، روشها، مشاهده کننده ها يا دفعات مختلف را در بر مي گيرند. همان طوري که در يک بحث دقيق درباره اين روش توسط ويگينز(1973) مورد تأکيد قرار گرفت، يکي از مزيتهاي اصلي اين روش در آن است که پژوهشگران را وا مي دارد که در خصوص مجموعه مرجع خاصي که مايل اند مشاهده هاي خودشان را بدان تعميم دهند، صريح و روشن باشند. اين امر تا اندازه اي از تمايز سنتي بين پايايي و اعتبار مي کاهد. جونز(816)، ريد(817) و پترسون(1975) در نظام کدگذاري رفتاري خودشان، مثال خوبي را در زمينه مطالعه کمّي تعميم پذيري گزارش کردند. در اين مطالعه، آزمودنيها، مشاهده کنندگان و دفعات مختلف، مجموعه هاي مرجع تعميم بودند.


+ نوشته شده در  سه شنبه 30 خرداد1391ساعت   توسط محمد حسین ضرغامی  | 

اعتبار و پايايي

در اين مقاله با تفصيل به مفاهيم پايايي و اعتبار پرداخته ایم . اين بررسي براي دستيابي به يک درک مناسب از چشم انداز و محدوديتهاي روشهاي ارزيابي مختلف ضروري است. در عين حال، عوامل نامربوط نظامدار يا تحريفهاي پاسخ نيز مورد بحث قرار گرفته اند. اين تحريفها که بر کاربرد شيوه هاي ارزيابي شخصيت اثر مي گذارند، مشکل کوششهاي عمدي و حتي ناهشيار را براي ايجاد يک تأثير مطلوب (يا نامطلوب) در ديگران در بر مي گيرند.

پايايي، همان طوري که از نام آن بر مي آيد، به قابليت تکرار يا اعتماد يک اندازه يا شاخص مربوط مي شود. به عنوان يک مثال بسيار ساده، مي توان گفت که ديروز ما قد يک کودک را اندازه گرفته و مقدار 122/68 سانتي متر را به دست آورده ايم. ولي امروز فرد ديگري قد همان کودک را اندازه گرفته و مقدار 122/93 سانتي متر را گزارش کرده است. اين دو مقدار تا اندازه زيادي با يکديگر هماهنگ هستند؛ يعني، ما نوعي اندازهگيري اوليه از قد کودک را در نظر گرفته ايم که در بررسي مجدد تأکيد يا تکرار شده است. اين 0/25 سانتي متر اختلاف، اين واقعيت را نشان مي دهد که تکرار اندازه گيريها تقريباً همواره تا اندازه اي ثبات يا پايايي دارد و پذيرش اين نتيجه از جانب ما نشان مي دهد که اين بي ثباتي به اندازه اي نيست که سودمندي آن را انکار کنيم. بدين ترتيب، اختلاف 0/25 سانتي متر تحت اين شرايط به اندازه اي ناچيز است که مي توان آن را بي اهميت تلقي کرد. با وجود اين، در ساير اندازه گيريهاي فيزيکي اين سطوح تحمل بسيار کم هستند، مانند سيلندر موتور که اين تفاوت، اهميت بسياري دارد و سطح بالاتري از پايايي اندازه گيري مورد نياز است.

پايايي همان دقت نيست. دقت به ميزان صحتي اشاره مي کند که اندازه گيري را بر اساس آن مي توان مشخص کرد؛ بدين ترتيب، يک شيوه اندازه گيري که به ما امکان مي دهد تا نتايج را بر اساس يک هزارم سانتي متر گزارش کنيم، دقيقتر از آن اندازه گيري است که نتايج را بر اساس يک دهم سانتي متر به دست مي دهد. درجه دقت يک ابزار مکانيکي که امکان اندازه گيري 2/432 را فراهم مي سازد، يک هزارم سانتي متر است، ولي اگر تحت شرايط يکسان اين وسيله، مقدار 2/381 سانتي متر را به دست دهد، پايايي اين اندازه گيري به هيچ وجه منطبق با دقتي نخواهد بود که اين ابزار از آن برخوردار است.

اين ويژگي که اندازه گيريها را بايد "به اندازه کافي دقيق" انجام داد، در ارزيابي شخصيت نيز کاربرد دارد. اندازه گيري شخصيت در مقايسه با اندازه گيري خصوصيات فيزيکي مانند قد، هميشه نسبتاً فاقد دقت است؛ و بنابراين، تا اندازه اي ناپاياست. بدين ترتيب، ميزان دقت يک ابزار ارزيابي شخصيت بايد با پايايي آن همخواني داشته باشد. براي کساني که از چنين ابزارهايي استفاده مي کنند معمولاً ميزان شاخص پايايي مشخص شده است. ما مجدداً در يک فرصت مناسب به موضوع پايايي باز خواهيم گشت.

اندازه گيري شخصيت داراي شکل ديگري نيز هست که در اندازه گيريهاي فيزيکي به چشم نمي خورد و آن به استانداردهاي مورد قبولي مربوط مي شود که بر اساس آنها اندازه گيريها صورت مي گيرند. هيچ ترديدي وجود ندارد که يک ياردسنج (يا يک مترسنج) براي اندازه گيري فواصل خطي مانند قد مناسب است. با وجود اين، در ارزيابي شخصيت، غالباً سؤالهايي درباره صحت و دقت ابزارهاي اندازه گيري به منظور ارزيابي بُعد يا ويژگي مورد بررسي مطرح مي شوند. براي مثال، آيا واقعاً مي توان افسردگي را با شمارش پاسخهاي رنگي به موارد بي رنگ در آزمون رورشاخ اندازه گرفت؟ در اين مورد، نه تنها سؤال مربوط به شمارش پاياي اين پاسخها مطرح است، بلکه شکل ديگر و جدي تر اين است که آيا شمارش پاسخهاي رنگ به اندازه گيري درستي از افسردگي مي انجامد، درست به همان شيوه اي که علايم مندرج ياردسنج به شاخص معتبري از قد منجر مي شود (صحت يا اعتبار ابزارهاي اندازه گيري مورد استفاده در اندازه گيريهاي فيزيکي که درجات بسيار بالايي از دقت لازم را دارد، مشکلات چندي ايجاد کرده است.)

چون پيش از آنکه بتوانيم تعيين کنيم که آيا اندازه گيري در واقع به مفهوم مورد نظر مربوط مي شود يا خير، بايد از پايايي مناسب برخوردار باشد، ابتدا به بحث درباره پايايي مي پردازيم. معيارهاي آزمون تربيتي و روان شناختي که يک راهنماي عملي براي پايايي و اعتبار است، براي چندين سال توسط انجمن روان شناسي آمريکا انتشار يافته است (براي مثال، انجمن پژوهش تربيتي آمريکا- انجمن روان شناسي آمريکا- شوراي ملي اندازه گيري در تربيت، 1985) و تمام افرادي که فعالانه در ساختن ابزارهاي اندازه گري شخصيت و کاربرد آنها شرکت دارند، بايد اين راهنما را به دقت مطالعه کنند. کتاب راهنمايي که به منظور استفاده ويژه در زمينه انتخاب استخدامي به کار مي رود و با اين کتاب راهنما قابل مقايسه است، توسط شاخه روان شناسي صنعتي- سازماني انجمن روان شناسي آمريکا (1980) منتشر شده است. در اين کتاب راهنما توجه خاصي به موارد اعتبار و پايايي و تهيه ملاکها مبذول شده است و منبع مرجع سودمندي در اين زمينه ها محسوب مي شود.

پايايي


پايايي به قابليت تکرار يا قابليت اعتماد اندازه گيري اشاره دارد. در يک موقعيت فرضي که روش اندازه گيري کاملاً پاياست، فرض مي شود که هر گونه تغييري در اندازه گيري حاصل نشان دهنده يک تغيير واقعي در صفت مورد مطالعه است. بدين ترتيب، در چنين نظامي، افزايش يک کيلوگرم در مقياس نشان خواهد داد که وزن شيء مورد نظر دقيقاً يک کيلوگرم زياد شده است؛ به همين ترتيب، افزايش نمره حاصل از يک مقياس افسردگي نشان خواهد داد که پاسخ دهنده در حال حاضر افسردگي بيشتري دارد. پايايي يک اصطلاح کلي است؛ اصطلاحهاي همساني و ثبات به ترتيب براي توصيف پايايي وابسته به ابزار و پايايي مربوط به زمان به کار مي روند.

همساني به ميزان توافقي اشاره مي کند که از به کارگيري دو يا چند ابزار اندازه گيري (يعني، مقياسها، خط کشها يا آزمونها) حاصل مي شود. هر گونه ابزار اندازه گيري يا مجموعه ابزارها را مي توان برگرفته از جامعه گسترده اي از اين ابزارها (چه واقعي يا چه فرضي) در نظر گرفت که مي توان از آنها براي اندازه گيري اين صفت خاص استفاده کرد. همساني معمولاً با به کارگيري يک آزمون يا آزمونهاي همزمان ديگر مورد ارزشيابي قرار مي گيرد که ترجيحاً به طور تصادفي از جامعه در دسترس اندازه گيريها انتخاب مي شوند. اگرچه اين موضوع در اندازه گيري ابعاد فيزيکي مانند قد يا وزن به مشکلات اندکي مي انجامد، ولي با اين حال، مشکلات چندي را در ارزيابي شخصيت ايجاد مي کند. ما به زودي اين مشکلات را مورد بررسي قرار خواهيم داد.

ثبات به دقت اندازه گيري حاصل با گذشت زمان اشاره دارد. چنانچه از ابزار ديگري براي اندازه گيري مجدد استفاده شود، بازآزمايي با گذشت زمان علاوه بر ثبات، همساني را نيز شامل مي شود. هرگاه در دو بار اندازه گيري از يک ابزار استفاده شود، ارزيابي مستقيم ثبات اندازه گيري را مي توان انجام داد. بدين ترتيب، ناتواني در رسيدن به پايايي کامل به واسطه ناهمسانيها يا خطاهايي است که تابع تغييرات حاصل در نظام مورد نظر با گذشت زمان يا تابع تغييرات مربوط به ابزار مورد نظر و يا هر دو هستند.

به طور کلي، پايايي به شواهد مختلفي اشاره مي کند که در صدد توصيف يک توافق کلي ميان عمليات اندازه گيري هستند. هر کدام از اين شواهد بر منبع معيني از عدم توافق يا خطا تأکيد مي کند و بقيه منابع را ناديده مي گيرد. اندازه گيري شخصيت شامل گرفتن نمونه اي از رفتار در يک زمان و روز معين در قبال مجموعه معيني از محرکهاست. البته اين پاسخها بايد بر طبق يک شيوه معين توسط يک آزماينده خاص ثبت شوند. بعضي از خطاهاي نمونه گيري با هر کدام از اين "موارد خاص" رابطه دارند. اين زمان خاص نمونه اي از يک دوره زماني است و اين مجموعه خاص از محرکها يا سؤالها نمونه اي از يک دسته واقعي يا فرضي از محرکها در دسترس است. بسيار اهميت دارد که بتوانيم مشخص کنيم که يک پاسخ يا نمره خاص، احتمالاً تا چه اندازه به عنوان تابعي از تغييرات در هر کدام از اين خصوصيات اندازه گيري تغيير مي کند. متأسفانه، اين نوع اطلاعات به ندرت در ارزيابي شخصيت به چشم مي خورد. 

بررسي کتاب هاي درسي در زمينه نظريه روان سنجي (براي مثال گيزلي(807)، 1964؛ نانالي(808)و برنشتاين(809)، 1994) نشان مي دهد که فرضهاي فلسفي متخصصان در زمينه مبناي اندازه گيري روان شناختي با يکديگر متفاوت است. اين تفاوتها در فلسفه به تفاوتهاي چندي در توصيف دقيق مفهوم و معناي پايايي و تفاوتهايي در شيوه هاي پيشنهادي براي اندازه گيري پايايي يک شاخص انجاميده است. در اين فصل، ما مي کوشيم تا مسير ميانه اي را از ميان رويکردهاي مختلف برگزينيم و در عين حال، علاوه بر موضوعهايي که فراتر از طيف اين کتاب قرار مي گيرند، از ناهمسانيها نيز اجتناب کنيم.

ما با اين نکته شروع مي کنيم که پايايي به طور تنگاتنگي با مفهوم خطاي اندازه گيري رابطه دارد. خطاهاي اندازه گيري را مي توان به صورت منظم يا تصادفي در نظر گرفت. هرگاه ما زمان را از روي ساعتي مشاهده کنيم که همواره پنج دقيقه جلوست، مرتکب يک خطاي منظم شده ايم. از طرف ديگر، هرگاه اين ساعت درست ولي به اندازه اي دور از ما قرار گرفته باشد که ما نتوانيم عقربه دقيقه شمار را بخوانيم، مرتکب يک خطاي تصادفي شده ايم. خطاهاي منظم را مي توان به صورت خطاهايي در نظر گرفت که با اشتباههاي معلوم رابطه دارند؛ و خطاهاي تصادفي را که به متوسط نمره درست يا مطلق گرايش دارند، مي توان زماني به صورت "موارد نامعلوم" در مشاهده در نظر گرفت که تمام خطاهاي منظم شناسايي يا حذف شده باشند.

به عبارت ديگر، خطاهاي اندازه گيري تصادفي با روش اندازه گيري "شکل مي گيرند"، درست مانند زماني که مي کوشيم با يک خط کش که تنها با اينچ مدرج شده است با تقريب يک دهم اينچ اندازه گيري کنيم يا هنگامي که سعي مي کنيم "افسردگي" را با يک پرسشنامه مداد و کاغذي کلي که فاقد ويژگيهاي باليني ضروري افسردگي است، ارزيابي کنيم. برخلاف اين خطاهاي تصادفي که اجتناب از آنها مشکل است، خطاهاي منظم مشخص تر و صحيح تر هستند. به يک معنا، خطاهاي منظم ناشي از سازنده يا استفاده کننده آزمون هستند تا اينکه به خود ابزار اندازه گيري برگردند. هرگاه ما يک مقياس افسردگي را روي آزمودنيهايي اجرا کنيم که در يک فرهنگ (يا خرده فرهنگ) متفاوت زندگي مي کنند در مقايسه با آزمودنيهايي که از هنجارهاي مناسبي برخوردارند، يا هرگاه دستورالعملهاي فشارزايي را به کار ببريم که آشکارا از دستورالعملهاي مربوط به جامعه هنجاري متفاوت باشند، در معرض خطاي منظم قرار خواهيم داشت. اين خطاهاي منظم بالقوه را مي توان و البته بايد با تنظيم هنجارهاي جديد مبتني بر گروه فرهنگي مناسب يا شرايط ديگر سنجش تصحيح کرد.

نظريه پردازان روان سنجي در کوششهاي خود براي به کميت درآوردن پايايي، به طور سنتي به مشخص کردن سهم خطاهاي تصادفي در پايايي کم پرداخته اند. عقايد آنها درباره اينکه آيا بايد خطاهاي منظم را نيز به عنوان منبع ناپايايي اندازه گيري در نظر گرفت با يکديگر اختلاف دارد، و از اين رو، ماحصل اين اختلاف عقيده در شاخص عددي پايايي انعکاس يافته است. تعدادي از شاخصهاي متداول پايايي نشان دهنده خطاي تصادفي هستند؛ و تعدادي نيز بعضي از منابع خطاي منظم و نه تمام آنها را نشان مي دهند. در نسخه تجديدنظرشده جديدتر معيارهاي سنجش تربيتي و روان شناختي (1985) با تصديق اين موضوع که روشهاي مختلف محاسبه پايايي، شامل منابع مختلف خطا هستند، توصيه شده است که پژوهشگران بايد دقيقاً روشن کنند، چه روشهايي را در به دست آوردن شاخص پايايي خاص مورد نظر به کار برده اند.

اکنون به روشهاي متداول محاسبه پايايي توجه کنيد. شاخص سنتي پايايي، ضريب پايايي است که مي توان آن را هم به عنوان همبستگي بين نمره هاي واقعي آزمون و نمره هاي "واقعي" فرضي و هم به عنوان متوسط همبستگي بين نمره هاي واقعي آزمون و ساير آزمونهاي احتمالي که همان خصوصيت را اندازه مي گيرند، در نظر گرفت. رويکردهاي عملي زير که براي محاسبه پايايي به کار مي روند، با اين تعريف شباهت دارند.

همان طوري که قبلاً اشاره کرديم، آن نوع پايايي که صرفاً با خطاي تصادفي رابطه دارد (خطاهاي ناشي از اين واقعيت که محتواي آزمون صرفاً نمونه اي از کل محتواست که ويژگي مورد نظر را در بر مي گيرد)، ثبات يا ثبات دروني آزمون ناديده مي شود. ثبات را مي توان به شيوه هاي مختلف ارزيابي کرد. يک روش، تقسيم آزمون به دو نيمه قابل مقايسه است که با يکديگر همبسته هستند. بدين ترتيب، همبستگي حاصل با استفاده از فرمولي که فرمول پيشگويي اسپيرمن - براون ناميده مي شود، با توجه به ارزش مورد انتظار براي کل آزمون "تصحيح" مي شود. چنين برآوردي از ثبات که با مقايسه ماده هاي زوج و فرد آزمون به دست مي آيد، ثبات پايايي از طريق دو نيمه کردن ناميده مي شود. روش ديگر، تعيين ثبات از طريق کاربرد نسخه هاي مشابه يا جانشين (يا موازي) آزمون است. همبستگي بين اين نسخه ها اساساً با همبستگي تصحيح شده بين دو نيمه آزمون مطابقت مي کند. هنگامي که نسخه هاي جانشين در دسترس نباشند، راه حل رايج، استفاده از روش بازآزمايي است. همبستگي بين اين دو مجموعه از نمره ها ضريب پايايي بازآزمايي ناميده مي شود.

يکي ديگر از روشهاي محاسبه پايايي که از لحاظ آماري تا اندازه اي پيچيده تر است، با استفاده از فرمول پايايي کودر- ريچاردسون صورت مي گيرد (کودر و ريچاردسون، 1937). مهمترين اجزاي اين فرمول شامل درصد ماده هاي نمره گذاري شده به شيوه اي خاص، همبستگيهاي بين ماده ها و نمره کل و انحراف معيار آزمون است. اين داده ها در فرمولي قرار مي گيرند که برآورد خوبي از ثبات را به دست مي دهد، به شرطي که آزمون مورد نظر تنها يک عامل آماري را اندازه گيري کند. متداولترين ضريب پايايي از اين دست که ضريب آلفا (کرونباخ، 1951) ناميده مي شود، "ميانگين تمام ضرايب دو نيمه سازي حاصل از نيمه هاي مختلف آزمون است (آناستازي، 1988)، قطع نظر از اينکه اين ماده ها دوارزشي يا چندارزشي هستند". دشواريهاي اين روش فراتر از دامنه اين کتاب هستند، ولي با اين حال، اين روشها در بسياري از کتابهاي درسي روان سنجي مورد بحث قرار گرفته اند.

همبستگيهاي بازآزمايي و نسخه هاي جانشين اطلاعاتي را فراتر از ثبات آزمون به دست مي دهند. چنانچه آزمودنيها در هنگام اجراي آزمون مجدد، پاسخ بعضي از ماده ها را به ياد آورند، امکان دارد که همان پاسخها را صرفاً بر اساس حافظه بدهند؛ يعني، يک اثر منظم که ممکن است به افزايش ساختگي اين همبستگي بينجامد. يا همان طوري که قبلاً بدان توجه شد، شرايط اجراي يک جلسه آزمون از يک نوبت به نوبت بعدي ممکن است تغيير کند و اين امر به منابع ناشناخته خطاي منظم مي انجامد. يا آزمودنيها ممکن است خصوصيتي را که اندازه گيري مي شود تغيير دهند، در چنين شرايطي از ميزان ضريب پايايي کاسته مي شود.

در عمل از کدام روش محاسبه ضريب پايايي بايد استفاده کرد؟ يک پاسخ ساده اين است که ضريب پايايي بايد انواع مختلف خطاهايي را که استفاده کننده آزمون به آنها علاقه مند است، انعکاس دهد. بنابراين، هرگاه ما در اندازه گيري يک مفهوم به پايايي آزمون علاقه مند باشيم، شاخص ثبات (آلفاي کرونباخ يا دو نيمه سازي) مناسب خواهد بود. چنانچه در اجراهاي مکرر و تحت شرايط مختلف به ثبات آزمون توجه نشان دهيم، آن گاه پايايي بازآزمايي يا نسخه هاي جانشين از مناسبت بيشتر برخوردار خواهند بود. در شرايط آرماني، سازنده آزمون هر دو مجموعه از داده ها را فراهم خواهد ساخت.

حدود قابل قبول ضرايب پايايي کدام اند؟ براي پاسخ به اين سؤال، ما بايد به شيوه اي توجه کنيم که بر اساس آنها، اين ضرايب را مي توان در عمل به کار برد. معمولاً، کليد اصلي به خطاي معيار اندازه گيري مربوط مي شود؛ کميتي که مستقيماً از روي ضريب پايايي و انحراف معيار نمره هاي حاصل به دست مي آيد. اگر ضريب پايايي را با r و انحراف معيار را با s نشان دهيم، خطاي معيار اندازه گيري را مي توان با توجه به فرمول sراديکال r-1 محاسبه کرد. براي نشان دادن معنا و کاربرد خطاي معيار اندازه گيري، مقياس Sc مربوط به MMPI را در نظر بگيريد. برآوردهاي ثبات دروني (ضرايب همبستگي دو نيمه آزمون) اين مقياس در حدود 0/91 گزارش شده است (دالستروم(810)، ولش(811) و دالستروم، 1975، ص 260). انحراف معيار تمام مقياسهاي MMPI براي نمره هاي مقياس بندي شده برابر با 10 است. حال خطاي معيار اندازه گيري را مي توان از فرمول ياد شده محاسبه کرد که برابر است با 10 راديکال 0/9-1 يا 3؛ يعني، مي توان گفت که هرگاه امکان اجراي اين آزمون به دفعات بسيار زياد وجود داشته باشد، متوسط نمره هاي Sc حاصل برابر با نمره هاي "واقعي" مي شود، ولي اين نمره ها با انحراف معيار 3 پيرامون اين ميانگين توزيع مي يافتند.

اگر توزيع نمره ها کاملاً نامتقارن نباشد، تقريباً دوسوم نمره ها در داخل يک انحراف معيار نسبت به ميانگين قرار مي گيرند. بنابراين، احتمال اينکه نمره حاصل از هر اجراي آزمون معين در سه واحد نسبت به نمره "واقعي" قرار گيرد، حدود دوسوم است. به عبارت ديگر، اگر يک پاسخ دهنده در مقياس Sc نمره 55 را کسب کند؛ احتمال اينکه نمره "واقعي" در سه واحد نمره 55، يعني، 52 و 58 قرار گيرد، دوسوم است. با همين استدلال، از آنجايي که حدود 95 درصد نمره هاي يکتوزيع کاملاً متقارن در دو انحراف معيار نسبت به ميانگين قرار مي گيرند، 95 درصد يا 19 مورد از 20 مورد احتمال وجود دارد که نمره واقعي پاسخ دهنده در فواصل 6 واحدي نمره 55، يعني بين 49 و 61 قرار گيرد.

همان طوري که تا اندازه اي در مورد مقياس D آزمون MMPI صادق است، فرض کنيد که مقدار اين ضريب پايايي (دو نيمه سازي) به جاي 0/91 برابر با 0/75 باشد (دالستروم، ولش و دالستروم، 1975، ص 260). با توجه به انحراف معيار 10، اين فرمول مقدار خطاي معيار اندازه گيري را برابر با 10 راديکال 0/75-1 يا 5 نشان مي دهد. اين موضوع در عمل به معناي آن است که هرگاه پاسخ دهنده اي در مقياس D نمره 60 را به دست آورده باشد، و ما بخواهيم دامنه اي را چنان تعيين کنيم که با احتمال 95 درصد نمره "واقعي" را در برگيرد، اين دامنه بايد بين 50 تا 70 باشد. هر چقدر ضريب پايايي کمتر باشد، ميزان اعتمادي را که مي توان نسبت به نمره به عنوان برآوردي از ميزان "واقعي" خصوصيتي داشت که پاسخ دهنده آن را داراست، کمتر است.

نظريه تعميم پذيري


در سال 1964، ريموند بي.کتل(812) سه روش عمده را مطرح کرد که بر اساس آنها "اثبات آزمون" را مي توان اندازه گيري کرد (البته وي اين اصطلاح کلي را بيشتر از اصطلاحهاي ديگر ترجيح مي داد). اولين روش، ثبات و توافق نمره ها در دفعات متوالي اجراست؛ يعني، تغييراتي که در يک آزمون و روي يک گروه از افراد در زمانهاي مختلف صورت مي گيرد. کتل اين ثبات را "پايايي" ناميد. دومين نوع ثبات به آزمونهاي مختلف ( يا بخشهاي يک آزمون که معمولاً ماده هاي انفرادي هستند) بر مي گردد و شامل توافق مربوط به يک بار اجراست که با استفاده از چند آزمون (يا بخشهاي آزمون) روي يک گروه از افراد صورت مي گيرد. اين ثبات "همگني" ناميده مي شود. نوع سوم ثبات به افراد مختلف بر مي گردد و شامل توافقي است که در مورد معناي نمره هاي يک آزمون که در يک زمان معين روي مجموعه هاي مختلفي از افراد اجرا شده است. اين نوع ثبات "انتقال پذيري" ( يا سرسختي) ناميده مي شود.

در يک رويکرد مشابه، کرونباخ، گليزر(813)، ناندا(814) و راجارتنام(815) (1972) فرض کردند که اساسي ترين موضوع در پايايي، سؤال مربوط به تعميم دادن مشاهده ها يا اندازه گيريها به طبقه ديگري از مشاهده هاست. بنابراين، به نظر آنها پايايي بايد به بررسي ميزاني مربوط شود که بر اساس آن، نمره هاي حاصل، معرف نمره هاي به دست آمده از شرايط ديگر يا "مجموعه هاي مرجع" مختلف است. مثالها مطالعه نمره هاي حاصل از نمره گذاران مختلف، ماده هاي آزمون، روشها، مشاهده کننده ها يا دفعات مختلف را در بر مي گيرند. همان طوري که در يک بحث دقيق درباره اين روش توسط ويگينز(1973) مورد تأکيد قرار گرفت، يکي از مزيتهاي اصلي اين روش در آن است که پژوهشگران را وا مي دارد که در خصوص مجموعه مرجع خاصي که مايل اند مشاهده هاي خودشان را بدان تعميم دهند، صريح و روشن باشند. اين امر تا اندازه اي از تمايز سنتي بين پايايي و اعتبار مي کاهد. جونز(816)، ريد(817) و پترسون(1975) در نظام کدگذاري رفتاري خودشان، مثال خوبي را در زمينه مطالعه کمّي تعميم پذيري گزارش کردند. در اين مطالعه، آزمودنيها، مشاهده کنندگان و دفعات مختلف، مجموعه هاي مرجع تعميم بودند.

پايايي و فنون فرافکن


نمره هاي کمّي حاصل از آزمونهاي فرافکن چنانچه با روشهايي که توصيف شدند ارزيابي شوند، اغلب پايايي اندکي دارند. از آنجايي که پايايي يک اندازه يا شاخص، حد بالايي را بر سودمندي بالقوه يا اعتبار آن تحميل مي کند، پاياييهاي کم اغلب در بررسيهاي پژوهشي روي اين آزمونها مسئول اعتبارهاي پايين قلمداد مي شوند. از طرف ديگر، همچنين استدلال شده است که روشهاي معمول براي ارزيابي پايايي را نمي توان براي ابزارهاي فرافکن به کار برد. براي مثال، گفته مي شود که روش دونيمه سازي براي آزمون رورشاخ نامناسب است، زيرا غيرممکن است که بتوان اين ده کارت را به گونه اي تقسيم کرد که دو نيمه قابل مقايسه را به دست دهد. پايايي بازآزمايي را نيز نمي توان به کار برد، زيرا آزمون مجدد، در واقع، يک تجربه روان شناختي متفاوت از آزمون اوليه است و چون گفته مي شود که فنون فرافکن نسبت به تغييرات جزيي در آزمودني حساس هستند، در واقع، به نظر مي رسد که در برخي از آزمونهاي فرافکن فرض مي شود که اين ابزارها کاملاً پايا هستند و اينکه تغييرات مشاهده شده در پاسخهاي آزمون با گذشت زمان مؤيد تغييرات واقعي در فرد هستند. بسياري از ويژگيهايي که اين آزمونها با آنها سرو کار دارند، مانند خُلق يا سطح انرژي با گذشت زمان تغيير مي کنند و بدين وسيله استدلال محکمي را دال بر اين مفروضه به دست مي دهند. با وجود اين، هر گونه شناخت واقعي از مشکلات پايايي اندازه گيري بايد به اين نتيجه منجر شود که بسياري از اين تغييرات، اگرچه نه همه آنها، تابعي از پايايي فرعي اين ابزارهاست. 

مشکلات اندازه گيري در ناپايايي هر آزمون تأثير دارد، ولي بعضي از مشکلات به ويژه در خصوص ابزارهاي فرافکن ايجاد مي شود. به طور کلي، مواد محرک مورد استفاده در آزمونهاي فرافکن با توجه به اينکه طبقه هاي نمره گذاري مختلف به طور مناسبي بر اساس محرکها تنظيم شوند، انتخاب نمي شوند. براي مثال، متوسط تعداد پاسخهاي حرکت (M) براي افرا غيربيمار در آزمون رورشاخ با توجه به انحراف معيارحدود 2، برابر 4 و متوسط جزئيات نادر (Dd) تنها برابر يک است (اکسنر، 1990). در عمل حداکثر پايايي اين اندازه گيريها همان طوري که نشان دادن اعتبارهاي معنادار امري تقريباً غيرممکن است، پايين است.

غالباً همان طور که در مورد آزمون TAT صادق است، نظامهاي نمره گذاري تا چند سال بعد از اينکه مواد محرک انتخاب شده باشند، تنظيم نخواهند شد. در آزمون TAT، آزمايندگان حتي در اين مورد اختيار دارند که کدام محرک را سرانجام به کار ببرند. اين رشد اتفاقي طبقه هاي نمره گذاري در ميزان پاياييهاي کم، تأثير دارد. نمره هاي نسبي (و تفاوت آنها) همان گونه که در آزمون رورشاخ به کار مي روند، به ويژه نسبت به پاياييهاي کم، حساس هستند. هولتزمن(818) در تهيه HIT، به انتخاب کارتهايي توجه کرد که در کميتهاي نمره گذاري تأثير خاصي داشتند؛ در نتيجه، پاياييهاي اکثر طبقه هاي HIT مناسبتر هستند. 

مشکل ديگر شامل استاندارد بودن دستورالعملهاست. راهنماييهاي مربوط به اجراي اکثر زبانهاي فرافکن استاندارد نشده اند، به طوري که به آزماينده امکان دهند تا به طور معناداري بر پاسخهاي آزمودني اثر گذارند. حتي اگرچه در نظام کنوني اکسنر(1986)، آزمون رورشاخ بر کاربرد ابزارهاي استاندارد شده تأکيد مي کند، آزماينده مي تواند هنوز تفاوت قايل شود. براي مثال، گراس(819) (1959) آزمون رورشاخ را روي 30 بيمار اجرا کرد، و در خصوص 20 نفر از آنها با گفتن "بسيارخوب" يا تکان دادن سر پس از هر پاسخ محتواي انسان تقويت اجتماعي را براي آنها فراهم کرد. بيماراني که بدين ترتيب تقويت شدند، در مقايسه با 10 نفر ديگر به طور معناداري پاسخهاي محتواي انسان بيشتري را ارايه دادند. اهميت اين تفاوتهاي ظريف آزماينده که ممکن است او به آنها واقف نباشد، بايد براي خواننده روشن باشد.

حتي مشکل غامضتر اين است که به آزمودنيها اغلب اجازه داده مي شود که پاسخهاي مختلف چندي بدهند که طولهاي نابرابري دارند. احتمالاً اثر محتواي روان شناختي يک پاسخ يا مجموعه پاسخهاي طولاني در مقايسه با يک پاسخ کوتاه متفاوت است. پاسخهاي کوتاه در آزمون رورشاخ يا TAT، عمدتاً مواد رايج يا پيش پا افتاده را شامل مي شوند. پراکندگي در طول پاسخ همچنين انجام مقايسه هاي آماري را بي اندازه مشکل مي کند.

مشکل ديگر در نمره گذاري تجلي مي کند. در بعضي آزمونها مانند MMPI، نمره گذاري جنبه مکانيکي دارد؛ يعني، هيچ گونه قضاوت ذهني در خصوص طبقه يک پاسخ صورت نمي گيرد يا قضاوت ذهني اندکي مورد استفاده قرار مي گيرد. همين موضوع در مورد بعضي از طبقه هاي نمره گذاري آزمونهايي مانند رورشاخ صادق است. براي مثال، هنگامي که داده ها جمع آوري مي شوند، تعيين تعداد کل پاسخهاي ارايه شده شامل هيچ قضاوتي نيست و يا قضاوت ناچيزي را در بر مي گيرد. به همين ترتيب، اندازه گيري بلندي يک شکل نقاشي يا مساحت کل آن، يک روش نسبتاً مکانيکي است. ولي با اين حال، تعيين اکثر نمره هاي حاصل از آزمونهاي فرافکن شامل چندين قضاوت ذهني است، براي مثال، آيا اين پاسخ رورشاخ شامل رنگ يا حرکت انسان است؟ آيا اين داستان TAT نياز به پيشرفت يا مهرورزي را نشان داده و يا اينکه هر دو را نشان مي دهد؟ در خصوص آن دسته از آزمونهاي فرافکن که چند روش نمره گذاري مختلف ولي مشابه را در بر مي گيرند، مشکل حتي شديدتر است.

اگرچه سؤال مربوط به پايايي نمره گذار به طور ساده يک توافق بين داوران و درون داوران است، ولي بايد به خاطر داشت که ناپايايي نمره گذاري در ناپايايي آزمون تأثير مي گذارد. مورستاين(820) (1963، ص 146-144) جدول خلاصه اي از پاياييهاي نمره گذاران را در خصوص ويژگيهاي نمره گذاري شده از آزمون TAT ارايه کرده است. از 45 مطالعه اي که پايايي تحت لواي همبستگي در آنها گزارش شده بود، ميانه پايايي نمره گذاران 0/74 به دست آمد. با پاياييهايي از اين دست، مشکلات دستيابي به سطوح قابل قبول پايايي آزمون در واقع زياد هستند. با وجود اين، مي توان در اين زمينه به پاياييهاي بالاتري نيز دست يافت. در اين خصوص، هولت(821) (1978) داده هاي TAT حاصل از چند منبع را گزارش کرد که حاکي از پايايي بالاي نمره گذاران تا سقف 0/90 بودند. دستيابي به ضرايب پايايي بالا معمولاً شامل راهنماهاي مبسوطي است که طبقه ها را با دقت تعريف کند و مثالهاي نمره گذاري را ارايه دهد. از آنجايي که کاربرد چنين راهنماهايي نيازمند توجه زياد و تلاش وافر در تعميم دادن يک نمره واحد است، آنها بيشتر به جاي قاعده يا حکم، موارد استثنايي را نشان مي دهند.

پايايي تفسير کلي


توجه بيش از حد به رويکردهاي مختلف در تعيين پايايي ممکن است از لحاظ علمي خطر از دست دادن موضوع اصلي در پايايي را به همراه داشته باشد. آزمونها فنون جمع آوري اطلاعات مربوط به شخصيت هستند و معمولاً در خصوص ارايه پيش بيني هايي درباره رفتار آتي بر مبناي عملکرد شخصيت استوارند. به همين دليل، توجه غايي ما به پايايي بايد معطوف اين باشد که کدام آزمون مطرح است؛ يعني، هرگاه آزمون رورشاخ براي به دست آوردن توصيف جامعي از عملکرد کلي شخصيت به کار رود، آن گاه موضوع اصلي، پايايي اين توصيفهاي کلي است و نه پايايي طبقه هاي نمره گذاري فردي.

در ارزيابي پاياييهاي کلي چه چيزي مورد توجه قرار دارد؟ اين روشها به روشهايي شباهت دارند که قبلاً توصيف شدند. براي مثال، پايايي حاصل از روش دو نيمه سازي را مي توان با مقايسه تفسيرهاي حاصل از بررسي نيمه هاي قابل مقايسه آزمون ارزيابي کرد؛ پايايي حاصل از روش بازآزمايي شامل مقايسه تفسيرهاي حاصل از دو اجراي مختلف آزمون است؛ و پايايي بين داوران را مي توان با مقايسه تفسيرهاي حاصل از اجراي يک آزمون که توسط داوران مختلف صورت گرفته است، تعيين کرد. پايايي بين آزمايندگان را نيز مي توان به روش مشابهي ارزيابي کرد.

براي ارايه توصيفهاي کلي شخصيت که به طور آماري مي توان به همين شيوه آنها را با يکديگر مقايسه کرد، چهارچوبهاي توصيفي چندي در خصوص شخصيت مورد نياز است. يک روش موسوم کاربرد مجموعه اي از مقياسها يا ابعاد درجه بندي است که با آزمون و نوع اطلاعات توصيفي مورد نياز متناسب هستند. بدين ترتيب، تفسير به دنبال بررسي طرح کلي آزمون، با اختصاص دادن نمره ها يا جايگاهها به آزمودنيها بر اساس اين مقياسها صورت مي گيرد. يا آزمايندگان مي توانند به تعدادي از سؤالهاي صحيح - غلط يا چندگزينه اي در خصوص موضوع پاسخ دهند. روش مرسوم ديگر، استفاده از فن دسته بندي پرسش است. يک دسته بندي پرسش معمولي شامل 100 کارت است که هر کدام يک توصيف شخصيت را در بر مي گيرد. از آزماينده خواسته مي شود که طرح کلي آزمون را مطالعه کند و بعد، عبارتهاي توصيفي را در 9 دسته طبقه بندي کند که از حداقل وصف حال تا حداکثر وصف حال آزمودني را در بر مي گيرد. تعداد کارتهايي که در هر دسته قرار مي گيرند از قبل تعيين مي شوند. به طوري که هر داور توزيع يکساني از کارتها را به دست مي دهد. در تمام اين فنون، همبستگي رتبه اي يا درصد توافق روشها را مي توان براي تعيين يک شاخص عددي پايايي به کار برد (هرگاه قصد داشته باشيم که پاياييهاي مربوط به يک آزماينده واحد را تعيين کنيم، تعداد طرحهاي آزمونهاي مورد داوري بايد به اندازه کافي زياد باشد که آزماينده نتواند به ياد آورد يا حدس بزند که کدام مورد به کدام آزمودني تعلق داشته است).

پايايي به دست آمده از هر روش ارزيابي بايد با کاربرد همان روش متناسب باشد. هرگاه پيش بيني هاي مربوط به رويدادهاي به خصوصي ارايه شود، پايايي اين پيش بيني ها بايد مورد بررسي قرار گيرد. هرگاه توصيفهاي کلي شخصيت مورد توجه باشد، اين پاياييهاي آنهاست که مورد توجه قرار مي گيرند. گرچه اغلب منابع اساسي ديگري نيز در زمينه پايايي وجود دارد (مانند پايايي نمره گذار) که پاياييهاي نهايي به آنها بستگي دارند، پايايي روش مورد استفاده، سؤال مربوط به علاقه نهايي است.

پي نوشت:


807- Ghiselli

808- Nunnally

809- Bernstein

810- Dahlstrom

811- Welsh

812- Raymond B. Cattell

813- Gleser

814- Nanda

815- Rajaratnam

816- Jones

817- Reid

818- Holtzman

819- Gross

820- Murstein

821- Holt


منبع:تالیف:آی . لانیون،ریچارد و دی فلئونارد ، ترجمه:نقشبندی،سیامک و .... «ارزيابي شخصيت» ، نشر روان ،1385

+ نوشته شده در  دوشنبه 22 خرداد1391ساعت   توسط محمد حسین ضرغامی  | 

اعتبار و پايايي

در اين مقاله با تفصيل به مفاهيم پايايي و اعتبار پرداخته ایم . اين بررسي براي دستيابي به يک درک مناسب از چشم انداز و محدوديتهاي روشهاي ارزيابي مختلف ضروري است. در عين حال، عوامل نامربوط نظامدار يا تحريفهاي پاسخ نيز مورد بحث قرار گرفته اند. اين تحريفها که بر کاربرد شيوه هاي ارزيابي شخصيت اثر مي گذارند، مشکل کوششهاي عمدي و حتي ناهشيار را براي ايجاد يک تأثير مطلوب (يا نامطلوب) در ديگران در بر مي گيرند.

پايايي، همان طوري که از نام آن بر مي آيد، به قابليت تکرار يا اعتماد يک اندازه يا شاخص مربوط مي شود. به عنوان يک مثال بسيار ساده، مي توان گفت که ديروز ما قد يک کودک را اندازه گرفته و مقدار 122/68 سانتي متر را به دست آورده ايم. ولي امروز فرد ديگري قد همان کودک را اندازه گرفته و مقدار 122/93 سانتي متر را گزارش کرده است. اين دو مقدار تا اندازه زيادي با يکديگر هماهنگ هستند؛ يعني، ما نوعي اندازهگيري اوليه از قد کودک را در نظر گرفته ايم که در بررسي مجدد تأکيد يا تکرار شده است. اين 0/25 سانتي متر اختلاف، اين واقعيت را نشان مي دهد که تکرار اندازه گيريها تقريباً همواره تا اندازه اي ثبات يا پايايي دارد و پذيرش اين نتيجه از جانب ما نشان مي دهد که اين بي ثباتي به اندازه اي نيست که سودمندي آن را انکار کنيم. بدين ترتيب، اختلاف 0/25 سانتي متر تحت اين شرايط به اندازه اي ناچيز است که مي توان آن را بي اهميت تلقي کرد. با وجود اين، در ساير اندازه گيريهاي فيزيکي اين سطوح تحمل بسيار کم هستند، مانند سيلندر موتور که اين تفاوت، اهميت بسياري دارد و سطح بالاتري از پايايي اندازه گيري مورد نياز است.

پايايي همان دقت نيست. دقت به ميزان صحتي اشاره مي کند که اندازه گيري را بر اساس آن مي توان مشخص کرد؛ بدين ترتيب، يک شيوه اندازه گيري که به ما امکان مي دهد تا نتايج را بر اساس يک هزارم سانتي متر گزارش کنيم، دقيقتر از آن اندازه گيري است که نتايج را بر اساس يک دهم سانتي متر به دست مي دهد. درجه دقت يک ابزار مکانيکي که امکان اندازه گيري 2/432 را فراهم مي سازد، يک هزارم سانتي متر است، ولي اگر تحت شرايط يکسان اين وسيله، مقدار 2/381 سانتي متر را به دست دهد، پايايي اين اندازه گيري به هيچ وجه منطبق با دقتي نخواهد بود که اين ابزار از آن برخوردار است.

اين ويژگي که اندازه گيريها را بايد "به اندازه کافي دقيق" انجام داد، در ارزيابي شخصيت نيز کاربرد دارد. اندازه گيري شخصيت در مقايسه با اندازه گيري خصوصيات فيزيکي مانند قد، هميشه نسبتاً فاقد دقت است؛ و بنابراين، تا اندازه اي ناپاياست. بدين ترتيب، ميزان دقت يک ابزار ارزيابي شخصيت بايد با پايايي آن همخواني داشته باشد. براي کساني که از چنين ابزارهايي استفاده مي کنند معمولاً ميزان شاخص پايايي مشخص شده است. ما مجدداً در يک فرصت مناسب به موضوع پايايي باز خواهيم گشت.

اندازه گيري شخصيت داراي شکل ديگري نيز هست که در اندازه گيريهاي فيزيکي به چشم نمي خورد و آن به استانداردهاي مورد قبولي مربوط مي شود که بر اساس آنها اندازه گيريها صورت مي گيرند. هيچ ترديدي وجود ندارد که يک ياردسنج (يا يک مترسنج) براي اندازه گيري فواصل خطي مانند قد مناسب است. با وجود اين، در ارزيابي شخصيت، غالباً سؤالهايي درباره صحت و دقت ابزارهاي اندازه گيري به منظور ارزيابي بُعد يا ويژگي مورد بررسي مطرح مي شوند. براي مثال، آيا واقعاً مي توان افسردگي را با شمارش پاسخهاي رنگي به موارد بي رنگ در آزمون رورشاخ اندازه گرفت؟ در اين مورد، نه تنها سؤال مربوط به شمارش پاياي اين پاسخها مطرح است، بلکه شکل ديگر و جدي تر اين است که آيا شمارش پاسخهاي رنگ به اندازه گيري درستي از افسردگي مي انجامد، درست به همان شيوه اي که علايم مندرج ياردسنج به شاخص معتبري از قد منجر مي شود (صحت يا اعتبار ابزارهاي اندازه گيري مورد استفاده در اندازه گيريهاي فيزيکي که درجات بسيار بالايي از دقت لازم را دارد، مشکلات چندي ايجاد کرده است.)

چون پيش از آنکه بتوانيم تعيين کنيم که آيا اندازه گيري در واقع به مفهوم مورد نظر مربوط مي شود يا خير، بايد از پايايي مناسب برخوردار باشد، ابتدا به بحث درباره پايايي مي پردازيم. معيارهاي آزمون تربيتي و روان شناختي که يک راهنماي عملي براي پايايي و اعتبار است، براي چندين سال توسط انجمن روان شناسي آمريکا انتشار يافته است (براي مثال، انجمن پژوهش تربيتي آمريکا- انجمن روان شناسي آمريکا- شوراي ملي اندازه گيري در تربيت، 1985) و تمام افرادي که فعالانه در ساختن ابزارهاي اندازه گري شخصيت و کاربرد آنها شرکت دارند، بايد اين راهنما را به دقت مطالعه کنند. کتاب راهنمايي که به منظور استفاده ويژه در زمينه انتخاب استخدامي به کار مي رود و با اين کتاب راهنما قابل مقايسه است، توسط شاخه روان شناسي صنعتي- سازماني انجمن روان شناسي آمريکا (1980) منتشر شده است. در اين کتاب راهنما توجه خاصي به موارد اعتبار و پايايي و تهيه ملاکها مبذول شده است و منبع مرجع سودمندي در اين زمينه ها محسوب مي شود.

پايايي


پايايي به قابليت تکرار يا قابليت اعتماد اندازه گيري اشاره دارد. در يک موقعيت فرضي که روش اندازه گيري کاملاً پاياست، فرض مي شود که هر گونه تغييري در اندازه گيري حاصل نشان دهنده يک تغيير واقعي در صفت مورد مطالعه است. بدين ترتيب، در چنين نظامي، افزايش يک کيلوگرم در مقياس نشان خواهد داد که وزن شيء مورد نظر دقيقاً يک کيلوگرم زياد شده است؛ به همين ترتيب، افزايش نمره حاصل از يک مقياس افسردگي نشان خواهد داد که پاسخ دهنده در حال حاضر افسردگي بيشتري دارد. پايايي يک اصطلاح کلي است؛ اصطلاحهاي همساني و ثبات به ترتيب براي توصيف پايايي وابسته به ابزار و پايايي مربوط به زمان به کار مي روند.

همساني به ميزان توافقي اشاره مي کند که از به کارگيري دو يا چند ابزار اندازه گيري (يعني، مقياسها، خط کشها يا آزمونها) حاصل مي شود. هر گونه ابزار اندازه گيري يا مجموعه ابزارها را مي توان برگرفته از جامعه گسترده اي از اين ابزارها (چه واقعي يا چه فرضي) در نظر گرفت که مي توان از آنها براي اندازه گيري اين صفت خاص استفاده کرد. همساني معمولاً با به کارگيري يک آزمون يا آزمونهاي همزمان ديگر مورد ارزشيابي قرار مي گيرد که ترجيحاً به طور تصادفي از جامعه در دسترس اندازه گيريها انتخاب مي شوند. اگرچه اين موضوع در اندازه گيري ابعاد فيزيکي مانند قد يا وزن به مشکلات اندکي مي انجامد، ولي با اين حال، مشکلات چندي را در ارزيابي شخصيت ايجاد مي کند. ما به زودي اين مشکلات را مورد بررسي قرار خواهيم داد.

ثبات به دقت اندازه گيري حاصل با گذشت زمان اشاره دارد. چنانچه از ابزار ديگري براي اندازه گيري مجدد استفاده شود، بازآزمايي با گذشت زمان علاوه بر ثبات، همساني را نيز شامل مي شود. هرگاه در دو بار اندازه گيري از يک ابزار استفاده شود، ارزيابي مستقيم ثبات اندازه گيري را مي توان انجام داد. بدين ترتيب، ناتواني در رسيدن به پايايي کامل به واسطه ناهمسانيها يا خطاهايي است که تابع تغييرات حاصل در نظام مورد نظر با گذشت زمان يا تابع تغييرات مربوط به ابزار مورد نظر و يا هر دو هستند.

به طور کلي، پايايي به شواهد مختلفي اشاره مي کند که در صدد توصيف يک توافق کلي ميان عمليات اندازه گيري هستند. هر کدام از اين شواهد بر منبع معيني از عدم توافق يا خطا تأکيد مي کند و بقيه منابع را ناديده مي گيرد. اندازه گيري شخصيت شامل گرفتن نمونه اي از رفتار در يک زمان و روز معين در قبال مجموعه معيني از محرکهاست. البته اين پاسخها بايد بر طبق يک شيوه معين توسط يک آزماينده خاص ثبت شوند. بعضي از خطاهاي نمونه گيري با هر کدام از اين "موارد خاص" رابطه دارند. اين زمان خاص نمونه اي از يک دوره زماني است و اين مجموعه خاص از محرکها يا سؤالها نمونه اي از يک دسته واقعي يا فرضي از محرکها در دسترس است. بسيار اهميت دارد که بتوانيم مشخص کنيم که يک پاسخ يا نمره خاص، احتمالاً تا چه اندازه به عنوان تابعي از تغييرات در هر کدام از اين خصوصيات اندازه گيري تغيير مي کند. متأسفانه، اين نوع اطلاعات به ندرت در ارزيابي شخصيت به چشم مي خورد. 

بررسي کتاب هاي درسي در زمينه نظريه روان سنجي (براي مثال گيزلي(807)، 1964؛ نانالي(808)و برنشتاين(809)، 1994) نشان مي دهد که فرضهاي فلسفي متخصصان در زمينه مبناي اندازه گيري روان شناختي با يکديگر متفاوت است. اين تفاوتها در فلسفه به تفاوتهاي چندي در توصيف دقيق مفهوم و معناي پايايي و تفاوتهايي در شيوه هاي پيشنهادي براي اندازه گيري پايايي يک شاخص انجاميده است. در اين فصل، ما مي کوشيم تا مسير ميانه اي را از ميان رويکردهاي مختلف برگزينيم و در عين حال، علاوه بر موضوعهايي که فراتر از طيف اين کتاب قرار مي گيرند، از ناهمسانيها نيز اجتناب کنيم.

ما با اين نکته شروع مي کنيم که پايايي به طور تنگاتنگي با مفهوم خطاي اندازه گيري رابطه دارد. خطاهاي اندازه گيري را مي توان به صورت منظم يا تصادفي در نظر گرفت. هرگاه ما زمان را از روي ساعتي مشاهده کنيم که همواره پنج دقيقه جلوست، مرتکب يک خطاي منظم شده ايم. از طرف ديگر، هرگاه اين ساعت درست ولي به اندازه اي دور از ما قرار گرفته باشد که ما نتوانيم عقربه دقيقه شمار را بخوانيم، مرتکب يک خطاي تصادفي شده ايم. خطاهاي منظم را مي توان به صورت خطاهايي در نظر گرفت که با اشتباههاي معلوم رابطه دارند؛ و خطاهاي تصادفي را که به متوسط نمره درست يا مطلق گرايش دارند، مي توان زماني به صورت "موارد نامعلوم" در مشاهده در نظر گرفت که تمام خطاهاي منظم شناسايي يا حذف شده باشند.

به عبارت ديگر، خطاهاي اندازه گيري تصادفي با روش اندازه گيري "شکل مي گيرند"، درست مانند زماني که مي کوشيم با يک خط کش که تنها با اينچ مدرج شده است با تقريب يک دهم اينچ اندازه گيري کنيم يا هنگامي که سعي مي کنيم "افسردگي" را با يک پرسشنامه مداد و کاغذي کلي که فاقد ويژگيهاي باليني ضروري افسردگي است، ارزيابي کنيم. برخلاف اين خطاهاي تصادفي که اجتناب از آنها مشکل است، خطاهاي منظم مشخص تر و صحيح تر هستند. به يک معنا، خطاهاي منظم ناشي از سازنده يا استفاده کننده آزمون هستند تا اينکه به خود ابزار اندازه گيري برگردند. هرگاه ما يک مقياس افسردگي را روي آزمودنيهايي اجرا کنيم که در يک فرهنگ (يا خرده فرهنگ) متفاوت زندگي مي کنند در مقايسه با آزمودنيهايي که از هنجارهاي مناسبي برخوردارند، يا هرگاه دستورالعملهاي فشارزايي را به کار ببريم که آشکارا از دستورالعملهاي مربوط به جامعه هنجاري متفاوت باشند، در معرض خطاي منظم قرار خواهيم داشت. اين خطاهاي منظم بالقوه را مي توان و البته بايد با تنظيم هنجارهاي جديد مبتني بر گروه فرهنگي مناسب يا شرايط ديگر سنجش تصحيح کرد.

نظريه پردازان روان سنجي در کوششهاي خود براي به کميت درآوردن پايايي، به طور سنتي به مشخص کردن سهم خطاهاي تصادفي در پايايي کم پرداخته اند. عقايد آنها درباره اينکه آيا بايد خطاهاي منظم را نيز به عنوان منبع ناپايايي اندازه گيري در نظر گرفت با يکديگر اختلاف دارد، و از اين رو، ماحصل اين اختلاف عقيده در شاخص عددي پايايي انعکاس يافته است. تعدادي از شاخصهاي متداول پايايي نشان دهنده خطاي تصادفي هستند؛ و تعدادي نيز بعضي از منابع خطاي منظم و نه تمام آنها را نشان مي دهند. در نسخه تجديدنظرشده جديدتر معيارهاي سنجش تربيتي و روان شناختي (1985) با تصديق اين موضوع که روشهاي مختلف محاسبه پايايي، شامل منابع مختلف خطا هستند، توصيه شده است که پژوهشگران بايد دقيقاً روشن کنند، چه روشهايي را در به دست آوردن شاخص پايايي خاص مورد نظر به کار برده اند.

اکنون به روشهاي متداول محاسبه پايايي توجه کنيد. شاخص سنتي پايايي، ضريب پايايي است که مي توان آن را هم به عنوان همبستگي بين نمره هاي واقعي آزمون و نمره هاي "واقعي" فرضي و هم به عنوان متوسط همبستگي بين نمره هاي واقعي آزمون و ساير آزمونهاي احتمالي که همان خصوصيت را اندازه مي گيرند، در نظر گرفت. رويکردهاي عملي زير که براي محاسبه پايايي به کار مي روند، با اين تعريف شباهت دارند.

همان طوري که قبلاً اشاره کرديم، آن نوع پايايي که صرفاً با خطاي تصادفي رابطه دارد (خطاهاي ناشي از اين واقعيت که محتواي آزمون صرفاً نمونه اي از کل محتواست که ويژگي مورد نظر را در بر مي گيرد)، ثبات يا ثبات دروني آزمون ناديده مي شود. ثبات را مي توان به شيوه هاي مختلف ارزيابي کرد. يک روش، تقسيم آزمون به دو نيمه قابل مقايسه است که با يکديگر همبسته هستند. بدين ترتيب، همبستگي حاصل با استفاده از فرمولي که فرمول پيشگويي اسپيرمن - براون ناميده مي شود، با توجه به ارزش مورد انتظار براي کل آزمون "تصحيح" مي شود. چنين برآوردي از ثبات که با مقايسه ماده هاي زوج و فرد آزمون به دست مي آيد، ثبات پايايي از طريق دو نيمه کردن ناميده مي شود. روش ديگر، تعيين ثبات از طريق کاربرد نسخه هاي مشابه يا جانشين (يا موازي) آزمون است. همبستگي بين اين نسخه ها اساساً با همبستگي تصحيح شده بين دو نيمه آزمون مطابقت مي کند. هنگامي که نسخه هاي جانشين در دسترس نباشند، راه حل رايج، استفاده از روش بازآزمايي است. همبستگي بين اين دو مجموعه از نمره ها ضريب پايايي بازآزمايي ناميده مي شود.

يکي ديگر از روشهاي محاسبه پايايي که از لحاظ آماري تا اندازه اي پيچيده تر است، با استفاده از فرمول پايايي کودر- ريچاردسون صورت مي گيرد (کودر و ريچاردسون، 1937). مهمترين اجزاي اين فرمول شامل درصد ماده هاي نمره گذاري شده به شيوه اي خاص، همبستگيهاي بين ماده ها و نمره کل و انحراف معيار آزمون است. اين داده ها در فرمولي قرار مي گيرند که برآورد خوبي از ثبات را به دست مي دهد، به شرطي که آزمون مورد نظر تنها يک عامل آماري را اندازه گيري کند. متداولترين ضريب پايايي از اين دست که ضريب آلفا (کرونباخ، 1951) ناميده مي شود، "ميانگين تمام ضرايب دو نيمه سازي حاصل از نيمه هاي مختلف آزمون است (آناستازي، 1988)، قطع نظر از اينکه اين ماده ها دوارزشي يا چندارزشي هستند". دشواريهاي اين روش فراتر از دامنه اين کتاب هستند، ولي با اين حال، اين روشها در بسياري از کتابهاي درسي روان سنجي مورد بحث قرار گرفته اند.

همبستگيهاي بازآزمايي و نسخه هاي جانشين اطلاعاتي را فراتر از ثبات آزمون به دست مي دهند. چنانچه آزمودنيها در هنگام اجراي آزمون مجدد، پاسخ بعضي از ماده ها را به ياد آورند، امکان دارد که همان پاسخها را صرفاً بر اساس حافظه بدهند؛ يعني، يک اثر منظم که ممکن است به افزايش ساختگي اين همبستگي بينجامد. يا همان طوري که قبلاً بدان توجه شد، شرايط اجراي يک جلسه آزمون از يک نوبت به نوبت بعدي ممکن است تغيير کند و اين امر به منابع ناشناخته خطاي منظم مي انجامد. يا آزمودنيها ممکن است خصوصيتي را که اندازه گيري مي شود تغيير دهند، در چنين شرايطي از ميزان ضريب پايايي کاسته مي شود.

در عمل از کدام روش محاسبه ضريب پايايي بايد استفاده کرد؟ يک پاسخ ساده اين است که ضريب پايايي بايد انواع مختلف خطاهايي را که استفاده کننده آزمون به آنها علاقه مند است، انعکاس دهد. بنابراين، هرگاه ما در اندازه گيري يک مفهوم به پايايي آزمون علاقه مند باشيم، شاخص ثبات (آلفاي کرونباخ يا دو نيمه سازي) مناسب خواهد بود. چنانچه در اجراهاي مکرر و تحت شرايط مختلف به ثبات آزمون توجه نشان دهيم، آن گاه پايايي بازآزمايي يا نسخه هاي جانشين از مناسبت بيشتر برخوردار خواهند بود. در شرايط آرماني، سازنده آزمون هر دو مجموعه از داده ها را فراهم خواهد ساخت.

حدود قابل قبول ضرايب پايايي کدام اند؟ براي پاسخ به اين سؤال، ما بايد به شيوه اي توجه کنيم که بر اساس آنها، اين ضرايب را مي توان در عمل به کار برد. معمولاً، کليد اصلي به خطاي معيار اندازه گيري مربوط مي شود؛ کميتي که مستقيماً از روي ضريب پايايي و انحراف معيار نمره هاي حاصل به دست مي آيد. اگر ضريب پايايي را با r و انحراف معيار را با s نشان دهيم، خطاي معيار اندازه گيري را مي توان با توجه به فرمول sراديکال r-1 محاسبه کرد. براي نشان دادن معنا و کاربرد خطاي معيار اندازه گيري، مقياس Sc مربوط به MMPI را در نظر بگيريد. برآوردهاي ثبات دروني (ضرايب همبستگي دو نيمه آزمون) اين مقياس در حدود 0/91 گزارش شده است (دالستروم(810)، ولش(811) و دالستروم، 1975، ص 260). انحراف معيار تمام مقياسهاي MMPI براي نمره هاي مقياس بندي شده برابر با 10 است. حال خطاي معيار اندازه گيري را مي توان از فرمول ياد شده محاسبه کرد که برابر است با 10 راديکال 0/9-1 يا 3؛ يعني، مي توان گفت که هرگاه امکان اجراي اين آزمون به دفعات بسيار زياد وجود داشته باشد، متوسط نمره هاي Sc حاصل برابر با نمره هاي "واقعي" مي شود، ولي اين نمره ها با انحراف معيار 3 پيرامون اين ميانگين توزيع مي يافتند.

اگر توزيع نمره ها کاملاً نامتقارن نباشد، تقريباً دوسوم نمره ها در داخل يک انحراف معيار نسبت به ميانگين قرار مي گيرند. بنابراين، احتمال اينکه نمره حاصل از هر اجراي آزمون معين در سه واحد نسبت به نمره "واقعي" قرار گيرد، حدود دوسوم است. به عبارت ديگر، اگر يک پاسخ دهنده در مقياس Sc نمره 55 را کسب کند؛ احتمال اينکه نمره "واقعي" در سه واحد نمره 55، يعني، 52 و 58 قرار گيرد، دوسوم است. با همين استدلال، از آنجايي که حدود 95 درصد نمره هاي يکتوزيع کاملاً متقارن در دو انحراف معيار نسبت به ميانگين قرار مي گيرند، 95 درصد يا 19 مورد از 20 مورد احتمال وجود دارد که نمره واقعي پاسخ دهنده در فواصل 6 واحدي نمره 55، يعني بين 49 و 61 قرار گيرد.

همان طوري که تا اندازه اي در مورد مقياس D آزمون MMPI صادق است، فرض کنيد که مقدار اين ضريب پايايي (دو نيمه سازي) به جاي 0/91 برابر با 0/75 باشد (دالستروم، ولش و دالستروم، 1975، ص 260). با توجه به انحراف معيار 10، اين فرمول مقدار خطاي معيار اندازه گيري را برابر با 10 راديکال 0/75-1 يا 5 نشان مي دهد. اين موضوع در عمل به معناي آن است که هرگاه پاسخ دهنده اي در مقياس D نمره 60 را به دست آورده باشد، و ما بخواهيم دامنه اي را چنان تعيين کنيم که با احتمال 95 درصد نمره "واقعي" را در برگيرد، اين دامنه بايد بين 50 تا 70 باشد. هر چقدر ضريب پايايي کمتر باشد، ميزان اعتمادي را که مي توان نسبت به نمره به عنوان برآوردي از ميزان "واقعي" خصوصيتي داشت که پاسخ دهنده آن را داراست، کمتر است.

نظريه تعميم پذيري


در سال 1964، ريموند بي.کتل(812) سه روش عمده را مطرح کرد که بر اساس آنها "اثبات آزمون" را مي توان اندازه گيري کرد (البته وي اين اصطلاح کلي را بيشتر از اصطلاحهاي ديگر ترجيح مي داد). اولين روش، ثبات و توافق نمره ها در دفعات متوالي اجراست؛ يعني، تغييراتي که در يک آزمون و روي يک گروه از افراد در زمانهاي مختلف صورت مي گيرد. کتل اين ثبات را "پايايي" ناميد. دومين نوع ثبات به آزمونهاي مختلف ( يا بخشهاي يک آزمون که معمولاً ماده هاي انفرادي هستند) بر مي گردد و شامل توافق مربوط به يک بار اجراست که با استفاده از چند آزمون (يا بخشهاي آزمون) روي يک گروه از افراد صورت مي گيرد. اين ثبات "همگني" ناميده مي شود. نوع سوم ثبات به افراد مختلف بر مي گردد و شامل توافقي است که در مورد معناي نمره هاي يک آزمون که در يک زمان معين روي مجموعه هاي مختلفي از افراد اجرا شده است. اين نوع ثبات "انتقال پذيري" ( يا سرسختي) ناميده مي شود.

در يک رويکرد مشابه، کرونباخ، گليزر(813)، ناندا(814) و راجارتنام(815) (1972) فرض کردند که اساسي ترين موضوع در پايايي، سؤال مربوط به تعميم دادن مشاهده ها يا اندازه گيريها به طبقه ديگري از مشاهده هاست. بنابراين، به نظر آنها پايايي بايد به بررسي ميزاني مربوط شود که بر اساس آن، نمره هاي حاصل، معرف نمره هاي به دست آمده از شرايط ديگر يا "مجموعه هاي مرجع" مختلف است. مثالها مطالعه نمره هاي حاصل از نمره گذاران مختلف، ماده هاي آزمون، روشها، مشاهده کننده ها يا دفعات مختلف را در بر مي گيرند. همان طوري که در يک بحث دقيق درباره اين روش توسط ويگينز(1973) مورد تأکيد قرار گرفت، يکي از مزيتهاي اصلي اين روش در آن است که پژوهشگران را وا مي دارد که در خصوص مجموعه مرجع خاصي که مايل اند مشاهده هاي خودشان را بدان تعميم دهند، صريح و روشن باشند. اين امر تا اندازه اي از تمايز سنتي بين پايايي و اعتبار مي کاهد. جونز(816)، ريد(817) و پترسون(1975) در نظام کدگذاري رفتاري خودشان، مثال خوبي را در زمينه مطالعه کمّي تعميم پذيري گزارش کردند. در اين مطالعه، آزمودنيها، مشاهده کنندگان و دفعات مختلف، مجموعه هاي مرجع تعميم بودند.

پايايي و فنون فرافکن


نمره هاي کمّي حاصل از آزمونهاي فرافکن چنانچه با روشهايي که توصيف شدند ارزيابي شوند، اغلب پايايي اندکي دارند. از آنجايي که پايايي يک اندازه يا شاخص، حد بالايي را بر سودمندي بالقوه يا اعتبار آن تحميل مي کند، پاياييهاي کم اغلب در بررسيهاي پژوهشي روي اين آزمونها مسئول اعتبارهاي پايين قلمداد مي شوند. از طرف ديگر، همچنين استدلال شده است که روشهاي معمول براي ارزيابي پايايي را نمي توان براي ابزارهاي فرافکن به کار برد. براي مثال، گفته مي شود که روش دونيمه سازي براي آزمون رورشاخ نامناسب است، زيرا غيرممکن است که بتوان اين ده کارت را به گونه اي تقسيم کرد که دو نيمه قابل مقايسه را به دست دهد. پايايي بازآزمايي را نيز نمي توان به کار برد، زيرا آزمون مجدد، در واقع، يک تجربه روان شناختي متفاوت از آزمون اوليه است و چون گفته مي شود که فنون فرافکن نسبت به تغييرات جزيي در آزمودني حساس هستند، در واقع، به نظر مي رسد که در برخي از آزمونهاي فرافکن فرض مي شود که اين ابزارها کاملاً پايا هستند و اينکه تغييرات مشاهده شده در پاسخهاي آزمون با گذشت زمان مؤيد تغييرات واقعي در فرد هستند. بسياري از ويژگيهايي که اين آزمونها با آنها سرو کار دارند، مانند خُلق يا سطح انرژي با گذشت زمان تغيير مي کنند و بدين وسيله استدلال محکمي را دال بر اين مفروضه به دست مي دهند. با وجود اين، هر گونه شناخت واقعي از مشکلات پايايي اندازه گيري بايد به اين نتيجه منجر شود که بسياري از اين تغييرات، اگرچه نه همه آنها، تابعي از پايايي فرعي اين ابزارهاست. 

مشکلات اندازه گيري در ناپايايي هر آزمون تأثير دارد، ولي بعضي از مشکلات به ويژه در خصوص ابزارهاي فرافکن ايجاد مي شود. به طور کلي، مواد محرک مورد استفاده در آزمونهاي فرافکن با توجه به اينکه طبقه هاي نمره گذاري مختلف به طور مناسبي بر اساس محرکها تنظيم شوند، انتخاب نمي شوند. براي مثال، متوسط تعداد پاسخهاي حرکت (M) براي افرا غيربيمار در آزمون رورشاخ با توجه به انحراف معيارحدود 2، برابر 4 و متوسط جزئيات نادر (Dd) تنها برابر يک است (اکسنر، 1990). در عمل حداکثر پايايي اين اندازه گيريها همان طوري که نشان دادن اعتبارهاي معنادار امري تقريباً غيرممکن است، پايين است.

غالباً همان طور که در مورد آزمون TAT صادق است، نظامهاي نمره گذاري تا چند سال بعد از اينکه مواد محرک انتخاب شده باشند، تنظيم نخواهند شد. در آزمون TAT، آزمايندگان حتي در اين مورد اختيار دارند که کدام محرک را سرانجام به کار ببرند. اين رشد اتفاقي طبقه هاي نمره گذاري در ميزان پاياييهاي کم، تأثير دارد. نمره هاي نسبي (و تفاوت آنها) همان گونه که در آزمون رورشاخ به کار مي روند، به ويژه نسبت به پاياييهاي کم، حساس هستند. هولتزمن(818) در تهيه HIT، به انتخاب کارتهايي توجه کرد که در کميتهاي نمره گذاري تأثير خاصي داشتند؛ در نتيجه، پاياييهاي اکثر طبقه هاي HIT مناسبتر هستند. 

مشکل ديگر شامل استاندارد بودن دستورالعملهاست. راهنماييهاي مربوط به اجراي اکثر زبانهاي فرافکن استاندارد نشده اند، به طوري که به آزماينده امکان دهند تا به طور معناداري بر پاسخهاي آزمودني اثر گذارند. حتي اگرچه در نظام کنوني اکسنر(1986)، آزمون رورشاخ بر کاربرد ابزارهاي استاندارد شده تأکيد مي کند، آزماينده مي تواند هنوز تفاوت قايل شود. براي مثال، گراس(819) (1959) آزمون رورشاخ را روي 30 بيمار اجرا کرد، و در خصوص 20 نفر از آنها با گفتن "بسيارخوب" يا تکان دادن سر پس از هر پاسخ محتواي انسان تقويت اجتماعي را براي آنها فراهم کرد. بيماراني که بدين ترتيب تقويت شدند، در مقايسه با 10 نفر ديگر به طور معناداري پاسخهاي محتواي انسان بيشتري را ارايه دادند. اهميت اين تفاوتهاي ظريف آزماينده که ممکن است او به آنها واقف نباشد، بايد براي خواننده روشن باشد.

حتي مشکل غامضتر اين است که به آزمودنيها اغلب اجازه داده مي شود که پاسخهاي مختلف چندي بدهند که طولهاي نابرابري دارند. احتمالاً اثر محتواي روان شناختي يک پاسخ يا مجموعه پاسخهاي طولاني در مقايسه با يک پاسخ کوتاه متفاوت است. پاسخهاي کوتاه در آزمون رورشاخ يا TAT، عمدتاً مواد رايج يا پيش پا افتاده را شامل مي شوند. پراکندگي در طول پاسخ همچنين انجام مقايسه هاي آماري را بي اندازه مشکل مي کند.

مشکل ديگر در نمره گذاري تجلي مي کند. در بعضي آزمونها مانند MMPI، نمره گذاري جنبه مکانيکي دارد؛ يعني، هيچ گونه قضاوت ذهني در خصوص طبقه يک پاسخ صورت نمي گيرد يا قضاوت ذهني اندکي مورد استفاده قرار مي گيرد. همين موضوع در مورد بعضي از طبقه هاي نمره گذاري آزمونهايي مانند رورشاخ صادق است. براي مثال، هنگامي که داده ها جمع آوري مي شوند، تعيين تعداد کل پاسخهاي ارايه شده شامل هيچ قضاوتي نيست و يا قضاوت ناچيزي را در بر مي گيرد. به همين ترتيب، اندازه گيري بلندي يک شکل نقاشي يا مساحت کل آن، يک روش نسبتاً مکانيکي است. ولي با اين حال، تعيين اکثر نمره هاي حاصل از آزمونهاي فرافکن شامل چندين قضاوت ذهني است، براي مثال، آيا اين پاسخ رورشاخ شامل رنگ يا حرکت انسان است؟ آيا اين داستان TAT نياز به پيشرفت يا مهرورزي را نشان داده و يا اينکه هر دو را نشان مي دهد؟ در خصوص آن دسته از آزمونهاي فرافکن که چند روش نمره گذاري مختلف ولي مشابه را در بر مي گيرند، مشکل حتي شديدتر است.

اگرچه سؤال مربوط به پايايي نمره گذار به طور ساده يک توافق بين داوران و درون داوران است، ولي بايد به خاطر داشت که ناپايايي نمره گذاري در ناپايايي آزمون تأثير مي گذارد. مورستاين(820) (1963، ص 146-144) جدول خلاصه اي از پاياييهاي نمره گذاران را در خصوص ويژگيهاي نمره گذاري شده از آزمون TAT ارايه کرده است. از 45 مطالعه اي که پايايي تحت لواي همبستگي در آنها گزارش شده بود، ميانه پايايي نمره گذاران 0/74 به دست آمد. با پاياييهايي از اين دست، مشکلات دستيابي به سطوح قابل قبول پايايي آزمون در واقع زياد هستند. با وجود اين، مي توان در اين زمينه به پاياييهاي بالاتري نيز دست يافت. در اين خصوص، هولت(821) (1978) داده هاي TAT حاصل از چند منبع را گزارش کرد که حاکي از پايايي بالاي نمره گذاران تا سقف 0/90 بودند. دستيابي به ضرايب پايايي بالا معمولاً شامل راهنماهاي مبسوطي است که طبقه ها را با دقت تعريف کند و مثالهاي نمره گذاري را ارايه دهد. از آنجايي که کاربرد چنين راهنماهايي نيازمند توجه زياد و تلاش وافر در تعميم دادن يک نمره واحد است، آنها بيشتر به جاي قاعده يا حکم، موارد استثنايي را نشان مي دهند.

پايايي تفسير کلي


توجه بيش از حد به رويکردهاي مختلف در تعيين پايايي ممکن است از لحاظ علمي خطر از دست دادن موضوع اصلي در پايايي را به همراه داشته باشد. آزمونها فنون جمع آوري اطلاعات مربوط به شخصيت هستند و معمولاً در خصوص ارايه پيش بيني هايي درباره رفتار آتي بر مبناي عملکرد شخصيت استوارند. به همين دليل، توجه غايي ما به پايايي بايد معطوف اين باشد که کدام آزمون مطرح است؛ يعني، هرگاه آزمون رورشاخ براي به دست آوردن توصيف جامعي از عملکرد کلي شخصيت به کار رود، آن گاه موضوع اصلي، پايايي اين توصيفهاي کلي است و نه پايايي طبقه هاي نمره گذاري فردي.

در ارزيابي پاياييهاي کلي چه چيزي مورد توجه قرار دارد؟ اين روشها به روشهايي شباهت دارند که قبلاً توصيف شدند. براي مثال، پايايي حاصل از روش دو نيمه سازي را مي توان با مقايسه تفسيرهاي حاصل از بررسي نيمه هاي قابل مقايسه آزمون ارزيابي کرد؛ پايايي حاصل از روش بازآزمايي شامل مقايسه تفسيرهاي حاصل از دو اجراي مختلف آزمون است؛ و پايايي بين داوران را مي توان با مقايسه تفسيرهاي حاصل از اجراي يک آزمون که توسط داوران مختلف صورت گرفته است، تعيين کرد. پايايي بين آزمايندگان را نيز مي توان به روش مشابهي ارزيابي کرد.

براي ارايه توصيفهاي کلي شخصيت که به طور آماري مي توان به همين شيوه آنها را با يکديگر مقايسه کرد، چهارچوبهاي توصيفي چندي در خصوص شخصيت مورد نياز است. يک روش موسوم کاربرد مجموعه اي از مقياسها يا ابعاد درجه بندي است که با آزمون و نوع اطلاعات توصيفي مورد نياز متناسب هستند. بدين ترتيب، تفسير به دنبال بررسي طرح کلي آزمون، با اختصاص دادن نمره ها يا جايگاهها به آزمودنيها بر اساس اين مقياسها صورت مي گيرد. يا آزمايندگان مي توانند به تعدادي از سؤالهاي صحيح - غلط يا چندگزينه اي در خصوص موضوع پاسخ دهند. روش مرسوم ديگر، استفاده از فن دسته بندي پرسش است. يک دسته بندي پرسش معمولي شامل 100 کارت است که هر کدام يک توصيف شخصيت را در بر مي گيرد. از آزماينده خواسته مي شود که طرح کلي آزمون را مطالعه کند و بعد، عبارتهاي توصيفي را در 9 دسته طبقه بندي کند که از حداقل وصف حال تا حداکثر وصف حال آزمودني را در بر مي گيرد. تعداد کارتهايي که در هر دسته قرار مي گيرند از قبل تعيين مي شوند. به طوري که هر داور توزيع يکساني از کارتها را به دست مي دهد. در تمام اين فنون، همبستگي رتبه اي يا درصد توافق روشها را مي توان براي تعيين يک شاخص عددي پايايي به کار برد (هرگاه قصد داشته باشيم که پاياييهاي مربوط به يک آزماينده واحد را تعيين کنيم، تعداد طرحهاي آزمونهاي مورد داوري بايد به اندازه کافي زياد باشد که آزماينده نتواند به ياد آورد يا حدس بزند که کدام مورد به کدام آزمودني تعلق داشته است).

پايايي به دست آمده از هر روش ارزيابي بايد با کاربرد همان روش متناسب باشد. هرگاه پيش بيني هاي مربوط به رويدادهاي به خصوصي ارايه شود، پايايي اين پيش بيني ها بايد مورد بررسي قرار گيرد. هرگاه توصيفهاي کلي شخصيت مورد توجه باشد، اين پاياييهاي آنهاست که مورد توجه قرار مي گيرند. گرچه اغلب منابع اساسي ديگري نيز در زمينه پايايي وجود دارد (مانند پايايي نمره گذار) که پاياييهاي نهايي به آنها بستگي دارند، پايايي روش مورد استفاده، سؤال مربوط به علاقه نهايي است.

پي نوشت:


807- Ghiselli

808- Nunnally

809- Bernstein

810- Dahlstrom

811- Welsh

812- Raymond B. Cattell

813- Gleser

814- Nanda

815- Rajaratnam

816- Jones

817- Reid

818- Holtzman

819- Gross

820- Murstein

821- Holt


منبع:تالیف:آی . لانیون،ریچارد و دی فلئونارد ، ترجمه:نقشبندی،سیامک و .... «ارزيابي شخصيت» ، نشر روان ،1385

+ نوشته شده در  دوشنبه 22 خرداد1391ساعت   توسط محمد حسین ضرغامی  | 

سبک های پاسخدهی

اجراي آزمون در شرايط ميزان شده، يكي از شرايط لازم و با اهميت جهت استفاده از آزمونهاي رواني است؛ به اين معني كه ميزان نور، حرارت، تهويه، سر و صداهاي محيط آزمون گيري و تمامي عوامل متفرقه اي كه ممكن است، عملكرد آزمودني را در يك پرسشنامه، تحت تاثير قرار دهند، بايد كنترل شوند. در صورت فراهم نشدن اين شرايط، آزمونگر نبايد داده هاي به دست آمده  از پرسشنامه را با هنجارهاي آزمون مقايسه كند ( كاپلان و ساكوزو    ، 1997).

در شرايط آرماني، حتي اگر آزمونگر بتواند، چنين كنترلي را نيز اعمال نمايد، هيچگاه نخواهد توانست واكنشهاي آزمودنيها را نسبت به پرسشنامه تحت كنترل درآورد؛ زيرا بسياري از آزمودنيها به دليل ويژگيهاي شخصيتي، انتظارات، مقاصد خاص و نظاير آنها نمي توانند و يا نمي خواهند، تفكرات، احساسات و نگرشهايشان را به درستي در پرسشنامه منعكس كنند؛ براي مثال، هنگام گزينش افراد براي يك شغل خاص، پذيرش افراد در يك موسسه آموزشي و ... احتمال بسياري وجود دارد كه آزمودنيها تصوير مطلوبي از خود ارائه دهند و يا در موقعيتهاي ديگري همچون تشخيص باليني مجرمين و بزهكاران، معافيت افراد مشمول از خدمت سربازي، آزمودنيها ممكن است، تصوير نامطلوبي از خود ارائه نمايند تا بدينوسيله احتمال تبرئه شدن و يا معافيت خود را افزايش دهند. به چنين سوگيريهايي در هنگام پاسخدهي به پرسشنامه ها، سبكهاي پاسخدهي ، اطلاق مي شود كه به صورتي ناخواسته و تا حدي غير قابل كنترل، باعث افزايش واريانس خطا  در نمره‌‌ مشاهده شده  مي شوند و در نتيجه فرايند تفسير نتايج را با ابهام مواجه مي كنند .

سبكهاي پاسخدهي در بدو امر به حدي نگران كننده بود كه بسياري از پژوهشگران (براي مثال، ادواردز  ، 1957، 1964؛ مسيك و جكسون  ،1961 ) به اين نتيجه رسيدند، آنچه كه بوسيله پرسشنامه هاي شخصيت اندازه گيري مي شود، سبك پاسخ دادن آزمودنيها به پرسشنامه است و به همين دليل اعلام نمودند كه استفاده از پرسشنامه هاي شخصيت به عنوان يك ابزار تشخيصي بايد متوقف شود؛ البته پژوهشهاي بعدي از جمله ( رورر  ، 1965 ؛ بلوك  ، 1965 ) نشان دادند كه پژوهشهاي قبلي در نتيجه گيريهاي خود اغراق كرده اند؛ با وجود اين، ضروري است كه مقياسها و پرسشنامه هاي شخصيتي، روشهاي دروني جهت شناسايي منابع و حذف و يا كنترل اينگونه واريانسهاي نامربوط داشته باشند. به همين دليل اين مقاله در پي آن است تا پس از معرفي مهمترين سبكهاي پاسخدهي، شيوه هاي كنترل آنها را مورد بررسي قرار دهد.

نوشته شده توسط دکتر ابراهیم علیزاده

+ نوشته شده در  سه شنبه 26 اردیبهشت1391ساعت   توسط محمد حسین ضرغامی  | 

سنجش کلاسی

آغاز سخن
اندازه گيرى 1 به عنوان فرايندى دقيق و
نظام دار، يك عملكرد يا يك ويژگى را با يك
عدد ارتباط مى دهد و مشخص مى كند كه يك
فرد يا يك شىء، چه مقدار از يك ويژگى را
دربردارد. براى اندازه گيرى بايد به آزمون 2
متوسل شد. درواقع آزمون، ابزار اندازه گيرى
است. براى اندازه گيرى ويژگى هاى گوناگون
در افراد يا اشياء، وسايل متفاوتى مورد استفاده
قرار مى گيرد. گاه اين ويژگى ها فيزيكى است
مانند طول، وزن و قد افراد كه به طور مستقيم
مى توان آن ها را اندازه گرفت. گاه نيز صفت هاى
روانى مورد نظر است كه اندازه گيرى مستقيم
آن ها امكان پذير نيست مانند هوش، نوآورى،
انگيزش، نگرش و يادگيرى. براى اندازه گيرى
اين ويژگى ها بايد از آزمون كمك گرفت.
معمول ترين ابزار اندازه گيرى در فرايند آموزش،
طرح مجموعه اى پرسش است كه بايد توسط
چكيده
سنجش، جزيى جداي ىناپذير از فرايند تدريس بوده، جم عآورى و تفسير اطلاعات براى تصمي مگيرى
دربارة وضع يادگيرى دان شآموزان را دربرم ىگيرد. در اين مقاله اثر سنجش روى برنام ههاى كلاسى و
آموزشى معلمان بررسى م ىشود.
كليدواژ هها: سنجش، انداز هگيرى، آزمون، آزمودن، ارزشيابى، پايايى، روايى.
مريم آرميون
معلم شيمى منطقة 3 تهران
از ديدگاه گستردگى مفهومى، پس
از آزمودن و انداز هگيرى، مفهوم
سنجش به ميان م ىآيد. سنجش
نسب تبه انداز هگيرى از گستردگى
مفهومى بي شتري برخوردار است و به
فرايندى گفته م ىشود كه در جريان آن
اطلاعات مورد نياز براى تصمي مگيرى
دربارة وضعيت دان شآموز، برنام ههاى
درسى يا پايگا ههاى آموزشى گردآورى
م ىشود
ن ١٣٩٠ ︀︐︧︋︀︑ ، ره ی ٤ ︀﹝︫ ، رم ︀﹧︚ و ️︧﹫︋ دوره ی
14
افراد مورد آزمون، پاسخ داده شود.
گاه، اندازه گيرى بدون اين كه آزمونى در كار
باشد انجام م ىگيرد. براى نمونه، معلم تعداد
دفع ههايى را كه يك دانش آموز هم كلاسى هايش
را مورد آزار قرار مى دهد مشاهده مى كند و
مى شمارد بى آن كه او را مورد آزمون قرار دهد.
از اين رو مى توان گفت اندازه گيرى مفهومى
گسترد هتر از آزمودن 3 دارد. درواقع، آزمودن
فعاليتى است كه طى آن براى اندازه گيرى يك
ويژگى، آزمونى برگزار مى شود.
از ديدگاه گستردگى مفهومى، پس از
آزمودن و اندازه گيرى مفهوم سنجش 4 به
ميان مى آيد. سنجش نسبت به اندازه گيرى از
گستردگى مفهومى بيش تر برخوردار است
و به فرايندى گفته مى شود كه در جريان
آن اطلاعات مورد نياز براى تصميم گيرى
دربارة وضعيت دانش آموز، برنامه هاى درسى
يا پايگاه هاى آموزشى گردآورى مى شود.
جهت جمع آورى اين اطلاعات ابزارها و
روش هاى گوناگونى به كار مى رود كه از
آن جمله مى توان به آزمون، پرسش نامه،
قياس درجه بندى، فهرست وارسى، كار
آزمايشگاهى، طرح پژوهشى، آزمون شفاهى،
تكليف درسى، مصاحبه، مشاهدة عملكرد و
رفتار دانش آموزان در موقعيت هاى مختلف
اشاره كرد.
اندازه گيرى و سنجش هر دو، فراهم كنندة
اطلاعات مورد نياز جهت ارزشيابى اند.
ارزشيابى را بايد فرايند داورى يا تعيين مقدار
ارزش هر چيز دانست. براى نمونه، داورى
در اين زمينه كه آيا يك دانش آموز در ميان
هم كلاسى هايش از سطح آمادگى مناسب
براى شركت در فعاليت هاى آزمايشگاهى
برخوردار است يا نه. هرچه اطلاعات برآمده
از اندازه گيرى و سنجش كامل تر باشد، نتيجة
ارزشيابى دقيق تر خواهد بود.
اكنون، با اراية يك نمونه مفاهيم ياد شده را
به طور عميق تر مورد بررسى قرار مى دهيم.
نمونه
معلمى را در نظر بگيريد كه مى خواهد
ميزان اثربخشى روش تدريس خود و فراگيرى
مطالب فصل 1 شيمى( 2) توسط دانش آموزانش
را مورد ارزشيابى قرار دهد. او براى اين كار
پرسش هايى را در محدودة مفاهيم اين فصل
طرح مى كند، آن را در اختيار دانش آموزان قرار
مى دهد، پس از تصحيح پاسخ دانش آموزان به
آن ها نمره مى دهد و با توجه به اين نمره و
انتظارهايى كه از دانش آموزان داشته است دربارة
ميزان يادگيرى آن ها و موفقيت خود در تدريس
داور ى مى كند.
به اين ترتيب دانش آموزان با دريافت
پرسش ها و پاسخ دادن به آن ها، مورد آزمون
قرار گرفته اند. پس از آن نمره دادن به اين
پاسخ هاست كه نتايج آزمون را با يك قاعدة
مشخص به عددهاى تبديل مى كند. سرانجام با
توجه به سطح نمره ها، داورى در مورد ميزان
يادگيرى و مؤثر بودن روش تدريس معلم انجام
مى گيرد.
جايگاه سنجش و اندازه گيرى در
فعالي تهاى يك معلم
بديهى است فعاليت هاى يك معلم تنها به
ساعت هاى حضور و تدريس وى در كلاس
محدود نمى شود. او ناگزير است كه توجه و
وقت خود را صرف همة موقعيت هايى كند كه
بايد در آن موقعيت ها به تصميم گيرى بپردازد.
برخى از اين تصمي مگيرى ها به مسايل شخصى
دانش آموزان مربوط است و برخى ديگر، كل
دانش آموزان كلاس را دربرمى گيرد. معلم پس از
معلم پس از اجراى آزمون و ثبت
نمر هها فعالي تهاى خود را طراحى
م ىكند تا در دو حوزة مسايل
شخصى و كلى مربوط به دان شآموزان
تصمي مهاى مناسبى بگيرد
نقشه
اجرا گزارش
ارزشيابي
چرخة ارزشيابي
عالي
خيلي خوب
خوب
متوسط
ضعيف
ن ١٣٩٠ ︀︐︧︋︀︑ ، ره ی ٤ ︀﹝︫ ، رم ︀﹧︚ و ️︧﹫︋ دوره ی
15
اجراى آزمون و ثبت نمره ها فعاليت هاى خود را
طراحى مى كند تا در دو حوزة مسايل شخصى و
كلى مربوط به دانش آموزان تصميم هاى مناسبى
بگيرد. از جمله عملكردهاى معلم مى توان اين
موارد را برشمرد:
 تكميل گزارش پيشرفت ماهانة هر
دانش آموز
 اقدام به تشكيل گروه هاى درسى براى
دانش آموزانى كه پيشرفت كمى در يادگيرى
داشته اند.
 تغيير جاى نشستن دانش آموزان به منظور
افزايش تمركز و توجه آن ها در جريان تدريس
 طراحى پرسش و تكليف براى جلسة
آينده
 گزارش مشكلات رفتارى دانش آموزان
پرخاشگر به خانواده هايشان
 بررسى علت بى توجهى رو به افزايش
يكى از دانش آموزان به كمك مشاور مدرسه
 توجه به پايايى 5 و روايى 6 آزمون ها يعنى
اعتبار آزمون ها و تقويت آن ها
 مراجعه به نمرة آزمون هاى سال گذشتة
دانش آموزان و بررسى ضرورت مرور برخى از
مفاهيم قبلى در كلاس
 انتخاب مفاهيم آموزشى براى جلسة
آينده
 مطالعه در زمينة برنامه ريزى و اهداف
سنجش با مراجعه به منابع گوناگون.
چنان كه مشاه ده مى ش ود تصميم گيرى ها ى
معلم با تكيه بر شواهدى شامل مواد آموزشى و
رفتار آموزشى فراگيران در كلاس درس انجام
مى گيرد. او بايد براى گردآورى اطلاعات،
پيوسته عملكرد دانش آموزان را مورد
بررسى قرار دهد كه توجه به تكلي فها
و گزارش هاى آزمايشگاهى،
كار پوشه ها، فهرست وارسى
كه عملكرد دان شآموزان
را در كارهاى گروهى
آن ها نشان م ىدهد،
آزمون ها و... عمدة
فعاليت هاى ياد شده به شمار مى روند.
اين معلم در جمع آورى اطلاعات سه شيوه
را به كار گرفته است كه به اين قرارند:
آ) توجه به عملكرد دان شآموز
عملكرد دانش آموزان سه حوزه را
دربرمى گيرد كه عبارتند از: انتخاب، تكميل و
اجرا. معمولاً در پاسخ به پرسش هايى در انواع
گوناگون مانند پرسش هاى چندگزينه اى، تعيين
درستى و نادرستى يك عبارت و جوركردنى،
فعاليت دانش آموز در حوزة انتخاب بررسى
مى شود و چنان چه پرسش هاى تكميلى را در
اختيار آن ها قرار دهيم، آن ها را وادار به تنظيم
پاسخ مى كنيم و هنگام اراية طرح هاى پژوهشى،
انجام آزمايش، تهية گزارش و كارپوشه است كه
دانش آموزان وارد تكاليف اجرايى مى شوند.
ب) مشاهده
معلم در كلاس با توجه كردن به گفته هاى
دانش آموزانى كه فعاليت مشخصى را انجام
داده اند، به جمع آورى اطلاعات و سنجش
مى پردازد. مشاهدة رفتارهايى هم چون چگونگى
تعامل در گروه ها، نگاه هاى سردرگم و جابه جايى
ناگهانى در محل نشستن دانش آموزان نيز
اطلاعاتى در اختيار وى قرار مى دهد. برخى از
اين مشاهده ها رسمى و از پيش طراحى شده اند
و برخى چنين نيستند. يعنى هنگام انجام كارهاى
گروهى با قصد قبلى، مجموعه اى از رفتارها
مشاهده مى شود و در موقعيت هاى ديگر مانند
زمان تدريس، مشاهده هاى غيررسمى شامل
ميزان توجه و تمركز، نحوة نشستن و وضع
ظاهرى و چهرة دان شآموزان توجه معلم را به
خود جلب مى كند.
پ)پرسش هاى شفاهى
معلم در جريان تدريس، پرسش هايى مطرح
مى كند تا با مرور مطالب قبلى دريابد كه آيا
دانش آموزان متوجه مطالب درسى شده اند يا
نه. طرح اين پرسش ها توجه دانش آموزان را به
معلم پس از اجراى آزمون و ثبت
نمر هها فعالي تهاى خود را طراحى
م ىكند تا در دو حوزة مسايل
شخصى و كلى مربوط به دان شآموزان
تصمي مهاى مناسبى بگيرد
ن ١٣٩٠ ︀︐︧︋︀︑ ، ره ی ٤ ︀﹝︫ ، رم ︀﹧︚ و ️︧﹫︋ دوره ی
16
درس جلب مى كند و معلم فرصت مى يابد
تا بدون توقف در ادامة روند تدريس، با
پرسش هاى شفاهى به جمع آورى اطلاعات
بپردازد.
به اين ترتيب، تصميم گيرى هاى معلم
بر پاية توجه به عوامل اجتماعى و آموزشى
است درحالى كه تأمل و ملاحظه نيز آن را
همراه ى مى كند.
سنجش
سنجش كلاسى اين معلم، گذشته از
هدف هاى حوزة شناختى، هدف هايى مربوط
به حوزه هاى يادگيرى ديگر را نيز دربرمى گيرد
كه حوزة روانى  حركتى و حوزة عاطفى از
آن جمله اند. آزمون هاى كتبى به طور عمده،
براى اندازه گيرى هدف هاى شناختى شامل
دانش، فهميدن، به كار بستن، تحليل، تركيب
و ارزشيابى مناسبند. از آن جا كه بخش مهمى
از موضوع هاى درسى همة دوره هاى تحصيلى،
هدف هاى شناختى را دربردارند، آزمون هاى كتبى
جايگاه ويژه اى در سنجش يافته اند. اما در عين
حال براى سنجش هدف هاى آموزشى عاطفى
و روانى  حركتى به تنهايى كافى نيستند. در اين
حوزه ها بايد از روش هاى اندازه گيرى و سنجش
جديدتر مانند كارپوشه، روش هاى مشاهده اى
(شامل فهرست وارسى، مقياس درجه بندى
و واقعه نگارى)، يادداشت هاى روزانه (ثبت و
ارزيابى راهبردهاى يادگيرى دانش آموزان و
بررسى آن ها در كلاس) و... استفاده كرد.
مراحل سنجش
انواع تصميم هايى كه معلم بنابر اطلاعات
به دست آمده اتخاذ مى كند در سه مرحله
تقسيم بندى مى شود كه در ادامه به شرح آن
مى پردازيم.
سنجش اوليه
در خلال هفتة اول يا دوم آغاز تدريس،
سنجش اوليه انجام مى گيرد و تأكيد آن بر
يادگيرى دان شآموز در حوز ههاى تحصيلى،
اجتماعى و ويژگى هاى رفتارى است. در اين
مرحله معلم با استفاده از مشاهده هاى غيررسمى
در زمينة نيازهاى رفتارى، اجتماعى و تحصيلى
دانش آموزان به گونه اى تصميم گيرى مى كند كه
نوعى محيط آموزشى فراهم شود كه يادگيرى
را مورد حمايت قرار دهد. براى نمونه، معلمى
كه جاى نشستن دانش آموزان را تغيير مى دهد
يا دانش آموزى را كه از دخالت در بحث هاى
كلاسى دورى مى كند به صحبت وامى دارد، براى
ايجاد فضاى آموزشى مناسب و حمايت كنندة
يادگيرى قدم برمى دارد.
سنجش آموزشى
چنين سنجشى در هر جلسه از درس انجام
مى گيرد و هدف از آن طراحى فعاليت هاى
آموزشى و نظارت بر پيشرفت آموزشى است.
در اين مرحله، مشاهده هاى رسمى و تكليف ها
براى برنامه ريزى ها مورد توجه قرار مى گيرد
و در كنار آن، مشاهده هاى غيررسمى
جهت نظارت بر عملكرد دانش آموزان،
به تصميم گيرى ها جهت مى دهد تا
ثبت نمر ههاى هر آزمون و تكميل
گزارش پيشرفت ماهانة هر دان شآموز
عبارت از همان سنجش تلخيصى
است
ي عالي
ب خيلي خوب
ب خوب
ط متوسط
ف ضعيف
روشن شود كه:
چه چيزهايى بايد آموزش داده شود؟ 
هر موضوع چگونه و در چه زمانى تدريس 
شود؟
چه مواد درسى بايد به كار گرفته شوند؟ 
چه تغييرى بايد در فعاليت هاى درسى ايجاد 
شود؟
هنگامى كه معلم به طراحى مفاهيم آموزشى
جلسة بعد مى پردازد يا نمره هاى سال گذشتة
دانش آموزان را بررسى مى كند، در حال طراحى
فعاليت هاى آموزشى آينده است.
سنجش تلخيصى 7
اين نوع سنجش به صورت دوره اى و
در خلال سال تحصيلى اجرا مى شود و با
استفاده از نتايج آن، نمره دادن و گروه بندى
دانش آموزان انجام مى گيرد. در اين مرحله به
كمك آزمون هاى رسمى، گزارش هاى ثبت شده
و آزمون هايى با دامنة محدود مى توان اطلاعات
منظمى را در جريان يك دورة تحصيلى دربارة
هر دان شآموز به دست آورد و براساس آ نها به
تصميم گيرى پرداخت. ثبت نمره هاى هر آزمون
و تكميل گزارش پيشرفت ماهانة هر دانش آموز
عبارت از همان سنجش تلخيصى است.
روايى سنجش
آيا » : هنگامى كه يك معلم از خود مى پرسد
من اطلاعات درستى را براى تصميم گيرى جمع
درواقع دربارة روايى سنجش سؤال ،«؟ كرده ام
مى كند. آزمون هاى مورد استفاده در آموزش
وپرورش سه نكته را دربارة روايى سنجش
روشن مى كنند كه به اين قرارند:
آيا پرسش هاى اين آزمون، نمونة مناسبى 
از محتوا يا موضوع درسى را ارايه مى دهند؟
(روايى محتوايى)
آيا نمره هاى آزمون، عملكرد كنونى يا آتى 
دانش آموزان را پيش بينى مى كند؟ (روايى
ملاكى)
آيا نمره هاى آزمون به مفاهيم نظرى يا 
سازه هايى كه آزمون براى سنجش آن ها در نظر
گرفته شده ارتباط دارد؟ (روايى سازه اى)
روايى سازه اى بيش تر به آزمون هاى
روان شناسى مربوط بوده، از محدودة اين بحث
خارج است. در روايى محتوايى نكتة مورد نظر
و مهم اين است كه آزمون، بايد معرف محتواى
درس باشد. پس اگر معلم بخواهد براى درس
خود يك آزمون پيشرفت تحصيلى ترتيب دهد،
اين آزمون نبايد چيزى را خارج از محتوا و
هدف هاى درسى اش اندازه بگيرد.
ن ١٣٩٠ ︀︐︧︋︀︑ ، ره ی ٤ ︀﹝︫ ، رم ︀﹧︚ و ️︧﹫︋ دوره ی
18
سنجش، زمانى از اعتبار لازم
برخوردار است كه به روايى و پايايى
آن، يعنى درستى اطلاعاتى كه آزمون
بر آن استوار است، توجه شود
پايايى سنجش
منظور از پايايى آزمون، ثبات ابزار انداز هگيرى
است. براى آ نكه پايايى اطلاعات سنجش افزايش
يابد بايد انواع مختلفى از اطلاعات دربارة رفتار و
عملكرد دان شآموز گردآورى شود. تنها يك شيوة
سنجش يا يك ابزار، براى تأمين اطلاعات كامل
و درست كافى نيست. اگر پرس شهاى آزمون
مبهم باشند، در هنگام اجراى آزمون وقف ههاى
مختلف روى دهد، نمر هگذارى با اشتباه انجام
شود، ب ىثباتى و ناپيوستگى در اطلاعات ايجاد
خواهد شد. براى جلوگيرى از اين رويداد، بايد
متن پرس شها صريح باشد، از آزمو نهاى عينى
براى رتب هبندى نمر هدهى استفاده شود و از رفتار
دان شآموز بي شتر نمون هبردارى شود.
نتيج هگيرى
سنجش واقعيتى فراتر از
برگزارى آزمو نهاى كتبى است كه
هد فهاى گوناگونى را دنبال م ىكند. ايجاد
فضايى مناسب جهت يادگيرى و حمايت از آن،
از جمله اين هد فهاست. معلم م ىتواند با ترتيب
و تنظيم فعالي تهاى خود مراحل س هگانة سنجش
را (اوليه، آموزشى و تلخيصى) در عملكرد
آموزشى خود دنبال كند. سنجش، زمانى از اعتبار
لازم برخوردار است كه به روايى و پايايى آن،
يعنى درستى اطلاعاتى كه آزمون بر آن استوار
است، توجه شود. هرچه اطلاعات كام لتر باشد
پيوستگى و ثبات سنجش بي شتر است.
1. measurment
2. test
3. testing
4. evaluation
5. reliability
6. validity
7. summative assessment
1. انداز هگيرى، سنجش و ارزشيابى آموزشى،
دكتر عل ىاكبر سيف، ويرايش پنجم، تهران،
نشر دوران.
2. روا نشناسى تربيتى اصول و كاربرد آن،
نويسندگان: جان اى. گلاور و راجراچ.
برونينگ، ترجمة علينقى خرازى، تهران، مركز
. نشر دانشگاهى، چاپ پنجم، 1383
3. سنجش كلاسى (مفاهيم و كاربردها)، پيتر
آيراسيان و مايكل راسل، ترجمة هادى كرامتى،
.1388- تهران، انتشارات بي نالمللى گاج، 89
ن ١٣٩٠ ︀︐︧︋︀︑ ، ره ی ٤ ︀﹝︫ ، رم ︀﹧︚ و ️︧﹫︋ دوره ی
19
+ نوشته شده در  جمعه 30 دی1390ساعت   توسط محمد حسین ضرغامی  | 

تاريخچه روان سنجي در جهان

منبع: http://commite2.blogfa.com/cat-21.aspx

قبل از قرن 19

  اندیشه شناخت انسان‌ها به طور انفرادی و استفاده از این شناخت برای رسیدن به هدف‌های مختلف، به اندازه تاریخ زندگی انسان قدمت دارد. در یونان قدیم، آزمایش‌های متعددی در زمینه ورزش و بازی‌ها وجود داشته است. شاگردان شغل‌های قرون وسطی می‌بایستی به آزمایش‌های فراوانی تن می‌دادند تا در شغل خود استادکار شوند. اگر دیوان‌های شعرا، مخصوصا شاهنامه فردوسی را مطالعه کنیم به کلمات آزمایش، آزمودن، آزمون و امتحان برمی‌خوریم که همه نشان‌دهنده آن است که انسان‌ها همیشه در پی آزمودن یکدیگر بوده‌اند.

کنون من تو را آزمایش کنم                    یکی سوی رزمت گرایش کنم

                                                                             "فردوسی"

 

  به طوری که ملاحظه می‌شود، در روان‌شناسی نظری نیز مثل سایر علوم، چیزی که بیشتر به چشم می‌خورد عبارت است از تحول کند وسایلی که انسان‌ها از مدت‌ها پیش برای دستیابی به اهداف‌ مبهم خود به کار می‌بردند. به تدریج که این هدف‌ها واضح‌تر و اندازه‌گیری آن‌ها نیز ضروری‌تر شناخته می‌شود، تحول و تکمیل ابزارهای لازم نیز آغاز می‌گردد. تمایلی که در ابتدای کار فقط برای ارضای حس کنجکاوی بوده، به مرور زمان ضرورت عملی پیدا می‌کند و بدون وقفه گسترش می‌یابد.[1]

 

 

ظهور روان‌شناسی تجربی

  ریشه آزمون‌ها به معنای امروزی کلمه با ریشه روان‌شناسی تجربی در هم‌ آمیخته است، در واقع اولین قدم‌هایی که برای اندازه‌گیری پدیده‌های روانی برداشته شده در آزمایشگاه‌ها بوده است. می‌توان گفت که ریشه  این اقدامات و تلاش‌های روان‌سنجی به قرن نوزده می‌رسد.

  اولین آزمایشگاه روان‌شناسی تجربی در سال 1879 توسط ویلهم وونت(Wilhelm Wundt) در شهر لایپزیک آلمان تاسیس شد. می‌توان ادعا کرد که آزمون‌های روانی در همین آزمایشگاه متولد گردید. فکر اندازه‌گیری صحیح پدیده‌ها، ایجاد فنون مناسب برای تحلیل عکس‌العمل‌ها، تهیه  هنجارها، توسل به ریاضیات جهت تفسیر نتایج، همه اولین گام تهیه آزمون‌ها را تشکیل می‌دادند.[2]

 

 

شروع آزمون‌های روانی

  فرانسیس گالتون(Frances Galton) یکی از نخستین کسانی است که به مطالعه و اندازه‌گیری تفاوت‌های فردی پرداخت. گالتون عقیده داشت که بین توانایی ذهن و تمییز حسی رابطه وجود دارد و هرچه میزان هوشی بالاتر باشد، سطح تمییز حسی نیز بالاتر است. بر این اساس بود که برای اندازه‌گیری قدرت تمییز حسی، آزمون‌های مختلفی ابداع کرده است. وی معتقد بود که با این آزمون‌ها می‌توان هوش و توانایی‌های ذهنی افراد را مورد اندازه‌گیری قرار داد. اما خدمت مهم گالتون ابداع روش‌های آماری برای کمی ساختن نتایج حاصل از اجرای آزمون‌ها برای مطالعه تفاوت‌های فردی و تجزیه و تحلیل نتایج بود. وی به مفهوم ضریب همبستگی دست یافت. روش‌های آماری مورد مطالعه وی بعدها توسط کارل پیرسون(Karl Pearson) توسعه پیدا کرد و به تدوین روش همبستگی گشتاوری منجر شد.[3]

  در سال 1890 بود که اصطلاح "تست روانی" برای اولین بار توسط جیمز مک‌‌کین کتل(James McKeen Cattell) وارد روان‌شناسی شد. کتل اصطلاح آزمون روانی را طی مقاله‌ای تحت عنوان "آزمون‌های روانی و اندازه‌گیری" در مورد سری آزمایش‌هایی که درباره دانشجویان خود اجرا کرده بود به کار برد. کتل مانند فرانسیس گالتون در انگلستان و وونت در لایپزیک اقدام به تاسیس آزمایشگاه روان‌شناسی نمود. آزمون‌های کتل بیشتر به سنجش کارکرد حواس و کنش‌های حرکتی می‌پرداختند و از این نظر تحت کارهای فرانسیس گالتون قرار داشتند. بعدها کتل از این آزمون‌ها در آمریکا به میزان فراوان استفاده کرد و اصلاحاتی در آن‌ها انجام داد. همزمان با کارهای گالتون و کتل، تلاش‌های دیگری نیز در سایر کشورها برای ساختن آزمون‌های روانی صورت می‌گرفت. بعضی از روان‌شناسان از جمله کریپلین(kreaplin Emil) و ابینگ‌هوس(Ebinghauss) در آلمان و فراری(Ferrari) در ایتالیا سعی می‌کردند فعالیت‌های عالی‌تر و پیچیده‌تر ذهن را اندازه‌گیری کنند. به این ترتیب آزمون‌سازی و کاربرد آن که در آغاز محدود به سنجش کارکردهای حسی و توانش‌های حرکتی شده بود، به‌تدریج می‌رفت تا حوزه‌های عالی‌تر فعالیت‌های ذهنی از جمله حافظه، دقت، فرافکنی و غیره را دربرگیرد.[4]

  در سال 1896، آلفرد بینه(Alfred Binet) و ویلیام هانری(V.Hanri) مقاله‌ای منتشر کردند و در آن اکثر آزمون‌های موجود را که به نظر آن‌ها فقط اعمال بسیار ساده و پایین ذهن را اندازه می‌گرفتند، مورد انتقاد قرار دادند. آن‌ها برای اندازه‌گیری استعدادهای واقعی ذهن، آزمون‌هایی را پیشنهاد کردند که به رفتار واقعی نزدیکتر بود.[5]

  در 1904، وزارت آموزش همگانی فرانسه کمیته‌ای را برای مطالعه در مورد توانایی‌های یادگیری کودکان عقب‌مانده ذهنی مامور کرد. آلفرد بینه و یک روان‌پزشک به نام تئودور سیمون(Theodore Simon) در این کمیته انواع تکالیف ذهنی را که کودکان در سنین مختلف می‌توانستند انجام دهند بررسی کردند.[6] فرض بینه این بود که هوش را باید با تکالیفی سنجید که نیاز به قدرت استدلال و مشکل‌گشایی، نه مهارت‌های ادراکی – حرکتی دارد. استدلال بینه این بود که مراحل رشد ذهنی در کودکان کندذهن فرقی با کودکان طبیعی ندارد؛ یعنی کودک کندذهن در آزمون‌ها نمره‌ای شبیه به کودک طبیعی، ولی با سن کمتر از سن خودش می‌گیرد و توانایی‌های ذهنی کودک تیزهوش نیز در حد کودکان بزرگتر از سن خودش است.[7] بدین‌ترتیب آزمون بینه در سال 1905 انتشار یافت. این آزمون 30 سؤال داشت که به ترتیب سطح دشواری از آسان به مشکل تنظیم شده بود و سه کارکرد شناختی یعنی قضاوت، درک و فهم و استدلال را اندازه‌گیری می‌کرد. در سال 1908 ضمن تجدیدنظر در این آزمون، محتوای آن نیز گسترش یافت و مفهوم سن عقلی در آن مطرح شد. هرگاه کودک 6 ساله‌ای از عهده پاسخ دادن به بیشتر پرسش‌های آزمون برمی‌آمد که حداکثر کودکان متوسط 5 ساله قادر به گذراندن آن بودند، سن عقلی وی 5 سال منظور می‌شد.[8] طبق این نظام نمره‌بندی، هرچه نمره کودک با توجه به پاسخ‌های صحیح او به سوال‌ها بیشتر بود،  سن عقلی(Mental Age) بالاتری داشت. مفهوم سن عقلی مفهومی محوری در روش بینه بود. با این روش می‌شد سن عقلی کودک را با سن تقویمی(chronological Age) او مقایسه کرد.[9]

  آلفرد بینه در سال 1911 آخرین مقیاس هوشی خود را منتشر کرد و یک سال بعد درگذشت. بنابراین می‌توان بینه را پدر آزمون‌های روانی نامید، زیرا مفهومی که او از اندازه‌گیری هوش داشت کاملا تازه بود و برای دستیابی به هدف‌های عملی به کار رفت.[10] سوال‌های آزمونی را که بینه تهیه کرده بود لوئیس ترمن(Lewis Terman) از دانشگاه استنفورد به گونه‌ای تغییر داد که برای کودکان آمریکا مناسب باشد. او با دادن آزمون به هزاران کودک، اجرای آن را معیارمند و هنجارهای سنی آن را تعیین کرد.  این آزمون که امروزه به مقیاس هوشی استنفورد – بینه(Stanford-Binet) معروف است، علیرغم قدمتش همچنان یکی از پرمصرف‌ترین آزمون‌های روان‌شناختی است.[11]

  در جنگ جهانی اول، برای سنجش افرادی که وارد ارتش آمریکا می‌شدند، ضرورت یک آزمون هوش گروهی احساس شد. رابرت یرکز( Robert Yerks) رئیس انجمن روان‌شناسی آمریکا در راس کمیته‌ای متشکل از 40 روان‌شناس به تهیه چنین آزمونی اقدام کرد. این گروه پس از بررسی آزمون‌های مختلف، آزمون تدوین‌شده توسط آرتور اتیس( Arthur Otis) را الگو قرار داد. اتیس در تدوین آزمون هوشی خود پرسش‌های چند‌گزینه‌ای را برای نخستین بار به‌کار بسته بود. بدین‌سان آزمون ارتشی آلفا و بتا ساخته شد. آزمون آلفا که یک آزمون کلامی بود برای افراد باسواد که خواندن و نوشتن زبان انگلیسی را می‌دانستند به‌کار می‌رفت. آزمون بتا یک آزمون غیرکلامی بود که به جای راهنمای کتبی یا شفاهی، روش نشان دادن از راه عمل و پانتومیم در آن به‌کار بسته می‌شد و در مورد افراد بی‌سواد یا کسانی که زبان انگلیسی را نمی‌دانستند اجرا می‌شد.

  علاوه بر آزمون‌های هوش، آزمون‌های شخصیت نیز در جنگ جهانی اول مورد توجه قرار گرفت. پیش از آن امیل کریپلین روان‌پزشک آلمانی "آزمون تداعی آزاد اندیشه‌ها"(Free Association Test) را که قبلا توسط گالتون ابداع شده بود تدوین کرد و در مورد بیماری‌های روانی به‌کار برد. بعدها کارل یونگ(Karl young) روش مشابهی را با عنوان "تداعی آزاد کلمات" برای تشخیص عقده‌های روانی بیماران به‌کار بست. در جنگ جهانی اول، ارتش آمریکا برای تشخیص افراد نظامی مبتلا به روان‌رنجوری به یک آزمون شخصیت نیاز پیدا کرد. رابرت وودورث(Robert Woodworth) در این رابطه به تهیه "برگ احوال شخصی" پرداخت. این پرسش‌نامه گرچه در دوره جنگ اجرا نشد، اما به عنوان الگویی برای ساختن آزمون‌های شخصیت مورد استفاده قرار گرفت.

آزمون‌های روانی نه تنها در ارتش و مدارس مورد استفاده قرار گرفت بلکه در صنعت و تجارت نیز به عنوان ابزارهایی برای درجه‌بندی میزان کارآیی کارکنان بخش‌های مختلف صنعتی و تجاری به‌کار بسته شد. والتر دیل اسکات(Walter Dill Scott) یکی از شاگردان وونت، آزمون‌هایی برای گزینش کارکنان موسسات صنعتی و تجاری تدوین کرد. بدین‌ترتیب کاربرد آزمون‌های روانی به گونه گسترده‌ای در تمامی سازمان‌های دولتی و غیر‌دولتی برای استخدام و گزینش رواج یافت. اما به سبب شتابزدگی در تدوین آزمون‌ها برای پاسخ‌گویی به نیازهای موسسات تجاری و آموزشی،  بسیاری از آزمون‌های نامعتبر تهیه و انتشار یافت که نتایج حاصل از اجرای این‌گونه آزمون‌ها مایوس‌کننده بود. در نتیجه بسیاری از شرکت‌های تجاری و سازمان‌های صنعتی در سال‌های دهه 1920 استفاده از آزمون‌های روانی را کنار گذاشتند.

  بعدها بررسی و مطالعات روان‌شناسان نشان داد که نارسایی‌های موجود در روان‌آزمایی به علت نارسایی در خود آزمون‌هاست. چنانکه در تهیه، اجرا و تفسیر نتایج آزمون‌ها اصول و موازین علمی رعایت شود، می‌توان از آن‌ها به عنوان ابزارهای نسبتا معتبری برای سنجش توانایی‌ها و خصایص افراد استفاده کرد.

  امروزه آزمون‌های روانی به عنوان ابزارهای مهمی برای سنجش هوش، استعدادهای خاص، پیشرفت تحصیلی و همچنین تشخیص اختلال‌ها و نابهنجاری‌های روانی و شخصیتی در مدارس، موسسات صنعتی و تجاری، ادارات دولتی، دانشگاه‌ها و مراکز درمانی همراه با سایر روش‌های شناخت افراد به‌کار بسته می‌شوند.[12]     


[1] . گنجی، حمزه؛ آزمون‌های روانی، مشهد، دانشگاه امام رضا(ع)، 1375، چاپ ششم، ص 15 الی 17.

[2] . همان، ص 17و 18.

[3] . شریفی، حسن‌پاشا؛ نظریه و کاربرد آزمون‌های هوش و شخصیت، تهران، سخن، 1382، چاپ سوم، ص 10و 11.

[4] . بهرامی، هادی؛ آزمون‌های روانی، تهران، دانشگاه علامه طباطبایی(ره)، 1385، چاپ سوم، ص 6.

[5] . گنجی، حمزه؛ آزمون‌های روانی، ص 21.

[6] . بهرامی، هادی؛ آزمون‌های روانی، ص 12.

[7] . اتکینسون، ریتاال و همکاران؛ زمینه روان‌شناسی، حسن رفیعی و همکاران، تهران، ارجمند، 1383، چاپ چهارم، جلد دوم، ص 78.

[8] . نظریه و کاربرد آزمون‌های هوش و شخصیت، ص 12.

[9] . زمینه روان‌شناسی، ص 78.

[10] . گنجی، حمزه؛ آزمون‌های روانی، ص 22.

[11] . زمینه روان‌شناسی، ص 78.

[12] . شریفی، حسن‌پاشا؛  اصول روان‌سنجی و روان‌آزمایی، تهران، رشد، 1384، چاپ دهم، ص 21 الی 23.


نویسنده :  آرزو قاسم دماوندي

كلمات كليدي  :  تست رواني، آزمون هاي هوش، آزمون هاي شخصيت، روان سنجي

+ نوشته شده در  یکشنبه 18 دی1390ساعت   توسط محمد حسین ضرغامی  | 

روانسنجي (سنجش و اندازه گيري) در يك نگاه


+ نوشته شده در  سه شنبه 22 آذر1390ساعت   توسط محمد حسین ضرغامی  | 

مقیاس اندازه گیری

 يکی از ويژگيهای متغير قابليت اندازه گيری آن است. چنانچه از وزن به عنوان يک متغير نام ببريم بهترين راه اندازه گيری آن بر اساس کيلوگرم يا گرم می باشد در مورد قد هم سانتيمتر يا متر از عهده آن برمی آيد. اما در مورد رضايت بيماران از نحوه ارائه خدمات يا ميزان شنوائی يا ناتوانی و معلوليت از چه ملاکهائی بايد استفاده کرد. برای اندازه گيری يک عنصر نياز به مقياس اندازه گيری وجود دارد. مقياس اندازه گيری کمک می کند تا شما امکانی را برای اندازه گيری يک متغير تعريف نمائيد. برای اينکار لازم است با مقياسهای اندازه گيری متداول و مرسوم آشنا شويد. چهار دسته عمده از متغيرها عبارتند از:

مقياس اسمی: اين مقياس شامل  يک يا جند گروه با طبقه است که از نظر کيفی با هم متفاوتند اما بين گروهها هيچگونه ارجحيتی وجود ندارد. (مثال)  ممکن است برای هر گروه يا طبقه شماره ای در نظر گرفته شود که ارزش ندارد بلکه جنبه" کد" يا شناسائی دارند.

مقياس رتبه ای: اين مقياس نسبت به مقياس اسمی خصوصيت اضافه ای دارد که در بين گروهها از نظر متغير مورد نظر برتری وجود دارد اما اين برتری قابل سنجش و مقايسه با ساير گروهها نيست . گروهها هم يکسان نيستند. گروهها نسبت به هم روی پله های يک نردبان قرار گرفته اند.  (مثال)  

مقياس فاصله ای: در اين مقياس فاصله بين گروهها با هم مساوی در نظر گرفته شده است. اما صفر در اين مقياس فقدان خاصيت مورد نظر اندازه گيری نيست. اختلاف مساوی بين هرجفت از اعداد نمايانگر اختلاف مشابه در خصوصیت مورد اندازه گيری است. (مثال)  

مقياس نسبی: در اين مقياس خصوصيت اضافی آن است که صفر دليلی برای فقدان خاصيت مورد اندازه گيری است و در نتيجه نسبت بين اعداد در اين مقياس همان نسبت مقدار خاصيت مورد اندازه گيری است. (مثال)

شما به عنوان محقق برای اندازه گيری متغير خود ضروری است تا دست به انتخاب مقياس اندازه گيری بزنيد. تعريف مقياس و نوع رده ها یا گروه هائی که در مقياس خود در نظر می گيريد بر عهده شماست که بايدمبتنی  بر خصوصت علمی قدرت و رجحان مقياس باشد. نکته مهم آنکه قدرت و برتری مقياس های فوق بتدريج از مقياس اسمی به مقیاس نسبی افزايش می يابد و شما بايد هميشه از قویترين مقياس برای سنجش استفاده نمائيد.  (مثال)

يک مقياس خوب بايد دارای ويژگيهای زير باشد:

علمی : بر گرفته ومتناسب با اصول علمی باشد.

جامع : : بتواند تمام موارد متغيررا شامل شود.

مناسب : برای اندازه گيری آن متغير باشد.

قوی : تلاش شود قويترين مقياس باشد.

غير قابل جمع : رده های مشترک نداشته باشد.

رده های کافی : موردی را فراموش نکرده باشيم.

رده های تعريف شده : گروهها و رده های آن تعريف شده باشند.

عملی : قابليت انجام داشته باشد.

+ نوشته شده در  دوشنبه 21 آذر1390ساعت   توسط محمد حسین ضرغامی  | 

آيه ي آخر سوره ي جن و اعداد چيزهاي جهان

آيه ي آخر سوره ي جن
طبق فرمايش خداوند در قران هيچ تر وخشكي نيست كه در كتاب مبين (قران) ذكر نشده باشد. براي همين زماني است كه اين سوال براي من پيش آمده كه در قران در مورد رشته ي سنجش و اندازه گيري آيا مسئله اي اشاره شده است تا اين كه اين بار كه قران را مي خواندم آيه ي آخر سوره ي جن نظرم را جلب كرد. در اين آيه عَالِمُ الْغَيْبِ فَلَا يُظْهِرُ عَلَى‏ غَيْبِهِ أَحَداً
إِلَّا مَنِ ارْتَضَى‏ مِن رَّسُولٍ فَإِنَّهُ يَسْلُكُ مِن بَيْنِ يَدَيْهِ وَمِنْ خَلْفِهِ رَصَداً
لِّيَعْلَمَ أَن قَدْ أَبْلَغُواْ رَسِالاَتِ رَبِّهِمْ وَأَحَاطَ بَمَا لَدَيْهِمْ وَ أَحْصَى‏ كُلَّ شَىْ‏ءٍ عَدَدًا : او عالم به غيب است و هيچ كس را بر غيب خود آگاه نمى‏كند.
مگر كسى همانند پيامبر كه از او راضى باشد، پس از پيش رو و از پشت سر نگهبانانى مى‏فرستد
تا بداند (رسولان) پيام هاى پروردگارشان را رسانده‏اند و او به آنچه نزد آنان است احاطه دارد و هر چيزى را با عدد، شماره كرده است.
خداوند بلند مرتبه كه كلام او عين درستي و صادق ترين كلام ها و سخنان است در آخر آيه مي فرمايد كه خداوند به عدد تمام چيزهاي عالم آگاه است و آن را مي داند. بنابراين علمي كه به اعداد و اندازه ها سرو كار داشته باشد و سعي كند اين اعداد و اندازه ها را بدست آورد و كشف كند در واقع قدمي است در راه شناخت قواعد و قوانيني كه حضرت حق در ماهيت اعداد و انداره ها قرار داده است. رشته ي سنجش و اندازه گيري نيز با اعداد در حوزه هاي انساني سرو كار دارد.

+ نوشته شده در  پنجشنبه 17 آذر1390ساعت   توسط محمد حسین ضرغامی  | 

محتوی اولیه و پیشنهادی به صورت مقدماتی برای روانسنجی 1

روان سنجيفهرست منابع 1- سيف, علی اکبر(1386). اندازه گيری , سنجش و ارزشيابی پيشرفت تحصيلی. تهران: انتشارات دوران. 2- شريفی, حسن پاشا(1379). اصول روان سنجی و روان آزمايی. تهران: انتشارات رشد. 3- مارنات، گري گراث(ويرايش 2003).راهنماي سنجش رواني: براي روان شناسان باليني، مشاوران و روان پزشكان.(ترجمه حسن پاشا شريفي و محمد رضا نيكخو(1387). تهران: انتشارات رشد، انتشارات سخن. 4- آناستازي، ا. (؟). روان آزمايي. ترجمه محمد نقي براهني(1382). تهران: انتشارات دانشگاه تهران. 5- الن، مري جي.(؟). مقدمه اي بر نظريه هاي اندازه گيري(روانسنجي). ترجمه علي دلاور(1374). تهران: انتشارات سمت.رئوس مطالب به تفكيك جلساتتعريف اصطلاحات تعريف اندازه گيري: (Measurement) تعريف آزمون: (Test) تعريف آزمودن: (Testing) تعريف سنجش: ((Assessment تعريف ارزشيابي: (Evaluation)تعريف اندازه گيري اندازه گيري فرايندي است كه طي آن ويژگي ها و صفات اشيا و افراد بر طبق قواعدي معين به صورت عدد يا رقم گزارش مي شود.نكات مهم در تعريف اندازه گيري 1- اندازه گيري مي تواند به شكل هاي مختلفي صورت گيرد: از كاربست ابزارهاي پيشرفته و پيچيده الكترونيك تا امتحانات كاغذ و مدادي، مقياسهاي درجه بندي و فهرست هاي وارسي. 2- ويژگي يا صفتي كه اندازه گيري مي شود به صورت عدد و رقم گزارش مي شود. مثال: به جاي اين كه بگوييم پروين از زهرا باهوش تر است، مي گوييم هوشبهر پروين 125 و هوشبهر زهرا 109 است. 3- اندازه گيري فرايند يا شيوه اي نظام دار است زيرا در برگيرنده كاربرد قواعدي معين است(مثال). فايده كاربرد معين اين است كه كمك مي كند تا افراد مختلفي كه مي خواهند وسيله اندازه گيري را مورد استفاده قرار دهند آن را يكسان به كار مي بندند.تعريف آزمون اندازه گيري يك فرايند است و اين فرايند نياز به وسيله اي دارد كه آن را وسيله اندازه گيري مي ناميم. براي اندازه گيري ويژگي هاي فيزيكي( مانند طول، وزن، يا قد و وزن افراد) و رفتارهاي آشكار(مانندتعداد لغات به درستي ترجمه شده) از وسايل اندازه گيري مستقيم استفاده مي كنيم. بر خلاف ويژگي هاي فيزيكي و رفتارهاي آشكار، ويژگي ها  يا صفات رواني(مانند هوش، خلاقيت، انگيزش، نگرش و...) را به صورت غير مستقيم اندازه گيري مي كنيم؛ زيرا هيچ كس به طور مستقيم به آن ها دست رسي ندارد. معمول ترين وسيله اندازه گيري ويژگي ها يا صفات رواني، آزمون است.نكات مهم در تعريف آزمون اندازه گيري ويژگي هاي رواني از طريق اندازه گيري رفتارهايي انجام مي شود كه گمان مي رود معرف آن ويژگي ها هستند. از آن جا كه رفتارهاي معرف ويژگي هاي رواني متنوع اند، نمي توانيم همه آن ها را اندازه گيري كنيم. پس بنا به تعريف آزمون وسيله اي  است عيني و استاندارد شده كه به صورت نظام دار براي اندازه گيري نمونه اي از رفتار به كار مي رود. تعريف آزمودن بنا به تعريف: وقتي كه براي اندازه گيري يكي از ويژگي هاي رواني يا تربيتي يك فرد يا گروهي از افراد از آزمون استفاده مي شود، به اين فعاليت آزمودن مي گويند. اما هر نوع اندازه گيري الزاما آزمودن نيست؛ ممكن است اندازه گيري با استفاده از وسيله ديگري به جز آزمون انجام شود. بدين ترتيب اندازه گيري از آزمودن مفهوم وسيع تري دارد.تعريف سنجش سنجش فرايندي است كه براي جمع آوري اطلاعات مورد نياز تصميم گيري در باره دانش آموزان، برنامه هاي درسي و سياست هاي آموزشي مورد استفاده قرار مي گيرد(نيتكو، 2002). بدين ترتيب سنجش، مفهوم گسترده تري نسبت به اندازه گيري و ازمودن دارد. اندازه گيري و آزمودن عموما با كميت سر و كار دارند اما سنجش الزاما به كميت منحصر نمي شود.يعني نتيجه سنجش مي تواند به صورت غير كمي(توصيفي) گزارش شود. براي مثال، مي توانيم رفتار يك دانش آموز را با عنوان هاي پرخاشگر، سازگار و.. توصيف كنيم كه جنبه كيفي دارند.تعريف سنجش در سنجش از وسايل و فنون مختلفي براي جمع آوري اطلاعات به كار مي روند. از جمله: آزمون، پرسش نامه، مقياس درجه بندي، فهرست وارسي، كار آزمايشگاهي، پروژه تحقيقي، امتحان شفاهي، تكليف درسي، مصاحبه، و مشاهده عملكرد و رفتار دانش آموزان در موقعيت هاي مختلف. سنجش تنها به جمع آوري داده ها يا اطلاعات خلاصه نمي شود بلكه به جمع آوري داده ها همراه با قصد يا منظور گفته مي شود(سالويا و يسل دايك، 1991). به عقيده متخصصان فوق، سنجش در آموزش و پرورش به دو منظور انجام مي شود: 1) تعيين وتشخيص مشكلات دانش آموزان و 2) تصميم گيري در باره آنانتعريف ارزشيابي ارزشيابي فرايندي است كه طي آن در باره موضوع مورد ارزشيابي اطلاعاتي جمع آوري، تحليل و تفسير مي شوند و در باره آن نوعي داوري ارزشي(تعيين ارزش) به عمل مي آيد. بدين ترتيب در سنجش صرفا به جمع آوري اطلاعاتي در باره يك يا چند ويژگي اكتفا مي شود اما در ارزشيابي به داوري يا قضاوت در باره ارزش آن ويژگي ها يا داوري در باره مقدار آن منجر مي شود.  به سخن كوتاه، ارزشيابي يعني داوري در باره كيفيت يا ارزش اطلاعات به دست آمده از سنجش هاي مختلف.مقياس هاي اندازه گيري مقياس اسمي: (Nominal) مقياس ترتيبي: (Ordinal) مقياس فاصله اي: (Interval) مقياس نسبتي: (Ratio)مقياس اسمي - بيانگر پايين ترين سطح يا ساده ترين نوع اندازه گيري است - اين مقياس به دو صورت مورد استفاده قرار مي گيرد: براي اسم گذاري و براي طبقه بندي 1- اسم گذاري: در اين مقياس از ارقام و اعداد براي اسم گذاري يا نام گذاري و تشخيص اشيا و افراد استفاده مي شود. اين اعداد هيچ گونه مفهوم و معناي رياضي ندارند.مثال: شماره هاي روي پيراهن بازيكنان، شماره خيابان هاي شهر 2- طبقه بندي: در مقياس اسمي، علاوه بر نام گذاري، از اعداد و ارقام براي طبقه بندي اشيا و افراد نيز استفاده مي شود. در اين جا نيز اعداد مفهوم و معناي رياضي ندارند و تنها براي مشخص كردن طبقه هاي مختلف به كار مي روند. مثال: طبقه بندي افراد به دو طبقه مرد و زن. عمليات مجاز آماري: شمارش فراواني موردهاي هر طبقه، تعيين نما، عمليات مجاز رياضي: انجام هيچ كدام از چهار عمل اصلي جمع، تفريق، ضرب و تقسم ميسر نيست.مقياس ترتيبي - اين مقياس مجموعه اي از رتبه ها است؛ به طوري كه: 1- دسته اي از افراد يا اشيا، با توجه به يك صفت، از بزرگ به كوچك(يا بالعكس) مرتب مي شوند. 2- معلوم نيست كه هر يك از افراد يا اشيا به مفهوم مطلق، چقدر از آن صفت را دارد 3- مشخص نيست كه اين اشيا(يا افراد) از لحاظ صفت مورد اندازه گيري، چه مقدار از يكديگرفاصله دارند(نانالي، 1978). مثال:... عمليات مجاز آماري: شمارش فراواني ها، تعيين نما، محاسبه ميانه، محاسبه درصدها، و محاسبه ضريب همبستگي رتبه اي اسپيرمن. عمليات مجاز رياضي: انجام هيچ كدام از چهار عمل اصلي جمع، تفريق، ضرب و تقسيم ميسر نيست.مقياس فاصله اي مقياسي است كه در آن: 1- رتبه اشيا(يا افراد) با توجه به يك صفت مشخص است. 2- معلوم است كه اشيا يا (افراد)، از لحاظ صفت مورد اندازه گيري چه مقدار از يكديگر فاصله دارند. 3- اما هيچ اطلاعي راجع به مقدار مطلق صفت مورد نظر براي هيچ يك از اشيا(يا افراد) در دست نيست(نانالي، 1978). مثال:... عمليات مجاز آماري: محاسبه نما، ميانه، ميانگين، انحراف معيار، ضريب همبستگي رتبه اي اسپيرمن، ضريب همبستگي گشتاوري پيرسون. عمليات مجاز رياضي: جمع و تفريق مجاز است؛ ضرب و تقسيم مجاز نيست.مقياس نسبتي مقياسي است كه در آن: 1- رتبه اشخاص، با توجه به يك صفت معلوم است. 2- فاصله بين اشخاص معلوم است. 3- علاوه بر اين ها، فاصله حداقل يكي از اشخاص از يك صفر منطقي نيز معلوم است (نانالي، 1978). - اندازه گيري طول، حجم، و ساير صفات فيزيكي اشيا با مقياس نسبتي عملي است، اما اندازه گيري متغيرهاي رواني و پرورشي با اين مقياس به ندرت ميسر است. عمليات مجاز آماري و رياضي: همه عمليات آماري و رياضي مجاز است.خلاصه ويژگي هاي مهم مقياس هاي چهارگانه اندازه گيرينمونه سوال از مقياس هاي اندازه گيري براي روشن شدن تمايز بين مقياس هاي مختلف اندازه گيري، فرض كنيد مي خواهيم نظر بينندگان تلويزيون را در باره سريال ها بپرسيم. هر كدام از سوال هاي زير بيانگر مقياس اندازه گيري معيني هستند. اسمي:  كدام يك از سريال هاي تلويزيوني را تماشا مي كنيد؟(نام سريال ها) ترتيبي: سريال هاي تلويزيوني تا چه حد منعكس كننده واقعيت هاي زندگي هستند؟ خيلي زياد               زياد      متوسط          كم        خيلي كم فاصله اي: هوشبهر(IQ) قهرمان سريال مورد علاقه خود را حدس بزنيد.(هوشبهر) نسبتي: هفته اي چند ساعت سريال تلويزيوني تماشا مي كني؟(تعداد)دسته بندي آزمون هاي مورد استفاده در روان شناسي و آموزش و پرورش 1- آزمون هاي توانايي(شناختي، حركتي)آزمون هاي توانايي حداكثر عملكرد آزمون شونده را اندازه گيري مي كنند و نشان مي دهند كه آزمون شونده در بهترين شرايط قادر به انجام چه كاري است. آزمون هاي توانايي به طور عمده براي مقاصد پيش بيني موفقيت هاي تحصيلي و شغلي به كار مي روند. 2- آزمون هاي عاطفي آزمون هاي عاطفي، وضع موجود آزمون شونده را از نظر ويژگي هاي عاطفي و شخصيتي اندازه گيري مي كنند و براي مقاصد مشاوره به كار مي روند.انواع آزمون هاي توانايي 1- آزمون هاي توانايي(توانايي شناختي، توانايي حركتي)            - پيشرفت:            آزمون رياضي،آزمون فيزيك، و....           - استعداد:  آزمون هاي استعداد ناظر به آينده اند و براي پيش بيني موفقيت هاي آينده افراد به كار مي روند، در حالي كه ازمون هاي پيشرفت تحصيلي ناظر به گذشته اند و براي تعيين مقدار آموخته ها يا توانايي هاي موجود آزمون شوندگان به كار مي روند.                                            - استعداد كلي (هوش)                                     _ استعداد هاي ويژه:                                                      -آزمون استعداد موسيقي                                                        - آزمون استعداد رياضي                                                      - آزمون استعداد فني                                                       - و ....انواع آزمون هاي عاطفي 2- آزمون هاي عاطفي:  - شخصيت : (اندازه گيري متغيرهاي انگيزش، مزاج، سازگاري، منش و...)                                               -پرسش نامه هاي گزارش شخصي                                                                         - پرسش نامه هاي جامعه سنجي                                                                   - فنون مشاهده اي                                              - فنون فرافكن      - علاقه                                  - نگرش                                  - و ...ساير تقسيم بندي ها ي آزمون ها 1--  آزمون هاي ميزان شده در برابر آزمون هاي معلم ساخته 2- آزمون هاي گروهي در برابر آزمون هاي فردي 3- آزمون هاي سرعت در برابر آزمون هاي قدرت 4- آزمون هاي عملي در برابر آزمون هاي كاغذ- مدادي 5- آزمون هاي عيني در برابر آزمون هاي ذهني 6- آزمون هاي ملاك مرجع در برابر آزمون هاي گروه مرجع 7- آزمون هاي وابسته به فرهنگ در برابر آزمون هاي نابسته به فرهنگ 8- آزمون هاي كلامي در برابر آزمون هاي غير كلاميانواع ارزشيابي پيشرفت تحصيلي الف: از نظر هدف:                      1- ارزشيابي آغازين ( ورودي، پيش آزمون): پيش از انجام فعاليت هاي آموزشي به اجرا در مي آيد و به دو منظور انجام مي شود.                     2- ارزشيابي تكويني: در ضمن آموزش و همراه با فعاليت هاي يادگيري دانش آموزان انجام مي شود  و به منظور آگاهي از ميزان تحقق يا عدم تحقق هدف هاي آ، رفع نواقص آموزشي  و كسب اطلاع از مشكلات روش هاي آموزشي انجام مي شود.                     3- ارزشيابي تشخيصي: اين نوع سنجش با هدف تشخيص دقيق مشكلات يادگيري دانش آموزان به كار مي رود                     4- ارزشيابي تراكمي: به منظور ارزشيابي از تمامي آموخته هاي دانش آموزان و دانش جويان كه  در طول يك ترم يا يك دوره آموزشي آموخته اند استفاده مي شود و هدف آن نمره دادن  به آنان و قضاوت در باره اثر بخشي كار معلم و برنامه درسي يا مقايسه برنامه هاي مختلف درسي با يكديگر به كار مي رود.                     5- ارزشيابي تحقيقي ب: از نظر ماهيت موضوع:                      1- كتبي                     2- شفاهي                     3- عملينتايج احتمالي زيا ن بخش استفاده از آزمون ها نتايج آزمون ها ممكن است:  1- برچسب هاي هميشگي در مورد سطح توانايي افراد به جا بگذارد و از اين راه موقيت هاي اجتماعي افراد را در دوره هاي بعدي رشد از پيش تعيين كند. 2- به مفهوم بسيار محدودي از توانايي ها منجر شود و فرد را در جهت نيل به هدف هاي محدود يا يك هدف منحصر به فرد تشويق كند و در نتيجه شكوفايي ساير استعدادها را كه مي تواند در خدمت جامعه باشد، محدود كند. 3- ضمن غني كردن تجارب تهيه و اجرا كنندگان آزمون ها، آن ها را در موقعيتي قرار دهد كه نظام آموزش و پرورش جامعه را زير كنترل خود در آورند و تعيين سرنوشت افراد جامعه را به دست گيرند. 4- روش هاي غير انساني، انعطاف ناپذير و ماشيني را در ارزشيابي و تصميم گيري تشويق كند و در نتيجه آزادي هاي اساسي انسان را محدود سازد و يا به كلي از بين ببرد. 5- رقابت و موفقيت فردي در برابر همكاري هاي اجتماعي را بي جهت مورد تاكيد قرار دهد. 6- به جاي پرورش خلاقيت افراد، آنان را وادار سازد كه تعبدا خود را با امكانات و شرايط موجود آموزشي تطبيق دهند. 7- علاوه بر موارد فوق كاربرد آزمون ها ممكن است مسايلي از قبيل: سوگيري هاي فرهنگي، مداخله در امور شخصي و محرمانه افراد، پاداش دادن به برخي مهارت ها ي آزمون شوندگان و تنبيه كردن آنان براي فقدان بعضي مهارت هاي ديگر را موجب شود.هدف هاي كلي كاربرد آزمون ها آزمون هاي رواني در موقعيت هاي اموزشي، راهنمايي تحصيلي و شغلي، در موقعيت هاي باليني و كلينيك ها، توسط معلمان، مشاوران راهنمايي، روان شناسان باليني و ساير متخصصان براي هدف هاي مختلف مورد استفاده قرار مي گيرند.هدف هاي كلي كاربرد آزمون ها كرانباخ در كتاب « اصول كاربرد ازمون هاي رواني» موارد استفاده از آزمون ها را به شرح زير مطرح كرده است: 1- پيش بيني: آزمون ها براي اندازه گيري توانايي پيشرفت تحصيلي و ساير ويژگي هاي افراد كه پايه تصميم گيري است به كار مي رود.  تصميم گيري مستلزم آن است كه فرد بتواند ميزان موفقيت خود را در آينده در زمينه معيني پيش بيني كند. پيش بيني مبتني بر داده هاي كمي، معتبرتر و دقيق تر از تفكر واهي است.هدف هاي كلي كاربرد آزمون ها 2- گزينش: در برخي از موسسات و سازمان ها مانند دانشكده ها و سازمان هاي استخدام كننده، آزمون ها براي گزينش يا رد بعضي از افراد مورد استفاده قرار مي گيرند. تصميم گيري در مورد استخدام يك فرد و يا پذيرش يك دانشجو، تصميم در مورد گزينش افراد به شمار مي رود.هدف هاي كلي كاربرد آزمون ها 2- طبقه بندي: طبقه بندي شامل قرار دادن افراد در گروه هاي مختلف بر اساس ملاك هاي معين است. با طبقه بندي ممكن است به انتخاب روش هاي درمان يا آموزش براي افراد منجر شود.هدف هاي كلي كاربرد آزمون ها 4- ارزشيابي: در اين زمينه آزمون ها را به منظور قضاوت و ارزشيابي در مورد برنامه ها، روش ها، تدابير درماني و مانند اين ها به كار مي برند.استفاده معلمان از آزمون ها 1- قضاوت در باره استعداد و ظرفيت يادگيري 2- راهنمايي و هدايت جريان تدريس 3- بررسي ميزان پيشرفت يادگيري دانش آموزان 4- كشف مشكلات و نا رسايي هاي يادگيري دانش آموزان 5- پيشرفت و بهبود روش هاي تدريس 6- ارزشيابي و قضاوت در  مورد بازدهي فعاليت هاي آموزشياستفاده مديران از آزمون ها 1- شناخت نيازهاي دانش آموزان تصميم گيري در مورد برنامه هاي آموزشي 2- تعيين نقاط قوت و ضعف برنامه هاي آموزشي 3- گروه بندي و جايگزيني دانش آموزان در برنامه ها و موضوعات مختلف درسي و انطباق آنان با سطوح مختلف آموزشي 4- شناخت زمينه هايي كه معلمان نياز به راهنمايي و دوره هاي باز آموزي دارند. 5- تعيين بازدهي و موثر بودن كلي برنامه هاي مدارسكاربرد آزمون ها در مشاوره تحصيلي و رواني مشاوران تحصيلي و رواني از آزمون ها براي رسيدن به اهداف زير استفاده مي كنند. 1- به دست اوردن اطلاعات دقيق و معتبر در باره توانايي ها، استعدادها، علائق، خصايص شخصيتي و مشكلات شخصي به منظور كمك به خود شناسي مراجعان. 2- كمك به مراجعان براي پيش بيني موفقيت هاي آينده در امور تحصيلي و شغلي. 3- كمك به تصميم گيري مراجعان خود براي برنامه ريزي آينده تحصيلي و شغلي. 4- تشخيص مشكلات درمان جويان. مانند دشواري و ناتواني در سازگاري با شرايط محيطي، مسايل مربوط به رشد و تكامل، نارسايي هاي تحصيلي، و ديگر مسايل شخصي و رواني. 5- ارزشيابي از ميزان اثر بخشي فرايند راهنمايي و روش هاي درماني كه در مورد مراجعان خود به كار بسته اند.تجزيه و تحليل نتايج امتحانات به طور كلي امتحانات- به ويژه امتحانات مرحله اي- براي رسيدن به هدف هاي زير انجام مي شوند: 1- كشف  نقاط قوت و ضعف فراگيران به منظور هدايت يادگيري آنان. 2- كشف نارسايي هاي احتمالي در مواد و وسايل آموزشي و كوشش براي رفع آن ها. 3- ارزشيابي سطح كارايي روش هاي تدريس و كوشش براي اصلاح نارسايي ها و افزايش مهارت مدرس در تدريس. براي رسيدن به اهداف فوق صرف رجوع به نمره امتحاني فراگيران كفايت نمي كند بلكه نتايج امتحان بايد بر اساس روش هاي آماري تجزيه و تحليل شود.تجزيه و تحليل نتايج امتحانات تجزيه و تحليل نتايج امتحانات براي پاسخ دادن به پرسش هاي اساسي زير صورت مي گيرد: 1- هر يك از فراگيران به كدام يك از هدف هاي آموزشي رسيده و به كدام هدف ها نرسيده اند؟ پاسخ به اين پرسش را مي توان از روي پاسخ هر فراگير به هر يك از پرسش هاي امتحان به دست آورد. نتيجه اين كار را در اصطلاح، عملكرد هر فراگير در هر يك از برايندهاي يادگيري مي ناميم. زيرا هر پرسش امتحاني يكي از برايندهاي يادگيري را اندازه گيري مي كند.تجزيه و تحليل نتايج امتحانات 2- به طور كلي هر يك از فراگيران تا چه اندازه به هدف هاي آموزشي رسيده اند؟ براي پاسخ به اين پرسش لازم است سطح عملكرد هر فرد در كل آزمون تعيين شود. عملكرد هر فرد در كل آزمون نشان مي دهد كه او به چند درصد هدف هاي آموزشي رسيده است. 3- به طور متوسط فراگيران كلاس، تا چه اندازه به هر كدام از هدف هاي آموزشي رسيده اند. پاسخ به اين پرسش نشان خواهد داد كه چند درصد فراگيران كلاس، به هر پرسش امتحاني پاسخ درست داده اند. نتيجه حاصل از اين بررسي عملكرد كلاس در هر يك از برآيندهاي يادگيري است.تجزيه و تحليل نتايج امتحانات 4- به طور كلي فراگيران كلاس، تا چه اندازه به هدف هاي آموزشي رسيده اند. براي پاسخ دادن به اين پرسش لازم است تعيين شود كه چند درصد فراگيران كلاس، به همه هدف هاي مورد نظر دست يافته اند. نتيجه اي را كه از اين بررسي به دست مي آيد، عملكرد كلاس در كل آزمون مي ناميم.تجزيه و تحليل نتايج امتحانات بنا بر اين، تجزيه و تحليل نتايج امتحان مستلزم تعيين چهار شاخص است كه مي توان با يك روش ساده آماري آن ها را مشخص كرد. اين چهار شاخص عبارتند از: 1- درصدعملكرد هر فراگير در هر يك از برآيندهاي يادگيري. 2- درصد عملكرد هر فراگير در كل آزمون(همه برآيندهاي يادگيري). 3- درصد عملكرد كلاس در هر يك از برآيندهاي يادگيري. 4- درصد عملكرد كلاس در آزمون.تجزيه و تحليل نتايج امتحانات عيني - تهيه جدول كار و وارد كردن نتيجه پاسخ هر دانش آمور به هر سوال جدول كار براي تجزيه و تحليل يك آزمون 8 سوالي در مورد 16 دانش آموز فرضيتجزيه و تحليل نتايج امتحانات عيني ملاك هاي به دست آمده در جدول كار را مي توانيم با توجه به يكي از درجه هاي توصيفي مانند خيلي خوب، خوب، رضايت بخش، ضعيف و خيلي ضعيف درجه بندي كنيم.محاسبه شاخص هاي آماري آزمون الف- ميانگين نمره هاي خام 1-                                                                       M=∑P 2-                                                       M=(∑Pu+ ∑Pl)/2 ب- انحراف معيار نمره هاي خام: پ- ضريب اعتبار و پايايي: ت- خطاي معيار اندازه گيري:محاسبه شاخص هاي آماري آزمون ث- شاخص اندازه سنجي شاخص اندازه سنجي نقشي دوگانه دارد. 1- نخست اين كه شاخصي از ثبات و پايايي آزمون است. هر چه تعداد واحدهاي اتدازه سنجي بيشتر باشد، آزمون پايايي بيشتري دارد. به علاوه اگر تعداد واحدهاي اندازه سنجي در يك آزمون 12 و در آزمون ديگر 6 باشد، مي توان گفت كه اعتبار آزمون اول دو برابر آزمون دوم است.(ناتال و اسكورنيك، 1974). اين رابطه خطي كه در مقياس اندازه سنجي وجود دارد، در مورد ضريب همبسنگس گشتاوري صدق نمي كند. به عنوان مثال اگر همبستگي دو بار اجراي يك ازمون 0/83 و همين همبستگي در مورد آزمون ديگر 0/43 باشد، نمي توان گفت كه اعتبار و پايايي ازمون اول دو برابر آزمون دوم است. 2- دومين نقش شاخص اندازه سنجي اين است كه براساس آن مي توان توزيع نمره هاي خام آزمودني ها را درجه بندي كرد. در اين درجه بندي حاشيه خطاي درجه بندي به علاوه و منهاي يك است.محاسبه شاخص هاي آماري آزمون مثال: درجه بندي آزمودني ها بر حسب شاخص درجه بندي آزمون توزيع نمره هاي آزمون: بين 10تا 83. تعداد واحدهاي مقياس اندازه سنجي: 7 دامنه تغيير نمره ها: 73= 10-83 دامنه تغيير نمره هاي هر يك از 7 درجه: بنا براين، با اين آزمون مي توان آزمودني ها را به 7 طبقه تقسيم و براي هر طبقه درجاتي در نظر گرفت. حدود نمره هاي خام اين 7 درجه در جدول زير نشان داده شده است.محاسبه شاخص هاي آماري آزمونتجزيه و تحليل پرسش هاي آزمون - استفاده از روشي كه در اين جا برای تجزيه و تحليل پرسش های آزمون ارائه مي شود، تنها براي آزمون هاي قدرت كه همه يا بيشتر آزمودني ها فرصت كافي براي پاسخ دادن به همه پرسش ها را داشته اند مجاز است. نمره گذاري اين آزمون ها نيز بايد به صورت نمره(1) براي پاسخ درست و نمره(0) براي پاسخ غلط باشد. هدف از تجزيه و تحليل پرسش هاي آزمون آن است كه: (1) با حذف پرسش هاي نامناسب و يا تجديد نظر در آن ها، كيفيت آزمون بهتر و بر كارايي آن در سنجش خصيصه مورد نظر افزوده شود.(2)براي تعيين سطح توانايي آزمودني ها يك معيار تشخيصي به دست آيد.مراحل تجزيه و تحليل پرسش هاي آزمون 1- انتخاب گروه نمونه به روش تصادفي و اجراي آزمون 2- تصحيح و نمره گذاري پاسخ نامه ها 3- مرتب كردن پاسخ نامه ها از پايين ترين به بالاترين نمره 4- انتخاب 27 درصد پاسخ نامه ها از نمره هاي بالا و 27 درصد ديگر از نمره هاي پايين 5- استخراج اطلاعات مطابق جدول كار پيشنهاد شده روش تجزيه و تحليل پرسش هاي آزمون جدول تجزيه و تحليل پرسش هاي آزمونشاخص هاي تجزيه و تحليل پرسش هاي آزمون 1-  =Puضريب دشواري در گروه قوي 2- Pl  =ضريب دشواري در گروه ضعيف 3-P =ضريب دشواري در کل گروه 4- Pq = واریانس 5- D= ضريب تميز 6- X2= آزمون معني داري ضريب تميز 7- محدوديت اندازه D( با توجه به سطح دشواري سوال) 8- معرفي جدول فلانگال 9- معرفي جدول معني دار بودن ضرايب تشخيص Dروش تجزيه و تحليل پرسش هاي آزمونبررسي سطح دشواري سوال هاي آزمون 1- سطح دشواري سوال در يك آزمون خوب چقدر بايد باشد؟ به هدف هاي كاربردي و نوع سوال بستگي دارد: اگر قرار است آزموني ساخته شود كه مثلا 20 درصد افراد بالاي يك جامعه را از سايرين متمايز كند، در اين صورت لازم است سطح دشواري سوال هاي آزمون حدود 0/20 باشد. اما اگر قرار است آزموني ساخته شود كه سطح توانايي هاي آزمودني ها را بر حسب احتمال توزيع نمره ها در يك توزيع بهنجار نشان دهد، در اين صورت سطح دشواري آزمون نيز بايد از منحني توزيع بهنجار پيروي كند.شاخص هاي تجزيه و تحليل پرسش هاي آزمون 2- سطح دشواري مطلوب براي انواع سوال هاي عيني براي تعيين سطح دشواري مطلوب براي يك سوال لازم است كه سازنده آزمون احتمال يافتن پاسخ درست سوال را توسط افراد بي اطلاع يا يافتن پاسخ درست بر اساس تصادف صِرف را در نظر بگيرد.  احتمال يافتن پاسخ درست تصادفي يك سوال صحيح- غلط 50 درصد و پاسخ درست تصادفي يك پرسش 3، 4، و 5 گزينه اي به ترتيب 0/33، 25 و 20 درصد است. بنا بر اين سطح دشواري 0/50 براي پرسش هاي صحيح- غلط، و سطح دشواري 0/33، 0/25 و 0/20 به ترتيب براي پرسش هاي 3، 4 و 5 گزينه اي مناسب نيست. زيرا درصد احتمال پاسخ تصادفي درست براي آزمودني هاي بي اطلاع همين اندازه است. از سوي ديگر، پرسش هايي كه سطح دشواري آن ها صفر و يا 1 است، نيز پرسش هاي مناسبي نيستند؛ زيرا افراد گروه بالا را از  پايين تفكيك نمي كنند. شاخص هاي تجزيه و تحليل پرسش هاي آزمون 3- تعيين سطح دشواري مطلوب براي انواع سوال هاي عيني حد مطلوب سطح دشواري براي هر سوال معمولا برابر ميانگين 100 درصد پاسخ هاي درست(p=1) و احتمال پاسخ تصادفي سوال است(كاپلان و ساكوزو، 1989). بنا بر اين، حد مطلوب دشواري براي يك سوال 4 گزينه اي برابر با 0/625 است.}0/625=2/(0/25+1){.سطح دشواري مطلوب براي پرسش هاي صحيح- غلط 0/75}0/75=2/(0/5+1).{ و براي پرسش هاي كوتاه پاسخ برابر با 0/50 است. }0/50=2/(0+1).{ شاخص هاي تجزيه و تحليل پرسش هاي آزمون 4- محاسبه حدود اطمينان براي سطح مطلوب دشواري سوال براي اين كه سطح دشواري سوال هاي آزمون در حد مطلوب يا سطح بهينه باشند، لازم است بين سطح دشواري محاسبه شده براي سوال هاي آزمون و سطح بهينه، از نظر آماري تفاوت معني دار وجود نداشته باشد. براي اين كه معلوم شود آيا تفاوت سطح دشواري سوال هاي آزمون با سطح بهينه معني دار است يا نه، كافي است براي سطح بهينه سوالات با در نظر گرفتن تعداد گزينه ها حدود اطميناني در سطح 95 يا 99 درصد در نظر گرفته شود. چنانچه سطح دشواري مشاهده شده براي هر سوال در محدوده سطح بهينه برآورد شده قرار گيرد، مي توان گفت كه آن سوال داراي سطح دشواري در حد مطلوب يا در سطح بهينه است.شاخص هاي تجزيه و تحليل پرسش هاي آزمون حدود اطمينان سطح دشواري بهينه براي سوال هاي آزمون از فرمول زير محاسبه مي شود: P=Popt +_ tSp  P =حدود اطمينان سطح دشواري بهينه Popt =سطح دشواري بهينه محاسبه شده با توجه به نوع سوال Sp =خطاي معيار نسبت براي سطح دشواري بهينه t =اندازه(t) در درجه آزادي (N-1) در جدول (t مبين) است( Nمجموع افراد گروه هاي بالا و پايين). خطاي معيار نسبت از فرمول زير محاسبه مي شود:شاخص هاي تجزيه و تحليل پرسش هاي آزمون حدود اطمينان براي يك سوال چهار گزينه اي در نمونه اي به حجم 26 نفر( دو گروه 13 نفري) به شرح زير است. P=0/625 ± 0/095 * 2/878 = 0/625 ± 0/2648  0/36 < p < 0/89 بدين ترتيب حدود اطمينان سطح دشواري بهينه در سطح اطمينان 99 درصد بين 0/36 و 0/89 است.هر يك از پرسش هاي ازمون كه بين اين دو حد قرار بگيرد داراي سطح دشواري مطلوب است. پرسش هايي كه سطح دشواري ان ها پايين تر از سطح دشواري بهينه باشند، به عنوان پرسش هاي دشوار و آن هايي كه بالاتر از سطح دشواري بهينه باشند به عنوان پرسش هاي اسان محسوب مي شوند.شاخص هاي تجزيه و تحليل پرسش هاي آزمون تمرين: حدود اطمينان براي سطح دشواري بهينه انواع سوالات 3 و 2 گزينه اي و سوالات كوتاه جواب را در دو سطح معني داري 95 و 99 درصد محاسبه كنيد.شاخص هاي تجزيه و تحليل پرسش هاي آزمون در بسياري از آزمون هاي رواني، سازنده آزمون علاقه مند است آزموني بسازد كه تفاوت هاي فردي ازمودني ها را اندازه گيري كند. آزمون مناسب آزموني است كه به دقت اين تفاوت ها را نشان دهد. در چنين مواردي لازم نيست كه همه سوال هاي آزمون داراي سطح دشواري در فاصله بين دو حد سطح دشواري بهينه باشند، بلكه آزمون بايد سوال هاي اسان و دشوار را نيز شامل شود.تجزيه و تحليل گزينه هاي انحرافي در آزمون هاي كه به صورت پرسش چند گزينه اي تهيه مي شوند، علاوه بر آن كه ضريب تشخيص و سطح دشواري پرسش ها بايد با هدف هاي ازمون هماهنگ باشند، گزينه هاي انحرافي هر پرسش نيز بايد از كارايي لازم برخوردار باشند. گزينه هاي انحرافي هر پرسش چند گزينه اي در صورتي داراي كارايي است كه دو ويژگي زير را دارا باشند: 1- توجه افراد بي اطلاع از موضوع مورد اندازه گيري را به اندازه گزينه درست به خود جلب كنند. 2- براي آزمودني هايي كه در مورد موضوع مورد اندازه گيري توانايي و مهارت كافي دارند، گول زننده نباشند. اگر گزينه هاي انحرافي مناسبي طراحي شوند، انتظار مي رود كه اولا درصد انتخاب گزينه هاي انحرافي توسط افراد گروه پايين بيشتر از درصد انتخاب گروه بالا باشد. ثانيا بين درصد انتخاب گزينه هاي غلط توسط افراد دو گروه تفاوت معني دار وجود داشته باشد.تجزيه و تحليل گزينه هاي انحرافي مثال:تجزيه و تحليل گزينه هاي انحرافي سوال شماره 1: به اين سوال 86 درصد افراد گروه پاسخ داده اند، بنا براين سوال آساني است. گزينه انحرافي الف براي هيچ يك از افراد گروه بالا جادبه اي نداشته اما توجه 8 درصد افراد گروه پايين را به خود جلب كرده است(5=2:25). چون بين درصد پاسخ هاي دوگروه بالا و پايين به اين گزينه از نظر آماري تفاوت معني دار وجود دارد (                           )، بنابراين گزينه الف از كارايي لازم برخوردار است. تفاوت نسبت انتخاب گزينه هاي ج و د توسط افراد دو گروه به ترتيب در سطح 0/05 و 0/01 معني دار است. بنابراين مي توان گفت كه اين سوال با وجود اسان بودن داراي گزينه هاي انحرافي مناسب و موثر است.تجزيه و تحليل گزينه هاي انحرافي سوال شماره 2: سطح دشواري اين سوال 0/28 و لذا سوال دشواري است. همه گزينه هاي انحرافي نتيجه افراد را به خود جلب كرده و لذا گزينه هاي موثري بوده اند. در همه موارد، فراواني و درصد انتخاب گزينه هاي انحرافي توسط افراد گروه ضعيف بيش از افراد گروه قوي بوده و تفاوت بين نسبت انتخاب ها معني دار است. بنابراين گزينه هاي انحرافي از كارايي لازم برخوردار بوده اند.تجزيه و تحليل گزينه هاي انحرافي سوال شماره 3: اين سوال با سطح دشواري 0/20، سوال دشواري است. اما چون درصد پاسخ هاي درست افراد گروه ضعيف بيش از درصد پاسخ هاي درست گروه قوي است، لذا سوال ضريب تشخيصي مناسبي ندارد. علت اين امر احتمالا از آن جا ناشي مي شود كه گزينه انحرافي ب براي گروه قوي جاذبه زيادي داشته است. به طوري كه 60 درصد افراد اين گروه(0/60=15:25) آن را به عنوان گزينه درست انتخاب كرده اند. بنابراين گزينه ب گول زننده است. با وجودي كه گزينه هاي الف و د از كارايي كافي برخوردارند، اما چون سوال فاقد قوه تميز است بايد در آن تجديد نظر كلي به عمل آيد يا به كلي از آزمون حذف شود. تجزيه و تحليل گزينه هاي انحرافي سوال شماره 4: سطح دشواري اين سوال 0/70 است كه از اين نظر با وجود آسان بودن، سوال مناسبي است و گزينه انحرافي(د) از كارايي لازم برخوردار است. اما هيچ يك از گزينه هاي الف و ج كارايي لازم را نداشته است.، زيرا توجه هيچ يك از آزمودني ها، حتي آزمودني هاي گروه ضعيف را نيز به خود جلب نكرده اند. چنان چه لازم باشد كه اين سوال در آزمون گنجانده شود، بايد در گزينه هاي الف و ج تجديد نظر شود تا به قدر كافي توجه افراد گروه ضعيف را به خود جلب كنند.تجزيه و تحليل گزينه ها سوال شماره 5: سوال شماره 5 با داشتن سطح دشواري 0/54 سوال مناسبي است. به ويژه ان كه همه گزينه هاي  انحرافي از كارايي لازم برخوردار بوده اند. زيرا اين گزينه بيشتر توجه افراد گروه پايين را به خود جلب كرده اند. اين سوال را به همين صورت مي توان در آزمون فرم اصلي به كار بست. ساير روش هاي تجزيه و تحليل سوال هاي آزمون 1- همبستگي دو رشته اي نقطه اي 2- ضريب همبستگي دو رشته اي 3- ضريب فاي(ф) 4- ضريب همبستگي تتراكوريك 5- ضريب همبستگي فاي به عنوان شاخص همبستگي دو سوال 6- منحني خصيصه سوال 7- نظريه سوال- پاسخساير روش هاي تجزيه و تحليل سوال هاي آزمون 1- همبستگي دو رشته اي نقطه اي يكي ديگر از روش هاي بررسي ضريب تشخيص سوال ها، محاسبه همبستگي بين عملكرد آزمودني ها در هر سوال با عملكرد آنان در كل آزمون است. در اين همبستگي يكي از متغيرها(عملكرد آزمودني ها در هر سوال) دو ارزشي و متغير ديگر(عملكرد آزمودني ها در كل آزمون) متغير پيوسته است. همبستگي دو رشته اي نقطه اي بين سوال و نمره كل آزمون از فرمول زير محاسبه مي شود:ساير روش هاي تجزيه و تحليل سوال هاي آزمون 1- همبستگي دو رشته اي نقطه اي شرح علائم: = Rpbis ضريب همبستگي دو رشته اي نقطه اي = mp ميانگين نمره هاي خام ازمودني هايي كه به سوال مورد نظر پاسخ درست داده اند = mtميانگين نمره هاي خام همه آزمودني ها = pi نسبت كساني كه به سوال مورد نظر پاسخ درست داده اند به كل ازمودني هاساير روش هاي تجزيه و تحليل سوال هاي آزمون 1- همبستگي دو رشته اي نقطه اي مثال: فرض كنيد ميانگين و انحراف معيار نمره هاي خام يك آزمون 70 سوالي كه در مورد يك گروه نمونه 50 نفري اجرا شده است، به ترتيب 54/3 و 9/7 و ميانگين نمره هاي 29 نفر كه به سوال  مورد نظر پاسخ درست داده اند، 57/6 باشد. در اين صورت خواهيم داشت: پس بين موفقيت در اين سوال و نمره كل آزمون 0/40 همبستگي وجود دارد.ساير روش هاي تجزيه و تحليل سوال هاي آزمون آزمون معني دار بودن همبستگي دو رشته اي نقطه اي براي آزمون معني دار بودن اين همبستگي، دو روش وجود دارد: 1- اگر تعداد آزمودني ها زياد باشد،(30 نفر و يا بيشتر) ابتدا خطاي معيار ضريب همبستگي دو رشته اي نقطه اي را از فرمول   محاسبه مي كنيم.  براي آزمون معني دار بودن ضريب محاسبه شده در يكي از دو سطح 0/05 و 0/01 ، خطاي معيار ضريب همبستگي دو رشته اي نقطه اي را در اندازه هاي 0/05     Z(1/96) و يا 0/01 Z )2/58) ضرب مي كنيم تا تفاوت ضريب همبستگي محاسبه شده از صفر در سطح 0.05 يا 0.01 به دست ايد. ضريب همبستگي محاسبه شده در صورتي معتبر خواهد بود كه در سطح 0.01 و يا 0/05 معني دار باشد. به عبارت ديگر اگر داشته باشيم: 1/96 * Srbis  > rbis > 2/58 * Srbis، در اين صورت ضريب محاسبه شده در سطح 0/01 معني دار است. هر گاه داشته باشيم: 2/58 * Srbis rbis > ، در اين صورت ضريب محاسبه شده در سطح 0.01 معني دار است. اما اگر ضريب محاسبه شده از 1/96 * Srbis كوچك تر و يا با آن برابر باشد، ضريب همبستگي محاسبه شده در هيچ سطحي معني دار نيست.ساير روش هاي تجزيه و تحليل سوال هاي آزمون آزمون معني دار بودن همبستگي دو رشته اي نقطه اي 2- اگر تعدا آزمودني ها كم باشد(N<30) براي ازمون معني دار بودن ضريب همبستگي دو رشته اي نقطه اي محاسبه شده براي هر سوال، تفاوت 1/96 * Srbis را از راه آزمون t بررسي مي كنيم. تذكر: در آزمون هايي كه تعداد سوال هاي آن كم است، استفاده از همبستگي دو رشته اي نقطه اي براي تعيين ضريب تشخيص سوال ها با اشكال مواجه خواهد بود، زيرا موفقيت در سوالي كه قرار است ضريب همبستگي ان با نمره كل آزمون محاسبه شود، پاسخ هاي درست آزمودني ها به سوالي كه قرار است همبستگي آن با نمره كل آزمون محاسبه شود، موجب افزايش نمره كل آزمون مي شود. در نتيجه ضريب همبستگي محاسبه شده افزايش مي يابد.بريا اجتناب از اين اشكال لازم است كه نمره هر سوال از نمره كل ازمون حذف شود.ساير روش هاي تجزيه و تحليل سوال هاي آزمون تمرين: در جدول زير پاسخ 10 آزمودني به 6 سوال تستي داده شده است. ضريب همبستگي دو رشته اي نقطه اي  سوال 1 با نمرات كل آزمون را محاسبه كنيد و معني دار بودن آن را آزمون كنيد.ساير روش هاي تجزيه و تحليل سوال هاي آزمون محاسبه ضريب همبستگي بين نمره هاي سوال 1 و نمره هاي كل آزمون ميانگين نمره هاي همه آزمودني ها در كل آزمون با حذف نمره سوال 1 به ترتيب برابر با 5  4  4  4  4  5  0  2  2  و  4  است كه ميانگين آن ها برابر با 3/4 (Mt)و انحراف معيار آن ها (St)برابر 1/58 است. نسبت پاسخ هاي درست آزمودني ها به سوال شماره 1 (Pi)برابر با 0/8 است. نمره اي خام آزمودني ها كه به سوال اول پاسخ درست داده اند با حذف نمره سوال شماره 1 به ترتيب برابر با 5 4 4 4 5 2 2 4 و ميانگين آن ها (Mp)برابر 3/75 و انحراف معيار آن ها برابر 1/16 است. بنابراين داريم:ساير روش هاي تجزيه و تحليل سوال هاي آزمون محاسبه ضريب همبستگي بين نمره هاي سوال 1 و نمره هاي كل آزمون براي آزمون معني دار بودن ضريب همبستگي محاسبه شده تفاوت Mp-Mt را از فرمول زير بررسي مي كنيم:  چون t محاسبه شده از t مبين جدول در سطح 0.5 (1/746) كمتر است، لذا فرض همبستگي صفر بين سوال شماره 1 و نمره كل ازمون را نمي توان رد كرد. بنابر اين ضريب همبستگي محاسبه شده معني دار نيست و اين سوال با ساير سوالات ازمون همساني دروني ندارد.ساير روش هاي تجزيه و تحليل سوال هاي آزمون ضريب همبستگي دو رشته اي نقطه اي به طور كلي ضريب همبستگي دو رشته اي نقطه اي، همبستگي بين يك متغير دو ارزشي و يك متغير پيوسته را نشان مي دهد. بر خلاف ضريب همبستگي پيرسون كه شرط استفاده از اين همبستگي آن است كه توزيع نمره ها بايد در هر دو متغير نرمال باشد، در كاربرد ضريب همبستگي دو رشته اي نقطه اي شرط نرمال بودن توزيع متغير دو ارزشي لازم نيست.  به عنوان مثال، اگر بخواهيم بين جنسيت و قد همبستگي محاسبه كنيم، مي توانيم بين اين دو متغير همبستگي دو رشته اي نقطه اي را به كار ببنديم. در اين مثال، قد يك متغير پيوسته است، اما جنسيت(زن يا مرد بودن) يك متغير دو ارزشي است كه توزيع اين صفت در جامعه نرمال نيست.ساير روش هاي تجزيه و تحليل سوال هاي آزمون ضريب همبستگي دو رشته اي نقطه اي نكته ديگري كه در استفاده از همبستگي دو رشته اي نقطه اي بايد به خاطر داشت اين است كه اگر St, Mt,Mp از روي نمره هاي ملاك خارجي محاسبه شده باشد، در اين صورت همبستگي محاسبه شده شاخص روايي ملاكي سوال است. هر گاه اندازه هاي مذكور از روي نمره هاي آزمون محاسبه شود، همبستگي به دست آمده شاخص همساني دروني سوال با ساير سوال ها و كل آزمون است. بديهي است چنانچه آزمون داراي روايي باشد، در اين صورت همبستگي محاسبه شده شاخصي از روايي آزمون نيز خواهد بود.روايي سوال هاي آزمون مقدمه: به منظور سنجش كارايي هر سوال به عنوان شاخصي از تفاوت هاي فردي براي اندازه گيري توانايي و يا ويژگي هاي شخصيتي، دسترسي به يك ملاك خارجي معتبر به عنوان شاخصي از توانايي يا ويژگي مورد اندازه گيري ضروري است. اگر قرار است آزموني براي پيش بيني موفقيت در يك شغل و يا پيشرفت تحصيلي ساخته شود، در اين صورت به عنوان ملاك خارجي مناسب مي توان از شاخص موفقيت شغلي( مثلا درجه بندي توسط سرپرستان)، يا پيشرفت تحصيلي(نمره هاي امتحان هاي رسمي) استفاده كرد.روايي سوال هاي آزمون ضريب همبستگي دو رشته اي نقطه اي بدينسان روايي يك سوال براي پيش بيني ميزان يك ملاك خارجي را مي توان با محاسبه همبستگي نمره آن سوال(نمره هاي 1 براي پاسخ هاي درست و نمره هاي صفر براي پاسخ هاي غلط) با نمره ملاك برآورد كرد. متداول ترين ضريب همبستگي براي اين منظور همبستگي دو رشته اي نقطه اي است. ضريب همبستگي دو رشته اي نقطه اي به عنوان شاخصي از روايي يك سوال براي پيش بيني احتمال موفقيت آزمودني در يك سوال خارجي را به صورت زير نيز مي توان مطرح كرد.روايي سوال هاي آزمون ضريب همبستگي دو رشته اي نقطه اي N= تعداد كل آزمودني ها N1= تعداد آزمودني هايي كه به سوال مورد نظر پاسخ درست داده اند. Ϋ= ميانگين نمره هاي خام همه آزمودني ها در متغير ملاك Ϋ1= ميانگين نمره هاي خام متغير ملاك در مورد آزمودني هايي كه به سوال مورد نظر پاسخ درست داده اند. S= انحراف معيار نمره هاي خام همه آزمودني ها در متغير ملاك نكته: فرمول فوق را براي تعيين همبستگي سوال با كل آزمون نيز مي توان به كار برد. در اين صورت متغير ملاك نمره هاي كل آزمون براي آزمودني ها خواهد بود. مثال عددي: ص. 162 شريفيروايي سوال هاي آزمون آزمون  معني داري ضريب همبستگي دو رشته اي نقطه اي براي آزمون معني دار بودن اي ضريب مي توان از روشي كه پيش از اين در مورد همبستگي دو رشته اي نقطه اي توضيح داده شد، استفاده كرد. بديهي است هر قدر اين همبستگي به 1 نزديك تر باشد، قدرت پيش بيني عملكرد آزمودني ها در متغير ملاك به وسيله سوال مورد نظر بيشتر خواهد بود. هم چنين سوال هايي كه داراي روايي پيش بيني يالاتري هستند، هر چند همبستگي آن ها با ساير سوال هاي آزمون كمتر باشد، براي گنجاندن در آزمون فرم نهايي مناسب تر خواهند بود.روايي سوال هاي آزمون ضريب همبستگي دو رشته اي ضريب همبستگي دو رشته اي از رابطه زير به دست مي آيد: Mp= ميانگين نمره هاي آزمون يا نمره هاي ملاك كساني كه به سوال پاسخ درست داده اند. Mtو St = به ترتيب ميانگين و انحراف معيار نمره هاي آزمون يا نمره هاي ملاك همه آزمودني ها P= نسبت كساني كه به سوال پاسخ درست داده اند Y= عرض نقطه تفكيك معادل P در منحني توزيع نرمال به مساحت 1 واحد است مثال عددي: ص. 163 شريفيروايي سوال هاي آزمون آزمون معني داربودن ضريب همبستگي دو رشته اي براي آزمون معني دار بودن ضريب همبستگي دو رشته اي كافي است خطاي معيار همبستگي محاسبه شده را از رابطه زير به دست آوريم: حال اگر داشته باشيم ضريب همبستگي محاسبه شده در سطح 0/05 معني داراست. اگر داشته باشيم  همبستگي در سطح 0.01 معني دار است چنانچه داشته باشيم در اين صورت همبستگي محاسبه شده در هيچ سطحي معني دار نيست. تمرين خطاي معيار همبستگي و معني دار بودن مثال ص. 163 را محاسبه و بررسي كنيد.روايي سوال هاي آزمون محاسبه ضريب همبستگي دو رشته اي از راه ديگر روش ديگر محاسبه همبستگي دو رشته اي، مقايسه نسبت پاسخ هاي درست افراد 27 درصد بالا و 27 درصد پايين آزمودني ها است. براي اين كار مي توان نسبت پاسخ هاي درست افراد 27 درصد بالا را در رديف افقي و بالاي جدول(شريفي، ص. 164) و نسبت پاسخ هاي درست 27 درصد پايين را از بين اعداد ستون سمت چپ جدول پيدا كرد و سپس از تقاطع آن ها ضريب همبستگي دو رشته اي را در داخل جدول به دست آورد. ضريب همبستگي دو رشته اي نيز مانند ضريب همبستگي دو رشته اي نقطه اي براي برآورد ضريب همبستگي سوال با نمره كل آزمون يا يك نمره ملاك خارجي به كار مي رود. در حالت اول، ضريب محاسبه شده شاخصي از همساني سوال با كل آزمون و در حالت دوم شاخصي از روايي ملاكي سوال خواهد بود.روايي سوال هاي آزمونروايي سوال هاي آزمون ضريب فاي(ф):  شاخص همبستگي سوال با نمره هاي كل آزمون ضريب فاي يكي از شاخص هايي است كه براي بررسي همبستگي هر سوال با كل آزمون و به عبارت ديگر براي بررسي ثبات و همساني دروني بين يك سوال با سوال هاي ديگر آزمون به كار مي رود.گيلفورد(1954) براي محاسبه ضريب فاي فرمول ساده زير را ارائه كرده است كه بر اساس ازمون مجذور خي(   ) استوار است. Pu و Pl به ترتيب نسبت افراد گروه بالا و پايين است كه به سوال پاسخ درست داده اند و P نسبت پاسخ هاي درست آزمودني ها به سوال مورد نظر است. چون اين فرمول  اساسا بر پايه آزمون مجذور خي استوار است، لذا بين آن ها رابطه زير بر قرار است:روايي سوال هاي آزمون آزمون معني دار بودن ضريب فاي(ф) براي آزمون معني دار بودن ضريب همبستگي فاي محاسبه شده مي توان مقدار     را از فرمول اسلايد قبلي محاسبه كرد. هر گاه           محاسبه شده از مجذور خي مبين براي يك درجه ازادي يعني 3/841 بزرگتر باشد، ضريب فاي محاسبه شده در سطح 0/05 . چون از 6/635 بزرگ تر باشد، در سطح 0/01 معني دار خواهد بود. براي آزمون معني دار بودن ضريب فاي در سطح 0/05 و 0/01 به ترتيب مي توان از فرمول هاي زير نيز استفاده كرد(هومن، 1366).  در همه اين فرمول ها N برابر مجموع افراد گروه بالا و  گروه پايين است.روايي سوال هاي آزمون آزمون معني دار بودن ضريب فاي(ф) شرط استفاده از ضريب فاي اين است كه بايد تعداد افراد گروه بالا و گروه پايين برابر باشد. يكي از محاسن اين روش آن است كه گروه هاي بالا و پايين را مي توان به هر نسبت دلخواه مثلا N0/50 ، N0/33 ، N0/27 ، N0/25 و غيره انتخاب كرد. به مثال عددي ص. 166 شريفي(1377) مراجعه كنيد.روايي سوال هاي آزمون ضريب همبستگي تتراكوريك همبستگي تتراكوريك براي نشان دادن رابطه بين دو متغير دو ارزشي به كار مي رود. ضريب همبستگي تتراكوريك به ويژه هنگامي به كار مي رود كه بخواهيم همبستگي بين دو متغير را كه نمي توان با مقياس پيوسته آن ها را اندازه گيري كرد، محاسبه كنيم. همبستگي بين يك سوال با سوال ديگر را كه هر دو متغير دو ارزشي هستند از راه ضريب همبستگي تتراكوريك مي توان محاسبه كرد.روايي سوال هاي آزمون ضريب همبستگي تتراكوريك براي محاسبه ضريب همبستگي بين دو سوال آزمون مي توان يك جدول 2 در 2 مطابق جدول زير تهيه كرد:روايي سوال هاي آزمون ضريب همبستگي تتراكوريك محاسبه ضريب همبستگي تتراكوريك روش پيچيده اي دارد كه بحث در باره آن از هدف اين كتاب خارج است. اما خوشبختانه روش ساده اي وجود دارد كه با استفاده از آن مي توان مقدار تقريبي ضريب همبستگي تتراكوريك را كه براي بسياري از مقاصد روان سنجي از دقت نسبتا كافي برخوردار است، محاسبه كرد. بر اساس اين روش ضريب همبستگي تتراكوريك از رابطه زير به دست مي آيد: به مثال عددي ص. 167 شريفي(1377) مراجعه كنيد.روايي سوال هاي آزمون ضريب همبستگي تتراكوريك هر گاه مقدار BC كوچك تر از AD باشد، ضريب همبستگي بين دو سوال منفي و اگر BC بزرگ تر از AD  باشد، ضريب محاسبه شده مثبت خواهد بود. چون در مثال عددي مورد نظر، مقدار BC (1050) بزرگ تر از AD است، بنابراين همبستگي محاسبه شده مثبت است. يكي از محدوديت هاي فرمول بالا اين است كه اين فرمول در صورتي معتبر است كه حجم نمونه مورد مطالعه بزرگ و نسبت افراد در هر يك از دو قسمت بين 0/40 و 0/60 باشد. در مثال بالا اين نسبت ها 0/60 و 0/45 است. براي اين كه ضريب همبستگي تتراكوريك از پايايي كافي برخوردار باشد، تعداد افراد نمونه اي كه ضريب همبستگي سوال ها در مورد آنان محاسبه شود نبايد از 150 تا 200 نفر كمتر باشد(گارت، 1954).روايي سوال هاي آزمون ضريب همبستگي تتراكوريك موزير و مك كيتي(نقل از هومن، 1366) براي تجزيه و تحليل سوال ها با استفاده از گروه هاي انتهايي( 27 درصد بالا و 27 درصد پايين) يك نموگراف محاسباتي ساخته اند كه با در دست داشتن نسبت پاسخ هاي درست افراد گروه بالا و پايين به راحتي مي توان ضريب همبستگي تتراكوريك را با دقت نسبي به دست آورد. شرط استفاده از نوموگراف آن است كه حجم نمونه مورد مطالعه از 400 نفر كمتر نباشد( به شريفي، 1377، ص. 169 مراجعه شود).روايي سوال هاي آزمونروايي سوال هاي آزمون آزمون معني دار بودن ضريب همبستگي تتراكوريك خطاي معيار ضريب همبستگي تتراكوريك از رابطه زير به دست مي آيد( هومن، 1366).  طرز استفاده از خطاي معيار ضريب همبستگي تتراكوريك براي آزمون معني دار بودن ضريب محاسبه شده همانند روشي است كه در مورد ضريب همبستگي دو رشته اي و دو رشته اي نقطه اي شرح داده شد.روايي سوال هاي آزمون 5- ضريب همبستگي فاي به عنوان شاخص همبستگي دو سوال هنگامي كه در متغيرهاي دو ارزشي فرض توزيع نرمال صادق نيست، مانند پاسخ به سوالي كه فقط به دو طبقه درست و غلط طبقه بندي مي شود و نمره بينابيني وجود ندارد، مي توان از همبستگي فاي استفاده كرد. ضريب فاي احتمالا در تجزيه و تحليل سوال ها يكي از شاخص هاي مفيد براي تعيين ضريب همبستگي يك سوال با سوال ديگر است.روايي سوال هاي آزمون ضريب همبستگي فاي به عنوان شاخص همبستگي دو سوال ضريب فاي از رابطه زير به دست مي آيد: عناصر اين فرمول به شرح زير است:  Ø= ضريب همبستگي فاي Pc= نسبت افرادي كه به هر دو سوال پاسخ درست داده اند. Px= نسبت افرادي كه به سوال 1 درست پاسخ داده اند Py= نسبت افرادي كه به سوال 2 درست پاسخ داده اند آزمون فرض صفر در مورد ضريب همبستگي فاي به همان روشي كه در مورد ضريب فاي به عنوان همبستگي سوال با كل آزمون گفته شد انجام مي گيردروايي سوال هاي آزمون مقايسه ضريب همبستگي فاي با ضريب همبستگي تتراكوريك اين دو شاخص براي تعيين همبستگي بين دو متغير دو ارزشي به كار مي روند، با وجود اين تفاوت هايي با هم دارند. اگر حجم نمونه و فرض نرمال بودن توزيع نمره ها در مقياس هاي دو ارزشي صادق باشد، بهتر است از همبستگي تتراكوريك استفاده شود. اما اگر فرض نرمال بودن در مورد توزيع متغيرهاي دو ارزشي صدق نكند، به ويژه در مورد بررسي همبستگي بين دو سوال، ضريب فاي مناسب تر از همبستگي تتراكوريك است(گارت، 1954).منحني خصيصه سوال منحني خصيصه سوال روش مناسبي براي شناخت ويژگي هاي سوال است. براي ترسيم منحني خصيصه سوال مي توان نمره هاي خام آزمودني ها را با فواصل مساوي روي محور x ها و درصد فراواني پاسخ هاي درست سوال را روي محور y ها نشان داد. از تقاطع خط هاي عمد رسم شده از محل طبقات نمره ها بر محور x ها با خطوط عمد استخراج شده از نقاط درصد پاسخ هاي درست افرادي كه نمره هاي آن ها در هر طبقه از نمره ها قرار دارد، نقطه هايي به دست مي آيد كه از وصل كردن اين نقطه ها به يكديگر منحني خصيصه سوال ترسيم مي شود.منحني خصيصه سوال در نمودار شماره 1 منحني خصيصه يك سوال مناسب نشان داده شده است. در اين نمودار ملاحظه مي شود كه درصد پاسخ هاي درست كساني كه نمره هاي بالاتري از آن آزمون گرفته اند، اغلب بالاتر از درصد پاسخ هاي درست افرادي است كه نمره هاي كمتري گرفته اند.منحني خصيصه سوالمنحني خصيصه سوال در اين نمودار افزايش تدريجي شيب منحني نشانگر آن است كه با افزايش نمره هاي خام آزمون، درصد كساني كه به سوال پاسخ درست داده اند افزايش مي يابد. اين بدان معني ست كه سوال در همه سطوح عملكرد آزمودني ها از ضريب تشخيص كافي برخوردار است.منحني خصيصه سوال نمودار شماره 2 نشان مي دهد كه اين سوال در سطح عملكرد پايين، آزمودني هاي قوي و ضعيف را از هم تفكيك مي كند. اما تقريبا همه كساني كه نمره بالاتر از متوسط گرفته اند، به آن پاسخ درست داده اند. بنابراين چنين سوالي در سطح عملكرد بالاتر از متوسط فاقد ضريب تشخيص است.منحني خصيصه سوالمنحني خصيصه سوال در نمودار شماره 3 منحني خصيصه 5 سوال نشان داده شده است. سطح دشواري سوال A در همه سطوح عملكرد در آزمودني ها يكسان است. لذا اين سوال فاقد قدرت تفكيك است.  سوال شماره B داراي ضريب تشخيص منفي است. زيرا درصد پاسخ هاي درست با افزايش سطح عملكرد آزمودني ها كاهش مي يابد. سوال C تا سطح عملكرد متوسط داراي ضريب تشخيص است، اما از آن به بعد، افارد قوي و ضعيف را از هم تفكيك نمي كند. سوال D تا سطح نمره 11 ازمودني ها را در سطوح مختلف عملكرد از هم تفكيك مي كند اما از آن به بعد فاقد قوه تميز است. قوه تميز سوال E در سطح پايين عملكرد كم است ولي از نمره 6 به بالا ضريب تشخيص آن افزايش مي يابد.منحني خصيصه سوالمنحني خصيصه سوال نمودار شماره 4 نشان مي دهد كه آزمودني ها در همه سطوح توانايي، به نسبت يكسان به اين سوال پاسخ درست داده اند. بديهي است اين سوال فاقد تميز لازم براي تفكيك آزمودني ها در سطوح مختلف عملكرد است.منحني خصيصه سوالمنحني خصيصه سوال نمودار شماره 5 مشخصه سوالي را نشان مي دهد كه درصد پاسخ هاي درست با افزايش سطح عملكرد آزمودني ها تا نمره معيني افزايش مي يابد، اما از آن به بعد سير نزولي پيدا مي كند. اين امر نشانگر آن است كه اين سوال تا سطح معيني از عملكرد حساس است و از آن به بعد آزمودني هاي قوي تر نتوانسته اند متناسب با سطح توانايي خود به آن پاسخ دهند.منحني خصيصه سوالمنحني خصيصه سوال در نمودار شماره 6 نيز نمونه ديگري از خصايص سوال ها نشان داده شده است. در اين نمودار محل هر سوال بر حسب سطح دشواري(درصد پاسخ هاي درست) و ضريب تشخيص( همبستگي دو رشته اي نقطه اي سوال با نمره كل آزمون) تعيين شده است. سوال شماره 12 كه دور آن خط كشيده شده است، داراي ضريب تشخيص 0/60 و سطح دشواري 0/46 است. چنان كه پيش تر از اين گفته شد، سطح دشواري ومطلوب براي سوال هاي آزمون بين 0/30 تا 0/70 است. قسمتي از اين نمودار كه سياه شده است منطقه اي را نشان مي دهد كه سطح دشواري سوال ها بين دو حد مزبور و ضريب تشخيص ان ها بالاتر از 0/30 است. بنابراين سوال هايي كه در اين منطقه قرار دارند سوال هاي مناسبي خواهند بود.منحني خصيصه سوالنظريه سوال- پاسخ(item- response theory) رويكرد هاي جديد به تجزيه و تحليل سوال هاي آزمون، الگوهاي جديدي از روان آزمايي را مطرح كرده است. يكي از رويكردهاي جديد، نظريه سوال- پاسخ است. در اين الگو تجزيه و تحليل سوال ها، براي هر سوال يك منحني سوال- پاسخ ساخته مي شود. همه نمودارهايي كه در اين فصل مورد بررسي قرار گرفتند نمونه هايي از منحني هاي سوال- پاسخ هستند. چنان كه ملاحظه شد، منحني از به هم پيوستن نقطه هايي به دست مي آيد كه مشخص كننده درصد پاسخ هاي درست آزمودني ها با سطح عملكرد آن ها است. سطح عملكرد ممكن است بر اساس ملاك دروني(نمره كل آزمون) و يا ملاك بيروني(نمره يك متغير ملاك خارجي) تعريف شود. پس از رسم منحني، مي توان سطح دشواري و شاخص تفكيك يا ضريب تشخيص سوال را تعيين كرد.  نظريه سوال- پاسخ(item- response theory) سطح دشواري كه با حرف b نشان داده مي شود، نمره اي از ملاك است كه 50 درصد آزمودني هايي كه اين نمره  را گرفته اند پاسخ درست به سوال داده باشند. شاخص تفكيك سوال كه با حرف a نشان داده مي شود، همان شيب منحني سوال- پاسخ است. هر گاه توزيع صفت مورد اندازه گيري(خصيصه مكنون) نرمال و ميانگين و انحراف معيار آن به ترتيب برابر صفر و يك باشد، شاخص تفكيك يا سطح تشخيص سوال(ag) از رابطه زير به دست مي آيد. در اين فرمول،            ضريب همبستگي دو رشته اي سوال است( با نمره كل آزمون يا با نمره يك ملاك خارجي)نظريه سوال- پاسخ(item- response theory) دامنه تغيير شيب منحني سوال- پاسخ بين 0/50 تا 2/5 تغيير مي كند. شيب 1 = ag در بيشتر موارد سطح تشخيص قابل قبول براي بيشتر سوال هاي آزمون است. شيب كمتر از 0/50 نشانگر آن است كه سوال فاقد قوه تميز كافي است. در نمودار شماره 7 منحني سوال- پاسخ در مورد دو سوال از يك آزمون داده شده است. سطح دشواري سوال A (% 71/67) پايين تر از سطح دشواري سوال B (% 76/43) است. در صورتي كه شيب سوال A تندتر از شيب سوال B است، و اين بدان معني است كه سطح تشخيص سوال A بالاتر از سوال B است.  نظريه سوال- پاسخ(item- response theory)نظريه سوال- پاسخ(item- response theory) اگر همبستگي دو رشته اي سوال A با نمره كل آزمون برابر 0/60 و همين همبستگي در مورد سوال B برابر 0/45 باشد، شاخص تشخيص اين دو سوال به شرح زير خواهد بود: ملاحظه مي شود كه هر دو سوال داراي سطح تشخيص قابل قبل هستند، با وجود اين سطح تشخيص سوال A بهتر از سوال B است.نظريه سوال- پاسخ(item- response theory) رابطه اين دو شاخص با شاخص هاي P و D ، كاملا آشكار است، اما بايد دانست بر اساس منحني سوال- پاسخ، يك تصوير جامع از رابطه تابعي بين درصد پاسخ هاي درست و نمره هاي ملاك به دست مي ايد كه از داده هاي حاصل از تجزيه و تحليل ساده سوال ها فراتر مي رود. در رويكردهاي جديد تجزيه و تحليل سوال هاي ازمون، منحني هاي سوال- پاسخ بر اساس درصد پاسخ هاي درست ازمودني ها در ارتباط با برآوردهايي از توانايي آنان كه از تابع رياضياتي خاص به دست مي ايد، ترسيم مي شود. اين رويكردها را كه بر حسب فرض هاي زيربنايي و روش هايي كه براي برآورد متغيرها به كار مي بندند، نظريه صفت مكنون، نظريه منحني ويژه سوال، يا الگوي راش ناميده مي شوند. در اين رويكردها، عملكرد آزمودني ها در سوال هاي ازمون(درصد پاسخ هاي درست) به موقعيت برآورد شده آن ها روي يك پيوستار فرضي صفت مكنون ربط داده مي شود.اصلاح سطح دشواري سوال ها براي حذف عامل حدس و گمان در آزمون هاي چندگزينه اي همواره اين احتمال وجود دارد كه بعضي از آزمودني ها براي يافتن پاسخ هاي درست سوال ها آن ها را حدس بزنند. براي حذف عامل حدس و گمان لازم است سطح دشواري سوال ها اصلاح شود. اصلاح حدس و گمان بر دو فرضيه استوار است: 1) پاسخ غلط به سبب بي اطلاعي آزمودني از موضوع مورد اندازه گيري و گرايش وي به حدس زدن است 2) جاذبه همه گزينه هاي پرسش ها براي ازمودني هاي بي اطلاع از موضوع يكسان است. با قبول اين دو فرضيه مي توان سطح دشواري سوال ها را با استفاده از فرمول  زير براي حذف عامل حدس و گمان اطلاح كرد.اصلاح سطح دشواري سوال ها براي حذف عامل حدس و گمان بعضي از عناصر اين فرمول  كه تا كنون معرفي نشده اند، به شرح زير است: Pc = درصد كساني كه واقعا پاسخ درست سوال را مي دانند HR= تعداد كساني كه فرصت پاسخ دادن به سوال ها را نداشته و آن ها را بدون پاسخ گذاشته اند N = تعداد كل آزمودني ها به عنوان مثال، اگر از يك گروه 300 نفري، 150 نفر به يك سوال 5 گزينه اي پاسخ درست، 120 نفر پاسخ غلط داده و 30 نفر بقيه فرصت پاسخ دادن به آن را نداشته  و ان را بي جواب گذاشته باشند، سطح دشواري اصلاح شده سوال به شرح زير خواهد بود:ويژگي هاي يك آزمون الف: ويژگي هاي اصلي: پايايي روايي نرم يا هنجار حساسيت ب: ويژگي هاي فرعي: سهولت اجرا سهولت نمره گذاري صرفه جويي در وقت صرفه جويي در هزينهاعتبار و پايايي آزمون مباني نظري نمره آزمون از آن جا كه ابزارهاي اندازه گيري خصيصه هاي رواني كاملا دقيق نيستند، نمره هاي كه فرد از يك ازمون مي گيرد با توانايي يا خصيصه واقعي او تفاوت دارد. تفاوت بين نمره واقعي و نمره مشاهده شده از خطاي اندازه گيري ناشي مي شود. بنابراين مي توان گفت كه نمره مشاهده شده(X) تركيبي از نمره واقعي(T) و خطاي اندازه گيري اس(E) است. X=T+E به عبارت ديگر، تفاوت بين نمره به دست آمده و نمره واقعي برابر خطاي اندازه گيري است. يعني: E=X-T ابزارهاي اندازه گيري هاي رواني را مي توان به خط كش لاستيكي تشبيه كرد كه فواصل درجه هاي آن به طور تصادفي كم يا زياد مي شود. با استفاده از خط كش لاستيكي براي اندازه گيري طول، در كوشش هاي مختلف ممكن است اندازه هاي متفاوت به دست ايد كه توزيع آن ها نرمال است. در اندازه گيري هاي رواني نيز چنين است. هر نمره مشاهده شده تركيبي از نمره واقعي و نمره خطاست. اعتبار و پايايي آزمون بر اساس نظريه نمونه گيري تصادفي، توزيع خطاهاي اندازه گيري شكلي زنگوله اي دارد. بدينسان نمره واقعي آزمودني برابر ميانگين توزع و پراكندگي نمره ها در دو طرف ميانگين توزيع خطاهاي نمونه گيري را نشان مي دهد. اين گفته بدان معناست كه نمره حاصل از يك بار اجراي آزمون ممكن است با نمره واقعي آزمودني يكسان باشد يا نباشد. اما با تكرار آزمايش مي توان با به دست آوردن ميانگين نمره ها، نمره واقعي را برآورد كرد.اعتبار و پايايي آزمون در نمودار شماره 1( شريفي، 1377:186) سه توزيع مختلف نشان داده شده است. در توزيع اول پراكندگي نمره ها در دو طرف نمره واقعي(ميانگين توزيع) خيلي زياد است. در اين مورد با اجراي يك بار آزمون اين احتمال وجود دارد كه نمره به دست آمده با نمره واقعي تفاوت زيادي داشته باشد.  در سومين توزيع سمت راست، پراكندگي اندازه ها حول ميانگين خيلي كم است. در اين مورد بيشتر نمره هاي مشاهده شده به نمره واقعي خيلي نزديك خواهند بود، بنابراين با مشاهدات كمتري مي توان به نتايج دقيق دست يافت.اعتبار و پايايي آزمون پراكندگي اندازه مشاهده ها حول نمره واقعي، ميزان خطاي اندازه گيري را نشان مي دهد. بر اساس نظريه كلاسيك روان سنجي اين فرض وجود دارد كه نمره واقعي شخص در يك ازمون با تكرار آزمايش تغيير نمي كند، بلكه تغيير نمره فرد در اجراي آزمون در دفعه هاي مختلف از خطاي تصادفي اندازه گيري ناشي مي شود. به طور نظري، انحراف معيار توزيع خطاها در مورد هر شخص، بزرگي خطاي اندازه گيري را نشان مي دهد. گر چه اين نظريه فقط به توزيع نمره هاي خطا در مورد يك فرد مربوط است، اما معمولا چنين فرض مي شود كه توزيع خطاهاي تصادفي براي همه افراد يكسان است. بدينسان در نظريه كلاسيك روان آزمايية انحراف معيار خطا به عنوان پايه اي براي سنجش خطاي اندازه گيري به كار بسته مي شود كه معمولا به خطاي معيار اندازه گيري معروف است و آن را با علامت اختصاريSE نشا ن مي دهيم.اعتبار و پايايي آزمون فرض كنيم مي خواهيم ارتفاع يك ميز را كه اندازه واقعي آن 80 سانتي متر است با يك خط كش لاستيكي اندازه گيري كنيم.... ميانگين اندازه هاي به دست آمده برآوردي از ارتفاع ميز و انحراف معيار اندازه ها، خطاي معيار اندازه گيري خواهد بود. خطاي معيار اندازه گيري متوسط انحراف اندازه هاي به دست آمده از ميانگين را نشان مي دهد. در عمل، انحراف معيار نمره هاي مشاهده شده و ضريب اعتبار آزمون به عنوان ملاك هايي براي برآورد خطاي معيار اندازه گيري به كار مي روند.مفهوم اعتبار آزمون و الگوهاي آن اعتبار آزمون به دقت اندازه گيري و ثبات و پايايي آن مربوط است و دو معناي متفاوت دارد. يك معناي اعتبار، ثبات و پايايي نمره هاي آزمون در طول زمان است. بدين معنا كه اگر يك آزمون چند بار در باره يك آزمودني اجرا شود، نمره وي در همه موارد يكسان باشد. معناي دوم اعتبار به همساني دروني اشاره دارد و مفهوم آن اين است كه سوال هاي آزمون تا چه اندازه با يكديگر همبستگي متقابل دارند. اگر ضريب اعتبار دروني ازمون كم باشد، بدان معناست كه سوال هاي مختلف ازمون متغير واحدي را اندازه گيري نمي كنند. به عبارت ديگر آزمون ممكن است داراي نوعي اشكال باشد. بنابراين، آزموني كه بين سوال هاي آن تشابه و هماهنگي وجود داشته باشد از همساني دروني بالايي برخوردار است. اما بايد دانست گاهي بالا بودن همساني دروني آزمون به بهاي كاهش روايي تمام مي شود.مفهوم اعتبار آزمون و الگوهاي آن به طور كلي، آزمون در صورتي داراي اعتبار است كه عاري از خطاي اندازه گيري غير نظام دار باشد. خطاهاي اندازه گيري غير نظام دار كه بر نمره هاي آزمون تاثير مي گذارند، غير قابل پيش بيني بوده و اعتبار تست را كاهش مي دهند. از سويي ديگر، خطاهاي اندازه گيري نظام دار، گر چه نمره هاي ازمون را تحت تاثير قرار مي دهند، اما چون اثر آن ها نسبتا ثابت و قابل پيش بيني است، لذا اعتبار آزمون را كاهش نمي دهند(ايكن، 1985). خطاهاي غير نظام دار عمدتا به متغيرهايي مانند نمونه خاص سوال هاي آزمون، شرايط اجرا، و انگيزه ازمودني در پاسخ دادن به سوال هاي ازمون مربوط است.مفهوم اعتبار آزمون و الگوهاي آن اعتبار آزمون را مي توان به عنوان خارج قسمت واريانس نمره هاي واقعي بر واريانس نمره هاي مشاهده شده تعريف كرد كه به صورت رابطه زير نشان داده مي شود: در اين رابطه،         اعتبار نظري آزمون،          واريانس نمره هاي واقعي، و          واريانس نمره هاي مشاهده شده است. بايد دانست كه منظور از اين دو واريانس، واريانس جامعه است و نه واريانس گروه نمونه. نسبت ئاريانس نمره هاي واقعي به نمره هاي مشاهده شده را مي توان به صورت درصد در نظر گرفت. در اين صورت، اعتبار عبارت است از درصد تغييرات نمره مشاهده شده كه مي توان ان را به تغييرات نمره واقعي نسبت داد. اگر اين نسبت را از 100 كم كنيم، درصد تغييرات مربوط به خطاي تصادفي به دست مي ايد.مفهوم اعتبار آزمون و الگوهاي آن فرض كنيد ضريب اعتبار يك آزمون 0.60 باشد. اين ضريب بدان معناست كه 60 درصد تغييرات به تغييرات واقعي بين آزمودني ها مربوط است و 40 درصد بقيه به خطاهاي تصادفي بستگي دارد. بنابراين اگر آزموني كه ضريب اعتبار آن 0/60 است در مورد گروهي از داوطلبان استخدام براي يك شغل اجرا شود، 60 درصد تغييرات بين داوطلبان به تفاوت هاي واقعي آنان در صفتي كه ازمون اندازه مي گيرد مربوط است و 40 درصد ديگر به عوامل تصادفي بستگي دارد.اعتبار آزمون: منابع خطا براي اين كه چرا نمره مشاهده شده با نمره واقعي تفاوت مي كند دلايل زيادي وجود دارد. از جمله: 1- شرايط نامناسب اجراي آزمون(مانند سر و صدا، خيلي گرم يا سرد بودن محل آزمون 2- وضعيت سلامتي آزمودني ها به طور كلي عوامل بيروني خطا به شرايط اجراي آزمون بستگي دارند. با استفاده از الگوي نمونه گيري زماني مي توان حدود اين خطا را برآورد كرد. 3- ناهمساني و عدم تجانس بين سوال هاي ازمون( اندازه گيري متغر هاي ديگر) 4- ناكافي بودن تعداد سوال هاي آزمون از عوامل فوق به عنوان منابع دروني خطا ياد مي شود. با استفاده از الگوي نمونه گيري حيطه، مي توان خطاي ناشي از عوامل دروني را برآورد كرد.  اعتبار آزمون: روش هاي برآورد الف: نمونه گيري زماني در الگوي نمونه گيري زماني خطاهاي ناشي از شرايط اجراي آزمون ( عوامل بيروني خطا) بررسي مي شود. براي برآورد خطاهاي ناشي از عوامل بيروني دو روش اعتباريابي وجود دارد : 1) اعتبار بازآزمايي(آزمون- آزمون مجدد) براي برآورد خطاي وابسته به زمان،  2) اعتبار آزمون هاي همتاروش هاي برآورد اعتبار آزمون: اعتبار بازآزمايي(Test-retest) در اين روش، آزمون را در باره گروه نمونه واحدي از آزمودني ها در دو زمان متفاوت اجرا و ضريب عمبستگي بين نمره هاي حاصل از دو بار اجراي آزمون محاسبه مي شود. ضريب همبستگي كه از اين روش به دست مي آيد، حالت خاصي از ضريب اعتبار است كه در اصطلاح با آن ضريب ثبات يا پايايي آزمون گفته مي شود. در اين روش خطاي ناشي از تفاوت شرايط وابسته به دو موقعيت زماني برآورد مي شود. با اين روش خطاي ناشي از منابع خطاي دروني به حساب نمي آيد.روش هاي برآورد اعتبار آزمون: اعتبار بازآزمايي اين روش براي اندازه گيري صفات و خصايصي مناسب است كه معمولا در طول زمان تغيير نمي كنند(مانند هوش افراد از 16 سال به بالا). بنابراين اگر بين نمره هاي هوش آزمودني ها در دو آزمايش همبستگي ضعيفي به دست ايد نمي توان گفت كه آنان در فاصله بين دو آزمايش باهوش تر يا كم هوش تر شده اند. بلكه بايد چنين نتيجه گرفت كه پايين بودن ضريب همبستگي بين نمره هاي دو آزمايش از خطاي اندازه گيري ناشي شده است. بنابراين روش بازآزمايي در مورد آزمون هايي كه صفات پايدار شخصيت آدمي را اندازه گيري مي كنند، مناسب است. بدينسان استفاده از اين روش در مورد ازمون هاي پيشرفت تحصيلي ممكن است چندان مناسب نباشد.
+ نوشته شده در  جمعه 4 آذر1390ساعت   توسط محمد حسین ضرغامی  | 

محتوی اولیه و پیشنهادی به صورت مقدماتی برای مبانی آزمون های روانی2

نظريه سوال- پاسخ(item- response theory) رابطه اين دو شاخص با شاخص هاي P و D ، كاملا آشكار است، اما بايد دانست بر اساس منحني سوال- پاسخ، يك تصوير جامع از رابطه تابعي بين درصد پاسخ هاي درست و نمره هاي ملاك به دست مي ايد كه از داده هاي حاصل از تجزيه و تحليل ساده سوال ها فراتر مي رود. در رويكردهاي جديد تجزيه و تحليل سوال هاي ازمون، منحني هاي سوال- پاسخ بر اساس درصد پاسخ هاي درست ازمودني ها در ارتباط با برآوردهايي از توانايي آنان كه از تابع رياضياتي خاص به دست مي ايد، ترسيم مي شود. اين رويكردها را كه بر حسب فرض هاي زيربنايي و روش هايي كه براي برآورد متغيرها به كار مي بندند، نظريه صفت مكنون، نظريه منحني ويژه سوال، يا الگوي راش ناميده مي شوند. در اين رويكردها، عملكرد آزمودني ها در سوال هاي ازمون(درصد پاسخ هاي درست) به موقعيت برآورد شده آن ها روي يك پيوستار فرضي صفت مكنون ربط داده مي شود.اصلاح سطح دشواري سوال ها براي حذف عامل حدس و گمان در آزمون هاي چندگزينه اي همواره اين احتمال وجود دارد كه بعضي از آزمودني ها براي يافتن پاسخ هاي درست سوال ها آن ها را حدس بزنند. براي حذف عامل حدس و گمان لازم است سطح دشواري سوال ها اصلاح شود. اصلاح حدس و گمان بر دو فرضيه استوار است: 1) پاسخ غلط به سبب بي اطلاعي آزمودني از موضوع مورد اندازه گيري و گرايش وي به حدس زدن است 2) جاذبه همه گزينه هاي پرسش ها براي ازمودني هاي بي اطلاع از موضوع يكسان است. با قبول اين دو فرضيه مي توان سطح دشواري سوال ها را با استفاده از فرمول  زير براي حذف عامل حدس و گمان اطلاح كرد.اصلاح سطح دشواري سوال ها براي حذف عامل حدس و گمان بعضي از عناصر اين فرمول  كه تا كنون معرفي نشده اند، به شرح زير است: Pc = درصد كساني كه واقعا پاسخ درست سوال را مي دانند HR= تعداد كساني كه فرصت پاسخ دادن به سوال ها را نداشته و آن ها را بدون پاسخ گذاشته اند N = تعداد كل آزمودني ها به عنوان مثال، اگر از يك گروه 300 نفري، 150 نفر به يك سوال 5 گزينه اي پاسخ درست، 120 نفر پاسخ غلط داده و 30 نفر بقيه فرصت پاسخ دادن به آن را نداشته  و ان را بي جواب گذاشته باشند، سطح دشواري اصلاح شده سوال به شرح زير خواهد بود:ويژگي هاي يك آزمون الف: ويژگي هاي اصلي: پايايي روايي نرم يا هنجار حساسيت ب: ويژگي هاي فرعي: سهولت اجرا سهولت نمره گذاري صرفه جويي در وقت صرفه جويي در هزينهنرم يا هنجار: مفهوم نرم نرم يا هنجار عبارت است از متوسط عملكرد گروه نمونه اي از آزمودني ها كه به روش تصادفي از يك جامعه تعريف شده انتخاب مي شود.  نرم آزمون هاي استاندارد شده بر اساس توزيع نمره هاي خام گروه نمونه اي از آزمودني ها به دست مي آيد. ميانگين و نقطه 50 درصدي اين توزيع، نمونه هايي از متوسط عملكرد گروه و به عبارت ديگر نرم يا هنجار گروه است.  در آزمون هاي گروه مرجع، نرم يا هنجار مقياس محاسبه شده اي است كه نمره خام آزمودني با آن سنجيده مي شود تا عملكرد وي نسبت به متوسط عملكرد گروه مورد ارزشيابي قرار گيرد.نرم يا هنجار: مفهوم نرم براي استاندارد يا ميزان كردن يك آزمون، آن را بر اساس يك دستورالعمل استاندارد شده و تحت شرايط يكسان در باره يك گروه نمونه تصادفي انتخاب شده از جامعه اي كه آزمون در مورد آن استاندارد مي شود اجرا مي كنند. هدف عمده فرايند استاندارد كردن آزمون تعيين توزيع نمره هاي خام گروه معياريابي(گروه نرم) است. سپس نمره هاي به دست آمده به گونه اي از نمره هاي اشتقاقي(derived score)، مانند نمره هاي معادل سني، نمره هاي معادل كلاسي، رتبه هاي درصدي و يا نمره هاي تراز شده تبديل مي شوند. نرم يا هنجار: مفهوم نرم در راهنماي اجراي بيشتر آزمون هاي استاندارد شده، جداول نرم وجود دارد كه با استفاده از آن ها نمره هاي خام آزمودني ها را مي توان به نمره هاي اشتقاقي تبديل و آن ها را تفسير كرد. بدين ترتيب، نرم يك چهارچوب داوري است كه نمره خام آزمودني بر اساس آن تفسير و در باره وي قضاوت مي شود. مقايسه نمره خام آزمودني با جدول نرم به روان شناس امكان مي دهد كه موقعيت آزمودني را نسبت به توزيع نمره هاي خام ساير افراد گروه سني، كلاسي و يا جنسي او تعيين كند.نرم يا هنجار: انتخاب گروه نرم براي اين كه تفسير نمره خام آزمون به درستي انجام گيرد، نرم يا هنجار آزمون بايد با شرايط افرادي كه آزمون در مورد آنان اجرا مي شود همخواني داشته باشد. هنگامي كه نمره خام آزمودني بر اساس جدول نرم تفسير مي شود، بايد ماهيت افراد گروه نرم(سن، جنسيت، زبان مادري، گروه قومي، منطقه جغرافيايي، خصايص فرهنگي، سطح اجتماعي- اقتصادي و غيره) همواره مورد نوجه روان شناس باشد.نرم يا هنجار: انتخاب گروه نرم هنگام ميزان كردن آزمون به منظور تهيه نرم، ابتدا بايد جامعه اي كه قرار است آزمون در باره افراد آن جامعه(جامعه هدف) ميزان شود، به ئقت تعريف گردد. سپس گروه نمونه اي كه معرف اين جامعه باشد، به روش تصادفي از افراد جامعه به عنوان نمونه معياريابي انتخاب شود.  روش نمونه گيري براي انتخاب گروه نرم، ممكن است از ساده ترين روش نمونه گيري(تصادفي ساده) تا پيچيده ترين روش (نمونه گيري طبقه اي و خوشه اي) استفاده شود. بديهي است نمونه اي كه با روش نمونه گيري طبقه اي انتخاب مي شود، به دليل اين كه ار هر طبقه فرعي افراد جامعه(جنس، سن، زبان مادري و ...) نمونه هايي در گروه نرم فرار مي گيرند، بهتر از نمونه اي كه از روش تصادفي ساده انتخاب مي شود، معرف جامعه هدف خواهد بود.نرم يا هنجار: نرم هاي ملي، منطقه اي و محلي اگر جامعه هدف، به صورت كليه افراد يك كشور كه در يك يا چند صفت مشتركند تعريف شود و افراد گروه نرم از اين جامعه انتخاب گردد، نرمي كه بدين ترتيب به دست مي آيد نرم ملي يا كشوري ناميده مي شود.  بريا انتخاب افراد گروه نرم ملي به سبب گسترده و ناهمگوني جامعه ناگزير بايد از روش نمونه گيري خوشه اي و طبقه اي استفاده شود. در جوامع گسترده و ناهمگون لازم است اولا حجم نمونه انتخاب شده نسبتا زياد باشد، ثانيا طوري نمونه گيري شود كه از همه گروه هاي مختلف جامعه نمونه هايي در گروه نرم قرار گيرند.نرم يا هنجار: نرم هاي ملي، منطقه اي و محلي اگر جامعه هدف به صورت كليه افراد يك استان يا منطقه اي از يك كشور كه شامل چند استان همجوار است و در يك صفت مشتركند تعريف شود و افراد گروه نمونه از اين جامعه انتخاب گردد، جداول نرم به دست آمده از نمره هاي خام آزمودني ها، نرم منطقه اي خواهد بود. به عنوان مثال، در مراحل ميزان كردن يك آزمون هوش براي كودكان ايراني ممكن است كشور را بر اساس خصوصيات اقليمي، زبان و گويش و ساير ويژگي هاي مشترك به چند زير جامعه تقسيم و از هر زير جامعه نمونه اي انتخاب و نرم هاي متفاوتي تدوين شود. هر گاه گروه نرم از افراد يك شهر، يك بخش، قسمتي از يك شهر و يا حتي دانش آموزان يك مدرسه انتخاب شود، جدول نرمي كه بدين ترتيب بر اساس نمره هاي خام افراد گروه نرم ساخته مي شود، نرم محلي خواهد بود.نرم يا هنجار: نرم هاي سني و كلاسي نرم هاي سني و نرم هاي كلاسي از جمله نرم هايي هستند كه مصرف كنندگان آزمون ها با آن ها آشنايي دارند. نرم سني(نرم معادل سن تقويمي) نمره مياني يك آزمون است كه افراد گروه سني معيني نمره هاي برابر آن گرفته اند. نرم هاي سني بر حسب سال و ماه و با فاصله هاي يك ماه تدوين مي شوند. به عنوان مثال، نرم سني براي كودكان 5 ساله به صورت زير طبقه بندي مي شود كه در آن ها اعداد سمت چپ، نماينده سال و اعداد سمت راست نماينده ماه هستند.: 0 – 5 سال، 1 – 5 سال و... نرم هاي كلاسي در كشور هايي كه سال تحصيلي 10 ماه است، بر حسب پايه و ماه هاي سال تحصيلي با فاصله يك ماه به صورت زير طبقه بندي مي شوند كه در آن ها اعداد سمت چپ سطح يا پايه تحصيلي و اعداد سمت راست ماه هاي سال تحصيلي را نشان مي دهند. 1 – 4 سال، 2 – 4سال، 3 – 4 سال و....نرم يا هنجار: نرم هاي سني و كلاسي مثلا، طبقه 1-4، به معناي عملكرد دانش آموزان كلاس چهارم در ماه اول يال تحصيلي است. در نظام آموزشي ايران براي تهيه نرم كلاسي، چون سال تحصيلي 9 ماه است، بنابراين طبقه هاي معادل كلاسي در هر پايه تحصيلي شامل 9 طبقه خواهد بود. طبقه بندي نرم كلاسي به فاصله يك ماه بر اين فرضيه استوار است كه با گذشت ماه هاي سال تحصيلي، به تدريج و با آهنگ يكسان سطح پيشرفت دانش آموزان افزايش مي يابد. نرم سني براي سنجش خصايصي به كار مي رود كه با افزايش سن رابطه دارند مانند هوش و بعضي از استعدادهاي شناختي ديگر. نرم كلاسي براي سنجش پيشرفت تحصيلي كه با افزايش پايه تحصيلي افزايش مي يابد به كار مي رود.نرم يا هنجار: نرم هاي سني و كلاسي يكي از محدوديت هاي نرم سني و كلاسي اين است كه واحدهاي مقياس اين دو نرم در طول مقياس برابر نيستند. به عنوان مثال، تفاوت افزايش سطح پيشرفت تحصيلي در فاصله بين معادل هاي كلاسي 2-5 تا 4-5 با افزايش سطح پيشرفت تحصيلي در فاصله هاي معادل هاي كلاسي 2-8 تا4-8 برابر نيست. در عمل واحد هاي نرم سني و معادل كلاسي با افزايش سن و پايه تحصيلي مرتبا كوچك نر مي شوند. بنابراين به سبب ناهمساني در سرعت افزايش توانايي هاي مورد اندازه گيري و در نتيجه نابرابري واحدها، متخصصان اندازه گيري آموزشي و تربيتي ترجيح مي دهند از نرم هايي استفاده كنند كه واحدهاي آن ها در طول مقياس همساني بيشتري داشته باشد.نرم يا هنجار: نرم هاي سني و كلاسي اما به سبب سهولت استفاده از نرم هاي سني و كلاسي، اين نرم ها در سطح مدارس ابتدايي، كه فرض همساني نسبي آهنگ رشد بيشتر صادق باشاست، هم چنان مورد استفاده قرار مي گيرند. با وجود اين، در اين سطح نيز لازم است براي هر يك از گروه هاي سني و يا معادل هاي كلاسي، نمره هاي تراز شده يا رتبه هاي درصدي تهيه شود.نرم يا هنجار: نرم هاي سن هنجاريmodal age norms معمولا همه دانش آموزان يك پايه تحصيلي كه نرم كلاسي براي آن تهيه مي شود سن برابر ندارند و دامنه تغيير سن آن ها اغلب زياد است. با وجود اين، نمره هاي دانش آموزان خيلي جوان تر و افراد مسن تر از افراد متوسط كلاس در محاسبه نرم وارد مي شود. براي تهيه شاخص دقيق تر از متوسط نمره دانش آموزان يك پايه تحصيلي، نمره هاي افراد خيلي جوان تر و افراد خيلي مسن تر حذف و نرم بر اتساس نمره هاي دانش آموزاني كه سن آن ها با سطح پايه تحصيلي شان متناسب است محاسبه مي شود. نرم كلاسي كه بدين ترتيب به دست مي آيد، نرم سني هنجاري ناميده مي شود.نرم يا هنجار: نرم هاي سن عقليmental age norms اصطلاح سن عقلي توسط آلفرد بينه، روان شناس فرانسوي مطرح شد و امروزه در بيشتر آزمون هاي هوشي مورد استفاده قرار مي گيرد. سن عقلي يك آزمودني معين برابر سن تقويمي آن دسته از كودكان همسال او در يك گروه هنجاريابي است كه نمره مياني آن ها با نمره آزمودني مورد نظر برابر باشد. معمولا در مدارس عقب مانده هاي ذهني، طبقه بندي دانش آموزان براي هدف هاي آموزشي بر مبناي سن عقلي انجام مي گيرد.نرم يا هنجار: خارج قسمت هاquotients يكي از روش هاي قديمي تهيه نرمة كه اكنون تقريبا كنار گذاشته شده است، تبديل نرم سني آزمودني به نوعي خارج قسمت بود كه از تقسيم نمره سني يا سن عقلي بر سن تقويمي و ضرب آن در عدد 100به دست آمد. بدين ترتيب خارج قسمت هوش در فرم قديمي آزمون استنفورد بينه از رابطه زير محاسبه مي شد.      (MA/CA) 100 = IQ در اين رابطه، IQ خارج قسمت هوش يا هوشبهر، MA سن عقلي و CA سن تقويمي آزمودني است. هم چنين خارج قسمت تحصيلي(educational quotient) در بعضي از آزمون هاي پيش رفت تحصيلي از راه تقسيم نرم سني بر سن تقويمي به دست مي آمد. نرم يا هنجار: نرم هاي درصدي نرم هاي درصدي بر اساس نمره هاي خام آزمودني هاي گرو نرم كه با فاصله طبقه اي معين طبقه بندي مي شوند، به دست مي آيد. هر نمره خام را نمره درصدي(percentile) و درصد افراد نرم را كه زير نمره معيني قرار ميگيرد رتبه درصدي(percentile rank) مي نامند. به عنوان مثال، در جدول شماره 1 نمره 72 در طبقه دوم از بالا نمره درصدي است كه رتبه درصدي آن 97 است، يعني نمره 97 درصد افراد زير آن قرار دارد.نرم يا هنجار: نرم هاي درصدي براي روشن شدن روش محاسبه نرم درصدي به جدول شماره 8-1 توجه كنيد. در اولين ستون سمت چپ جدول، فاصله نمره ها با فاصله طبقه اي 5، در ستون دوم اعداد مياني هر طبقه و بالاخره تراكمي زير اعداد مياني طبقه ها را نشان مي دهد. براي محاسبه فراواني تراكمي زير عدد مياني هر طبقه كافي است نصف فراواني مطلق آن طبقه را با مجموع فراواني هاي مطلق طبقه هاي پايين تر جمع كنيم. به عنوان مثال، فراواني تراكمي زير عدد مياني براي پايين ترين طبقه برابر 0/5(0/5=يك دوم + 0 ) و براي دومين طبقه از پايين برابر 7/5 است.(7/5=13:2 + 1). رتبه درصدي هر طبقه از حاصل ضرب فراواني تراكمر زير عدد مياني آن طبقه در N : 100 به دست مي ايد. (N مجموع فراواني هاي مطلق و يا تعداد افراد گروه نرم است).نرم يا هنجار: نرم هاي درصدينرم يا هنجار: نرم هاي درصدي به سبب سهولت محاسبه و تفسير رتبه هاي درصدي، در جدول هاي نرم بيشتر آزمون هاي استاندارد شده از اين نرم استفاده مي شود. در اين جدول ها، نرم هاي درصدي براي گروه هاي سني، پايه هاي تحصيلي، شغلي، جنسيت و ساير گروه هاي محاسبه مي شود. نا همساني واحدهاي رتبه ها در نرم هاي درصدي نيز مانند نرم هاي سني و كلاسي از جمله محدوديت هاي نرم درصدي است. چنان كه از نمودار 8-1 ملاحظه مي شود، واحد هاي رتبه هاي درصدي از نوع مقياس رتبه اي هستند نه مقياس فاصله اي. با توجه به نمودار شماره 8-1 ملاحظه مي شود كه فاصله بين رتبه هاي درصدي 5 و 0 يا 90 و 95 بزرگ تر از فاصله بين رتبه هاي 40 و 45 يا 60 و 65 است. با وجودي كه تفاوت عددي هر دسته از اين دو رتبه با يكديگر برابرند، اما اندازه رتبه هاي درصدي برابر نيستند. زيرا به سبب خاصيت زنگوله اي بودن نمره ها، هر چه از دو حد انتهايي توزيع به حد وسط نزديك تر مي شويم اندازه رتبه ها مرتبا كاهش مي يابند.نرم يا هنجار: نرم هاي درصدي به سبب انباشته شدن رتبه هاي درصدي در وسط و پراكندگي آن ها در دو انتهاي توزيع، تفسير تغييرات و تفاوت هاي نرم هاي درصدي دشوار مي شود. به عنوان مثال، تفاوت پيشرفت تحصيلي دو دانش آموز كه يكي رتبه 5 درصدي و ديگري رتبه 10 درصدي گرفته است، با تفاوت دو دانش آموز ديگر كه رتبه درصدي يكي 40 و رتبه درصدي ديگري 45 است، برابر نيست. تفاوت بين رتبه هاي 5 و 10 درصدي بيشتر از تفاوت بين رتبه هاي 40 و 45 درصدي است، زيرا واحدهاي مقياس در مورد دو رتبه اول بزرگ تر از واحد هاي رتبه ها ي دوم است.  با وجود اين، چنان چه استفاده كنندگان از اين نرم، به نابرابري واحدهاي رتبه ها در طول مقياس توجه كنند و براي تفاوت رتبه هاي انتهايي در مقايسه با رتبه هاي مياني، وزن بيشتري قايل باشند، مي توانند آن ها را به گونه اي روشن تر تفسير كنند.نرم يا هنجار: نرم نمره هاي تراز شده(standard score norms)بر خلاف نرم درصدي، نمره هاي تراز شده از نوع مقياس فاصله اي هستند كه اندازه واحدهاي آن ها در سرتاسر مقياس برابرند. نمره هاي تراز شده، نمره هاي تبديل شده اي هستند كه مي توان آن ها را بر حسب ميانگين و انحراف معيار دلخواه محاسبه كرد. نمره هاي تراز شده انئاع مختلف دارند كه از آن جمله اند نمره هاي z، نمره هاي Z، نمره هاي CEEB(Colledge Entrance Examination Bord، نمره هاي امتحانات ورودي دانشگاه ها)، نمره هاي AGCT(Army General Classification Test، آزمون هاي ارتشي آلفا و بتا)، هوشبهر انحرافي(deviation  IQ)، نمره هاي نه بخشي(stanine scores)، و نمره هاي T .در عمل همه اين نرم ها بر مبناي نمره z محاسبه مي شوند.هنجارها و نيمرخ هانرم يا هنجار: نرم نمره هاي تراز شده به نمودار ص 240 كتاب شريفي(1377) مراجعه نماييد.نرم يا هنجار: نمره z نمره z از رابطه زير به دست مي آيد. در اين رابطه، X نمره خام،    ميانگين نمره هاي خام افراد گروه نرم و s انحراف معيار نمره هاي خام افراد گروه نرم است. با تبديل نمره هاي خام به نمره z توزيع جديدي به دست مي آيد كه ميانگين آن برابر با صفر و انحراف معيار آن برابر يك است. شكل منحني توزيع جديد با شكل توزيع نمره هاي خام آن يكسان است. در جدول شماره 8-1 نمره هاي z اعداد مياني طبقه ها در ستون 6 نشان داده شده است. به عنوان مثال، نمره z براي اعداد ميانياولين طبقه از بالا 2/59 است. در نمودار 8-1 نيز در خط پايه منحني نمره z از 4- تا 4+ نشان داده شده است.نرم يا هنجار: نمره هاي Z چون نمره z داراي ارقام اعشاري و نيمي از اين نمره ها در توزيع نرمال منفي است، بنابراين كاركردن با اين نمره ها تا اندازه اي دشوار است. اگر نمره z را در عدد ثابت 10 ضرب و حاصل ضرب را با عدد ثابت 50 جمع كنيم نمره هاي Z به دست مي آيد كه ميانگين آن ها 50 و انحراف معيار آن ها 10 است. شكل توزيع نمره هاي Z نيز مانند توزيع نمره هاي اصلي افراد گروه نرم با آن يكسان است. نمره هاي Z در ستون 7 جدول 8 – 1 نشان داده شده اند.نرم يا هنجار: نمره هاي تراز شده بهنجار(نرمال) شده همه نرم هاي نمره هاي تراز شده كه در بالا به آن ها اشاره شد، تبديل خطي ساده نمره هاي خام هستند. ميانگين و انحراف معيار توزيع نمره هاي تبديل شده با ميانگين و انحراف معيار نمره هاي خام تفاوت مي كند، اما شكل توزيع در هر دو مورد يكسان است. تبديل گروهي از نمره هاي خام به نمره هاي تراز به هنجار شده با محاسبه رتبه هاي درصدي نمره هاي خام شروع مي ود. سپس با استفاده از جدول سطح منحني نرمال، نمره هاي z هر يك از رتبه هاي درصدي به دست مي آيد.  فرض كنيد مي خواهيم عدد مياني(ستون 2) جدول شماره 8-1 را به نمره هاي تراز به هنجار شده تبديل كنيم. چون رتبه هاي درصدي اين نمره ها محاسبه شده است(ستون 5)، لذا كافي است اين رتبه ها را با تقسيم كردن بر صد به نسبت تبديل كرده و سپس z مربوط به آن را از جدول سطح منحني نرمال پيدا كنيم. نمره هاي z كه بدين طريق به دست مي آيند با علامتzn يعني نمره هاي z نرمال شده نشان داده مي شوند. آن گاه ساير نمره هاي تراز شده مانند نمره هاي CEEB، T،AGCT، و IQ را بر مبناي zn محاسبه مي كنيم.نرم يا هنجار: نمره هاي CEEB نمره هاي CEEB كه معمولا در آزمون هاي ورودي دانشگاه ها به كار مي روند، نمره هايي هستند كه ميانگين آن ها 500 و انحراف معيار آن ها 100 است. بنابراين براي تبديل نمره هاي z به نمره هاي CEEB كافي است از رابطه زير استفاده شود. 500 + 100 *  zn = CEEB شكل توزيع نمره هاي CEEB نيز مانند شكل توزيع نمره هاي خام افراد گروه نرم است. نمره هاي CEEB محاسبه شده براي نمره هاي مياني طبقه ها در ستون 8 جدول 8-1 نشان داده شده است.نرم يا هنجار: نمره هاي T نمره هاي T نمره هاي تراز شده اي هستند كه ميانگين آن ها 50 و انحراف معيار آن ها 10 است. براي محاسبه نمره هاي T كافي است اندازه هاي zn را در 10 ضرب كرده حاصل را با 50 جمع كنيم يعني: 50 +10* zn = Tنرم يا هنجار: نمره هاي AGCT اين نمره ها كه براي نخستين بار براي نمره هاي آزمون ارتشي طبقه بندي كلي محاسبه شد، نمره هاي تراز شده اي هستند كه با ميانگين 100 و انحراف معيار 20 محاسبه مي شوند. توزيع اين نمره ها كه همان شكل توزيع نمره هاي اوليه را دارد، در ستون 9 جدول 8-1 براي اعداد مياني هر طبقه محاسبه شده است. روش محاسبه بر اساس فرمول زير انجام مي گيرد. 100 + 20 * zn = AGCTنرم يا هنجار: نمره هاي انحرافي آزمون وكسلرهوشبهر انحرافي آزمون وكسلر داراي ميانگين 100 و انحراف معيار 15 است كه از رابطه زير به دست مي آيد.100 + 15 * zn = IQ (وكسلر)در نمره هاي تراز شده آزمون هاي فرعي اين تست ميانگين برابر 10 و انحراف معيار برابر 3 فرض شده است.نرم يا هنجار: نمره هاي هوشبهر انحرافي آزمون استنفورد- بينه در اين آزمون ميانگين برابر 100 و انحراف معيار برابر 16 فرض شده است. بنابراين محاسبه هوشبهر انحرافي در آزمون استنفورد بينه از رابطه زير به دست مي آيد. 100 + 16 * = zn IQنرم يا هنجار: نمره هاي نه بخشي نمره هاي zn را مي توان به هر نمره تراز شده و با هر ميانگين و انحراف معياري تبديل كرد. يكي از نرم هاي معروف كه براي درجه بندي افراد در نيروي هوايي آمريكا و بعدها براي مقاصد آموزشي و ارزشيابي مورد استفاده فراوان پيدا كرد، نمره هاي نه بخشي(standard nine=stanine) است. مقياس نه بخشي، كه مقياس نمره هاي تراز شده با ميانگين 5 و انحراف معيار تقريبا 2 است، اين مقياس داراي نه بخش است كه با اعداد از 1 تا 9 نشان داده مي شوند. چنان كه در نمودار(ص 240) ملاحظه مي شود، در يك توزيع نرمال درصد معيني از افراد در هر يك از 9 بخش مقياس قرار مي گيرند. پنجمين بخش اين مقياس كه ميانگين آن است به فاصله يك چهارم انحراف معيار از دو طرف ميانگين توزيع قرار  مي گيرد و ساير بخش ها نيز هر يك ، يك دوم انحراف معيار از توزيع نرمال را شامل مي شوند.نرم يا هنجار: نمره هاي نه بخشي بايد دانست كه نمره هاي 9 بخشيع نمره هاي تراز شده واقعي نيستند، زيرا بخش اول و نهم آن بي انتهاست. در نمودرا 8-1 ملاحظه مي شود كه اندازه هاي واحدها در بخش هاي 2 تا 8 يكسانند، اما بخش يك و بخش 9 گسترده تر از ساير بخش ها است.  يكي از مزيت هاي نمره هاي نه بخشي اين است كه به جاي نقاط معين، دامنه هايي از نمره ها را نشان مي دهند. اين امر موجب مي شود كه اجرا كنندگان آزمون ها تصور نكنند كه نمره هاي مشاهده شده  آزمودني ها، نمره هايي دقيق و يا اندازه هاي تغيير ناپذير خصايص رواني است.  چنان كه در بحث از خطاي معيار اندازه گيري و برآورد حدود نمره هاي واقعي آزمودني ملاحظه شد، نتيجه آزمون را نبايد يك نمره منحصر به فرد و تغيير ناپذير دانست. بلكه همواره نمره واقعي آزمودني در سطح اطمينان معين در فاصله بين دو نمره قرار مي گيرد. نمره هاي نه بخشي، نتايج آزمون ها را بر اساس اين اطمينان مشخص مي كنند.نرم يا هنجار: تاريخ تنظيم جداول نرميكي از مسايل عمده در مورد جداول نرم آن است كه اين جداول معمولا سال ها قبل تهيه و تنظيم شده اند. چون تهيه و تنظيم جداول نرم مستلزم صرف اعتبار و هزينه هاي زيادي است، بنابراين امكان تجديد نظر در آن ها محدود است. تهيه كنندگان آزمون ها معمولا هر 10 سال يك بار در جداول نرم تجديد نظر مي كنند. از آن جا كه تجارب و محيط زندگي كودكان و دانش آموزان و هم چنين برنامه ها و روش هاي آموزشي در حال تغيير است، نرم هايي كه در سال هاي گذشته تهيه شده اند در زمان حال فاقد ارزش و اعتبار كافي هستند. به عنوان مثال چون روش تدريس رياضيات امروزه لااقل در مدارس ابتدايي بهتر از سال هايپيش است، اگر دانش آموزي در يك آزمون رياضي كه نرم آن 10 سال پيش تهيه شده است رتبه 50 درصدي را به دست آوردة چنان چه با نرم امروز سنجيده شود، ممكن است رتبه درصدي وي با اين نرم كاملا متفاوت باشد. به همين دليل است كه اجرا كنندگان آزمون ها بايد تاريخ تنظيم جداول نرم آزمون را مورد توجه قرار داده و در تعبير و تفسير نتايج آزمون ها محدوديت هاي مربوط به آن را مد نظر قرار دهند.نيمرخ هاي رواني نيم رخ رواني آزمودني به صورت نموداري ارائه مي گردد كه در آن نتايج اجراي چند آزمون بر اساس نرم يا مقياس واحد نشان داده مي شود. در نيم رخ رواني، نمره هاي آزمودني در آزمون هاي مختلف و يا در آزمون هاي فرعي يك آزمون، ممكن است به صورت رتبه هاي درصدي، نمره هاي تراز شده و يا هوشبهر انحرافي نشان داده شود. نيم رخ رواني را مي توان به صورت نمودار ستوني يا نمودار چند ضلعي ترسيم كرد. براي رسم نيم رخ رواني، ابتدا دو محور عمود بر هم رسم مي كنيم و سپس روي محور افقي خصايص مورد اندازه گيري و روي محور عمودي نمره تراز شده يا نمره هنجاري خصايص اندازه گيري شده مشخص مي شود.نيمرخ هاي رواني براي تهيه نيم رخ ستوني كافي است نام صفت مورد اندازه گيري رسم گردد. در نيم رخ هاي چند ضلعي نيز به همين ترتيب عمل مي شود. در نيم رخ هاي رواني، براي سهولت تفسير نتايج آزمون ها، خطي كه حد متوسط يا بهنجار را نشان مي دهد كشيده مي شود تا نمره هاي بالاتر و يا پايين تر از حد بهنجار مشخص شوند. براي روشن تر شدن مطالب بالا به دو نمونه از نيم رخ هاي رواني مربوط به دو آزمودني همراه با تفسير نتايج آن در كتاب(شريفي، ص 245 و 246 ) توجه كنيد.ساختن آزمون هاي استانداد شده ساختن و استاندارد كردن آزمون، عملي پيچيده و فني بوده و مستلزم دانش و مهارت سطح بالاي تخصص در همه زمينه هاي روان سنجي است. سازندگان آزمون علاوه بر داشتن صلاحيت علمي و تخصصي و دانش نظري در روان سنجي، بايد در مورد انواع آزمون هاي مختلف نيز از تجارب عملي كافي برخوردار باشند اقدام به ساختن و استاندارد كردن آزمون در هر زمينه منوط به برقراري شرايط زير است: 1) آزمون هاي معتبر و استاندارد شده كافي در آن زمينه موجود نباشد. 2) سازندگان آزمون علاوه بر داشتن نيروي تخصصي در زمينه هاي مختلف روان سنجي از منابع مالي كافي برخوردار باشند. 3) آزموني كه ساخته مي شود در مورد تعداد زيادي از آزمودني ها و براي مدت نسبتا طولاني براي هدف هاي تحصيلي و شغلي، تشخيص هاي باليني و ساير مقاصد آموزشي و درماني به كار بسته شود.مراحل ساختن آزمون هاي استانداد شده 1) تعيين هدف هاي تهيه آزمون: سازندگان آزمون ابتدا بايد هدف هاي آزموني كه قصد ساختن آن را دارند تعيين كنند. براي اين كار لازم است به پرسش هاي زير توجه شود. 1- آزمون براي كدام يك از مقاصد روان سنجي مانند ارزشيابي آموزشي، راهنمايي تحصيلي، راهنمايي شغلي، گزينش و يا هدف هاي تشخيصي ساخته مي شود؟ 2- آزمون مورد نظر براي سنجش كدام يك از خصايص آزمودني ها مانند پيشرفت تحصيلي، هوش، استعداد و يا صفات شخصيت آنان به كار خواهد رفت؟ اگر آزمون پيشرفت تحصيلي است، براي سنجش پيشرفت تحصيلي آزمودني ها در چه سطحي و در مورد كدام درس ساخته مي شود؟مراحل ساختن آزمون هاي استانداد شده 1) تعيين هدف هاي تهيه آزمون(ادامه): 4- اگر آزمون از نوع آزمون هوش، استعداد و يا صفات شخصيتي است، بر اساس كدام يك از نظريه هاي روان شناسي و روان سنجي ساخنه مي شود؟ 5- محتواي آزمون مورد نظر چيست و نوع سوال هاي آن كلامي است يا غير كلامي،چند گزينه اي است و يا كوته پاسخ؟ 6- آزمون در مورد كدام گروه سني و يا كلاسي اجرا مي شود و براي چه نوع نرمي تهيه خواهد شد؛ نرم محلي، نرم منطقه اي و يا نرم ملي؟مراحل ساختن آزمون هاي استانداد شده 2- تهيه محتواي فرم تجربي آزمون پاسخ هاي دقيق سازندگان آزمون به پرسش هاي بالا و انجام بررسي هاي لازم در اين مورد با آن ها امكان مي دهد كه نسبت به تدوين محتواي آزمون به صورت فرم تجربي اقدام كنند. نظرخواهي از متخصصان موضوعي . روان شناسيان و مرور آزمون هاي مشابه كه در ساير كشورها به كار بسته شده است، سازندگان آزمون را در تدوين محتواي آزمون كمك خواهد كرد.مراحل ساختن آزمون هاي استانداد شده 2- تهيه محتواي فرم تجربي آزمون(ادامه) پس از تعيين هدف ها و محتواي آزمون، پرسش هاي آزمون نوشته مي شوند. تعداد پرسش هايي كه در فرم اوليه آزمون گنجانده مي شود، بايد بيش از تعداد پرسش هايي باشد كه در فرم نهايي يا فرم اصلي آزمون وجود خواهد داشت. علت اين امر آن است كه در مراحل تجديد نظر در پرسش ها و يا تجزيه و تحليل آن ها احتمالا برخي پرش ها حذف خوهند شد. پرسش هاي تدوين شده بايد توسط تعدادي از متخصصان موضوعي، روان شناسان و متخصصان روان سنجي مورد بررسي قرار گيرند و تجديد نظر لازم در آن ها به عمل آيد. پس از تجديد نظر در پرسش ها، فرم تجربي آزمون  تنظيم و به تعداد مورد نياز چاپ و تكثير مي شود.مراحل ساختن آزمون هاي استانداد شده 2- تهيه محتواي فرم تجربي آزمون(ادامه) در بعضي موارد سازندگان آزمون تصميم مي گيرند آزموني را كه در ساير كشورها استاندارد شده است در ايران هنجاريابي كنند. براي اين كار نخست بايد آزمون مورد نظر به فارسي ترجمه شود. ترجمه آزمون بايد به گونه اي باشد كه اگر مترجم ديگري كه به زبان فارسي و زبان اصلي آزمون مورد بحث تسلط كامل دارد، آن را به زبان اصلي(زبان خارجي) ترجمه كند، محتواي اين ترجمه با محتواي آزمون به زبان اصلي كاملا يكسان باشد.  پس از ترجمه آزمون، سازندگان آزمون ممكن است بعضي از موارد آن را كه با فرهنگ ايراني كاملا بيگانه است حذف و به جاي آن ها ماده هاي ديگري كه از نظر اصول روان سنجي همان فرايند ذهني را اندازه مي گيرند قرار دهند. پس از انجام اين كار و پس از بررسي و تجديد نظرهاي لازم، فرم تجربي آزمون تدوين و به تعداد مورد نياز چاپ و تكثير مي شود.مراحل ساختن آزمون هاي استانداد شده 3 ) اجراي فرم تجربي آزمون از جامعه هدف يعني جامعه اي كه سرانجام آزمون استاندارد شده براي سنجش خصايص آنان به كار بسته خواهد شد، با روش نمونه گيري تصادفي، يك گروه نمون انتخاب و آزمون در مورد افراد اين گروه اجرا مي شود. سپس پاسخ خاي آزمودني ها به هر يك از پرسش ها بر اساس دستوالعمل آزمون تصحيح و نمره گذاري مي شود. مراحل ساختن آزمون هاي استانداد شده 4) تجزيه و تحليل سوال هاي آزمون سوال هاي فرم تجربي آزمون كه در مورد گروه نمونه تصادفي از آزمودني ها اجرا شده است، مورد تجزيه و تحليل قرار مي گيرند(فصل 5). شخص هاي آماري هر يك از سوال ها، ضرايب همبستگي آن ها با يكديگر، با نمره كل آزمون و با ساير ملاك هاي خارجي محاسبه مي شود. سوال هاي نامناسب يعني سوال هايي كه فاقد ضريب تشخيص و اعتبار لازم بوده اند حذف مي شوند. سپس ضريب اعتبار (همساني دروني) آزمون پس از حذف سوال هاي نامناسب با استفاده از روش دو نيمه كردن، روش كودر- ريچادسون و يا ساير روش هاي مناسب برآورد مي شود. آن گاه ميانگين، انحراف معيار، خطاي معيار اندازه گيري و ساير شاخص هاي آماري آزمون محاسبه مي گردد.مراحل ساختن آزمون هاي استانداد شده 4) تجزيه و تحليل سوال هاي آزمون(ادامه) در صورتي كه ازمون داراي پرسش هاي چند گزينه اي است، اين پرسش ها نيز مورد تجزيه و تحليل قرار مي گيرند و در صورت لزومة تجديد نظر در گزينه ها و يا سوال هاي آزمون به عمل مي آيد. پس از انجام مراحل بالا، سوال هاي آزمون بر حسب سطح دشواري محاسبه شده به ترتيب از آسان به مشكل تنظيم و فزم جديد آزمون تدوين مي شود.مراحل ساختن آزمون هاي استانداد شده 5) وارسي تجزيه و تحليل سوال هاي آزمون ازموني كه بر اساس تجزيه و تحليل مرحله قبل تدوين شده است مجددا در مورد يك گروه نمونه از آزمودني ها كه به روش تصادفي از جامعه هدف انتخاب شده است اجرا مي شود. نتايج حاصل از اين آزمايش بر اساس آن چه در مرحله قبلي گفته شد، مورد تجزيه و تحليل قرار مي گيرد. با مقايسه نتايج حاصل از دو آزمايش مي توان اعتبار يافته هاي مرحله قبل را از روي نتايج اين مرحله مورد بررسي و قضاوت قرار داد. در هر حال، در اين مرحله نيز پس از حذف سوال هاي نامناسب، شاخص هاي آماري آزمون محاسبه و سوال هاي آن از آسان به مشكل تنظيم و فرم نهايي آزمون تدوين مي شود.مراحل ساختن آزمون هاي استانداد شده 6) تهيه و تنظيم جدول هاي نرم آزمون چنان چه گروه نمونه اي كه آزمون فرم تجربي در مرحله دوم در باره آن اجرا شده است به قدر كافيزياد و در سطح اطمينان لازم آماري معرف جامعه هدف بوده و هيچ يك از سوال هاي آزمون در اين مرحله حذف يا تعديل نشده باشد، مي توان از روي نمره هاي خام آزمودني ها جدول هاي نرم آزمون را تنظيم كرد. اما در هر حال بهتر است آزمون فرم نهايي بار ديگر در مورد گروه نمونه بزرگ آماري از افراد جامعه هدف اجرا شود. پس از اجراي مجدد و نمره گذاري نتايج آزمون، مي توان با استفاده از روش هاي مطرح شده در بخش اول اين فصل، پس از محاسبه ميانگين و انحراف معيار نمره هاي خام، به تهيه و تنظيم جدول هاي نرم آزمون اقدام كرد.مراحل ساختن آزمون هاي استانداد شده 6) مطالعه در مورد روايي ملاكي و روايي سازه آزمون گر چه در مراحل استاندارد كردن آزمون برخي از شواهد روايي آزمون مانند روايي محتوايي، همبستگي هر يك از سوال ها با كل نمره ازمون(همساني دروني) به عنوان يكي از شواهد روايي سازه، و در پاره اي موارد همبستگي سوال ها با برخي ملاك هاي خارجي مورد مطالعه قرار مي گيرند، اما انجام مطالعه مستمر براي برآورد روايي ملاكي و روايي سازه آزمون تدوين شده امري اساسي است.مراحل ساختن آزمون هاي استانداد شده 6) مطالعه در مورد روايي ملاكي و روايي سازه آزمون(ادامه) براي اين منظور، سازندگان آزمون بايد با در نظر گرفتن ملاك هاي خارجي و با مطالعه در مورد شواهد سازه آزمون، در آزمون هاي تدوين شده مي توان همبستگي نمره هاي آن ها را با نمره هاي آزمون هاي مشابهي كه قبلا در مورد جامعه هدف استاندارد شده است به عنوان يكي از شاخص هاي روايي آزمون مورد بررسي قرار داد. همبستگي بين نمره هاي آزمون هوش و استعداد و نمره هاي پيشرفت تحصيلي آزمودني ها نيز شاخص ديگري از روايي آزمون را به دست خواهد داد.مراحل ساختن آزمون هاي استانداد شده 6) مطالعه در مورد روايي ملاكي و روايي سازه آزمون(ادامه) در آزمون هاي علايق تحصيلي، تفاوت ميانگين نمره هاي تحصيلي افراد موفق با افراد ناموفق در رشته هاي تحصيلي و هم چنين همبستگي بين نمره هاي آزمون علايق تحصيلي و درجه بندي علايق توسط معلمان مي تواند به عنوان شاهدي از روايي سازه و يا روايي ملاكي آزمون تلقي شود. در آزمون هاي شخصيت، همبستگي بين نمره هاي آزمون و صفات شخصيتي ازمودني ها كه توسط دوستان شان درجه بندي مي شود و هم چنين توافق بين نمره هاي آزمون هاي تشخيصي و باليني مانند آزمون سنجش اضطراب با درجه بندي اضطراب آزمودني ها توسط روان پزشكان و روان شناسان باليني شواهدي از روايي سازه آزمون هاي مذكور را به دست مي دهند.نكات اساسي در تهيه و استاندارد كردن آزمون ها ا) راهنماي اجراي آزمون راهنماي اجراي آزمون بايد استاندازد شده و كاملا روشن باشد. در راهنما بايد نوع كاري كه آزمودني بايد انجام دهد و چگونگي انجام آن به گونه روشن شرح داده شود. لازم است كه براي آشنا شدن آزمودني ها با نوع سوال ها و چگونگي پاسخ دادن به آن ها، چند سوال نمونه در راهنماي آزمون مطرح و طرز پاسخ دادن به آن ها توضيح داده شود.نكات اساسي در تهيه و استاندارد كردن آزمون ها ا) راهنماي اجراي آزمون در آزمون هايي كه به پاسخ هاي غلط نمره منفي داده مي شود، بايد اين نكته در راهنماي اجراي آزمون ذكر گردد. اگر قرار است به پاسخ هاي غلط نمره منفي داده نشود، اين نكته نيز بايد در راهنماي اجراي آزمون به گونه صريح مطرح شده و به آزمودني ها گفته شود كه اگر پاسخ سوالي را نمي دانند، از بين پاسخ هاي پيش نهادي يا گزينه هاي آزمون بهترين پاسخي را كه به نظرشان درست است انتخاب كنند. هم چنين در راهنماي آزمون بايد زمان استاندارد شده براي پاسخ دادن به پرسش هاي آزمون به آزمودني ها گفته شود. زمان استاندارد براي هر آزمون عبارت از ميانگين زمان صرف شده توسط 75 درصد آزمودني ها براي كامل كردن آزمون در مراحل اجراي فرم تجربي است.نكات اساسي در تهيه و استاندارد كردن آزمون ها 2- نمره گذاري آزمون آزمون بايد به گونه اي طراحي شود كه نمره گذاري پاسخ هاي آزمودني ها به آساني و به سرعت امكان پذير باشد و تا جايي كه امكان دارد نمره گذاري پاسخ ها به صورت عيني انجام گيرد. اعتبار و پايايي آزمون نبايد به سبب ناپايايي نمره گذاري آن كاهش يابد. وزن يا نمره اي كه براي هر سوال در نظر گرفته مي شود بهتر است با سطح دشواري سوال متناسب باشد. بدين معنا كه براي سوال هاي آسان وزن كمتر و براي س.ال هاي دشوار وزن بيشتري منظور شود.نكات اساسي در تهيه و استاندارد كردن آزمون ها 3- تعداد سوال هاي آزمون هر چه تعداد سوال هاي آزمون بيشتر باشد، اعتبار و پايايي آن بيشتر است. آزمون يا بايد داراي تعداد زيادي سوال باشد كه به هر يك از آن ها نمره جداگانه اي داده مي شود و يا شامل تعداد كمتري از تكاليف باشد كه به هر يك از آن ها نمره خاصي تعلق مي گيرد. گنجاندن يك سوال محاسبه اي كه يافتن پاسخ درست آن مستلزم صرف وقت زياد است سوال نامناسبي به شمار مي رود. زيرا آزمودني در ازاي چندين دقيقه وقتي كه براي پاسخ دادن به آن صرف مي كند، نمره اي برابر پاسخ درست سوال هايي مي گيرد كه با صرف چند ثانيه پاسخ درست آن ها را پيدا مي كند.بنابراين بايد زمان و سطح مهارت لازم براي پاسخ دادن به همه سوال ها در هر بخش آزمون تقريبا يكسان باشد يا نمره هر سوال با سطح دشواري و زمان لازم براي يافتن پاسخ درست آن متناسب باشد.نكات اساسي در تهيه و استاندارد كردن آزمون ها 4- سطح دشواري سوال هاي آزمون آزمون بايد با پرسش هايي شروع شود كه همه آزمودني ها به راحتي بتوانند به آن ها پاسخ درست بدهند. سوال هاي اول آزمون نبايد دشوار بوده و موجب دلسردي آزمودني ها شوند. بهد از چند سوال خيلي آسان كه در ابتداي آزمون گنجانده مي شوند، سطح دشواري سوال هاي بعدي آزمون بايد به تدريج افزايش يابد. بايد بين عملكرد آزمودني ها در هر يك از سوال ها و عملكرد آنان در كل آزمون همبستگي مثبت موجود باشد. اگر همبستگي بين يك سوال با نمره كل آزمون منفي و يا خيلي كم باشد، احتمالا بدان معناست كه آن سوال خصيصه اي را اندازه مي گيرد كه با ان چه كه به وسيله كل آزمون سنجيده مي شود تفاوت دارد.نكات اساسي در تهيه و استاندارد كردن آزمون ها 5- سوال هاي چند گزينه اي پرسش هاي چندگزينه اي به سبب آن كه نمره گذاري آن ها به آساني و به سرعت امكان پذير است، در اغلب آزمون هاي مداد- كاغذي مورد استفاده قرار مي گيرند. اما، نمره هاي حاصل از اين نوع سوال ها ممكن است تا حدي با نمره واقعي آزمودني ها متفاوت باشد. به همين دليل بعضي از سازندگان آزمون، پرسش هايي را ترجيح مي دهند كه آزمودني پاسخ ها را از خزانه حافظه خود بازيابي و آن ها را توليد كند. در آزمون هايي كه با پرسش هاي چند گزينه اي ساخته مي شوند، مي توان در ازاي هر پاسخ غلط،..... نمره (n تعداد گزينه هاي پاسخ هاست) از نمره  هاي پاسخ هاي درست آزمودني كم كرد و بدين ترتيب عامل حدس و گمان را از بين برد. البته اين در صورتي است كه براي هر پاسخ درست يك نمره در نظر گرفته شده باشد.  در آزمون هايي كه با سوال هاي 5 يا 6 گزينه اي ساخته مي شوند، احتمال يافتن تصادفي پاسخ هاي درست كمتر از سوال هاي 3 يا 4 گزينه اي است. چنان چه در مراحل استاندارد كردن آزمون از فرمول تصحيح براي حذف عامل حدس و گمان استفاده شده است، در اجرا و نمره گذاري آزمون فرم نهايي نيز بايد نمره گذاري آزمون بر همين اساس انجام گيرد.نكات اساسي در تهيه و استاندارد كردن آزمون ها 6- دامنه تغيير سوال ها آزمون ها معمولا با سوال هاي متعدد و گوناگون ساخته مي شوند. سازندگان آزمون بايد به اين نكته توجه داشته باشند كه در هر يك از بخش هاي آزمون سوال هايي را بگنجانند كه همه آن ها توانايي واحدي را بسنجند. بنابراين، در هر يك از بخش هاي فرعي آن از گنجاندن سوال هاي نامربوط به آن بخش بايد اجتناب كنند.نكات اساسي در تهيه و استاندارد كردن آزمون ها 7- محتواي آزمون در آزمون هايي كه براي اندازه گيري استعداد و توانايي شغلي به كار مي روند، بايد پرسش هايي در محتواي آزمون گنجانيده شوند كه به طور مستقيم يا غير مستقيم در موفقيت آن شغل موثر باشند. بنابراين از طرح سوال هايي كه به محفوظات، دانش نظري محض و يا آموخته هاي كلاسيك مربوطند و اغلب افراد آن ها را فراموش مي كنند بايد اجتناب شود.نكات اساسي در تهيه و استاندارد كردن آزمون ها 8- توجه به كل محتوا در ساختن آزمون هاي پيشرفت تحصيلي، سازندگان آزمون اغلب بخش هايي از محتواي درس را مورد توجه قرار مي دهند كه ساختن پرسش هاي آزمون در مورد آن ها آسان تر است. بدين ترتيب، ممكن است بعضي از جنبه هاي موضوع مورد اندازه گيري ناديده گرفته شود. اما بايد دانست روايي آزمون بسته به اين است كه محتواي آزمون تمامي جنبه هاي مهم زمينه مورد اندازه گيري را شامل شود. آزموني كه سوال هاي آن همه زمينه هاي مهم را شامل نباشد فاقد روايي محتوايي است.روش اجراي آزمون هاي ميزان شده:آزمون هاي گروهي اجراي بعضي آزمون هاي گروهي با گذراندن يك دوره كوتاه كارآموزي ميسر است. اما اجراي بعضي ديگر از آزمون ها به مهارت و تجربه طولاني تري نياز دارد. معمولا اجراي آزمون هاي گروهي در مقايسه با آزمون هاي فردي با كارآموزي كوتاه تري امكان پذير است. آزنايش كننده بايد آزمايش را چنان ماهرانه و طبق دستورالعمل استاندارد شده برگزار كند كه به هر يك از افراد آزمايش شونده امكان داده شود تا حداكثر استعداد و توانايي خود را در پاسخ دادن به پرسش هاي آزمون نشان دهد. آزمايش كننده بايد قبلا در مورد محتواي آزمون، دستورالعمل اجراي آن و ساير شرايطي كه بايد رعايت شود آگاهي لازم را به دست آورد.اجراي آزمون هاي گروهي نكات مهم در اجراي آزمون هاي استاندارد شده :  شرايطي مشابه با شرايط تهيه و استاندازد آزمون براي كليه آزمايش شوندگان فراهم شود. رعايت كامل دستورالعمل آزمون كوشش در برقراري رابطه مطلوب بين آزمايش شونده و آزمايش كننده به منظور جلب اعتماد آنان(به ويژه در آزمون هاي فردي) گذرانده دوره هاي كارآموزي عملي(علاوه بر فراگيري دانش هاي نظري)اجراي آزمون هاي گروهي 1- شرايط اجراي آزمون: 1- ايجاد شرايط فيزيكي مناسب در جلسه آزمايش(از نظر نور، تهويه، درجه گرما، راحت بودن محل نشستن) نارسايي در هر يك از عواما مذكور موجب مي شود كه ميزان كارآيي آزمايش شوندگان كاهش يابد. اين مساله در مورد آزمون هاي سرعت بيش از آزمون هاي قدرت اثر نامطلوب بر جاي مي گذارد. 2- آزمون شوندگان به راحتي صداي مجري آزمون و راهنمايي هاي او را به راحتي بشنوند. 3- اتاق آزمايش از هر نوع عامل حواس پرتي مانند سر و صدا، تابلوهاي نقاشي، زنگ تلفن، آمد و رفت افراد و صحبت هاي مراقبان جلسه و هر عامل ديگري كه باعث عدم تمركز فكري و كاهش دقت آزمايش شوتدگان مي شود، به دور باشد.اجراي آزمون هاي گروهي 1- شرايط اجراي آزمون: 4- وضعيت روحي و جسمي آزمون شونده نتيجه آزمون را تحت تاثير قرار مي دهد. بنابراين، اجراي آزمون در مورد افراد خسته، عصباني، بي ميل، بيمارو غيره موجب مي شود كه نتيجه آزمون بيانگر نمونه اي از رفتارهاي واقعي آنان نباشد. 5- نحوه برخورد و رفتار آزمايش كننده و حالات روحي او( مانند خستگي،عصبانيت صداي نارسا) مي تواند تا حد زيادي نتيجه آزمون را تحت تاثير قرار دهد.اجراي آزمون هاي گروهي - اقدامات قبل از توزيع دفترچه آزمون: 1- پيش بيني لوازم مورد نياز 2- معرفي مجري و بيان هدف كلي از اجراي آزمون به زبان ساده 3- اجتناب از به كار بردن اصطلاحات فنياجراي آزمون هاي گروهي 3- اداره جلسه آزمايش و اجراي آزمون(وظيفه مجري) ايجاد شرايط استاندارد و همراه با احساس اطمينان براي انجام آزمايش برابر دستورالعمل آزمون در نظر گرفتن يك دستيار براي هر 15 تا 20  نفر آزمايش شونده در مورد آزمايش شوندگان خردسال مانند دانش آموزان دبستان يا دوره راهنمايي توضيحات لازم مطابق دستورالعمل آزمون توسط مجري داده مي شود. اگر آزمايش شونده اي از مجري آزمون سوالي بپرسد، او نبايد در دادن پاسخ مطلبي اضافه بر آن چه كه در دستورالعمل ذكر شده است، بيان كند. اگر به پاسخ هاي غلط نمره منفي تعلق نمي گيرد، اين امر به آزمون شوندگان اعلام شود تا اگر پاسخ سوالي را نمي دانند، بهترين پاسخ را حدس بزنند. كنترل وقت آغاز و پايان جلسه با كرونومتراجراي آزمون هاي گروهي نمره گذاري پاسخ نامه ها قبل از تصحيح و نمره گذاري پاسخ نامه ها با توجه به سه نكته زير مورد بررسي قرار گيرند. 1- نبايد بيش از يك گزينه به عنوان پاسخ صحيح انتخاب شده باشد. 2- براي مواردي كه پاسخ در محل مناسب قرار داده نشده، تصميم گيري شود. 3- در صورتي كه آزمودني از روي اشتباه، پاسخ سوال بعدي را در محل سوالي قبلي كه جواب ان را نمي دانسته علامت زده باشد، پاسخ نامه وي با در نظر گرفته اشتباه در جابه جايي پاسخ ها تصحيح شود. بعد از تعيين تعداد پاسخ هاي صحيح، غلط و سفيد نمره خام آزمودني با احتساب يا بدون احتساب نمره منفي محاسبه شود.اجراي آزمون هاي فردي نكات اساسي در اجراي آزمون هاي انفرادي 1- رعايت كامل دستورالعمل آزمون 2- ايجاد شرايط فيزيكي مطلوب در اتاق آزمايش 3- ايجاد همدلي با آزمودني 4- تكرار پرسش ها( به جز آزمون هاي حافظه) 5- مرتب كردن وسايل آزمايش 6- توجه  به حالات بدني آزمودني 7- كاوش پاسخ هاي مبهم آزمودني 8- مشاهده رفتار آزمودني 9- ارزشيابي پاسخ ها (با توجه به ملاك هاي دستورالعمل) 10- جلب اعتماد آزمودني خردسال 11- آزمايش آزمودني هاي داراي عقب ماندگي ذهني در بخش هاي زماني كوتاهعوامل موثر در نتايج آزمون ها 1- تاثير آزمايش كننده ( جنسيت، سن، نژاد، سطح مهارت، برخورد اجتماعي، پايگاه حرفه اي، و پايگاه اجتماعي- اقتصادي). پژوهش نشان داده است كه رابطه گرم يا سرد آزمايش كننده در نتايج آزمايش گروهي از آزمودني ها تفاوت معني دار ايجاد كرده است. 2- تجارب پيش از آزمايش آزمودني ها. مك كارتي گروهي از دانش آموزان دبستان را دو بار با تست آدمك مورد آزمايش قرار داد. بار اول آزمودني ها پيش از آمدن به جلسه آزمايش، انشايي در باره «بهترين تجارب زندگي خود» و بار دوم انشايي در باره «بدترين تجارب زندگي خود» نوشته بودند. در آزمايش دوم هوشبهر كودكان 4 الي 5 نمره كمتر از آزمايش اول بود. اين تفاوت ممكن است به سبب آشفتگي هاي هيجاني كودكان در مرتبه دوم باشد كه در آن انشايي در باره «بدترين تجارب زندگي خود» نوشته بودند.عوامل موثر در نتايج آزمون ها 3- تمرين ها و آمادگي قبلي آزمودني ها: آشنايي آزمودني ها با نمونه هايي از آزمون ها و تمرين هاي قبلي آنان مي تواند تا حدي در نتيجه آزمايش اثر بگذارد. دليل اين تمرين، يادآوري برخي از پاسخ ها، يادگيري راه حل ها و كسب بينش نسبت به مواد آزمايش بوده است. هم چنين كساني كه در پاشخ دادن به آزمو ن ها ي مختلف تجربه زيادي دارند، اين تجربه آمادگي بيشتري براي پاسخ دادن به آزمون ها در آنان بخ وجود مي آورد. علت اين امر غالبا اعتماد به نفسي است كه اين افراد نسبت به انجام آزمون ها پيدا مي كنن كه ضمن كاهش اضطراب آنان موقعيت بهتري را بريشان فراهم مي كند.ملاحظات اخلاقي و اجتماعي در كاربرد آزمون هاروش هاي برآورد اعتبار آزمون: اعتبار بازآزمايي در مورد استفاده از روش باز آزمايي بايد نكات زير را در نظر گرفت: 1- صفت مورد اندازه گيري از صفات نسبتا پايدار باشد. 2-  آشنايي آزمودني ها با سوال هاي آزمون در آزمايش اول، ممكن است بر نمره آزمايش آن ها اثر بگذارد(اثر انتقال) و ضريب اعتبار بازآزمايي را تحت تاثير قرار دهد. به ويژه اگر فاصله دو ازمايش كوتاه باشد و از چند روز تجاوز نكند. 3- بعضي مهارت ها با تمرين بهبود مي يابند.  نمرات آزمودني ها در آزمون دوم، ممكن است بر اثر تمرين ناشي از اجراي آزمون اول افزايش يابد(اثر تمرين) 4-  اگر فاصله دو آزمون خيلي زياد باشد، ممكن است عامل يادگيري و رشد در اين امر تاثير گذار باشد.برآورد اعتبار آزمون: اعتبار بازازمايي براي مثال، اگر يك آزمون هوش در مورد گروهي از كودكان ، يك بتر در سن 4 سالگي و يك بار در سن 5 سالگي اجرا شود، ضريب همبستگي بين نمره هاي دو بار آزمايش كه مثلا 0.43 شده است ممكن است به صورت هاي زير تفسير شود: 1- ضريب اعتبار آزمون پايين است. 2- سطح هوش كودكان بر اثر رشد افزايش يافته است. 3- تركيبي از دو عامل بالا سبب شده است كه ضريب اعتبار آزمون كم شود. واقعيت اين است كه در برآورد ضريب اعتبار آزمون به طور قطع نمي توان تصميم گرفت كه كدام يك از نتيجه گيريهاي بالا درست تر است. در هر حال، در تفسي ضريب اعتبار آزمون با توجه به فاصله زماني بين دو اجراي آزمون و ويژگي هاي آزمودني ها، بسياري از عواملي را كه ممكن است در ضريب اعتبار محاسبه شده تاثير بگذارند، بايد در نظر گرفت.برآورد اعتبار آزمون: اعتبار بازآزمايي گاهي پايين بودن ضريب اعتبار بازآزمايي به اين معنا نيست كه آزمون اعتبار كافي ندارد. چه بسا خصيصه مورد اندازه گيري در فاصله دو آزمايش تغيير كرده باشد. اما اگر آزمودني براي اندازه گيري خصيصه اي ساخته شده است كه در طول زمان ثابت مي ماند، ناكافي بودن ضريب اعتبار بازآزمايي نشانگر آن است كه آزمون فاقد اعتبار لازم است.برآورد اعتبار آزمون: اعتبار آزمون هاي همتا(Parallel tests) در بعضي موارد يك آزمون داراي دو فرم همتا است، مانند آزمون هوش ريموند كتل كه به صورت دو فرم همتاي A و B تهيه شده است. دو آزمون را در صورتي همتا گويند كه هر دو براي اندازه گيري خصيصه واحدي در مورد جامعه واحدي تهيه شده باشند. گر چه سوال هاي آزمون هاي همتا كاملا يكسان نيستند، اما سطح دشواري سوال ها در هر دو فرم يكسان است. براي برآورد اعتبار آزمون هاي همتا، دو فرم آزمون را يكي پس از ديگري و بدون فاصله زماني و يا با فاصله زماني اجرا كرده، ضريب همبستگي نمره هاي حاصل از دو آزمون محاسبه مي شود.برآورد اعتبار آزمون: اعتبار آزمون هاي همتا(Parallel tests) بر خلاف باز آزمايي، در روش اجراي فرم هاي همتا، واريانس خطاي ناشي ازنمونه هاي مختلف سوال ها مورد بررسي قرار مي گيرد، و اين در صورتي است كه هر دو ازمون بدون فاصله زماني و در يك جلسه اجرا شوند. در اين مورد براي اجتناب از تاثير عامل تمرين مي توان ترتيب اجراي آزمون را در مورد گروه هاي مختلف تغيير داد. شايد مطلوب ترين روش برآورد اعتبار آزمون، اجراي فرم هاي همتاي آزمون در زمان هاي مختلف باشد. بدين ترتيب هر دو نوع خطاي اندازه گيري، يعني خطاي ناشي از نمونه هاي مختلف سوال ها و خطاي ناشي از نمونه گيري زماني در محاسبه ضريب اعتبار به حساب مي آيد. نرم يا هنجار: مفهوم نرم نرم يا هنجار عبارت است از متوسط عملكرد گروه نمونه اي از آزمودني ها كه به روش تصادفي از يك جامعه تعريف شده انتخاب مي شود.  نرم آزمون هاي استاندارد شده بر اساس توزيع نمره هاي خام گروه نمونه اي از آزمودني ها به دست مي آيد. ميانگين و نقطه 50 درصدي اين توزيع، نمونه هايي از متوسط عملكرد گروه و به عبارت ديگر نرم يا هنجار گروه است.  در آزمون هاي گروه مرجع، نرم يا هنجار مقياس محاسبه شده اي است كه نمره خام آزمودني با آن سنجيده مي شود تا عملكرد وي نسبت به متوسط عملكرد گروه مورد ارزشيابي قرار گيرد.نرم يا هنجار: مفهوم نرم براي استاندارد يا ميزان كردن يك آزمون، آن را بر اساس يك دستورالعمل استاندارد شده و تحت شرايط يكسان در باره يك گروه نمونه تصادفي انتخاب شده از جامعه اي كه آزمون در مورد آن استاندارد مي شود اجرا مي كنند. هدف عمده فرايند استاندارد كردن آزمون تعيين توزيع نمره هاي خام گروه معياريابي(گروه نرم) است. سپس نمره هاي به دست آمده به گونه اي از نمره هاي اشتقاقي(derived score)، مانند نمره هاي معادل سني، نمره هاي معادل كلاسي، رتبه هاي درصدي و يا نمره هاي تراز شده تبديل مي شوند. نرم يا هنجار: مفهوم نرم در راهنماي اجراي بيشتر آزمون هاي استاندارد شده، جداول نرم وجود دارد كه با استفاده از آن ها نمره هاي خام آزمودني ها را مي توان به نمره هاي اشتقاقي تبديل و آن ها را تفسير كرد. بدين ترتيب، نرم يك چهارچوب داوري است كه نمره خام آزمودني بر اساس آن تفسير و در باره وي قضاوت مي شود. مقايسه نمره خام آزمودني با جدول نرم به روان شناس امكان مي دهد كه موقعيت آزمودني را نسبت به توزيع نمره هاي خام ساير افراد گروه سني، كلاسي و يا جنسي او تعيين كند.نرم يا هنجار: انتخاب گروه نرم براي اين كه تفسير نمره خام آزمون به درستي انجام گيرد، نرم يا هنجار آزمون بايد با شرايط افرادي كه آزمون در مورد آنان اجرا مي شود همخواني داشته باشد. هنگامي كه نمره خام آزمودني بر اساس جدول نرم تفسير مي شود، بايد ماهيت افراد گروه نرم(سن، جنسيت، زبان مادري، گروه قومي، منطقه جغرافيايي، خصايص فرهنگي، سطح اجتماعي- اقتصادي و غيره) همواره مورد نوجه روان شناس باشد.نرم يا هنجار: انتخاب گروه نرم هنگام ميزان كردن آزمون به منظور تهيه نرم، ابتدا بايد جامعه اي كه قرار است آزمون در باره افراد آن جامعه(جامعه هدف) ميزان شود، به ئقت تعريف گردد. سپس گروه نمونه اي كه معرف اين جامعه باشد، به روش تصادفي از افراد جامعه به عنوان نمونه معياريابي انتخاب شود.  روش نمونه گيري براي انتخاب گروه نرم، ممكن است از ساده ترين روش نمونه گيري(تصادفي ساده) تا پيچيده ترين روش (نمونه گيري طبقه اي و خوشه اي) استفاده شود. بديهي است نمونه اي كه با روش نمونه گيري طبقه اي انتخاب مي شود، به دليل اين كه ار هر طبقه فرعي افراد جامعه(جنس، سن، زبان مادري و ...) نمونه هايي در گروه نرم فرار مي گيرند، بهتر از نمونه اي كه از روش تصادفي ساده انتخاب مي شود، معرف جامعه هدف خواهد بود.نرم يا هنجار: نرم هاي ملي، منطقه اي و محلي اگر جامعه هدف، به صورت كليه افراد يك كشور كه در يك يا چند صفت مشتركند تعريف شود و افراد گروه نرم از اين جامعه انتخاب گردد، نرمي كه بدين ترتيب به دست مي آيد نرم ملي يا كشوري ناميده مي شود.  بريا انتخاب افراد گروه نرم ملي به سبب گسترده و ناهمگوني جامعه ناگزير بايد از روش نمونه گيري خوشه اي و طبقه اي استفاده شود. در جوامع گسترده و ناهمگون لازم است اولا حجم نمونه انتخاب شده نسبتا زياد باشد، ثانيا طوري نمونه گيري شود كه از همه گروه هاي مختلف جامعه نمونه هايي در گروه نرم قرار گيرند.نرم يا هنجار: نرم هاي ملي، منطقه اي و محلي اگر جامعه هدف به صورت كليه افراد يك استان يا منطقه اي از يك كشور كه شامل چند استان همجوار است و در يك صفت مشتركند تعريف شود و افراد گروه نمونه از اين جامعه انتخاب گردد، جداول نرم به دست آمده از نمره هاي خام آزمودني ها، نرم منطقه اي خواهد بود. به عنوان مثال، در مراحل ميزان كردن يك آزمون هوش براي كودكان ايراني ممكن است كشور را بر اساس خصوصيات اقليمي، زبان و گويش و ساير ويژگي هاي مشترك به چند زير جامعه تقسيم و از هر زير جامعه نمونه اي انتخاب و نرم هاي متفاوتي تدوين شود. هر گاه گروه نرم از افراد يك شهر، يك بخش، قسمتي از يك شهر و يا حتي دانش آموزان يك مدرسه انتخاب شود، جدول نرمي كه بدين ترتيب بر اساس نمره هاي خام افراد گروه نرم ساخته مي شود، نرم محلي خواهد بود.نرم يا هنجار: نرم هاي سني و كلاسي نرم هاي سني و نرم هاي كلاسي از جمله نرم هايي هستند كه مصرف كنندگان آزمون ها با آن ها آشنايي دارند. نرم سني(نرم معادل سن تقويمي) نمره مياني يك آزمون است كه افراد گروه سني معيني نمره هاي برابر آن گرفته اند. نرم هاي سني بر حسب سال و ماه و با فاصله هاي يك ماه تدوين مي شوند. به عنوان مثال، نرم سني براي كودكان 5 ساله به صورت زير طبقه بندي مي شود كه در آن ها اعداد سمت چپ، نماينده سال و اعداد سمت راست نماينده ماه هستند.: 0 – 5 سال، 1 – 5 سال و... نرم هاي كلاسي در كشور هايي كه سال تحصيلي 10 ماه است، بر حسب پايه و ماه هاي سال تحصيلي با فاصله يك ماه به صورت زير طبقه بندي مي شوند كه در آن ها اعداد سمت چپ سطح يا پايه تحصيلي و اعداد سمت راست ماه هاي سال تحصيلي را نشان مي دهند. 1 – 4 سال، 2 – 4سال، 3 – 4 سال و....نرم يا هنجار: نرم هاي سني و كلاسي مثلا، طبقه 1-4، به معناي عملكرد دانش آموزان كلاس چهارم در ماه اول يال تحصيلي است. در نظام آموزشي ايران براي تهيه نرم كلاسي، چون سال تحصيلي 9 ماه است، بنابراين طبقه هاي معادل كلاسي در هر پايه تحصيلي شامل 9 طبقه خواهد بود. طبقه بندي نرم كلاسي به فاصله يك ماه بر اين فرضيه استوار است كه با گذشت ماه هاي سال تحصيلي، به تدريج و با آهنگ يكسان سطح پيشرفت دانش آموزان افزايش مي يابد. نرم سني براي سنجش خصايصي به كار مي رود كه با افزايش سن رابطه دارند مانند هوش و بعضي از استعدادهاي شناختي ديگر. نرم كلاسي براي سنجش پيشرفت تحصيلي كه با افزايش پايه تحصيلي افزايش مي يابد به كار مي رود.نرم يا هنجار: نرم هاي سني و كلاسي يكي از محدوديت هاي نرم سني و كلاسي اين است كه واحدهاي مقياس اين دو نرم در طول مقياس برابر نيستند. به عنوان مثال، تفاوت افزايش سطح پيشرفت تحصيلي در فاصله بين معادل هاي كلاسي 2-5 تا 4-5 با افزايش سطح پيشرفت تحصيلي در فاصله هاي معادل هاي كلاسي 2-8 تا4-8 برابر نيست. در عمل واحد هاي نرم سني و معادل كلاسي با افزايش سن و پايه تحصيلي مرتبا كوچك نر مي شوند. بنابراين به سبب ناهمساني در سرعت افزايش توانايي هاي مورد اندازه گيري و در نتيجه نابرابري واحدها، متخصصان اندازه گيري آموزشي و تربيتي ترجيح مي دهند از نرم هايي استفاده كنند كه واحدهاي آن ها در طول مقياس همساني بيشتري داشته باشد.نرم يا هنجار: نرم هاي سني و كلاسي اما به سبب سهولت استفاده از نرم هاي سني و كلاسي، اين نرم ها در سطح مدارس ابتدايي، كه فرض همساني نسبي آهنگ رشد بيشتر صادق باشاست، هم چنان مورد استفاده قرار مي گيرند. با وجود اين، در اين سطح نيز لازم است براي هر يك از گروه هاي سني و يا معادل هاي كلاسي، نمره هاي تراز شده يا رتبه هاي درصدي تهيه شود.نرم يا هنجار: نرم هاي سن هنجاريmodal age norms معمولا همه دانش آموزان يك پايه تحصيلي كه نرم كلاسي براي آن تهيه مي شود سن برابر ندارند و دامنه تغيير سن آن ها اغلب زياد است. با وجود اين، نمره هاي دانش آموزان خيلي جوان تر و افراد مسن تر از افراد متوسط كلاس در محاسبه نرم وارد مي شود. براي تهيه شاخص دقيق تر از متوسط نمره دانش آموزان يك پايه تحصيلي، نمره هاي افراد خيلي جوان تر و افراد خيلي مسن تر حذف و نرم بر اتساس نمره هاي دانش آموزاني كه سن آن ها با سطح پايه تحصيلي شان متناسب است محاسبه مي شود. نرم كلاسي كه بدين ترتيب به دست مي آيد، نرم سني هنجاري ناميده مي شود.نرم يا هنجار: نرم هاي سن عقليmental age norms اصطلاح سن عقلي توسط آلفرد بينه، روان شناس فرانسوي مطرح شد و امروزه در بيشتر آزمون هاي هوشي مورد استفاده قرار مي گيرد. سن عقلي يك آزمودني معين برابر سن تقويمي آن دسته از كودكان همسال او در يك گروه هنجاريابي است كه نمره مياني آن ها با نمره آزمودني مورد نظر برابر باشد. معمولا در مدارس عقب مانده هاي ذهني، طبقه بندي دانش آموزان براي هدف هاي آموزشي بر مبناي سن عقلي انجام مي گيرد.نرم يا هنجار: خارج قسمت هاquotients يكي از روش هاي قديمي تهيه نرمة كه اكنون تقريبا كنار گذاشته شده است، تبديل نرم سني آزمودني به نوعي خارج قسمت بود كه از تقسيم نمره سني يا سن عقلي بر سن تقويمي و ضرب آن در عدد 100به دست آمد. بدين ترتيب خارج قسمت هوش در فرم قديمي آزمون استنفورد بينه از رابطه زير محاسبه مي شد.      (MA/CA) 100 = IQ در اين رابطه، IQ خارج قسمت هوش يا هوشبهر، MA سن عقلي و CA سن تقويمي آزمودني است. هم چنين خارج قسمت تحصيلي(educational quotient) در بعضي از آزمون هاي پيش رفت تحصيلي از راه تقسيم نرم سني بر سن تقويمي به دست مي آمد. نرم يا هنجار: نرم هاي درصدي نرم هاي درصدي بر اساس نمره هاي خام آزمودني هاي گرو نرم كه با فاصله طبقه اي معين طبقه بندي مي شوند، به دست مي آيد. هر نمره خام را نمره درصدي(percentile) و درصد افراد نرم را كه زير نمره معيني قرار ميگيرد رتبه درصدي(percentile rank) مي نامند. به عنوان مثال، در جدول شماره 1 نمره 72 در طبقه دوم از بالا نمره درصدي است كه رتبه درصدي آن 97 است، يعني نمره 97 درصد افراد زير آن قرار دارد.نرم يا هنجار: نرم هاي درصدي براي روشن شدن روش محاسبه نرم درصدي به جدول شماره 8-1 توجه كنيد. در اولين ستون سمت چپ جدول، فاصله نمره ها با فاصله طبقه اي 5، در ستون دوم اعداد مياني هر طبقه و بالاخره تراكمي زير اعداد مياني طبقه ها را نشان مي دهد. براي محاسبه فراواني تراكمي زير عدد مياني هر طبقه كافي است نصف فراواني مطلق آن طبقه را با مجموع فراواني هاي مطلق طبقه هاي پايين تر جمع كنيم. به عنوان مثال، فراواني تراكمي زير عدد مياني براي پايين ترين طبقه برابر 0/5(0/5=يك دوم + 0 ) و براي دومين طبقه از پايين برابر 7/5 است.(7/5=13:2 + 1). رتبه درصدي هر طبقه از حاصل ضرب فراواني تراكمر زير عدد مياني آن طبقه در N : 100 به دست مي ايد. (N مجموع فراواني هاي مطلق و يا تعداد افراد گروه نرم است).نرم يا هنجار: نرم هاي درصدينرم يا هنجار: نرم هاي درصدي به سبب سهولت محاسبه و تفسير رتبه هاي درصدي، در جدول هاي نرم بيشتر آزمون هاي استاندارد شده از اين نرم استفاده مي شود. در اين جدول ها، نرم هاي درصدي براي گروه هاي سني، پايه هاي تحصيلي، شغلي، جنسيت و ساير گروه هاي محاسبه مي شود. نا همساني واحدهاي رتبه ها در نرم هاي درصدي نيز مانند نرم هاي سني و كلاسي از جمله محدوديت هاي نرم درصدي است. چنان كه از نمودار 8-1 ملاحظه مي شود، واحد هاي رتبه هاي درصدي از نوع مقياس رتبه اي هستند نه مقياس فاصله اي. با توجه به نمودار شماره 8-1 ملاحظه مي شود كه فاصله بين رتبه هاي درصدي 5 و 0 يا 90 و 95 بزرگ تر از فاصله بين رتبه هاي 40 و 45 يا 60 و 65 است. با وجودي كه تفاوت عددي هر دسته از اين دو رتبه با يكديگر برابرند، اما اندازه رتبه هاي درصدي برابر نيستند. زيرا به سبب خاصيت زنگوله اي بودن نمره ها، هر چه از دو حد انتهايي توزيع به حد وسط نزديك تر مي شويم اندازه رتبه ها مرتبا كاهش مي يابند.نرم يا هنجار: نرم هاي درصدي به سبب انباشته شدن رتبه هاي درصدي در وسط و پراكندگي آن ها در دو انتهاي توزيع، تفسير تغييرات و تفاوت هاي نرم هاي درصدي دشوار مي شود. به عنوان مثال، تفاوت پيشرفت تحصيلي دو دانش آموز كه يكي رتبه 5 درصدي و ديگري رتبه 10 درصدي گرفته است، با تفاوت دو دانش آموز ديگر كه رتبه درصدي يكي 40 و رتبه درصدي ديگري 45 است، برابر نيست. تفاوت بين رتبه هاي 5 و 10 درصدي بيشتر از تفاوت بين رتبه هاي 40 و 45 درصدي است، زيرا واحدهاي مقياس در مورد دو رتبه اول بزرگ تر از واحد هاي رتبه ها ي دوم است.  با وجود اين، چنان چه استفاده كنندگان از اين نرم، به نابرابري واحدهاي رتبه ها در طول مقياس توجه كنند و براي تفاوت رتبه هاي انتهايي در مقايسه با رتبه هاي مياني، وزن بيشتري قايل باشند، مي توانند آن ها را به گونه اي روشن تر تفسير كنند.نرم يا هنجار: نرم نمره هاي تراز شده(standard score norms)بر خلاف نرم درصدي، نمره هاي تراز شده از نوع مقياس فاصله اي هستند كه اندازه واحدهاي آن ها در سرتاسر مقياس برابرند. نمره هاي تراز شده، نمره هاي تبديل شده اي هستند كه مي توان آن ها را بر حسب ميانگين و انحراف معيار دلخواه محاسبه كرد. نمره هاي تراز شده انئاع مختلف دارند كه از آن جمله اند نمره هاي z، نمره هاي Z، نمره هاي CEEB(Colledge Entrance Examination Bord، نمره هاي امتحانات ورودي دانشگاه ها)، نمره هاي AGCT(Army General Classification Test، آزمون هاي ارتشي آلفا و بتا)، هوشبهر انحرافي(deviation  IQ)، نمره هاي نه بخشي(stanine scores)، و نمره هاي T .در عمل همه اين نرم ها بر مبناي نمره z محاسبه مي شوند.نرم يا هنجار: نرم نمره هاي تراز شده به نمودار ص 240 كتاب شريفي(1377) مراجعه نماييد.نرم يا هنجار: نمره z نمره z از رابطه زير به دست مي آيد. در اين رابطه، X نمره خام،    ميانگين نمره هاي خام افراد گروه نرم و s انحراف معيار نمره هاي خام افراد گروه نرم است. با تبديل نمره هاي خام به نمره z توزيع جديدي به دست مي آيد كه ميانگين آن برابر با صفر و انحراف معيار آن برابر يك است. شكل منحني توزيع جديد با شكل توزيع نمره هاي خام آن يكسان است. در جدول شماره 8-1 نمره هاي z اعداد مياني طبقه ها در ستون 6 نشان داده شده است. به عنوان مثال، نمره z براي اعداد ميانياولين طبقه از بالا 2/59 است. در نمودار 8-1 نيز در خط پايه منحني نمره z از 4- تا 4+ نشان داده شده است.نرم يا هنجار: نمره هاي Z چون نمره z داراي ارقام اعشاري و نيمي از اين نمره ها در توزيع نرمال منفي است، بنابراين كاركردن با اين نمره ها تا اندازه اي دشوار است. اگر نمره z را در عدد ثابت 10 ضرب و حاصل ضرب را با عدد ثابت 50 جمع كنيم نمره هاي Z به دست مي آيد كه ميانگين آن ها 50 و انحراف معيار آن ها 10 است. شكل توزيع نمره هاي Z نيز مانند توزيع نمره هاي اصلي افراد گروه نرم با آن يكسان است. نمره هاي Z در ستون 7 جدول 8 – 1 نشان داده شده اند.نرم يا هنجار: نمره هاي تراز شده بهنجار(نرمال) شده همه نرم هاي نمره هاي تراز شده كه در بالا به آن ها اشاره شد، تبديل خطي ساده نمره هاي خام هستند. ميانگين و انحراف معيار توزيع نمره هاي تبديل شده با ميانگين و انحراف معيار نمره هاي خام تفاوت مي كند، اما شكل توزيع در هر دو مورد يكسان است. تبديل گروهي از نمره هاي خام به نمره هاي تراز به هنجار شده با محاسبه رتبه هاي درصدي نمره هاي خام شروع مي ود. سپس با استفاده از جدول سطح منحني نرمال، نمره هاي z هر يك از رتبه هاي درصدي به دست مي آيد.  فرض كنيد مي خواهيم عدد مياني(ستون 2) جدول شماره 8-1 را به نمره هاي تراز به هنجار شده تبديل كنيم. چون رتبه هاي درصدي اين نمره ها محاسبه شده است(ستون 5)، لذا كافي است اين رتبه ها را با تقسيم كردن بر صد به نسبت تبديل كرده و سپس z مربوط به آن را از جدول سطح منحني نرمال پيدا كنيم. نمره هاي z كه بدين طريق به دست مي آيند با علامتzn يعني نمره هاي z نرمال شده نشان داده مي شوند. آن گاه ساير نمره هاي تراز شده مانند نمره هاي CEEB، T،AGCT، و IQ را بر مبناي zn محاسبه مي كنيم.نرم يا هنجار: نمره هاي CEEB نمره هاي CEEB كه معمولا در آزمون هاي ورودي دانشگاه ها به كار مي روند، نمره هايي هستند كه ميانگين آن ها 500 و انحراف معيار آن ها 100 است. بنابراين براي تبديل نمره هاي z به نمره هاي CEEB كافي است از رابطه زير استفاده شود. 500 + 100 *  zn = CEEB شكل توزيع نمره هاي CEEB نيز مانند شكل توزيع نمره هاي خام افراد گروه نرم است. نمره هاي CEEB محاسبه شده براي نمره هاي مياني طبقه ها در ستون 8 جدول 8-1 نشان داده شده است.نرم يا هنجار: نمره هاي T نمره هاي T نمره هاي تراز شده اي هستند كه ميانگين آن ها 50 و انحراف معيار آن ها 10 است. براي محاسبه نمره هاي T كافي است اندازه هاي zn را در 10 ضرب كرده حاصل را با 50 جمع كنيم يعني: 50 +10* zn = Tنرم يا هنجار: نمره هاي AGCT اين نمره ها كه براي نخستين بار براي نمره هاي آزمون ارتشي طبقه بندي كلي محاسبه شد، نمره هاي تراز شده اي هستند كه با ميانگين 100 و انحراف معيار 20 محاسبه مي شوند. توزيع اين نمره ها كه همان شكل توزيع نمره هاي اوليه را دارد، در ستون 9 جدول 8-1 براي اعداد مياني هر طبقه محاسبه شده است. روش محاسبه بر اساس فرمول زير انجام مي گيرد. 100 + 20 * zn = AGCTنرم يا هنجار: نمره هاي انحرافي آزمون وكسلرهوشبهر انحرافي آزمون وكسلر داراي ميانگين 100 و انحراف معيار 15 است كه از رابطه زير به دست مي آيد.100 + 15 * zn = IQ (وكسلر)در نمره هاي تراز شده آزمون هاي فرعي اين تست ميانگين برابر 10 و انحراف معيار برابر 3 فرض شده است.نرم يا هنجار: نمره هاي هوشبهر انحرافي آزمون استنفورد- بينه در اين آزمون ميانگين برابر 100 و انحراف معيار برابر 16 فرض شده است. بنابراين محاسبه هوشبهر انحرافي در آزمون استنفورد بينه از رابطه زير به دست مي آيد. 100 + 16 * = zn IQنرم يا هنجار: نمره هاي نه بخشي نمره هاي zn را مي توان به هر نمره تراز شده و با هر ميانگين و انحراف معياري تبديل كرد. يكي از نرم هاي معروف كه براي درجه بندي افراد در نيروي هوايي آمريكا و بعدها براي مقاصد آموزشي و ارزشيابي مورد استفاده فراوان پيدا كرد، نمره هاي نه بخشي(standard nine=stanine) است. مقياس نه بخشي، كه مقياس نمره هاي تراز شده با ميانگين 5 و انحراف معيار تقريبا 2 است، اين مقياس داراي نه بخش است كه با اعداد از 1 تا 9 نشان داده مي شوند. چنان كه در نمودار(ص 240) ملاحظه مي شود، در يك توزيع نرمال درصد معيني از افراد در هر يك از 9 بخش مقياس قرار مي گيرند. پنجمين بخش اين مقياس كه ميانگين آن است به فاصله يك چهارم انحراف معيار از دو طرف ميانگين توزيع قرار  مي گيرد و ساير بخش ها نيز هر يك ، يك دوم انحراف معيار از توزيع نرمال را شامل مي شوند.نرم يا هنجار: نمره هاي نه بخشي بايد دانست كه نمره هاي 9 بخشيع نمره هاي تراز شده واقعي نيستند، زيرا بخش اول و نهم آن بي انتهاست. در نمودرا 8-1 ملاحظه مي شود كه اندازه هاي واحدها در بخش هاي 2 تا 8 يكسانند، اما بخش يك و بخش 9 گسترده تر از ساير بخش ها است.  يكي از مزيت هاي نمره هاي نه بخشي اين است كه به جاي نقاط معين، دامنه هايي از نمره ها را نشان مي دهند. اين امر موجب مي شود كه اجرا كنندگان آزمون ها تصور نكنند كه نمره هاي مشاهده شده  آزمودني ها، نمره هايي دقيق و يا اندازه هاي تغيير ناپذير خصايص رواني است.  چنان كه در بحث از خطاي معيار اندازه گيري و برآورد حدود نمره هاي واقعي آزمودني ملاحظه شد، نتيجه آزمون را نبايد يك نمره منحصر به فرد و تغيير ناپذير دانست. بلكه همواره نمره واقعي آزمودني در سطح اطمينان معين در فاصله بين دو نمره قرار مي گيرد. نمره هاي نه بخشي، نتايج آزمون ها را بر اساس اين اطمينان مشخص مي كنند.نرم يا هنجار: تاريخ تنظيم جداول نرميكي از مسايل عمده در مورد جداول نرم آن است كه اين جداول معمولا سال ها قبل تهيه و تنظيم شده اند. چون تهيه و تنظيم جداول نرم مستلزم صرف اعتبار و هزينه هاي زيادي است، بنابراين امكان تجديد نظر در آن ها محدود است. تهيه كنندگان آزمون ها معمولا هر 10 سال يك بار در جداول نرم تجديد نظر مي كنند. از آن جا كه تجارب و محيط زندگي كودكان و دانش آموزان و هم چنين برنامه ها و روش هاي آموزشي در حال تغيير است، نرم هايي كه در سال هاي گذشته تهيه شده اند در زمان حال فاقد ارزش و اعتبار كافي هستند. به عنوان مثال چون روش تدريس رياضيات امروزه لااقل در مدارس ابتدايي بهتر از سال هايپيش است، اگر دانش آموزي در يك آزمون رياضي كه نرم آن 10 سال پيش تهيه شده است رتبه 50 درصدي را به دست آوردة چنان چه با نرم امروز سنجيده شود، ممكن است رتبه درصدي وي با اين نرم كاملا متفاوت باشد. به همين دليل است كه اجرا كنندگان آزمون ها بايد تاريخ تنظيم جداول نرم آزمون را مورد توجه قرار داده و در تعبير و تفسير نتايج آزمون ها محدوديت هاي مربوط به آن را مد نظر قرار دهند.نيمرخ هاي رواني نيم رخ رواني آزمودني به صورت نموداري ارائه مي گردد كه در آن نتايج اجراي چند آزمون بر اساس نرم يا مقياس واحد نشان داده مي شود. در نيم رخ رواني، نمره هاي آزمودني در آزمون هاي مختلف و يا در آزمون هاي فرعي يك آزمون، ممكن است به صورت رتبه هاي درصدي، نمره هاي تراز شده و يا هوشبهر انحرافي نشان داده شود. نيم رخ رواني را مي توان به صورت نمودار ستوني يا نمودار چند ضلعي ترسيم كرد. براي رسم نيم رخ رواني، ابتدا دو محور عمود بر هم رسم مي كنيم و سپس روي محور افقي خصايص مورد اندازه گيري و روي محور عمودي نمره تراز شده يا نمره هنجاري خصايص اندازه گيري شده مشخص مي شود.نيمرخ هاي رواني براي تهيه نيم رخ ستوني كافي است نام صفت مورد اندازه گيري رسم گردد. در نيم رخ هاي چند ضلعي نيز به همين ترتيب عمل مي شود. در نيم رخ هاي رواني، براي سهولت تفسير نتايج آزمون ها، خطي كه حد متوسط يا بهنجار را نشان مي دهد كشيده مي شود تا نمره هاي بالاتر و يا پايين تر از حد بهنجار مشخص شوند. براي روشن تر شدن مطالب بالا به دو نمونه از نيم رخ هاي رواني مربوط به دو آزمودني همراه با تفسير نتايج آن در كتاب(شريفي، ص 245 و 246 ) توجه كنيد.ساختن آزمون هاي استانداد شده ساختن و استاندارد كردن آزمون، عملي پيچيده و فني بوده و مستلزم دانش و مهارت سطح بالاي تخصص در همه زمينه هاي روان سنجي است. سازندگان آزمون علاوه بر داشتن صلاحيت علمي و تخصصي و دانش نظري در روان سنجي، بايد در مورد انواع آزمون هاي مختلف نيز از تجارب عملي كافي برخوردار باشند اقدام به ساختن و استاندارد كردن آزمون در هر زمينه منوط به برقراري شرايط زير است: 1) آزمون هاي معتبر و استاندارد شده كافي در آن زمينه موجود نباشد. 2) سازندگان آزمون علاوه بر داشتن نيروي تخصصي در زمينه هاي مختلف روان سنجي از منابع مالي كافي برخوردار باشند. 3) آزموني كه ساخته مي شود در مورد تعداد زيادي از آزمودني ها و براي مدت نسبتا طولاني براي هدف هاي تحصيلي و شغلي، تشخيص هاي باليني و ساير مقاصد آموزشي و درماني به كار بسته شود.مراحل ساختن آزمون هاي استانداد شده 1) تعيين هدف هاي تهيه آزمون: سازندگان آزمون ابتدا بايد هدف هاي آزموني كه قصد ساختن آن را دارند تعيين كنند. براي اين كار لازم است به پرسش هاي زير توجه شود. 1- آزمون براي كدام يك از مقاصد روان سنجي مانند ارزشيابي آموزشي، راهنمايي تحصيلي، راهنمايي شغلي، گزينش و يا هدف هاي تشخيصي ساخته مي شود؟ 2- آزمون مورد نظر براي سنجش كدام يك از خصايص آزمودني ها مانند پيشرفت تحصيلي، هوش، استعداد و يا صفات شخصيت آنان به كار خواهد رفت؟ اگر آزمون پيشرفت تحصيلي است، براي سنجش پيشرفت تحصيلي آزمودني ها در چه سطحي و در مورد كدام درس ساخته مي شود؟مراحل ساختن آزمون هاي استانداد شده 1) تعيين هدف هاي تهيه آزمون(ادامه): 4- اگر آزمون از نوع آزمون هوش، استعداد و يا صفات شخصيتي است، بر اساس كدام يك از نظريه هاي روان شناسي و روان سنجي ساخنه مي شود؟ 5- محتواي آزمون مورد نظر چيست و نوع سوال هاي آن كلامي است يا غير كلامي،چند گزينه اي است و يا كوته پاسخ؟ 6- آزمون در مورد كدام گروه سني و يا كلاسي اجرا مي شود و براي چه نوع نرمي تهيه خواهد شد؛ نرم محلي، نرم منطقه اي و يا نرم ملي؟مراحل ساختن آزمون هاي استانداد شده 2- تهيه محتواي فرم تجربي آزمون پاسخ هاي دقيق سازندگان آزمون به پرسش هاي بالا و انجام بررسي هاي لازم در اين مورد با آن ها امكان مي دهد كه نسبت به تدوين محتواي آزمون به صورت فرم تجربي اقدام كنند. نظرخواهي از متخصصان موضوعي . روان شناسيان و مرور آزمون هاي مشابه كه در ساير كشورها به كار بسته شده است، سازندگان آزمون را در تدوين محتواي آزمون كمك خواهد كرد.مراحل ساختن آزمون هاي استانداد شده 2- تهيه محتواي فرم تجربي آزمون(ادامه) پس از تعيين هدف ها و محتواي آزمون، پرسش هاي آزمون نوشته مي شوند. تعداد پرسش هايي كه در فرم اوليه آزمون گنجانده مي شود، بايد بيش از تعداد پرسش هايي باشد كه در فرم نهايي يا فرم اصلي آزمون وجود خواهد داشت. علت اين امر آن است كه در مراحل تجديد نظر در پرسش ها و يا تجزيه و تحليل آن ها احتمالا برخي پرش ها حذف خوهند شد. پرسش هاي تدوين شده بايد توسط تعدادي از متخصصان موضوعي، روان شناسان و متخصصان روان سنجي مورد بررسي قرار گيرند و تجديد نظر لازم در آن ها به عمل آيد. پس از تجديد نظر در پرسش ها، فرم تجربي آزمون  تنظيم و به تعداد مورد نياز چاپ و تكثير مي شود.مراحل ساختن آزمون هاي استانداد شده 2- تهيه محتواي فرم تجربي آزمون(ادامه) در بعضي موارد سازندگان آزمون تصميم مي گيرند آزموني را كه در ساير كشورها استاندارد شده است در ايران هنجاريابي كنند. براي اين كار نخست بايد آزمون مورد نظر به فارسي ترجمه شود. ترجمه آزمون بايد به گونه اي باشد كه اگر مترجم ديگري كه به زبان فارسي و زبان اصلي آزمون مورد بحث تسلط كامل دارد، آن را به زبان اصلي(زبان خارجي) ترجمه كند، محتواي اين ترجمه با محتواي آزمون به زبان اصلي كاملا يكسان باشد.  پس از ترجمه آزمون، سازندگان آزمون ممكن است بعضي از موارد آن را كه با فرهنگ ايراني كاملا بيگانه است حذف و به جاي آن ها ماده هاي ديگري كه از نظر اصول روان سنجي همان فرايند ذهني را اندازه مي گيرند قرار دهند. پس از انجام اين كار و پس از بررسي و تجديد نظرهاي لازم، فرم تجربي آزمون تدوين و به تعداد مورد نياز چاپ و تكثير مي شود.مراحل ساختن آزمون هاي استانداد شده 3 ) اجراي فرم تجربي آزمون از جامعه هدف يعني جامعه اي كه سرانجام آزمون استاندارد شده براي سنجش خصايص آنان به كار بسته خواهد شد، با روش نمونه گيري تصادفي، يك گروه نمون انتخاب و آزمون در مورد افراد اين گروه اجرا مي شود. سپس پاسخ خاي آزمودني ها به هر يك از پرسش ها بر اساس دستوالعمل آزمون تصحيح و نمره گذاري مي شود. مراحل ساختن آزمون هاي استانداد شده 4) تجزيه و تحليل سوال هاي آزمون سوال هاي فرم تجربي آزمون كه در مورد گروه نمونه تصادفي از آزمودني ها اجرا شده است، مورد تجزيه و تحليل قرار مي گيرند(فصل 5). شخص هاي آماري هر يك از سوال ها، ضرايب همبستگي آن ها با يكديگر، با نمره كل آزمون و با ساير ملاك هاي خارجي محاسبه مي شود. سوال هاي نامناسب يعني سوال هايي كه فاقد ضريب تشخيص و اعتبار لازم بوده اند حذف مي شوند. سپس ضريب اعتبار (همساني دروني) آزمون پس از حذف سوال هاي نامناسب با استفاده از روش دو نيمه كردن، روش كودر- ريچادسون و يا ساير روش هاي مناسب برآورد مي شود. آن گاه ميانگين، انحراف معيار، خطاي معيار اندازه گيري و ساير شاخص هاي آماري آزمون محاسبه مي گردد.مراحل ساختن آزمون هاي استانداد شده 4) تجزيه و تحليل سوال هاي آزمون(ادامه) در صورتي كه ازمون داراي پرسش هاي چند گزينه اي است، اين پرسش ها نيز مورد تجزيه و تحليل قرار مي گيرند و در صورت لزومة تجديد نظر در گزينه ها و يا سوال هاي آزمون به عمل مي آيد. پس از انجام مراحل بالا، سوال هاي آزمون بر حسب سطح دشواري محاسبه شده به ترتيب از آسان به مشكل تنظيم و فزم جديد آزمون تدوين مي شود.مراحل ساختن آزمون هاي استانداد شده 5) وارسي تجزيه و تحليل سوال هاي آزمون ازموني كه بر اساس تجزيه و تحليل مرحله قبل تدوين شده است مجددا در مورد يك گروه نمونه از آزمودني ها كه به روش تصادفي از جامعه هدف انتخاب شده است اجرا مي شود. نتايج حاصل از اين آزمايش بر اساس آن چه در مرحله قبلي گفته شد، مورد تجزيه و تحليل قرار مي گيرد. با مقايسه نتايج حاصل از دو آزمايش مي توان اعتبار يافته هاي مرحله قبل را از روي نتايج اين مرحله مورد بررسي و قضاوت قرار داد. در هر حال، در اين مرحله نيز پس از حذف سوال هاي نامناسب، شاخص هاي آماري آزمون محاسبه و سوال هاي آن از آسان به مشكل تنظيم و فرم نهايي آزمون تدوين مي شود.مراحل ساختن آزمون هاي استانداد شده 6) تهيه و تنظيم جدول هاي نرم آزمون چنان چه گروه نمونه اي كه آزمون فرم تجربي در مرحله دوم در باره آن اجرا شده است به قدر كافيزياد و در سطح اطمينان لازم آماري معرف جامعه هدف بوده و هيچ يك از سوال هاي آزمون در اين مرحله حذف يا تعديل نشده باشد، مي توان از روي نمره هاي خام آزمودني ها جدول هاي نرم آزمون را تنظيم كرد. اما در هر حال بهتر است آزمون فرم نهايي بار ديگر در مورد گروه نمونه بزرگ آماري از افراد جامعه هدف اجرا شود. پس از اجراي مجدد و نمره گذاري نتايج آزمون، مي توان با استفاده از روش هاي مطرح شده در بخش اول اين فصل، پس از محاسبه ميانگين و انحراف معيار نمره هاي خام، به تهيه و تنظيم جدول هاي نرم آزمون اقدام كرد.مراحل ساختن آزمون هاي استانداد شده 6) مطالعه در مورد روايي ملاكي و روايي سازه آزمون گر چه در مراحل استاندارد كردن آزمون برخي از شواهد روايي آزمون مانند روايي محتوايي، همبستگي هر يك از سوال ها با كل نمره ازمون(همساني دروني) به عنوان يكي از شواهد روايي سازه، و در پاره اي موارد همبستگي سوال ها با برخي ملاك هاي خارجي مورد مطالعه قرار مي گيرند، اما انجام مطالعه مستمر براي برآورد روايي ملاكي و روايي سازه آزمون تدوين شده امري اساسي است.مراحل ساختن آزمون هاي استانداد شده 6) مطالعه در مورد روايي ملاكي و روايي سازه آزمون(ادامه) براي اين منظور، سازندگان آزمون بايد با در نظر گرفتن ملاك هاي خارجي و با مطالعه در مورد شواهد سازه آزمون، در آزمون هاي تدوين شده مي توان همبستگي نمره هاي آن ها را با نمره هاي آزمون هاي مشابهي كه قبلا در مورد جامعه هدف استاندارد شده است به عنوان يكي از شاخص هاي روايي آزمون مورد بررسي قرار داد. همبستگي بين نمره هاي آزمون هوش و استعداد و نمره هاي پيشرفت تحصيلي آزمودني ها نيز شاخص ديگري از روايي آزمون را به دست خواهد داد.مراحل ساختن آزمون هاي استانداد شده 6) مطالعه در مورد روايي ملاكي و روايي سازه آزمون(ادامه) در آزمون هاي علايق تحصيلي، تفاوت ميانگين نمره هاي تحصيلي افراد موفق با افراد ناموفق در رشته هاي تحصيلي و هم چنين همبستگي بين نمره هاي آزمون علايق تحصيلي و درجه بندي علايق توسط معلمان مي تواند به عنوان شاهدي از روايي سازه و يا روايي ملاكي آزمون تلقي شود. در آزمون هاي شخصيت، همبستگي بين نمره هاي آزمون و صفات شخصيتي ازمودني ها كه توسط دوستان شان درجه بندي مي شود و هم چنين توافق بين نمره هاي آزمون هاي تشخيصي و باليني مانند آزمون سنجش اضطراب با درجه بندي اضطراب آزمودني ها توسط روان پزشكان و روان شناسان باليني شواهدي از روايي سازه آزمون هاي مذكور را به دست مي دهند.نكات اساسي در تهيه و استاندارد كردن آزمون ها ا) راهنماي اجراي آزمون راهنماي اجراي آزمون بايد استاندازد شده و كاملا روشن باشد. در راهنما بايد نوع كاري كه آزمودني بايد انجام دهد و چگونگي انجام آن به گونه روشن شرح داده شود. لازم است كه براي آشنا شدن آزمودني ها با نوع سوال ها و چگونگي پاسخ دادن به آن ها، چند سوال نمونه در راهنماي آزمون مطرح و طرز پاسخ دادن به آن ها توضيح داده شود.نكات اساسي در تهيه و استاندارد كردن آزمون ها ا) راهنماي اجراي آزمون در آزمون هايي كه به پاسخ هاي غلط نمره منفي داده مي شود، بايد اين نكته در راهنماي اجراي آزمون ذكر گردد. اگر قرار است به پاسخ هاي غلط نمره منفي داده نشود، اين نكته نيز بايد در راهنماي اجراي آزمون به گونه صريح مطرح شده و به آزمودني ها گفته شود كه اگر پاسخ سوالي را نمي دانند، از بين پاسخ هاي پيش نهادي يا گزينه هاي آزمون بهترين پاسخي را كه به نظرشان درست است انتخاب كنند. هم چنين در راهنماي آزمون بايد زمان استاندارد شده براي پاسخ دادن به پرسش هاي آزمون به آزمودني ها گفته شود. زمان استاندارد براي هر آزمون عبارت از ميانگين زمان صرف شده توسط 75 درصد آزمودني ها براي كامل كردن آزمون در مراحل اجراي فرم تجربي است.نكات اساسي در تهيه و استاندارد كردن آزمون ها 2- نمره گذاري آزمون آزمون بايد به گونه اي طراحي شود كه نمره گذاري پاسخ هاي آزمودني ها به آساني و به سرعت امكان پذير باشد و تا جايي كه امكان دارد نمره گذاري پاسخ ها به صورت عيني انجام گيرد. اعتبار و پايايي آزمون نبايد به سبب ناپايايي نمره گذاري آن كاهش يابد. وزن يا نمره اي كه براي هر سوال در نظر گرفته مي شود بهتر است با سطح دشواري سوال متناسب باشد. بدين معنا كه براي سوال هاي آسان وزن كمتر و براي س.ال هاي دشوار وزن بيشتري منظور شود.نكات اساسي در تهيه و استاندارد كردن آزمون ها 3- تعداد سوال هاي آزمون هر چه تعداد سوال هاي آزمون بيشتر باشد، اعتبار و پايايي آن بيشتر است. آزمون يا بايد داراي تعداد زيادي سوال باشد كه به هر يك از آن ها نمره جداگانه اي داده مي شود و يا شامل تعداد كمتري از تكاليف باشد كه به هر يك از آن ها نمره خاصي تعلق مي گيرد. گنجاندن يك سوال محاسبه اي كه يافتن پاسخ درست آن مستلزم صرف وقت زياد است سوال نامناسبي به شمار مي رود. زيرا آزمودني در ازاي چندين دقيقه وقتي كه براي پاسخ دادن به آن صرف مي كند، نمره اي برابر پاسخ درست سوال هايي مي گيرد كه با صرف چند ثانيه پاسخ درست آن ها را پيدا مي كند.بنابراين بايد زمان و سطح مهارت لازم براي پاسخ دادن به همه سوال ها در هر بخش آزمون تقريبا يكسان باشد يا نمره هر سوال با سطح دشواري و زمان لازم براي يافتن پاسخ درست آن متناسب باشد.نكات اساسي در تهيه و استاندارد كردن آزمون ها 4- سطح دشواري سوال هاي آزمون آزمون بايد با پرسش هايي شروع شود كه همه آزمودني ها به راحتي بتوانند به آن ها پاسخ درست بدهند. سوال هاي اول آزمون نبايد دشوار بوده و موجب دلسردي آزمودني ها شوند. بهد از چند سوال خيلي آسان كه در ابتداي آزمون گنجانده مي شوند، سطح دشواري سوال هاي بعدي آزمون بايد به تدريج افزايش يابد. بايد بين عملكرد آزمودني ها در هر يك از سوال ها و عملكرد آنان در كل آزمون همبستگي مثبت موجود باشد. اگر همبستگي بين يك سوال با نمره كل آزمون منفي و يا خيلي كم باشد، احتمالا بدان معناست كه آن سوال خصيصه اي را اندازه مي گيرد كه با ان چه كه به وسيله كل آزمون سنجيده مي شود تفاوت دارد.نكات اساسي در تهيه و استاندارد كردن آزمون ها 5- سوال هاي چند گزينه اي پرسش هاي چندگزينه اي به سبب آن كه نمره گذاري آن ها به آساني و به سرعت امكان پذير است، در اغلب آزمون هاي مداد- كاغذي مورد استفاده قرار مي گيرند. اما، نمره هاي حاصل از اين نوع سوال ها ممكن است تا حدي با نمره واقعي آزمودني ها متفاوت باشد. به همين دليل بعضي از سازندگان آزمون، پرسش هايي را ترجيح مي دهند كه آزمودني پاسخ ها را از خزانه حافظه خود بازيابي و آن ها را توليد كند. در آزمون هايي كه با پرسش هاي چند گزينه اي ساخته مي شوند، مي توان در ازاي هر پاسخ غلط،..... نمره (n تعداد گزينه هاي پاسخ هاست) از نمره  هاي پاسخ هاي درست آزمودني كم كرد و بدين ترتيب عامل حدس و گمان را از بين برد. البته اين در صورتي است كه براي هر پاسخ درست يك نمره در نظر گرفته شده باشد.  در آزمون هايي كه با سوال هاي 5 يا 6 گزينه اي ساخته مي شوند، احتمال يافتن تصادفي پاسخ هاي درست كمتر از سوال هاي 3 يا 4 گزينه اي است. چنان چه در مراحل استاندارد كردن آزمون از فرمول تصحيح براي حذف عامل حدس و گمان استفاده شده است، در اجرا و نمره گذاري آزمون فرم نهايي نيز بايد نمره گذاري آزمون بر همين اساس انجام گيرد.نكات اساسي در تهيه و استاندارد كردن آزمون ها 6- دامنه تغيير سوال ها آزمون ها معمولا با سوال هاي متعدد و گوناگون ساخته مي شوند. سازندگان آزمون بايد به اين نكته توجه داشته باشند كه در هر يك از بخش هاي آزمون سوال هايي را بگنجانند كه همه آن ها توانايي واحدي را بسنجند. بنابراين، در هر يك از بخش هاي فرعي آن از گنجاندن سوال هاي نامربوط به آن بخش بايد اجتناب كنند.نكات اساسي در تهيه و استاندارد كردن آزمون ها 7- محتواي آزمون در آزمون هايي كه براي اندازه گيري استعداد و توانايي شغلي به كار مي روند، بايد پرسش هايي در محتواي آزمون گنجانيده شوند كه به طور مستقيم يا غير مستقيم در موفقيت آن شغل موثر باشند. بنابراين از طرح سوال هايي كه به محفوظات، دانش نظري محض و يا آموخته هاي كلاسيك مربوطند و اغلب افراد آن ها را فراموش مي كنند بايد اجتناب شود.نكات اساسي در تهيه و استاندارد كردن آزمون ها 8- توجه به كل محتوا در ساختن آزمون هاي پيشرفت تحصيلي، سازندگان آزمون اغلب بخش هايي از محتواي درس را مورد توجه قرار مي دهند كه ساختن پرسش هاي آزمون در مورد آن ها آسان تر است. بدين ترتيب، ممكن است بعضي از جنبه هاي موضوع مورد اندازه گيري ناديده گرفته شود. اما بايد دانست روايي آزمون بسته به اين است كه محتواي آزمون تمامي جنبه هاي مهم زمينه مورد اندازه گيري را شامل شود. آزموني كه سوال هاي آن همه زمينه هاي مهم را شامل نباشد فاقد روايي محتوايي است.روش اجراي آزمون هاي ميزان شده:آزمون هاي گروهي اجراي بعضي آزمون هاي گروهي با گذراندن يك دوره كوتاه كارآموزي ميسر است. اما اجراي بعضي ديگر از آزمون ها به مهارت و تجربه طولاني تري نياز دارد. معمولا اجراي آزمون هاي گروهي در مقايسه با آزمون هاي فردي با كارآموزي كوتاه تري امكان پذير است. آزنايش كننده بايد آزمايش را چنان ماهرانه و طبق دستورالعمل استاندارد شده برگزار كند كه به هر يك از افراد آزمايش شونده امكان داده شود تا حداكثر استعداد و توانايي خود را در پاسخ دادن به پرسش هاي آزمون نشان دهد. آزمايش كننده بايد قبلا در مورد محتواي آزمون، دستورالعمل اجراي آن و ساير شرايطي كه بايد رعايت شود آگاهي لازم را به دست آورد.اجراي آزمون هاي گروهي نكات مهم در اجراي آزمون هاي استاندارد شده :  شرايطي مشابه با شرايط تهيه و استاندازد آزمون براي كليه آزمايش شوندگان فراهم شود. رعايت كامل دستورالعمل آزمون كوشش در برقراري رابطه مطلوب بين آزمايش شونده و آزمايش كننده به منظور جلب اعتماد آنان(به ويژه در آزمون هاي فردي) گذرانده دوره هاي كارآموزي عملي(علاوه بر فراگيري دانش هاي نظري)اجراي آزمون هاي گروهي 1- شرايط اجراي آزمون: 1- ايجاد شرايط فيزيكي مناسب در جلسه آزمايش(از نظر نور، تهويه، درجه گرما، راحت بودن محل نشستن) نارسايي در هر يك از عواما مذكور موجب مي شود كه ميزان كارآيي آزمايش شوندگان كاهش يابد. اين مساله در مورد آزمون هاي سرعت بيش از آزمون هاي قدرت اثر نامطلوب بر جاي مي گذارد. 2- آزمون شوندگان به راحتي صداي مجري آزمون و راهنمايي هاي او را به راحتي بشنوند. 3- اتاق آزمايش از هر نوع عامل حواس پرتي مانند سر و صدا، تابلوهاي نقاشي، زنگ تلفن، آمد و رفت افراد و صحبت هاي مراقبان جلسه و هر عامل ديگري كه باعث عدم تمركز فكري و كاهش دقت آزمايش شوتدگان مي شود، به دور باشد.اجراي آزمون هاي گروهي 1- شرايط اجراي آزمون: 4- وضعيت روحي و جسمي آزمون شونده نتيجه آزمون را تحت تاثير قرار مي دهد. بنابراين، اجراي آزمون در مورد افراد خسته، عصباني، بي ميل، بيمارو غيره موجب مي شود كه نتيجه آزمون بيانگر نمونه اي از رفتارهاي واقعي آنان نباشد. 5- نحوه برخورد و رفتار آزمايش كننده و حالات روحي او( مانند خستگي،عصبانيت صداي نارسا) مي تواند تا حد زيادي نتيجه آزمون را تحت تاثير قرار دهد.اجراي آزمون هاي گروهي - اقدامات قبل از توزيع دفترچه آزمون: 1- پيش بيني لوازم مورد نياز 2- معرفي مجري و بيان هدف كلي از اجراي آزمون به زبان ساده 3- اجتناب از به كار بردن اصطلاحات فنياجراي آزمون هاي گروهي 3- اداره جلسه آزمايش و اجراي آزمون(وظيفه مجري) ايجاد شرايط استاندارد و همراه با احساس اطمينان براي انجام آزمايش برابر دستورالعمل آزمون در نظر گرفتن يك دستيار براي هر 15 تا 20  نفر آزمايش شونده در مورد آزمايش شوندگان خردسال مانند دانش آموزان دبستان يا دوره راهنمايي توضيحات لازم مطابق دستورالعمل آزمون توسط مجري داده مي شود. اگر آزمايش شونده اي از مجري آزمون سوالي بپرسد، او نبايد در دادن پاسخ مطلبي اضافه بر آن چه كه در دستورالعمل ذكر شده است، بيان كند. اگر به پاسخ هاي غلط نمره منفي تعلق نمي گيرد، اين امر به آزمون شوندگان اعلام شود تا اگر پاسخ سوالي را نمي دانند، بهترين پاسخ را حدس بزنند. كنترل وقت آغاز و پايان جلسه با كرونومتراجراي آزمون هاي گروهي نمره گذاري پاسخ نامه ها قبل از تصحيح و نمره گذاري پاسخ نامه ها با توجه به سه نكته زير مورد بررسي قرار گيرند. 1- نبايد بيش از يك گزينه به عنوان پاسخ صحيح انتخاب شده باشد. 2- براي مواردي كه پاسخ در محل مناسب قرار داده نشده، تصميم گيري شود. 3- در صورتي كه آزمودني از روي اشتباه، پاسخ سوال بعدي را در محل سوالي قبلي كه جواب ان را نمي دانسته علامت زده باشد، پاسخ نامه وي با در نظر گرفته اشتباه در جابه جايي پاسخ ها تصحيح شود. بعد از تعيين تعداد پاسخ هاي صحيح، غلط و سفيد نمره خام آزمودني با احتساب يا بدون احتساب نمره منفي محاسبه شود.اجراي آزمون هاي فردي نكات اساسي در اجراي آزمون هاي انفرادي 1- رعايت كامل دستورالعمل آزمون 2- ايجاد شرايط فيزيكي مطلوب در اتاق آزمايش 3- ايجاد همدلي با آزمودني 4- تكرار پرسش ها( به جز آزمون هاي حافظه) 5- مرتب كردن وسايل آزمايش 6- توجه  به حالات بدني آزمودني 7- كاوش پاسخ هاي مبهم آزمودني 8- مشاهده رفتار آزمودني 9- ارزشيابي پاسخ ها (با توجه به ملاك هاي دستورالعمل) 10- جلب اعتماد آزمودني خردسال 11- آزمايش آزمودني هاي داراي عقب ماندگي ذهني در بخش هاي زماني كوتاهعوامل موثر در نتايج آزمون ها 1- تاثير آزمايش كننده ( جنسيت، سن، نژاد، سطح مهارت، برخورد اجتماعي، پايگاه حرفه اي، و پايگاه اجتماعي- اقتصادي). پژوهش نشان داده است كه رابطه گرم يا سرد آزمايش كننده در نتايج آزمايش گروهي از آزمودني ها تفاوت معني دار ايجاد كرده است. 2- تجارب پيش از آزمايش آزمودني ها. مك كارتي گروهي از دانش آموزان دبستان را دو بار با تست آدمك مورد آزمايش قرار داد. بار اول آزمودني ها پيش از آمدن به جلسه آزمايش، انشايي در باره «بهترين تجارب زندگي خود» و بار دوم انشايي در باره «بدترين تجارب زندگي خود» نوشته بودند. در آزمايش دوم هوشبهر كودكان 4 الي 5 نمره كمتر از آزمايش اول بود. اين تفاوت ممكن است به سبب آشفتگي هاي هيجاني كودكان در مرتبه دوم باشد كه در آن انشايي در باره «بدترين تجارب زندگي خود» نوشته بودند.عوامل موثر در نتايج آزمون ها 3- تمرين ها و آمادگي قبلي آزمودني ها: آشنايي آزمودني ها با نمونه هايي از آزمون ها و تمرين هاي قبلي آنان مي تواند تا حدي در نتيجه آزمايش اثر بگذارد. دليل اين تمرين، يادآوري برخي از پاسخ ها، يادگيري راه حل ها و كسب بينش نسبت به مواد آزمايش بوده است. هم چنين كساني كه در پاشخ دادن به آزمو ن ها ي مختلف تجربه زيادي دارند، اين تجربه آمادگي بيشتري براي پاسخ دادن به آزمون ها در آنان بخ وجود مي آورد. علت اين امر غالبا اعتماد به نفسي است كه اين افراد نسبت به انجام آزمون ها پيدا مي كنن كه ضمن كاهش اضطراب آنان موقعيت بهتري را بريشان فراهم مي كند.مقياس سازي(Scaling)مقياس هاي درجه بندي رفتارهنجار يابي (Standardization) ص. 25 براهنياجرا و نمره گذاري آزمون اجرا و نمره گذاري آزمونتبديل و معادل سازي نمره هاي آزمونبيان نتايج آزمون آماري نيمرخ گنجي پيام نورتجزيه و تحليل نتايج آزموننيمرخ هاي رواني(Profile)
+ نوشته شده در  جمعه 4 آذر1390ساعت   توسط محمد حسین ضرغامی  | 

مطالب قدیمی‌تر