سنجش و اندازه گیری

سنجش و اندازه گیری سازه های انسانی و رفتاری و زمینه های وابسته به آن (ضرغامی09122263167)

مشخص کردن حوزه ی دانشی سنجش و اندازه گیری سازه های انسانی

یکی از مهمترین دغدغه دانشجویان و اساتید در حوزه ی روانسنجی یا سنجش و اندازه گیری سازه های روانی  مشخص کردن جایگاه و ارتباط این حوزه ی دانشی با سایر حوزه های دانش است. متاسفانه فعالیت مشخصی از سوی اساتید این رشته تا کنون در کشور انجام نشده است. 

مطالعه و بررسی پیشینه ی فعالیت های روانسنجی و دانشمندان و بزرگان این رشته و همچنین فهرست دروس دانشگاه های مختلف دنیا، نشان می دهد که به منظور درک درست و تخصص در این حوزه لازم است در حیطه های زیر تلاش بیشتری صورت پذیرد:

1.شناخت سازه های روانی 

2. فلسفه علم و روش تحقیق

3. آمار و ریاضیات

4. کار با نرم افزار ها و برنامه نویسی

5. تکنیک ها و مفاهیم سنجش و اندازه گیری

در شکل زیر رابطه ی بین این حوزه های دانشی مشخص شده است. 

زمانی که یک پژوهشگر می خواهد دست به کمی سازی یک کیفیت بزند، لازم است  ابتدا آن کیفیت یا سازه را به طور کامل بشناسد، با نظریات و تحقیقات مربوط به آن و همچنین سازه ها و متغیرهای نزدیک با آن آشنا باشد. نحوه ی مطالعه و روش شناسی خاص مربوط به آن سازه و مبانی فلسفی آن روش شناسی را بداند. 

ریاضیات با حوزه های مختلف آن، زبان مدل بندی و کمی سازی سازه ها است که بر اصول مشخصی بنا شده اند. استفاده از آنها مستلزم دانش درباره ی قواعد زیربنایی آنها است. از انجا که محاسبات دستی انجام پذیر نیست، استفاده از نرم افزارهای آماری مستلزم آشنایی با این نرم افزارها است. گاهی نیاز است پژوهشگر خود برنامه ی محاسباتی خود را بسازد، در این صورت برنامه نویسی ضرورت پیدا می کند. 


برچسب‌ها: حوزه دانشی, سنجش و اندازه گیری, سازه های روانی
+ نوشته شده در  سه شنبه 9 اردیبهشت1393ساعت   توسط محمد حسین ضرغامی  | 

تحریف های پاسخ

پاسخهاي ارايه شده به روشهاي ارزيابي شخصيت، علاوه بر خصوصيات شخصيت آزمودنيها تحت تأثير متغيرهاي ديگر نيز قرار دارند. اگرچه ويژگيهاي شخصيتي يک فرد به طور کلي تعيين کننده هاي مهم پاسخهاي وي هستند، با اين حال، بر مبناي پژوهش و نظريه اکنون مي دانيم که اين پاسخها فرآورده هاي پيچيده تعداد چندي از متغيرهاي روان شناختي، جامعه شناختي، زبان شناختي و عوامل ديگر هستند که بسياري از آنها با اهدافي که روشهاي ارزيابي دارند، رابطه اي ندارند. براي مثال، پاسخهاي آزمون شخصيت را مي توان تحت تأثير يک ميل هشيار جهت نشان دادن يک سازگاري خوب يا صراحت پاسخهاي "صحيح" به ماده هاي مختلف دانست. اين پاسخها همچنين ممکن است تحت تأثير تجربه هاي اخير مانند ديدن يک تصوير حرکت دراماتيک باشند؛ مثلاً، به عنوان يک مثال ديگر، تفاوتهاي خرده فرهنگي در کاربرد کلمه هاي ارزيابي مانند اغلب و خيلي ممکن است بر پاسخهاي آزمون تأثير گذارد. بررسي اينکه چگونه اين عوامل نامربوط نظامدار که معمولاً سوگيريهاي پاسخ، آمايه هاي پاسخ يا سبکهاي پاسخ ناميده مي شوند، بر پاسخهاي داده شده به وسايل ارزيابي شخصيت تأثير مي گذارند، هم براي بهبود کارايي در کاربرد ابزارهاي جديد ضروري هستند. در اينجا اصطلاح زيربنايي تحريفهاي پاسخ به کار برده شده است.

علاقه روان سنجان به تأثير تحريفهاي پاسخ از دهه 1920 آغاز شد؛ يعني، از زماني که تصور بر آن بود که پرسشنامه هاي مستقيم از ارزش اندکي برخوردارند، زيرا امکان آن وجود داشت که به سادگي به آنها پاسخهاي جعلي و نادرست داده شود. کرونباخ (1941، 1942، 1946، 1950) يکي از اولين افرادي بود که توجه رسمي مستقيم خود را به موضوع کلي تحريفهاي پاسخ مبذول کرد. او به تحريف کردن اثر گرايشهاي دانشجويان به حدس در خصوص پاسخهاي مربوط به امتحان پيشرفت کلاسي درست – غلط علاقه نشان داد. تحريفهاي پاسخ همچنين مورد توجه هاتاوي و مک کين لي به ويژه در تهيه و تدوين MMPI بودند و اين نتيجه به ساير ابزارهاي اندازه گيري شخصيت تعميم داده شد: انواع گزارشهاي شخصي، و آن گاه رورشاخ، TAT و ساير آزمونهاي فرافکن.

بعضي از منتقدان به اين موضع افراطي گرايش داشته اند که پاسخهاي موجود به آزمونهاي شخصيت علاوه بر تحريفهاي پاسخ اطلاعات اندکي را نشان مي دهند و اينکه هرگونه کوششي براي استفاده از اين آزمونها جهت ارزيابي گرايشهاي پاسخ زيربنايي که معمولاً تحت عنوان حلقه شخصيت گرد مي آيند، محکوم به شکست هستند. ديدگاه ديگري که ما با آن موافق هستيم، اين است که اگرچه در خلال ساخت آزمون خهت به حداقل رساندن اثرات تحريف پاسخها بايد کوششهايي چند صورت گيرد، ولي آنها همسانيهايي در رفتار هستند که گاهي امکان استنباطهاي مفيدي را درباره شخصيت و رفتار آتي افرادي که آنها را نشان مي دهند، فراهم مي آورند. موضوع اصلي در سراسر اين بحث، درباره ارزيابي شخصيت، درجه و ميزاني است که بر اساس آن، استنباطهاي حاصل از پاسخهاي داده شده به ابزارهاي ارزيابي مي توانند از يک مبناي تجربي برخوردار باشند. پاسخهايي که با رفتارهاي غيرآزموني مورد توجه ارتباطي ندارند، طبق تعريف واريانس خطا را تشکيل مي دهند و به همين دليل براي حذف يا کاهش آنها بايد کوششهاي قابل ملاحظه اي صورت گيرد. از طرف ديگر، پاسخهايي که با رفتارهاي مرتبط با شخصيت ارتباط دارند، بايد قطع نظر از عنواني که دارند، مورد بررسي قرار بگيرند.

دو نوع تحريف پاسخ وجود دارد: سبک پاسخ (جکسون و مسيک، 1958) است که به گرايش در تحريف کردن پاسخها در يک جهت خاص (البته قطع نظر از محتواي محرک) اشاره دارد. نمونه هايي از سبکهاي پاسخ عبارت اند از: گرايش به دادن پاسخ "درست" به طور نامتناسب در يک سياهه درست - غلط و گرايش به انتخاب يک گزينه خاص مانند گزينه ج در يک آزمون چند گزينه اي. پاسخ دهي زياد نيز که در فصل ششم با توجه به مقياسهاي درجه بندي مورد بحث قرار گرفت، يک سبک پاسخ است. گرايش به کل لکه يا رنگ به جاي شکل لکه در آزمون رورشاخ نيز نمونه اي از يک سبک پاسخ است. چون محتواي محرک آزمون معمولاً يک تعيين کننده قوي پاسخ است که وجود دارد، اثر سبکهاي پاسخ هر چقدر که محتوا از ابهام بيشتري برخوردار مي شود، زيادتر خواهد شد. بنابراين، ما موقعيت جالبي داريم که در خصوص ابزارهايي که محتواي محرک آنها مانند رورشاخ نسبتاً مبهم است، سبکهاي پاسخ تعمداً بررسي شوند و به عنوان شاخصهاي مهم عوامل شخصيت مورد توجه قرار گيرند. در خصوص پرسشنامه هايي که حالت گزارش شخصي دارند، پارامترهاي سبک پاسخ معمولاً تا اندازه زيادي به عنوان واريانس خطا محسوب مي شوند.

دومين نوع تحريف پاسخ، يعني، "آمايه پاسخ" به ميل هشيار يا ناهشيار آزمودني جهت پاسخگويي به شيوه اي اطلاق مي شود که تصوير خاصي از وي ايجاد شود. در اين کاربرد سنتي، فرد داراي آمايه اي جهت پنهان کاري و تمارض براي نشان دادن پرخاشگري، سلامت يا احراز شغل" است (رورر، 1965، ص133). آمايه هاي پاسخ به طور کاملاً متفاوت از سبکهاي پاسخ که مي توان آنها را به طور نسبي "جدا از محتوا" در نظر گرفت، تا اندازه زيادي توسط محتواي محرک تعيين مي شوند: هرچقدر محتوا روشنتر و يا از ابهام کمتري برخوردار باشد، تأثير آن بر آمايه هاي پاسخ بيشتر خواهد بود. چون آزمون هاي فرافکن مانند رورشاخ و TAT در مقايسه با پرسشنامه هاي شخصيت خودسنجي از ابهام بيشتري در محتواي محرک برخوردارند، فرض شده است که آزمونهاي فرافکن کمتر تحت تأثير آمايه هاي پاسخ در مقايسه با پرسشنامه ها قرار مي گيرد. با وجود اين، شواهد پژوهشي خاصي که بعداً در اين فصل مورد بحث قرار مي گيرد، نشان مي دهد که اين فرض چندان مورد حمايت قرار نگرفته است.

بايد خاطرنشان کرد که يک پاسخ يا الگوي خاصي از پاسخها را مي توان با استفاده از سبک پاسخ، آمايه پاسخ يا آميزه اي از تأثير همزمان آمايه و سبک پاسخ فرا خواند. بنابراين، آزمودنيهاي "دفاعي" مي توانند آمايه پاسخ را به کار گيرند و اطلاعات ناچيزي را درباره خودشان افشا کنند و يا از سبک پاسخ استفاده کرده و گزينه "نمي دانم" يا "مطمئن نيستم" را در پرسشنامه ها برگزينند. يک برنامه مناسب در خصوص ارزيابي شخصيت، پيش بيني هاي مناسبي را در زمينه اين دو جنبه تحريف پاسخ به دست مي دهد.

تفاوتهاي چشمگيري از لحاظ اهميتي وجود دارد که به سبکهاي پاسخ و آمايه هاي پاسخ در فرايند ارزيابي شخصيت نسبت مي دهند. در يک زمان، بسياري از روان شناسان اعتقاد داشتند که تحريفهاي پاسخ تأثير زيادي را بر آزمودنيها اعمال مي کند به طوري که فرض بر اين بود که نتايج پرسش نامه هاي شخصيت چيزي بيشتر از تأثير اين عوامل نامربوط نيست (ادواردز، 1957؛ جکسون و مسيک، 1958). بعضي از جنبه هاي مربوط به اين اختلاف نظرها هنوز حل نشده باقي مانده است. با وجود اين، نکته اي را که مي توان در اينجا پيش بيني کرد به شرح زير است: اين عوامل ممکن است در بعضي موارد چشمگير باشند، ولي مي توان آنها را به گونه مناسبي از طريق کاربرد روشهاي آزمون سازي دقيق کنترل کرد. يک استثنا در اين خصوص فريب عمومي يا وانمودسازي است که در بسياري از کاربردهاي ارزيابي شخصيت به عنوان يک مشکل جلوه مي کند و معمولاً جداگانه بررسي مي شوند. در ادامه مباحث مربوط به سبکهاي پاسخ مورد بررسي قرار مي گيرند که با تصديق گويي آغاز مي شود.

سبک پاسخ تصديق

 


بيشترين سبک پاسخي که مورد بررسي قرار گرفته، تصديق گويي است؛ يعني، تمايل به پاسخ درست دادن در يک پرسشنامه درست - غلط. آمايه پاسخ تصديق گويي در افراطي ترين شکل خود قطع نظر از محتوي (مانند "من مادرم را کشتم") موجب پاسخ بلي به تمام ماده ها مي شود. اين آمايه همچنين باعث مي شود که آزمودني به دو جمله يا عبارت متناقض پاسخ مثبت بدهد؛ براي مثال، "من ازدواج خوبي دارم" و "من ازدواج خوبي ندارم". خوشبختانه نمونه هاي افراطي به ندرت در عمل ديده مي شوند و توجه به تصديق گويي عمدتاً معطوف ماده هاي مبهم بوده است نظير "من اغلب نسبت به مسئوليتهايي که انجام نداده ام، احساس نگراني مي کنم". در اين ماده، يک پاسخ مثبت ممکن است ناشي از اين واقعيت باشد که آزمودني در واقع به همين شيوه رفتار کرده است؛ ولي ممکن است همچنين بدين معنا باشد که آزمودني در مورد اين رفتار مطمئن نيست و پاسخ مورد نظر با يک سبک پاسخ تصديقي مشخص مي شود. هر زمان که پرسشنامه هاي شخصيت داراي ماده هاي نسبتاً مبهم زيادي باشند و اکثريت پاسخهاي کليد يکسان باشند، نمره هاي حاصل تحت تأثير سبک پاسخ تصديق قرار خواهند داشت.

در کاربرد عملي پرسشنامه ها، سبک پاسخ تصديق تا چه اندازه اهميت دارد؟ علي رغم ديدگاههايي مانند ديدگاه کاچ و کنيستون (1960) که در آن فرض بر اين است که تصديق گويي يک متغير مفيد شخصيت است و رورر (1965) که اعتقاد دارد که اين امر يک بخش غيرقابل اجتناب ساختار زبان ماست و بايد آن را پذيرفت، بهترين رويکرد ظاهراً اين آگاهي است که اين متغير مي تواند تأثير ناچيز ولي پردردسري را بر پاسخهاي موجود به پرسشنامه هاي شخصيت داشته باشد. بنابراين، حذف اين تأثير از طريق گنجاندن تعدادي ماده هاي درست، و در عين حال، نادرست هر زمان که محتواي ماده ها دست نخورده باقي بماند، يک کوشش منطقي به نظر مي رسد.

سبک پاسخ منحرف

 


سبک پاسخدهي ديگري که به ماده هاي شخصيت وجود دارد، يعني، سبک پاسخهاي غيرنوعي، نامعمول يا منحرف، توجه قابل ملاحظه اي را به خود جلب کرده است. پاسخهاي هنجاري يا معمول به ماده هاي آزمون شخصيت توسط کل جامعه فراهم مي آيد؛ براي مثال، يک پاسخ مثبت به يکي از ماده هاي پرسشنامه، يعني، "پدرم مرد خوبي بود"، پاسخ خفاش به کارت V آزمون رورشاخ يا نقاشي يک فرد داراي لباس در آزمون رسم آدمک. بعضي از روان شناسان مسلم فرض مي کنند که پراکندگيها يا انحرافهاي موجود از اين پاسخهاي هنجاري به ماده هاي آزمون نشان دهنده گرايش کلي به سوي منحرف است.

اين ديدگاه به طور رسمي به عنوان فرضيه انحراف توسط برگ (1955، 1957، 1959) بيان شد. بر اساس اين فرضيه "الگوهاي پاسخ منحرف" کلي هستند؛ از اين رو، آن دسته از الگوهاي رفتار منحرف که در خصوص نابهنجاري مهم هستند و بنابراين به عنوان نشانه قلمداد مي شوند، با ساير الگوهاي پاسخ گرفته نمي شوند، ارتباط دارند (1955، ص 62). برگ (1959) اعتقاد داشت که پاسخدهي منحرف را مي توان به بهترين وجهي به عنوان يک سبک پاسخ در نظر گرفت تا يک آمايه پاسخ، زيرا محتواي محرک مورد نظر بي اهميت است. علاوه بر اين، او بر اين باور بود که ابهام محتوا تأثير اين عامل را به جاي کاهش، افزايش مي دهد. با وجود اين، هميلتون (1968) اين موضع را برگزيد که محتواي ماده عامل مهمي در پاسخدهي منحرف است، زيرا هر ماده بايد به طور انفرادي جهت تعيين اينکه چه چيزي براي آن ماده يک پاسخ منحرف خواهد بود، مورد بررسي قرار گيرد.

توجه به اين موضوع جالب است که رورشاخ اعتقاد داشت که پاسخ منحرف يک عامل مهم در آزمون لکه هاي جوهر اوست. رورشاخ در اصل به اين موضوع توجه کرد که (1942، 1951، ص23) اکثر پاسخهاي داده شده به لکه هاي جوهر وي از طريق شکل لکه قابل تعيين هستند و او "به منظور اجتناب از ارزشيابي ذهني" بر اساس پاسخهاي واقعي يک جامعه بهنجار 100 نفري، دامنه مشخص تصويرپردازيهاي بهنجار شکل، يعني، شکل خوب يا پاسخهاي (مثبت F) را مطرح کرد. رورشاخ دريافت که ادراک شکل خوب تحت تأثير حالتهاي رواني - آسيب شناختي مختلف به ويژه اسکيزوفرني مختل خواهد بود" (ص31). ارزيابي دقت ادراک شکل در پاسخهاي رورشاخ با استفاده از فراواني به طور دقيقتر و مشروحتري توسط بک و همکاران (1961)، اکسنر (1974) و ديگران مورد بررسي قرار گرفته است. در تفسير جديد رورشاخ (اکسنر، 1986، 1991) سطح شکل همان طوري که از طريق جداول فراواني و با استفاده از قضاوت آزماينده و تجربه باليني بر مي آيد، به عنوان يک شاخص مهم سطح کلي انحراف يا آسيب شناسي رواني که به آزمودني قابل اسناد است، در نظر گرفته مي شود. پاسخدهي منحرف همچنين يک نکته مهم در MMPI است؛ در اينجا علاوه بر اين، سطح شکل به عنوان يک شاخص مفيد درجه کلي آشفتگي رواني مد نظر قرار مي گيرد (لاچار، 1974). در آزمون MMPI جهت ارزيابي پاسخدهي منحرف، تصادفاً يک مقياس به نام F (در اين مورد براي "فراواني") وجود دارد.

فرضيه انحراف مکرراً توسط تعدادي از دانشجويان سنجش و اندازه گيري (براي مثال رورر، 1965؛ سچرست و جکسون، 1962، 1963) با توجه به دلايل چندي مورد انتقاد قرار گرفته است. به نظر مي رسد که شواهد پژوهشي اندکي در جهت حمايت از ديدگاه برگ مبني بر اين موضوع وجود داشته باشد که پاسخدهي منحرف در هر موقعيت پاسخ پيش بيني کننده پاسخ منحرف در تمام موقعيتهاست. با وجود اين، به صراحت آشکار است که برخي از ويژگيهاي معين پاسخ منحرف مانند سطح شکل رورشاخ و مقياس F در آزمون MMPI شاخصهاي مفيدي در زمينه آسيب شناسي رواني هستند. از آنجايي که اين شاخصها، در واقع، به محتواي محرکهاي آزمون مربوط مي شوند، مناسب به نظر نمي رسد که آنها را به طور ساده تحت عنوان سبکهاي پاسخ در نظر بگيريم، بلکه با توجه به شيوه اي که در فرايند ارزيابي شخصيت مورد استفاده قرار مي گيرند، بهتر آن است که آنها را به عنوان بخش مکمل روش آزمون قلمداد کرد.

سبک پاسخ افراطي

 


يکي ديگر از سبکهاي پاسخ، پاسخدهي افراطي است. اين سبک مي تواند تنها در آزمونهايي وجود داشته باشد که پاسخ به ماده هاي آنها به صورت درجه بندي يا ابعاد متضاد باشد (همان طوري که در فصل 6 مورد بحث قرار گرفت). بعضي افراد تمايل دارند قطع نظر از محتواي ماده سؤال به جاي طبقه هاي مياني، طبقه هاي افراطي (نظير "کاملاً مخالفم" يا "کاملاً موافقم") را برگزينند. اگرچه به نظر مي رسد که پاسخدهي افراطي به پاسخدهي منحرف شباهت داشته باشد، هميلتون (1968) با تذکر در خصوص اين پاسخدهي افراطي به پاسخدهي افراطي کاملاً مستقل از محتواست و در مقابل، پاسخدهي منحرف شامل يک موضوع که پاسخدهي افراطي کاملاً مستقل از محتواست و در مقابل، پاسخدهي منحرف شامل يک واکنش خاص به محتواي ماده است، بين آنها تمايز قايل شد. بازبيني پژوهشي هميلتون در زمينه سبک پاسخ افراطي نشان داد که اين پديده يک ويژگي پاياي آزمودنيهاست و اينکه اين وضعيت همواره در زنان (بيشتر از مردان)، افرادي با اضطراب زياد و افرادي که سازگاري روان شناختي ضعيفي دارند، بيشتر ديده مي شود. بدين ترتيب، هنگامي که مقياسهاي درجه بندي را به کار مي بريم، بهتر است به اين اثرهاي ناچيز ولي مهم توجه کنيم.

آمايه پاسخ مطلوب - نامطلوب

 


ما قبلاً نتيجه گرفتيم که سبکهاي پاسخ (تحريفهاي بري از محتواي پاسخ به ابزارهاي ارزيابي شخصيت) متغيرهاي نسبتاً کم اهميتي هستند که در اکثر کوششهاي موجود در زمينه ارزيابي شخصيت وجود دارند. با وجود اين، اين موقعيت هنگامي که به آمايه هاي پاسخ توجه مي کنيم (يعني، گرايش نظامدار به "تحريف" محتواي پاسخهاي فرد به ماده هاي ارزيابي شخصيت) تا اندازه اي متفاوت است. خواننده در اينجا بايد تعريف ما را در خصوص آمايه پاسخ به خاطر داشته باشد. منظور از آمايه پاسخ، کوششهاي عمومي آزمودني براي تحريف پاسخها در يک جهت خاص و تمايلات ظريف و ناهشيار آنها براي ارايه پاسخهاي سودار است.

متداولترين آمايه پاسخ توصيف خويش به گونه مطلوب يا نامطلوب است. اولين روش در بررسي اين مشکل از طريق يک مطالعه خاص، يعني، از طريق آمايه پاسخ مطلوبيت اجتماعي بود. اکنون از اين اصطلاح معمولاً براي اشاره به توليد طبيعي يا ناهشيار پاسخهاي مطلوب اجتماعي استفاده مي شود؛ اصطلاح وانمودسازي خوب براي کوششهاي سودار هشيار و عمدي در اين جهت استفاده مي شود. با توجه به پيش بيني اين نتيجه از لحاظ آمايه پاسخ مطلوبيت اجتماعي، افرادي که "به طور طبيعي" يا ناهشيار به شيوه اي مطلوب و اجتماعي پاسخ مي دهند، احتمالاً خصوصيات شخصيت خود را دقيقتر بيان مي کنند، ولي کوششهاي هشيار و عمدي براي توصيف خود به گونه اي مطلوب يا نامطلوب منبع مهمي از تحريف پاسخ را تشکيل مي دهد. شکل 2-7 خلاصه اي از بعضي متداولترين اصطلاح شناسيها را در زمينه سبکها و آمايه هاي پاسخ به تصوير مي کشد. 

شکل 2-7: خلاصه اي از بعضي از اصطلاح شناسيها در زمينه تحريفهاي پاسخ (توضيح شکل) 

يک انگيزه مهم پژوهش در زمينه آمايه پاسخ مطلوبيت اجتماعي در ارزيابي شخصيت، تحقيقي بود که توسط ادواردز (1953) صورت گرفت. ادواردز درجه بنديهاي دانشجويان را در انواع مختلف پرسشنامه هاي خودسنجي (با توجه به يک مقياس 9 درجه اي) بر اساس اين موضوع به دست آورد که آنها رفتار مورد نظر هر ماده سؤال را تا چه اندازه مطلوب در نظر مي گرفتند. آن گاه او از يک گروه ديگر از آزمودنيها خواست که به ماده هاي همين ابزار ارزيابي شخصيت خودسنجي پاسخ دهند و همبستگي بسيار مثبت بالايي (0/87) را بين فراواني تأييد هر ماده توسط گروه دوم و متوسط درجه بنديهاي مطلوبيت اجتماعي گروه اول يافت. به عبارت ديگر، اين دانشجويان تا اندازه زيادي به ماده هايي پاسخ دادند که آنها را از لحاظ اجتماعي مطلوب ادراک کرده بودند. ادواردز (1964) نشان داد که نمره هاي حاصل از مقياسهاي MMPI چنان به اندازه بالايي با درجه بنديهاي مطلوبيت اجتماعي آنها همبستگي داشت که نيمرخهاي واقعي MMPI بر اساس اين درجه بنديها به اندازه خوبي قابل پيش بيني بودند. او نتيجه گرفت که مطلوبيت اجتماعي حداقل با ارزيابي دقيق شخصيت تداخل کرده است؛ و در بدترين شرايط، احتمالاً اين امر کاربرد پرسشنامه ها را مشکل و يا حتي غيرممکن ساخته است.

اين نتيجه که يک آمايه پاسخ مطلوبيت اجتماعي شديداً با پاسخهاي مربوط به پرسشنامه هاي شخصيت تداخل دارد، از لحاظ زمينه هاي روش شناختي، تجربي و نظري مورد سؤال قرار گرفته است (هيلبرون و گوداشتاين، a1961؛ نورمن، 1967؛ پاول هوس، 1984). امروزه يک ديدگاه مورد قبول وجود دارد و آن اين است که مطلوبيت اجتماعي يک بخش بهنجار از پاسخدهي است و مي تواند يک متغير پيش بيني کننده مهم محسوب شود. افراد بهنجار معمولاً به يک صورت قابل پذيرش و مقبول عمل مي کنند؛ يعني، به يک شيوه مطلوب اجتماعي، در واقع، اين معناي معمول "بهنجار" است. عدم مطلوبيت اجتماعي رفتار احتمالاً مهمترين ملاک آسيب شناسي رواني است. پاسخهاي افراد بيمار به ماده هاي پرسشنامه اي ماننده پرسشنامه MMPI نشان مي دهند که آنها از لحاظ رواني بيمار هستند؛ عدم مطلوبيت اجتماعي رفتارهاي نابهنجار آنها نيز کاملاً آشکار است.

همان طوري که هيلبرون (1964) بدان توجه کرد، تمايل به دادن پاسخهاي نامطلوب اجتماعي به پرسشنامه هاي شخصيت ظاهراً با وجود رفتارهاي نامطلوب غيرآزمودني که پيش بيني از روي آن امکان پذير است، ارتباط دارد. اين نتيجه که وجود رفتار مطلوب اجتماعي با سازگاري يا بهداشت رواني همبستگي دارد، منطقي است و اين نتيجه از تنزل مطلوبيت اجتماعي به طبقه تحريف پاسخ جلوگيري مي کند. در واقع، براي بعضي از آزمونهاي جديدتر، مانند پرسشنامه شخصيت هوگان (هوگان و هوگان، 1992)، عمل آمايه پاسخ مطلوب اجتماعي تعديل کننده به عنوان يک مهارت يا شايستگي در نظر گرفته مي شود.

به طور کلي، در اين خصوص اتفاق نظر وجود دارد که ميزانهاي افراطي مطلوبيت اجتماعي ممکن است ساير جنبه هاي پاسخ به يک آزمون را کمرنگ يا تحريف کند و احتمالاً عاقلانه است که در صورت امکان به اين موارد افراطي توجه کنيم. اين امر براي پرسشنامه هاي شخصيت که در يک حيطه بهنجار به ارزيابي خصوصيات آدمي مي پردازند، به سادگي در مرحله تهيه ماده هاي آزمون با استفاده از ماده هايي که همبستگيهاي آنها با مطلوبيت اجتماعي نسبتاً ناچيز است، قابل دسترس مي باشد (جکسون، 1967، 1976، 1984). اين روش براي اولين بار توسط باس (1959)، باس و دورکي (1957) در اندازه گيري خصومت مورد دفاع قرار گرفت. براي مثال، به جاي طرح سؤال به اين صورت که "گاهي من از کوره در مي روم" که پاسخ مثبت بدان مي تواند نامطلوب باشد، سؤال را مي توان بدين صورت اصلاح کرد که "من واهمه دارم از اينکه گاهي از کوره در بروم" يا "گاهي من نمي توانم کنترل کنم که از کوره در نروم" يا "من نگران هستم که از کوره در بروم" که البته تمام آنها به يک شيوه کمتر نامطلوب نوشته شده باشند.

روش متداول ديگري که براي کنترل مطلوبيت اجتماعي به کار مي رود، استفاده از ماده هاي گزينه- بايست همراه با ماده هايي است که به صورت زوجي (يا سه تايي) با توجه به مطلوبيت اجتماعي جور مي شوند. هر عبارت در هر زوج به طور تجربي يا با استفاده از روشهاي ديگر به عنوان يک پيش بيني کننده مهم رفتار مورد نظر هماهنگ مي شوند (EPPS که در فصل 3 مورد بحث قرار گرفت اين روش را به کار مي گيرد). ولي با اين حال، مشکلات چندي در کاربرد روش گزينه – بايست به چشم مي خورند. ابتدا آزمودني بايد يکي از گزينه ها را انتخاب کند، اگرچه ممکن است هيچ کدام از آنها توصيف کننده رفتار وي نباشند. چنين وضعيتي هيچ گونه اطلاعاتي را درباره ميزان ترجيح يا خصوصيت شخصيتي زيربنايي آن به دست نمي دهد. ثانياً اگرچه ماده هاي آزمون به يک شيوه کلي از لحاظ مطلوبيت با يکديگر زوج مي شوند، ولي هنوز به اندازه کافي با يکديگر تفاوت دارند که امکان وانمودسازي وجود داشته باشد (براي مثال، ديکن، 1959). سوم، همان طوري که قبلاً متذکر شديم، کوششهايي که به منظور حذف مطلوبيت اجتماعي صورت مي گيرند، ممکن است قدرت پيش بيني ابزار، و در عين حال، اثر دفاعي بودن را کاهش دهند. مروري که اسکات (1968) در زمينه مطالعه بررسيهايي انجام داد که اعتبار آزمونهاي گزينه - بايست و تک محرکي را با يکديگر مقايسه مي کرد، به اين نتيجه بيشتر خنثي انجاميد که اعتبارهاي حاصل از اين دو روش متفاوت نيستند و اينکه در خصوص مزيت روش گزينه - بايست در زمينه کنترل دفاعي بودن هيچ گونه شواهد قاطعي وجود ندارد. بنابراين، به نظر مي رسد که فن گزينه - بايست همان طوري که از ابتدا انتظار آن مي رفت، هيچ گونه مزيتي نسبت به روشهاي ديگر ندارد.

کوششهاي نسبتاً اندکي در زمينه مطالعه تأثير مطلوبيت اجتماعي در کارکرد رويکردهاي فرافکن که به منظور ارزيابي شخصيت صورت مي گيرند، به عمل آمده است. رزينکوف (1961) همبستگيهاي غيرمعناداري را بين درجه بنديهاي مطلوبيت اجتماعي در خصوص موضوعهاي متداول TAT و فراواني تأييد آنها گزارش کرد و نتيجه گرفت که مطلوبيت اجتماعي يک منبع مهم واريانس در ارايه موضوعهاي TAT نيست. با وجود اين، اکسنر (1978) در يک مطالعه با استفاده از رورشاخ نشان داد که اين عنصر "اثر بسيار معناداري را بر چيزي دارد که عملاً توسط آزمودني ارايه مي شود" (ص 45)، اگرچه در نسخه قبلي اين کتاب، او اين يافته را کم اهميت جلوه داد (اکسنر، 1986). هيچ دليلي براي اين فرض وجود ندارد که نتايجي که در اينجا با توجه به پرسشنامه ها به دست آمده است نبايد در خصوص فنون فرافکن به کار روند، ولي قبل از رسيدن به يک قضاوت صريح و مشخص پژوهشهاي بيشتري مورد نياز هستند.

فريب عمدي

 


يک مشکل بسيار جدي تر در ارزشيابي شخصيت تمايل افراد به تحريف عمدي يا سودار کردن پاسخهاي خود در ابزارهاي ارزيابي شخصيت است. بحث زير بر حول دو موضوع متمرکز است:

1. کوششهاي عمدي افراد در جهت ارايه نوعي تصوير مطلوب و خوشايند از خودشان به صورت خيلي حق به جانب يا بسيار سالم در ادبيات روان شناسي شخصيت تحت عنوان دفاعي بودن مطرح شده است. اين اصطلاح در کاربرد معمول خود همچنين به کوششهاي افراد در جهت تحريف پاسخهاي خود در ساير ابعاد شخصيت مانند برون گرايي يا توانايي فروشندگي اشاره دارد.

2. کوششهايي براي تقليد اختلالهاي خاص مانند روان پريشي يا اختلال ضربه پس از آسيب يا (خارج از حوزه ارزيابي شخصيت) اختلال حافظه يا عقب ماندگي ذهني به يک دليل خاص.

افرادي که آزمونهاي شخصيت از نوع پرسشنامه خودسنجي را تهيه و ابداع کرده اند، مدتهاي متمادي از اين مشکلات آگاه بوده اند (ميل و هاتاوي، 1946)، ولي در اين خصوص هيچ راه حل اثربخشي را ارايه نکرده اند. در واقع، وضوح مشکلات مربوط به پرسشنامه هاي شخصيت تا اندازه زيادي موجب محبوبيت رويکردهاي فرافکن به ارزيابي شخصيت شده است، زيرا به طور همه جانبه اي اين اعتقاد وجود دارد که رويکرد فرافکن فرصت فريب عمدي را از سر راه بر مي دارد يا حداقل تا اندازه زيادي از بروز آن مي کاهد. ما به زودي اين اعتقاد را به تفصيل مورد بررسي قرار خواهيم داد.

دفاعي بودن نوعي کوششهاي عمدي جهت ايجاد يک تأثير مطلوب است. شواهد مربوط به وجود دفاعي بودن به عنوان يک مشکل در ارزيابي شخصيت از منابع چندي ريشه مي گيرد. ابتدا نيمرخهاي مربوط به آزمونهاي شخصيت به ظاهر بهنجار و سالم گاهي از بيماران بستري و ساير افراد منحرفي به دست مي آيد که نبايد چنين نيمرخهاي بهنجاري را داشته باشد. ثانياً شواهد بسيار زيادي وجود دارد که انواع مختلف گروههاي آزمودني مانند دانشجويان و بيماران مي توانند به منظور ايجاد يک برداشت خوب (يا بهتر) پاسخهاي آزمون شخصيت خود را به ويژه در پرسشنامه هاي خودسنجي تغيير دهند. بايد به اين نکته توجه کرد که حتي دانشجويان که معمولاً نيمرخهاي شخصيت بهنجاري دارند، مي توانند تحت دستورالعملهاي خوب وانمود کردن، نيمرخهاي مطلوبتري را به دست دهند. اين امر به ويژه در خصوص پرسشنامه هايي با ماده هاي کاملاً آشکار صادق است؛ يعني، پرسشنامه هايي که در آنها مطلوبيت اجتماعي پاسخها کاملاً روشن است. فوسبرگ (1941) سالها پيش، با استفاده از پرسشنامه شخصيت برن رويتر توانست نشان دهد که همبستگي بين نمره هاي حاصل از دستورالعمل عادي و نمره هاي حاصل از دستورالعمل وانمودسازي خوب کاملاً ناچيز (0/11) است و اين امر به وضوح نشان مي دهد که چگونه آمايه دفاعي بودن مي تواند بر پاسخهاي پرسشنامه اي از اين نوع تأثير بگذارد.

از طرف ديگر، شواهد زيادي در اين خصوص وجود دارد که براي افراد بيمار به ويژه بيماران بستري، امکان آن وجود ندارد که کاملاً يک نيمرخ بهنجار به دست آيد. براي مثال، گريسون و اولينگر (1957) نشان دادند که تنها 11 درصد از بيماران مي توانند يک نيمرخ MMPI بهنجار داشته باشند. بعضي از بيماران از طريق ارايه نيمرخهاي بيمارگونتر به اين دستورالعملها پاسخ دادند و بقيه به طور ساده الگوي متفاوتي از نابهنجاري را در نيمرخهاي خود نشان دادند. کانتر (1963) دريافت که توانايي "خوب وانمود کردن" با سازگاري نسبي فرد رابطه دارد. کانتر با استفاده از گروههاي افراد الکلي و متقاضيان استخدام، متوجه شد که آزمودنيهايي که از سازگاري بهتري برخوردارند، در ارايه نيمرخهاي جعلي خوب در پرسشنامه روان شناختي کاليفرنيا موفقتر هستند.

با توجه به کوششهايي که در خصوص ايجاد برداشتهاي مطلوب در آزمونهاي شخصيت شده است، متداول آن است که بين وانمود در جهت سازگاري بهداشت رواني بالا و وانمود مربوط به پرهيزکاري شخصي افراطي تمايز قايل شويم. بعضي از نويسندگان (پاول هوس، 1984، 1986) شبيه سازي سازگاري بالا را قوياً در ارتباط با مفهوم سنتي مطلوبيت اجتماعي – يعني، به طور کلي يک ويژگي ناهشيار- و شبيه سازي پرهيزکاري افراطي را در ارتباط با مفهوم صداقت شخصي در برابر دروغگويي عمدي در نظر گرفته اند. بنابراين، نتايج بررسيهاي تحليل عاملي که توسط پاول هوس (1986) گزارش شد، دو عامل متمايز را نشان داد. شاخصهاي سنتي مطلوبيت اجتماعي روي يک عامل فريب خود و شاخصهاي سوگيري عمدي تر روي يک عاما ديگر کنترل برداشت نام دارد. ابزتر پاول هوس (1991)، يعني، پرسشنامه متعادل پاسخ مطلوب، به منظور ارزيابي اين دو عامل ساخته شد. دو مقياس که براي پرسش نامه غربالگري رواني (لانيون 1970، 1993) تهيه شد- يعني، تأييد سازگاري بالا و تأييد پرهيزکاري افراطي - نيز بين اين دو مؤلفه فريبکاري مطلوب متمايز ايجاد مي کنند.

مريض جلوه دادن يا تمارض نوعي کوشش عمدي براي ايجاد نگرش در خصوص اختلال يا ناتواني در طرف مقابل است. به علت ويژگي دفاعي بودن در افراد، شواهد زيادي وجود دارد که نيمرخهاي مربوط به آزمونهاي رواني مي توانند از افرادي به دست آيند که عملاً واجد اين ويژگيها نيستند. سازندگان مقياس مزاج هام – ودزورث بيش از 60 سال پيش اين موضوع را مورد بررسي قرار دادند (هام و ودزورث، 1935). در يکي از بررسيهاي جديدي که توسط يکي از نويسندگان کتاب حاضر صورت گرفته است، دانشجويان کاملاً سازگار مي توانند الگويي را در MMPI ايجاد کنند که نشان دهنده شخصيت جامعه ستيز است (لانيون، b1967). ميل و هاتاوي (1946) در نوشته هاي اوليه خود درباره MMPI وجود اين عوامل تحريف کننده را گويا و روشن فرض کردند.

فنون فراکن. يک اعتقاد سنتي وجود دارد که فنون فرافکن، به ويژه رورشاخ، در معرض تحريف هشيار قرار ندارند (براي مثال، راجرز، 1988). با وجود اين، حتي اولين بررسيها در اين زمينه (اگرچه اين نتايج کاملاً هماهنگ و يکدست نيستند) نشان مي دهند که آزمون رورشاخ، در واقع، در معرض وانمودسازي خوب و بد است (کارپ و شاوزين، 1950، فلدمن و گريلي، 1954؛ فوسبرگ، 1938، 1941؛ هنري و راتر، 1956). اين بررسيها علاوه بر اين نشان دادند که آزمونيهاي بهنجار در مقايسه با بيماران بستري بيشتر قادر به تحريف پاسخهاي خودشان هستند و اينکه تا اندازه اي وانمودسازي در جهت بد، ساده تر از خوب است. نتايج مطالعات جديدتر تا اندازه زيادي با بررسيهاي قبلي هماهنگي دارد. براي مثال، آلبرت، فاکس و کان (1980) نشان دادند که متخصصان نمي توانستند تمارض را از طريق متمارضان ناآگاه و آگاه تعيين کنند. بررسي ميتمن (1983) مشخص کرد که آزمون رورشاخ هنگامي که آزمودنيها نسبت به نقش خود آگاهي داشتند مستعد تمارض بوده است. اکسنر و شرمن در يک بررسي چاپ نشده (اکسنر، 1991) با توجه به خوب جلوه دهي، دريافتند که ده بيمار اسکيزوفرن نتوانستند هنگامي که از آنها خواسته شد تا عملکرد خود را بهبودي بخشند از آشکارسازي اجتناب کنند. 

پژوهشهاي به عمل آمده در خصوص تحريفهاي پاسخ با استفاده از ساير ابزارهاي فرافکن (اگرچه کاملاً پراکنده بوده است) از اين نتايج حمايت مي کنند. براي مثال، وايس کوپ و ديپا (1951) نشان دادند که آزمودنيها مي توانند با موفقيت داستانهاي TAT را در جهتهاي مثبت و منفي جعل کنند و به طور کلي در تمارض موفقتر بودند؛ نتيجه اي که توسط کارهاي کاپلان و اورون (1965) نيز مورد تأييد قرار گرفت. هولمز (1974) به آزمودنيها ياد داد تا از فرافکني هاي نادرست استفاده کنند يا فرافکني هاي درست را در TAT بازداري کنند و دريافت که داوران نمي توانستند هر نوع تمارض را تشخيص دهند. بروزوويچ (1970) دروغين بودن نمره ها را در آزمون فرافکن شخصيت گروهي نشان داد. شوارتز، کوهن و پلوليک (1964) در يک بررسي با استفاده از آزمون ناکامي تصاوير رونزوايگ، دريافتند که دستورالعملهاي آموزشي که دفاعي يا بي پرده بودند، پاسخهاي متفاوت قابل انتظاري را به دست دادند. نتيجه اصلي خاصي که در يک مرور جديد پژوهشي در زمينه دفاعي بودن و تمارض با توجه به آزمونهاي فرافکن به دست آمد، آن است که پژوهشهاي مناسبي وجود ندارد تا امکان نتايج قاطعي را در اين زمينه فراهم آورند (استرماک، 1988). با وجود اين، اين نتايج حکايت از آن دارند که مشکل تحريف پاسخ همچنين براي آزمونهاي فرافکن وجود دارد و در اين زمينه شواهد ناچيز ضد و نقيضي به چشم مي خورد.

کنترل فريب

 


کوششهاي هشيار و عمدي بعضي از آزمودنيها جهت تحريف پاسخهاي خود (به ويژه در جهت مثبت) به ابزارهاي ارزيابي شخصيت (خواه پرسشنامه و خواه ابزارهاي فرافکن) مشکل بغرنجي را به وجود آورده است. احتمالاً ساده ترين و مستقيم ترين رويکرد در خصوص اين زمينه جلب همکاري و صداقت آزمودنيها در هنگام پاسخگويي است. اين روش در موقعيتهايي مفيد است که آزماينده و آزمودني هدف مشترکي دارند: دستيابي به اطلاعات دقيق درباره آزمودني. اين وضعيت در اکثر موقعيتهاي پژوهشي و در ارزشيابيهاي مربوط به مشاوره، بهداشت رواني و رشد سازگاري فردي به چشم مي خورد. ولي در بعضي از موقعيتهاي مرسوم، هدف آزمودني رسيدن به مزيتهاي فردي است. بعضي از مثالها در اين زمينه عبارت اند از: ارزشيابيهاي قانوني به منظور تعيين صلاحيت از نظر دادگاه، تعيين وضعيت سلامتي والدين زنداني پس از طلاق يا آسيب و يا ناتواني ذهني در ارتباط با دادخواهي شخصي يا ادعاي جبران کارفرما يا مزيتهاي خاص ديگر. در تمام اين موقعيتها يک ارزيابي مرتبط با شخصيت تا زماني که فريبکاري بالقوه آزمودني مورد توجه قرار نگيرد، از کاربرد محدودي برخوردار خواهد بود.

فريبکاري شامل کوششهاي زياد فرد جهت ارايه يک تصوير خوشايند يا به طور کلي ناخوشايند است. آزمودنيها در يک موقعيت استخدامي تمايل دارند که خودشان را به گونه اي جلوه دهند که مثلاً توانايي فروشندگي بالا يا استعداد رهبري زيادي داشته باشند. در يک موقعيت وابسته به دادگاه، متهم گرايش دارد که هر گونه نشانه احتمالي از تمايلات جنسي انحرافي خود را پنهان کند. کوشش جهت تمارض ممکن است شامل بازنمايي نادرست مشکلات حافظه، آسيب مغزي يا کمردرد مزمن باشد. طرح مبسوطي از اين موارد خارج از طيف اين کتاب است، ولي مي توان آن را در بسياري از منابع يافت (راجرز، 1988؛ اشرتلن، ويلکينز، وان گورپ و بوب هولز، 1992).

براي درک ماهيت روشهاي معاصر ارزيابي فريب عمدي، يک مرور کلي در قالب يک ديدگاه وسيعتر مفيد است. اين رويکرد سنتي مبتني بر مدل نشانه هاي دروغگويي کلي يا نشانه هاي فريب است (اکمن،1985). فرض اصلي اين رويکرد اين است که در خصوص دروغ گفتن نشانه هاي جهان شمولي وجود دارد که شامل پاسخهاي فيزيولوژيکي و حرکتي هستند. اين نشانه ها که معمولاً محصول تغييرات زيربنايي در هيجان پذيري هستند، با استفاده از دروغ ياب و از طريق مشاهده رفتاري دقيق قابل تشخيص هستند. اين مدل به صورت تخيلي در داستان پينوکيو که دروغگويي وي از طريق تغييراتي در اندازه بيني اش قابل تشخيص بود، به تصوير درآمده است. با وجود اين، همان طوري که در فصل پنجم توضيح داده شد، در حال حاضر شواهد پژوهشي قابل توجهي وجود دارد که نتايج دروغ ياب (اگرچه بيش از عامل شانس) در هيچ کجا به سطح مورد نياز کاربرد عملي نزديک نيست (بارتول و بارتول، 1994). به همين ترتيب، يافته هاي پژوهشي پراکنده در خصوص کاربرد نشاه هاي رفتاري به عنوان نشانه هاي کلي دروغگويي حاکي از آن هستند که اين روش نيز يک شيوه موفقيت آميز نيست (اکمن و اوساليوان، 1991).

در طي دهه گذشته، يک رويکرد ديگر در تشخيص فريب از برتري چشمگيري برخوردار شده است. برخلاف رويکرد سنتي که قطع نظر از ويژگيهاي موقعيت يا هدف که مورد جعل قرار مي گرفتند، بر نشانه هاي کلي مشترکي مبتني بود، تکنولوژي جديدتر وابسته به محتواست. چون اين روش به عدم آشنايي آزمودني نسبت به خصوصيات هدف مبتني است، مي توان آن را مدل دقت اطلاعات نام نهاد. به عنوان مثال، کورتل و هاوک (1989) نشان دادند که آن دسته از زندانياني که مي کوشند نشانه هاي روان پريشي کارکردي را تقليد کنند، به شيوه هاي مشهودي از بيماران روان پريش واقعي قابل تشخيص هستند. اکثر بيماران روان پريش واقعي نوعي الگوي شاخص سست شدن و گفتار حاشيه اي را نشان دادند و بسياري نيز انسجام نداشتند، يا واژه سازي (واژه هاي خودساخته) را به کار بردند. آنها عاطفه پايين، کند و يا هر عاطفه نامتناسب ديگري را نشان دادند و الگوي نشانه هاي آنها با يک اختلال خاص هماهنگي داشت. معدود افرادي که تمارض مي کردند، اين نشانه ها را نشان دادند؛ با وجود اين، اين افراد نشانه هايي را نشان دادند که با روان پريشي کارکردي هماهنگي نداشت، مانند توهمهاي بينايي، رفتار دراماتيک و افراطي و افکار خودکشي.

در زمينه هاي ديگر يافته هاي مشابهي گزارش شده است. چاپمن و برنا (1990) در ارزيابي درستي شکايتهاي کمردرد، نوعي الگوي مشخص افراد متمارضي، نظير سطوح پايين تر فعاليت فيزيکي، علاقه و توجه کم به درمان و بسياري نشانه هاي ديگر را دريافتند. ويگينز و برانت (1988) با توجه به آسيب حافظه، انواعي از الگوي عملکرد را نشان دادند که بر اساس آنها فراموشکاران واقعي از افراد متمارض تفاوت داشتند.

گسترش روشهاي تشخيص که مبتني بر رويکرد دقت اطلاعات مي باشد، امروزه به سرعت در حال تکوين است و همه نشانه ها حکايت از آن دارند که اين رويکرد به طور قطعي در تشخيص فريب که در زمينه هاي مختلف ارزيابي وجود دارد، موفق است. با وجود اين، اين روش به هيچ وجه جديد نيست. گاف (1954) بيش از 40 سال پيش، مقياس فريب (Ds) را براي شناسايي بيماراني که در نشانه هاي بيماري روان نژندي خود اغراق مي کردند، تنظيم کرد. او ماده هايي را انتخاب کرد که به طور تجربي بين گروه بيماران واقعي و افرادي که فقط وانمود به بيماري مي کردند، تمايز قايل شده بودند. اين روش مقياس سازي با موفقيت همراه بود، زيرا گروه فريبکار اطلاعات دقيقي درباره بيماري مورد نظر نداشتند. براي آن دسته از افرادي که اطلاعات دقيقي درباره خصوصيات هدف داشتند، شاخصهاي فريبکاري مبتني بر مدل دقت اطلاعات ناموفق بودند.

بحث فوق زمينه اي را براي درک روشهايي که معمولاً براي کنترل فريب به کار مي روند، فراهم مي کند. اين کار به طور عمده در زمينه ارزيابي بهداشت رواني و به ميزان کمتري در زمينه پرسشنامه هاي شخصيت بهنجار انجام شده است. سه رويکرد اصلي در اين خصوص را مي توان تشخيص، اصلاح و پيشگيري ناميد.

روشهاي تشخيص. بسياري از پرسشنامه ها مانند بعضي از مقياسهاي خاص براي ارزيابي اين موضوع به کار مي روند که تا چه اندازه آزمودنيها مي کوشند تا پاسخهاي خود را تحريف کنند. براي مثال، مقياس تأييد رجحان کودر (کودر، 1951) و مقياس دروغ سنجي (L) آزمون MMPI نمره اي را به دست مي دهند که مبين تعداد دفعاتي است که فرد به ماده هاي خاصي پاسخ داده است؛ ماده هايي که به ندرت به آنها بدين گونه جواب داده مي شود. هدف از اين مقياس تأييد عمدتاً شناسايي آزمودنيهايي است که به طور تصادفي پاسخ مي دهند و مقياس L در پي مشخص کردن آزمودنيهايي است که به طور ساده نگرشهاي دفاعي دارند يا سعي مي کنند خود را به نحو مطلوبي جلوه دهند. اکثر افراد به طور صادقانه تنها بعضي از ماده هاي مقياس L را (نظير "من هرگز دست به دزدي نزده ام") تأييد مي کنند. افرادي که بيش از اندازه اين ماده را تصديق مي کنند تمايل دارند خود را خوب جلوه دهند و نيمرخ آنها معمولاً چه از لحاظ کاربرد باليني يا پژوهش بي اعتبار قلمداد مي شود.

همانند مقياس تأييد کودر، مقياس F در MMPI آزمودنيهايي را شناسايي مي کند که به يک شيوه نامنظم به ماده هايي پاسخ مي دهند که به ندرت در يک جهت خاص به آنها پاسخ داده مي شود. چون اکثر پاسخهاي نادر در MMPI از لحاظ اجتماعي نامطلوب يا رواني – آسيب شناختي هستند، مقياس F نيز افرادي را شناسايي مي کنند که تمايل دارند خود را بد جلوه دهند. شواهد پژوهشي زيادي حکايت از آن دارند که اين مقياسها به طور منطقي در شناسايي تمارض مؤثر هستند. شاخص F-K يا تفاوت بين نمره هاي خام در مقياس F و K نيز از اين لحاظ موفق هستند (دالستروم، ولش و دالستروم، 1975؛ گاف، 1950).

روشهاي اصلاح. سازندگان آزمون MMPI کوشش کرده اند تا به طور ساده بتوانند تحريف پاسخ مطلوب يا نامطلوب را تشخيص دهند. آنها مقياس K را به عنوان يک وسيله تصحيح ابداع کردند؛ يعني، کوششي براي ارزيابي ميزان درجه دفاعي بودن موجود در نيمرخ رواني و تصحيح آن. همان طوري که در فصل 3 خاطرنشان شد، مقياس K به طور تجربي از طريق مقايسه پاسخهاي افراد بهنجار با پاسخهاي بيماران روان پزشکي به دست آمده است که نمره هاي آنها در مقياسهاي باليني در دامنه بهنجار قرار داشتند، و بنابراين، افرادي که بتوان بيماري رواني آنها را کمتر از حد در نظر گرفت. نمره هاي بالا در اين مقياس با پاسخ بلي به ماده هايي مانند "من هرگز در زندگي احساس بهتر نداشتم" به دست مي آمدند.

نمره K مستقيماً به عنوان يک متغير اصلاحي مورد استفاده قرار گرفته و در کسرهاي مختلف به نمره هاي آزمودني در پنج مقياس باليني اضافه مي شود (Hs، Pd، Pt و Ma). استفاده از مقياس K به بدين شيوه در اصل براي افزايش قدرت تميزي اين مقياسها به ويژه در دامنه مياني و حساس ارزشهاي نمره مورد استفاده قرار مي گيرد (دالستروم، ولش و دالستروم، 1972، ص 128). در اصل سازندگان MMPI اين تصور را داشتند که کسرهاي بهينه مقياس K که بايد براي آن افزايشي صورت گيرد با توجه به جامعه مورد نظر تفاوت دارد. بنابراين، هيلبرون (1963) مجموعه اصلاح شده اي از کسرهاي تصحيح K را به منظور افزايش اعتبار MMPI در ميان دانشجويان گزارش کرد. با وجود اين، مجموعه اوليه وزنها به عنوان بخش اصلي آزمون تبديل شده و در اصل براي تمام آزمودنيها به کار برده مي شود. همچنين کاربرد استفاده از فن تصحيح K و تصحيح هاي ويژه که اکنون به کار مي روند بايد غيرقطعي تلقي شوند. در سايه کارهاي مارکس، سيمان، و هالر (1974) که يک سيستم تفسيري آماري را براي نيمرخهاي MMPI مربوط به نوجوانان ارايه کردند و در پرتو MMPI-A که جديدتر است، معلوم شد که اگر تصحيح هاي K مورد استفاده قرار نمي گرفتند، اعتبار بالاتري به دست مي آمد.

روشهاي پيشگيري. بهترين روش براي پيشگيري از فريب استفاده از ماده هاي ظريف و مويين است؛ يعني، ماده هايي با اعتبار پيش بين يا همزمان تجربي ولي بدون اعتبار صوري يا اعتبار صوري اندک. اين اعتقاد رايج است ( به فصل 3 نگاه کنيد) که ماده هاي ظريف و مويين در مقايسه با ماده هاي آشکار باعث اعتبار يا سودمندي اندک مي شوند. براي مثال، نورمن (a1963) که روش پيچيده کنترل فريب را از طريق حذف آشکارترين ماده ها در مقياس خود ارايه کرد، نتيجه گرفت که کاربرد اين مقياسها "جهت استفاده در يک موقعيت با توجه به طبقه خاصي از آزمودنيها را نمي توان بيش از اندازه تعميم داد" (ص 240). البته اين يافته با فرض مربوط به مدل دقت اطلاعات هماهنگي دارد که در آن ماده هاي مناسب براي تشخيص فريب به يک زمينه خاص وابسته هستند. هنگامي که از اين زاويه موضوع را بررسي کنيم، استفاده از ماده هاي ظريف و مويين را بايد به عنوان يک رويکرد نويدبخش مورد توجه قرار داد. بنابراين، ماده هايي مانند آنهايي که توسط کورنل و هاوک (1989) جهت شناسايي افرادي که روان پريشي را تقليد کرده بودند (همان طوري که قبلاً توضيح داده شده) شناسايي شده بودند، مي توان به طور مناسبي ظريف و مويين ناميد.

يک روش نسبتاً افراطي براي پيشگيري از فريب در کارهاي والاس (1966، 1967) ارايه شده است. به جاي در نظر گرفتن شخصيت بر اساس صفات يا عملکرد عادتي، به اعتقاد وي مي توان اصطلاحهاي توانايي يا حداکثر عملکرد را جايگزين کرد. بنابراين، شاخصي از برتري و تفوق ممکن است شامل يک آزمون موقعيتي باشد که در آن آزمودنيها بايد پاسخهاي خود را هر چقدر که امکان دارد با سلطه گري مطرح کنند و بعد با توجه به عملکرد واقعي خودشان مورد ارزيابي قرار خواهند گرفت. براي آن آزمودني که به عملکرد حداکثر و نه به عملکرد عادتي مربوط مي شود، مسئله دروغگويي يا دفاعي بودن تا اندازه اي نامربوط است. نسخه غيرمستقيمي از اين ايده را مي توان در نيمرخ شخصيت جامع استخدام مدار (آزمون استخدامي واندرليک، 1993) يافت. در اين نيمرخ از فرد متقاضي شغل خواسته مي شود که به هر ماده دو بار پاسخ دهد؛ يکبار براي "توصيف خويش و احساسهاي خود" و بار ديگر به "جاي يک متقاضي ايده آل يا کامل". از مقايسه بين اين دو نمره براي تعيين هماهنگي متقاضي با شغل مورد نظر استفاده مي شود. با وجود اين، اعتبار اين روش يا هر استفاده ديگر از رويکرد حداکثر عملکرد، تاکنون به طور جدي مورد مطالعه قرار نگرفته است.

تمام اين روشها مزيتها و طرفداران خود را دارند. در عين حال، هر کدام از آنها محدوديتهاي روشني دارند و هيچ کدام کاملاً روش مناسبي براي کنترل فريب (در پاسخ به پرسشنامه هاي شخصيت) محسوب نمي شوند. بنابراين، سؤال مربوط به کنترل فريب در ارزيابي شخصيت هنوز به قوّت خود باقي خواهند ماند. همان طوري که در فصل نهم خواهيم ديد، بعضي از روان شناسان (براي مثال، لوول، 1967) بر اين باورند که آزمونهاي شخصيت را نبايد به طور کلي تحت شرايطي که فرض دفاعي بودن بالا وجود دارد، به کار برد.

خلاصه

 


پايايي به تکرارپذيري يک شاخص مربوط مي شود. پايايي در نسخه هاي معادل يک ابزار اندازه گيري همساني نام دارد. ثبات به پايايي در طول زمان اشاره دارد. عدم پايايي خطاي اندازه گيري مي تواند نظامدار يا تصادفي باشد. خطاها يا سوگيريهاي نظامدار را مي توان کنترل کرد. خطاي تصادفي را مي توان به عنوان بازتابي از اين واقعيت در نظر گرفت که محتواي يک آزمون به طور ساده، نمونه ناچيزي از کل نمونه اي است که خصوصيت مورد نظر را در بر مي گيرد. تعدادي از فنون عملي مختلف به منظور ارزيابي پايايي وجود دارند و اينکه کدام روش به کار رود، به اين موضوع بستگي دارد که، چه منابعي از ناپايايي مورد ارزيابي قرار مي گيرند. فرمولهاي کودر- ريچاردسون و ضريب آلفاي کرونباخ صرفاً خطاي تصادفي را اندازه گيري مي کنند و برآوردي از همساني دروني آزمون را به دست مي دهند. پايايي دو نيمه سازي نيز برآوردي از خطاي تصادقي را به دست مي دهد؛ نسخه اي معادل و پاياييهاي بازآزمايي درجات متفاوتي از خطاي تصادفي و نظامدار را به دست مي دهند. براي کاربرد عملي پايايي در تعيين دقت نمره آزمون، خطاي معيار اندازه گيري را مي توان از روي ضريب پايايي و انحراف معيار نمره هاي حاصل محاسبه کرد.

مشکلات خاصي که در خصوص تعيين پاياييهاي بعضي از آزمونهاي فرافکن وجود دارد، اغلب به اين نتيجه نامناسب انجاميده است که ملاحظات پايايي را نبايد در مورد آنها به کار برد. اين مشکلات از منابع چندي ناشي مي شوند: اين واقعيت که آزمونها همراه با ضرايب پايايي نمره ها به طور ذهني ساخته نمي شوند، عدم وجود استانداردهاي مربوط به دستورالعملها براي اجرا و نمره گذاري آزمونها و جنبه هاي نمره گذاري. يک رويکرد در اين زمينه به ضرايب پايايي کاربردهاي مختلفي متمرکز بوده است که نتايج آزمون در خصوص آنها کارايي دارد؛ يعني، پايايي تفسيرهاي کلي. اين رويکرد، به رغم برخي از مشکلات، احتمالاً مناسبترين روش براي فنون فرافکن است.

اعتبار را مي توان به عنوان درجه يا ميزاني در نظر گرفت که استنباطهاي به عمل آمده از نمره هاي آزمون به وسيله شواهد تأييد مي شوند. چون آزمونهاي مختلف هدفهاي متفاوتي دارند، رويکردي که براي نشان دادن اعتبار در يک آزمون يا موقعيت به کار مي رود ممکن است براي يک آزمون يا موقعيت ديگر مناسب نباشد. اعتبار محتوا يا صوري ويژه آزموني است که محتواي آن نمونه معرفي از رفتارهاي مورد نظر است. اعتبار وابسته به ملاک به دقتي اشاره دارد که بر اساس آن استنباطهايي درباره يک خصوصيت معين فرد، يا ملاک را مي توان بر اساس يک خصوصيت ديگر و يا عامل پيش بيني کننده به عمل آورد. اعتبار سازه زماني مطرح مي شود که هيچ گونه ملاک مشخصي براي خصوصيتي که مورد ارزيابي قرار دارد وجود ندارد، و به همين دليل منطقي است که شبکه روابط بين شاخص مورد نظر و انواع مفاهيم مربوط را نشان دهيم.

در يک واقعيت باليني، اهميت دقت پيش بيني ساده يک آزمون کمتر از اعتبار افزوده آن (يعني، وجه و ميزاني که آزمون دقت، پيش بيني را بالاتر از سطحي که مي توان بدون آزمون بدان رسيد، افزايش مي دهد) است. چنين تصور مي شود که اگر توجه بيشتري به اعتبار افزوده مبذول مي شد، بسياري از آزمونهاي باليني معمول امروزي ناديده گرفته مي شد.

همان طوري که مي توان نشان داد، هنگامي که دقت پيش بيني بر اساس موفقيت و شکست مورد ارزيابي قرار مي گيرد، آگاهي از نرخ پايه يا فراواني واقعه مورد نظر جامعه اهميت دارد. آگاهي از هزينه يا ارزش مربوط به اتخاذ يک تصميم نادرست در يک جهت يا جهت ديگر از اهميت وافري برخوردار است. چنانچه مشکل نه به پيش بيني، بلکه به انتخاب مربوط شود - يعني، اگر پيش بيني نبايد به هر آزمودني خاصي که اطلاعاتي درباره وي در دسترس است مربوط شود - آن گاه نسبت انتخاب نيز در تعيين کارايي پيش بيني به يک عامل تبديل مي شود.

متغير تعديل کننده هرگونه اطلاعاتي است که مي توان از آن براي پيش بيني مربوط به يک فرد خاص استفاده کرد و اينکه چگونه مي توان پيش بيني ديگر را با دقت ارايه کرد. بنابراين، افزايش دقت در پيش بيني به طور بالقوه به بهاي ارايه پيش بيني صرفاً براي نسبتي از آزمودنيها امکان پذير است. اکثريت پژوهشهاي به عمل آمده در زمينه متغيرهاي تعديل کننده تا به امروز در خصوص پيش بيني هاي تحصيلي و استخدامي بوده است، ولي بررسي کاربرد آنها در ارزيابي باليني و شخصيت مفيد به نظر مي رسد. تحريفهاي پاسخ به هر گونه متغيري (غير از خصوصيات شخصيت آزمودني) اشاره مي کند که ممکن است بر پاسخهايي که به روشهاي ارزيابي شخصيت داده مي شود، تأثير گذارد. سبکهاي پاسخ به عنوان گرايشهايي در جهت انتخاب نامتناسب بعضي از پاسخها قطع نظر از محتواي محرک آزمون تعريف شده است. تصديق گويي تمايل به دادن پاسخ "بلي" زياد در يک پرسشنامه درست - غلط است.

راهبدهاي پژوهشي چندي براي تعيين درجه و ميزاني که سبک تصديق گويي پاسخهاي پرسشنامه را تحريف مي کند وجود دارند که عبارت اند از: بررسي همبستگيهاي بين نمره هاي مقياسهاي اصلي و مقياسهاي "معکوس"، بررسيهاي تحليل عاملي و مقايسه ميان شاخصهاي مختلف تصديق گويي. شواهد حاصل ظاهراً حکايت از آن دارند که تصديق گويي تأثير تحريف کننده مهمي را بر پاسخهاي پرسشنامه اِعمال نمي کند و اينکه نتايج قبلي متناقض سهم محتواي ماده سؤال را در نظر نمي گيرد. سبک پاسخ منحرف، يعني، گرايش به دادن پاسخ در يک جهت انحرافي، در مقايسه با تصديق گويي توجه کمتري را به سوي خود جلب کرده است و ما بر اين باوريم که اين سبک در حوزه ارزيابي شخصيت از اهميت عملي اندکي برخوردار است.

آمايه هاي پاسخ گرايشهاي هشيار يا ناهشيار جهت تحريف نظامدار پاسخها به ابزارهاي ارزيابي شخصيت هستند. مطلوبيت اجتماعي يا گرايش طبيعي (يا ناهشيار) به پاسخگويي در يک جهت مطلوب اجتماعي، آن طور که قبلاً تصور مي رفت يک عامل چندان تحريک کننده نيست؛ ولي ممکن است در مقابل، خصوصيات (مطلوب اجتماعي) واقعي آزمودني را نشان دهد. درجات بالاي مطلوبيت اجتماعي يک نگراني بجا و معتبر است، ولي احتمال آن را مي توان اغلب از طريق واژه بنديهاي مناسب ماده در خلال مراحل اوليه آزمون سازي کاهش داد. شواهد قاطعي در اين خصوص وجود ندارد که نشان دهد روشهاي گزينه بايست براي کنترل مطلوبيت اجتماعي مفيد هستند يا خير.

فريب عمدي، يعني، کوشش هشيار براي تحريف پاسخهاي آزمون شخصيت، در خصوص اعتبار ابزارهاي ارزيابي يک مشکل جدي و حل نشده را مطرح مي کند. فريب عمدي هم به بد جلوه دهي و هم به خوب جلوه دهي اشاره دارد که بسته به اينکه کدام جنبه از ويژگي هدف مورد تحريف قرار مي گيرد، رويکردهاي مختلفي را شامل مي شود. پيشرفتهاي قابل ملاحظه اي در گسترش روشهاي اختصاصي و محتوي مدار در خصوص تعيين تحريف بعضي خصوصيتها صورت گرفته اند. اين پيشرفتها عمدتاً بر اين رويکرد دقت اطلاعات به فريب را مي توان در برابر رويکرد سنتي تر نشان هاي دروغگويي کلي قرار داد که در آن اين تصور وجود دارد که نشانه هاي جهان شمول معيني وجود دارد که مستقل از محتوايي هستند که تحريف شده اند. نمونه هايي از روشهاي محتوي مدار براي تعيين فريب شامل مقياس L در MMPI جهت شناسايي کوششهايي در جهت خوب نمايي افراطي است. بر خلاف اعتقاد عمومي، فنون فرافکن نيز در معرض کوششهاي عمدي آزمودنيها جهت تحريف پاسخهايشان قرار دارد، اگرچه در اين زمينه ايجاد عمدي يک برداشت مطلوب مشکل تر از يک برداشت نامطلوب است.

شواهد چندان محکمي در اين زمينه وجود ندارد که روشهاي تصحيح مانند مقياس K در MMPI در کنترل تحريف پاسخ مفيد هستند. پژوهشهاي بيشتري در خصوص گسترش تکنولوژي آزمون سازي که از دفاعي بودن و ساير تحريفهاي پاسخ جلوگيري کند، وجود ندارد.

منبع:تالیف:آی . لانیون،ریچارد و دی فلئونارد ، ترجمه:نقشبندی،سیامک و .... «ارزيابي شخصيت» ، نشر روان ،1385



برچسب‌ها: سبک پاسخ, تحریف پاسخ, روان سنجی
+ نوشته شده در  دوشنبه 1 اردیبهشت1393ساعت   توسط محمد حسین ضرغامی  | 

معرفی کتاب درسی نظریه مدرن سئوال پاسخ

کتاب درسی نظریه مدرن سئوال پاسخ

پیشگفتار 

1. نظریه سئوال پاسخ: تاریخ مختصر، مدل های رایج، و گسترش آن ها

جیم جی. ون در لیندن و رونالد کی. رونالد کی. هامبلتون

1. مدل هایی برای سئوال ها با فرمت های چندگانه

معرفی

2. مدل دسته های صوری: آر. دارل باک

3. مدلی پاسخی برای سئوال های چهار گزینه ای: دیوید تیسن و لین استاینبرگ

4. مدل مقیاس رتبه بندی: ارلینگ بی. اندرسون

5. مدل پاسخ امتیارداده شده:فوکیمو سامه جیما

6. مدل اعتبار جزیی: جفری ان. مسترز و بنجامین دی. رایت

7. مدل مرحله ای برای تحلیل اعتبار جزئی: ان دی ورهلست، سی ای دبلیو گلاس و اچ اچ دی وریس

8. مدل های ترتیبی برای پاسخ های مرتب شده: گرهارد توتس

9. یک مدل اعتباری جزیی تعمیم یافته: ایجی موراکی

II. مدل هایی برای زمان پاسخ و یا تلاش های متعدد بر روی سئوال ها

معرفی

10. یک مدل لوژیستیک برای آزمون های زمان محدود: ان دی ورلست، اچ. اچ. اف. ام. ورسترالن و ام.جی. اچ جانسن

11. مدل هایی برای سرعت و آزمون های محدود زمانی: ادوارد. ای روسکام

12. تلاش های متعدد، مدل های سئوال پاسخ تک سئوالی: جودیت ای. اسپری

II. مدل هایی برای توانایی های متعدد و یا اجژای شناختی

مقدمه

13. مدل های خطی یک لوژیستیکی راش: گرهارد اچ فیشر

14. مدل های پاسخ با پیش بینی کننده های روشن: آئلکو ای. زوییندرمن

15. مدل چند بعدی نورمال-اوگیو: پودریک پی. مک دونالد

16.مدل های چند بعدی لوژیستیک خطی برای داده های دوگانه سئوال پاسخ: مارک دی. رکاس

17. مدل سئوال پاسخ چند بعدی خزی لاگ برای سئوال هایی که به چند روش نمره داده می شوند: هنک کلدرمن

18. مدل های پاسخ چند اجزایی: سوزان ایی امبرستون

19. مدل های لوژیستیک خطی چندبعدی برای تغییر: گرهارد اچ. فیشر و الیزابت سلیگر

IV. مدل های غیر پارامتریک

مقدمه

20. مدل های غیر پارامتری برای پاسخ های دوکانه: روبرت جی. موکن

21. مدل های غیر پارامترای برای پاسخ های چندگانه: ایوو دبلیو مولنار

22. یک رویکرد عملی برای مدل سازی داده های آزمون: جی. او. رمسی

V. مدل هایی برای سئوال های noغیر تک نوا

مقدمه

23. مدل سئوال پاسخ hyperbolic cosine برای بازکردن پاسخ ها افراد به سئوال ها:  دیوید آندریچ

24. پارلا: مدل سئوال پاسخ برای تحلیل مدل لوزی: هربرت هوجیتینک

VI. مدل هایی با فرضیات خاص در مورد فرآیند پاسخ

مقدمه

25. سئوال پاسخ گروهی متعدد: آر. دارل باک و میشل اف. زیموسکی

26. مدل های ترکیبی لوژیستیک: جیزگن روست

27. مدل هایی برای پاسخ های مبتنی بر یک محل

28. مدل های ناجور برای فرمت های آزمون که اجازه نمایش اطلاعات جزیی را می دهند: تی. پی هاچینسون




برچسب‌ها: کتاب درسی, نظریه مدرن سوال پاسخ
+ نوشته شده در  دوشنبه 25 فروردین1393ساعت   توسط محمد حسین ضرغامی  | 

معرفی یک کتاب: شناخت و سنجش

معرفی یک کتاب: شناخت و سنجش

The Learning Sciences in Educational Assessment: The Role of Cognitive Models

 کتاب علوم یادگیری در سنجش آموزشی: نقش مدل های شناختی از دکتر لیتون و گیرل، انتشارات کمبریج در سال 2011 کتابی است دارای 7 فصل که در آن مطالبی راجع به مدل های شناختی در درک مطلب، استدلال علمی و استدلال ریاضی مطرح کرده است. علاوه بر این در این کتاب مطالبی راجع به سنجش آموزشی در مقیاس بزرگ و مدل های آماری مبتنی بر شناخت نیز بحث شده است.

در مقذمه این کتاب آمده است: آزمون های پیشرفت تحصیلی در مقیاس بزرگ باید بر اساس علم یادگیری انسان طراحی کرد. نمرات آزمون، اطلاعات ارزشمندی را در مورد کیفیت یادگیری و پیشرفت تحصیلی ارایه می دهد که در آینده منجر به رشد اقتصادی و نوآوری می شود.

علوم یادگیری، حیطه ای بین رشته ای است. اگرچه پایه هایش به تکنولوژی آموزشی، مطالعات اجتماعی-فرهنگی، علوم کامپیوتر، انسان شناسی، و علوم شناختی بر می گردد، تاکید اصلی آن بر چیزی است که یادگیری انسان را موفق تر می کند. برای به حداکثر رساندن یادگیری، مکانیسم هایی که باعث یا مانع یادگیری می شوند شناسایی و بررسی شده اند. در این زمینه، علوم شناختی نقش مهمی را بازی کرده است. اثر آن می تواند به سازنده گرایی پیاژه برگردد که بر ساختارهای کیفی متفاوت دانش و تفکر کودکان را در رابطه با دانش و تفکر بزرگسالان و اهمیت آموزشی شناسایی این تفاوت ها به عنوان دانش جدید  تاکید می کند.

بر اساس نظر سایر، 5 واقعیت اساسی در مورد یادگیری عبارت است از:

1.درک مفهومی عمیقی برای استفاده از دانش لازم است.

2.نه فقط تدریس بلکه یادگیری نیز باید مورد تاکید قرار گیرد.

3.محیط یادگیری باید ایجاد شود.

4.دانش مبتنی بر خودش ساخته می شود.

5.تفکر.

در بخش پایانی این کتاب آمده است: تحقیقات انجام شده در زمینه کاربرد اصول شناختی در سنجش خصوصاً در حیطه روش های آماری مبتنی بر شناخت در حال رونق است. از دو قرن پیش یعنی از زمان انتشار کتاب ها و مقالات، استنباط هایی راجع به دانش و مهارت آزمودنی ها که به اطلاعات مفصلی در مورد سازمان، ارایه و تولید صفات از مدل شناختی نیاز دارد. تمایل به ترکیب شناخت با سنجش منجر به تحقیقات زیادی شده است که به منظور شناسایی و ارزیابی دانش و مهارت های آزمودنی ها با استفاده از روش های آماری چدید طراحی شده است. انجمن امریکایی تحقیقات آموزشی، گروه ویژه ای به نام شناخت و سنجش را در سال 2007 شکل داد تا سکویی برای محققان ایجاد کند که رشته های روانشناسی شناختی، علوم شناختی، روانشناسی تربیتی، سنجش آموزشی و آمار را بری حل مشکلات پیچیده سنجش با استفاده رویکرد چند رشته ای را ترکیب می کند. شماره ویژه ای از مجله اندازه گیری آمورشی که در سال 2007 منتشر شد به روش های آماری مبتنی بر شناخت اختصاص یافت. هم چنین در سال 2007، انتشارات دانشگاه کمبریج کتابی تحت عنوان سنجش شناختی-تشخیصی در آموزش را چاپ کرد. در سال 2008 مجله اندازه گیری: تحقیقات بین رشته ای و رویکردها، شماره کاملی از مجله را به موضوع روش های آماری مبتنی بر شناخت اختصاص داد.

منبع: www.assessment.blogsky.com


برچسب‌ها: شناخت و سنجش
+ نوشته شده در  چهارشنبه 7 اسفند1392ساعت   توسط محمد حسین ضرغامی  | 

معرفی اجمالی روان سنجی

روانشناسی از هنگامی به صورت یک علم مستقل درآمد که به آزمایشگاه کشیده شد، پدیده های روانی (احساس ، ادراک ، یادگیری ، حافظه ،شخصیت و … ) به صورت عینی (Objective) و عملیاتی (Operational) تعریف گردید و روشهای آماری و طرح تحقیقاتی برای اندازه گیری و کنترل آنها مورد استفاده قرار گرفت. پیش از آن موضوعات مورد مطالعه در آن اغلب کلی و مبهم و تعریف ناپذیر بودند. در واقع مطالعه و تحقیق در مورد موضوعات مختلف روان شناسی در طی قرون متمادی مورد توجه بوده است اما آنچه روان شناسی را به علت علم مستقل شناساند، استفاده از روشهای آماری و طرحهای تحقیقی برای آزمایشهای روان شناختی و ساخت وسایل روان سنجی بود. 

تعریف روان سنجی

در روان شناسی مجموعه شیوه‌هایی که به روان شناس کمک می‌کند تا پدیده‌های روانی انسان را از حالت کیفی به حالت کمی (عددی) در آورد اصطلاحا روان سنجی (Psychometrics) می‌گویند. روان سنجی در معنای وسیع کلمه به معنی استفاده از روشهای آماری و آزمایش و در معنای محدود کلمه به معنی بهره گیری از آزمونهای روانی برای اندازه گیری پدیده‌های روانی است. 

اهمیت روان سنجی و اندازه گیری

اهمیت استفاده از روشهای آماری در روان شناسی

آمار یکی از کاربردی‌ترین شاخه‌های ریاضی است. در واقع زندگی انسان امروز با آمار پیوند خورده است و روان شناسی نیز که یکی ازشاخه‌های علوم انسانی است بدون آمار در تجزیه و تحلیل مسائل ناتوان است. به عبارت دیگر مفاهیم روان شناختی این گرایش از علم اکثرا به صورت کیفی بوده و به درستی قابل کاربرد نمی‌باشد و فقط با روشهای آماری است که می‌توان به داده‌ها و نتایج قابل اعتماد دست یافت و آنها را به صورت کمی نشان داد. 

اهمیت استفاده از روان سنجی

انسانها در همه دوران به این موضوع علاقه داشتند که یکدیگر را شناخته و طبقه بندی کنند. این طبقه بندی و شناخت هم شامل مسائل جسمی (نظیر قوی و ضعیف ، سالم و بیمار و …) و مسائل روانی و ذهنی (نظیر هوش ، استعداد ، شخصیت و …) بوده است. در عصر حاضر نیز این مسئله به موضوعی بسیار مهم و حیاتی تبدیل شده است و اهمیت روان سنجی در این است وسایل علمی لازم را برای این شناخت و طبقه بندی در اختیار جامعه و متخصصان علوم انسانی قرار می‌دهد. در واقع اهمیت روان سنجی در دل سوالاتی از قبیل : چه کسی با هوش یا عقب مانده است؟ ، یک فرد بخصوص چه نوع استعدادی دارد؟ و یا چگونه می‌توان به شناختی از شخصیت و خصوصیات فردی افراد دست یافت؟ قرار دارد. 

کاربردهای روان سنجی و اندازه گیری

کاربرد روشهای آماری در روان شناسی

از لحاظ توصیفی آمار در روان شناسی کاربرد فوری و عملی دارد. آمار توصیفی روان شناس و محقق علم رفتاری را کمک می‌کند تا با نگاهی عینی و کمی با پدیده‌های روانی - اجتماعی بنگرد و آنها را توسط شاخصهای آماری نظیر میانگین (Mean) ، انحراف استاندارد (Standard deviation) و یا منحنی بهنجار (Normal curve) بیان می‌کند. از طرف دیگر کاربرد آمار به صورت استنباطی در روان شناسی به حل مسائل پژوهشی و یافتن روابط علت و معلولی (Cause and effect) ، همبستگی (Correlation) کمک کرده ، باعث توسعه و پیشرفت نظری و کاربردی روان شناسی و علوم رفتاری می‌شود. 

کاربرد روشهای روان سنجی

پیش بینی

تقسیم گیری مستلزم آن است که افراد بتوانند میزان موفقیت خود را در آینده در زمینه معینی نظیر پیشرفت تحصیلی یا شغلی پیش بینی (Prediction) کنند. روان سنجی برای اندازه گیری توانایی پیشرفت تحصیلی و سایر ویژگیهای افراد بکار می‌رود. در واقع پیش بینی بر داده‌های کمی معتبرتر و دقیقتر از تفکر واهی است. 

گزینش

در برخی از موسسات و سازمان‌ها مانند دانشکده‌ها و سازمان‌های استخدام کننده آزمونها برای گزینش (Selection) یا در بعضی افراد مورد استفاده قرار می‌گیرند. 

طبقه بندی

طیقه بندی (Classification) عبارت است از گروه بندی افراد براساس تقسیمات منطقی. طبقه بندی مستلزم آن است که معلوم شود یک فرد خاص در چه گروهی جای داده شود و یا براساس چه روشی مورد آموزش یا درمان قرار گیرد. روان سنجی ابزار و وسایل لازم را برای طبقه بندی افراد فراهم می کند. 

ارزشیابی

ابزارهای روان سنجی به منظور قضاوت و ارزشیابی (Evaluation) در مورد برنامه ، روشها ، تدابیر درمانی و میزان پیشرفت افراد و … مورد استفاده قرار می‌گیرند. 



برچسب‌ها: روان سنجی, علم اندازه گیری روانی
+ نوشته شده در  سه شنبه 29 بهمن1392ساعت   توسط محمد حسین ضرغامی  | 

معنای سنجش

تعریف سنجش

بر اساس نظر هریس استفاناکیس (200)، واژه assess از واژه لاتین assidere گرفته شده است و به معنی to sit beside (کنار کسی نشستن) و to assess یعنی to sit beside the learner (کنار یادگیرنده نشستن) است.

به نظر می رسد در این جا منظور این است که یاددهنده و یادگیرنده باید با هم کار کنند. یاددهنده باید در کنار یادگیرنده بنشیند و از آن چه یاد گرفته و از پیشرفتی که داشته است، آگاه شود. در این تعریف بر سنجش مستمر به جای سنجش بر اساس امتحان پایانی تاکید شده است.

هر سنجشی مبتنی بر سه رکن است:

الگویی برای چگونگی ارایه دانش و توسعه شایستگی در یک حیطه محتوایی توسط یادگیرنده،

تکالیف یا موقعیت هایی که بررسی عملکرد یادگیرنده را ممکن می سازد و

روش تفسیر استنباط کردن از شواهد مربوط به عملکرد.

منبع:http://assessment.blogsky.com/1392/09


برچسب‌ها: معنای سنجش
+ نوشته شده در  یکشنبه 20 بهمن1392ساعت   توسط محمد حسین ضرغامی  | 

سنجش شناختی-تشخیصی

سنجش شناختی-تشخیصی به منظور اندازه­گیری ساختارهای دانش ویژه و مهارت­های پردازش در فراگیران تدوین شده است تا اطلاعاتی در مورد نقاط قوت و ضعف شناختی فراهم آورد. سنجش شناختی-تشخیصی هنوز در ابتدای راه است، اما پایه آن به خوبی تدوین شده است. در سال 1980 دو فصل از کتاب اندازه­گیری روبرت لین شروعی برای تمایل و نیاز زیاد به سنجش شناختی-تشخیصی بود. فصل روایی سامویل مسیک و فصل آخر اسنو و دیوید لوهمانز، دلالت­های روانشناسی شناختی برای اندازه­گیری آموزشی، به یکپارچه کردن همراهی روانشناسی شناختی در اندازه­گیری آموزشی کمک کرد.

مدل­های شناختی-تشخیصی به منظور ارایه اطلاعات مورد نظر به صورت نیمرخ­های نمره که محدودیت مدل­های نظریه سوال-پاسخ را رفع می­کند، تدوین شده اند. انواع مختلف مدل­های شناختی-تشخیصی در ادبیات اندازه­گیری ارایه شده است. به طور کلی این مدل­ها، وضعیت­های مختلف مورد نظر محققان (مثل انواع سازه، پاسخ، و بعدیت) در روانسنجی و علوم شناختی و یادگیری را پوشش می­دهند. به دلیل محبوبیت این مدل­ها، مطالعاتی در میان محققان به منظور درک و یکپارچه کردن این مدل­ها انجام شده است. انواع مختلفی از مدل­های تشخیصی-شناختی در ادبیات وجود دارد و در عمل نیز استفاده شده است. برای مقایسه این مدل­ها، سه متغیر را می­توان مد نظر قرار داد: متغیر پاسخ­های دو ارزشی و چندارزشی، متغیر مکنون دو ارزشی و چندارزشی و متغیر گروه­بندی جبرانی یا غیر جبرانی صفت مکنون.

الگوهایخاص صفت، مهارت و عدم مهارت طبقه­ها یا گروه­های مکنون را که بر اساس آن مدل­های شناختی-تشخیصی، آزمودنی­ها را طبقه بندی می­کند را تعریف می­کند. به دلیل این­که صفت­ها و بنابراین طبقه­ها قبل از تحلیل تعریف می­شوند، این مدل­ها، مدل­های طبقه مکنون تاییدی هستند که طبقه بندی آزمودنی­ها بر اساس پاسخ به سوالات تعیین می­شود.به دلیل ماهیت تاییدی این مدل­ها، تدوین یک آزمون تشخیصی ابتدا مستلزم صفاتی است که به وسیله تحقیقات شناختی برای حیطه مورد نظر مهم تشخیص داده شده است، می باشد. سپس، هر سوال آزمون برای اندازه­گیری یک یا چند صفت طراحی می­شود. به دلیل این­که یک سوال می­تواند بیش از یک صفت را اندازه گیری کند، چند بعدی بودن درون و بین سوالات وجود دارد. همخوانی سوال-صفت در ماتریس کیو ارایه می شود. ماتریسی که در آن 1 نشان می­دهد که یک سوال یک صفت را اندازه­گیری می­کند و درایه صفر بدین معناست که آن سوال آن صفت را اندازه­گیری نمی­کند. دقت طبقه­بندی مدل­های شناختی-تشخیصی به همخوانی درست سوالات با صفات بر می­گردد، به گونه­ای که تعیین نادرست ماتریس کیو منجر به طبقه­بندی غلط می­شود.

هدف اندازه­گیری تشخیصی شبیه تشخیص­های معمول است با این تفاوت که بافتی که در آن اندازه گیری می­شود، رسمی­تر است. مثلاً فردی که باید مورد تشخیص قرار گیرد می­تواند بیماری باشد که در بیمارستان از نظر روانی مورد ارزیابی قرار می­گیرد، فراگیری که در مدرسه به عنوان دانش­آموزی مستعد جایابی می­شود، یا بازیکنی که کالایی را در دنیای مجازی خریداری می­کند. در این­گونه موارد هدف اندازه­گیری شناختی عبارت است از: تشخیص اختلال احتمالی و تعیین اثربخش­ترین برنامه درمانی برای بیمار، شناسایی نقاط قوت و ضعف در حیطه محتوایی خاص و تعیین بهترین راهبرد تمرین برای آن فراگیر، یا تشخیص ویژگی­های رفتار خرید و ارایه راهبردهای بازاریابی برای آن بازیکن. به منظور ارایه نیمرخ دقیق افراد با توجه به ویژگی­های مورد نظر در این موقعیت، سوالاتی به طور خاص طراحی می­شود، یا تکالیفی به این افراد ارایه می­شود و پاسخ­های فرد و رفتارهای مرتبط به آن ثبت می­شود. رفتارها می­تواند شامل پاسخ­های کلامی به سوالات باز پاسخ توسط بیمارباشد، پاسخ­های کتبی به سوالات چند گزینه­ای توسط فراگیر باشد، یا پیگیری فعالیت­ها در محیط­های اجباری توسط بازیکن باشد.

مدل­های طبقه­بندی شناختی، زیر مجموعه­ای از مدل­های روانسنجی هستند که افراد را بر اساس متغیرهای مکنون طبقه­ای چندگانه طبقه­بندی می­کنند. پایه­ طبقه­بندی در این مدل­ها بر اساس داده­های پاسخ مشاهده شده که از طریق سنجش تشخیصی جمع آوری شده­اند، است. این مدل­ها مکانیسمی برای بررسی داده­های جمع­آوری شده، ارایه می­دهند.اگر طبقه­بندی­ها، درک مهمی از ویژگی­های مکنون افراد را تایید کند پس استفاده از این مدل­ها می­تواند تحلیل­های عملی مفیدی را فراهم کند. این مدل­ها ابزاری تدوین می­کنند که تحلیل­هایی که در آن انواع رفتار افراد وابسته به الگوی داده­ها با وزن­های مختلف است را ممکن می­سازد. اما انتخاب این که چگونه الگوهای رفتاری تدوین شده اند(تصمیم­گیری در مورد این که چه صفاتی باید ارایه شوند، چه اطلاعاتی باید استخراج شود، چگونه باید اطلاعات استخراج شده را به صورت خروجی برای یک مدل آماری کدگذاری کرد) تنها ملاحظه­ای است که تدوین کننده سنجش شناختی باید مد نظر قرار دهد. صفت­در این مدل­ها نشان دهنده سازه­ای مثل دانش یا بیماری روانی است و طبقه بندی افراد بر اساس صفات است. صفات از متغیرهای پنهان طبقه ای مشتق می­شوند، بنابراین لازم است که طبقه بندی از نظر آماری از داده­های قابل مشاهده پاسخ دهندگان استنباط شود.این مدل­ها، همبستگی آماری را ارایه می­دهند.

راپ و تمپلین (2008) نه ویژگی اصلی که می­تواند برای مقایسه مدل­های شناختی-تشخیصی با دیگر مدل­های متغیر مکنون مورد استفاده قرار گیرد را فهرست کردند. برخی از آن­ها عبارت است از: 1)ماهیت چندبعدی­شان، 2)ماهیت تاییدی بودنشان، 3)پیچیدگی ساختار عاملی­شان و 4) ماهیت تشخیصی بودن تفسیرهای­شان. مدل­های تحلیل عاملی و نظریه سوال-پاسخ وقتی مورد استفاده قرار می­گیرد که ساختارهای بارگذاری ساده­تر است(مثلاً هر سوال فقط بر روی یک بعد بار دارد.)، اما مدل­های شناختی-تشخیصی دارای ساختارهای پیچیده بارگذاری هستند که معمولاً مستلزم چندین توانایی به هم مرتبط هستند.

در این مدل­ها، پیوستار مفروض به دو دسته مجرا مثل ماهر یا غیرماهر در زمینه­های آموزشی و اختلال داشتن یا اختلال نداشتن در زمینه روانشناسی بالینی تقسیم می­شود .ویژگی­­هایی که احتمال­شان بیش­تر از 5/. است را به عنوان تشخیص مثبت (یعنی ماهر)، و ویژگی­های که کم­تر از 5/. هستند به عنوان تشخیص منفی (غیرماهر) در نظر گرفته می­شوند.احتمال­های نزدیک به 5/. نشان دهنده آن هستند که متغیرهای مشاهده شده، اطلاعات کافی ارایه نمی­دهد تا بتوان بر اساس آن تشخیص روشنی ارایه داد و طبقه­بندی را به شدت مبهم می­کند. هدف اصلی این مدل­ها، تشخیص است و این ویژگی استفاده از این مدل­ها برای داده­های حاصل از سنجش تشخیصی را از استفاده از مدل­های تحلیل عاملی تاییدی و نظریه سوال-پاسخ برای داده­های حاصل از ارزشیابی جایابی، پذیرش و گواهینامه متفاوت می­کند. سنجش شناختی-تشخیصی برای معلمان، والدین و مسوولین آموزشی که متمایلند میزان اطلاعاتی را که دانش آموزان در آن مهارت کسب کرده اند را بدانند، مفید هستند.

با وجود اهمیت مدل­های شناختی-تشخیصی، مباحث مهم و محدودیت­هایی در استفاده از این مدل­ها وجود دارد که نیاز به بحث دارد. مهم­ترین مبحث، بحث روایی است.روایی نتایج در این مدل­ها به نظریه زیربنایی آن­ها بستگی داد. بخصوص اگر تعریف معیارها دقیقاً مشخص نشده باشد یا اگر این معیارها به تشخیص مربوط نباشد، نتایج حاوی اطلاعات تشخیصی با روایی کم خواهد بود. البته این دغدغه به طور کلی در مورد مدل­های متغیر پنهان وجود دارد. در استفاده از اطلاعات تشخیصی حاصل از مدل­هایشناختی-تشخیصی باید مد نظر قرار گیرد که دانشی که بر اساس نتایج به دست می آید به این بستگی دارد که تا چه حد نظریه زیربنایی مبتنی بر واقعیت است. علاوه بر روایی، تدوین ماتریس کیو که تعریف معیارهای مورد اندازه­گیری را ارایه می­دهد نیز یکی دیگر از دغدغه­های این مدل­هاست. کیفیت برازش مدل شناختی-تشخصی به کیفیت ماتریس کیو استفاده شده در تحلیل بستگی دارد. تعریف این ماتریس باید زیربنای نظری حیطه ابزار را با نتایج تجربی تحلیل ترکیب کند. شاید مهم­ترین نکته در نتایج این مدل­ها، تصدیق بیرونی براوردهای تشخیصی است. ساخت ابزار برای اهداف تشخیصی باید به کمک اندازه­های روایابی بیرونی انجام شود. به زعم تاتسوکا (2005) "در حالت واقعی، سه واژه مهم عبارت است از موقعیت، موقعیت و موقعیت. در مدل­یابی تشخیصی، سه واژه مهم عبارت است از روایابی، روایابی و روایابی." روایابی بیرونی، تفسیر برآوردهای تشخیصی نتایج مدل شناختی-تشخیصی را را مطمین می­سازد. این مدل­ها را می­توان با ابزار­های موجود به کار برد ولی باید توجه کرد در بسیاری از موارد پرسشنامه­ها، گویه­های طرح شد به منظور استفاده از مدل تحلیل عاملی تاییدی (با یک ساختار ساده)به منظور اندازه­گیری ملاک­های مکنون در یک پیوستار و نه در یک طبقه­بندی تدوین شده اند. مشکلاتی مشابه نیز در استفاد از این مدل­ها در اندازه­گیری آموزشی وجود دارد زیرا این آزمون­ها برای تحلیل در مقیاسی تک بعدی طراحی شده اند. معمولاً این آزمون­ها با انتخاب سوال­هایی حداکثر اطلاعات را با توجه به پیوستار مکنون ارایه می­دهد. طبقه بندی بر اساس یک پیوستار مکنون می­تواند منجر به برآوردهایی شود که در آن افراد زیادی یا همه صفات را دارند و یا هیچ کدام را ندارند. در این­گونه موارد، همه همبستگی­های بین صفات (بر اساس مدل ساختاری) واحد (تمایل به این­که یک پیوستار زیربنای داده­هاست) می­شوند.

در مقایسه با مدل­های نظریه پاسخ-سوال چند بعدی (MIRT)، این مدل­ها در هر بعد به سوال­های بسیار کم­تری برای کسب برآوردهای پایا نیاز دارد (تمپلین و برادشاو، 2013). مدل­های نظریه پاسخ-سوال چند بعدی مستلزم سوال­های بیشتری هستند و شاید یکی از دلایل غالب ماندن مدل­های تک بعدی در آموزش علی رغم نیاز دولت­ها و نیاز معلمان به مدل­های نظریه سوال-پاسخ چند بعدی برای گرفتن بازخوردهای دقیق و ظریف، همین مطلب باشد.

اهمیت مدل­های شناختی-تشخیصی در مقایسه با نظریه کلاسیک آزمون و نظریه سوال-پاسخ از آن­جا ناشی می­شود که در این مدل­ها نیمرخ دانش آموزان ارایه می­شود که در آن مجموعه­ای از مهارت­های یا صفت­های دو ارزشی که فرد در آن به مهارت رسیده یا نرسیده است نمایش داده می­شود. نیمرخ­های صفات گسسته، اطلاعاتی در مورد نیازهای گروهی از دانش آموزان در اختیار معلم قرار می­دهد (برخلاف مدل­های نظریه سوال-پاسخ چند بعدی که پروفایلی از نمرات ارایه می­دهد).

http://assessment.blogsky.com/1392/10/page/3


برچسب‌ها: سنجش شناختی, تشخیصی, صفت, ماتریس کیو, مدل های چندبعدی
+ نوشته شده در  چهارشنبه 16 بهمن1392ساعت   توسط محمد حسین ضرغامی  | 

رشته سنجش و اندازه گيري

رشته سنجش و اندازه گیری، علم بین­رشته­ای نسبتاً جدیدی است که برای درک مفاهیم آن لازم است تسلط کافی در حیطه­های زیر داشت:

  •  داشتن دانش در زمینه مباحث سنجش و اندازه­گیری، روش­شناسی، ارزیابی و ارزشیابی است.

  • داشتن دانش در حیطه ریاضی بخصوص در حیطه جبر خطی و حسابان و آمار به طور نظری و کاربردی

  •  داشتن دانش در زمینه نرم افزارهای مختلف آماری و توانایی استفاده از آن­ها. علاوه بر این باید در زمینه برنامه نویسی کامپیوتری هم به تسلط نسبی رسید چرا که امروزه در بسیاری از مقالات جدید از نرم افزارهایی که نیاز به کد نویسی دارند مثل  استفاده می­شود.

  • داشتن دانش در مورد یک سازه رفتاری خاص در یکی از حیطه­های علوم رفتاری مثل علوم تربیتی، روان­شناسی، مدیریت، پرستاری، پزشکی و به طور کلی هر علمی که با انسان سر و کار دارد.

علاوه بر این از آن­جایی که این رشته در ایران جدید است دانشجویان باید از سطح زبان انگلیسی مناسبی برخوردار باشند بخصوص در مهارت­های شنیدن و حرف زدن. بسیاری از کارگاه­های تخصصی و اساتید صاحب نظر در این حیطه خارج از ایران می باشد. هم­چنین کتاب­های فارسی کمی در این حیطه ترجمه شده است و معمولاً مقالات و کتاب­های ترجمه­ شده به دلیل جدید بودن مباحث، کمی مبهم به نظر می رسد.

مطالعه در زمینه خلاقیت، تفکر انتقادی و  فلسفه علم نیز برای دانشجویان تحصیلات تکمیلی توصیه می شود.

بسیار مهم: مهم­تر از همه ارتباط دادن این مجموعه دانش با هم و داشتن ایده­ای مناسب است. دانستن قوی­ترین روش­های آمار و ریاضی و توانایی قوی در برنامه­نویسی کامپیوتری بدون دانستن نظریه­های مربوط به یک سازه مربوط به انسان هیچ مفهومی نخواهد داشت و در نهایت منجر به سر در گمی می­شود مگر برای کسانی که خواهان انجام تحقیقات صرفاً نظری در این رشته باشند و این امر مستلزم دانشی بسیار قوی در حیطه ریاضیات و آمار است.

پس باید صبورانه و هدفمند وارد این رشته شد و مطالعه مداوم داشت.

برای نمونه زمینه آموزشی دکتر تمپلین (. TemplinDrاستاد دانشگاه Nebraska-Lincoln را برای شما از سایت  ایشون  (http://JonathanTemplin.com ) در این جا قرار می­دهم.

Ph.D. in Psychology (Quantitative; 2004

University of Illinois at Urbana-Champaign

M.A. in Psychology (2002

University of Illinois at Urbana-Champaign

M.S. in Statistics (2002

University of Illinois at Urbana-Champaign

B.A. in Psychology (magna cum laude; 1998

California State University, Sacramento; Minor: Statistics

A.A. in General Studies (1996

American River College; Sacramento, California

A.S. in Mathematics and Physical Science (1996

American River College; Sacramento, California

 

 

به طور کلی ادامه تحصیل دادن در مقطع دکترا نیاز به انگیزه بالا دارد. نقل قول زیر از سایت topuniversities جالب است:    

Professor Daniel Drezner of Tufts University recently quipped: “Should you get a PhD? Only if you are crazy or crazy about  your subject”.0 

  

دکتر درنزل، استاد دانشگاه توفتز طنز گونه گفته است: اگر شما قصد گرفتن مدرک دکترا را دارید یا باید ديوانه باشید یا باید  شیفته رشته تحصیلی خود باشید. 

منبع 

http://assessment.blogsky.com/1392/09


برچسب‌ها: رشته سنجش و اندازه گيري
+ نوشته شده در  چهارشنبه 16 بهمن1392ساعت   توسط محمد حسین ضرغامی  | 

لیست بعضی از مجلات سنجش و اندازه گیری به همراه impact factor آنها

Journals

Applied Measurement in Education: Impact Factor 0.200

Applied Psychological Measurement: Impact Factor 0.574

Assessment: Impact Factor 2.324

Behavior Research Methods: Impact Factor 1.737

Behaviormetrika

British Journal of Mathematical and Statistical Psychology: Impact Factor 1.372

Educational and Psychological Measurement: Impact Factor 0.872

Educational Measurement: Issues and Practice

European Journal of Psychological Assessment: Impact Factor 1.262

Evaluation and Program Planning: Impact Factor 0.735

Evaluation Practice: Impact Factor 1.104

International Journal of Methods in Psychiatric Research Impact Factor 1.979:

International Journal of Organizational Analysis

International Journal of Selection and Assessment: Impact Factor 0.861

Journal of Applied Measurement

Journal of Applied Psychology: Impact Factor 3.769

Journal of Consumer Research: Impact Factor 1.592

Journal of Educational and Behavioral Statistics: Impact Factor 1.706

Journal of Educational Measurement: Impact Factor 0.694

Journal of Nursing Measurement

International Journal of Organizational Analysis

Journal of Personality Assessment: Impact Factor 1.678

Journal of Psychoeducational Assessment: Impact Factor 0.837

Journal of Psychology: Interdisciplinary and Applied: Impact Factor 0.588

Journal of Social Service Research: Impact Factor 0.140

Measurement and Evaluation in Counseling and Development: Impact Factor 0.611

Measurement in Physical Education and Exercise Science

Measurement: Interdisciplinary Research and Perspectives

Medical Care: Impact Factor 3.194

Methodology: European Journal of Research Methods for the Behavioral and Social Sciences

Methods of Psychological Research

Multivariate Behavioral Research: Impact Factor 1.647

Organizational Research Methods: Impact Factor 3.019

Psychological Assessment: Impact Factor 2.773

Psychological Bulletin: Impact Factor 12.568

Psychological Methods: Impact Factor 5.140

Psychological Review: Impact Factor 11.765

Psychometrika: Impact Factor 1.053

Quality & Quantity: International Journal of Methodology

Statistical Methods in Medical Research: An International Review Journal

Statistics in Medicine

Structural Equation Modeling

Journal of Mathematical Psychology: Impact Factor 1.846
American Journal of Evaluation

American Evaluation Association/Sage

Explores decisions and challenges related to conceptualizing, designing and conducting evaluations. Offers original articles about the methods, theory, ethics, politics, and practice of evaluation.   Features broad, multidisciplinary perspectives on issues in evaluation relevant to education, public administration, behavioral sciences, human services, health sciences, sociology, criminology and other disciplines and professional practice fields.

1.16

(The)American Statistician

American Statistical Association

Publishes general-interest articles about current national and international statistical problems and programs, interesting and fun articles of a general nature about statistics and its applications, and the teaching of statistics.  

0.98^

Applied Measurement in Education

Taylor & Francis

Because interaction between the domains of research and application is critical to the evaluation and improvement of new educational measurement practices, the journal’s prime objective is to improve communication between academicians and practitioners. To help bridge the gap between theory and practice, articles in this journal describe original research studies, innovative strategies for solving educational measurement problems, and integrative reviews of current approaches to contemporary measurement issues.

0.33

Applied Psychological Measurement

Sage

Cutting-edge methodologies and related empirical research in educational, organizational, industrial, social and clinical settings, including brief reports of exploratory, small-sample, or replication studies; computer program reviews of commercially available software packages used in applied measurement; book reviews of important new publications; announcements of statistical and measurement meetings, symposia and workshops.

1.14

Assessment

Sage

Applied clinical assessment, with an emphasis on information relevant to the use of assessment measures, including test development, validation, and interpretation practices. Articles cover the assessment of cognitive and neuropsychological functioning, personality, and psychopathology, as well as empirical assessment of clinically relevant phenomena, such as behaviors, personality characteristics, and diagnoses.

2.338

Assessment and Evaluation in Higher Education

Taylor & Francis

Publishes papers and reports on all aspects of assessment and evaluation within higher education. Its purpose is to advance understanding of assessment and evaluation practices and processes, particularly the contribution that these make to student learning and to course, staff and institutional development. Welcomes research-based, reflective or theoretical studies which help to illuminate the practice of assessment and evaluation in higher education. The journal is aimed at all higher education practitioners, irrespective of discipline.

(Not available)

Assessment for Effective Intervention

Sage

Provides critical analysis of practitioner-developed assessment procedures, as well as papers that focus on published tests. Features articles that describe the relationship between assessment and instruction, introduce innovative assessment strategies; outline diagnostic procedures; analyze relationships between existing instruments; and review assessment techniques, strategies, and instrumentation.

(Not available)

Behavior Research Methods

Psychonomic Society/Springer

Methods, techniques, and instrumentation of research in experimental psychology. The journal focuses particularly on the use of computer technology in psychological research.

2.40

British Journal of Mathematical and Statistical Psychology

The British Psychological Society/Wiley

Articles relating to areas of psychology which have a greater mathematical or statistical aspect of their argument than is usually acceptable to other journals. Include articles that address substantive psychological issues or that develop and extend techniques useful to psychologists. New models for psychological processes, new approaches to existing data, critiques of existing models and improved algorithms for estimating the parameters of a model are examples of articles which may be favoured.

1.42

Educational Assessment, Evaluation, and Accountability

Springer

Publishes a wide array of articles aimed at exploring "current issues in the evaluation of teacher and administrator performance." Many articles are reports of research including instrument validation studies, other articles are more conceptual.

(Not available)

Educational Evaluation & Policy Analysis

Sage

Publishes scholarly articles of theoretical, methodological, or policy interest to those engaged in educational policy analysis, evaluation, and decision making. It is a multidisciplinary policy journal and considers original research from multiple disciplines, theoretical orientations, and methodologies.

1.92

Educational Measurement: Issues and Practice

NCME/Wiley

Articles that illuminate issues in educational measurement and inform the practice of educational measurement. Aimed at practitioners and users of tests and includes information about proven practices in testing, news of interest to the educational measurement community, and organizational news of the NCME. Addresses a broad public that includes NCME members, school personnel, other professional educators, legislators, and interested citizens. Its primary purpose is to promote a better understanding of and reasoned debate on timely measurement issues of practical importance to educators and the public.

0.78

Educational and Psychological Measurement

Sage

Refereed scholarly work from all academic disciplines interested in the study of measurement theory, problems, and issues. Theoretical articles address new developments and techniques, and applied articles deal with innovation applications.

0.83

European Journal of Psychological Assessment

European Association of Psychological Assessment/
Hogrefe

Articles which provide seminal information on both theoretical and applied developments in this field. Articles reporting the construction of new measures or an advancement of an existing measure are given priority. The journal is directed to practitioners as well as to academicians: The conviction of its editors is that the discipline of psychological assessment should, necessarily and firmly, be attached to the roots of psychological science, while going deeply into all the consequences of its applied, practice-oriented development.


1.82

Evaluation

Sage

Publishes multidisciplinary, interdisciplinary and issue-based contributions from across the social sciences and related disciplines, including, but not limited to: politics, economics and public administration; psychology, sociology and anthropology; education, health and law; information science and information technology.

(Not available)

Evaluation Review

Sage

Brings together the latest applied evaluation methods used in a wide range of disciplines; presents the latest quantitative and qualitative methodological developments, as well as related applied research issues.

0.84

Evaluation & the Health Professions

Sage

Provides health-related professionals with state-of-the-art methodological, measurement, and statistical tools for conceptualizing the etiology of health promotion and problems, and developing, implementing, and evaluating health programs, teaching and training services, and products that pertain to a myriad of health dimensions.

1.21

 

Evaluation and Program Planning

 

Elsevier

 
The primary goals of the journal are to assist evaluators and planners to improve the practice of their professions, to develop their skills and to improve their knowledge base. Reports on individual evaluations should include presentation of the evaluation setting, design, analysis and results. Because of our focus and philosophy, however, we also want a specific section devoted to "lessons learned". This section should contain advice to other evaluators about how you would have acted differently if you could do it all over again. The advice may involve methodology, how the evaluation was implemented or conducted, evaluation utilization tactics, or any other wisdom that you think could benefit your colleagues. More general articles should provide information relevant to the evaluator/planner's work. This might include theories in evaluation, literature reviews, critiques of instruments, or discussions of fiscal, legislative, legal or ethical issues affecting evaluation or planning.


0.71

Health Services and Outcomes Research Methodology

Springer

Reflecting the multidisciplinary nature of the field, Health Services and Outcomes Research Methodology addresses the needs of interlocking communities: methodologists in statistics, econometrics, social and behavioral sciences

(Not available)

International Journal of Behavioral Development

International Society for the Study of Behavioral Development/
Sage

Promotes the discovery, dissemination and application of knowledge about developmental processes at all stages of the life span - infancy, childhood, adolescence, adulthood and old age. The Journal is already the leading international outlet devoted to reporting interdisciplinary research on behavioural development, and is now, in response to the rapidly developing fields of behavioural genetics, neuroscience and developmental psychopathology, seeking to expand its scope to these and other related new domains of scholarship.

1.30

International Journal of Educational and Psychological Assessment

Time-Taylor

Articles that tackle empirical reports, scholarly reviews, and academic essays within the domain of education and psychological assessment, measurement, and evaluation. Varied use of methodologies, educational levels, and approaches to assessment are acceptable. The readership of journal looks at the theoretical and practical implications of the assessment results on a variety of fields such as education, schooling, fields of psychology, and other related fields in the social sciences. Articles that focus on the relevance of assessment and evaluation in various educational and psychological settings are preferred.

(Not available)

International Journal of Methods in Psychiatric Research

Wiley

High-standard original research of a technical, methodological, experimental and clinical nature, contributing to the theory, methodology, practice and evaluation of mental and behavioral disorders. The journal targets in particular detailed methodological and design papers from major national and international multicenter studies. MPR aims at the rapid publication of articles of highest methodological quality in such areas as epidemiology, biostatistics, generics, psychopharmacology, psychology and the neurosciences. Articles informing about innovative and critical methodological, statistical and clinical issues, including nosology can be submitted as regular papers and brief reports.

2.34

International Journal of Psychology

Intl Union of Psych Science/
Psychology Press

Supports the IUPsyS in fostering the development of international psychological science. It aims to strengthen the dialog within psychology around the world and to facilitate communication among different areas of psychology and among psychologists from different cultural backgrounds. IJP is the outlet for empirical basic and applied studies and for reviews that either (a) incorporate perspectives from different areas within psychology or across different disciplines, (b) test the culture-dependent validity of psychological theories, or (c) integrate literature from different regions in the world. IJP does not publish technical articles, validations of questionnaires and tests, or clinical case studies.

1.07

International Journal of Selection and Assessment

Wiley

Original articles related to all aspects of personnel selection, staffing, and assessment in organizations. Using an effective combination of academic research with professional-led best practice, IJSA aims to develop new knowledge and understanding in these important areas of work psychology and contemporary workforce management.

0.86

International Journal of Testing

Int'l Test Commission/
Taylor & Francis

Advancement of theory, research, and practice in the area of testing and assessment in psychology, education, counseling, organizational behavior, human resource management, and related disciplines. IJT publishes original articles addressing theoretical issues, methodological approaches, and empirical research as well as integrative and interdisciplinary reviews of testing-related topics and reports of current testing practices. It is important when submitting articles to IJT to consider the messages for international readers; to place the context of the study into an international perspective; to indicate ways that assessment or testing ideas can be adapted or generalized across borders; to focus more on the construct than on the method when discussing validation studies; to discuss applications that have universal messages; to relate to ITC guidelines for adaptation; or to discuss equitable assessment practices that transcend borders or demonstrate uniqueness within a country.

0.90

Journal of the American Statistical Association

American Statistical Asssociation

Articles focus on statistical applications, theory, and methods in economic, social, physical, engineering, and health sciences.

2.06^

Journal of Applied Measurement

JAM

Refereed scholarly work from all academic disciplines that relates to measurement theory and its application to developing variables. The development of variables that map the persons and items onto a common metric, operational defined by the items, that are invariant across samples of persons and items, is a cornerstone of developing an understanding of the phenomena being measured and the construction and verification of hypotheses based on these phenomena.

 

(Not available)

Journal of Applied Psychology

APA

Original investigations that contribute new knowledge and understanding to fields of applied psychology (other than clinical and applied experimental or human factors, which are more appropriate for other American Psychological Association journals). The journal primarily considers empirical and theoretical investigations that enhance understanding of cognitive, motivational, affective, and behavioral psychological phenomena. The journal accepts work that is conducted in the field or in the laboratory, where the data (quantitative or qualitative) are analyzed with elegant or simple statistics, so long as the data or theoretical synthesis advances understanding of psychological phenomena and human behavior that have practical implications. Topics include testing and personnel selection, performance measurement and management.

3.98

Journal of Educational and Behavioral Statistics

American Statistical Assoc & American Educational Research Association/Sage

Articles that develop original statistical methods useful for the applied statistician working in educational or behavioral research. Typical articles present new methods of analysis. In addition, critical reviews of current practice, tutorial presentations of less well-known methods, and novel applications of already known methods are published.

1.64

Journal of Educational Measurement

NCME/Wiley

Original measurement research, reviews of measurement publications, and reports on innovative measurement applications. The topics addressed will interest those concerned with the practice of measurement in field settings, as well as be of interest to measurement theorists. In addition to presenting new contributions to measurement theory and practice, JEM also serves as a vehicle for improving educational measurement applications in a variety of settings.

1.05

Journal of Experimental Education

Taylor & Francis

he journal is divided into three sections: Learning, Instruction, and Cognition; Motivation and Social Processes; and Measurement, Statistics, and Research Design. Authors must indicate in the cover letter to which section they are submitting their manuscript.

1.63

Journal of Mathematical Psychology

Society for Mathematical Psychology/
Elsevier

Articles, monographs and reviews, notes and commentaries, and book reviews in all areas of mathematical psychology. Empirical and theoretical contributions are equally welcome. Areas of special interest include, but are not limited to, fundamental measurement and psychological process models, such as those based upon neural network or information processing concepts.

1.58

Journal of Multivariate Analysis

Elsevier

A central medium for the publication of important research in the general area of multivariate analysis, the Journal of Multivariate Analysis presents articles on fundamental theoretical aspects of the field as well as on other aspects concerned with significant applications of new theoretical methods. Research areas include Bayes models, cluster analysis, estimation, factor analysis, multidimensional scaling and general multivariate methods, multivariate ANOVA, time series and many more

1.01

Journal of Nonparametric Statistics

American Statistical Association

Provides a medium for the publication of research and survey work in nonparametric statistics and related areas, including: nonparametric modeling, nonparametric function estimation, rank and other robust and distribution-free procedures, resampling methods, and lack-of-fit testing  

0.46^

Journal of Nursing Measurement

Springer

Specifically addresses instrumentation in nursing. It serves as a prime forum for disseminating information on instruments, tools, approaches, and procedures developed or utilized for measuring variables in nursing research, practice, and education. Particular emphasis is placed on evidence for the reliability and validity or sensitivity and specificity of such instruments. The journal includes innovative discussions of theories, principles, practices, and issues relevant to nursing measurement.

(Not available)

Journal of Personality Assessment

Society for Personality Assessment/
Taylor & Francis

Articles dealing with the development, evaluation, refinement, and application of personality assessment methods. Address empirical, theoretical, instructional, or professional aspects of using psychological tests, interview data, or the applied clinical assessment process. They also advance the measurement, description, or understanding of personality, psychopathology, and human behavior. Broadly concerned with developing and using personality assessment methods in clinical, counseling, forensic, and health psychology settings; with the assessment process in applied clinical practice; with the assessment of people of all ages and cultures; and with both normal and abnormal personality functioning.

1.55

Journal of Psychoeducational Assessment

Sage

Provides psychologists with current information about psychological and educational assessment practices and instrumentation. JPA is known internationally for the quality of its assessment-related research, theory and position papers, practice applications, and book and test reviews. JPA's topics include "best practices" in assessment, cross-cultural assessment, differential diagnoses, and psychometric properties of instruments, plus much more.

0.72

Journal of Psychology: Interdisciplinary and Applied

Taylor & Francis

Original manuscripts of an interdisciplinary and/or applied nature. Empirical research and theoretical articles fall within the scope of the journal, as do reviews that are consistent with the applied and interdisciplinary foci of the journal. Specifically, emphasis is placed on the publication of articles in applied areas of psychology including, but not necessarily limited to, such subdisciplines as clinical/counseling, industrial/organizational, education/school, and measurement/assessement. Both quantitative and qualitative methods are appropriate. In addition, multidisciplinary authorship is encouraged, as is work that fosters novel ideas, identifies mediating variables, includes transboundary issues, and most importantly, encourages critical analysis.

0.65

Journal of Quantitative Analysis in Sports

American Statistical Association

Covers topics as measuring player performance, projecting performance from “minor” leagues to “major” leagues, strategy, economics and psychology, in all sports.

(Not available)

Journal of the Royal Statistical Society

Series A (Statistics in Society)

Wiley-Blackwell

Publishes papers that demonstrate how statistical thinking, design and analyses play a vital role in all walks of life and benefit society in general. There is no restriction on subject matter. For example, medicine, business and commerce, industry, economics and finance, education and teaching, physical and biomedical sciences, the environment, the law, government and politics, demography, psychology, sociology and sport, all fall within its remit.

The journal's emphasis is on clearly written quantitative approaches to problems in the real world rather than the exposition of technical detail.

2.57

Series B (Statistical Methodology)

Wiley-Blackwell

Publishes work that is at the leading edge of methodological development, with a strong emphasis on relevance to statistical practice. Included are papers on study design, statistical models, methods of analysis and the theory that underlies them - almost invariably motivated or illustrated by real examples.

3.50

Series C (Applied Statistics)

Wiley-Blackwell

Publishes papers which deal with novel solutions to real life statistical problems by adapting or developing methodology, or by demonstrating the proper application of new or existing statistical methods to them. At their heart therefore the papers in the journal are motivated by examples and statistical data of all kinds.

0.65

JSeries D (The Statistician)

Wiley-Blackwell

It is a valuable resource for professional statisticians involved in industry, business, academic and applied research and consulting, and education.

Papers reflect current research and practice in statistics worldwide and cover important topics in an informative and accessible way. The prime purpose of papers in the journal is one of exposition for a general statistical readership, without heavy emphasis on describing technical detail.

0.62

Journal of Statistical Software

American Statistical Assoc./UCLA Statistics Staff & Statistics Computing Support Fund.

Publishes articles, book reviews, code snippets, and software reviews on the subject of statistical software and algorithms. Presents research that demonstrates the joint evolution of computational and statistical methods and techniques. 

2.65^

Journal of Statistics Education

American Statistical Association

Disseminates knowledge for the improvement of statistics education at all levels, including elementary, secondary, post-secondary, post-graduate, continuing, and workplace education.

(Not available)

Measurement: Interdisciplinary Research and Perspectives

Lawrence Erlbaum

Devoted to the interdisciplinary study of measurement in the human sciences, Measurement features focus articles along with commentaries that embody dialogue and debate across multiple perspectives. The journal's overarching theme is to promote the development, critique, and enrichment of the concepts and practices of measurement. Contributors share a common link, the serious study of measurement from a broad range of disciplines and perspectives, including psychometrics, ethnography, social theory, psychology, education, linguistics, sociology, policy studies, history and law. Through peer commentary and authors' responses, Measurement provides an opportunity for discussion to the general readership outside the specific authors and reviewers of a particular manuscript. Focus articles include seminal papers on important issues in the field in the form of single papers, sets of linked papers, or summaries of recently published books on one of the following genres.

(Not available)

Measurement and Evaluation in Counseling and Development

Assoc. for Assessment in Counseling and Education

Articles range in appeal from those that deal with theoretical and other problems of the measurement specialist to those directed to the administrator, the counselor, or the personnel worker--in schools and colleges, public and private agencies, business, industry, and government.  All articles clearly describe implications for the counseling field and for practitioners, educators, administrators, researchers, or students in assessment, measurement, and evaluation. 

0.90

Methodology: European Journal of Research Methods for the Behavioral and Social Sciences

European Association of Methodology/
Hogrefe

Interdisciplinary exchange of methodological research and applications in the different fields, including new methodological approaches, review articles, software information, and instructional papers that can be used in teaching. Three main disciplines are covered: data analysis, research methodology, and psychometrics. The articles published in the journal are not only accessible to methodologists but also to more applied researchers in the various disciplines.

(Not available)

Multivariate Behavioral Research

Society of Multivariate Experimental Psychology/
Taylor & Francis

Substantive, methodological, and theoretical articles in all areas of the social and behavioral sciences. Substantive articles report on applications of sophisticated multivariate research methods to study topics of substantive interest in personality, health, intelligence, industrial/organizational, and other behavioral science areas. Methodological articles present and/or evaluate new developments in multivariate methods, or address methodological issues in current research. Integrative articles related to pedagogy involving multivariate research methods, and to historical treatments of interest and relevance to multivariate research methods are also encouraged.

1.29

Organizational Research Methods

Sage

Brings relevant methodological developments to a wide range of researchers in organizational and management studies and promotes a more effective understanding of current and new methodologies and their application in organizational settings. ORM has positioned itself among elite scholarly journals, known for high-quality manuscripts from the qualitative and quantitative domains, micro and macro perspectives.

4.42

Practical Assessment, Research & Evaluation

PAREonline

On-line journal to provide access to refereed articles that can have a positive impact on assessment, research, evaluation, and teaching practice. Publishes scholarly syntheses of research and ideas about methodological issues and practices designed to help members of the community keep up-to-date with effective methods, trends, and research developments from a variety of settings. Manuscripts should be short, 2000-8000 words or about eight pages in length, exclusive of tables and references, and have clear generalizable implications for practice in education, certification, or licensure.

(Not available)

Psychological Assessment

APA

Empirical research on measurement and evaluation relevant to the broad field of clinical psychology. Submissions are welcome in the areas of assessment processes and methods. Included are (a) clinical judgment and the application of decision-making models, (b) paradigms derived from basic psychological research in cognition, personality–social psychology, and biological psychology, and (c) development, validation, and application of assessment instruments, observational methods, and interviews

The focus of the journal is the diagnosis and evaluation of psychological characteristics or processes and assessment of the effectiveness of interventions. Assessment of personality, psychopathological symptoms, cognitive and neuropsychological processes, and interpersonal behavior are all relevant. Methodological, theoretical, and review articles addressing clinical assessment processes and methods will also be considered.

2.59

Psychological Bulletin

APA

Evaluative and integrative research reviews and interpretations of issues in scientific psychology. Both qualitative (narrative) and quantitative (meta-analytic) reviews will be considered, depending on the nature of the database under consideration for review. Integrative reviews or research syntheses focus on empirical studies and seek to summarize past research by drawing overall conclusions from many separate investigations that address related or identical hypotheses. Both cumulative and historical approaches (i.e., ones that organize a research literature by highlighting temporally unfolding developments in a field) can be used. Integrative research reviews that develop connections between areas of research are particularly valuable.

11.98

Psychological Methods

APA

Methods for collecting, analyzing, understanding, and interpreting psychological data. Its purpose is the dissemination of innovations in research design, measurement, methodology, and quantitative and qualitative analysis to the psychological community. The journal solicits

original theoretical, quantitative, empirical, and methodological articles; reviews of important methodological issues; tutorials; articles illustrating innovative applications of new procedures to psychological problems; articles on the teaching of quantitative methods; and reviews of statistical software. The journal welcomes submissions that show the relevance to psychology of procedures developed in other fields.

3.19

Psychological Review

APA

Articles that make important theoretical contributions to any area of scientific psychology, including systematic evaluation of alternative theories. Papers mainly focused on surveys of the literature, problems of method and design, or reports of empirical findings are not appropriate.

Psychological Review also publishes, as Theoretical Notes, commentary that contributes to progress in a given subfield of scientific psychology. Such notes include, but are not limited to, discussions of previously published articles, comments that apply to a class of theoretical models in a given domain, critiques and discussions of alternative theoretical approaches, and meta-theoretical commentary on theory testing and related topics.

7.78

Psychometrika

Psychometric Society

Articles on the development of psychology as a quantitative rational science, including the advancement of theory and methodology for behavioral data analysis in psychology, education, and the social and behavioral sciences generally, the development of quantitative models of psychological phenomena, as well as statistical methods and mathematical techniques for evaluating psychological and educational data.

1.78

Quality and Quantity: International Journal of Methodology

Springer

Papers on models of classification, methods for constructing typologies, models of simulation, neural networks and fuzzy sets for social research, mathematical models applied to social mobility, mathematical models of voting behavior, qualitative methodology and feminist methodology, discussions on the general logic of empirical research, analysis of the validity and verification of social laws, and similar topics. Quality and Quantity is an interdisciplinary journal which systematically correlates disciplines such as mathematics and statistics with the social sciences, particularly sociology, economics, and social psychology. The journal extends discussion of interesting contributions in methodology to scholars worldwide, to promote the scientific development of social research.

0.69

Sociological Methods & Research

Sage

A leading source of quantitative research methodology in the social sciences. Presents new techniques and innovative approaches to recurring research challenges and clarifies existing methods. The journal also provides state-of-the-art tools that researchers and academics need to increase the validity of your research findings.

2.00

Statistical Analysis and Data Mining

American Statistical Association

Addresses the broad area of data analysis, including data mining algorithms, statistical approaches, and practical applications. Topics include problems involving massive and complex datasets, solutions utilizing innovative data mining algorithms and/or novel statistical approaches, and the objective evaluation of analyses and solutions. Of special interest are articles that describe analytical techniques, and discuss their application to real problems, in such a way that they are accessible and beneficial to domain experts across science, engineering, and commerce.  

(Not available)

Statistical Methods in Medical Research

Sage

Articles in all the main areas of medical statistics. Devoted solely to statistics and medicine and aims to keep professionals abreast of the many powerful statistical techniques now available to the medical profession.

1.77

Statistics Education Research Journal

International Association for Statistical Education

Aims to advance research-based knowledge that can help to improve the teaching, learning, and understanding of statistics or probability at all educational levels and in both formal (classroom-based) and informal (out-of-classroom) contexts. Such research may examine, for example, cognitive, motivational, attitudinal, curricular, teaching-related, technology-related, organizational, or societal factors and processes that are related to the development and understanding of stochastic knowledge. In addition, research may focus on how people use or apply statistical and probabilistic information and ideas, broadly viewed. Reports of original research (both quantitative and qualitative), integrative and critical reviews of research literature, analyses of research-based theoretical and methodological models, and other types of papers.

(Not available)

Statistics in Medicine

Wiley

Papers that introduce new statistical methods and either demonstrate their application, preferably through a substantive, real, motivating example or a comprehensive evaluation based on an illustrative example. Alternatively, papers will report on case-studies where creative use or technical generalizations of established methodology is directed towards a substantive application. Reviews of, and tutorials on, general topics relevant to the application of statistics to medicine will also be published.

2.33

Structural Equation Modeling

Taylor & Francis

Refereed scholarly work from all academic disciplines interested in structural equation modeling. These disciplines include, but are not limited to, psychology, medicine, sociology, education, political science, economics, management, and business/marketing. Theoretical articles address new developments; applied articles deal with innovative structural equation modeling applications; the Teacher’s Corner provides instructional modules on aspects of structural equation modeling; book and software reviews examine new modeling information and techniques; and advertising alerts readers to new products. Comments on technical or substantive issues addressed in articles or reviews published in the journal are encouraged; comments are reviewed, and authors of the original works are invited to respond.

3.15

برچسب‌ها: لیست مجلات سنجش و اندازه گیری اندازه تاثیر
+ نوشته شده در  شنبه 18 آبان1392ساعت   توسط محمد حسین ضرغامی  | 

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي برآوردشده در مدل هاي پرسش پاسخ و ك

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و

توانايي برآوردشده در مدل هاي پرسش پاسخ و كلاسيك اندازه گيري

بهنام كريمي 1

محمدرضا فلسفينژاد 2

فريبرز درتاج 3

90/12/ 90 تاريخ پذيرش: 24 /6/ تاريخ وصول: 18

چكيده

زمينه: سهولت نمره گذاري، اجرا و عينيت آزمونهاي چندگزينه اي سبب شده كه به عنوان ابزار

اصلي در سنجش هاي وسيع مورد استفاده قرار گيرد. انتقادهاي زيادي نسبت به سؤالات

چندگزينه اي مطرح شده است. نظير پوشش ندادن به تمامي اهداف تربيتي (سطوح پايين

شناختي را مي سنجند) و استفاده از عامل حدس و گمان در پاسخ به سؤا لها. در اين ميان

عده اي نيز افزايش تعداد گزينههاي سؤال را راهي براي مقابله با اين مشكلات دانست هاند. هدف:

هدف از پژوهش حاضر بررسي تأثير تعداد گزينهها بر ويژگي هاي روان سنجي آزمونها و

سؤالات و همچنين توانايي برآورد شده آزمودنيها در نظريه كلاسيك و پرسش پاسخ بود.

روش: جامعه آماري شامل كليه دانشآموزان سال سوم دبيرستانهاي شهر شيراز بود كه 608

نفر از آنان به شيوه تصادفي به عنوان گروه نمونه انتخاب شدند. براي جمعآوري اطلاعات از دو

آزمون پيشرفت تحصيلي زبان و حسابان كه به همين منظور تهيه و تنظيم شده بودند استفاده شد.

يافتهها: تجزيه و تحليل دادهها نشان داد كه تعداد گزينهها بر پارامترهاي سؤال اثر ندارد و تأثير

karimi.adviser@gmail.com -1 كارشناس ارشد روان سنجي

-2 استاد دانشگاه علامه طباطبايي

F_dortaj@yahoo.com -3 استاد دانشگاه علامه طباطبايي

www.SID.ir

Archive of SID

2 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

تعداد گزينهها بر ويژگيهاي روانسنجي برآورد شده آزمودنيها، در آزمونهاي مختلف

يكسان است. همچنين بين پارامترهاي برآورد شده در نظريه كلاسيك و پرسش پاسخ تفاوت

وجود داشت. نتيجهگيري: بعد از بررسي مفروضههاي نظريه پرسش و پاسخ مشخص شد كه

دادهها با مدل دو پارامتري برازش بهتري دارند، و تفاوتي بين تعداد گزينهها و برازش با مدل

مشاهده نشد. همچنين بين توانايي برآورد شده و تعداد گزينه ها تفاوت مشاهده شد.

واژگان كليدي: آزمون هاي چندگزينه اي، نظريه كلاسيك اندازه گيري، نظريه پرسش

پاسخ.

مقدمه

سهولت نمرهگذاري، اجرا و عينيت آزمون هاي چند گزينه اي سبب شده كه به عنوان ابزار اصلي

در سنجش هاي وسيع 1 مورد استفاده قرار مي گيرد ( نظير كنكور، تافل و... ). انتقادهاي زيادي

نسبت به سؤالات چندگزينه اي مطرح شده است نظير پوشش ندادن تمامي اهداف تربيتي

(سطوح پايين شناختي را م يسنجند)، و استفاده از حدس وگمان كه يكي از اصل يترين ايرادات

نسبت به كنكور سراسري بوده كه منجر به طرح حذف كنكور شده است. در اين ميان عدهاي

نيز افزايش تعداد گزينههاي سؤال را راهي براي مقابله با اين مشكلات دانستهاند.

با اين همه اطلاعات محدود و ناچيزي در مورد اثربخشي رويكردهاي ارائه شده وجود

دارد. اگر چه شعور عادي ميپذيرد كه افزايش تعداد گزينهها حدس زدن را كاهش ميدهد،

اما امكان ايجاد گزينه هاي جالب و جذاب (بيش از 3 يا 4) در بسياري مواقع وجود ندارد. از

طرفي تعيين تعداد مطلوب گزينهها نياز به شواهد علمي و تجربي دارد.

نوشتن سؤال هاي تستي با وجود همه تلا شهايي كه در جهت مكانيزه و كامپيوتري كردن

آن به عمل آمده است همچنان به عنوان يك هنر تلقي مي شود. ابتكار و استادي در گنجاندن

1. large scale assessment

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 3

اين مفاهيم در يك مساله، قاطعيت در جلمه بندي و عبارات مربوط به سؤال به گونه اي كه

مسأله مورد نظر به وضوح بيان شده باشد و سرانجام بينش و مهارت در توليد گزينه هاي

انحرافي به گونه اي كه افراد ضعيف را به خود جلب كند مستلزم طرح و تحليل دقيق سؤالها و

.( تجزيه مستقيم است (ثرندايك به نقل از هومن، 1375

سؤال هاي چندگزينه اي ممكن است به گونه كلي داراي 3.4.5 حتي 6 گزينه باشند اما بيش

از 70 سال پيش متخصصان انداز هگيري كشف كردند كه دليل منطقي كمي براي نوشتن

سؤال هاي چندگزينه اي به صورت 4 يا 5 گزينه اي وجود دارد (اون و فرومن، 1987 ) با اين

وجود متداو لترين نوع پرسش ها چهار گزينه اي است. اما يك پرسش 3 گزينه اي كه براساس

روش هاي عملي و آماري صحيح تهيه شوند به يك پرسش 4 يا 5 گزينه اي كه داراي گزينه

.( هاي معيوب است برتري دارد (سيف، 1386

اما امروزه به چند دليل عمده از آزمون هاي چندگزينه اي بيش از ساير انواع آزمون ها در

حوزه تعليم و تربيت استفاده مي شود: اول به علت آنكه آزمودني قادر است در زمان معين تعداد

زيادي سؤال را پاسخ دهد و به عبارتي ديگر در يك زمان محدود تعداد زيادي از هد فها

آموزشي و بخش مهمي از محتواي درس را اندازه بگيرد. دوم اينكه آزمو نهاي چند گزينه اي

نسبت به آزمون هاي صحيح و غلط و دوگزينه اي كمتر امكان حدس زدن كوركورانه را به

آزمون شونده مي دهند. دليل سوم براي استفاده بيشتر از اين نوع آزمون سهولت در نمره

گذاري و تصحيح و تفسير آن و در نتيجه صرفه جويي در نيروي انساني و وقت و هزينه م يباشد

.( (سيف، 1386

اما معايبي نيزدارد از جمله اينكه ساختن اين آزمو نها بسيار دشوار است و در مقايسه با

آزمون هاي صحيح - غلط خواندن اين آزمون ها و پيدا كردن گزينه درست مستلزم وقت

.( زيادتري است (شريفي، 1384

امروزه آزمون هاي چندگزينه اي استعداد و پيشرفت تحصيلي در حوزه تعليم و تربيت بيش

از ساير موقعيت ها مورد استفاده قرار مي گيرد اما اينكه يك آزمون چندگزينه اي چه تعداد

www.SID.ir

Archive of SID

4 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

گزينه بايستي داشته باشد تا از حداكثر پايايي برخوردار باشد همواره مورد بحث مي باشد. تعداد

گزينه هاي سؤال هاي چندگزينه اي (گزين ههاي درست يا انحرافي) از 2 تا 5 و گاهاً تا 6

متغيراست و به لحاظ نظري هر چه تعداد گزينه ها بيشتر باشد امكان حدس زدن كمتر است اما

ابتدا بايد مشخص كرد در يك آزمون، چند گزينة انحرافي بيشتر، باعث افزايش پايايي سؤال

مي شود به هر حال در عمل ممكن است اضافه كردن گزينه هاي انحرافي واقعا باعث افزايش

پايايي آزمون نشود زيرا پيدا كردن گزينه هاي خوب مشكل است. پايائي هر سؤال از طريق

گزينه هاي انحرافي كه هيچ وقت انتخاب نشد هاند بالا نم يرود مطالعات نشان داد هاند كه به

ندرت مي توان سؤالاتي را يافت كه بيشتر از 3 يا 4 گزينه انحرافي كه به طور مؤثر عمل مي كنند

داشته باشند و گزينه هاي انحرافي خنثي ممكن است به پايايي آزمون لطمه وارد كنند به اين

دليل كه آنها زمان بيشتري را براي خواندن م يگيرند و فضاي آزمون را اشتغال مي كنند

.( (كاپلان و ساكوزو،به نقل از دلاور و درتاج و فرخي، 1386

سؤال هاي تحقيق

آيا پارامتر هاي سؤال نسبت به تعداد گزينه ها حساس است ؟

آيا تأثير تعداد گزين هها بر ويژگي هاي روان سنجي سؤالات و توانايي برآورد شده

آزمودني ها در نظريه كلاسيك و سؤال پاسخ متفاوت است ؟

آيا توانايي برآورد شده آزمودن يها از تعداد گزينه هاي سؤال تأثير مي پذيرد؟

آيا تعداد گزين هها بر برازش داده ها با مدل در نظريه سؤال پاسخ تأثير مي گذارد؟

يك مطالعه درباره مسائلي كه به انتخاب گزين ههاي انحرافي مربوط م يشود پيشنهاد

مي كند كه معمولاً بهتر است 3 يا 4 گزينه انحرافي كه به طور مؤثر عمل مي كنند براي هر سؤال

.( تدوين شود (آناستازي و اربينا، 1997 به نقل از دلاور، 1374

يونسي ( 1386 ) به بررسي ويژگ يهاي روان سنجي سؤال هاي آزمون فراگير رشته

روان شناسي دانشگاه پيام نور در سال 1385 پرداخته و نتايج تحقيق را اين طور بيان م يكند.

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 5

تجزيه و تحليل داد هها نشان داد كه گزينه هاي انحرافي تمامي سؤالات در همه آزمون ها هم

احتمال نيستند و عملكرد معيوبي داشت هاند نتايج تجزيه وتحليل حاكي از اين است كه در

آزمون هاي ادبيات فارسي، روانشناسي و جامعه شناسي مدل دو پارامتري نسبت به مدل سه

پارامتري برازش بهتري با مجموعه داده هاي ازمون دارد.

معلمي اوره ( 1387 )در تحقيقي به مقايسه دقت برآورد توانايي در سؤالات چندگزينه اي

با بكارگيري مدل سازي - سؤال پاسخ دو وچند ارزشي - پرداخته است.نتايج حاصل از برازاندن

مدل دو ارزشي 1و 2و 3 پارامتري بر داده هاي سؤال پاسخ مذكور نشان داد مدل دو پارامتري كه

1 است. دراين NRM از نظر ساختار پارامتري در ميان مدل هاي دو ارزشي نزديك ترين مدل به

ميان از برازندگي بهتري با داد ههاي فوق الذكر برخوردار است ولذا اين مدل به عنوان مدل دو

انتخاب (NRM) ارزشي مناسب جهت مقايسه دقت برآورد توانايي با مدل چند ارزشي برگزيده

شد.

هاديان ( 1376 ) تأثير تعداد گزينه هاي سؤال در اعتبار تست هاي چندگزينه اي را مورد

بررسي قرار داد.هدف از اين پژوهش مطالعه تأثير تعداد گزين هها در اعتبار تس تهاي چند

گزينه اي در بين سه گروه قوي،متوسط وضعيف است وتعيين اين كه چه تعداد گزينه در

هريك از گروه ها بيشترين اعتبار را براي تست فراهم م يكنند. 400 نفر از دانش آموزان دختر

وپسر سال اول دبيرستان هاي نظام جديد مناطق 2و 11 و 18 آموزش وپرورش شهر تهران در سال

75 ) به شيوه نمونه گيري چند مرحله اي انتخاب شدند. - تحصيلي ( 76

براي 4 نوع سؤال 2 تا 5 (KR بعد از اجراي آزمون ضريب اعتبار از طريق فرمول آلفا ( 20

گزينه اي در هر يك از سه گروه متوسط، ضعيف وقوي به دست آمد. ضرايب اعتباربه دست

آمده براي هر فرم از تست مورد مقايسه قرار گرفت نتايج نشان داد كه بين ضريب اعتبار

تست هاي 2تا 5 گزينه اي براي گروه قوي وضعيف تفاوت اساسي ومعناداري وجود ندارد ودر

-1 مدل پاسخ اسمي

www.SID.ir

Archive of SID

6 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

اين دو گروه ضريب اعتبار تس تهاي 2گزينه اي به طور قابل ملاحظه اي از ساير تس تها بيشتر

بود. ولي بين ضرايب اعتبار تست هاي 3تا 5 گزينه اي براي گروه متوسط تفاوت معنادار بود بدين

معني كه تست هاي 3گزينه اي، نسبت به تست هاي با تعداد گزينه هاي بيشتروكمتر از اعتبار

بالاتري برخوردار بود.

1376 )به بررسي تأثير تعداد گزينه ها وزمان اجراي آزمون بررسي نمره كل - بيرقي ( 77

آزمون پرداخته است. داده هاي جمع آوري شده برروي 200 نفر گروه نمونه انجام شده است.

آزمودني ها بر اساس نمره هاي حاصل از يك آزمون ادبيات جداگانه كه در ابتداي تحقيق اجرا

شده است، به دو گروه تقسيم شده اند.ويكي از گروه ها به يك آزمون سه گزين هاي وگروه

دوم به يك آزمون 4گزينه اي كمتر از ميانگين نمرات 3گزينه اي است يعني افزايش تعداد

گزينه ها باعث كاهش نمره كل آزمون شده است.

پاك نژاد ( 1377 ) به بررسي، تأثير تعداد گزينه هاي سؤال ومدت زمان پاسخ دهي برپايايي

آزمون هاي چندگزينه اي پيشرفت تحصيلي پرداخته است. تحقيق حاضر به منظور بررسي تأثير

تعداد گزينه هاي سؤال ومدت زمان پاسخ دهي بر پايايي 1 آزمون هاي چندگزينه اي پيشرفت

تحصيلي برروي يك نمونه 400 نفري از دانش آموزان سال سوم دبيرستان نظام جديد آموزش

متوسطه شهرستان انديمشك كه در سال تحصيل فرهنگ ومعارف اسلامي انجام شده است.

دراين تحقيق، ضرايب پايايي آزمون هاي چهارگزينه اي،سه گزينه اي، و دوگزينه اي وآزمون

چهارگزينه اي با مدت زمان پاسخ دهي كوتاه و بلند با استفاده از آزمون هاي معني دار بودن

مورد α=0 . اختلاف بين دو ضريب همبستگي در نمونه هاي همبسته ومستقل در سطوح 05

مقايسه قرار گرفته اند نتايج حاكي از آن بود كه بين ضرايب پايايي آزمون هاي چهارگزينه اي و

سه گزينه اي اختلاف معني داري نمي باشد. وبين ضرايب پايايي آزمون هاي چهارگزينه اي و دو

گزينه اي اختلاف معني دار مي باشد.

1. Reliability

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 7

2009 ) در تحقيقي برروي آزمون هاي ورودي مدارس و دانشگاه ها با بيان ) تام بوركارد 1

SAT اين كه بايد از آزمون ها و سؤالات چند گزينه اي استفاده شود ادعا مي كند تس تهاي

داراي مشكلات خاص وسيستماتيك است. بوركارد مي گويد مشكلات زيربنايي، ناشي از باز

پاسخ بودن بعضي از سؤالات است. همچنين ادعا مي كند كه مهارت تفكر انتقادي دراين

آزمون ها (باز پاسخ) واقعي نيست. زيرا آزمون گران به راحتي نم يتوانند ادعاي خود را درمورد

كودكان 6 تا 11 ساله ثابت كنند. بوركارد بيان مي كند باجايگزيني آزمون هاي چند گزينه اي به

جاي باز پاسخ ديگر مشكلي نخواهيم داشت زيرا اين تست ها به دقت دانش وتوانايي را ارزيابي

ميكنند. با آزمون هاي چندگزين هاي مي توان مقايسه هاي سال به سال از عملكرد دانش آموزان

داشت. بوركارد ( 2009 ) مي گويد در جهان واقعي كسي فاقد دانش نيست و استفاده از سؤالات

انشايي و باز پاسخ امري خطير و فاجعه بار وبسيار پرهزينه براي سنجش عملكرد افراد است.

2008 ) باتحقيقي به عنوان دشواري سؤالات آزمون هاي چند ) گاتس شال وكوبينجر 2

گزينه اي،بيان داشته كه آزمون هاي چندگزينه اي خود مشكل زاست زيرا اغلب به راحتي فرد به

جواب درست دست پيدا مي كند و باعث مي شود آزمودني يك حدس زننده خوش شانس

باشد. در اين تحقيق (كوبينجر وگاتس شال، 2008 ) از آزمون هاي موازي استفاده شد كه از

لحاظ محتوا شبيه به هم هستند اما پاسخ هاي آنها متفاوتند. 173 تست به صورت تصادفي در

كتابچه هايي ارائه شدند. با انجام تحليل مدل راش بعد از حذف 39 سؤال با مدل راش برازش

گزينه اي تفاوت معني X داشت نتيجه اوليه به اين صورت بود كه آزمون چندگزينه اي 5تا

داراي با آزمون جواب آزاد نداشت. در اين تحقيق بيان شده است اگر از سؤالات با فرمت 1

گزينه صحيح از 5 گزينه انحرافي و 1 گزينه صحيح از 4 گزينه انحرافي استفاده شود. چندان

تفاوتي نمي كند.

1. Tom burkard

2. Kubinger ,Gottschall

www.SID.ir

Archive of SID

8 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

در تحقيقي توسط جيمز و ماروي ( 2008 ) با عنوان تأثير گزينه معيوب در امتحانات چند

گزينه اي ارزيابي پرستاران به انتقاد از امتحانات چندگزين هاي پرداخته و با تاسف بيان كرده

است كه رواج گزينه هاي معيوب در امتحانات معلم ساخته باعث تبعات منفي زيادي شده

است.در اين تحقيق با يك بررسي دراز مدت برروي دانش آموختگان بوردپرستاري مشخص

شد افراد با نمره بالا وقتي دوباره آزمون شدند نتايج به نحوي بود كه انگار ارزيابي هاي قبلي،

غلط بودند (دانش آموزان نمرات پاييني در آزمون جديد گرفتند). به گفته جيمز و ماروي

2008 ) ممكن است در ظاهر فقط براي دانش آموزان دوره پرستاري اتفاق افتاده باشد. ولي پر )

واضح است كه در تمام عرصه ها به همين نحو است، جيمز و ماروي پيشنهاد م يكنند عيوب

سؤالات چندگزينه اي با دقت بيشتري بررسي شود و براي تمام سطوح موفقيت وتوانايي بررسي

شود.

2008 ) در پژوهش خود با عنوان استفاده از طرح آشيانه اي براي ) يانگ سوك سو 1

داده هاي آزمون هاي چندگزينه اي ادعا مي كند، موقعي كه راه حل و استراتژي صحيح در

ممانعت از انتخاب گزين ههاي انحرافي به كاربرده م يشود، مي تواند فرايند زير بنايي سؤالات

آزمون هاي چندگزينه اي را بهتر نشان دهد.اين رساله مدل جديدي براي ارزيابي سؤالات چند

ارائه مي دهد. به (MML) گزينه اي با استفاده از الگوريتم برآورد بيشينه درست نمايي كناري

علاوه سؤالات وطبقه كاربرد اطلاعات براي هر مدل به كار رفته است. و به ارزيابي عملكرد هر

مدل و مطالعات مشابه براي كشف پارامترهاي سؤال، پرداخته است. در كاربرد مدل به وسيله

استفاده كرده است. (Likelihood Ratio) از نسبت بيشينه تست DIF تحليل

چاين چي ( 2007 ) رساله دكتري خود را با عنوان تأثير حدس در ارزيابي ابعاد (تك بعدي

بودن وچند بعدي بودن) آزمون هاي چندگزينه اي ارائه كرده است. در اين تحقيق 4 شاخص

براي ارزيابي تك بعدي بودن مورد استفاده قرار گرفته است نسبت واريانس، تحليل هاي

وتفاوت خي دو. RMSR موازي، تبديل

1. Young suk suh

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 9

2004 ) بيان مي كند كه آزمو نهاي چندگزينه اي بيشترين تعداد را در ) واي مين هوانگ 1

ميان تنوع بسيار زياد آزمون ها به خود اختصاص داده است. آزمون هاي چندگزينه اي عمومي

براي مواردي مثل تعيين پيشرفت، تعيين پايه دانش، دانشجويان ابقا يا ارتقا درجه علمي مورد

استفاده قرار م يگيرد. بر همين اساس م يگويد علي رغم نفوذ آزمون هاي چند گزينه اي،

شواهد تجربي حاكي از آن است كه چگونگي نوشتن آزمون هاي چند گزينه اي دچار كاستي

است.

2008 ) بيان مي كند ابهام در آيت مهاي تست باعث ورود واريانس هاي نا مربوط ) آلن ام 2

در آزمون هاي چندگزينه اي مي شود.

كارين –وودفورد وپيتر بانكرافت ( 2009 ) در مقاله اي تحت عنوان آزمون هاي چندگزينه اي

را سخت تصور نكنيد به بررسي آزمون هاي چندگزينه اي پرداخته است. وچگونگي ساخت،

اجزا و محدودي تهاي اين آزمو نها را مورد بررسي قرار داده است. در بخشي از اين مقاله به

تعداد گزينه ها در آزمو نهاي چندگزينه اي پرداخته و اظهار مي دارد كه در سا لهاي اخير

بيشترين اظهارنظرها به آزمو نهاي 3و 4و 5 گزينه اي معطوف بوده است. وبيان م يكند كه ادعاي

آنها كه 5 گزينه اي را انتخاب م يكنند بيشتر به خاطر از بين بردن حدس است. اين پژوهشگران

استفاده از 3 گزينه اي يا 4 يا 5 گزينه اي را معطوف به مقتضي زمان كاربرد م يدانند تا از

اشتباهات دوري شود.

2006 ) در تحقيقي در دانشگاه كانساي ژاپن آثار كاهش تعداد ) تتسو هيتوشيزوكا 3

گزينه ها سؤالات برروي مشخص ههاي روان سنجي آزمون ورودي دانشگاه كانساي را مورد

بررسي قرار داد.اين آزمون به صورت يك سري سؤالات 4 گزينه اي بود كه براي غربالگري

مورد استفاده قرار مي گرفت كه با حذف يك گزينه به يك آزمون سه گزينه اي تبديل شد. وبر

روي گروه ديگري اجرا شد. پاسخ به دو آزمون ومقايسه دو آزمون نشان داد كه درجه سهولت

1. Yi min Huang

2. Oleen-m

3. Tetsuhito shizuka

www.SID.ir

Archive of SID

10 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

و پارامتر تشخيص به طور معناداري تغيير نكرد. نتايج اين تحقيق پيشنهاد مي كند كه سؤالات سه

گزينه اي همان كارايي سؤالات 4 گزينه اي را دارد ودر اصل م يتوان به جاي 4 گزينه اي از سه

گزينه اي استفاده كرد.

2005 ) در تحقيقي بيان مي كند كه سؤالات چندگزينه اي بهترين كاربرد را ) مايكل سي 1

در زمينه آزمون هاي پيشرفت تحصيلي دارند. و براي به دست آوردن سؤالاتي با محتواي عالي

و با كيفيت سؤالات سه گزينه اي مي تواند از سؤالات 4 يا 5 گزينه اي برتري داشته باشد. به

گفته مايكل سي ( 2005 ) محققان در طي 80 سال تحقيق مدارك تجربي به دست آورده اند كه

سؤالات 3 گزينه اي بهترين كاربرد را دارد و نياز به اين سؤالات روز به روز بايد مورد توجه

قرار گيرد.

1980 ) به مقايسه آزمون سه گزينه اي و چهارگزين هاي پرداخته وبيان ) رالف جي استاراتون 2

داشته است كه هر چند بيشتر كتاب هاي اندازه گيري به طور معمول سؤالات 5 يا 4 گزينه اي را

توصيه م يكنند، اما مطالعات تجربي نشان داده است كه سؤالات سه گزين هاي در شرايط خاص

بهينه تر است. در اين تحقيق پايايي وخطاي استاندارد اندازه گيري آزمون سه گزينه اي برابر يا

حتي بهتر از سؤالات 4 گزينه اي ويا 2 گزينه اي بود واين نتايج با در نظر گرفتن زمان آزمون

بود. رالف ( 1980 ) پيشنهاد م يكند از سؤالات سه گزينه اي در كلا سهاي عمومي استفاده شود.

روش

باتوجه به هدف اصلي پژوهش كه به بررسي تأثير تعداد گزين ههاي سؤال در ويژگ يهاي

روان سنجي آزمون وتوانايي برآورد شده مي پردازد، بهترين روش تحقيق روش تجربي م يباشد.

جامعه آماري تحقيق حاضر شامل كليه دانش آموزان دبيرستان هاي شهر شيراز و بخش

كربال فارس م يباشد.

1. Michael. c

2. Ralph G. straton

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 11

گروه نمونه اين تحقيق عبارت است از 608 نفر دانش آموز سال سوم دبيرستان رشته

رياضي، به صورت تصادفي خوش هاي به علت وسعت منطقه جغرافيايي و پراكندگي جامعه

آماري و عدم دسترسي به همه آنان صورت گرفت. براي همگون كردن آزمودن يها در تحليل،

آزمودني هاي دختر وپسر از هم تفكيك نشدند.

با توجه به اين كه كاربرد موفقيت آميز مدل هاي نظريه سؤال پاسخ نياز به حجم نمونه

كافي وطول مناسب آزمون براي برآورد دقيق پارامتر هاي توانايي و پارامتر هاي سؤال دارد، بر

نمونه به صورت زير انتخاب ،IRT طبق تحقيقات و پژوه شهاي انجام شده در مورد مدل هاي

خواهد شد 20 سؤال و 200 آزمودني براي مدل تك پارامتري، 30 سؤال و 500 آزمودني براي

مدل دو پارامتري و 60 سؤال و 1000 آزمودني براي مدل سه پارامتري توصيه م يشود از طرف

ديگر بعضي مطالعات حتي حجم نمونه 200 نفر و 20 سؤال را براي كسب برآوردهاي قابل

.( قبول كافي دانسته اند (همبلتون و كوك، 1983

داده ها در تحقيق حاضر از طريق آزمون پيشرفت تحصيلي درس حسابان، و زبان عمومي

در رشته رياضي فيزيك سال سوم دبيرستان جمع آوري شد.

آزمون هاي موردنظر توسط جمعي از دبيران حسابان وهندسه وزبان عمومي شهرستان

خرامه از سؤالات كنكور سا لهاي قبل، 20 سؤال تهيه شد. در ساخت اين آزمون ها به نكات زير

توجه شد:

با توجه به زمان سپري شده از سال تحصيلي اين آزمو نها از يك سوم كتاب تدريس شده

تهيه شد. وبه تاييد گروه رياضي و زبان آموزش پرورش شيراز وشهرستان خرامه رسيد. بعد از

ساخت سؤالات به صورت 4گزينه اي توسط دبيران گزين هاي ديگر به سؤالات 4گزينه اي اضافه

شد و سؤالات به صورت 5گزينه اي، از سؤالات 4گزينه اي يك گزينه غلط (گزينه انحرافي)

حذف گرديد و سؤالات 3گزينه اي تهيه شد. دراصل در تمام فرم تهاي 3و 4و 5 گزينه اي گزينه

صحيح و سؤال مشابه بود. روايي آزمون به صورت محتوايي و ظاهري توسط دبيران حسابان

www.SID.ir

Archive of SID

12 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

وزبان شهرستان خرامه بررسي شد ودر يك مدرسه به عنوان نمونه اجرا شد و پايايي سؤالات با

روش آلفاي كرونباخ مشخص و سؤالات مناسب جايگزين سؤالات نامناسب شد.

يافته ها

به منظور ارزيابي تأثير تعداد گزين هها بر ويژگي هاي روا نسنجي آزمون ها وسؤالات و همچنين

توانايي برآورد شده آزمودني ها در آزمون حسابان و زبان در نظريه كلاسيك اندازه گيري و

پرسش پاسخ، داد هها با استفاده از دو آزمون حسابان و زبان كه هر كدام با فرمت 3و 4و 5

گزينه اي ساخته شده بودند، از گروه نمون هاي كه از 120 دختر و 491 پسر ( 608 نفر به آزمون

زبان و 611 نفر به آزمون حسابان)تشكيل شده بودند و از جامعه به صورت تصادفي انتخاب

شده بودند جمع آوري شد. ابتدا پايايي آزمو نها از طريق آلفاي كرونباخ سنجيده شد و سپس

با استفاده از تحليل عاملي به بررسي مفروضه تك بعدي بودن آزمون پرداختيم. بعد از بررسي

مفروضات اوليه به تحليل نتايج پرداخته و ضرايب تميز و دشواري و حدس آزمو نها محاسبه

و از DIF پارامترها با هم مقايسه شدند. براي مقايسه پارامتر ها از منطق z شد و با استفاده از

آناليز واريانس آميخته نيزاستفاده شد.

جدول 1. جدول پايايي كل آزمون هاي حسابان و زبان

آلفاي كرونباخ (كودرريچارد سون ) آزمون وتعداد گزينه ها تعداد سؤالات

0.755 حسابان 3 گزينهاي 17

0.753 حسابان 4 گزين هاي 17

0.798 حسابان 5 گزينه اي 17

0.774 زبان 3گزينه اي 17

0.780 زبان 4گزينه اي 17

0.762 زبان 5 گزينهاي 17

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 13

به منظور بررسي پيش فرض هاي نظريه پرسش پاسخ از تحليل عاملي براي بررسي تك

بعدي بودن آزمون ها استفاده شد با توجه به ارز شهاي ويژه به دست آمده و اسكري هاي به

( آزمون هاي مورد استفاده تك بعدي بودند. همبلتون ( 1989 SPSS دست آمده از نرم افزار

ذكر م يكند كه چنانكه فرض تك بعدي بودن برقرار باشد. مفروضه استقلال موضعي نيز برقرار

است. باتوجه به اين مطلب در آزمون مذكور مفروضه ي استقلال موضعي نيز برقرار است و

آزمون ها مناسب براي تحليل با نظريه پرسش پاسخ مي باشد.

تحليل شد و BILOG-MG بعد از بررسي پيش فر ضهاي آماري داد هها با نرم افزار

محاسبه شد. IRT ضرايب تشخيص وتميز در دو نظريه كلاسيك و

براي بررسي حساسيت پارامترهاي سؤال نسبت به تعداد گزين هها از 3 روش، براي محاسبه

استفاده شد:

Z - اولين روش استفاده از فرمول

2 2

1 2

E1 E2 S S

b b

Z

در تحليل پارامترهاي سؤال DIF - دوم استفاده از منطق

تعريف اساسي نظريه سؤال پاسخ از كار كرد افتراقي سؤال، روش بسيار ساده اي فراهم

مي كند كه براساس آن مي توان كاركرد افتراقي سؤال را مورد بررسي قرار داد. يعني، انتخاب

نمونه بزرگي از آزمودني ها از دو جامعه، اجراي مقياس موردنظر (منظور تبديل داده ها به

مقياسي مشترك م يباشد) و برآورد پارامترهاي سؤال به طور جداگانه براي هر دو گروه و

سپس مقايسه ديداري منحني هاي سؤال پاسخ. تنها در صورتي پارامتر هاي سؤال (يا نمره هاي

به دست آمده از سطوح صفت) كه به طور جداگانه براي دو يا چند گروه برآورد شده اند قابل

مقايسه اند كه محقق اين پيش فرض را بپذيرد كه گروه ها در متغير صفت مكنون توزيع يكساني

دارند. به طور اخص،سؤال در صورتي كاركرد افتراقي را نشان مي دهد كه منحني سؤال پاسخ

آن در بين گروه هاي مختلف متفاوت باشند و يا اينكه بين هريك از پارامترهاي سؤال در بين

www.SID.ir

Archive of SID

14 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

0

0.2

0.4

0.6

0.8

1

1.2

-3 -2.75 -2.5 -2.25 -2 -1.75 -1.5 -1.25 -1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 2.75 3

سوال 11 زبان 5 گزينه سوال 11 زبان 4 گزينه ای

0

0.2

0.4

0.6

0.8

1

1.2

-3 -2.75 -2.5 -2.25 -2 -1.75 -1.5 -1.25 -1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 2.75 3

سوال 3 زبان 5 گزينه سوال 3 زبان 3 گزينه

ICC در اين مورد تفاوت DIF گروه ها تفاوت و جود داشته باشد. (فلسفي نژاد، 1388 ) ملاك

مي باشد. P( )i  P( )i ها و قدر مطلق 2

- سوم استفاده از آناليز واريانس آميخته

بررسي شده اند آورده شده است. DIF هايي كه به روش منطق ICC در زير نمونه اي از

نمودار 1. بيشترين تفاوت در سؤال 11 زبان 4 و 5 گزينه اي

نمودار 2. كمترين تفاوت در سؤال 2 زبان 3 و 5 گزينه اي

ICC ها نشان داد تفاوت فقط در چند سؤال قابل توجه است و اكثر ICC نتايج بررسي

نيز تأييد شد. Z سؤالات تفاوت زيادي با هم ندارند. اين نتايج با استفاده از تبديل پارامتر ها به

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 15

براي بررسي تفاوت ضريب دشواري در آزمون زبان Z جدول 2. استفاده از قدر مطلق

جدول، تفاوت ضرايب دشواري آزمو نهاي زبان 3 و 4 و 5 گزينه اي را نشان مي دهد. ستون

اول سمت راست تفاوت ضرب دشواري زبان 3 و 5 گزينه اي و در ستون دوم زبان 4و 5

جدول Z محاسبه شد. با توجه به Z گزينه اي و در ستون سوم زبان 3و 4 گزينه اي با استفاده از

در سطح معني داري 0.05 تفاوت بين ضرايب دشواري آزمون زبان 3 و 4 و 5 گزينه اي فقط در

سؤالات 2و 14 آزمون زبان 3و 4 گزينه اي و سؤال 1 ازمون 4 و 5 گزينه اي مشاهده شد.

ضريب دشواري z

5و 3 گزينه اي

ضريب دشواري z

4و 5 گزينه اي

ضريب دشواري z

3و 4 گزينه اي

زبان

1.162 2.026 سؤال 1 0.7202

2.0728 0.5577 0.7548 سؤال 2

1.294 1.289 0.839 سؤال 3

1.032 0.6524 0.7366 سؤال 4

2.109 1.2685 0.9425 سؤال 5

1.2936 1.5130 0.9970 سؤال 6

0.1334 1.3198 0.9569 سؤال 7

0.8411 0.5529 0.8510 سؤال 8

1.152 1.241 0.9682 سؤال 9

2.087 0.4433 0.8489 سؤال 10

1.2684 0.6051 0.4249 سؤال 11

1.0211 1.2277 0.8553 سؤال 12

1.0681 0.5240 0.8730 سؤال 13

2.457 سؤال 14 6387.1 0.8688

1.1006 1.0369 سؤال 15 0.9682

0.0299 1.073 0.777 سؤال 16

1.3654 1.2199 0.9485 سؤال 17

www.SID.ir

Archive of SID

16 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

براي بررسي تأثير تعداد گزينه ها بر ويژگي هاي روا نسنجي سؤالات و توانايي برآورد شده

استفاده شد (mixed ) آزمودني ها در نظريه كلاسيك و سؤال پاسخ از تحليل واريانس آميخته

كه نتايج تحليل آزمون زبان در جداول زير آورده شده است.

IRT,CTT جدول 3. خروجي آناليز واريانس آميخته براي بررسي تفاوت ضريب دشواري زبان در

sig F ms Df Ss منابع تغيير

درون گروهي

0.418 1.561 0.514 2 تعداد گزينه ها 1.028

تعامل 0.042 3.340 1.1 2 2.2

خطا 0.329 64 21.080

برون گروهي

0.000 41.407 20.207 1 مدل 20.207

خطا 0.488 32 15.617

IRT,CTT جدول 4. خروجي آناليز واريانس آميخته براي بررسي تفاوت ضريب تميز زبان در

CTT,IRT ضريب تميز زبان در

sig f ms df Ss منابع تغيير

درون گروهي

0.495 0.712 0.827 2 تعداد گزينه ها 1.653

0.452 0.804 0.934 تعامل 2 1.867

1.161 خطا 64 74.33

برون گروهي

مدل 0.000 26.498 30.761 1 30.761

1.161 خطا 32 17.199

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 17

با توجه به سطح معني داري منابع تغيير درون گروهي و برون گروهي نتايج زير حاصل شد

بين ضرايب تميز و دشواري و تعداد گزينه ها تفاوت معني داري وجود ندارد و لي بين

پارامترهاي محاسبه شده در دو نظريه كلاسيك و پرسش پاسخ تفاوت وجود دارد.

براي بررسي تأثير تعداد گزينه هاي سؤال بر توانايي از آزمون خي 2 استفاده شد كه نتايج

آن در جداول زير موجود مي باشد.

جدول 5. آزمون خي 2 براي بررسي تفاوت تواناي يهاي آزمون هاي زبان 3 و 4و 5 گزينه اي وآزمون

حسابان 3و 4و 5 گزينه اي

زبان 3و 4و 5 گزينه ارزش درجه آزادي سطح معني داري (دودامنه)

0.027 4 10.981 خي 2

تعداد مورد ها 608

نتايج بررسي تفاوت با خي 2 نشان داد كه بين تعداد گزين هها و توانايي آزمون هاي 3و 4و 5

گزينه اي تفاوت معني دار است.

بحث و نتيجهگيري

سؤال 1: آيا پارامتر هاي سؤال نسبت به تعداد گزينه ها حساس است ؟

براي اين منظور از خروجي نرم افزار بايلوگ ضريب هاي تميز و دشواري و حدس در

مورد تحليل قرار DIF و سپس با منطق z نظريه پرسش پاسخ استخراج كرده و ابتدا با فرمول

گرفت. علاوه بر آن از تحليل واريانس آميخته نيز استفاده شد.

حسابان 3و 4و 5 گزينه ارزش درجه آزادي سطح معني داري (دودامنه)

0.000 4 20.228 خي 2

تعداد مورد ها 610

www.SID.ir

Archive of SID

18 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

ضريب تميز، ضريب دشواري، ضريب حدس ، هر : z مقايسه پارامترها با استفاده از فرمول

بحراني در Z محاسبه شده و Z تبديل شده و با هم مقايسه شدند. با توجه به Z سؤال دو به دو به

سطح 0.05 تفاوت معني داري بين ضرايب دشواري و تميز وحدس در آزمون هاي 3 و 4 و 5

گزينه اي مشاهده نشد.

نتايج تحليل واريانس آميخته نيز نشان داد كه بين ضرايب تميز و دشواري و آزمون هاي 3

و 4 و 5 گزينه اي تفاوت معني داري وجود ندارد.براي بهتر نشان دادن اين موضوع از منطق

ها، فقط در تعداد اندكي از سؤالات قابل توجه ICC استفاده شد تفاوت مشاهده شده بين DIF

بودند و بقيه سؤالات تفاوت زيادي باهم نداشتند.

تتسو هيتو شيزوكا ( 2006 )مبني بر اين كه بين ضرايب » نتايج اين تحقيق با تحقيقات

همسو مي باشد. « دشواري و تميز سؤالات 3 و 4 گزينه اي تفاوتي وجود ندارد

سؤال دوم: آيا تأثير تعداد گزينه ها بر ويژگ يهاي روا نسنجي سؤالات و توانايي برآورد

شده آزمودني ها در نظريه كلاسيك و سؤال پاسخ متفاوت است ؟

براي بررسي تأثير تعداد گزينه ها بر ويژگي هاي روا نسنجي سؤالات و توانايي برآورد شده

استفاده (MIXED ) آزمودني ها در نظريه كلاسيك و سؤال پاسخ از تحليل واريانس آميخته

شد. نتايج تحليل نشان داد كه پارامترهاي محاسبه شده در نظريه كلاسيك و پرسش پاسخ باهم

متفاوت بودند.

تفاوت در برآورد پارامترهاي سؤال در » اين نتايج با تحقيق احمدي آذر ( 1387 )، مبني بر

همسو مي باشد. « نظريه سؤال پاسخ و كلاسيك اندازه گيري

سؤال 3: آيا توانايي برآورد شده آزمودن يها از تعداد گزينه هاي سؤال تأثير مي پذيرد؟

براي بررسي اين سؤال توانايي بدست آمده از هر سه فرمت آزمون،ازخي 2 براي بررسي

تفاوت استفاده شد. خي 2 محاسبه شده معني دار بود و تفاوت در برآورد توانايي در فرمت هاي

آزمون هاي 3 و 4 و 5گزينه اي مشاهده شد. باتوجه به نمودارهاي فراواني توانايي به دست آمده و

درصد پاسخ هاي صحيح افراد و توابع آگاهي آزمون هاي مختلف نتايج زير نيز حاصل شد.

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 19

افراد با توانايي كم و متوسط در آزمون هاي 3گزينه اي و 4 گزينه اي عملكرد بهتري داشتند و

افراد با توانايي ضعيف در آزمون هاي 5 گزينه اي عملكرد بدتري داشتند. بررسي درصد

پاسخ هاي صحيح افراد نشان داد در آزمون هاي 3 گزينه اي درصد پاسخ هاي صحيح به مراتب

بالاتر از فرمت هاي ديگر بود همچنين در بررسي توابع آگاهي فرمت هاي مختلف آزمون

مشخص شد آزمو نهاي 3 گزينه اي به اندازه آزمون هاي 4 گزينه اي آگاهي دهنده توانايي افر اد

است.شايد بتوان اين را مطرح كرد كه آزمون هاي 3 گزينه اي به همان مقدار آزمون هاي 4

گزينه اي، توانايي را م يسنجند و مي توان به جاي يكديگر به كار برد.

سؤال 4: آيا تعداد گزينه ها بر برازش با مدل در نظريه سؤال پاسخ تاثير مي گذارد ؟

مقدار - BILOG-MG براي بررسي برازش مدل در نظريه پرسش پاسخ از نرم افزار

2 در آخرين چرخش استخراج كرده و براي هر سه مدل آن را با خي 2 بحراني Loglikelihood

با درجه آزادي برابر با تعداد سؤال ها مقايسه كرديم.

(اگر خي 2 مشاهده شده از خي 2 بحراني كوچكتر باشد، معلوم مي شود كه به لحاظ

آماري بين برازش مدل ها تفاوت معناداري و جود ندارد و ميتوان هريك را به جاي ديگري به

اختيار گزارش كرد. ولي براساس اصل امساك بهتر است مدل داراي پارامترهاي كمتر را

انتخاب كرد.)

-2 به دست آمده و خي 2 جدول با درجه آزادي 17 كه برابر log likelihood با توجه به

27 نتايج زير به دست آمد: آزمون هاي زبان و حسابان در فرمت هاي 3 و 4 و 5 / است با 59

گزينه اي با مدل دو پارامتري برازش بهتري داشت.اين نشان دهنده اين است كه م يتوان از

پارامتر حدس در آزمون هاي چندگزينه اي صرف نظر كرد.

www.SID.ir

Archive of SID

20 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

منابع فارسي

احمدي، آذر. ( 1387 ). نمره كل سازي با استفاده از تكني كهاي نظريه كلاسيك و مقايسه آن با

مد لهاي نظريه سؤال پاسخ در كنكور كارشناسي رشته رياض . ي پايان نامه كارشناسي ارشد.

تهران: دانشگاه علامه طباطبايي.

آلن ام،جي وين دبليو ام. ( 1384 ). مقدم هاي بر نظري ههاي اندازه گيري ( روان سنجي)، ترجمه

.( علي،دلاور، تهران: سمت (تاريخ انتشار به زبان اصلي 1982

بيرقي، ابولفضل. ( 1377 ). بررسي اثر تعداد گزين هها و زمان بر روي نمره كل در آزمو نهاي پيشرفت

تحصيل . ي پايان نامه كارشناسي ارشد. تهران: دانشگاه علامه طباطبايي.

ثرندايك، برت ال. ( 1369 ). روان سنجي كاربردي. ترجمه هومن، حيدرعلي دانشگاه تهران.

سيده مؤمني، سيد طاهره. ( 1379 ). تأثير عامل حدس بر نمره هاي آزمو نهاي چندگزين هاي پيشرفت

تحصيل . ي پايان نامه كارشناسي ارشد.تهران: دانشگاه علامه طباطبايي.

سيف، علي اكبر. ( 1365 ). اندازه گيري پيشرفت تحصيل ، ي تهران: انتشارات آگاه.

( شريفي حسن پاشا،اصول روان سنجي در روان آزمايي، انتشارات رشد( 1384

فتوحي، ليلا. ( 1387 ). بررسي كاركرد افتراقي سؤالات كنكور كارشناسي ارشد رشته روا نشناس . ي

فلسفي نژاد، محمد رضا. ( 1388 ). مباني نظري پرسش پاس . خ زير چاپ.

كاپلان، روبرت ام؛ ساكوز، دنيس پ. ( 2004 ). روان آزماي ، ي مترجم علي، دلاور، فريبرز درتاج،

. نورعلي فرخي، تهران: نشر ارسباران، 1386

معلمي اوره، مهرناز. ( 1387 ). مقايسه دقت برآورد توانايي در سؤالات چند گزينه اي با بكارگيري

مدل سازي – سؤال پاسخ دو وچند ارزش . يپايان نامه كارشناسي ارشد.تهران. دانشگاه علامه

طباطبايي.

1375 ). تأثير گزينه هاي سؤال در اعتبار تست هاي چندگزين هاي. كتابنامه ص - هاديان، مينا. ( 76

.108 -111

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 21

منابع لاتين

Chien-chi-yeh (2007). The effect of gussing on assessing dimentionality in multiple

choice test,university of Pittsburgh.

Educational and psychological measurement ,vol,40,no,2,357-365/(1980) SAGE

publication /a comparison of the two ,three and four choice item test given/fixed total

number of choice /RALPH G,STRATON

James ware&marve(2008).impact of item-writing flaws in multiple choice question on

student achievement in high-stakes nursing,assessment.42:198-20

Karyn woodfard ,peter Bancroft,(2009).multiple chioice questions not

considered harmful,queensland university of technology.

Kobinger&Christian.h.ghottschall(2008).item difficulty of multiple choice test dependant

on different ietm response formats,university of Vienna.

Olleen m,(2008).heffernan.university of Alberta.

Michael c rodrigrez (2005),tree option are optimal for multiple –choice

item/uni/washin.vol;24,lss,2;pg3,11pgs.

TOM burkard.uk.cps,januray (2009).multiplechoice.

Youngsuk suh (2008),nested logit models for multiple choice item response

data.university of Wisconsin-madison..

Tetsuhito shizuka and coworkers(2006)a comparison of three and four option English

test for university entrance selection,purposes in japan.language testing (2006);23;35.

YI MIN huang.(2004),the impact of the all-of-the above option and student ability in

multiple choice testing,Washington state university college of education.

www.SID.ir


برچسب‌ها: تعداد گزينه ها, نظريه ي سوال پاسخ, نظريه ي كلاسيك اندازه گيري
+ نوشته شده در  پنجشنبه 19 اردیبهشت1392ساعت   توسط محمد حسین ضرغامی  | 

تحليل عاملي 1

تحلیل عاملی یکی از فنون پیشرفته امار چند متغیری است که در جهت دستیابی به بسیاری از هدفهای علمی و پژوهشی مانند مدلسازی ،فرضیه سازی،رواسازی تست ها،تشخیص پاره تست ها، وفراهم ساختن زمینه اجرای سایر روشهای پیشرفته اماری مانند رگرسیون چند متغیری و معادلات ساختاری به کار می رود.اما پیچیدگی و دشواری درک ،اجرا تفسیر نتایج تحلیل عاملی موجب شده است بسیاری از کاربران بدون اشنایی با منطق زیر بنایی ،محدودیتها ونیز دامنه کاربرد آن ،به اجرا و بکارگیری یافته های حاصل از ان بپردازند و بدین ترتیب زمینه ساز تفسیر های نامعتبر و ناروا ونیز تعمیم های نادرست از پدیده ها ومتغیرهای مورد مطالعه گردند. تحقیق حاضر، به معرفی این تکنیک، کاربردها و روشهای پیاده سازی آن می پردازد.

2.  مقدمه

نخستين كار درباره تحليل عاملي، توسط چارلز اسپيرمن (1940) صورت گرفت، كه به گونه كلي « پدر» اين روش شناخته شده است. بعد از او كارل پيرسن)1901(، روش «محورهاي اصلي» را پيشنهاد كرد و هتلينگ (1933) آن را به گونه كاملتري توسعه داد.

بسياري از كارهاي نخستين در تحليل عاملي، يعني در طول سال هاي 1900 تا 1930، به كاربرد مدل اسپيرمن در بسياري از مسايل عملي و بررسي شرايط مناسب براي استفاده از آن مدل اختصاص يافته است. در طول اين دوره، علاوه بر خود اسپيرمن، دانشمندان ديگري مانند سيريل برت، كارل هليزينگر، ترومن كلي، كارل پيرسن و گادفري تامسون، كمك هاي شاياني به ادبيات تحليل عاملي كرده اند. در اوايل سال 1930، آشكار شد كه مدل تك عاملي عمومي اسپيرمن براي توصيف روابط بين متغيرهاي يك مجموعه هميشه كافي نيست.

ترستون احتمالا برجسته ترين تحليلگر عاملي نوين بوده و نفوذ قابل ملاحظه اي در توسعه اين روش از سال هاي 1930 تا كنون داشته است. مسئوليت توسعه روش «سانتروئيد» با اوست كه در مقياس گسترده اي قبل از ظهور كامپيوترهاي پر سرعت به كار رفته است. او همچنين مسئول مفهوم ساختار ساده است كه توسط بيشتر تحليلگران به عنوان معرف يك راه حل تحليل عاملي ايده آل در نظر گرفته شده است.

كارهاي اوليه در تحليل عاملي  كه توسط دانشمندان ياد شده انجام گرفته ، بيشتر توجيه نظري دارد، هر چند هيچ يك از آن ها آماده براي آزمون هاي آماري فرضيه هاي خاص درباره ساختارهاي عاملي مجموعه هاي معيني از متغيرها نبوده است. اما، وقتي كامپيوترهاي پر سرعت در اختيار قرار گرفت در اواسط تا اواخر سال هاي 1950، حركتي از تئوري گرائي به سوي آنچه تحليل عاملي اكتشافي ناميده مي شود، به وجود آمد. اين حركت به گونه آشكار از طريق تئوري عامل مشترك ترستون تشويق، و از طريق فرمول بندي عمومي هتلينگ (1993)، درباره عمليات رياضي مولفه هاي اصلي كه قبل از آن به دليل محاسبات فوق العاده پيچيده و پرزحمت آن ، به كار نرفته بود تسهيل شد. چنين به نظر مي رسد كه در طول سال هاي 1950 و 1960، تقريبا هر كس، هر چيزي را تحليل عاملي مي كرده است، به اين اميد كه روابط پيچيده ظاهري بين متغيرهاي يك مجموعه را مي توان ساده كرد و به گونه ساده تري تفسير نمود (ليندمن و همكاران، 1980). در طول اين دوره همچنين تعداد روشهاي تحليل عاملي با ابداع تحليل تصوير (گاتمن، 1953)، تحليل عاملي بنيادي (رائو، 1955) و (هريس،1962)، تحليل عاملي آلفا (كيسر و كافري، 1965) و روش كمترين پس ماند (هامن و جونز، 1966)، به گونه قابل توجهي توسعه يافت. با اين وجود، روشهاي تحليل اكتشافي نتوانست آن گونه كه انتظار مي رفت، كمك موثري براي آزمون و پالايش تئوري روان شناختي باشد. 

مقاله هتلينگ (1933) درباره تحليل مولفه هاي اصلي نخستين كمك قابل توجه يك آماردان را به تحليل عاملي معرفي كرد، و اين وضعيت تا موقعي ادامه داشت كه مقاله لاولي (1940) درباره روش بيشينه احتمال (ML) منتشر شد. لاولي نشان داد كه تحليل عاملي مي تواند به عنوان يك تكنيك آماري جالب در بسياري از موقعيت هاي پژوهشي كاربرد داشته باشد. واكنش هاي له و عليه اين روشها نيز تا وقتي كه آزمون فرضيه هاي خاص درباره پارامترهاي مدل تحليل عاملي مورد توجه قرار گرفت (مثلا جارزكاگ، 1984)، همچنان ادامه داشت. هر چند كارهاي جارزكاگ اساسا مبتني بر روش ML لاولي بود، اما بسياري از مسايل محاسباتي و تفسيري را كه لاولي با آن مرتبط نبود، روشهاي باك و بارگمن (1966) و جارزكاگ (1984) به سبب تاكيد بر آزمون فرضيه، به عنوان روشهاي تحليل عاملي تاييدي طبقه بندي مي شود. هر چند توليد فرضيه هايي كه بايد آزمون شود اغلب دشوار است، اما اين روشها به وضوح بر تحليل عامل اكتشافي به سبب توسعه و آزمون تئوري مزيت دارد. البته براي تدوين چنين فرضيه هايي مي توان ابتدا تحليل عاملي اكتشافي را اجرا كرد و سپس اين فرضيه ها را از طريق تحليل عاملي تاييدي آزمود.



برچسب‌ها: تحليل عاملي
+ نوشته شده در  پنجشنبه 19 اردیبهشت1392ساعت   توسط محمد حسین ضرغامی  | 

نظريه ي اندازه گيري و نظريه ي آزمون

نظريه ي اندازه گيري

نظریه ی اندازه گیری که شاخه ای از ریاضیات کاربردی است به پژوهشگر این امکان را می دهد تا کیفیت اندازه های اختصاص داده شده را توصیف، مقوله بندی و ارزشیابی نماید. بنابراین این نظریه معنادار بودن، دقت و سودمندی اندازه گیری ها را بهبود می بخشد. علاوه بر این نظریه ی اندازه گیری روش هایی را برای ایجاد ابزارهای اندازه گیری نوین و بهتر فراهم می آورد. 

1.       نظريه ي آزمون يا الگوي آزمون، نمايش نمادي عوامل موثر بر نمره هاي مشاهده شده است كه با مفروضات آن توصيف مي شود. 

+ نوشته شده در  چهارشنبه 2 اسفند1391ساعت   توسط محمد حسین ضرغامی  | 

آزمون دكتري رشته سنجش و اندازه گيري يا همان روانسنجي

رشته های مجاز به ثبت نام دکتری سنجش و اندازه گیری
رشته های مجاز به شرکت در آزمون دکتری رشته سنجش و اندازه گیری :

فارغ التحصیلان کارشناسی ارشد رشته های زیر می توانند در آزمون دکتری سنجش و اندازه گیری شرکت نمایند:

-         سنجش و اندازه گیری

-         مجموعه روان شناسی ( کلیه گرایش ها )

-         ریاضی

-         آمار

-         فیزیک

-         مجموعه علوم تربیتی (کلیه گرایش ها)
در آزمون نیمه متمرکز سراسری سال ۱۳۹۱ ضرایب دروس رشته سنجش و اندازه گیری به شرح زیر می باشد:

زبان انگلیسی با ضریب ۲

استعداد تحصیلی با ضریب ۱

مجموعه دروس کارشناسی و کارشناسی ارشد با ضریب ۴  شامل دروس زیر

  دروس کارشناسی :

-  آمار و اصول روان سنجی

  دروس کارشناسی ارشد :

- روش تحقیق ( کمی ، کیفی ، آمیخته )

- نظریه ها و روش های اندازه گیری و ارزیابی IRT
ظرفیت پذیرش دکتری سنجش و اندازه گیری
ظرفیت سال ۹۱ آزمون دکتری سنجش و اندازه گیری :

 

میزان ظرفیت در سالهای قبل:

سال ۱۳۹۰ : در کنکور دکتری سال ۹۰ پذیرش طی دو نیمسال اول و دوم و به صورت پذیرش اصلی و تکمیل ظرفیت صورت پذیرفت. در این سال آزمون رشته سنجش و اندازه گیری به صورت مجزا برگزار نمیگردید و کنکور دکتری تحت عنوان ” مجموعه روان شناسی ” برگزار شد. ظرفیت های اصلی و تکمیل ظرفیت این رشته در سال ۱۳۹۰ به صورت زیر می باشد:

ظرفیت اصلی ( نیمسال اول ) :

 

تکمیل ظرفیت ( نیمسال دوم ) :


دروس
-اصول روان‌سنجی وروان آزمایی، دکتر حسن پاشا شریفی ، انتشارات : رشد

-مقدمه‌ای بر نظریه‌های روان‌سنجی، دکتر حمزه‌گنجی و مهرداد ثابت نشر ساوالان
  آمار و اصول روان سنجی

 مجموعه دروس تخصصی در سطح کارشناسی
 
-آمار: فرگوسن ترجمه ی دکتر دلاور و نقشبندی

-روش شناسی آزمایشی، دکتر دلاور

-احتمالات و آمار کاربردی، دکتر علی دلاور، انتشارات :رشد

-روش تحقیق در روانشناسی و علوم تربیتی، دکتر علی دلاور ، انتشارات : ویرایش

-روش‌های آماری در علوم رفتاری، رمضان حسن‌زاده

-روش‌های آماری در علوم رفتاری، دکتر حسن پاشا شریفی و دکتر جعفر نجفی زند، انتشارات: رشد

-روش‌های تحقیق در علوم رفتاری، دکتر حسن پاشا شریفی و نسترن شریفی، انتشارات: سخن.

 
 روش تحقیق(کمی،کیفی،آمیخته) مجموعه دروس تخصصی در سطح کارشناسی ارشد
 
-کتاب همبلتون، ترجمه دکتر فلسفی نژاد، انتشارات دانشگاه علامه

-روش‌‌های اندازه گیری و ارزشیابی آموزشی، دکتر علی اکبر سیف، انتشارات : دوران

-اندازه گیری‌های روانی و تربیتی و فن تهیه تست، دکترحیدر علی هومن ، انتشارات :پارسا

-تحلیلی بر سنجش و اندازه‌گیری ، مریم سیف نراقی و عزت‌ا…. نادری

-مبانی نظری آزمون های روانی، ترجمه ی محمد نقی براهنی، نوشته مگنسون
 نظریه هاوروش های اندازه گیری وارزیابیIRT

+ نوشته شده در  پنجشنبه 19 بهمن1391ساعت   توسط محمد حسین ضرغامی  | 

تعين نقطه ي برشي براي سنجش يك اختلال (تهيه ي پرسشنامه و تعيين نقطه برش)

دوستي قصد دارد نقطه ي برشي براي سنجش اختلالات صدا ویژه معلمان مقطع ابتدایی بسازد. براي انجام اين كار چه مسيري را لازم است طي نمايد؟

در مرحله ي روش و در قدم اول لازم است ابزار انجام اين كار را مشخص نمايند. يعني مشخص كنند كه سنجش اختلالات صدا از چه طريقي انجام خواهد شد. پاسخ ايشان تهيه ي پرسشنامه است و در ضمن قصد دارند ويژگي هاي روانسنجي آن را نيز بيابند. براي تهيه ي پرسشنامه لازم است كه ويژگي هاي پرسشنامه مشخص و تعيين شود يعني پرسشنامه بايد روايي و پايايي داشته باشد كه اين خود مبحث گسترده اي است. به منظور تعيين ويژگي هاي سوالات پرسشنامه بايد از نظريات اندازه گيري بهره برند. اين نظريات كه به تعيين ويژگيهاي سوال كمك مي كنند عبارتند از نظريه ي كلاسيك اندازه گيري و نظريه ي سوال پاسخ. بنابراين لازم است در گام اول اين نظريات شناخته شوند و نرم افزارهاي مربوطه فرا گرفته شود. لازم به ذكر است كه انجام كارهاي روانسنجي در تخصص دانشجويان و اساتيد آمار نمي باشد بلكه نياز به تخصص سنجش و اندازه گيري يا روانسنجي دارد كه اين موضوع براي دوستان علاقمند بعد از شروع به كار كاملا روشن مي شود.

بعد از تعيين ويژگي هاي روانسنجي و حدف اصلاح سوالات در نهايت سوالاتي باقي خواهند ماند كه بر اساس روش هاي علمي مي توان گفت پرسشنامه توانايي سنجش  اختلالات صدا را دارا است. بعد از اين مرحله لازم است نقطه ي برش تعيين شود. تعيين نقطه ي برش نيز مطالعات خاص خود را مي طلبد و از روش هايي مانند نمودارهاي راك تا روش هاي سوال پاسخ استفاده مي شود كه توصيه ي بنده استفاده از روش هاي سوال پاسخ است.

+ نوشته شده در  چهارشنبه 11 بهمن1391ساعت   توسط محمد حسین ضرغامی  | 

روری بر پژوهشها: روی آوردهای نوین در دوران سنجی (قسمت سوم) مدلهای نظریه سؤال - پاسخ، مدلهای راش

عنوان مقاله: مروری بر پژوهشها: روی آوردهای نوین در دوران سنجی (قسمت سوم) مدلهای نظریه سؤال - پاسخ، مدلهای راش 

نویسنده : عسگری، علی

مروری بر پژوهشها روی‏آوردهای نوین در روان‏سنجی‏ قسمت سوم:مدلهای نظریه سؤال-پاسخ،مدلهای راش

در هفتاد سال گذشته نظریه‏پردازان متعددی تلاش کرده‏اند تا نشان دهند که چگونه می‏توان از اندازه‏ها و فراوانیهای‏ عینی،1،اندازه‏های انتزاعی‏2به دست آورد.یکی از عملی‏ترین و رایج‏ترین روی‏آوردهایی که برای این منظور به کار می‏رود، مدل راش‏3است.جورج راش،ریاضیدان دانمارکی،این روی‏آورد را در سال 3591 و به منظور تحلیل پاسخهای یک رشته‏ از آزمونهای خواندن به وجود آورد.با آنکه وی را پدر تحلیل راش می‏دانند،اما بنجامین رایت‏4را باید قیم قانونی آن‏ دانست.رایت و همکارانش در دانشگاه شیکاگو روشهای پیشرفته و ابزارهای تحلیل راش را توسعه،و کاربرد آن را در حوزه‏های مختلف عملی ارتقا بخشیدند(ماسوف و فیشر،2002).


مدلهای رایش در واقع روی‏آوردی ریاضی برای آزمون این فرضیه است که اندازه‏های مربوط به معنا5و واحد یک سازه‏ را می‏توان از ابزاری که برای آن خصیصه تهیه شده است به دست آورد.وقتی داده‏ها با این مدلها برازش پیدا می‏کنند به‏ معنای آن است که ابزار اندازه‏گیری و اندازه‏ها در یک واحد فاصله‏ای مشترک مقیاس‏بندی شده‏اند و می‏توانند در انواع یا شکلهای مختلف آن ابزار و نیز در بین نمونه‏های مختلف یک جامعه ثابت باقی بمانند(رایت و استون،9791).


مدلهای راش،در واقع نوعی آزمون همسانی درونی‏6در نظریه سؤال-پاسخ‏اند که برای داده‏های دوارزشی و چند ارزشی به کار می‏روند.در این مدلها نیز مانند مقیاسهای گاتمن‏7،فرض بر این است که همه سؤالها و مواد یک آزمون که‏ یک‏سازه را اندازه‏گیری می‏کنند،یک نوع رابطه مرتب شده‏8را تشکیل می‏دهند.یک آزمون ممکن است دارای همسانی‏ درونی مرتب‏شده‏ای باشد،حتی اگر مجموعه سؤالهای آن همبستگی بالایی باهم نداشته باشند(همسانی درونی‏ جمع‏پذیر9،مانند آنچه از طریق آلفای کرونباخ‏01یا تحلیل عاملی‏11آزمون می‏شود).همسانی درونی مرتب شده بیانگر وجود عامد دشواری است.بدین ترتیب،یک سؤال دشوار می‏تواند پاسخ به سؤالهای با دشواری کمتر را پیش‏بینی کند اما عکس آن امکان‏پذیر نیست(رایت،6991).


وقتی پژوهشگران برای رواسازی یک مجموعه از متغیرهای نشانگر در یک مقیاس از تحلیل عاملی استفاده می‏کنند، فرض را بر این قرار می‏دهند که با یک مدل خطی و جمع‏پذیر روبه‏رو هستند.خطی بودن بخشی از همبستگی و مبنایی‏ برای خوشه‏بندی‏21متغیرهای نشانگر در یک عامل است.در جمع‏پذیری نیز فرض بر این است فقط زمانی معنای همه‏ سؤالها دارای همسانی درونی است،که همبستگی بالایی با یکدیگر داشته باشند.باوجوداین،ممکن است که سؤالها فاقد همبستگی درونی بالا،اما دارای رابطه مرتب‏شده نیرومندی باشند(رایت،5891).به همین دلیل بسیاری از پژوهشگران‏ ترجیح می‏دهند برای ساخت و توسعه مقیاسها به جای مدلهای جمع‏پذیر مانند آلفای کرونباخ و تحلیل عاملی،از مدلهای‏ راش استفاده کنند.زیرا این مدلها نه تنها روابط جمع‏پذیر بین متغیرهای نشانگر،بلکه رابطه ترتیبی سؤالها(مانند ترتیب‏ (1). concrete 


(2). abstract 


(3). Rasch 


(4). Wright,B.D. 


(5). meaning 


(6). internal consistency 


(7). Guttmann 


(8). ordered relationship 


(9). additively 


(01). cronbach 


(11). factor analysis 


(21). clustering 



روانشناسنان ایرانی » شماره 13 (صفحه 81)

--------------------------------------------------------------------------------


دشواری)را نیز به حساب می‏آورند(تنورگرت،گیلپسی و کینگما،3991).نظریه زیربنایی مدلهای راش در بسیاری جنبه‏ها شبیه به نظریه سؤال-پاسخ است.به بیان دیگر،مدل راش برای داده‏های دو ارزشی اغلب به عنوان مدل تک پارامتری‏ نظریه سؤال-پاسخ در نظر گرفته می‏شود.اما هواداران این مدل،آن را دارای ویژگی خاصی می‏دانند که از مدلهای‏ IRT متمایز است.به گونه اختصاصی،ویژگی معرف مدلهای راش صورتبندی انتزاعی‏1و ریاضی مقایسه نامتغیر است که‏ می‏تواند برای اندازه‏گیری موفقیت‏آمیز سازه‏ها یک ملاک معتبر فراهم کند(سادوس،گارمندی،کیوز و الیوت،4002).این‏ ویژگی انتزاعی،مدلهای رایش را از سایر مدلهایی که برای پاسخ به سؤالها یادمواد آزمون به کار می‏روند متمایز و آن را به‏ عنوان مدلهای ایده‏آل یا استاندارد مطرح می‏سازد.


بنابر نظر آندریش(4002)دیدگاه‏2یا پارادایم‏3مدلهای راش به گونه بارزی با سایر مدلهای اندازه‏گیری تفاوت دارد.در اغلب مدلها هدف اصلی توصیف مجموعه‏ای از داده‏هاست.به همین منظور پارامترها تعدیل می‏شوند و برپایه اینکه چگونه‏ با داده‏ها برازش می‏یابند،رد یا پذیرفته می‏شوند.اما هدف از به کار بردن مدل راش به دست آوردن داده‏هایی است که با مدل برازش داشته باشد.منطق زیربنایی این دیدگاه آن است که مدلهای راش مستلزم شرایطی هستند که برای‏ اندازه‏گیری باید برآورده شوند.درست همانگونه که عموما در اندازه‏گیریهای علم فیزیک وجود دارد.


برای درک این منطق زیربنایی بیان مثالی در اندازه‏گیری وزن می‏تواند مفید باشد.فرض کنید وزن شئ‏ A در یک‏ موقعیت به گونه قابل ملاحظه‏ای بیشتر از وزن شئ‏ B اندازه‏گیری شده است.سپس بلافاصله در یک موقعیت دیگر،این‏ وزن شئ‏ B است که بیشتر از وزن‏ A به دست می‏آید.در اینجا شرط اساسی اندازه‏گیری،یعنی یکسان و نامتغیر بودن‏ نتایج حاصل از مقایسه دو اندازه‏گیری،صرف‏نظر از سایر عوامل،برآورده نشده است.این شرط اساسی در ساختار انتزاعی‏ مدل راش است.بنابراین،مدلهای راش برای تناسب و برازش یافتن با داده‏ها،تغییر و تعدیل نمی‏شوند.بلکه روش‏ اندازه‏گیری باید تغییر یابد تا این شرط را برآورده سازد.درست همانگونه که در مثال بالا مقیاس وزن باید تغییر کند.زیرا بین دو شئ در دو اندازه‏گیری جداگانه نتایج متفاوتی به دست داده است.علاوه بر این،در پارادایم مدلهای رایش تأکید بر مطالعه و تعیین بی‏نظمی‏4در داده‏هاست که از طریق این مدل آشکار می‏شود(رایت،6991).



خانواده مدلهای راش

لاینرس(6002)مدلهای راش را در دو طبقه کلی دو ارزشی و چندارزشی به شرح زیر تقسیم‏بندی می‏کند:


مدل دو ارزشی:این مدل که در آن پاسخها به دو طبقه(بلی-خیر،درست-نادرست)تقسیم می‏شوند،شناخته‏شده‏ترین‏ و رایج‏ترین مدل راش و دارای تابع ساده منطقی است.برای داده‏های دو ارزشی جایگاه یک سؤال در یک مقیاس،متناظر یا جایگاه آزمودنی در نقطه‏ای است که احتمال موفقیت برابر با 0/5 است.به گونه کلی،احتمال پاسخ درست آزمودنی به‏ یک سؤال با درجه دشواری کمتر از جایگاه آزمودنی،بیشتر از 0/5 و احتمال پاسخ درست آزمودنی به یک سؤال با درجه‏ دشواری بالاتر از جایگاه آزمودنی،کمتر از 0/5 است.وقتی پاسخ فرد برپایه دشواری سؤال از کمترین تا بیشترین فهرست‏ شود،بیشترین شباهت را به الگوی گاتمن دارد.با این فرمول: Loge(Pnil/Pin0)-B n-D i 


که در آن:


P ni -احتمال آنکه آزمودنی‏ n که با سؤال‏ i روبه‏رو می‏شود در طبقه‏ j -اندازه‏گیری می‏شود.


B n -توانایی فرد n 


D ij -دشواری سؤال‏ i ،نقطه‏ای که در آن بالاترین و پایین‏ترین طبقه‏های سؤال احتمال برابر دارند.


F ij اندازه مدرج کردن طبقه‏ j-1 .نقطه‏ای که در آن طبقه‏های‏ j-1 و j نسبت به اندازه سؤال احتمال برابر دارند.


مدلهای چندارزشی:مدلهای چندارزشی راش نخستین بار توسط اندریش(8791،4002)و به منظور کاربرد مدل راش‏ (1). formal 


(2). perspective 


(3). Paradigm 


(4). anomalies 



روانشناسنان ایرانی » شماره 13 (صفحه 82)

--------------------------------------------------------------------------------


برای داده‏های حاصل از مقیاس لیکرت ارائه شد.این مدلها در واقع تعمیم مدلهای دو ارزشی و نوعی مدل اندازه‏گیری‏ است که در زمینه‏هایی به کار می‏رود که هدف از آن اندازه‏گیری صفت با توانایی از طریق فرایندی است که در آن پاسخ‏ به سؤالها با اعداد صحیح متوالی نمره‏گذاری شود این مدل را می‏توان در مقیاسهای لیکرت،درجه‏بندی و نیز سؤالهای‏ مربوط به اندازه‏گیریهای ترتیبی که در آنها نمره‏های متوالی بالاتر بیانگر سطح فزاینده پیشرفت و توانمندی است به کار برد.


از سوی دیگر،مدلهای چندارزشی یک اندازه‏گیری احتمالی کلی و دارای این ویژگی متمایز است که برای کاربرد نمره‏های عددی متوالی یک بنیان نظری محکم فراهم آورده است.افزون بر این ویژگی،مدلهای چندارزشی امکان آزمون‏ جدی این فرضیه را فراهم می‏آورد که طبقه‏های پاسخ،معرف سطح افزایشی یک خصیصه یا صفت مکنون است.ازاین‏رو داده‏ها،مرتب شده به حساب می‏آیند.در این مدل،نمره یک سؤال معین در واقع فراوانی تعداد جایگاه آستانه‏1در صفت‏ مکنونی است که آزمودنی از آن بالاتر قرار دارد.جایگاه آستانه بر روی پیوستار مکنون معمولا از ماتریس سؤال-پاسخ و از طریق فرآیند برآورد بیشینه احتمال شرطی‏2استنباط می‏شود.


به گونه کلی،شاخص اصلی فرایند اندازه‏گیری در این مدل آن است که آزمودنیها در یک مجموعه طبقه‏های مرتب شده‏ مجاور3گروه‏بندی شوند.شکل‏بندی پاسخهایی که در یک زمینه آزمایشی معین به کار می‏روند،می‏تواند از طریق روشهای‏ مختلفی به این شاخص دست یابد.برای نمونه،ممکن است آزمودنی طبقه‏ای را انتخاب کند که به نظر وی به بهترین‏ صورت سطح حمایت وی را از سؤال یا عبارت نشان می‏دهد.افزون بر این،امکان دارد داوران آزمودنیها را برپایه‏ ملاکهایی که به خوبی تعریف شده‏اند در طبقه‏های مختلف قرار دهند،و سرانجام ممکن است آزمودنی یک محرک‏ فیزیکی را برپایه شباهتی که به مجموعه محرکهای مرجع دارد،طبقه‏بندی کند.وقتی پاسخها فقط در دو طبقه قرار داشته باشند،مدل چندارزشی راش به مدلی برای داده‏های دوارزشی تبدیل می‏شود.در این مدل خاص،دشواری سؤال و آستانه(منفرد)یکسان خواهد بود.انواع مدلهای چندارزشی به قرار زیرند:


1)مدل مقیاس درجه‏بندی‏4:این مدل زمانی به کار می‏رود که تعداد آستانه سؤالها یکسان و تفاوت بین جایگاه هر آستانه معین با میانگین جایگاه آستانه‏ها برابر یا بین همه سؤالها یکسان باشد.فرمول این مدل به قرار زیر است:


Log(Pn ij/Pn i(j-1)-B n-D i-F j 2)مدل امتیاز جزئی‏5:از این مدل اختصاصا در زمینه‏های آموزشی و تربیتی استفاده می‏شود(مسترز،2891).هرچند ساختار ریاضی این مدل با مدل مقیاس درجه‏بندی یکسان است،اما امکان محاسبه آستانه‏های مختلف را برای سؤالهای‏ مختلف فراهم می‏آورد.فرمول این مدل عبارت است از:


Log(Pn ij/Pni(j-1)-B n-D i-F ij-B n-D ij 


3)مدل ساختار پاسخ گروه‏بندی شده‏6:این مدل با فرمول زیر وقتی به کار می‏رود که سؤالها براساس سهمی که در ساختار پاسخ دارند،یا به زیرمقیاسهای یک یا چند سؤال که در یک ساختار پاسخ سهیم هستند گروه‏بندی شوند.


Log(Pn ij/Pn i(j-1)-B n-D ig-F gj 


به گونه کلی،مدلهای اندازه‏گیری راش به پژوهشگران امکان می‏دهد تا مشکلات زیربنایی اندازه‏گیریهای مدل کلاسیک‏ و مقیاسهای خودسنجی،خودارزیابی و خود درجه‏بندی را حل کنند.این مدلها نمونه کاملی از اندازه‏گیری جمع‏پذیر زوجیب‏ است که دو شرط لازم برای تبدیل خصیصه به کمیت،یعنی جمع‏پذیر بودن و ترتیب را برآورده می‏سازد.مدل راش‏ جمع‏پذیر است زیرا تفاوت بین سطح مشاهده شده و سطح مکنون،مستلزم اندازه‏گیری جمع‏پذیر دو متغیر مکنون متفاوت‏ یعنی متغیرهای آزمودنی و سؤال است.افزون بر این،مدل راش دارای ترتیب است زیرا برپایه آن می‏توان متغیرهای‏ آزمودنی و سؤال را در سطح مکنون و از طریق بالاتر یا پایین‏تر بودن نسبت به هم با یکدیگر مقایسه کرد(اکتون، (1). threshold location 


(2). conditional maximum likelihood 


(3). contiguous 


(4). rating scale 


(5). partial credit 


(6). grouped response-structure 



روانشناسنان ایرانی » شماره 13 (صفحه 83)

--------------------------------------------------------------------------------


3002).برخی از مزایای کاربرد مدلهای اندازه‏گیری عبارتند:


1)از پاسخهایی که در قالب مقیاس طبقه‏ای مرتب یا ترتیبی ارائه شوند،می‏توان یک اندازه فاصله‏ای حقیقی تولید کرد(روایت و لایرنس،9891؛مربیتز،موریس و گریپ،9891).


2)مشخص می‏شود هر سؤال تا چه حد می‏تواند سازه موردنظر را اندازه‏گیری کند.به بیان دیگر،این مدل نشان‏ می‏دهد که آیا سؤالهای مقیاس،یک سازه زیربنایی یا یک بعد واحد را تشکیل می‏دهند.این فرایند در واقع تک‏بعدی‏ بودن مقیاس را آزمون می‏کند(رایت و استون،6991).


3)می‏توان نشان داد که هر سؤال چه جایگاهی در پویستار اندازه‏گیری دارد.تعیین ترتیب سؤالها در پیوستار اندازه‏گیری از اهمیت زیادی در ارزیابی روایی مقیاس برخوردار است.زیرا توزیع سؤالها در طول پیوستار باید معنادار باشد تا نشان دهد سازه موردنظر به خوبی اندازه‏گیری شده است.افزون بر این،شواهد مربوط به همسانی نسبی این توزیع در طول زمان یا در بین نمونه‏های مختلف،نشان می‏دهد که سازه مورد اندازه‏گیری پایایی دارد(اسمیت،1002).


4)می‏توان تعیین کرد که مقیاس تا چه اندازه توانسته است آزمودنیها را اندازه‏گیری کند.مدل راش افزون بر اینکه‏ نشان می‏دهد آیا مقیاس برای اندازه‏گیری آزمودنیها به گونه مناسب تهیه شده،مشخص می‏کند که آیا هر آزمودنی نیز به‏ گونه معتبری اندازه‏گیری شده است(آیا نمره افراد مطابق با الگوی مورد انتظار است).به بیان دیگر،روشهای راش نه تنها برای بررسی ویژگیهای آزمون مفیدند بلکه می‏توانند راهنمای مناسبی برای توسعه مقیاس نیز باشند.




+ نوشته شده در  چهارشنبه 20 دی1391ساعت   توسط محمد حسین ضرغامی  | 

سنجش و اندازه گيري در ايران

به نظر نگارنده، اگر كسي بخواهد در راه طاقت فرساي علم سنجش و اندازه گيري، با نيت فهم پديده هاي رواني و رفتاري ( و نه قصد و هدف ديگر) و افزودن شمعي در گستره ي تاريك جهل انساني قدم بگذارد، بايد از گذرگاه علم حركت نمايد تا شناخت وي براي سايرين قابل اعتماد و قابل كاربرد باشد و خود نيز از پايبندي متحجرانه بدور باشد. به اين منظور پيش شرط استفاده از روش هاي سنجش و اندازه گيري، شناخت علم، تاريخ و فلسفه علم و هستي شناسي، معرفت شناسي و روش شناسي رويكردهاي مختلف علمي به طور عموم و آگاهي از تاريخ و مباني فلسفي و رويكرد علمي زير بنايي هر يك از شيوه هاي سنجش و اندازه گيري است. اگر اين مهم (كه نيازمند زمان و غور در علم است) به انجام رسد، پژوهشگر و دانش آموخته ي آن مي تواند در مسايل مختلف مناسب ترين، مفيد ترين و قابل دفاع ترين روش ها (متدولوژي به عنوان يكي از مهمترين بخش هاي اندازه گيري) و تكنيك ها را بكار گيرد. بر اين اساس و به زعم نگارنده مطالعات سنجش و اندازه گيري در ايران بسيار شبيه به داستان فيل در تاريكي مي ماند.

فیل اندر خانه ی تاریک بود

عرضه را آورده بودندش هنود

از برای دیدنش مردم بسی

اندر آن ظلمت همی شد هر کسی

دیدنش با چشم چون ممکن نبود

اندر آن تاریکی اش کف می بسود

آن یکی را کف به خرطوم اوفتاد

گفت همچون ناودانست این نهاد

آن یکی را دست بر گوشش رسید

آن بر او چون بادبیزن شد پدید

آن یکی را کف چو بر پایش بسود

گفت شکل پیل دیدم چون عمود

آن یکی بر پشت او بنهاد دست

گفت خود این پیل چون تختی بدست

همچنین هر یک به جزوی که رسید

فهم آن می کرد هرجا می شنید

از نظرگه گفتشان شد مختلف

آن یکی دالش لقب داد این الف

در کف هر کس اگر شمعی بدی

اختلاف از گفتشان بیرون شدی

چشم حس همچون کف دستست و بس

نیست کف را بر همه او دسترس

و ......

zar100@gmail.com

+ نوشته شده در  دوشنبه 11 دی1391ساعت   توسط محمد حسین ضرغامی  | 

نظريه ي تعميم پذيري (Generalizability theory) به عنوان نظريه اي براي مطالعه ي رويه ها(facet)ي موجود

نظريه ي تعميم پذيري يكي از نظريات اندازه گيري است كه با استفاده از تركيب نظريه ي كلاسيك سوال پاسخ و روش تحليل واريانس سعي در برآورد ضرايب اعتبار داشته است. قابليت هاي اين نظريه ي امكان مطالعه ي شرايط مختلف و مقايسه ي اعتبار امتيازات در شرايط مختلف را فراهم مي آورد. به مطالعاتي كه براي بررسي شرايط مختلف استفاده مي شوند، مطالعات تصميم گيري مي گويند. اين مطالعات امكان بررسي رويه ها(FACET) هاي مختلف به عنوان منابع مختلف واريانس يا پراكندگي در امتيازات را فراهم مي آورد. مشخص است كه هر چه پراكندگي بر اساس رويه يا FACET مورد مطالعه ( كه به آن رويه ي تفكيكي گويند) بيشتر باشد، بهتر و مناسب تر است (مانند آنچه در تحليل واريانس به عنوان واريانس بين آزمودني ها مطرح است) و هر چه واريانس ناشي از رويه هايي بجز رويه ي مورد مطالعه باشند، كمتر خواهد بود. 

به عنوان مثال زماني كه هدف پژوهش رتبه بندي پژوهشگران مختلف بر اساس كارهاي انجام داده ي آنها مي باشد و اين كار از طريق بررسي اقدامات علمي آنها توسط 5 نفر خبره انجام مي شود، تمايز پژوهشگران هدف اصلي مورد مطالعه و ساير رويه ها به عنوان رويه هاي مزاحم يا ابزاري instrumental facet شمرده مي شوند. 


+ نوشته شده در  پنجشنبه 30 آذر1391ساعت   توسط محمد حسین ضرغامی  | 

روان شناسي سنجش و اندازه گيري

در تعريف اندازه‌ گيري گفته مي‌شود فرآيندي كه تعيين مي‌كند يك شخص يا يك شي چه مقدار از يك ويژگي برخوردار است و سنجش را نوعي اندازه‌گيري مي‌دانند كه در آن از آزمون و وسائل ديگري استفاده مي‌شود. بنابراين تعريف تعيين ويژگيهاي مورد سنجش ، فرآيند اجراي سنجش و بررسي فرآورده‌ها سه بخش مهم سنجش و اندازه‌گيري به شمار مي‌روند. بر اين اساس سنجش و اندازه گيري را در سه بخش عمده مرحله طراحي ، مرحله اجرا و مرحله بررسي فرآورده‌ها مي‌توان خلاصه كرد.

مرحله طراحي سنجش و اصول مربوط به آن


مرحله طراحي با سوالهايي از اين نوع سروكار دارد: چه كاري انجام خواهيم داد، و شامل تصميم‌هايي است درباره فعاليتهايي كه قرار است انجام گيرند. بطور ويژه در اين مرحله اقدامات زير صورت مي‌پذيرند. تحليل موقعيت ، تعيين و توصيف هدفها ، توصيف پيش نيازها ، انتخاب يا توليد وسايل و ابزارهاي مورد نياز ، تدارك برنامه مورد نياز.



به منظور تحليل موقعيت و يا شناخت پيش نيازها ممكن است به راهبردهايي دست زد كه شرائط موجود را بهتر و مناسب‌تر توصيف كند تا بر آن اساس بتوان تصميم‌هاي بعدي را دقيقتر و مناسبتر اتخاذ كرد، و تحليل موقعيت كمك خواهد كرد تا امكانات و شرائط موجود شناسايي شده و بر آن اساس گامهاي بعدي مثلا تهيه ابزار سنجش با واقع بيني صورت گيرد.


تعيين اهداف: سوالاتي از قبيل منظور از اجراي سنجش چيست؟ چگونه نتايجي مورد انتظار است؟ و ... اهداف كلي و جزئي سنجش را تعيين مي‌كنند. تعيين اهداف داراي اهميت زيادي است و به ويژه براي انتخاب و توليد ابزار سنجش بسيار مهم است.


انتخاب و توليد ابزار اندازه گيري: غالبا براي جمع آوري اطلاعات ضروري وسايل يا ابزارهايي مورد نيازند. در صورت موجود بودن وسايل بايد به بررسي و انتخاب مناسبترين آنها اقدام كرد. اگر وسايل مورد نياز موجود نباشند آنگاه بايد آنها را تهيه كرد. تهيه و توليد اين وسايل به دقت ، تخصص و صلاحيت نياز دارد. در هر حال نوع ابزار براي توليد و چه براي انتخاب از ميان ابزارهاي موجود بايد روشن باشد.


نوع ابزار مورد استفاده ممكن است يك آزمون باشد يا روشهاي ديگري چون مصاحبه ، مشاهده بر اين اساس استفاده از آزمون ، مصاحبه ، مشاهده سر ابزار اساسي براي جمع آوري اطلاعات در سنجش و اندازه گيري هستند. استفاده از ابزارهاي داراي روايي پاياني بسيار ضروريست. تعيين رواي با توجه به نوع روايي مورد نظر مثلا روايي محتوايي روايي صوري ، روايي ملاكي ، روايي پيش بيني و ... صورت مي‌گيرد. براي تعيين پاياني نيز از روشهاي بازآزمايي ، تنصيف ، فرمهاي موازي و يا روشهاي آماري مثل آلفاي كروبناخ و ... استفاده مي‌شود.

مرحله اجراي سنجش و اصول مربوط به آن


شرايط اجراي سنجش بستگي به اهداف سنجش دارد كه در مرحله طراحي مشخص مي‌شوند. هر چند ممكن است برخي اهداف نيازي به شرايط و موقعيت مشخص نداشته باشند. مثلا در محل كار فرد آزمودني اجرا شوند، با اين حال رعايت نكاتي كه پاسخگويي و ارائه اطلاعات مفيدتر را ميسر مي‌سازد ضروري است. بطور كلي شرايط اجراي سنجش بايد به گونه‌اي باشد كه از هر لحاظ آسايش جسمي و فكري افراد مورد سنجش را تامين نمايد. اين نكته در رابطه با آزمون شوندگان خردسال با دقت بيشتري رعايت مي‌شود.


علاوه بر شرايط فيزيكي مثل نور ، صوت ، سرما و گرما و ... شرايط رواني افراد مورد سنجش نيز بر عملكرد آنان تاثير دارد. مهمترين اين عوامل اضطراب است كه با اتخاذ تدابيري در مرحله طراحي و اجراي آنها مرحله سنجش بايد، به حداقل برسند. بطور كلي در اين مرحله با سوالاتي از قبيل سروكار داريم كه چگونه آن را انجام مي‌دهيم. روشن است پاسخگويي به اين سوال جوانب مختلف فيزيكي ، زماني و ... را در بر مي‌گيرد. 

مرحله بررسي فرآورده‌ها و اصول مربوط به آن


بعد از تهيه و اجراي فرآيند سنجش براي تفسير و معني دادن به نتايج و مورد استفاده قرار دادن آنها معلوم لازم است كه درباره اطلاعات جمع آوري شده اقداماتي انجام دهيم. در اين مرحله عمدتا نياز به استفاده از روشهاي آماري لازم مي‌شود. بر اين اساس آشنايي با اين روشها و استفاده مناسب و درست از آنها از اصول اساسي سنجش به شمار مي‌رود.



آشنايي با مقياسها شامل مقياس اسمي ، نسبي ، ترتيبي و فاصله‌اي و كاربرد آنها.


آشنايي با آمار توصيفي شامل تعريف متغير ، فراواني ، توزيع فراواني ، نمودارها ، شاخصهاي گزينش مركزي شامل ميانه ، ميانگين ، نماد شاخصهاي پراكندگي شامل دامنه تغيير ، واريانس و انحراف معيار و ... .


آشنايي با آمار استنباطي شامل آشنايي با روشهاي همبستگي ، تحليل واريانس ، في دو ، آزمون تي و ... .

كاربرد سنجش در روان شناسي


اصولا فرآيند سنجش و اندازه ‌گيري اهميت ويژه‌اي در حوزه‌هاي مختلف روان شناسي داراست. شايد بتوان گفت روانشناسي تربيتي از حوزه‌هايي است كه سنجش و اندازه گيري نقشي اساسي ايفا مي‌كند. روان شناسي تربيتي به بررسي اصول سنجش و اندازه‌گيري در زمينه آموزش و پرورش مي‌پردازد. شناسائي اين اصول و كاربرد دقيق آن از مراحل سه گانه اساسي فرآيند آموزش و تدريس به شمار مي‌رود. سه مرحله آموزش كلاسي عبارت است از مراحل پيش از آموزش ، حين آموزش و پس از آموزش.


بخش عمده مرحله پس از آموزش و بخشهايي از مراحل اول و دوم به فرآيند سنجش اختصاصي مي‌يابد. با استفاده از اين فرآيند و با كاربرد اصول آن، معلم يا روان شناسي تربيتي به بررسي رفتارهاي ورودي آغازين براي شروع آموزش ، تغييرات رفتاري در حين آموزش كه حاكي از وجود يادگيري است و نتايج حاصل از يادگيري و ارزشيابي اثر بخشي يادگيري مي‌پردازد. روان شناسان باليني و ساير حوزه‌ها نيز براي سنجش علائم باليني ، ويژگيهاي شخصيتي ، تغييرات رشدي ، تفاوتهاي فردي اصول سنجش را مورد استفاده قرار مي‌دهند.

+ نوشته شده در  جمعه 17 آذر1391ساعت   توسط محمد حسین ضرغامی  | 

معرفي يك كتاب

فهرست مطالب

فصل اول: سابقه تاريخي سنجش و انداز هگيري و روا نسنجي...................................................................... 1

عوامل مؤثر در كشف و گسترش رو شهاي انداز هگيري:

-1 پيدايش روان شناسي تجربي .......................................................................................................................... 2

-2 مطالعه تفاوت هاي فردي................................................................................................................................ 3

-3 مطالعه باليني افراد غيرعادي ......................................................................................................................... 3

فرازهائي از اقدامات مربوط به تاريخچه شكل گيري روان سنجي و سنجش و انداز هگيري.......................... 4

9..................................................................................................................................................... ( خودآزمائي ( 1

فصل دوم: اندازه گيري و ارزشيابي در آموزش و پرورش............................................................................ 19

ارزشيابي چيست؟.............................................................................................................................................. 20

مراحل اندازه گيري.............................................................................................................................................. 21

فلسفه ارزشيابي ................................................................................................................................................. 24

26................................................................................................................................................... ( خودآزمائي ( 2

فصل سوم: امتحان ................................................................................................................................................ 41

-1 مفهوم امتحان................................................................................................................................................ 41

-2 انواع امتحان و موارد كاربردي آنها............................................................................................................ 41

-3 هدف هاي امتحان .......................................................................................................................................... 45

-4 مراحل انجام امتحان..................................................................................................................................... 47

-5 طرح ريزي امتحان......................................................................................................................................... 47

-5-1 مراحل طرح ريزي امتحان......................................................................................................................... 48

-5-1-1 تهيه فهرستي از هدفهاي رفتاري درس............................................................................................. 48

طبقه بندي و تحليل هدف هاي آموزشي در حيطه يادگيري ............................................................................. 51

سطوح يادگيري در حيطه شناختي.................................................................................................................... 51

سطوح يادگيري در حيطه عاطفي....................................................................................................................... 54

سطوح يادگيري در حيطه رواني – حركتي ...................................................................................................... 56

-5-1-2 تهيه فهرستي از محتواي درس.......................................................................................................... 59

-5-1-3 تهيه جدول دوبعدي مشخصات سؤالهاي امتحان............................................................................ 59

62.................................................................................................................................................. ( خودآزمائي ( 3

فصل چهارم: تهيه پرس شهاي امتحان ................................................................................................................ 79

-1 پرسش هاي عيني .......................................................................................................................................... 79

انواع پرسش هاي عيني ....................................................................................................................................... 79

الف) يادآوري..................................................................................................................................................... 79

ب) تشخيص و يا شناسايي.............................................................................................................................. 80

-1-1 پرسش هاي چند گزينه اي و اصول تهيه آنها......................................................................................... 80

اصول تهيه پرسش هاي چند گزينه اي............................................................................................................... 81

-1-2 پرسش هاي صحيح – غلط (متناوب پاسخ) ........................................................................................... 87

-1-3 پرس شهاي جور كردني.......................................................................................................................... 88

نكات مورد توجه در تهيه سؤال هاي جوركردني............................................................................................ 89

-1-4 پرسش هاي كامل كردني.......................................................................................................................... 90

نكات مورد توجه در نوشتن پرسش هاي كامل كردني................................................................................... 90

-1-5 پرسش هاي كوتاه پاسخ .......................................................................................................................... 91

نمونه هائي از سؤال هاي محدود پاسخ.............................................................................................................. 91

-2 پرسش هاي انشائي...................................................................................................................................... 94

مقايسه سؤال هاي عيني و انشائي (مزايا و محدوديت ها)............................................................................... 96

99 ................................................................................................................................................... ( خودآزمائي ( 4

فصل پنجم: اجراي امتحان ................................................................................................................................. 115

-1 تنظيم پرسش هاي آزمون.......................................................................................................................... 115

-2 اجراي آزمون............................................................................................................................................. 117

-3 تصحيح و نمره گذاري پرسش هاي آزمون............................................................................................... 119

-3-1 تصحيح و نمره گذاري سؤال هاي عيني................................................................................................ 119

-3-2 تصيح و نمره گذاري پرسش هاي انشائي............................................................................................. 122

كاربرد نمرات ................................................................................................................................................... 124

-4 تجزيه و تحليل نتايج امتحان و استفاده از آن در كشف نارسائ يهاي دانش آموزان ......................... 126

131................................................................................................................................................. ( خودآزمائي ( 5

فصل ششم: آزمون و انواع آن........................................................................................................................... 143

-1 طبقه بندي آزمون ها.................................................................................................................................... 144

-1-1 انواع آزمون ها از نظر طرز اجرا........................................................................................................... 144

- آزمون هاي فردي.......................................................................................................................................... 144

- آزمون هاي گروهي....................................................................................................................................... 144

-1-2 انواع آزمون ها از نظر دقت ساخت....................................................................................................... 145

آزمون استاندارد شده (تراز شده).................................................................................................................. 145

-1-3 انواع آزمون ها از نظر شكل و فرم....................................................................................................... 145

-1-4 آزمون هاي سرعت و آزمون هاي قدرت.............................................................................................. 145

-1-5 انواع آزمون ها از نظر استفاده از كلام................................................................................................ 146

-1-6 آزمون هاي ملاك مرجع و آزمون هاي گروه مرجع........................................................................... 146

-1-7 آزمون هاي وابسته به فرهنگ در برابر آزمون هاي نابسته با فرهنگ............................................. 147

-1-8 آزمون هاي عيني و آزمون هاي ذهني.................................................................................................. 147

-1-9 انواع آزمون ها از نظر موضوع ............................................................................................................ 147

مهارت هاي ذهني مورد اندازه گيري به وسيله آزمون پيشرفت تحصيلي.................................................. 147

-1-10 انواع آزمون ها از نظر درجه كمي شدن متغير مورد مطالعه ......................................................... 150

-2 فرضيه هاي اساسي سنجش يا ارزشيابي................................................................................................ 151

153 ............................................................................................................................................... ( خودآزمائي ( 6

فصل هفتم: تجزيه و تحليل پرس شهاي آزمون............................................................................................. 169

مراحل تجزيه و تحليل سؤال هاي آزمون ...................................................................................................... 169

-1 مراحل تجزيه و تحليل پرسش هاي عيني................................................................................................. 170

-2 بررسي سطح دشواري سؤال هاي آزمون .............................................................................................. 177

اصلاح سطح دشواري سؤال ها براي حذف عامل حدس و گمان................................................................ 188

-3 محاسبه شاخص هاي آماري مربوط به آزمون...................................................................................... 179

-4 تجزيه و تحليل گزينه ها در پرسش هاي چند گزينه اي............................................................................ 181

-5 تجزيه و تحليل پرسش هاي انشائي .......................................................................................................... 183

-6 ساير روش هاي تجزيه و تحليل سؤال هاي آزمون................................................................................. 184

-6-1 ضريب همبستگي دورشته اي نقطه اي..........................................................................................................

-6-2 ضريب همبستگي دورشته اي.......................................................................................................................

-6-3 روائي سؤال هاي آزمون ....................................................................................................................... 188

-6-4 ضريب فاي ( ) ................................................................................................................................. 190

193..................................................................................................... (rt ) -6-5 ضريب همبستگي تتراكوريك

منحني خصيصه سؤال ................................................................................................................................... 195

تجزيه و تحليل پرسش هاي آزمون................................................................................................................. 196

نظريه سؤال – پاسخ....................................................................................................................................... 199

ارزشيابي انواع مختلف همبستگي ها در تجزيه و تحيل سؤال ها................................................................. 201

205 ................................................................................................................................................ ( خودآزمائي ( 7

فصل هشتم: روائي آزمون................................................................................................................................ 227

-1 تعريف روائي ............................................................................................................................................. 227

-2 شواهد روائي آزمون ................................................................................................................................ 228

-3 انواع روائي................................................................................................................................................. 229

-3-1 روائي وابسته به محتوا......................................................................................................................... 229

-3-2 روائي وابسته به ملاك.......................................................................................................................... 231

-3-2-1 روائي پيش بيني ................................................................................................................................ 232

-3-2-2 روائي همزمان .................................................................................................................................. 232

الف) روائي تقارني........................................................................................................................................... 233

ب) روائي توافقي.............................................................................................................................................. 233

-3-2-3 معيار يا ضابطه................................................................................................................................ 233

خصوصيات معيار (همان منبع) ...................................................................................................................... 234

-3-2-4 ضريب روائي ملاكي......................................................................................................................... 235

-3-2-5 پيش بيني متغير ملاك براساس نمره آزمون.................................................................................. 236

-3-2-6 عوامل مؤثر بر ضريب روائي ملاكي.....................................................................................................

-3-3 روائي سازه (روائي مفهومي) ............................................................................................................... 238

243.................................................................................................................................................( خودآزمائي ( 8

فصل نهم: اعتبار آزمون..................................................................................................................................... 259

-1 مفهوم نظري اعتبار آزمون........................................................................................................................ 260

-2 تعريف اعتبار.............................................................................................................................................. 260

-3 منابع خطاي اندازه گيري آزمون................................................................................................................ 261

-3-1 روش هاي اعتباريابي در نمونه گيري زماني........................................................................................ 261

-3-1-1 روش بازآزمائي............................................................................................................................... 262

-3-1-2 اعتبار آزمون هاي همتا ..................................................................................................................... 264

-3-2 روش هاي اعتباريابي در نمونه گيري حيطه......................................................................................... 265

-3-2-1 روش دو نيمه كردن.......................................................................................................................... 266

-3-2-2 روش كودر ريچارد سون................................................................................................................ 267

268.............................................................(KR الف) استفاده از فرمول شماره 20 كودر – ريچاردسون ( 20

ب) استفاده از فرمول شماره 21 كودر – ريچاردسون ............................................................................... 268

-3-2-3 روش كاپلان ............................................................................................................................................

-3-2-4 روش آلفاي كرونباخ...............................................................................................................................

-4 اعتبار نمره گذاري يا درجه بندي................................................................................................................ 271

-5 اعتبار آزمون هاي ملاك مرجع.................................................................................................................. 271

-6 روش هاي افزايش ضريب اعتبار آزمون.................................................................................................. 272

-7 خطاي معيار اندازه گيري........................................................................................................................... 274

-8 برآورد نمره واقعي آزمودني با استفاده از خطاي معيار اندازه گيري.................................................. 275

-9 ضريب اعتبار بهينه ................................................................................................................................... 276

-10 رابطه روائي و اعتبار آزمون.................................................................................................................. 277

-11 عملي بودن آزمون.................................................................................................................................. 277

279................................................................................................................................................ ( خودآزمائي ( 9

فصل دهم: نرم يا هنجار.................................................................................................................................... 303

-1 تعريف نرم ................................................................................................................................................. 303

-2 مشخصات مطلوب نرم ها........................................................................................................................... 304

-3 انواع نرم..................................................................................................................................................... 304

-3-1 انواع نرم از نظر وسعت جامعه هدف.................................................................................................. 305

-3-2 انواع نرم از نظر نوع گروه نرم............................................................................................................ 305

محدوديت هاي نرم هاي سني و كلاسي .......................................................................................................... 308

-3-3 نرم هاي بهنجار شده ............................................................................................................................. 312

-3-3-1 نمره هاي انحراف معيار.................................................................................................................... 312

-3-3-2 نمره معيار تراز شده........................................................................................................................ 312

312...............................................................................................................................................T -3-3-3 نمره

313......................................................................................................................................CEEB -3-3-4 نمره

-3-3-5 معادل هاي هوشبهر.......................................................................................................................... 313

-3-3-6 نمره هاي نه بخشي........................................................................................................................... 314

-4 نيمرخ رواني............................................................................................................................................... 316

-5 مراحل تهيه آزمون استاندارد شده .......................................................................................................... 319

322............................................................................................................................................. ( خودآزمائي ( 10

فصل يازدهم: آزمون هاي هوشي...................................................................................................................... 335

الف) آزمون هاي فردي هوش.......................................................................................................................... 335

-1 آزمون هاي هوشي بينه............................................................................................................................. 335

-2 آزمون هاي استنفرد بينه........................................................................................................................... 336

336 ....................................................................................................................... مقياس استنفرد بينه فرم 1937

338....................................................................................................................... مقياس استنفرد بينه فرم 1960

-3 مقياس هاي هوشي وكسلر......................................................................................................................... 341

342 ..................................................................................... (WAIS-R) مقياس هوش وكسلر براي بزرگسالان

344 ...............................................................................................Wisc-R مقياس هوشي وكسلر براي كودكان

345 .................................................................Wppsi مقياس هوشي وكسلر براي كودكان پيش آموزشگاهي

ب) آزمون هاي گروهي هوش.......................................................................................................................... 345

-1 آزمون ارتشي طبقه بندي شده آلفا و بتا .................................................................................................. 345

-2 آزمون نابسته با فرهنگ ريون.................................................................................................................. 347

-3 آزمون نابسته به فرهنگ كتل .................................................................................................................... 348

فصل دوازدهم: آزمون هاي شخصيت............................................................................................................... 349

-1 پرسش نامه ها يا آزمون هاي عيني شخصيت........................................................................................... 349

351.............................................................................................................................................MMpi تراز جديد

-2 آزمون هاي شخصيتي فرافكن ................................................................................................................... 357

الف) آزمون ررشاخ......................................................................................................................................... 358

مشخصات روان سنجي آزمون ررشاخ.......................................................................................................... 359

361........................................................................................................... (T.A.T) ب) آزمون اندريافت موضوع

362...........................................................................................................T.A.T مشخصات روان سنجي آزمون

363................................................................................................. سؤال هاي كنكور كارشناسي ارشد سال 1388

جداول آماري........................................................................................................................................................ 370

منابع ....................................................................................................................................................................... 378

١

فصل اول

سابقه تاريخي سنجش و اندازه گيري و روان سنجي

امر استفاده از سنجش و اندازه گيري در زندگي روزمره انسان سابقه اي بس طولاني

و مهم دارد . انسان هاي اوليه در مراسم گوناگون از قبيل جشن ها و مسابقات به منظور

مقايسه توانائي و قابليت افراد و قضاوت د ر مورد آنان (مثلاً قدرت بدني، مهارت و

خبرگي اشخاص ) به صورتي بسيار ابتدائي و ذهني در كلام و رفتار خود از مفاهيم

اندازه گيري و ارزشيابي بهره مند مي ش دند. اين اقدامات مشخص كننده وضع كلي

اندازه گيري و سنجش تا اوائل قرن بيستم در ارتباط با زندگي بشر است.

عده اي از روان شناسان معتقدند كه ارزشيابي براي اولين بار در كشور چين حدود

3000 سال پيش انجام گرفته است و برخي نيز ظهور ارزشيابي را به سال 165 پيش از

ميلاد نسبت مي دهند و معتقدند كه در اين زمان افراد را تحت آزمايش قرار م ي دادند و به

مشاغل مختلف مي گماشتند. در قرون وسطي ارزشيابي استعدادها در بيشتر دانشگا ه هاي

اروپا رواج مي يابد. كريستيان ون ولف در 1732 رشته رياضي روان شناسي را تحت

عنوان روان سنجي داير مي كند.

ويلهم وندت روان شناس آلماني اولين كسي است كه پيش از همه به روان سنجي

علاقمند شده است . او در سال 1879 اولين آزم ايشگاه روان شناسي را در شهر لايپزي ك

آلمان تأسيس كرد و سپس اين نهضت در تمام دنيا گسترش يافت.

به موازات اين اقدام، روش هاي مشاهده و كنترل دقيق تر مي شوند و وندت پديده هاي

مورد مطالعه را با وسايل و روش هاي دقيق كنترل مي كند و از آن پس روان شناسان

١٩

فصل دوم

اندازه گيري و ارزشيابي در آموزش و پرورش

نقش اصلي معلم در فرآيند آموزش و پرورش فراهم ساختن شرايط و امكانات

مناسب آموزش ي و پرورش ي و هدايت يادگيري دانش آموزان به منظور كمك به رشد و

تكامل همه جانبه آنان است . معلم به همين منظور بايد هر يك از دانش آموزان را بخوبي

بشناسد.

شناخت دانش آموزان عبارت از كسب آگاهي هاي لازم در مورد جنبه هاي مختلف

رفتار و ويژگي هاي آنان است . يعني معلم بايد از ويژگي هاي جسماني، رواني، اجتماعي و

عاطفي و همچنين علائق و توانائي ها و نارسائي هاي هر يك از دانش آموزان و رابطه اين

ويژگي ها با هم و تأثير آنها در رفتار به خوبي آگاه باشد . شاخت دانش آموزان مستلزم

جمع آوري و تحليل اطلاعات لازم در مورد آنان براساس اصول و روش هاي علمي است .

به دست آوردن اطلاعات لازم در مورد هر فرد را بر مبناي رو ش هاي علمي

1 مي نامند. 2 « اندازه گيري »

اطلاعات حاصل از اندازه گيري ممكن است به صورت ك مي (عددي) و يا به صورت

اندازه گيري عبارت است از » توصيف (كيفي) باشد. كه در صورت كمي مي توان گفت

اختصاص دادن اعداد به مقادير مختلفي از صفات برحسب قواعد معين كه صحت آنها را

مي توان از راه آزمايش بررسي كرد . 3 و يا مي توان گفت اندازه گيري يعني فرآيند منظم

1 - Measurement

-2 نقل از كتاب اصول روان سنجي تأليف دكتر حسن پاشاشريفي

-3 نقل از كتاب مباني آزمون هاي رواني، تأليف مگنوسون، ترجمه محمدتقي براهني

٤١

فصل سوم

امتحان

-1 مفهوم امتحان:

امتحان حالت خاصي از ارزشيابي است كه ناظر بر سنجش آموخته هاي دانش آموزان

است. به مفهوم علمي امتحان عبارت است از تعيين ميزان تغييرات حاصل در جنبه هاي

خاصي از رفتار شاگرد در فواصل زماني معين در جهت نيل به هدف هاي آموزشي و

پرورشي (اصول روانسنجي، شريفي)

امتحان يا ارزشيابي يكي از عناصر مهم فرايند آموزش و پرورش است كه اطلاعات

مفيدي را براي تعيين سطح كارآئي و بهبود شرايط آموزش ي فراهم مي سازد . علاوه بر

اين، امتحان نقش ناظر بر ساي ر عناصر آموزش و پرورش از قبيل : هد ف هاي آموزشي،

برنامه هاي درسي، روش هاي تدريس، امكانات، تجهيزات و عوامل انساني و غير انساني

را بر عهده دارد.

-2 انواع امتحان و موارد كاربردي آنها:

امتحان را از دو ديدگاه مي توان طبقه بندي كرد . از نظر هدف و از نظر ماهيت موضوع

يادگيري

الف) انواع امتحان از نظر هدف

برحسب هدفي كه معلم ازانجام امتحان دارد، م يتوان آن را به چهار نوع تقسيم كرد:

- امتحان ورودي (تشخيصي) كه در ابتداي هر دوره آموزشي به منظور تعيين

معلومات و رفتار ورودي و سنجش آمادگي دانش آموز ان براي يادگيري درس جديد

براساس محتواي آموزشي پيش نياز آن درس به عمل مي آيد.

79

فصل چهارم

تهيه پرسش هاي امتحان

پس از تهيه جدول دو بعدي مشخصات سوال ها مي توان به نوشتن پرس ش هاي

امتحان پرداخت مجموعه پرسش هائي را كه تمامي اهداف و محتواي مطرح شده در يك

جدول دو بعدي را شامل مي شوند آزمون مي نامند. پرسش هاي آزمون را به طور كلي به

دو صورت عيني و انشائي م يتوان نوشت.

از آنجا كه هر پرسش بايد از يك سو با هدف و از سوي ديگر با محتواي خاصي كه

در جدول دو بعدي مطرح شده هماهنگ باشد، بنابراين تعيين نوع پرسش با چگونگي

برآيند يادگيري مورد نظر در جدول بستگي پيدا مي كند . اينك به توضيح پرس ش هاي

عيني و انشائي، اصول تهيه و موارد كاربردي هر كدام به تفكيك م يپردازيم.

-1 پرسش هاي عيني

پرسش عيني به سوالي گفته مي شود كه اولاً نمره گذاري آن مستقل از نظر شخصي

و قضاوت ذهني ارزشياب باشد . يعني تصحيح كنندگان مختلف به آن نمره مساوي

بدهند. ثانياً در اين گونه از پرسش ها معمولاً آزمايش شونده خود پاسخ سوال را تهيه

نمي كند، بلكه از بين پاسخ هاي داده شده پاسخ درست را پيدا كرده و مشخص م يكند.

انواع پرسش هاي عيني

پرسش هاي عيني بطور كلي يا از نوع يادآوري هستند و يا از نوع تشخيص و

شناسائي.

الف) يادآوري: در اين نوع، پاسخ دهنده جواب سوال را از ميان آموخته هاي قبلي

خود پيدا كرده و مشخص مي سازد. پرسش هاي يادآوري نيز به دو دسته يادآوري ساده

و جملات تكميلي تقسيم مي شوند. يادآوري ساده سوالي است كه احتياج به پاسخ كوتاهي

١١٥

فصل پنجم

اجراي امتحان

سوال هاي آزمون پس از تهيه براساس بودجه بندي جدول دو بعدي، مورد بررسي و

بازبيني قرار مي گيرند. اجراي اين مهم در جهت پاسخگوئي به پرس ش هاي زير انجام

مي گيرد:

الف) آيا هر سوال يكي از هدف هاي مهم درس را كه در جدول دو بعدي پيش بيني

شده است اندازه مي گيرد؟

ب) آيا هر سوال داراي يك پاسخ درست و مشخص است و گزينه هاي انحرافي ضمن

اينكه پاسخ كليد نيستند به ظاهر موجه و منطقي جلوه مي كنند؟

ج) آيا هر سوال كاملاً روشن و دور از ابهام تهيه شده است؟

د) آيا نوع پرسش تهيه شده براي اندازه گيري برآيند مورد نظر مناسب است؟

ه) آيا تمام اصول و نكات لازم در تهيه پرس شها رعايت شده است؟

د) آيا پاسخ درست هيچ پرسشي مستقيماً و يا ضمني در پرسش هاي ديگر قابل

استنباط نيست؟

ز) آيا هر پرسشي مستقل از پرس شهاي ديگر است؟

ح) آيا مجموعه پرسش هاي تهيه شده تمامي قسمت هاي جد ول دو بعدي را در بر

مي گيرد؟

-1 تنظيم پرسش هاي آزمون

پس از آنكه پرسش هاي تهيه شده با توجه به موارد مذكور مورد بازبيني و بررسي

قرار گرفت، تهيه كننده اقدام به تنظيم و مرتب كردن آنها طي مراحل زير م ينمايد:

143

فصل ششم

آزمون و انواع آن

همانطوري كه در ابتداي فصل ( 4) اشاره شد مجموعه پرسش هائي را كه تمامي

1« آزمون » اهداف و محتواي مطرح شده در يك جدول دو بعدي را در بر مي گيرند

مي نامند.

آزمون عبارت يك وسيله عيني 2 و محاسبه شده اي 3 است كه براي اندازه گيري

نمونه اي از حالات و رفتار معين فر د بكار مي رود. منظور از عيني بودن آن است كه

وسيله سنجش مشخص و قطعي بوده و در همه حال نتيجه اندازه گيري آن تابع نظر

شخص و طرز قضاوت ارزشياب قرار نگيرد . منظور از محاسبه شده يا استاندارد آن

است كه قبلاً در بوته تجربيات و محاسبات لازم گداخته شده و شرايط و خصوصياتي را

كه هر قسمت بايد دارا باشد در خود جمع داشته باشد . اين خصوصيات عبارتند از :

روائي 4، اعتبار 5 و نرم يا هنجار 6 كه در مورد اين خصوصيات در فصل هاي بعدي كتاب

به طور مشروح سخن خواهيم گفت.

از آنجا كه با هيچ وسيله اي نمي توان همه استعد ادها، معلومات، رغبت ها و بطور كلي

از رفتار و « نمونه اي » خصوصيات فرد را اندازه گيري كرد، بنابراين هر آزمون فقط

حالات فرد را اندازه مي گيرد و براي اندازه گيري همه حالات و رفتار فرد بايد از ابزارها و

. آزمون ها و معيارهاي مختلف استفاده نمود 7

1 -Test

2 -Objective

3 -Standardized

4 -Validity

5 -Reliability

6 -Norm

7 - نقل از كتاب اصول علمي تهيه، اجرا و استاندارد كردن تست، يوسف اردبيلي 1348

١٦٩

فصل هفتم

تجزيه و تحليل پرسش هاي آزمون

تجزيه و تحليل آماري پاسخ هائي كه به سوال هاي امتحان داده شده است نشان

مي دهد كه هر يك از سوال ها و بطور كلي امتحان تا چه اندازه با هد ف هاي مورد نظر

مطابقت داشته است.

اگر هدف آزمايش اندازه گيري پيشرفت نسبي دانش آ موزان، يعني مقايسه پيشرفت

آنان با يكديگر (آزمون گروه مرجع ) باشد در اين صورت سوال هاي امتحان بايد نتايج

آماري معيني را كه شرح داده مي شود در بر داشته باشد و تهيه كننده سوال هاي امتحان

نيز بايد سوال ها را به گونه اي بنويسد كه نتايج مورد نظر از آن به دست آيد . از سوي

ديگر اگر هدف امتحان، اندازه گيري پيشرفت دانش آموزان براساس معيارهاي معلم يعني

تعيين ميزان آموخته هاي دانش آموزان باشد، در اين صورت سوال هاي امتحان بايد

طوري نوشته شود كه ميزان نيل به هدف هاي معلم سنجيده شود (آزمون ملاك مرجع ).

لذا آن دسته از خصائص آماري مورد نظر خواهد بود كه منعكس كننده هدف هاي تعليم

باشند نه اندازه گيري پيشرفت نسبي دانش آموزان و مقايسه آنان با يكديگر . از آنجا كه

تاكيد بر ملاك نسبي در اندازه گيري پيشرفت تحصيلي از دير زماني مورد توجه تهيه

كننده و ناشران آزمون ها بوده است، بنابراين به بيان مراحل و نحوة تجزيه و تحليل

سوال ها در آزمون هائي كه براي اندازه گيري پيشرفت نسبي دانش آموزان به كار

مي روند مي پردازيم.

مراحل تجزيه و تحليل سوا لهاي آزمون

از آنجا كه مراحل تجزيه و تحليل سوال هاي عيني و انشائي در مواردي با هم متفاوت

است به همين جهت آنها را در دو بخش جداگانه مورد بررسي قرار مي دهيم.

٢٢٧

فصل هشتم

روائي 1 آزمون

-1 تعريف روائي

اولين و مهم ترين سوالي كه بايد در مورد هر وسيله و ابزار اندازه گيري بشود،

مربوط به مقدار روائي آن است . منظور از اين سوال آن است كه معلوم شود آيا وسيله

يا ابزار آنچه را كه مورد نظر است و تمام آنچه را مورد نظر است و فقط آنچه را مورد

نظر است اندازه گيري مي كند يا نه ؟ به عبارت ديگر آيا اين وسيله اندازه گيري حقيقتاً

صفتي را كه براي اندازه گيري آن ساخته شده است مي سنجد يا خير؟

روائي عبارت است از توافق بين نمره هاي آزمون با ويژگي يا صفتي كه آزمون براي

اندازه گيري آن ساخ ته شده است (گاپلان و ساكوز 1989 )، يعني اين كه آزمون بايد

چيزي را اندازه بگيرد كه براي اندازه گيري آن ساخته شده است . به بيان ديگر روائي

يعني ميزان كارآئي آزمون براي انداز هگيري خصيصه مورد نظر.

روائي مهم ترين ويژگي يك آزمون به حساب مي آيد و مقصود از آن مناسب بودن، با

معنا بودن و مفيد بودن استنبا ط هائي است كه از روي نمره آزمون به عمل م يآيد . براي

تاييد اين گونه استنباط ها، لازم است شواهدي جمع آوري شود كه در فرهنگ روانشناسي

ناميده مي شود. « رواسازي آزمون »

1 -Validity

259

فصل نهم

اعتبار آزمون

از نتايج اندازه گيري با وسايل سنجش وقتي مي توان عملاً استفاده كرد كه اين وسايل

شرايط بخصوصي را دارا باشند . نخست اينكه وسيله اندازه گيري بخصوصي كه در

شرايط خاصي و به منظور خاصي به كار مي رود بايد حقيقتاً صفت مورد اندازه گيري را

بسنجد (داراي روائي باشد ). ثانياً نتيجه اصل از اندازه گيري بايد اعتبار داشته باشد . يعني

اگر شي يا شخص مورد نظر را در تحت شرايط مشابهي مجدداً آزمايش كنيم، نتيجه

مشابهي به دست آيد . بنابراين داده هاي حاصل از اندازه گيري بايد از دو لحاظ قابل

اطمينان باشند. اولاً معناي مشخصي داشته باشند و ثانياً بازيافتني 1 باشند.

-1 مفهوم نظري اعتبار 2 آزمون

از نظر تئوري مي توان اعتبار را به عنوان اندازه اي براي تعيين تفاوت بين نمره هاي

مشاهده شده 3 و نمره هاي واقعي 4 دانست . منظور از نمره مشاهده شده نمره اي است كه

دانش آموز عملاً در نتيجه گذراندن آزمون به دست مي آورد و مراد از نمره واقعي

نمره اي است كه دانش آموز در نتيجه گذراندن آزموني به دست مي آورد كه از هر نوع

خطاي اندازه گيري به دور باشد. همچنين مي توان گفت نمره مشاهده شده نمر ه اي است

كه دانش آموز از گذراندن يك آزمون منتخب از ميان آزمون هاي ممكن بي شمار گرفته

است. اما نمره واقعي ميانگين نمراتي است كه با گذراندن تعداد بي شماري از آزمون هاي

1 -Reproducible

2 -Reliability

3 -Observed Score

4 -True Score

303

فصل دهم

نرم يا هنجار

-1 تعريف نرم

به معيار و مقياس محاسبه شده 1 و متحد الشكل يا همترازي 2 كه براي سنجش و

مقايسه بكار مي رود، نرم 3 گويند . نرم مقياس و ميزاني است كه از كار يا بازده كار و يا

از قوا و معلومات و استعدادهاي يك گروه نمونه طبيعي به دست آمده ا ست و مقدار كار،

يا بازده كار و توانائي و معلومات افراد ديگر را مي توان با آن سنجيد، تا معلوم شود

شخص در يك جنبه خاص رواني و يا بدني، هنگام مقايسه با افراد متجانس و مشابه

خود در چه وضعي و يا در چه جائي قرار مي گيرد. (اردبيلي، اصول علمي تهيه، اجرا، و

استاندارد كردن تست).

به بيان ديگر نرم يا هنجار عبارت است از متوسط عملكرد گروه نمونه اي از

آزمودني ها كه به روش تصادفي از يك جامعه معين انتخاب مي شوند . نرم آزمون هاي

استاندارد شده براساس توزيع نمره هاي خام گروه نمونه اي از آزمودني ها به دست

مي آيد كه ميانگين و نق طه 50 درصدي (ميانه) نمونه هائي از متوسط عملكرد گروه و به

عبارت ديگر نرم يا هنجار گروه است.

در آزمون هاي گروه مرجع، نرم يا هنجار مقياس محاسبه شده اي است كه نمره خام

آزمودني با آن مقايسه مي شود تا عملكرد وي نسبت به متوسط عملكرد گروه مورد

ارزشيابي قرار گيرد (شريفي: اصول روان سنجي و روان آزمائي)

1 -Standardized

2 -Uniform

3 -Norm

335

فصل يازدهم

آزمون هاي هوشي

الف) آزمون هاي فردي هوش

-1 آزمون هاي هوشي بينه

اين آزمون ها كه از مقياس مشهور بينه سيمون مشتق شده و مورد تجديد نظر قرار

گرفته اند، چون از آزمون هاي كلامي و غير كلامي تشكيل شده اند، مي توان آنها را

مقياس هاي مختلط دانست . نخستين فرم آنها در 1905 در فرانسه استاندارد شد . بينه

آزمون هوش خود را بر اساس دو اصل تدوين كرد : ( 1) تعريف سن ( 2) مفهوم توانائي

كلي ذهني

منظور بينه از اصل اول اين بود كه توانائ ي هاي عقلي كودكان مسن تر بيشتر از

كودكان خردسال تر است بر اين اساس، تكاليفي را كه ح دود 3

2

تا

4

3

كودكان گروه سني

معين از عهده انجام آن بر مي آمدند، ولي كودكان خردسا ل تر كمتر و كودكان بزرگتر

بيشتر از اين نسبت مي توانستند آن را انجام دهند براي گروه مورد نظر مناسب

مي دانستند در اجراي اصل دوم بينه توج ه خود را به اندازه گيري هوش (توانائي هاي كلي

ذهني) معطوف داشت و از اندازه گيري عناصر تشكيل دهنده هوش صرف نظر كرد .

بنابراين هر تكليفي كه با كل توانائي مورد اندازه گيري او همبستگي داشت در محتواي

آزمون قرار گرفت . بدين ترتيب نخستين فرم آزمون هوشي بينه از 30 سؤ ال (تكليف )

تشكيل و بر اساس مقياس سني درجه بندي شد.

از بين مقياس هاي مربوط به آزمون بينه مواردي از آن را كه در حال حاضر استفاده

مي شوند به اختصار مطالعه مي كنيم.

349

فصل دوازدهم

آزمون هاي شخصيت

طرفداران مكتب صفات شخصيت عقيده دارند كه هر فرد تركيب وحدت يافته اي از

صفات بدني و رواني است . آنان ضمن تاكيد بر تفاوت هاي فردي در صفات شخصيت، به

طبقه بندي افراد بر اساس برخي از صفات مشترك معتقدند . به نظر روان شناسان مكتب

صفات شخصيت، هر چند الگوي صفات شخصيتي هر فرد متمايز از ديگران است، در

بعضي موارد نيز وجوه اشتراك مقايسه پذير بين افراد وجود دارد، به همين جهت

تفاوت هاي فردي را مي توان به عنوان پراكندگي يا تغيير پذيري تعدادي از صفات و

خصائص اساسي شخصيت آدمي تلقي كرد. (شريفي، اصول روا نسنجي و روان آزمائي).

بعضي ديگر از روان شناسان در سنجش شخصيت آدمي فرضيه فرافكني را مطرح

كرده اند. بر اساس اين فرضيه هنگامي كه شخص يك محرك مبهم را تفسير مي كند تفسير

وي از اين محرك، بازتابي از نيازها، احساسات، انگيزه ها، تجارب زندگي و رفتارهاي

شرطي شده اوست . آزمون هاي شخصيتي فرافكن بر اساس اين نظريه ساخته شده اند .

(همان مرجع)

بنابراين آزمون هاي شخصيت را مي توان به دو طبقه عمده تقسيم كرد : آزمون هاي

عيني شخصيت و آزمو نهاي فرافكن.

-1 پرسش نامه ها يا آزمون هاي عيني شخصيت

آزمون هاي عيني شخصيت به صورت پر سش نامه با پرسش هاي بسته تهيه مي شوند

مشخص مي كند. در تهيه « نه » يا « آري » كه آزمودني پاسخ خود را به سوال ها به صورت

اين پرسش نامه ها فرض بر اين است كه اولاً شخصيت آدمي متشكل از مجموعه صفات يا

+ نوشته شده در  چهارشنبه 1 آذر1391ساعت   توسط محمد حسین ضرغامی  | 

سوالات آزمون جامع دکترا سنجش-22 تیر 1391- ساعت 8:45 الی 1:15. نظریه کلاسیک

سوالات آزمون جامع دکترا سنجش-22 تیر 1391- ساعت 8:45 الی 1:15.

نظریه کلاسیک

1. اعتبار چند صفتی-چند روشی را تعریف کنید.

2. تصحیح برای کاهش را تعریف کنید و دلایل اتفاق آن را شرح دهید.

3. اگر بخواهید برای پیش بینی موفقیت شغلی در یک شغل مدلی را تدوین کنید چه مراحلی را پشت سر می گذارید؟ به طور مختصر توضیح دهید.

4. در جدول زير مجموع مجذورات و  مضروبات يك آزمون 6 سؤالي داده شده است كه 100 نفر به آن پاسخ داده اند. ضريب اعتبار را براي كل آزمون و براي دو بخش و براي سه بخش حساب كنيد(بخش ها را به دلخواه انتخاب كنيد) و در پايان در مورد موازي بودن آن ها بحث كنيد. (ص. 42 کتاب گراجتر ترجمه کامکار و دکتر اسکندری مشابه این سوال به نقل از لرد و ناویک هست!)

X1      X2        X3      X4       X5        X6         

X1

X2

X3

X4

X5

X6 79      85        32      62         81       65

85      62        54      36         42       72

32      54

62      36

81      42

65      72


5. دو ارزياب مقالات 5 دانشجو را ارزيابي كرده اند. داده ها در زير آمده است. نمرات بهتر نشان دهنده مقالات بهتر است.

الف) مؤلفه هاي واريانس را محاسبه كنيد؟

ب) ضريب تعميم پذيري و ضريب اتكاپذيري را محاسبه كنيد.

ج) چنان چه سؤالات در ارزيابان آشيانه كنند چه تغييراتي در ضرايب بالا به وجود مي آيد.

ارزيابان

ارزياب 2                                   ارزياب   1

مقاله 2     مقاله 1                  مقاله 2       مقاله  1

1 8            6                          6             4

2

3

4

5

با تشکر از خانم دکتر مقدم azam.moghadam@gmail.com

+ نوشته شده در  دوشنبه 26 تیر1391ساعت   توسط محمد حسین ضرغامی  | 

نظريه ي خصيصه مكنون (سوال پاسخ)

نظریه سوال-پاسخ(IRT)

نویسنده: قاسم کشاورز گرامی - سه شنبه هشتم آذر 1390

نظریه سوال-­ پاسخ شامل خانواده­ اي از مدل­هاي رياضي است که روابط تابعي بين متغيرهاي مشاهده­پذير و سازه­هاي صفات زيربنايي اين متغيرها را نمايش مي دهد که بسیاری از روانسنجان قرن معاصر به آن پرداخته اند.در منابع گوناگون چندین پیش­فرض­ برای مدل های نظریه سوال-پاسخ مطرح شده است که در تمامی آنها  «تک­بعدي بودن»و «استقلال موضعي» مهمترين و اساسي­ترین مفروضه ها معرفی شده اند(متسن امورنن،2002­). تک بعدي بودن به اين معنا است که همة سوالات آزمون فقط يک حوزة توانايي يا دانش را اندازه بگيرد. مفروضة استقلال موضعي بيان مي­کند که پاسخ هاي آمودني ها به سوالات آزمون از لحاظ آماري مستقل از يکديگرند اگر و فقط اگر سطح توانايي آزمودني به عنوان عامل اصلي به حساب آيد. اگر اين پيش فرض برقرار باشد عملکرد آزمودني نبايد تحت تاثير پاسخ­هاي خوب يا بد او در ديگر سوالات باشد. (سیجت سما و مولن­ آیر 2002).


نظرية سوال- پاسخ به جاي تاکيد بر نمرات کل آزمون, بر پاسخ­هاي آزمودني­ها به تک­تک سوال­هاي آزمون تکيه مي­کند. در نظرية سوال- پاسخ با استفاده از مدل هاي رياضي مي­توان احتمال پاسخ درست به يک سوال آزمون را به عنوان تابعي از توانايي آزمون شونده به حساب آورد و همچنين برخي ويژگي­هاي سوال را پيش بيني کرد. ويژگي­هايي که براي سوال­ها يا ماده­هاي آزمون بدست مي آيند به نوع مدل يا الگوي نظريه سوال- پاسخ وابسته اند (سيف, 1383). مدل­های نظریه­ سوال-پاسخ می توانند نمره های دو مقوله ای و چند مقوله ای را تحلیل کنند بشکلی که طبقه بندی نمره­ها می تواند منظم یا نامنظم باشند( رونالد، 2008 ).


+ نوشته شده در  شنبه 10 تیر1391ساعت   توسط محمد حسین ضرغامی  | 

نظريه تعميم پذيري

نظريه تعميم پذيري

در سال 1964، ريموند بي.کتل(812) سه روش عمده را مطرح کرد که بر اساس آنها "اثبات آزمون" را مي توان اندازه گيري کرد (البته وي اين اصطلاح کلي را بيشتر از اصطلاحهاي ديگر ترجيح مي داد). اولين روش، ثبات و توافق نمره ها در دفعات متوالي اجراست؛ يعني، تغييراتي که در يک آزمون و روي يک گروه از افراد در زمانهاي مختلف صورت مي گيرد. کتل اين ثبات را "پايايي" ناميد. دومين نوع ثبات به آزمونهاي مختلف ( يا بخشهاي يک آزمون که معمولاً ماده هاي انفرادي هستند) بر مي گردد و شامل توافق مربوط به يک بار اجراست که با استفاده از چند آزمون (يا بخشهاي آزمون) روي يک گروه از افراد صورت مي گيرد. اين ثبات "همگني" ناميده مي شود. نوع سوم ثبات به افراد مختلف بر مي گردد و شامل توافقي است که در مورد معناي نمره هاي يک آزمون که در يک زمان معين روي مجموعه هاي مختلفي از افراد اجرا شده است. اين نوع ثبات "انتقال پذيري" ( يا سرسختي) ناميده مي شود.

در يک رويکرد مشابه، کرونباخ، گليزر(813)، ناندا(814) و راجارتنام(815) (1972) فرض کردند که اساسي ترين موضوع در پايايي، سؤال مربوط به تعميم دادن مشاهده ها يا اندازه گيريها به طبقه ديگري از مشاهده هاست. بنابراين، به نظر آنها پايايي بايد به بررسي ميزاني مربوط شود که بر اساس آن، نمره هاي حاصل، معرف نمره هاي به دست آمده از شرايط ديگر يا "مجموعه هاي مرجع" مختلف است. مثالها مطالعه نمره هاي حاصل از نمره گذاران مختلف، ماده هاي آزمون، روشها، مشاهده کننده ها يا دفعات مختلف را در بر مي گيرند. همان طوري که در يک بحث دقيق درباره اين روش توسط ويگينز(1973) مورد تأکيد قرار گرفت، يکي از مزيتهاي اصلي اين روش در آن است که پژوهشگران را وا مي دارد که در خصوص مجموعه مرجع خاصي که مايل اند مشاهده هاي خودشان را بدان تعميم دهند، صريح و روشن باشند. اين امر تا اندازه اي از تمايز سنتي بين پايايي و اعتبار مي کاهد. جونز(816)، ريد(817) و پترسون(1975) در نظام کدگذاري رفتاري خودشان، مثال خوبي را در زمينه مطالعه کمّي تعميم پذيري گزارش کردند. در اين مطالعه، آزمودنيها، مشاهده کنندگان و دفعات مختلف، مجموعه هاي مرجع تعميم بودند.


+ نوشته شده در  سه شنبه 30 خرداد1391ساعت   توسط محمد حسین ضرغامی  | 

اعتبار و پايايي

در اين مقاله با تفصيل به مفاهيم پايايي و اعتبار پرداخته ایم . اين بررسي براي دستيابي به يک درک مناسب از چشم انداز و محدوديتهاي روشهاي ارزيابي مختلف ضروري است. در عين حال، عوامل نامربوط نظامدار يا تحريفهاي پاسخ نيز مورد بحث قرار گرفته اند. اين تحريفها که بر کاربرد شيوه هاي ارزيابي شخصيت اثر مي گذارند، مشکل کوششهاي عمدي و حتي ناهشيار را براي ايجاد يک تأثير مطلوب (يا نامطلوب) در ديگران در بر مي گيرند.

پايايي، همان طوري که از نام آن بر مي آيد، به قابليت تکرار يا اعتماد يک اندازه يا شاخص مربوط مي شود. به عنوان يک مثال بسيار ساده، مي توان گفت که ديروز ما قد يک کودک را اندازه گرفته و مقدار 122/68 سانتي متر را به دست آورده ايم. ولي امروز فرد ديگري قد همان کودک را اندازه گرفته و مقدار 122/93 سانتي متر را گزارش کرده است. اين دو مقدار تا اندازه زيادي با يکديگر هماهنگ هستند؛ يعني، ما نوعي اندازهگيري اوليه از قد کودک را در نظر گرفته ايم که در بررسي مجدد تأکيد يا تکرار شده است. اين 0/25 سانتي متر اختلاف، اين واقعيت را نشان مي دهد که تکرار اندازه گيريها تقريباً همواره تا اندازه اي ثبات يا پايايي دارد و پذيرش اين نتيجه از جانب ما نشان مي دهد که اين بي ثباتي به اندازه اي نيست که سودمندي آن را انکار کنيم. بدين ترتيب، اختلاف 0/25 سانتي متر تحت اين شرايط به اندازه اي ناچيز است که مي توان آن را بي اهميت تلقي کرد. با وجود اين، در ساير اندازه گيريهاي فيزيکي اين سطوح تحمل بسيار کم هستند، مانند سيلندر موتور که اين تفاوت، اهميت بسياري دارد و سطح بالاتري از پايايي اندازه گيري مورد نياز است.

پايايي همان دقت نيست. دقت به ميزان صحتي اشاره مي کند که اندازه گيري را بر اساس آن مي توان مشخص کرد؛ بدين ترتيب، يک شيوه اندازه گيري که به ما امکان مي دهد تا نتايج را بر اساس يک هزارم سانتي متر گزارش کنيم، دقيقتر از آن اندازه گيري است که نتايج را بر اساس يک دهم سانتي متر به دست مي دهد. درجه دقت يک ابزار مکانيکي که امکان اندازه گيري 2/432 را فراهم مي سازد، يک هزارم سانتي متر است، ولي اگر تحت شرايط يکسان اين وسيله، مقدار 2/381 سانتي متر را به دست دهد، پايايي اين اندازه گيري به هيچ وجه منطبق با دقتي نخواهد بود که اين ابزار از آن برخوردار است.

اين ويژگي که اندازه گيريها را بايد "به اندازه کافي دقيق" انجام داد، در ارزيابي شخصيت نيز کاربرد دارد. اندازه گيري شخصيت در مقايسه با اندازه گيري خصوصيات فيزيکي مانند قد، هميشه نسبتاً فاقد دقت است؛ و بنابراين، تا اندازه اي ناپاياست. بدين ترتيب، ميزان دقت يک ابزار ارزيابي شخصيت بايد با پايايي آن همخواني داشته باشد. براي کساني که از چنين ابزارهايي استفاده مي کنند معمولاً ميزان شاخص پايايي مشخص شده است. ما مجدداً در يک فرصت مناسب به موضوع پايايي باز خواهيم گشت.

اندازه گيري شخصيت داراي شکل ديگري نيز هست که در اندازه گيريهاي فيزيکي به چشم نمي خورد و آن به استانداردهاي مورد قبولي مربوط مي شود که بر اساس آنها اندازه گيريها صورت مي گيرند. هيچ ترديدي وجود ندارد که يک ياردسنج (يا يک مترسنج) براي اندازه گيري فواصل خطي مانند قد مناسب است. با وجود اين، در ارزيابي شخصيت، غالباً سؤالهايي درباره صحت و دقت ابزارهاي اندازه گيري به منظور ارزيابي بُعد يا ويژگي مورد بررسي مطرح مي شوند. براي مثال، آيا واقعاً مي توان افسردگي را با شمارش پاسخهاي رنگي به موارد بي رنگ در آزمون رورشاخ اندازه گرفت؟ در اين مورد، نه تنها سؤال مربوط به شمارش پاياي اين پاسخها مطرح است، بلکه شکل ديگر و جدي تر اين است که آيا شمارش پاسخهاي رنگ به اندازه گيري درستي از افسردگي مي انجامد، درست به همان شيوه اي که علايم مندرج ياردسنج به شاخص معتبري از قد منجر مي شود (صحت يا اعتبار ابزارهاي اندازه گيري مورد استفاده در اندازه گيريهاي فيزيکي که درجات بسيار بالايي از دقت لازم را دارد، مشکلات چندي ايجاد کرده است.)

چون پيش از آنکه بتوانيم تعيين کنيم که آيا اندازه گيري در واقع به مفهوم مورد نظر مربوط مي شود يا خير، بايد از پايايي مناسب برخوردار باشد، ابتدا به بحث درباره پايايي مي پردازيم. معيارهاي آزمون تربيتي و روان شناختي که يک راهنماي عملي براي پايايي و اعتبار است، براي چندين سال توسط انجمن روان شناسي آمريکا انتشار يافته است (براي مثال، انجمن پژوهش تربيتي آمريکا- انجمن روان شناسي آمريکا- شوراي ملي اندازه گيري در تربيت، 1985) و تمام افرادي که فعالانه در ساختن ابزارهاي اندازه گري شخصيت و کاربرد آنها شرکت دارند، بايد اين راهنما را به دقت مطالعه کنند. کتاب راهنمايي که به منظور استفاده ويژه در زمينه انتخاب استخدامي به کار مي رود و با اين کتاب راهنما قابل مقايسه است، توسط شاخه روان شناسي صنعتي- سازماني انجمن روان شناسي آمريکا (1980) منتشر شده است. در اين کتاب راهنما توجه خاصي به موارد اعتبار و پايايي و تهيه ملاکها مبذول شده است و منبع مرجع سودمندي در اين زمينه ها محسوب مي شود.

پايايي


پايايي به قابليت تکرار يا قابليت اعتماد اندازه گيري اشاره دارد. در يک موقعيت فرضي که روش اندازه گيري کاملاً پاياست، فرض مي شود که هر گونه تغييري در اندازه گيري حاصل نشان دهنده يک تغيير واقعي در صفت مورد مطالعه است. بدين ترتيب، در چنين نظامي، افزايش يک کيلوگرم در مقياس نشان خواهد داد که وزن شيء مورد نظر دقيقاً يک کيلوگرم زياد شده است؛ به همين ترتيب، افزايش نمره حاصل از يک مقياس افسردگي نشان خواهد داد که پاسخ دهنده در حال حاضر افسردگي بيشتري دارد. پايايي يک اصطلاح کلي است؛ اصطلاحهاي همساني و ثبات به ترتيب براي توصيف پايايي وابسته به ابزار و پايايي مربوط به زمان به کار مي روند.

همساني به ميزان توافقي اشاره مي کند که از به کارگيري دو يا چند ابزار اندازه گيري (يعني، مقياسها، خط کشها يا آزمونها) حاصل مي شود. هر گونه ابزار اندازه گيري يا مجموعه ابزارها را مي توان برگرفته از جامعه گسترده اي از اين ابزارها (چه واقعي يا چه فرضي) در نظر گرفت که مي توان از آنها براي اندازه گيري اين صفت خاص استفاده کرد. همساني معمولاً با به کارگيري يک آزمون يا آزمونهاي همزمان ديگر مورد ارزشيابي قرار مي گيرد که ترجيحاً به طور تصادفي از جامعه در دسترس اندازه گيريها انتخاب مي شوند. اگرچه اين موضوع در اندازه گيري ابعاد فيزيکي مانند قد يا وزن به مشکلات اندکي مي انجامد، ولي با اين حال، مشکلات چندي را در ارزيابي شخصيت ايجاد مي کند. ما به زودي اين مشکلات را مورد بررسي قرار خواهيم داد.

ثبات به دقت اندازه گيري حاصل با گذشت زمان اشاره دارد. چنانچه از ابزار ديگري براي اندازه گيري مجدد استفاده شود، بازآزمايي با گذشت زمان علاوه بر ثبات، همساني را نيز شامل مي شود. هرگاه در دو بار اندازه گيري از يک ابزار استفاده شود، ارزيابي مستقيم ثبات اندازه گيري را مي توان انجام داد. بدين ترتيب، ناتواني در رسيدن به پايايي کامل به واسطه ناهمسانيها يا خطاهايي است که تابع تغييرات حاصل در نظام مورد نظر با گذشت زمان يا تابع تغييرات مربوط به ابزار مورد نظر و يا هر دو هستند.

به طور کلي، پايايي به شواهد مختلفي اشاره مي کند که در صدد توصيف يک توافق کلي ميان عمليات اندازه گيري هستند. هر کدام از اين شواهد بر منبع معيني از عدم توافق يا خطا تأکيد مي کند و بقيه منابع را ناديده مي گيرد. اندازه گيري شخصيت شامل گرفتن نمونه اي از رفتار در يک زمان و روز معين در قبال مجموعه معيني از محرکهاست. البته اين پاسخها بايد بر طبق يک شيوه معين توسط يک آزماينده خاص ثبت شوند. بعضي از خطاهاي نمونه گيري با هر کدام از اين "موارد خاص" رابطه دارند. اين زمان خاص نمونه اي از يک دوره زماني است و اين مجموعه خاص از محرکها يا سؤالها نمونه اي از يک دسته واقعي يا فرضي از محرکها در دسترس است. بسيار اهميت دارد که بتوانيم مشخص کنيم که يک پاسخ يا نمره خاص، احتمالاً تا چه اندازه به عنوان تابعي از تغييرات در هر کدام از اين خصوصيات اندازه گيري تغيير مي کند. متأسفانه، اين نوع اطلاعات به ندرت در ارزيابي شخصيت به چشم مي خورد. 

بررسي کتاب هاي درسي در زمينه نظريه روان سنجي (براي مثال گيزلي(807)، 1964؛ نانالي(808)و برنشتاين(809)، 1994) نشان مي دهد که فرضهاي فلسفي متخصصان در زمينه مبناي اندازه گيري روان شناختي با يکديگر متفاوت است. اين تفاوتها در فلسفه به تفاوتهاي چندي در توصيف دقيق مفهوم و معناي پايايي و تفاوتهايي در شيوه هاي پيشنهادي براي اندازه گيري پايايي يک شاخص انجاميده است. در اين فصل، ما مي کوشيم تا مسير ميانه اي را از ميان رويکردهاي مختلف برگزينيم و در عين حال، علاوه بر موضوعهايي که فراتر از طيف اين کتاب قرار مي گيرند، از ناهمسانيها نيز اجتناب کنيم.

ما با اين نکته شروع مي کنيم که پايايي به طور تنگاتنگي با مفهوم خطاي اندازه گيري رابطه دارد. خطاهاي اندازه گيري را مي توان به صورت منظم يا تصادفي در نظر گرفت. هرگاه ما زمان را از روي ساعتي مشاهده کنيم که همواره پنج دقيقه جلوست، مرتکب يک خطاي منظم شده ايم. از طرف ديگر، هرگاه اين ساعت درست ولي به اندازه اي دور از ما قرار گرفته باشد که ما نتوانيم عقربه دقيقه شمار را بخوانيم، مرتکب يک خطاي تصادفي شده ايم. خطاهاي منظم را مي توان به صورت خطاهايي در نظر گرفت که با اشتباههاي معلوم رابطه دارند؛ و خطاهاي تصادفي را که به متوسط نمره درست يا مطلق گرايش دارند، مي توان زماني به صورت "موارد نامعلوم" در مشاهده در نظر گرفت که تمام خطاهاي منظم شناسايي يا حذف شده باشند.

به عبارت ديگر، خطاهاي اندازه گيري تصادفي با روش اندازه گيري "شکل مي گيرند"، درست مانند زماني که مي کوشيم با يک خط کش که تنها با اينچ مدرج شده است با تقريب يک دهم اينچ اندازه گيري کنيم يا هنگامي که سعي مي کنيم "افسردگي" را با يک پرسشنامه مداد و کاغذي کلي که فاقد ويژگيهاي باليني ضروري افسردگي است، ارزيابي کنيم. برخلاف اين خطاهاي تصادفي که اجتناب از آنها مشکل است، خطاهاي منظم مشخص تر و صحيح تر هستند. به يک معنا، خطاهاي منظم ناشي از سازنده يا استفاده کننده آزمون هستند تا اينکه به خود ابزار اندازه گيري برگردند. هرگاه ما يک مقياس افسردگي را روي آزمودنيهايي اجرا کنيم که در يک فرهنگ (يا خرده فرهنگ) متفاوت زندگي مي کنند در مقايسه با آزمودنيهايي که از هنجارهاي مناسبي برخوردارند، يا هرگاه دستورالعملهاي فشارزايي را به کار ببريم که آشکارا از دستورالعملهاي مربوط به جامعه هنجاري متفاوت باشند، در معرض خطاي منظم قرار خواهيم داشت. اين خطاهاي منظم بالقوه را مي توان و البته بايد با تنظيم هنجارهاي جديد مبتني بر گروه فرهنگي مناسب يا شرايط ديگر سنجش تصحيح کرد.

نظريه پردازان روان سنجي در کوششهاي خود براي به کميت درآوردن پايايي، به طور سنتي به مشخص کردن سهم خطاهاي تصادفي در پايايي کم پرداخته اند. عقايد آنها درباره اينکه آيا بايد خطاهاي منظم را نيز به عنوان منبع ناپايايي اندازه گيري در نظر گرفت با يکديگر اختلاف دارد، و از اين رو، ماحصل اين اختلاف عقيده در شاخص عددي پايايي انعکاس يافته است. تعدادي از شاخصهاي متداول پايايي نشان دهنده خطاي تصادفي هستند؛ و تعدادي نيز بعضي از منابع خطاي منظم و نه تمام آنها را نشان مي دهند. در نسخه تجديدنظرشده جديدتر معيارهاي سنجش تربيتي و روان شناختي (1985) با تصديق اين موضوع که روشهاي مختلف محاسبه پايايي، شامل منابع مختلف خطا هستند، توصيه شده است که پژوهشگران بايد دقيقاً روشن کنند، چه روشهايي را در به دست آوردن شاخص پايايي خاص مورد نظر به کار برده اند.

اکنون به روشهاي متداول محاسبه پايايي توجه کنيد. شاخص سنتي پايايي، ضريب پايايي است که مي توان آن را هم به عنوان همبستگي بين نمره هاي واقعي آزمون و نمره هاي "واقعي" فرضي و هم به عنوان متوسط همبستگي بين نمره هاي واقعي آزمون و ساير آزمونهاي احتمالي که همان خصوصيت را اندازه مي گيرند، در نظر گرفت. رويکردهاي عملي زير که براي محاسبه پايايي به کار مي روند، با اين تعريف شباهت دارند.

همان طوري که قبلاً اشاره کرديم، آن نوع پايايي که صرفاً با خطاي تصادفي رابطه دارد (خطاهاي ناشي از اين واقعيت که محتواي آزمون صرفاً نمونه اي از کل محتواست که ويژگي مورد نظر را در بر مي گيرد)، ثبات يا ثبات دروني آزمون ناديده مي شود. ثبات را مي توان به شيوه هاي مختلف ارزيابي کرد. يک روش، تقسيم آزمون به دو نيمه قابل مقايسه است که با يکديگر همبسته هستند. بدين ترتيب، همبستگي حاصل با استفاده از فرمولي که فرمول پيشگويي اسپيرمن - براون ناميده مي شود، با توجه به ارزش مورد انتظار براي کل آزمون "تصحيح" مي شود. چنين برآوردي از ثبات که با مقايسه ماده هاي زوج و فرد آزمون به دست مي آيد، ثبات پايايي از طريق دو نيمه کردن ناميده مي شود. روش ديگر، تعيين ثبات از طريق کاربرد نسخه هاي مشابه يا جانشين (يا موازي) آزمون است. همبستگي بين اين نسخه ها اساساً با همبستگي تصحيح شده بين دو نيمه آزمون مطابقت مي کند. هنگامي که نسخه هاي جانشين در دسترس نباشند، راه حل رايج، استفاده از روش بازآزمايي است. همبستگي بين اين دو مجموعه از نمره ها ضريب پايايي بازآزمايي ناميده مي شود.

يکي ديگر از روشهاي محاسبه پايايي که از لحاظ آماري تا اندازه اي پيچيده تر است، با استفاده از فرمول پايايي کودر- ريچاردسون صورت مي گيرد (کودر و ريچاردسون، 1937). مهمترين اجزاي اين فرمول شامل درصد ماده هاي نمره گذاري شده به شيوه اي خاص، همبستگيهاي بين ماده ها و نمره کل و انحراف معيار آزمون است. اين داده ها در فرمولي قرار مي گيرند که برآورد خوبي از ثبات را به دست مي دهد، به شرطي که آزمون مورد نظر تنها يک عامل آماري را اندازه گيري کند. متداولترين ضريب پايايي از اين دست که ضريب آلفا (کرونباخ، 1951) ناميده مي شود، "ميانگين تمام ضرايب دو نيمه سازي حاصل از نيمه هاي مختلف آزمون است (آناستازي، 1988)، قطع نظر از اينکه اين ماده ها دوارزشي يا چندارزشي هستند". دشواريهاي اين روش فراتر از دامنه اين کتاب هستند، ولي با اين حال، اين روشها در بسياري از کتابهاي درسي روان سنجي مورد بحث قرار گرفته اند.

همبستگيهاي بازآزمايي و نسخه هاي جانشين اطلاعاتي را فراتر از ثبات آزمون به دست مي دهند. چنانچه آزمودنيها در هنگام اجراي آزمون مجدد، پاسخ بعضي از ماده ها را به ياد آورند، امکان دارد که همان پاسخها را صرفاً بر اساس حافظه بدهند؛ يعني، يک اثر منظم که ممکن است به افزايش ساختگي اين همبستگي بينجامد. يا همان طوري که قبلاً بدان توجه شد، شرايط اجراي يک جلسه آزمون از يک نوبت به نوبت بعدي ممکن است تغيير کند و اين امر به منابع ناشناخته خطاي منظم مي انجامد. يا آزمودنيها ممکن است خصوصيتي را که اندازه گيري مي شود تغيير دهند، در چنين شرايطي از ميزان ضريب پايايي کاسته مي شود.

در عمل از کدام روش محاسبه ضريب پايايي بايد استفاده کرد؟ يک پاسخ ساده اين است که ضريب پايايي بايد انواع مختلف خطاهايي را که استفاده کننده آزمون به آنها علاقه مند است، انعکاس دهد. بنابراين، هرگاه ما در اندازه گيري يک مفهوم به پايايي آزمون علاقه مند باشيم، شاخص ثبات (آلفاي کرونباخ يا دو نيمه سازي) مناسب خواهد بود. چنانچه در اجراهاي مکرر و تحت شرايط مختلف به ثبات آزمون توجه نشان دهيم، آن گاه پايايي بازآزمايي يا نسخه هاي جانشين از مناسبت بيشتر برخوردار خواهند بود. در شرايط آرماني، سازنده آزمون هر دو مجموعه از داده ها را فراهم خواهد ساخت.

حدود قابل قبول ضرايب پايايي کدام اند؟ براي پاسخ به اين سؤال، ما بايد به شيوه اي توجه کنيم که بر اساس آنها، اين ضرايب را مي توان در عمل به کار برد. معمولاً، کليد اصلي به خطاي معيار اندازه گيري مربوط مي شود؛ کميتي که مستقيماً از روي ضريب پايايي و انحراف معيار نمره هاي حاصل به دست مي آيد. اگر ضريب پايايي را با r و انحراف معيار را با s نشان دهيم، خطاي معيار اندازه گيري را مي توان با توجه به فرمول sراديکال r-1 محاسبه کرد. براي نشان دادن معنا و کاربرد خطاي معيار اندازه گيري، مقياس Sc مربوط به MMPI را در نظر بگيريد. برآوردهاي ثبات دروني (ضرايب همبستگي دو نيمه آزمون) اين مقياس در حدود 0/91 گزارش شده است (دالستروم(810)، ولش(811) و دالستروم، 1975، ص 260). انحراف معيار تمام مقياسهاي MMPI براي نمره هاي مقياس بندي شده برابر با 10 است. حال خطاي معيار اندازه گيري را مي توان از فرمول ياد شده محاسبه کرد که برابر است با 10 راديکال 0/9-1 يا 3؛ يعني، مي توان گفت که هرگاه امکان اجراي اين آزمون به دفعات بسيار زياد وجود داشته باشد، متوسط نمره هاي Sc حاصل برابر با نمره هاي "واقعي" مي شود، ولي اين نمره ها با انحراف معيار 3 پيرامون اين ميانگين توزيع مي يافتند.

اگر توزيع نمره ها کاملاً نامتقارن نباشد، تقريباً دوسوم نمره ها در داخل يک انحراف معيار نسبت به ميانگين قرار مي گيرند. بنابراين، احتمال اينکه نمره حاصل از هر اجراي آزمون معين در سه واحد نسبت به نمره "واقعي" قرار گيرد، حدود دوسوم است. به عبارت ديگر، اگر يک پاسخ دهنده در مقياس Sc نمره 55 را کسب کند؛ احتمال اينکه نمره "واقعي" در سه واحد نمره 55، يعني، 52 و 58 قرار گيرد، دوسوم است. با همين استدلال، از آنجايي که حدود 95 درصد نمره هاي يکتوزيع کاملاً متقارن در دو انحراف معيار نسبت به ميانگين قرار مي گيرند، 95 درصد يا 19 مورد از 20 مورد احتمال وجود دارد که نمره واقعي پاسخ دهنده در فواصل 6 واحدي نمره 55، يعني بين 49 و 61 قرار گيرد.

همان طوري که تا اندازه اي در مورد مقياس D آزمون MMPI صادق است، فرض کنيد که مقدار اين ضريب پايايي (دو نيمه سازي) به جاي 0/91 برابر با 0/75 باشد (دالستروم، ولش و دالستروم، 1975، ص 260). با توجه به انحراف معيار 10، اين فرمول مقدار خطاي معيار اندازه گيري را برابر با 10 راديکال 0/75-1 يا 5 نشان مي دهد. اين موضوع در عمل به معناي آن است که هرگاه پاسخ دهنده اي در مقياس D نمره 60 را به دست آورده باشد، و ما بخواهيم دامنه اي را چنان تعيين کنيم که با احتمال 95 درصد نمره "واقعي" را در برگيرد، اين دامنه بايد بين 50 تا 70 باشد. هر چقدر ضريب پايايي کمتر باشد، ميزان اعتمادي را که مي توان نسبت به نمره به عنوان برآوردي از ميزان "واقعي" خصوصيتي داشت که پاسخ دهنده آن را داراست، کمتر است.

نظريه تعميم پذيري


در سال 1964، ريموند بي.کتل(812) سه روش عمده را مطرح کرد که بر اساس آنها "اثبات آزمون" را مي توان اندازه گيري کرد (البته وي اين اصطلاح کلي را بيشتر از اصطلاحهاي ديگر ترجيح مي داد). اولين روش، ثبات و توافق نمره ها در دفعات متوالي اجراست؛ يعني، تغييراتي که در يک آزمون و روي يک گروه از افراد در زمانهاي مختلف صورت مي گيرد. کتل اين ثبات را "پايايي" ناميد. دومين نوع ثبات به آزمونهاي مختلف ( يا بخشهاي يک آزمون که معمولاً ماده هاي انفرادي هستند) بر مي گردد و شامل توافق مربوط به يک بار اجراست که با استفاده از چند آزمون (يا بخشهاي آزمون) روي يک گروه از افراد صورت مي گيرد. اين ثبات "همگني" ناميده مي شود. نوع سوم ثبات به افراد مختلف بر مي گردد و شامل توافقي است که در مورد معناي نمره هاي يک آزمون که در يک زمان معين روي مجموعه هاي مختلفي از افراد اجرا شده است. اين نوع ثبات "انتقال پذيري" ( يا سرسختي) ناميده مي شود.

در يک رويکرد مشابه، کرونباخ، گليزر(813)، ناندا(814) و راجارتنام(815) (1972) فرض کردند که اساسي ترين موضوع در پايايي، سؤال مربوط به تعميم دادن مشاهده ها يا اندازه گيريها به طبقه ديگري از مشاهده هاست. بنابراين، به نظر آنها پايايي بايد به بررسي ميزاني مربوط شود که بر اساس آن، نمره هاي حاصل، معرف نمره هاي به دست آمده از شرايط ديگر يا "مجموعه هاي مرجع" مختلف است. مثالها مطالعه نمره هاي حاصل از نمره گذاران مختلف، ماده هاي آزمون، روشها، مشاهده کننده ها يا دفعات مختلف را در بر مي گيرند. همان طوري که در يک بحث دقيق درباره اين روش توسط ويگينز(1973) مورد تأکيد قرار گرفت، يکي از مزيتهاي اصلي اين روش در آن است که پژوهشگران را وا مي دارد که در خصوص مجموعه مرجع خاصي که مايل اند مشاهده هاي خودشان را بدان تعميم دهند، صريح و روشن باشند. اين امر تا اندازه اي از تمايز سنتي بين پايايي و اعتبار مي کاهد. جونز(816)، ريد(817) و پترسون(1975) در نظام کدگذاري رفتاري خودشان، مثال خوبي را در زمينه مطالعه کمّي تعميم پذيري گزارش کردند. در اين مطالعه، آزمودنيها، مشاهده کنندگان و دفعات مختلف، مجموعه هاي مرجع تعميم بودند.

پايايي و فنون فرافکن


نمره هاي کمّي حاصل از آزمونهاي فرافکن چنانچه با روشهايي که توصيف شدند ارزيابي شوند، اغلب پايايي اندکي دارند. از آنجايي که پايايي يک اندازه يا شاخص، حد بالايي را بر سودمندي بالقوه يا اعتبار آن تحميل مي کند، پاياييهاي کم اغلب در بررسيهاي پژوهشي روي اين آزمونها مسئول اعتبارهاي پايين قلمداد مي شوند. از طرف ديگر، همچنين استدلال شده است که روشهاي معمول براي ارزيابي پايايي را نمي توان براي ابزارهاي فرافکن به کار برد. براي مثال، گفته مي شود که روش دونيمه سازي براي آزمون رورشاخ نامناسب است، زيرا غيرممکن است که بتوان اين ده کارت را به گونه اي تقسيم کرد که دو نيمه قابل مقايسه را به دست دهد. پايايي بازآزمايي را نيز نمي توان به کار برد، زيرا آزمون مجدد، در واقع، يک تجربه روان شناختي متفاوت از آزمون اوليه است و چون گفته مي شود که فنون فرافکن نسبت به تغييرات جزيي در آزمودني حساس هستند، در واقع، به نظر مي رسد که در برخي از آزمونهاي فرافکن فرض مي شود که اين ابزارها کاملاً پايا هستند و اينکه تغييرات مشاهده شده در پاسخهاي آزمون با گذشت زمان مؤيد تغييرات واقعي در فرد هستند. بسياري از ويژگيهايي که اين آزمونها با آنها سرو کار دارند، مانند خُلق يا سطح انرژي با گذشت زمان تغيير مي کنند و بدين وسيله استدلال محکمي را دال بر اين مفروضه به دست مي دهند. با وجود اين، هر گونه شناخت واقعي از مشکلات پايايي اندازه گيري بايد به اين نتيجه منجر شود که بسياري از اين تغييرات، اگرچه نه همه آنها، تابعي از پايايي فرعي اين ابزارهاست. 

مشکلات اندازه گيري در ناپايايي هر آزمون تأثير دارد، ولي بعضي از مشکلات به ويژه در خصوص ابزارهاي فرافکن ايجاد مي شود. به طور کلي، مواد محرک مورد استفاده در آزمونهاي فرافکن با توجه به اينکه طبقه هاي نمره گذاري مختلف به طور مناسبي بر اساس محرکها تنظيم شوند، انتخاب نمي شوند. براي مثال، متوسط تعداد پاسخهاي حرکت (M) براي افرا غيربيمار در آزمون رورشاخ با توجه به انحراف معيارحدود 2، برابر 4 و متوسط جزئيات نادر (Dd) تنها برابر يک است (اکسنر، 1990). در عمل حداکثر پايايي اين اندازه گيريها همان طوري که نشان دادن اعتبارهاي معنادار امري تقريباً غيرممکن است، پايين است.

غالباً همان طور که در مورد آزمون TAT صادق است، نظامهاي نمره گذاري تا چند سال بعد از اينکه مواد محرک انتخاب شده باشند، تنظيم نخواهند شد. در آزمون TAT، آزمايندگان حتي در اين مورد اختيار دارند که کدام محرک را سرانجام به کار ببرند. اين رشد اتفاقي طبقه هاي نمره گذاري در ميزان پاياييهاي کم، تأثير دارد. نمره هاي نسبي (و تفاوت آنها) همان گونه که در آزمون رورشاخ به کار مي روند، به ويژه نسبت به پاياييهاي کم، حساس هستند. هولتزمن(818) در تهيه HIT، به انتخاب کارتهايي توجه کرد که در کميتهاي نمره گذاري تأثير خاصي داشتند؛ در نتيجه، پاياييهاي اکثر طبقه هاي HIT مناسبتر هستند. 

مشکل ديگر شامل استاندارد بودن دستورالعملهاست. راهنماييهاي مربوط به اجراي اکثر زبانهاي فرافکن استاندارد نشده اند، به طوري که به آزماينده امکان دهند تا به طور معناداري بر پاسخهاي آزمودني اثر گذارند. حتي اگرچه در نظام کنوني اکسنر(1986)، آزمون رورشاخ بر کاربرد ابزارهاي استاندارد شده تأکيد مي کند، آزماينده مي تواند هنوز تفاوت قايل شود. براي مثال، گراس(819) (1959) آزمون رورشاخ را روي 30 بيمار اجرا کرد، و در خصوص 20 نفر از آنها با گفتن "بسيارخوب" يا تکان دادن سر پس از هر پاسخ محتواي انسان تقويت اجتماعي را براي آنها فراهم کرد. بيماراني که بدين ترتيب تقويت شدند، در مقايسه با 10 نفر ديگر به طور معناداري پاسخهاي محتواي انسان بيشتري را ارايه دادند. اهميت اين تفاوتهاي ظريف آزماينده که ممکن است او به آنها واقف نباشد، بايد براي خواننده روشن باشد.

حتي مشکل غامضتر اين است که به آزمودنيها اغلب اجازه داده مي شود که پاسخهاي مختلف چندي بدهند که طولهاي نابرابري دارند. احتمالاً اثر محتواي روان شناختي يک پاسخ يا مجموعه پاسخهاي طولاني در مقايسه با يک پاسخ کوتاه متفاوت است. پاسخهاي کوتاه در آزمون رورشاخ يا TAT، عمدتاً مواد رايج يا پيش پا افتاده را شامل مي شوند. پراکندگي در طول پاسخ همچنين انجام مقايسه هاي آماري را بي اندازه مشکل مي کند.

مشکل ديگر در نمره گذاري تجلي مي کند. در بعضي آزمونها مانند MMPI، نمره گذاري جنبه مکانيکي دارد؛ يعني، هيچ گونه قضاوت ذهني در خصوص طبقه يک پاسخ صورت نمي گيرد يا قضاوت ذهني اندکي مورد استفاده قرار مي گيرد. همين موضوع در مورد بعضي از طبقه هاي نمره گذاري آزمونهايي مانند رورشاخ صادق است. براي مثال، هنگامي که داده ها جمع آوري مي شوند، تعيين تعداد کل پاسخهاي ارايه شده شامل هيچ قضاوتي نيست و يا قضاوت ناچيزي را در بر مي گيرد. به همين ترتيب، اندازه گيري بلندي يک شکل نقاشي يا مساحت کل آن، يک روش نسبتاً مکانيکي است. ولي با اين حال، تعيين اکثر نمره هاي حاصل از آزمونهاي فرافکن شامل چندين قضاوت ذهني است، براي مثال، آيا اين پاسخ رورشاخ شامل رنگ يا حرکت انسان است؟ آيا اين داستان TAT نياز به پيشرفت يا مهرورزي را نشان داده و يا اينکه هر دو را نشان مي دهد؟ در خصوص آن دسته از آزمونهاي فرافکن که چند روش نمره گذاري مختلف ولي مشابه را در بر مي گيرند، مشکل حتي شديدتر است.

اگرچه سؤال مربوط به پايايي نمره گذار به طور ساده يک توافق بين داوران و درون داوران است، ولي بايد به خاطر داشت که ناپايايي نمره گذاري در ناپايايي آزمون تأثير مي گذارد. مورستاين(820) (1963، ص 146-144) جدول خلاصه اي از پاياييهاي نمره گذاران را در خصوص ويژگيهاي نمره گذاري شده از آزمون TAT ارايه کرده است. از 45 مطالعه اي که پايايي تحت لواي همبستگي در آنها گزارش شده بود، ميانه پايايي نمره گذاران 0/74 به دست آمد. با پاياييهايي از اين دست، مشکلات دستيابي به سطوح قابل قبول پايايي آزمون در واقع زياد هستند. با وجود اين، مي توان در اين زمينه به پاياييهاي بالاتري نيز دست يافت. در اين خصوص، هولت(821) (1978) داده هاي TAT حاصل از چند منبع را گزارش کرد که حاکي از پايايي بالاي نمره گذاران تا سقف 0/90 بودند. دستيابي به ضرايب پايايي بالا معمولاً شامل راهنماهاي مبسوطي است که طبقه ها را با دقت تعريف کند و مثالهاي نمره گذاري را ارايه دهد. از آنجايي که کاربرد چنين راهنماهايي نيازمند توجه زياد و تلاش وافر در تعميم دادن يک نمره واحد است، آنها بيشتر به جاي قاعده يا حکم، موارد استثنايي را نشان مي دهند.

پايايي تفسير کلي


توجه بيش از حد به رويکردهاي مختلف در تعيين پايايي ممکن است از لحاظ علمي خطر از دست دادن موضوع اصلي در پايايي را به همراه داشته باشد. آزمونها فنون جمع آوري اطلاعات مربوط به شخصيت هستند و معمولاً در خصوص ارايه پيش بيني هايي درباره رفتار آتي بر مبناي عملکرد شخصيت استوارند. به همين دليل، توجه غايي ما به پايايي بايد معطوف اين باشد که کدام آزمون مطرح است؛ يعني، هرگاه آزمون رورشاخ براي به دست آوردن توصيف جامعي از عملکرد کلي شخصيت به کار رود، آن گاه موضوع اصلي، پايايي اين توصيفهاي کلي است و نه پايايي طبقه هاي نمره گذاري فردي.

در ارزيابي پاياييهاي کلي چه چيزي مورد توجه قرار دارد؟ اين روشها به روشهايي شباهت دارند که قبلاً توصيف شدند. براي مثال، پايايي حاصل از روش دو نيمه سازي را مي توان با مقايسه تفسيرهاي حاصل از بررسي نيمه هاي قابل مقايسه آزمون ارزيابي کرد؛ پايايي حاصل از روش بازآزمايي شامل مقايسه تفسيرهاي حاصل از دو اجراي مختلف آزمون است؛ و پايايي بين داوران را مي توان با مقايسه تفسيرهاي حاصل از اجراي يک آزمون که توسط داوران مختلف صورت گرفته است، تعيين کرد. پايايي بين آزمايندگان را نيز مي توان به روش مشابهي ارزيابي کرد.

براي ارايه توصيفهاي کلي شخصيت که به طور آماري مي توان به همين شيوه آنها را با يکديگر مقايسه کرد، چهارچوبهاي توصيفي چندي در خصوص شخصيت مورد نياز است. يک روش موسوم کاربرد مجموعه اي از مقياسها يا ابعاد درجه بندي است که با آزمون و نوع اطلاعات توصيفي مورد نياز متناسب هستند. بدين ترتيب، تفسير به دنبال بررسي طرح کلي آزمون، با اختصاص دادن نمره ها يا جايگاهها به آزمودنيها بر اساس اين مقياسها صورت مي گيرد. يا آزمايندگان مي توانند به تعدادي از سؤالهاي صحيح - غلط يا چندگزينه اي در خصوص موضوع پاسخ دهند. روش مرسوم ديگر، استفاده از فن دسته بندي پرسش است. يک دسته بندي پرسش معمولي شامل 100 کارت است که هر کدام يک توصيف شخصيت را در بر مي گيرد. از آزماينده خواسته مي شود که طرح کلي آزمون را مطالعه کند و بعد، عبارتهاي توصيفي را در 9 دسته طبقه بندي کند که از حداقل وصف حال تا حداکثر وصف حال آزمودني را در بر مي گيرد. تعداد کارتهايي که در هر دسته قرار مي گيرند از قبل تعيين مي شوند. به طوري که هر داور توزيع يکساني از کارتها را به دست مي دهد. در تمام اين فنون، همبستگي رتبه اي يا درصد توافق روشها را مي توان براي تعيين يک شاخص عددي پايايي به کار برد (هرگاه قصد داشته باشيم که پاياييهاي مربوط به يک آزماينده واحد را تعيين کنيم، تعداد طرحهاي آزمونهاي مورد داوري بايد به اندازه کافي زياد باشد که آزماينده نتواند به ياد آورد يا حدس بزند که کدام مورد به کدام آزمودني تعلق داشته است).

پايايي به دست آمده از هر روش ارزيابي بايد با کاربرد همان روش متناسب باشد. هرگاه پيش بيني هاي مربوط به رويدادهاي به خصوصي ارايه شود، پايايي اين پيش بيني ها بايد مورد بررسي قرار گيرد. هرگاه توصيفهاي کلي شخصيت مورد توجه باشد، اين پاياييهاي آنهاست که مورد توجه قرار مي گيرند. گرچه اغلب منابع اساسي ديگري نيز در زمينه پايايي وجود دارد (مانند پايايي نمره گذار) که پاياييهاي نهايي به آنها بستگي دارند، پايايي روش مورد استفاده، سؤال مربوط به علاقه نهايي است.

پي نوشت:


807- Ghiselli

808- Nunnally

809- Bernstein

810- Dahlstrom

811- Welsh

812- Raymond B. Cattell

813- Gleser

814- Nanda

815- Rajaratnam

816- Jones

817- Reid

818- Holtzman

819- Gross

820- Murstein

821- Holt


منبع:تالیف:آی . لانیون،ریچارد و دی فلئونارد ، ترجمه:نقشبندی،سیامک و .... «ارزيابي شخصيت» ، نشر روان ،1385

+ نوشته شده در  دوشنبه 22 خرداد1391ساعت   توسط محمد حسین ضرغامی  | 

اعتبار و پايايي

در اين مقاله با تفصيل به مفاهيم پايايي و اعتبار پرداخته ایم . اين بررسي براي دستيابي به يک درک مناسب از چشم انداز و محدوديتهاي روشهاي ارزيابي مختلف ضروري است. در عين حال، عوامل نامربوط نظامدار يا تحريفهاي پاسخ نيز مورد بحث قرار گرفته اند. اين تحريفها که بر کاربرد شيوه هاي ارزيابي شخصيت اثر مي گذارند، مشکل کوششهاي عمدي و حتي ناهشيار را براي ايجاد يک تأثير مطلوب (يا نامطلوب) در ديگران در بر مي گيرند.

پايايي، همان طوري که از نام آن بر مي آيد، به قابليت تکرار يا اعتماد يک اندازه يا شاخص مربوط مي شود. به عنوان يک مثال بسيار ساده، مي توان گفت که ديروز ما قد يک کودک را اندازه گرفته و مقدار 122/68 سانتي متر را به دست آورده ايم. ولي امروز فرد ديگري قد همان کودک را اندازه گرفته و مقدار 122/93 سانتي متر را گزارش کرده است. اين دو مقدار تا اندازه زيادي با يکديگر هماهنگ هستند؛ يعني، ما نوعي اندازهگيري اوليه از قد کودک را در نظر گرفته ايم که در بررسي مجدد تأکيد يا تکرار شده است. اين 0/25 سانتي متر اختلاف، اين واقعيت را نشان مي دهد که تکرار اندازه گيريها تقريباً همواره تا اندازه اي ثبات يا پايايي دارد و پذيرش اين نتيجه از جانب ما نشان مي دهد که اين بي ثباتي به اندازه اي نيست که سودمندي آن را انکار کنيم. بدين ترتيب، اختلاف 0/25 سانتي متر تحت اين شرايط به اندازه اي ناچيز است که مي توان آن را بي اهميت تلقي کرد. با وجود اين، در ساير اندازه گيريهاي فيزيکي اين سطوح تحمل بسيار کم هستند، مانند سيلندر موتور که اين تفاوت، اهميت بسياري دارد و سطح بالاتري از پايايي اندازه گيري مورد نياز است.

پايايي همان دقت نيست. دقت به ميزان صحتي اشاره مي کند که اندازه گيري را بر اساس آن مي توان مشخص کرد؛ بدين ترتيب، يک شيوه اندازه گيري که به ما امکان مي دهد تا نتايج را بر اساس يک هزارم سانتي متر گزارش کنيم، دقيقتر از آن اندازه گيري است که نتايج را بر اساس يک دهم سانتي متر به دست مي دهد. درجه دقت يک ابزار مکانيکي که امکان اندازه گيري 2/432 را فراهم مي سازد، يک هزارم سانتي متر است، ولي اگر تحت شرايط يکسان اين وسيله، مقدار 2/381 سانتي متر را به دست دهد، پايايي اين اندازه گيري به هيچ وجه منطبق با دقتي نخواهد بود که اين ابزار از آن برخوردار است.

اين ويژگي که اندازه گيريها را بايد "به اندازه کافي دقيق" انجام داد، در ارزيابي شخصيت نيز کاربرد دارد. اندازه گيري شخصيت در مقايسه با اندازه گيري خصوصيات فيزيکي مانند قد، هميشه نسبتاً فاقد دقت است؛ و بنابراين، تا اندازه اي ناپاياست. بدين ترتيب، ميزان دقت يک ابزار ارزيابي شخصيت بايد با پايايي آن همخواني داشته باشد. براي کساني که از چنين ابزارهايي استفاده مي کنند معمولاً ميزان شاخص پايايي مشخص شده است. ما مجدداً در يک فرصت مناسب به موضوع پايايي باز خواهيم گشت.

اندازه گيري شخصيت داراي شکل ديگري نيز هست که در اندازه گيريهاي فيزيکي به چشم نمي خورد و آن به استانداردهاي مورد قبولي مربوط مي شود که بر اساس آنها اندازه گيريها صورت مي گيرند. هيچ ترديدي وجود ندارد که يک ياردسنج (يا يک مترسنج) براي اندازه گيري فواصل خطي مانند قد مناسب است. با وجود اين، در ارزيابي شخصيت، غالباً سؤالهايي درباره صحت و دقت ابزارهاي اندازه گيري به منظور ارزيابي بُعد يا ويژگي مورد بررسي مطرح مي شوند. براي مثال، آيا واقعاً مي توان افسردگي را با شمارش پاسخهاي رنگي به موارد بي رنگ در آزمون رورشاخ اندازه گرفت؟ در اين مورد، نه تنها سؤال مربوط به شمارش پاياي اين پاسخها مطرح است، بلکه شکل ديگر و جدي تر اين است که آيا شمارش پاسخهاي رنگ به اندازه گيري درستي از افسردگي مي انجامد، درست به همان شيوه اي که علايم مندرج ياردسنج به شاخص معتبري از قد منجر مي شود (صحت يا اعتبار ابزارهاي اندازه گيري مورد استفاده در اندازه گيريهاي فيزيکي که درجات بسيار بالايي از دقت لازم را دارد، مشکلات چندي ايجاد کرده است.)

چون پيش از آنکه بتوانيم تعيين کنيم که آيا اندازه گيري در واقع به مفهوم مورد نظر مربوط مي شود يا خير، بايد از پايايي مناسب برخوردار باشد، ابتدا به بحث درباره پايايي مي پردازيم. معيارهاي آزمون تربيتي و روان شناختي که يک راهنماي عملي براي پايايي و اعتبار است، براي چندين سال توسط انجمن روان شناسي آمريکا انتشار يافته است (براي مثال، انجمن پژوهش تربيتي آمريکا- انجمن روان شناسي آمريکا- شوراي ملي اندازه گيري در تربيت، 1985) و تمام افرادي که فعالانه در ساختن ابزارهاي اندازه گري شخصيت و کاربرد آنها شرکت دارند، بايد اين راهنما را به دقت مطالعه کنند. کتاب راهنمايي که به منظور استفاده ويژه در زمينه انتخاب استخدامي به کار مي رود و با اين کتاب راهنما قابل مقايسه است، توسط شاخه روان شناسي صنعتي- سازماني انجمن روان شناسي آمريکا (1980) منتشر شده است. در اين کتاب راهنما توجه خاصي به موارد اعتبار و پايايي و تهيه ملاکها مبذول شده است و منبع مرجع سودمندي در اين زمينه ها محسوب مي شود.

پايايي


پايايي به قابليت تکرار يا قابليت اعتماد اندازه گيري اشاره دارد. در يک موقعيت فرضي که روش اندازه گيري کاملاً پاياست، فرض مي شود که هر گونه تغييري در اندازه گيري حاصل نشان دهنده يک تغيير واقعي در صفت مورد مطالعه است. بدين ترتيب، در چنين نظامي، افزايش يک کيلوگرم در مقياس نشان خواهد داد که وزن شيء مورد نظر دقيقاً يک کيلوگرم زياد شده است؛ به همين ترتيب، افزايش نمره حاصل از يک مقياس افسردگي نشان خواهد داد که پاسخ دهنده در حال حاضر افسردگي بيشتري دارد. پايايي يک اصطلاح کلي است؛ اصطلاحهاي همساني و ثبات به ترتيب براي توصيف پايايي وابسته به ابزار و پايايي مربوط به زمان به کار مي روند.

همساني به ميزان توافقي اشاره مي کند که از به کارگيري دو يا چند ابزار اندازه گيري (يعني، مقياسها، خط کشها يا آزمونها) حاصل مي شود. هر گونه ابزار اندازه گيري يا مجموعه ابزارها را مي توان برگرفته از جامعه گسترده اي از اين ابزارها (چه واقعي يا چه فرضي) در نظر گرفت که مي توان از آنها براي اندازه گيري اين صفت خاص استفاده کرد. همساني معمولاً با به کارگيري يک آزمون يا آزمونهاي همزمان ديگر مورد ارزشيابي قرار مي گيرد که ترجيحاً به طور تصادفي از جامعه در دسترس اندازه گيريها انتخاب مي شوند. اگرچه اين موضوع در اندازه گيري ابعاد فيزيکي مانند قد يا وزن به مشکلات اندکي مي انجامد، ولي با اين حال، مشکلات چندي را در ارزيابي شخصيت ايجاد مي کند. ما به زودي اين مشکلات را مورد بررسي قرار خواهيم داد.

ثبات به دقت اندازه گيري حاصل با گذشت زمان اشاره دارد. چنانچه از ابزار ديگري براي اندازه گيري مجدد استفاده شود، بازآزمايي با گذشت زمان علاوه بر ثبات، همساني را نيز شامل مي شود. هرگاه در دو بار اندازه گيري از يک ابزار استفاده شود، ارزيابي مستقيم ثبات اندازه گيري را مي توان انجام داد. بدين ترتيب، ناتواني در رسيدن به پايايي کامل به واسطه ناهمسانيها يا خطاهايي است که تابع تغييرات حاصل در نظام مورد نظر با گذشت زمان يا تابع تغييرات مربوط به ابزار مورد نظر و يا هر دو هستند.

به طور کلي، پايايي به شواهد مختلفي اشاره مي کند که در صدد توصيف يک توافق کلي ميان عمليات اندازه گيري هستند. هر کدام از اين شواهد بر منبع معيني از عدم توافق يا خطا تأکيد مي کند و بقيه منابع را ناديده مي گيرد. اندازه گيري شخصيت شامل گرفتن نمونه اي از رفتار در يک زمان و روز معين در قبال مجموعه معيني از محرکهاست. البته اين پاسخها بايد بر طبق يک شيوه معين توسط يک آزماينده خاص ثبت شوند. بعضي از خطاهاي نمونه گيري با هر کدام از اين "موارد خاص" رابطه دارند. اين زمان خاص نمونه اي از يک دوره زماني است و اين مجموعه خاص از محرکها يا سؤالها نمونه اي از يک دسته واقعي يا فرضي از محرکها در دسترس است. بسيار اهميت دارد که بتوانيم مشخص کنيم که يک پاسخ يا نمره خاص، احتمالاً تا چه اندازه به عنوان تابعي از تغييرات در هر کدام از اين خصوصيات اندازه گيري تغيير مي کند. متأسفانه، اين نوع اطلاعات به ندرت در ارزيابي شخصيت به چشم مي خورد. 

بررسي کتاب هاي درسي در زمينه نظريه روان سنجي (براي مثال گيزلي(807)، 1964؛ نانالي(808)و برنشتاين(809)، 1994) نشان مي دهد که فرضهاي فلسفي متخصصان در زمينه مبناي اندازه گيري روان شناختي با يکديگر متفاوت است. اين تفاوتها در فلسفه به تفاوتهاي چندي در توصيف دقيق مفهوم و معناي پايايي و تفاوتهايي در شيوه هاي پيشنهادي براي اندازه گيري پايايي يک شاخص انجاميده است. در اين فصل، ما مي کوشيم تا مسير ميانه اي را از ميان رويکردهاي مختلف برگزينيم و در عين حال، علاوه بر موضوعهايي که فراتر از طيف اين کتاب قرار مي گيرند، از ناهمسانيها نيز اجتناب کنيم.

ما با اين نکته شروع مي کنيم که پايايي به طور تنگاتنگي با مفهوم خطاي اندازه گيري رابطه دارد. خطاهاي اندازه گيري را مي توان به صورت منظم يا تصادفي در نظر گرفت. هرگاه ما زمان را از روي ساعتي مشاهده کنيم که همواره پنج دقيقه جلوست، مرتکب يک خطاي منظم شده ايم. از طرف ديگر، هرگاه اين ساعت درست ولي به اندازه اي دور از ما قرار گرفته باشد که ما نتوانيم عقربه دقيقه شمار را بخوانيم، مرتکب يک خطاي تصادفي شده ايم. خطاهاي منظم را مي توان به صورت خطاهايي در نظر گرفت که با اشتباههاي معلوم رابطه دارند؛ و خطاهاي تصادفي را که به متوسط نمره درست يا مطلق گرايش دارند، مي توان زماني به صورت "موارد نامعلوم" در مشاهده در نظر گرفت که تمام خطاهاي منظم شناسايي يا حذف شده باشند.

به عبارت ديگر، خطاهاي اندازه گيري تصادفي با روش اندازه گيري "شکل مي گيرند"، درست مانند زماني که مي کوشيم با يک خط کش که تنها با اينچ مدرج شده است با تقريب يک دهم اينچ اندازه گيري کنيم يا هنگامي که سعي مي کنيم "افسردگي" را با يک پرسشنامه مداد و کاغذي کلي که فاقد ويژگيهاي باليني ضروري افسردگي است، ارزيابي کنيم. برخلاف اين خطاهاي تصادفي که اجتناب از آنها مشکل است، خطاهاي منظم مشخص تر و صحيح تر هستند. به يک معنا، خطاهاي منظم ناشي از سازنده يا استفاده کننده آزمون هستند تا اينکه به خود ابزار اندازه گيري برگردند. هرگاه ما يک مقياس افسردگي را روي آزمودنيهايي اجرا کنيم که در يک فرهنگ (يا خرده فرهنگ) متفاوت زندگي مي کنند در مقايسه با آزمودنيهايي که از هنجارهاي مناسبي برخوردارند، يا هرگاه دستورالعملهاي فشارزايي را به کار ببريم که آشکارا از دستورالعملهاي مربوط به جامعه هنجاري متفاوت باشند، در معرض خطاي منظم قرار خواهيم داشت. اين خطاهاي منظم بالقوه را مي توان و البته بايد با تنظيم هنجارهاي جديد مبتني بر گروه فرهنگي مناسب يا شرايط ديگر سنجش تصحيح کرد.

نظريه پردازان روان سنجي در کوششهاي خود براي به کميت درآوردن پايايي، به طور سنتي به مشخص کردن سهم خطاهاي تصادفي در پايايي کم پرداخته اند. عقايد آنها درباره اينکه آيا بايد خطاهاي منظم را نيز به عنوان منبع ناپايايي اندازه گيري در نظر گرفت با يکديگر اختلاف دارد، و از اين رو، ماحصل اين اختلاف عقيده در شاخص عددي پايايي انعکاس يافته است. تعدادي از شاخصهاي متداول پايايي نشان دهنده خطاي تصادفي هستند؛ و تعدادي نيز بعضي از منابع خطاي منظم و نه تمام آنها را نشان مي دهند. در نسخه تجديدنظرشده جديدتر معيارهاي سنجش تربيتي و روان شناختي (1985) با تصديق اين موضوع که روشهاي مختلف محاسبه پايايي، شامل منابع مختلف خطا هستند، توصيه شده است که پژوهشگران بايد دقيقاً روشن کنند، چه روشهايي را در به دست آوردن شاخص پايايي خاص مورد نظر به کار برده اند.

اکنون به روشهاي متداول محاسبه پايايي توجه کنيد. شاخص سنتي پايايي، ضريب پايايي است که مي توان آن را هم به عنوان همبستگي بين نمره هاي واقعي آزمون و نمره هاي "واقعي" فرضي و هم به عنوان متوسط همبستگي بين نمره هاي واقعي آزمون و ساير آزمونهاي احتمالي که همان خصوصيت را اندازه مي گيرند، در نظر گرفت. رويکردهاي عملي زير که براي محاسبه پايايي به کار مي روند، با اين تعريف شباهت دارند.

همان طوري که قبلاً اشاره کرديم، آن نوع پايايي که صرفاً با خطاي تصادفي رابطه دارد (خطاهاي ناشي از اين واقعيت که محتواي آزمون صرفاً نمونه اي از کل محتواست که ويژگي مورد نظر را در بر مي گيرد)، ثبات يا ثبات دروني آزمون ناديده مي شود. ثبات را مي توان به شيوه هاي مختلف ارزيابي کرد. يک روش، تقسيم آزمون به دو نيمه قابل مقايسه است که با يکديگر همبسته هستند. بدين ترتيب، همبستگي حاصل با استفاده از فرمولي که فرمول پيشگويي اسپيرمن - براون ناميده مي شود، با توجه به ارزش مورد انتظار براي کل آزمون "تصحيح" مي شود. چنين برآوردي از ثبات که با مقايسه ماده هاي زوج و فرد آزمون به دست مي آيد، ثبات پايايي از طريق دو نيمه کردن ناميده مي شود. روش ديگر، تعيين ثبات از طريق کاربرد نسخه هاي مشابه يا جانشين (يا موازي) آزمون است. همبستگي بين اين نسخه ها اساساً با همبستگي تصحيح شده بين دو نيمه آزمون مطابقت مي کند. هنگامي که نسخه هاي جانشين در دسترس نباشند، راه حل رايج، استفاده از روش بازآزمايي است. همبستگي بين اين دو مجموعه از نمره ها ضريب پايايي بازآزمايي ناميده مي شود.

يکي ديگر از روشهاي محاسبه پايايي که از لحاظ آماري تا اندازه اي پيچيده تر است، با استفاده از فرمول پايايي کودر- ريچاردسون صورت مي گيرد (کودر و ريچاردسون، 1937). مهمترين اجزاي اين فرمول شامل درصد ماده هاي نمره گذاري شده به شيوه اي خاص، همبستگيهاي بين ماده ها و نمره کل و انحراف معيار آزمون است. اين داده ها در فرمولي قرار مي گيرند که برآورد خوبي از ثبات را به دست مي دهد، به شرطي که آزمون مورد نظر تنها يک عامل آماري را اندازه گيري کند. متداولترين ضريب پايايي از اين دست که ضريب آلفا (کرونباخ، 1951) ناميده مي شود، "ميانگين تمام ضرايب دو نيمه سازي حاصل از نيمه هاي مختلف آزمون است (آناستازي، 1988)، قطع نظر از اينکه اين ماده ها دوارزشي يا چندارزشي هستند". دشواريهاي اين روش فراتر از دامنه اين کتاب هستند، ولي با اين حال، اين روشها در بسياري از کتابهاي درسي روان سنجي مورد بحث قرار گرفته اند.

همبستگيهاي بازآزمايي و نسخه هاي جانشين اطلاعاتي را فراتر از ثبات آزمون به دست مي دهند. چنانچه آزمودنيها در هنگام اجراي آزمون مجدد، پاسخ بعضي از ماده ها را به ياد آورند، امکان دارد که همان پاسخها را صرفاً بر اساس حافظه بدهند؛ يعني، يک اثر منظم که ممکن است به افزايش ساختگي اين همبستگي بينجامد. يا همان طوري که قبلاً بدان توجه شد، شرايط اجراي يک جلسه آزمون از يک نوبت به نوبت بعدي ممکن است تغيير کند و اين امر به منابع ناشناخته خطاي منظم مي انجامد. يا آزمودنيها ممکن است خصوصيتي را که اندازه گيري مي شود تغيير دهند، در چنين شرايطي از ميزان ضريب پايايي کاسته مي شود.

در عمل از کدام روش محاسبه ضريب پايايي بايد استفاده کرد؟ يک پاسخ ساده اين است که ضريب پايايي بايد انواع مختلف خطاهايي را که استفاده کننده آزمون به آنها علاقه مند است، انعکاس دهد. بنابراين، هرگاه ما در اندازه گيري يک مفهوم به پايايي آزمون علاقه مند باشيم، شاخص ثبات (آلفاي کرونباخ يا دو نيمه سازي) مناسب خواهد بود. چنانچه در اجراهاي مکرر و تحت شرايط مختلف به ثبات آزمون توجه نشان دهيم، آن گاه پايايي بازآزمايي يا نسخه هاي جانشين از مناسبت بيشتر برخوردار خواهند بود. در شرايط آرماني، سازنده آزمون هر دو مجموعه از داده ها را فراهم خواهد ساخت.

حدود قابل قبول ضرايب پايايي کدام اند؟ براي پاسخ به اين سؤال، ما بايد به شيوه اي توجه کنيم که بر اساس آنها، اين ضرايب را مي توان در عمل به کار برد. معمولاً، کليد اصلي به خطاي معيار اندازه گيري مربوط مي شود؛ کميتي که مستقيماً از روي ضريب پايايي و انحراف معيار نمره هاي حاصل به دست مي آيد. اگر ضريب پايايي را با r و انحراف معيار را با s نشان دهيم، خطاي معيار اندازه گيري را مي توان با توجه به فرمول sراديکال r-1 محاسبه کرد. براي نشان دادن معنا و کاربرد خطاي معيار اندازه گيري، مقياس Sc مربوط به MMPI را در نظر بگيريد. برآوردهاي ثبات دروني (ضرايب همبستگي دو نيمه آزمون) اين مقياس در حدود 0/91 گزارش شده است (دالستروم(810)، ولش(811) و دالستروم، 1975، ص 260). انحراف معيار تمام مقياسهاي MMPI براي نمره هاي مقياس بندي شده برابر با 10 است. حال خطاي معيار اندازه گيري را مي توان از فرمول ياد شده محاسبه کرد که برابر است با 10 راديکال 0/9-1 يا 3؛ يعني، مي توان گفت که هرگاه امکان اجراي اين آزمون به دفعات بسيار زياد وجود داشته باشد، متوسط نمره هاي Sc حاصل برابر با نمره هاي "واقعي" مي شود، ولي اين نمره ها با انحراف معيار 3 پيرامون اين ميانگين توزيع مي يافتند.

اگر توزيع نمره ها کاملاً نامتقارن نباشد، تقريباً دوسوم نمره ها در داخل يک انحراف معيار نسبت به ميانگين قرار مي گيرند. بنابراين، احتمال اينکه نمره حاصل از هر اجراي آزمون معين در سه واحد نسبت به نمره "واقعي" قرار گيرد، حدود دوسوم است. به عبارت ديگر، اگر يک پاسخ دهنده در مقياس Sc نمره 55 را کسب کند؛ احتمال اينکه نمره "واقعي" در سه واحد نمره 55، يعني، 52 و 58 قرار گيرد، دوسوم است. با همين استدلال، از آنجايي که حدود 95 درصد نمره هاي يکتوزيع کاملاً متقارن در دو انحراف معيار نسبت به ميانگين قرار مي گيرند، 95 درصد يا 19 مورد از 20 مورد احتمال وجود دارد که نمره واقعي پاسخ دهنده در فواصل 6 واحدي نمره 55، يعني بين 49 و 61 قرار گيرد.

همان طوري که تا اندازه اي در مورد مقياس D آزمون MMPI صادق است، فرض کنيد که مقدار اين ضريب پايايي (دو نيمه سازي) به جاي 0/91 برابر با 0/75 باشد (دالستروم، ولش و دالستروم، 1975، ص 260). با توجه به انحراف معيار 10، اين فرمول مقدار خطاي معيار اندازه گيري را برابر با 10 راديکال 0/75-1 يا 5 نشان مي دهد. اين موضوع در عمل به معناي آن است که هرگاه پاسخ دهنده اي در مقياس D نمره 60 را به دست آورده باشد، و ما بخواهيم دامنه اي را چنان تعيين کنيم که با احتمال 95 درصد نمره "واقعي" را در برگيرد، اين دامنه بايد بين 50 تا 70 باشد. هر چقدر ضريب پايايي کمتر باشد، ميزان اعتمادي را که مي توان نسبت به نمره به عنوان برآوردي از ميزان "واقعي" خصوصيتي داشت که پاسخ دهنده آن را داراست، کمتر است.

نظريه تعميم پذيري


در سال 1964، ريموند بي.کتل(812) سه روش عمده را مطرح کرد که بر اساس آنها "اثبات آزمون" را مي توان اندازه گيري کرد (البته وي اين اصطلاح کلي را بيشتر از اصطلاحهاي ديگر ترجيح مي داد). اولين روش، ثبات و توافق نمره ها در دفعات متوالي اجراست؛ يعني، تغييراتي که در يک آزمون و روي يک گروه از افراد در زمانهاي مختلف صورت مي گيرد. کتل اين ثبات را "پايايي" ناميد. دومين نوع ثبات به آزمونهاي مختلف ( يا بخشهاي يک آزمون که معمولاً ماده هاي انفرادي هستند) بر مي گردد و شامل توافق مربوط به يک بار اجراست که با استفاده از چند آزمون (يا بخشهاي آزمون) روي يک گروه از افراد صورت مي گيرد. اين ثبات "همگني" ناميده مي شود. نوع سوم ثبات به افراد مختلف بر مي گردد و شامل توافقي است که در مورد معناي نمره هاي يک آزمون که در يک زمان معين روي مجموعه هاي مختلفي از افراد اجرا شده است. اين نوع ثبات "انتقال پذيري" ( يا سرسختي) ناميده مي شود.

در يک رويکرد مشابه، کرونباخ، گليزر(813)، ناندا(814) و راجارتنام(815) (1972) فرض کردند که اساسي ترين موضوع در پايايي، سؤال مربوط به تعميم دادن مشاهده ها يا اندازه گيريها به طبقه ديگري از مشاهده هاست. بنابراين، به نظر آنها پايايي بايد به بررسي ميزاني مربوط شود که بر اساس آن، نمره هاي حاصل، معرف نمره هاي به دست آمده از شرايط ديگر يا "مجموعه هاي مرجع" مختلف است. مثالها مطالعه نمره هاي حاصل از نمره گذاران مختلف، ماده هاي آزمون، روشها، مشاهده کننده ها يا دفعات مختلف را در بر مي گيرند. همان طوري که در يک بحث دقيق درباره اين روش توسط ويگينز(1973) مورد تأکيد قرار گرفت، يکي از مزيتهاي اصلي اين روش در آن است که پژوهشگران را وا مي دارد که در خصوص مجموعه مرجع خاصي که مايل اند مشاهده هاي خودشان را بدان تعميم دهند، صريح و روشن باشند. اين امر تا اندازه اي از تمايز سنتي بين پايايي و اعتبار مي کاهد. جونز(816)، ريد(817) و پترسون(1975) در نظام کدگذاري رفتاري خودشان، مثال خوبي را در زمينه مطالعه کمّي تعميم پذيري گزارش کردند. در اين مطالعه، آزمودنيها، مشاهده کنندگان و دفعات مختلف، مجموعه هاي مرجع تعميم بودند.

پايايي و فنون فرافکن


نمره هاي کمّي حاصل از آزمونهاي فرافکن چنانچه با روشهايي که توصيف شدند ارزيابي شوند، اغلب پايايي اندکي دارند. از آنجايي که پايايي يک اندازه يا شاخص، حد بالايي را بر سودمندي بالقوه يا اعتبار آن تحميل مي کند، پاياييهاي کم اغلب در بررسيهاي پژوهشي روي اين آزمونها مسئول اعتبارهاي پايين قلمداد مي شوند. از طرف ديگر، همچنين استدلال شده است که روشهاي معمول براي ارزيابي پايايي را نمي توان براي ابزارهاي فرافکن به کار برد. براي مثال، گفته مي شود که روش دونيمه سازي براي آزمون رورشاخ نامناسب است، زيرا غيرممکن است که بتوان اين ده کارت را به گونه اي تقسيم کرد که دو نيمه قابل مقايسه را به دست دهد. پايايي بازآزمايي را نيز نمي توان به کار برد، زيرا آزمون مجدد، در واقع، يک تجربه روان شناختي متفاوت از آزمون اوليه است و چون گفته مي شود که فنون فرافکن نسبت به تغييرات جزيي در آزمودني حساس هستند، در واقع، به نظر مي رسد که در برخي از آزمونهاي فرافکن فرض مي شود که اين ابزارها کاملاً پايا هستند و اينکه تغييرات مشاهده شده در پاسخهاي آزمون با گذشت زمان مؤيد تغييرات واقعي در فرد هستند. بسياري از ويژگيهايي که اين آزمونها با آنها سرو کار دارند، مانند خُلق يا سطح انرژي با گذشت زمان تغيير مي کنند و بدين وسيله استدلال محکمي را دال بر اين مفروضه به دست مي دهند. با وجود اين، هر گونه شناخت واقعي از مشکلات پايايي اندازه گيري بايد به اين نتيجه منجر شود که بسياري از اين تغييرات، اگرچه نه همه آنها، تابعي از پايايي فرعي اين ابزارهاست. 

مشکلات اندازه گيري در ناپايايي هر آزمون تأثير دارد، ولي بعضي از مشکلات به ويژه در خصوص ابزارهاي فرافکن ايجاد مي شود. به طور کلي، مواد محرک مورد استفاده در آزمونهاي فرافکن با توجه به اينکه طبقه هاي نمره گذاري مختلف به طور مناسبي بر اساس محرکها تنظيم شوند، انتخاب نمي شوند. براي مثال، متوسط تعداد پاسخهاي حرکت (M) براي افرا غيربيمار در آزمون رورشاخ با توجه به انحراف معيارحدود 2، برابر 4 و متوسط جزئيات نادر (Dd) تنها برابر يک است (اکسنر، 1990). در عمل حداکثر پايايي اين اندازه گيريها همان طوري که نشان دادن اعتبارهاي معنادار امري تقريباً غيرممکن است، پايين است.

غالباً همان طور که در مورد آزمون TAT صادق است، نظامهاي نمره گذاري تا چند سال بعد از اينکه مواد محرک انتخاب شده باشند، تنظيم نخواهند شد. در آزمون TAT، آزمايندگان حتي در اين مورد اختيار دارند که کدام محرک را سرانجام به کار ببرند. اين رشد اتفاقي طبقه هاي نمره گذاري در ميزان پاياييهاي کم، تأثير دارد. نمره هاي نسبي (و تفاوت آنها) همان گونه که در آزمون رورشاخ به کار مي روند، به ويژه نسبت به پاياييهاي کم، حساس هستند. هولتزمن(818) در تهيه HIT، به انتخاب کارتهايي توجه کرد که در کميتهاي نمره گذاري تأثير خاصي داشتند؛ در نتيجه، پاياييهاي اکثر طبقه هاي HIT مناسبتر هستند. 

مشکل ديگر شامل استاندارد بودن دستورالعملهاست. راهنماييهاي مربوط به اجراي اکثر زبانهاي فرافکن استاندارد نشده اند، به طوري که به آزماينده امکان دهند تا به طور معناداري بر پاسخهاي آزمودني اثر گذارند. حتي اگرچه در نظام کنوني اکسنر(1986)، آزمون رورشاخ بر کاربرد ابزارهاي استاندارد شده تأکيد مي کند، آزماينده مي تواند هنوز تفاوت قايل شود. براي مثال، گراس(819) (1959) آزمون رورشاخ را روي 30 بيمار اجرا کرد، و در خصوص 20 نفر از آنها با گفتن "بسيارخوب" يا تکان دادن سر پس از هر پاسخ محتواي انسان تقويت اجتماعي را براي آنها فراهم کرد. بيماراني که بدين ترتيب تقويت شدند، در مقايسه با 10 نفر ديگر به طور معناداري پاسخهاي محتواي انسان بيشتري را ارايه دادند. اهميت اين تفاوتهاي ظريف آزماينده که ممکن است او به آنها واقف نباشد، بايد براي خواننده روشن باشد.

حتي مشکل غامضتر اين است که به آزمودنيها اغلب اجازه داده مي شود که پاسخهاي مختلف چندي بدهند که طولهاي نابرابري دارند. احتمالاً اثر محتواي روان شناختي يک پاسخ يا مجموعه پاسخهاي طولاني در مقايسه با يک پاسخ کوتاه متفاوت است. پاسخهاي کوتاه در آزمون رورشاخ يا TAT، عمدتاً مواد رايج يا پيش پا افتاده را شامل مي شوند. پراکندگي در طول پاسخ همچنين انجام مقايسه هاي آماري را بي اندازه مشکل مي کند.

مشکل ديگر در نمره گذاري تجلي مي کند. در بعضي آزمونها مانند MMPI، نمره گذاري جنبه مکانيکي دارد؛ يعني، هيچ گونه قضاوت ذهني در خصوص طبقه يک پاسخ صورت نمي گيرد يا قضاوت ذهني اندکي مورد استفاده قرار مي گيرد. همين موضوع در مورد بعضي از طبقه هاي نمره گذاري آزمونهايي مانند رورشاخ صادق است. براي مثال، هنگامي که داده ها جمع آوري مي شوند، تعيين تعداد کل پاسخهاي ارايه شده شامل هيچ قضاوتي نيست و يا قضاوت ناچيزي را در بر مي گيرد. به همين ترتيب، اندازه گيري بلندي يک شکل نقاشي يا مساحت کل آن، يک روش نسبتاً مکانيکي است. ولي با اين حال، تعيين اکثر نمره هاي حاصل از آزمونهاي فرافکن شامل چندين قضاوت ذهني است، براي مثال، آيا اين پاسخ رورشاخ شامل رنگ يا حرکت انسان است؟ آيا اين داستان TAT نياز به پيشرفت يا مهرورزي را نشان داده و يا اينکه هر دو را نشان مي دهد؟ در خصوص آن دسته از آزمونهاي فرافکن که چند روش نمره گذاري مختلف ولي مشابه را در بر مي گيرند، مشکل حتي شديدتر است.

اگرچه سؤال مربوط به پايايي نمره گذار به طور ساده يک توافق بين داوران و درون داوران است، ولي بايد به خاطر داشت که ناپايايي نمره گذاري در ناپايايي آزمون تأثير مي گذارد. مورستاين(820) (1963، ص 146-144) جدول خلاصه اي از پاياييهاي نمره گذاران را در خصوص ويژگيهاي نمره گذاري شده از آزمون TAT ارايه کرده است. از 45 مطالعه اي که پايايي تحت لواي همبستگي در آنها گزارش شده بود، ميانه پايايي نمره گذاران 0/74 به دست آمد. با پاياييهايي از اين دست، مشکلات دستيابي به سطوح قابل قبول پايايي آزمون در واقع زياد هستند. با وجود اين، مي توان در اين زمينه به پاياييهاي بالاتري نيز دست يافت. در اين خصوص، هولت(821) (1978) داده هاي TAT حاصل از چند منبع را گزارش کرد که حاکي از پايايي بالاي نمره گذاران تا سقف 0/90 بودند. دستيابي به ضرايب پايايي بالا معمولاً شامل راهنماهاي مبسوطي است که طبقه ها را با دقت تعريف کند و مثالهاي نمره گذاري را ارايه دهد. از آنجايي که کاربرد چنين راهنماهايي نيازمند توجه زياد و تلاش وافر در تعميم دادن يک نمره واحد است، آنها بيشتر به جاي قاعده يا حکم، موارد استثنايي را نشان مي دهند.

پايايي تفسير کلي


توجه بيش از حد به رويکردهاي مختلف در تعيين پايايي ممکن است از لحاظ علمي خطر از دست دادن موضوع اصلي در پايايي را به همراه داشته باشد. آزمونها فنون جمع آوري اطلاعات مربوط به شخصيت هستند و معمولاً در خصوص ارايه پيش بيني هايي درباره رفتار آتي بر مبناي عملکرد شخصيت استوارند. به همين دليل، توجه غايي ما به پايايي بايد معطوف اين باشد که کدام آزمون مطرح است؛ يعني، هرگاه آزمون رورشاخ براي به دست آوردن توصيف جامعي از عملکرد کلي شخصيت به کار رود، آن گاه موضوع اصلي، پايايي اين توصيفهاي کلي است و نه پايايي طبقه هاي نمره گذاري فردي.

در ارزيابي پاياييهاي کلي چه چيزي مورد توجه قرار دارد؟ اين روشها به روشهايي شباهت دارند که قبلاً توصيف شدند. براي مثال، پايايي حاصل از روش دو نيمه سازي را مي توان با مقايسه تفسيرهاي حاصل از بررسي نيمه هاي قابل مقايسه آزمون ارزيابي کرد؛ پايايي حاصل از روش بازآزمايي شامل مقايسه تفسيرهاي حاصل از دو اجراي مختلف آزمون است؛ و پايايي بين داوران را مي توان با مقايسه تفسيرهاي حاصل از اجراي يک آزمون که توسط داوران مختلف صورت گرفته است، تعيين کرد. پايايي بين آزمايندگان را نيز مي توان به روش مشابهي ارزيابي کرد.

براي ارايه توصيفهاي کلي شخصيت که به طور آماري مي توان به همين شيوه آنها را با يکديگر مقايسه کرد، چهارچوبهاي توصيفي چندي در خصوص شخصيت مورد نياز است. يک روش موسوم کاربرد مجموعه اي از مقياسها يا ابعاد درجه بندي است که با آزمون و نوع اطلاعات توصيفي مورد نياز متناسب هستند. بدين ترتيب، تفسير به دنبال بررسي طرح کلي آزمون، با اختصاص دادن نمره ها يا جايگاهها به آزمودنيها بر اساس اين مقياسها صورت مي گيرد. يا آزمايندگان مي توانند به تعدادي از سؤالهاي صحيح - غلط يا چندگزينه اي در خصوص موضوع پاسخ دهند. روش مرسوم ديگر، استفاده از فن دسته بندي پرسش است. يک دسته بندي پرسش معمولي شامل 100 کارت است که هر کدام يک توصيف شخصيت را در بر مي گيرد. از آزماينده خواسته مي شود که طرح کلي آزمون را مطالعه کند و بعد، عبارتهاي توصيفي را در 9 دسته طبقه بندي کند که از حداقل وصف حال تا حداکثر وصف حال آزمودني را در بر مي گيرد. تعداد کارتهايي که در هر دسته قرار مي گيرند از قبل تعيين مي شوند. به طوري که هر داور توزيع يکساني از کارتها را به دست مي دهد. در تمام اين فنون، همبستگي رتبه اي يا درصد توافق روشها را مي توان براي تعيين يک شاخص عددي پايايي به کار برد (هرگاه قصد داشته باشيم که پاياييهاي مربوط به يک آزماينده واحد را تعيين کنيم، تعداد طرحهاي آزمونهاي مورد داوري بايد به اندازه کافي زياد باشد که آزماينده نتواند به ياد آورد يا حدس بزند که کدام مورد به کدام آزمودني تعلق داشته است).

پايايي به دست آمده از هر روش ارزيابي بايد با کاربرد همان روش متناسب باشد. هرگاه پيش بيني هاي مربوط به رويدادهاي به خصوصي ارايه شود، پايايي اين پيش بيني ها بايد مورد بررسي قرار گيرد. هرگاه توصيفهاي کلي شخصيت مورد توجه باشد، اين پاياييهاي آنهاست که مورد توجه قرار مي گيرند. گرچه اغلب منابع اساسي ديگري نيز در زمينه پايايي وجود دارد (مانند پايايي نمره گذار) که پاياييهاي نهايي به آنها بستگي دارند، پايايي روش مورد استفاده، سؤال مربوط به علاقه نهايي است.

پي نوشت:


807- Ghiselli

808- Nunnally

809- Bernstein

810- Dahlstrom

811- Welsh

812- Raymond B. Cattell

813- Gleser

814- Nanda

815- Rajaratnam

816- Jones

817- Reid

818- Holtzman

819- Gross

820- Murstein

821- Holt


منبع:تالیف:آی . لانیون،ریچارد و دی فلئونارد ، ترجمه:نقشبندی،سیامک و .... «ارزيابي شخصيت» ، نشر روان ،1385

+ نوشته شده در  دوشنبه 22 خرداد1391ساعت   توسط محمد حسین ضرغامی  | 

سبک های پاسخدهی

اجراي آزمون در شرايط ميزان شده، يكي از شرايط لازم و با اهميت جهت استفاده از آزمونهاي رواني است؛ به اين معني كه ميزان نور، حرارت، تهويه، سر و صداهاي محيط آزمون گيري و تمامي عوامل متفرقه اي كه ممكن است، عملكرد آزمودني را در يك پرسشنامه، تحت تاثير قرار دهند، بايد كنترل شوند. در صورت فراهم نشدن اين شرايط، آزمونگر نبايد داده هاي به دست آمده  از پرسشنامه را با هنجارهاي آزمون مقايسه كند ( كاپلان و ساكوزو    ، 1997).

در شرايط آرماني، حتي اگر آزمونگر بتواند، چنين كنترلي را نيز اعمال نمايد، هيچگاه نخواهد توانست واكنشهاي آزمودنيها را نسبت به پرسشنامه تحت كنترل درآورد؛ زيرا بسياري از آزمودنيها به دليل ويژگيهاي شخصيتي، انتظارات، مقاصد خاص و نظاير آنها نمي توانند و يا نمي خواهند، تفكرات، احساسات و نگرشهايشان را به درستي در پرسشنامه منعكس كنند؛ براي مثال، هنگام گزينش افراد براي يك شغل خاص، پذيرش افراد در يك موسسه آموزشي و ... احتمال بسياري وجود دارد كه آزمودنيها تصوير مطلوبي از خود ارائه دهند و يا در موقعيتهاي ديگري همچون تشخيص باليني مجرمين و بزهكاران، معافيت افراد مشمول از خدمت سربازي، آزمودنيها ممكن است، تصوير نامطلوبي از خود ارائه نمايند تا بدينوسيله احتمال تبرئه شدن و يا معافيت خود را افزايش دهند. به چنين سوگيريهايي در هنگام پاسخدهي به پرسشنامه ها، سبكهاي پاسخدهي ، اطلاق مي شود كه به صورتي ناخواسته و تا حدي غير قابل كنترل، باعث افزايش واريانس خطا  در نمره‌‌ مشاهده شده  مي شوند و در نتيجه فرايند تفسير نتايج را با ابهام مواجه مي كنند .

سبكهاي پاسخدهي در بدو امر به حدي نگران كننده بود كه بسياري از پژوهشگران (براي مثال، ادواردز  ، 1957، 1964؛ مسيك و جكسون  ،1961 ) به اين نتيجه رسيدند، آنچه كه بوسيله پرسشنامه هاي شخصيت اندازه گيري مي شود، سبك پاسخ دادن آزمودنيها به پرسشنامه است و به همين دليل اعلام نمودند كه استفاده از پرسشنامه هاي شخصيت به عنوان يك ابزار تشخيصي بايد متوقف شود؛ البته پژوهشهاي بعدي از جمله ( رورر  ، 1965 ؛ بلوك  ، 1965 ) نشان دادند كه پژوهشهاي قبلي در نتيجه گيريهاي خود اغراق كرده اند؛ با وجود اين، ضروري است كه مقياسها و پرسشنامه هاي شخصيتي، روشهاي دروني جهت شناسايي منابع و حذف و يا كنترل اينگونه واريانسهاي نامربوط داشته باشند. به همين دليل اين مقاله در پي آن است تا پس از معرفي مهمترين سبكهاي پاسخدهي، شيوه هاي كنترل آنها را مورد بررسي قرار دهد.

نوشته شده توسط دکتر ابراهیم علیزاده

+ نوشته شده در  سه شنبه 26 اردیبهشت1391ساعت   توسط محمد حسین ضرغامی  | 

سنجش کلاسی

آغاز سخن
اندازه گيرى 1 به عنوان فرايندى دقيق و
نظام دار، يك عملكرد يا يك ويژگى را با يك
عدد ارتباط مى دهد و مشخص مى كند كه يك
فرد يا يك شىء، چه مقدار از يك ويژگى را
دربردارد. براى اندازه گيرى بايد به آزمون 2
متوسل شد. درواقع آزمون، ابزار اندازه گيرى
است. براى اندازه گيرى ويژگى هاى گوناگون
در افراد يا اشياء، وسايل متفاوتى مورد استفاده
قرار مى گيرد. گاه اين ويژگى ها فيزيكى است
مانند طول، وزن و قد افراد كه به طور مستقيم
مى توان آن ها را اندازه گرفت. گاه نيز صفت هاى
روانى مورد نظر است كه اندازه گيرى مستقيم
آن ها امكان پذير نيست مانند هوش، نوآورى،
انگيزش، نگرش و يادگيرى. براى اندازه گيرى
اين ويژگى ها بايد از آزمون كمك گرفت.
معمول ترين ابزار اندازه گيرى در فرايند آموزش،
طرح مجموعه اى پرسش است كه بايد توسط
چكيده
سنجش، جزيى جداي ىناپذير از فرايند تدريس بوده، جم عآورى و تفسير اطلاعات براى تصمي مگيرى
دربارة وضع يادگيرى دان شآموزان را دربرم ىگيرد. در اين مقاله اثر سنجش روى برنام ههاى كلاسى و
آموزشى معلمان بررسى م ىشود.
كليدواژ هها: سنجش، انداز هگيرى، آزمون، آزمودن، ارزشيابى، پايايى، روايى.
مريم آرميون
معلم شيمى منطقة 3 تهران
از ديدگاه گستردگى مفهومى، پس
از آزمودن و انداز هگيرى، مفهوم
سنجش به ميان م ىآيد. سنجش
نسب تبه انداز هگيرى از گستردگى
مفهومى بي شتري برخوردار است و به
فرايندى گفته م ىشود كه در جريان آن
اطلاعات مورد نياز براى تصمي مگيرى
دربارة وضعيت دان شآموز، برنام ههاى
درسى يا پايگا ههاى آموزشى گردآورى
م ىشود
ن ١٣٩٠ ︀︐︧︋︀︑ ، ره ی ٤ ︀﹝︫ ، رم ︀﹧︚ و ️︧﹫︋ دوره ی
14
افراد مورد آزمون، پاسخ داده شود.
گاه، اندازه گيرى بدون اين كه آزمونى در كار
باشد انجام م ىگيرد. براى نمونه، معلم تعداد
دفع ههايى را كه يك دانش آموز هم كلاسى هايش
را مورد آزار قرار مى دهد مشاهده مى كند و
مى شمارد بى آن كه او را مورد آزمون قرار دهد.
از اين رو مى توان گفت اندازه گيرى مفهومى
گسترد هتر از آزمودن 3 دارد. درواقع، آزمودن
فعاليتى است كه طى آن براى اندازه گيرى يك
ويژگى، آزمونى برگزار مى شود.
از ديدگاه گستردگى مفهومى، پس از
آزمودن و اندازه گيرى مفهوم سنجش 4 به
ميان مى آيد. سنجش نسبت به اندازه گيرى از
گستردگى مفهومى بيش تر برخوردار است
و به فرايندى گفته مى شود كه در جريان
آن اطلاعات مورد نياز براى تصميم گيرى
دربارة وضعيت دانش آموز، برنامه هاى درسى
يا پايگاه هاى آموزشى گردآورى مى شود.
جهت جمع آورى اين اطلاعات ابزارها و
روش هاى گوناگونى به كار مى رود كه از
آن جمله مى توان به آزمون، پرسش نامه،
قياس درجه بندى، فهرست وارسى، كار
آزمايشگاهى، طرح پژوهشى، آزمون شفاهى،
تكليف درسى، مصاحبه، مشاهدة عملكرد و
رفتار دانش آموزان در موقعيت هاى مختلف
اشاره كرد.
اندازه گيرى و سنجش هر دو، فراهم كنندة
اطلاعات مورد نياز جهت ارزشيابى اند.
ارزشيابى را بايد فرايند داورى يا تعيين مقدار
ارزش هر چيز دانست. براى نمونه، داورى
در اين زمينه كه آيا يك دانش آموز در ميان
هم كلاسى هايش از سطح آمادگى مناسب
براى شركت در فعاليت هاى آزمايشگاهى
برخوردار است يا نه. هرچه اطلاعات برآمده
از اندازه گيرى و سنجش كامل تر باشد، نتيجة
ارزشيابى دقيق تر خواهد بود.
اكنون، با اراية يك نمونه مفاهيم ياد شده را
به طور عميق تر مورد بررسى قرار مى دهيم.
نمونه
معلمى را در نظر بگيريد كه مى خواهد
ميزان اثربخشى روش تدريس خود و فراگيرى
مطالب فصل 1 شيمى( 2) توسط دانش آموزانش
را مورد ارزشيابى قرار دهد. او براى اين كار
پرسش هايى را در محدودة مفاهيم اين فصل
طرح مى كند، آن را در اختيار دانش آموزان قرار
مى دهد، پس از تصحيح پاسخ دانش آموزان به
آن ها نمره مى دهد و با توجه به اين نمره و
انتظارهايى كه از دانش آموزان داشته است دربارة
ميزان يادگيرى آن ها و موفقيت خود در تدريس
داور ى مى كند.
به اين ترتيب دانش آموزان با دريافت
پرسش ها و پاسخ دادن به آن ها، مورد آزمون
قرار گرفته اند. پس از آن نمره دادن به اين
پاسخ هاست كه نتايج آزمون را با يك قاعدة
مشخص به عددهاى تبديل مى كند. سرانجام با
توجه به سطح نمره ها، داورى در مورد ميزان
يادگيرى و مؤثر بودن روش تدريس معلم انجام
مى گيرد.
جايگاه سنجش و اندازه گيرى در
فعالي تهاى يك معلم
بديهى است فعاليت هاى يك معلم تنها به
ساعت هاى حضور و تدريس وى در كلاس
محدود نمى شود. او ناگزير است كه توجه و
وقت خود را صرف همة موقعيت هايى كند كه
بايد در آن موقعيت ها به تصميم گيرى بپردازد.
برخى از اين تصمي مگيرى ها به مسايل شخصى
دانش آموزان مربوط است و برخى ديگر، كل
دانش آموزان كلاس را دربرمى گيرد. معلم پس از
معلم پس از اجراى آزمون و ثبت
نمر هها فعالي تهاى خود را طراحى
م ىكند تا در دو حوزة مسايل
شخصى و كلى مربوط به دان شآموزان
تصمي مهاى مناسبى بگيرد
نقشه
اجرا گزارش
ارزشيابي
چرخة ارزشيابي
عالي
خيلي خوب
خوب
متوسط
ضعيف
ن ١٣٩٠ ︀︐︧︋︀︑ ، ره ی ٤ ︀﹝︫ ، رم ︀﹧︚ و ️︧﹫︋ دوره ی
15
اجراى آزمون و ثبت نمره ها فعاليت هاى خود را
طراحى مى كند تا در دو حوزة مسايل شخصى و
كلى مربوط به دانش آموزان تصميم هاى مناسبى
بگيرد. از جمله عملكردهاى معلم مى توان اين
موارد را برشمرد:
 تكميل گزارش پيشرفت ماهانة هر
دانش آموز
 اقدام به تشكيل گروه هاى درسى براى
دانش آموزانى كه پيشرفت كمى در يادگيرى
داشته اند.
 تغيير جاى نشستن دانش آموزان به منظور
افزايش تمركز و توجه آن ها در جريان تدريس
 طراحى پرسش و تكليف براى جلسة
آينده
 گزارش مشكلات رفتارى دانش آموزان
پرخاشگر به خانواده هايشان
 بررسى علت بى توجهى رو به افزايش
يكى از دانش آموزان به كمك مشاور مدرسه
 توجه به پايايى 5 و روايى 6 آزمون ها يعنى
اعتبار آزمون ها و تقويت آن ها
 مراجعه به نمرة آزمون هاى سال گذشتة
دانش آموزان و بررسى ضرورت مرور برخى از
مفاهيم قبلى در كلاس
 انتخاب مفاهيم آموزشى براى جلسة
آينده
 مطالعه در زمينة برنامه ريزى و اهداف
سنجش با مراجعه به منابع گوناگون.
چنان كه مشاه ده مى ش ود تصميم گيرى ها ى
معلم با تكيه بر شواهدى شامل مواد آموزشى و
رفتار آموزشى فراگيران در كلاس درس انجام
مى گيرد. او بايد براى گردآورى اطلاعات،
پيوسته عملكرد دانش آموزان را مورد
بررسى قرار دهد كه توجه به تكلي فها
و گزارش هاى آزمايشگاهى،
كار پوشه ها، فهرست وارسى
كه عملكرد دان شآموزان
را در كارهاى گروهى
آن ها نشان م ىدهد،
آزمون ها و... عمدة
فعاليت هاى ياد شده به شمار مى روند.
اين معلم در جمع آورى اطلاعات سه شيوه
را به كار گرفته است كه به اين قرارند:
آ) توجه به عملكرد دان شآموز
عملكرد دانش آموزان سه حوزه را
دربرمى گيرد كه عبارتند از: انتخاب، تكميل و
اجرا. معمولاً در پاسخ به پرسش هايى در انواع
گوناگون مانند پرسش هاى چندگزينه اى، تعيين
درستى و نادرستى يك عبارت و جوركردنى،
فعاليت دانش آموز در حوزة انتخاب بررسى
مى شود و چنان چه پرسش هاى تكميلى را در
اختيار آن ها قرار دهيم، آن ها را وادار به تنظيم
پاسخ مى كنيم و هنگام اراية طرح هاى پژوهشى،
انجام آزمايش، تهية گزارش و كارپوشه است كه
دانش آموزان وارد تكاليف اجرايى مى شوند.
ب) مشاهده
معلم در كلاس با توجه كردن به گفته هاى
دانش آموزانى كه فعاليت مشخصى را انجام
داده اند، به جمع آورى اطلاعات و سنجش
مى پردازد. مشاهدة رفتارهايى هم چون چگونگى
تعامل در گروه ها، نگاه هاى سردرگم و جابه جايى
ناگهانى در محل نشستن دانش آموزان نيز
اطلاعاتى در اختيار وى قرار مى دهد. برخى از
اين مشاهده ها رسمى و از پيش طراحى شده اند
و برخى چنين نيستند. يعنى هنگام انجام كارهاى
گروهى با قصد قبلى، مجموعه اى از رفتارها
مشاهده مى شود و در موقعيت هاى ديگر مانند
زمان تدريس، مشاهده هاى غيررسمى شامل
ميزان توجه و تمركز، نحوة نشستن و وضع
ظاهرى و چهرة دان شآموزان توجه معلم را به
خود جلب مى كند.
پ)پرسش هاى شفاهى
معلم در جريان تدريس، پرسش هايى مطرح
مى كند تا با مرور مطالب قبلى دريابد كه آيا
دانش آموزان متوجه مطالب درسى شده اند يا
نه. طرح اين پرسش ها توجه دانش آموزان را به
معلم پس از اجراى آزمون و ثبت
نمر هها فعالي تهاى خود را طراحى
م ىكند تا در دو حوزة مسايل
شخصى و كلى مربوط به دان شآموزان
تصمي مهاى مناسبى بگيرد
ن ١٣٩٠ ︀︐︧︋︀︑ ، ره ی ٤ ︀﹝︫ ، رم ︀﹧︚ و ️︧﹫︋ دوره ی
16
درس جلب مى كند و معلم فرصت مى يابد
تا بدون توقف در ادامة روند تدريس، با
پرسش هاى شفاهى به جمع آورى اطلاعات
بپردازد.
به اين ترتيب، تصميم گيرى هاى معلم
بر پاية توجه به عوامل اجتماعى و آموزشى
است درحالى كه تأمل و ملاحظه نيز آن را
همراه ى مى كند.
سنجش
سنجش كلاسى اين معلم، گذشته از
هدف هاى حوزة شناختى، هدف هايى مربوط
به حوزه هاى يادگيرى ديگر را نيز دربرمى گيرد
كه حوزة روانى  حركتى و حوزة عاطفى از
آن جمله اند. آزمون هاى كتبى به طور عمده،
براى اندازه گيرى هدف هاى شناختى شامل
دانش، فهميدن، به كار بستن، تحليل، تركيب
و ارزشيابى مناسبند. از آن جا كه بخش مهمى
از موضوع هاى درسى همة دوره هاى تحصيلى،
هدف هاى شناختى را دربردارند، آزمون هاى كتبى
جايگاه ويژه اى در سنجش يافته اند. اما در عين
حال براى سنجش هدف هاى آموزشى عاطفى
و روانى  حركتى به تنهايى كافى نيستند. در اين
حوزه ها بايد از روش هاى اندازه گيرى و سنجش
جديدتر مانند كارپوشه، روش هاى مشاهده اى
(شامل فهرست وارسى، مقياس درجه بندى
و واقعه نگارى)، يادداشت هاى روزانه (ثبت و
ارزيابى راهبردهاى يادگيرى دانش آموزان و
بررسى آن ها در كلاس) و... استفاده كرد.
مراحل سنجش
انواع تصميم هايى كه معلم بنابر اطلاعات
به دست آمده اتخاذ مى كند در سه مرحله
تقسيم بندى مى شود كه در ادامه به شرح آن
مى پردازيم.
سنجش اوليه
در خلال هفتة اول يا دوم آغاز تدريس،
سنجش اوليه انجام مى گيرد و تأكيد آن بر
يادگيرى دان شآموز در حوز ههاى تحصيلى،
اجتماعى و ويژگى هاى رفتارى است. در اين
مرحله معلم با استفاده از مشاهده هاى غيررسمى
در زمينة نيازهاى رفتارى، اجتماعى و تحصيلى
دانش آموزان به گونه اى تصميم گيرى مى كند كه
نوعى محيط آموزشى فراهم شود كه يادگيرى
را مورد حمايت قرار دهد. براى نمونه، معلمى
كه جاى نشستن دانش آموزان را تغيير مى دهد
يا دانش آموزى را كه از دخالت در بحث هاى
كلاسى دورى مى كند به صحبت وامى دارد، براى
ايجاد فضاى آموزشى مناسب و حمايت كنندة
يادگيرى قدم برمى دارد.
سنجش آموزشى
چنين سنجشى در هر جلسه از درس انجام
مى گيرد و هدف از آن طراحى فعاليت هاى
آموزشى و نظارت بر پيشرفت آموزشى است.
در اين مرحله، مشاهده هاى رسمى و تكليف ها
براى برنامه ريزى ها مورد توجه قرار مى گيرد
و در كنار آن، مشاهده هاى غيررسمى
جهت نظارت بر عملكرد دانش آموزان،
به تصميم گيرى ها جهت مى دهد تا
ثبت نمر ههاى هر آزمون و تكميل
گزارش پيشرفت ماهانة هر دان شآموز
عبارت از همان سنجش تلخيصى
است
ي عالي
ب خيلي خوب
ب خوب
ط متوسط
ف ضعيف
روشن شود كه:
چه چيزهايى بايد آموزش داده شود؟ 
هر موضوع چگونه و در چه زمانى تدريس 
شود؟
چه مواد درسى بايد به كار گرفته شوند؟ 
چه تغييرى بايد در فعاليت هاى درسى ايجاد 
شود؟
هنگامى كه معلم به طراحى مفاهيم آموزشى
جلسة بعد مى پردازد يا نمره هاى سال گذشتة
دانش آموزان را بررسى مى كند، در حال طراحى
فعاليت هاى آموزشى آينده است.
سنجش تلخيصى 7
اين نوع سنجش به صورت دوره اى و
در خلال سال تحصيلى اجرا مى شود و با
استفاده از نتايج آن، نمره دادن و گروه بندى
دانش آموزان انجام مى گيرد. در اين مرحله به
كمك آزمون هاى رسمى، گزارش هاى ثبت شده
و آزمون هايى با دامنة محدود مى توان اطلاعات
منظمى را در جريان يك دورة تحصيلى دربارة
هر دان شآموز به دست آورد و براساس آ نها به
تصميم گيرى پرداخت. ثبت نمره هاى هر آزمون
و تكميل گزارش پيشرفت ماهانة هر دانش آموز
عبارت از همان سنجش تلخيصى است.
روايى سنجش
آيا » : هنگامى كه يك معلم از خود مى پرسد
من اطلاعات درستى را براى تصميم گيرى جمع
درواقع دربارة روايى سنجش سؤال ،«؟ كرده ام
مى كند. آزمون هاى مورد استفاده در آموزش
وپرورش سه نكته را دربارة روايى سنجش
روشن مى كنند كه به اين قرارند:
آيا پرسش هاى اين آزمون، نمونة مناسبى 
از محتوا يا موضوع درسى را ارايه مى دهند؟
(روايى محتوايى)
آيا نمره هاى آزمون، عملكرد كنونى يا آتى 
دانش آموزان را پيش بينى مى كند؟ (روايى
ملاكى)
آيا نمره هاى آزمون به مفاهيم نظرى يا 
سازه هايى كه آزمون براى سنجش آن ها در نظر
گرفته شده ارتباط دارد؟ (روايى سازه اى)
روايى سازه اى بيش تر به آزمون هاى
روان شناسى مربوط بوده، از محدودة اين بحث
خارج است. در روايى محتوايى نكتة مورد نظر
و مهم اين است كه آزمون، بايد معرف محتواى
درس باشد. پس اگر معلم بخواهد براى درس
خود يك آزمون پيشرفت تحصيلى ترتيب دهد،
اين آزمون نبايد چيزى را خارج از محتوا و
هدف هاى درسى اش اندازه بگيرد.
ن ١٣٩٠ ︀︐︧︋︀︑ ، ره ی ٤ ︀﹝︫ ، رم ︀﹧︚ و ️︧﹫︋ دوره ی
18
سنجش، زمانى از اعتبار لازم
برخوردار است كه به روايى و پايايى
آن، يعنى درستى اطلاعاتى كه آزمون
بر آن استوار است، توجه شود
پايايى سنجش
منظور از پايايى آزمون، ثبات ابزار انداز هگيرى
است. براى آ نكه پايايى اطلاعات سنجش افزايش
يابد بايد انواع مختلفى از اطلاعات دربارة رفتار و
عملكرد دان شآموز گردآورى شود. تنها يك شيوة
سنجش يا يك ابزار، براى تأمين اطلاعات كامل
و درست كافى نيست. اگر پرس شهاى آزمون
مبهم باشند، در هنگام اجراى آزمون وقف ههاى
مختلف روى دهد، نمر هگذارى با اشتباه انجام
شود، ب ىثباتى و ناپيوستگى در اطلاعات ايجاد
خواهد شد. براى جلوگيرى از اين رويداد، بايد
متن پرس شها صريح باشد، از آزمو نهاى عينى
براى رتب هبندى نمر هدهى استفاده شود و از رفتار
دان شآموز بي شتر نمون هبردارى شود.
نتيج هگيرى
سنجش واقعيتى فراتر از
برگزارى آزمو نهاى كتبى است كه
هد فهاى گوناگونى را دنبال م ىكند. ايجاد
فضايى مناسب جهت يادگيرى و حمايت از آن،
از جمله اين هد فهاست. معلم م ىتواند با ترتيب
و تنظيم فعالي تهاى خود مراحل س هگانة سنجش
را (اوليه، آموزشى و تلخيصى) در عملكرد
آموزشى خود دنبال كند. سنجش، زمانى از اعتبار
لازم برخوردار است كه به روايى و پايايى آن،
يعنى درستى اطلاعاتى كه آزمون بر آن استوار
است، توجه شود. هرچه اطلاعات كام لتر باشد
پيوستگى و ثبات سنجش بي شتر است.
1. measurment
2. test
3. testing
4. evaluation
5. reliability
6. validity
7. summative assessment
1. انداز هگيرى، سنجش و ارزشيابى آموزشى،
دكتر عل ىاكبر سيف، ويرايش پنجم، تهران،
نشر دوران.
2. روا نشناسى تربيتى اصول و كاربرد آن،
نويسندگان: جان اى. گلاور و راجراچ.
برونينگ، ترجمة علينقى خرازى، تهران، مركز
. نشر دانشگاهى، چاپ پنجم، 1383
3. سنجش كلاسى (مفاهيم و كاربردها)، پيتر
آيراسيان و مايكل راسل، ترجمة هادى كرامتى،
.1388- تهران، انتشارات بي نالمللى گاج، 89
ن ١٣٩٠ ︀︐︧︋︀︑ ، ره ی ٤ ︀﹝︫ ، رم ︀﹧︚ و ️︧﹫︋ دوره ی
19
+ نوشته شده در  جمعه 30 دی1390ساعت   توسط محمد حسین ضرغامی  | 

تاريخچه روان سنجي در جهان

منبع: http://commite2.blogfa.com/cat-21.aspx

قبل از قرن 19

  اندیشه شناخت انسان‌ها به طور انفرادی و استفاده از این شناخت برای رسیدن به هدف‌های مختلف، به اندازه تاریخ زندگی انسان قدمت دارد. در یونان قدیم، آزمایش‌های متعددی در زمینه ورزش و بازی‌ها وجود داشته است. شاگردان شغل‌های قرون وسطی می‌بایستی به آزمایش‌های فراوانی تن می‌دادند تا در شغل خود استادکار شوند. اگر دیوان‌های شعرا، مخصوصا شاهنامه فردوسی را مطالعه کنیم به کلمات آزمایش، آزمودن، آزمون و امتحان برمی‌خوریم که همه نشان‌دهنده آن است که انسان‌ها همیشه در پی آزمودن یکدیگر بوده‌اند.

کنون من تو را آزمایش کنم                    یکی سوی رزمت گرایش کنم

                                                                             "فردوسی"

 

  به طوری که ملاحظه می‌شود، در روان‌شناسی نظری نیز مثل سایر علوم، چیزی که بیشتر به چشم می‌خورد عبارت است از تحول کند وسایلی که انسان‌ها از مدت‌ها پیش برای دستیابی به اهداف‌ مبهم خود به کار می‌بردند. به تدریج که این هدف‌ها واضح‌تر و اندازه‌گیری آن‌ها نیز ضروری‌تر شناخته می‌شود، تحول و تکمیل ابزارهای لازم نیز آغاز می‌گردد. تمایلی که در ابتدای کار فقط برای ارضای حس کنجکاوی بوده، به مرور زمان ضرورت عملی پیدا می‌کند و بدون وقفه گسترش می‌یابد.[1]

 

 

ظهور روان‌شناسی تجربی

  ریشه آزمون‌ها به معنای امروزی کلمه با ریشه روان‌شناسی تجربی در هم‌ آمیخته است، در واقع اولین قدم‌هایی که برای اندازه‌گیری پدیده‌های روانی برداشته شده در آزمایشگاه‌ها بوده است. می‌توان گفت که ریشه  این اقدامات و تلاش‌های روان‌سنجی به قرن نوزده می‌رسد.

  اولین آزمایشگاه روان‌شناسی تجربی در سال 1879 توسط ویلهم وونت(Wilhelm Wundt) در شهر لایپزیک آلمان تاسیس شد. می‌توان ادعا کرد که آزمون‌های روانی در همین آزمایشگاه متولد گردید. فکر اندازه‌گیری صحیح پدیده‌ها، ایجاد فنون مناسب برای تحلیل عکس‌العمل‌ها، تهیه  هنجارها، توسل به ریاضیات جهت تفسیر نتایج، همه اولین گام تهیه آزمون‌ها را تشکیل می‌دادند.[2]

 

 

شروع آزمون‌های روانی

  فرانسیس گالتون(Frances Galton) یکی از نخستین کسانی است که به مطالعه و اندازه‌گیری تفاوت‌های فردی پرداخت. گالتون عقیده داشت که بین توانایی ذهن و تمییز حسی رابطه وجود دارد و هرچه میزان هوشی بالاتر باشد، سطح تمییز حسی نیز بالاتر است. بر این اساس بود که برای اندازه‌گیری قدرت تمییز حسی، آزمون‌های مختلفی ابداع کرده است. وی معتقد بود که با این آزمون‌ها می‌توان هوش و توانایی‌های ذهنی افراد را مورد اندازه‌گیری قرار داد. اما خدمت مهم گالتون ابداع روش‌های آماری برای کمی ساختن نتایج حاصل از اجرای آزمون‌ها برای مطالعه تفاوت‌های فردی و تجزیه و تحلیل نتایج بود. وی به مفهوم ضریب همبستگی دست یافت. روش‌های آماری مورد مطالعه وی بعدها توسط کارل پیرسون(Karl Pearson) توسعه پیدا کرد و به تدوین روش همبستگی گشتاوری منجر شد.[3]

  در سال 1890 بود که اصطلاح "تست روانی" برای اولین بار توسط جیمز مک‌‌کین کتل(James McKeen Cattell) وارد روان‌شناسی شد. کتل اصطلاح آزمون روانی را طی مقاله‌ای تحت عنوان "آزمون‌های روانی و اندازه‌گیری" در مورد سری آزمایش‌هایی که درباره دانشجویان خود اجرا کرده بود به کار برد. کتل مانند فرانسیس گالتون در انگلستان و وونت در لایپزیک اقدام به تاسیس آزمایشگاه روان‌شناسی نمود. آزمون‌های کتل بیشتر به سنجش کارکرد حواس و کنش‌های حرکتی می‌پرداختند و از این نظر تحت کارهای فرانسیس گالتون قرار داشتند. بعدها کتل از این آزمون‌ها در آمریکا به میزان فراوان استفاده کرد و اصلاحاتی در آن‌ها انجام داد. همزمان با کارهای گالتون و کتل، تلاش‌های دیگری نیز در سایر کشورها برای ساختن آزمون‌های روانی صورت می‌گرفت. بعضی از روان‌شناسان از جمله کریپلین(kreaplin Emil) و ابینگ‌هوس(Ebinghauss) در آلمان و فراری(Ferrari) در ایتالیا سعی می‌کردند فعالیت‌های عالی‌تر و پیچیده‌تر ذهن را اندازه‌گیری کنند. به این ترتیب آزمون‌سازی و کاربرد آن که در آغاز محدود به سنجش کارکردهای حسی و توانش‌های حرکتی شده بود، به‌تدریج می‌رفت تا حوزه‌های عالی‌تر فعالیت‌های ذهنی از جمله حافظه، دقت، فرافکنی و غیره را دربرگیرد.[4]

  در سال 1896، آلفرد بینه(Alfred Binet) و ویلیام هانری(V.Hanri) مقاله‌ای منتشر کردند و در آن اکثر آزمون‌های موجود را که به نظر آن‌ها فقط اعمال بسیار ساده و پایین ذهن را اندازه می‌گرفتند، مورد انتقاد قرار دادند. آن‌ها برای اندازه‌گیری استعدادهای واقعی ذهن، آزمون‌هایی را پیشنهاد کردند که به رفتار واقعی نزدیکتر بود.[5]

  در 1904، وزارت آموزش همگانی فرانسه کمیته‌ای را برای مطالعه در مورد توانایی‌های یادگیری کودکان عقب‌مانده ذهنی مامور کرد. آلفرد بینه و یک روان‌پزشک به نام تئودور سیمون(Theodore Simon) در این کمیته انواع تکالیف ذهنی را که کودکان در سنین مختلف می‌توانستند انجام دهند بررسی کردند.[6] فرض بینه این بود که هوش را باید با تکالیفی سنجید که نیاز به قدرت استدلال و مشکل‌گشایی، نه مهارت‌های ادراکی – حرکتی دارد. استدلال بینه این بود که مراحل رشد ذهنی در کودکان کندذهن فرقی با کودکان طبیعی ندارد؛ یعنی کودک کندذهن در آزمون‌ها نمره‌ای شبیه به کودک طبیعی، ولی با سن کمتر از سن خودش می‌گیرد و توانایی‌های ذهنی کودک تیزهوش نیز در حد کودکان بزرگتر از سن خودش است.[7] بدین‌ترتیب آزمون بینه در سال 1905 انتشار یافت. این آزمون 30 سؤال داشت که به ترتیب سطح دشواری از آسان به مشکل تنظیم شده بود و سه کارکرد شناختی یعنی قضاوت، درک و فهم و استدلال را اندازه‌گیری می‌کرد. در سال 1908 ضمن تجدیدنظر در این آزمون، محتوای آن نیز گسترش یافت و مفهوم سن عقلی در آن مطرح شد. هرگاه کودک 6 ساله‌ای از عهده پاسخ دادن به بیشتر پرسش‌های آزمون برمی‌آمد که حداکثر کودکان متوسط 5 ساله قادر به گذراندن آن بودند، سن عقلی وی 5 سال منظور می‌شد.[8] طبق این نظام نمره‌بندی، هرچه نمره کودک با توجه به پاسخ‌های صحیح او به سوال‌ها بیشتر بود،  سن عقلی(Mental Age) بالاتری داشت. مفهوم سن عقلی مفهومی محوری در روش بینه بود. با این روش می‌شد سن عقلی کودک را با سن تقویمی(chronological Age) او مقایسه کرد.[9]

  آلفرد بینه در سال 1911 آخرین مقیاس هوشی خود را منتشر کرد و یک سال بعد درگذشت. بنابراین می‌توان بینه را پدر آزمون‌های روانی نامید، زیرا مفهومی که او از اندازه‌گیری هوش داشت کاملا تازه بود و برای دستیابی به هدف‌های عملی به کار رفت.[10] سوال‌های آزمونی را که بینه تهیه کرده بود لوئیس ترمن(Lewis Terman) از دانشگاه استنفورد به گونه‌ای تغییر داد که برای کودکان آمریکا مناسب باشد. او با دادن آزمون به هزاران کودک، اجرای آن را معیارمند و هنجارهای سنی آن را تعیین کرد.  این آزمون که امروزه به مقیاس هوشی استنفورد – بینه(Stanford-Binet) معروف است، علیرغم قدمتش همچنان یکی از پرمصرف‌ترین آزمون‌های روان‌شناختی است.[11]

  در جنگ جهانی اول، برای سنجش افرادی که وارد ارتش آمریکا می‌شدند، ضرورت یک آزمون هوش گروهی احساس شد. رابرت یرکز( Robert Yerks) رئیس انجمن روان‌شناسی آمریکا در راس کمیته‌ای متشکل از 40 روان‌شناس به تهیه چنین آزمونی اقدام کرد. این گروه پس از بررسی آزمون‌های مختلف، آزمون تدوین‌شده توسط آرتور اتیس( Arthur Otis) را الگو قرار داد. اتیس در تدوین آزمون هوشی خود پرسش‌های چند‌گزینه‌ای را برای نخستین بار به‌کار بسته بود. بدین‌سان آزمون ارتشی آلفا و بتا ساخته شد. آزمون آلفا که یک آزمون کلامی بود برای افراد باسواد که خواندن و نوشتن زبان انگلیسی را می‌دانستند به‌کار می‌رفت. آزمون بتا یک آزمون غیرکلامی بود که به جای راهنمای کتبی یا شفاهی، روش نشان دادن از راه عمل و پانتومیم در آن به‌کار بسته می‌شد و در مورد افراد بی‌سواد یا کسانی که زبان انگلیسی را نمی‌دانستند اجرا می‌شد.

  علاوه بر آزمون‌های هوش، آزمون‌های شخصیت نیز در جنگ جهانی اول مورد توجه قرار گرفت. پیش از آن امیل کریپلین روان‌پزشک آلمانی "آزمون تداعی آزاد اندیشه‌ها"(Free Association Test) را که قبلا توسط گالتون ابداع شده بود تدوین کرد و در مورد بیماری‌های روانی به‌کار برد. بعدها کارل یونگ(Karl young) روش مشابهی را با عنوان "تداعی آزاد کلمات" برای تشخیص عقده‌های روانی بیماران به‌کار بست. در جنگ جهانی اول، ارتش آمریکا برای تشخیص افراد نظامی مبتلا به روان‌رنجوری به یک آزمون شخصیت نیاز پیدا کرد. رابرت وودورث(Robert Woodworth) در این رابطه به تهیه "برگ احوال شخصی" پرداخت. این پرسش‌نامه گرچه در دوره جنگ اجرا نشد، اما به عنوان الگویی برای ساختن آزمون‌های شخصیت مورد استفاده قرار گرفت.

آزمون‌های روانی نه تنها در ارتش و مدارس مورد استفاده قرار گرفت بلکه در صنعت و تجارت نیز به عنوان ابزارهایی برای درجه‌بندی میزان کارآیی کارکنان بخش‌های مختلف صنعتی و تجاری به‌کار بسته شد. والتر دیل اسکات(Walter Dill Scott) یکی از شاگردان وونت، آزمون‌هایی برای گزینش کارکنان موسسات صنعتی و تجاری تدوین کرد. بدین‌ترتیب کاربرد آزمون‌های روانی به گونه گسترده‌ای در تمامی سازمان‌های دولتی و غیر‌دولتی برای استخدام و گزینش رواج یافت. اما به سبب شتابزدگی در تدوین آزمون‌ها برای پاسخ‌گویی به نیازهای موسسات تجاری و آموزشی،  بسیاری از آزمون‌های نامعتبر تهیه و انتشار یافت که نتایج حاصل از اجرای این‌گونه آزمون‌ها مایوس‌کننده بود. در نتیجه بسیاری از شرکت‌های تجاری و سازمان‌های صنعتی در سال‌های دهه 1920 استفاده از آزمون‌های روانی را کنار گذاشتند.

  بعدها بررسی و مطالعات روان‌شناسان نشان داد که نارسایی‌های موجود در روان‌آزمایی به علت نارسایی در خود آزمون‌هاست. چنانکه در تهیه، اجرا و تفسیر نتایج آزمون‌ها اصول و موازین علمی رعایت شود، می‌توان از آن‌ها به عنوان ابزارهای نسبتا معتبری برای سنجش توانایی‌ها و خصایص افراد استفاده کرد.

  امروزه آزمون‌های روانی به عنوان ابزارهای مهمی برای سنجش هوش، استعدادهای خاص، پیشرفت تحصیلی و همچنین تشخیص اختلال‌ها و نابهنجاری‌های روانی و شخصیتی در مدارس، موسسات صنعتی و تجاری، ادارات دولتی، دانشگاه‌ها و مراکز درمانی همراه با سایر روش‌های شناخت افراد به‌کار بسته می‌شوند.[12]     


[1] . گنجی، حمزه؛ آزمون‌های روانی، مشهد، دانشگاه امام رضا(ع)، 1375، چاپ ششم، ص 15 الی 17.

[2] . همان، ص 17و 18.

[3] . شریفی، حسن‌پاشا؛ نظریه و کاربرد آزمون‌های هوش و شخصیت، تهران، سخن، 1382، چاپ سوم، ص 10و 11.

[4] . بهرامی، هادی؛ آزمون‌های روانی، تهران، دانشگاه علامه طباطبایی(ره)، 1385، چاپ سوم، ص 6.

[5] . گنجی، حمزه؛ آزمون‌های روانی، ص 21.

[6] . بهرامی، هادی؛ آزمون‌های روانی، ص 12.

[7] . اتکینسون، ریتاال و همکاران؛ زمینه روان‌شناسی، حسن رفیعی و همکاران، تهران، ارجمند، 1383، چاپ چهارم، جلد دوم، ص 78.

[8] . نظریه و کاربرد آزمون‌های هوش و شخصیت، ص 12.

[9] . زمینه روان‌شناسی، ص 78.

[10] . گنجی، حمزه؛ آزمون‌های روانی، ص 22.

[11] . زمینه روان‌شناسی، ص 78.

[12] . شریفی، حسن‌پاشا؛  اصول روان‌سنجی و روان‌آزمایی، تهران، رشد، 1384، چاپ دهم، ص 21 الی 23.


نویسنده :  آرزو قاسم دماوندي

كلمات كليدي  :  تست رواني، آزمون هاي هوش، آزمون هاي شخصيت، روان سنجي

+ نوشته شده در  یکشنبه 18 دی1390ساعت   توسط محمد حسین ضرغامی  | 

روانسنجي (سنجش و اندازه گيري) در يك نگاه


+ نوشته شده در  سه شنبه 22 آذر1390ساعت   توسط محمد حسین ضرغامی  | 

مقیاس اندازه گیری

 يکی از ويژگيهای متغير قابليت اندازه گيری آن است. چنانچه از وزن به عنوان يک متغير نام ببريم بهترين راه اندازه گيری آن بر اساس کيلوگرم يا گرم می باشد در مورد قد هم سانتيمتر يا متر از عهده آن برمی آيد. اما در مورد رضايت بيماران از نحوه ارائه خدمات يا ميزان شنوائی يا ناتوانی و معلوليت از چه ملاکهائی بايد استفاده کرد. برای اندازه گيری يک عنصر نياز به مقياس اندازه گيری وجود دارد. مقياس اندازه گيری کمک می کند تا شما امکانی را برای اندازه گيری يک متغير تعريف نمائيد. برای اينکار لازم است با مقياسهای اندازه گيری متداول و مرسوم آشنا شويد. چهار دسته عمده از متغيرها عبارتند از:

مقياس اسمی: اين مقياس شامل  يک يا جند گروه با طبقه است که از نظر کيفی با هم متفاوتند اما بين گروهها هيچگونه ارجحيتی وجود ندارد. (مثال)  ممکن است برای هر گروه يا طبقه شماره ای در نظر گرفته شود که ارزش ندارد بلکه جنبه" کد" يا شناسائی دارند.

مقياس رتبه ای: اين مقياس نسبت به مقياس اسمی خصوصيت اضافه ای دارد که در بين گروهها از نظر متغير مورد نظر برتری وجود دارد اما اين برتری قابل سنجش و مقايسه با ساير گروهها نيست . گروهها هم يکسان نيستند. گروهها نسبت به هم روی پله های يک نردبان قرار گرفته اند.  (مثال)  

مقياس فاصله ای: در اين مقياس فاصله بين گروهها با هم مساوی در نظر گرفته شده است. اما صفر در اين مقياس فقدان خاصيت مورد نظر اندازه گيری نيست. اختلاف مساوی بين هرجفت از اعداد نمايانگر اختلاف مشابه در خصوصیت مورد اندازه گيری است. (مثال)  

مقياس نسبی: در اين مقياس خصوصيت اضافی آن است که صفر دليلی برای فقدان خاصيت مورد اندازه گيری است و در نتيجه نسبت بين اعداد در اين مقياس همان نسبت مقدار خاصيت مورد اندازه گيری است. (مثال)

شما به عنوان محقق برای اندازه گيری متغير خود ضروری است تا دست به انتخاب مقياس اندازه گيری بزنيد. تعريف مقياس و نوع رده ها یا گروه هائی که در مقياس خود در نظر می گيريد بر عهده شماست که بايدمبتنی  بر خصوصت علمی قدرت و رجحان مقياس باشد. نکته مهم آنکه قدرت و برتری مقياس های فوق بتدريج از مقياس اسمی به مقیاس نسبی افزايش می يابد و شما بايد هميشه از قویترين مقياس برای سنجش استفاده نمائيد.  (مثال)

يک مقياس خوب بايد دارای ويژگيهای زير باشد:

علمی : بر گرفته ومتناسب با اصول علمی باشد.

جامع : : بتواند تمام موارد متغيررا شامل شود.

مناسب : برای اندازه گيری آن متغير باشد.

قوی : تلاش شود قويترين مقياس باشد.

غير قابل جمع : رده های مشترک نداشته باشد.

رده های کافی : موردی را فراموش نکرده باشيم.

رده های تعريف شده : گروهها و رده های آن تعريف شده باشند.

عملی : قابليت انجام داشته باشد.

+ نوشته شده در  دوشنبه 21 آذر1390ساعت   توسط محمد حسین ضرغامی  | 

آيه ي آخر سوره ي جن و اعداد چيزهاي جهان

آيه ي آخر سوره ي جن
طبق فرمايش خداوند در قران هيچ تر وخشكي نيست كه در كتاب مبين (قران) ذكر نشده باشد. براي همين زماني است كه اين سوال براي من پيش آمده كه در قران در مورد رشته ي سنجش و اندازه گيري آيا مسئله اي اشاره شده است تا اين كه اين بار كه قران را مي خواندم آيه ي آخر سوره ي جن نظرم را جلب كرد. در اين آيه عَالِمُ الْغَيْبِ فَلَا يُظْهِرُ عَلَى‏ غَيْبِهِ أَحَداً
إِلَّا مَنِ ارْتَضَى‏ مِن رَّسُولٍ فَإِنَّهُ يَسْلُكُ مِن بَيْنِ يَدَيْهِ وَمِنْ خَلْفِهِ رَصَداً
لِّيَعْلَمَ أَن قَدْ أَبْلَغُواْ رَسِالاَتِ رَبِّهِمْ وَأَحَاطَ بَمَا لَدَيْهِمْ وَ أَحْصَى‏ كُلَّ شَىْ‏ءٍ عَدَدًا : او عالم به غيب است و هيچ كس را بر غيب خود آگاه نمى‏كند.
مگر كسى همانند پيامبر كه از او راضى باشد، پس از پيش رو و از پشت سر نگهبانانى مى‏فرستد
تا بداند (رسولان) پيام هاى پروردگارشان را رسانده‏اند و او به آنچه نزد آنان است احاطه دارد و هر چيزى را با عدد، شماره كرده است.
خداوند بلند مرتبه كه كلام او عين درستي و صادق ترين كلام ها و سخنان است در آخر آيه مي فرمايد كه خداوند به عدد تمام چيزهاي عالم آگاه است و آن را مي داند. بنابراين علمي كه به اعداد و اندازه ها سرو كار داشته باشد و سعي كند اين اعداد و اندازه ها را بدست آورد و كشف كند در واقع قدمي است در راه شناخت قواعد و قوانيني كه حضرت حق در ماهيت اعداد و انداره ها قرار داده است. رشته ي سنجش و اندازه گيري نيز با اعداد در حوزه هاي انساني سرو كار دارد.

+ نوشته شده در  پنجشنبه 17 آذر1390ساعت   توسط محمد حسین ضرغامی  | 

مطالب قدیمی‌تر