ضرایب همبستگی برای مقیاس های مختلف اندازه گیری

همانطور که می دانید شدت وابستگي دو متغير به يكديگر را با همبستگي تعريف مي كنيم. ممكن است علاوه بر شدت همبستگي جهت همبستگي نيز مورد نياز ما باشد. اگر تمایل دارید بدانید روش صحیح انتخاب ضریب همبستگی چیست ادامه مطلب را بخوانید.
ضرايب همبستگي بين 1- تا 1 تغيير مي كند و مي تواند مثبت يا منفي باشد مانند ميزان رضایت شغلی یک کارمند و میزان حقوق و مزایای دریافتی وی. ضريب همبستگي يك رابطه متقارن ميباشد، هر چه ضريب همبستگي به يك نزديكتر باشد ميزان وابستگي دو متغير بيشتر است، اما دقت داشته باشید كه:
1- اين وابستگي به معناي رابطه علت و معلولي نيست و ضريب همبستگي نشان نمی دهد که كدام متغیر علت و كدام متغیر معلول است به ميان نمي آورد. 
2- براي اطمینان از صحت آنچه ضریب همبستگی بیان می دارد مي توان ابتدا وجود رابطه غيرخطي بين دو متغير همبسته را در حالي كه ضريب همبستگي به غلط آن را نشان نميدهد، بررسي كرد.
3- ضريب همبستگي را ميتوان براي سنجش ميزان خطاي موجود در دادهها نيز استفاده كرد، از جمله زير فاصله ها و يا برشهاي مصنوعي دامنه داده ها
4- محاسبه ضرايب همبستگي تا حدود زيادي متاثر از مقياس اندازه گيري متغير ها است، بعنوان مثال براي متغيرهاي اسمي جهت رابطه اصلا معني ندارد، بين جنس و معدل تنها ميتوان گفت كه شدت وابستگي چه مقدار است اما افزايش يا كاهش جنس معني ندارد.
5- آزمون ضریب همبستگی به شدت تایع حجم نمونه است. تا جائی که امکان دارد حجم نمونه را افزایش دهید

با توجه به نوع متغير ها ضريب همبستگي ميتواند يكي از حالت هاي زير را داشته باشد.

1- دو متغير اسمي
2- دو متغير رتبه اي
3- دو متغير فاصله اي-نسبي
4- متغير اسمي و متغير رتبه اي
5- متغير اسمي و متغير فاصله اي - نسبي
6- متغير رتبه اي و متغير فاصله اي - نسبي

براي هر كدام از حالت هاي بالا ضرايب همبستگي متفاوتي وجود دارند

الف) دو متغير اسمي هستند و يا يكي اسمي و ديگري رتبه اي است

داده های اسمی یا nominal که مربوط به متغير يا خواص کيفی مانند جنس يا گروه خونی است و بيانگر عضويت در يک گروه خاص می باشد.
داده های رتبه ای یا Ordinal : مانند کیفیت درسی یک دانش آموز (ضعیف، متوسط و قوی) و یا رتبه بندی هتل ها ( یک ستاره، دو ستاره و ...

در این حالت می توانید از یکی از ضریب های همبستگی زیر استفاده کنید:

1) ضريب همبستگي كرامر و فی: معمولا بین دو متغیر اسمی مانند اینکه بخواهیم بدانیم که آیا بين جنس و گرايشات سياسي رابطه وجود دارد يا خير
2) ضريب توافقي C: معمولا بین دو متغير اسمي و يا يكي اسمي و يكي رتبه اي 
3) ضريب همبستگي لاندا: معمولا بین دو متغير اسمي و يا يكي اسمي و يكي رتبه اي مانند اینکه بخواهیم بدانیم بین مسئولیت پذیری کارکنان و منطقه خدمتی آنها رابطه وجود دارد یا خیر؟
4) ضريب همبستگي تاو گودمن و كروسكال: براي ارزيابي شدت رابطه بين متغيرهايي كه هر دو اسمي يا يكي اسمي و ديگري رتبه اي باشد بكار ميرود


ب) هر دو متغير داراي مقياس رتبه اي باشند

فرض کنید شما در حال تحقیق این فرضيه هستید که بين تحصيلات كاركنان و رضایت شغلی آنها رابطه مثبت و معني داري وجود دارد یا خیر؟ اين فرضيه دو متغير دارد، تحصيلات كاركنان با طبقه بندی های ديپلم و كمتر، فوق ديپلم، ليسانس و بالاتر و رضایت شغلی با طبقه بندی های كم، متوسط و زياد).
بر خلاف متغير هاي اسمي كه جهت رابطه در آنها مفهومی نداشت در اين جا بنا به ماهيت متغیر رتبه ای جهت رابطه مفهوم دارد. لذا قبل از هرچيز بايستي بررسي کنید كه رابطه در اينحالت به چه معني می باشد.
در این حالت می توانید از یکی از ضریب های همبستگی زیر استفاده کنید:

1- ضريب همبستگي گاما: حاصل تعامل زوج های هماهنگ و معکوس و نادیده گرفتن زوج های گره خورده با توضیحات مثال یک
2- ضريب همبستگي تاو كندال b: حاصل تعامل زوج های هماهنگ و معکوس و زوج های گره خورده با توضیحات مثال یک
3 ضريب تاو كندال C : حاصل تعامل تعداد زوج های هماهنگ و معکوس با توضیحات مثال یک
4 – ضريب d سامرز: شکل خاصی از ضریب همبستگی گاما که یکی از متغیر ها به عنوان متغیر وابسته در نظر گرفته می شود

مثال یک: فرض كنيد نمره 3 دانش آموز را در دو درس مختلف داريم، پس هر دانش آموز دو نمره دارد. حال اگر نمره
يك دانش آموز با دانش آموز ديگر مقايسه شود، ميتوان بيان داشت كه اين دو دانش آموز یعنی این دو زوج نسبت به هم يك زوج معكوس را تشكيل ميدهند يا يك زوج هماهنگ. اگر با افزايش نمره یکی، نمره ديگری نیز افزايش يابد به آن دو زوج هماهنگ می گوئیم و اگر با افزايش يكي ديگري كاهش يابد زوج معكوس و چنانچه با افزايش يا كاهش يكی ديگری تغييري نكند به آن دو زوج گره خورده می گوئیم. ضریب همبستگی گاما برای این حالت کاربرد خوبی دارد

ج) هر دو متغير داراي مقياس فاصلی ای نسبی باشند

داده های فاصله ای: به عنوان مثال داده هایی که متغیر ضریب هوشی را در بین چند نفر توصیف می کنند عبارتند از: 80، 110، 75، 97  و 117، چون این داده ها عدد هستند پس داده های ما کمی هستند اما می دانیم که  IQ نمی تواند صفر باشد و صفر در اینجا فقط مبنایی است تا سایر مقادیر  IQ در فاصله ای منظم از صفر و یکدیگر قرار گیرند پس این داده ها فاصله ای اند.
داده های نسبتی:  داده های نسبتی داده هایی هستند که با عدد نوشته می شوند اما صفر آنها واقعی است. اکثریت داده های کمی این گونه اند و حقیقتاً دارای صفر هستند. به عنوان مثال داده هایی که متغیر طول پاره خط بر حسب سانتی متر را توصیف می کنند عبارتند از: 20، 15، 35، 8 و 23، چون این داده ها عدد هستند پس داده های ما کمی اند و چون صفر در اینجا واقعاً وجود دارد این داده نسبتی تلقی می شوند.

در این حالت هر دو متغیر کمیت پذیرند.

اول مشخص کنید که متغیر شما پارامتریک است یا ناپارامتریک

اگر پارامتریک بود یعنی متغیر دارای توزیع نرمال بود و مقادیر پرت در مشاهدات وجود نداشت ضریب همبستگی پیرسون
توجه: اگر یکی از متغیر ها دارای توزع پیوسته نرمال بود و متغیر دیگر دو حالتی بود مثل (زن/مرد یا قبول/رد) می توانید از ضریب همبستگی پیرسون (همبستگی دو رشته ای نقطه ای) استفاده کنید. مثل رابطه جنسیت با تعداد حوادث
اگر ناپارامتریک بودیعنی متغیر دارای توزیع غیر نرمال ضریب همبستگی اسپرمن


د) متغيرهايي با مقياس اسمي- رتبه اي و متغيرهاي با مقياس فاصله اي-نسبي

هنگامي كه يك متغير داراي مقياس اسمي و رتبه ای باشد مثل جنس، نژاد، ميزان رضايت و ... و متغير ديگر مقياس فاصلهاي يا نسبي داشته باشد مانند درآمد، معدل، اندازه قد و ... آنگاه بايستي شاخصي انتخاب شود كه از روي يك متغير بتوان متغير ديگر را پيش بيني كرد. از جمله اين شاخص ها شاخص نسبت همبستگی می باشد که آن را ضریب همبستگی مجذور اتا می نامیم.

1) ضریب همبستگی مجذور اتا
فرض کنید می خواهیم بدانیم که آيا بين جنس و معدل دانشجويان رابطه وجود دارد. در اينجا جنس يك متغير كيفي يا اسمي است و معدل يك مقياس فاصله اي يا نسبي

2) ضریب همبستگی چند رشته ای
فرض کنید مي خواهيم همبستگي بين يك متغير فاصله اي را با متغير دو حالتي يا ترتيبي كه فرض شده است كه متغير اساسا پيوسته اي را منعكس ميكند بررسي كنيم. اين ضريب همبستگي را ميتوان تا حدود زيادي مانند ضريب همبستگي پيرسون تعبير کرد.

ه) سایر

1- ضریب همبستگی کاپای کوهن

فرض كنيد می خواهیم ميزان توافق بين مديران و معاونان را در خصوص ميزان اهميت مشتري در سازمانی ارزيابي كنیم. هر فرد اعم از مدير يا معاون ميتواند نظر خود را بصورت زياد و كم بيان كند. در اين حالت كه هر دو متغير اسمي دوتايي ميباشند ميتوان از ضريب همبستگي كاپاي كوهن كه بطور معادل در بعضي مواقع ضريب همبستگي كاپا نيز ناميده ميشود، استفاده ميشود.

2- ضریب همبستگی چند حالتی

ضريب همبستگي چند حالتي زماني مورد استفاده قرار ميگيرد كه هر دو متغير دو حالتي يا هر دو متغير ترتيبي باشند، البته توجه كنيد كه مانند ضريب همبستگي چند رشته اي در هر دو متغير فرض شده است كه اين متغير ها اساسا تغييرات متغير پيوسته اي را منعكس ميكنند، علي الخصوص زماني كه از مقياس ليكرت استفاده ميشود بايستي از اين ضريب همبستگي استفاده كرد.


منابع:
نجیبی، سید مرتضی، انواع ضریب همبستگی و محاسبه آنها، 1388، http://daneshamari.blogfa.ir
میرزاده، محمد رضا، ضریب همبستگی، http://m-mirzadeh.blogfa.com

مدل معادلات ساختاری فازی

مدل هاي ساختاري فازي در علوم انسانی

مدل هاي ساختاري فازي به منظور تبيين پديده ها تبيين مي شوند. مدل هاي ساختاري در قالب مدل سازي معادله ي ساختاري اغلب بدليل مشكلاتي نظير سنجش دقيق سازه ها، همخطي چندگانه ميان متغييرهاي پنهان مستقل، مشكلات مربوط به تشخيص مدل در صورت پيچيده شدن و همچنين برآوردهاي نامناسب پارامترها در چنين وضعيتي (نظير واريانس هاي منفي يا ضرايب استاندارد گاما و بتاي بالاتر از 1 و يا بارهاي عاملي بزرگتر از 1) به صورتي نسبتا ساده  طرح مي شوند. به اين معنا كه تعداد سازه هاي پنهان بيروني و دروني كمتر از آنچه در واقعيت اجتماعي دخالت دارند به مدل وارد مي شوند.

اگر فرض شود پژوهشگري مدل معادلات ساختاري تدوين كرده است كه بر اساس يك سازه ي پنهان مي خواهد سه سازه ي ديگري را تبيين نمايد شكلي مانند زير خواهد داشت:

  

مدل ساختاري فازي به پژوهشگران اين امكان را مي دهند كه در وارد كردن سازه هاي پنهان با كمتر محدوديتي به لحاظ دقت در سنجش مواجه شويم. از آنجا كه منبع اصلي داده ها در تدوين مدل هاي ساختاري فازي ديدگاه كارشناسان و خبرگان مرتبط با موضوع است انتظار مي رود متغييرهاي بكار رفته در تحليل هاي ارائه شده از طرف آنها تا حد زيادي به لحاظ مفهومي داراي فضاي مشتركي باشند. بنابراين اگر اين گروه از افراد از مفاهيمي نظير دمكراسي توسعه ي اقتصادي، مشاركت، دين داري و .. استفاده مي كنند انتظار داريم كه هر مفهوم نزد كارشناسان مختلف سنجه ها يا معرف هاي كم و بيش يكساني داشته باشند. تبيين يك سازه بر مبناي تركيب علي سه سازه ديگر در يك مدل ساختاري فازي مي تواند مانند شكل زير نمايش داده شود.


مقایسه مدل های اندازه گیری (کلاسیک و سؤال پاسخ) از لحاظ برآورد پارامترهای سؤال و توانایی

نظریه‏های اندازه‏گیری از یک بعد به دو دستهء اساسی تقسیم‏ می‏شود:نظریهء کلاسیک و نظریه‏های جدید اندازه‏گیری (IRT) 1. این پژوهش از طریق داده‏های حاصل از اجرای سه آزمون‏ ریاضیات،فیزیک و درس فنی که در مورد 430 نفر از داوطلبان‏ کنکور داخلی وزارت نیرو اجرا شده بود،به‏مقایسهء نظریات‏ کلاسیک و جدید از لحاظ برآورد پارامترهای سؤال و توانایی‏ پرداخته است.

تحلیل‏های کلاسیک داده‏ها از طریق برنامهء SPSS و برآورد پارامترهای سؤال و توانایی برحسب مدل‏های جدید اندازه‏گیری از طریق نرم‏افزار رایانه‏ای BILOG در کالیفرنیای آمریکا انجام‏ گرفته است.مقایسهء مدل‏های مختلف اندازه‏گیری از نظر برآوردهای‏ متفاوت یا مشابه پارامترهای سؤال به‏وسیلهء تابع آگاهی و آزمون t وابسته،به آزمون و ارزیابی گذاشته شد.نتایج نشان داد که مدل‏ کلاسیک و مدل‏های IRT برآوردهای متفاوتی برای پارامترهای‏ سؤال به‏دست می‏دهند و برآورد پارامترهای سؤال برپایهء مدل‏هایIRT ،به‏ویژه مدل سه پارامتری،دقیق‏تر از برآورد پارامترهای سؤال‏ براساس مدل کلاسیک و مدل‏های ساده‏تر IRT است.مقایسهء مدل‏ها از نظر برآورد متفاوت پارامتر توانایی آزمودنی‏ها به‏وسیلهء آزمون کای اسکوئر آزموده شد.نتایج این مرحله نیز تفاوت مدل‏ها را در برآورد پارامتر توانایی آشکار ساخت و نشان داد که مدل سه‏ پارامتری نسبت به مدل کلاسیک و حتی مدل‏های یک و دو پارامتری IRT برآوردهای متفاوت‏تر و دقیق‏تری ارائه می‏دهد.

آدرس مقاله در پایگاه مجلات تخصصی نور: مجله تعلیم و تربیت (آموزش و پرورش) » پاییز 1380 - شماره 67 (از صفحه 83 تا 98)

URL : http://www.noormags.com/view/Magazine/ViewPages.aspx?ArticleId=216353

عنوان مقاله: مقایسه مدل های اندازه گیری (کلاسیک و سؤال پاسخ) از لحاظ برآورد پارامترهای سؤال و توانایی (16 صفحه)

نویسنده : فراهانی، مهدی

چکیده :

کلمات کلیدی :

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 83)

مقایسهء مدل‏های اندازه‏گیری(کلاسیک و سؤال-پاسخ)از لحاظ برآورد پارامترهای‏ سؤال و توانایی

معرفی مقاله

نوشتهء مهدی فراهانی

نظریه‏های اندازه‏گیری از یک بعد به دو دستهء اساسی تقسیم‏ می‏شود:نظریهء کلاسیک و نظریه‏های جدید اندازه‏گیری (IRT) 1. این پژوهش از طریق داده‏های حاصل از اجرای سه آزمون‏ ریاضیات،فیزیک و درس فنی که در مورد 430 نفر از داوطلبان‏ کنکور داخلی وزارت نیرو اجرا شده بود،به‏مقایسهء نظریات‏ کلاسیک و جدید از لحاظ برآورد پارامترهای سؤال و توانایی‏ پرداخته است.


تحلیل‏های کلاسیک داده‏ها از طریق برنامهء SPSS و برآورد پارامترهای سؤال و توانایی برحسب مدل‏های جدید اندازه‏گیری از طریق نرم‏افزار رایانه‏ای BILOG در کالیفرنیای آمریکا انجام‏ گرفته است.مقایسهء مدل‏های مختلف اندازه‏گیری از نظر برآوردهای‏ متفاوت یا مشابه پارامترهای سؤال به‏وسیلهء تابع آگاهی و آزمون t وابسته،به آزمون و ارزیابی گذاشته شد.نتایج نشان داد که مدل‏ کلاسیک و مدل‏های IRT برآوردهای متفاوتی برای پارامترهای‏ سؤال به‏دست می‏دهند و برآورد پارامترهای سؤال برپایهء مدل‏های

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 84)

IRT ،به‏ویژه مدل سه پارامتری،دقیق‏تر از برآورد پارامترهای سؤال‏ براساس مدل کلاسیک و مدل‏های ساده‏تر IRT است.مقایسهء مدل‏ها از نظر برآورد متفاوت پارامتر توانایی آزمودنی‏ها به‏وسیلهء آزمون کای اسکوئر آزموده شد.نتایج این مرحله نیز تفاوت مدل‏ها را در برآورد پارامتر توانایی آشکار ساخت و نشان داد که مدل سه‏ پارامتری نسبت به مدل کلاسیک و حتی مدل‏های یک و دو پارامتری IRT برآوردهای متفاوت‏تر و دقیق‏تری ارائه می‏دهد.

این مقاله خلاصه‏ای است از پایان‏نامهء تحصیلی دورهء کارشناسی ارشد آقای مهدی فراهانی،کارشناس آموزش وزارت نیرو که با راهنمایی آقای دکتر محمد کاظم سلیمی‏زاده،عضو هیأت علمی‏ دانشگاه علامه طباطبایی تهیه‏شده و در اختیار فصلنامه قرار گرفته‏ است.بدین وسیله از ایشان سپاس‏گزاری می‏شود.

«فصلنامه»

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 85)

مقدمه

مدل یا نظریه،رکن اساسی هر رشتهء علمی محسوب می‏شود.دراندازه‏گیری و روان‏سنجی نیز نظریه‏ها و مدل‏هایی وجود دارد که از لحاظ تاریخی و سیر روند تکاملی،به‏ دو دستهء کلاسیک(نظریهء ضعیف نمرهء حقیقی)و سؤال-پاسخ(به اختصار IRT )تقسیم‏ می‏شوند(1).


مبانی مدل کلاسیک اندازه‏گیری را در اوایل قرن حاضر،اسپیرمن معرفی و پایه‏ریزی‏ کرد(2).این مدل سپس در دو کتاب گالیکسن و لرد و ناویک به اوج توسعه و بسط خود رسید(3 و 4)اما هم‏زمان با بسط این مدل،ضعف‏های جدی آن بیش‏تر آشکار شد و روان‏سنجان و متخصصان آزمون‏سازی را بیش از پیش به‏سمت مدل‏های جدید سوق داد (5).از نیمهء دوم قرن بیستم به‏تدریج زمینهء ارائهء نظریات جدید مطرح شد و کسانی مانند لرد (6)،راش(به‏نقل از رایت،1977)(7)،برن‏بام(8)،رایت و همبلتون(9)در این مسیر گام‏های مؤثری برداشتند.

هم‏اینک فعالیت‏های آزمون‏سازی و اندازه‏گیری در زمینه‏های مختلف-از پیشرفت‏ تحصیلی گرفته تا سنجش نگرش‏ها و...-در آمریکا و اروپا و براساس مدل‏های جدید (IRT) بررسی و ساخته می‏شود و مدل کلاسیک اعتبار بیش‏تر برای بحث در مورد تاریخچهء نهضت آزمون‏سازی یا برآورد پارامترهای نظریات جدید به‏عنوان برآورد اوّلیه‏ و مقدماتی مورد استفاده قرار می‏گیرد.معلمان هرچند در محدودهء کلاس درس به‏ظاهر کم‏تر می‏توانند از مدل‏های اندازه‏گیری بهره ببرند اما اطلاع از مبانی نظری طراحی،اجرا و تجزیه و تحلیل آزمون‏های پیشرفت تحصیلی و یافته‏های جدید،بینش و بصیرت بهتری در مورد یکی از وظایف مهم معلمان-یعنی سنجش محصلان-در اختیار آن‏ها قرار می‏دهد.

مطالعهء منابع مربوط به موضوع پژوهش

در بعضی از مطالعات قبلی،محققان به‏مقایسهء مدل‏ها از نظر دقت برآورد پارامترهای‏ سؤال و توانایی پرداخته و برخی دیگر،تأثیر حجم نمونهء آزمودنی و سؤال یا نقض‏ مفروضات را در برآورد پارامترها بررسی کرده‏اند.با توجه به محدودیت مقالهء حاضر، به‏طور عمده نتایج دستهء اوّل(مقایسهء مدل‏ها در برآورد پارامترها)ارائه می‏شود.

یکی از نتایج مطالعات مربوط به‏مقایسهء دقت برآورد پارامترها در مدل‏های‏ اندازه‏گیری حاکی از آن است که مدل منطقی سه پارامتری نسبت به مدل‏های یک و دو پارامتری با آزمون‏های 20 سؤالی در برآورد جایگاه افراد در صفت مکنون و رتبه‏بندی‏ آزمودنی‏ها براساس صفت مورد سنجش دارای قدرت بیش‏تری است.نکتهء دیگر آن‏که

لیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 86)

پژوهشگران با تقسیم آزمودنی‏ها به دو گروه بالا و پایین(0 تا 5/2-- ?L و 5/2 تا 0- ?u ) و مقایسهء دقت برآورد جایگاه حقیقی افراد برحسب مدل‏های IRT ،نشان دادند که افزایش‏ دقت و قابلیت پیش‏بینی توانایی افراد توسط مدل سه پارامتری نسبت به سایر مدل‏ها،در گروه‏های باتوانش پایین بیش‏تر از گروه‏های باتوانش بالاست؛زیرا امکان استفاده از حدس‏ و شانس کاذب در گروه‏های با توانایی کم بیش‏تر است و تنها مدل سه پارامتری در برآورد پارامترها به‏عامل Ci (مجانب پایین ICC )توجه می‏کند.مقایسهء مدل‏های یک و دو پارامتری(بررسی تأثیر پارامتر قدرت تشخیص سؤال در برآورد توانایی افراد)تمایز و تفاوت جدی نشان نداد(10).

راید برای تحلیل داده‏های چهار خرده آزمون مورد استفاده-شامل محاسبات عددی، تجسم فضای سه‏بعدی،خزانهء لغات و استدلال ریاضی-از نرم‏افزارهای BILOG و TESTFACT بهره گرفت و براساس یک نمونهء 406 نفره از آزمودنی‏ها و با حذف‏ سؤال‏هایی که کم‏تر از 75 درصد آزمودنی‏ها به آن‏ها پاسخ داده بودند،نتیجه گرفت که هر چهار خرده‏آزمون از لحاظ سطح دشواری سؤال‏ها و قدرت تشخیص افراد در سطوح‏ مختلف توانایی،تفاوت داشته است.بنابراین،مدل‏های یک و دو پارامتری از لحاظ برآورد پارامترها تفاوت معنی‏دار نشان داده‏اند(11).

هومن در تحقیقی با استفاده از آزمون تهران-استنفرد-بینه (TSB) (12)به بررسی و مقایسهء برآورد پارامترهای دشواری و توانایی پرداخت و درواقع،توانمندی مدل راش را در برآورد پارامترها در شرایط نقض مفروضات بررسی کرد.نتیجهء کلی تحقیق مذکور آن‏ است که مدل راش برای برآورد پارامتر دشواری سؤال‏ها وقتی ai سؤال‏ها تفاوت دارد، مناسب نیست اما برای برآورد توانایی افراد مناسب و خوب است(13).

در مورد مدل دوپارامتری و تفاوت برآورد توانایی برپایهء آن و مدل کلاسیک، انصارین به پژوهش دست زد.او با استفاده از داده‏های حاصل از اجرای آزمون هوش‏ تهران-استنفرد-بینه (TSB) به برآورد منحنی ویژهء سؤال‏ها،پارامترهای دشواری و قدرت تشخیص سؤال‏ها و توانایی آزمودنی‏ها اقدام کرد.نتیجه آن‏که نمرات خام یکسان‏ دارای برآورد یکسانی از توانایی و موقعیت آزمودنی بر روی پیوستار مکنون نبودند(14 و 15).

دیوجی طی یک بررسی،کاربرد مدل یک پارامتری راش را برای سؤال‏های چند گزینه‏ای مورد بررسی قرار داده است اما به‏رغم استفاده از مدل راش برای برآورد پارامترها در سؤال‏های چند گزینه‏ای،به‏عقیدهء دیوجی به‏علت نبود پارامتر حدس و قدرت‏ تشخیص یکسان در مدل راش،این کاربردها درست نیست(16).البته علاوه بر دیوجی،

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 87)

محققان دیگری هم به نامناسب بودن استفاده از مدل راش برای سؤال‏های چند گزینه‏ای‏ اشاره کرده‏اند؛از جمله،آندرسن عدم برازش مدل را به نابرابری قدرت تشخیص نسبت‏ داده است.همبلتون و تراب نشان داده‏اند که مدل دوپارامتری،توزیع نمرات را بهتر از مدل راش پیش‏بینی می‏کند(9).

همبلتون و موری از طریق نمودار باقی‏مانده برای آزمون‏های ریاضی،برازش مدل سه‏ پارامتری و عدم برازش مدل تک‏پارامتری را برای داده‏ها مطرح کرده‏اند(16).

یکی از موضوع‏ها و نکات مهم در مورد مدل‏های IRT ،حجم نمونهء آزمودنی‏ها و سؤال‏ است.این دو عامل،به‏ویژه در مدل سه‏پارامتری،می‏تواند بر برآورد پارامترهای سؤال و توانایی تأثیرات جدی داشته باشد.همبلتون و کوک در یک مطالعه با انتخاب آزمون‏هایی‏ با سه طول 10،20 و 80 سؤالی و نمونه‏هایی با حجم 50،200 و 1000 آزمودنی به‏ بررسی اثرات حجم نمونهء آزمودنی و ویژگی‏های خزانهء سؤال و تعداد سؤال بر خطای‏ استاندارد برآورد توانایی اقدام کردند.طول آزمون 10 سؤالی حد اقل طول ممکن برای‏ یک آزمون و آزمون 80 سؤالی نیز از طول‏های متداول تست است.در مورد حجم نمونهء آزمودنی 50 و 1000 نفر نیز به‏همین‏گونه استدلال کرده‏اند.سؤال‏ها از دو خزانهء سؤال‏ استخراج شدند.در عمل،سؤال‏های خزانهء 1 دارای دامنهء عریض‏تری برای پارامترهای‏ دشواری و قدرت تشخیص سؤال بودند.پارامتر حدس هردو خزانهء سؤال 25/0 در نظر گرفته شد.جمع‏بندی نتایج این مطالعه به‏صورت زیر است:

1.حجم نمونهء پاسخ‏گویان و طول آزمون،دو عامل بسیار مهم در دقت منحنی‏های SE(?) است.موارد نقض و استثنای این امر به نوسانات نمونه‏گیری مربوط می‏شود.

2در کرانه‏های پیوستار توانایی،دقت منحنی‏های SE(?) حتی با وجود نمونه‏های‏ بزرگ آزمودنی،بسیار پایین است.

3.در اکثر موارد با نمونه‏های 200 آزمودنی و 20 سؤال،دقت برآورد خطای‏ استاندارد توانایی قابل قبول خواهد بود.البته این نکته بیش‏تر در دامنهء وسط توانایی‏ [1+،1-]صادق است.


4.افزایش طول تست از 10 به 20 سؤال بیش از افزایش آن از 20 به 80 سؤال،دقت‏ SE را بهبود می‏بخشد.

5.در مورد حجم نمونه نیز افزایش افراد از 50 به 200،بیش از 200 به 1000 نفر دقت‏ برآورد SE را ارتقا می‏دهد(17).

لرد طی یک مطالعه و ضمن مقایسهء مدل‏های یک و دوپارامتری IRT در برآورد نمرهء حقیقی آزمودنی‏ها،تلاش کرده است تأثیر حجم نمونه را بررسی کند.داده‏های مطالعه

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 88)

شامل پاسخ 3000 دانش‏آموز کلاس ششم به آزمون خزانهء لغات متروپولیتن با برنامه‏ LOGIST تجزیه و تحلیل شده است.نتایج مطالعه نشان داد وقتی حجم نمونه کوچک‏ باشد،پارامتر قدرت تشخیص (ai) سؤال‏ها و پارامتر مجانب یا حدس سؤال‏ها (ci) را نمی‏توان به‏دقت تعیین کرد.ازاین‏رو،در بعضی موقعیت‏های معین و محدود و با حجم‏ نمونهء کوچک‏تر از 100 یا 200 آزمودنی،برآوردکنندهء نمره حقیقی X آزمودنی در مدل‏ راش(یک‏پارامتری)می‏تواند اندکی بهتر از برآوردکنندهء نمرهء حقیقی برپایهء مدل دو پارامتری باشد(6).

بیان اهداف و فرضیه‏های پژوهش

هدف اصلی پژوهش حاضر مقایسهء مدل‏های اندازه‏گیری(کلاسیک و سؤال-پاسخ)از لحاظ برآوردهای متفاوت یا مشابهی است که برای پارامترهای سؤال‏های آزمون و توانایی‏ آزمودنی‏ها به‏دست می‏دهند.


فرضیه‏های این پژوهش که آزمون آن‏ها مورد توجه است،عبارت‏اند از:

1.کاربرد مدل‏های سؤال-پاسخ(با تعداد پارامتر مناسب)برای برآورد دقیق‏ مشخصات سؤال بر مدل کلاسیک برتری دارد.

2.برآورد توانایی آزمودنی‏ها با استفاده از مدل‏های IRT (با تعداد پارامتر مناسب)از برآورد توانایی افراد برپایهء مدل کلاسیک دقیق‏تر است.

3.در صورت وجود عامل حدس در پاسخ دادن به سؤال‏ها،افزودن پارامتر حدس (Ci) به مدل IRT ،مدل برازنده‏تری برای داده‏ها ایجاد می‏کند.

روش اجرای پژوهش


الف.آزمودنی‏ها

جامعهء این پژوهش را همهء داوطلبان آزمون ورودی دوره‏های داخلی وزارت نیرو تشکیل می‏دهد و نمونهء تحقیق تعداد 553 نفر از داوطلبانی هستند که در آزمون داخلی‏ گزینش دانشجو(مورخ 6/3/1373)در رشتهء قدرت(مقطع کاردانی)شرکت کرده‏اند. برای نمونه‏برداری همهء شرکت‏کنندگان انتخاب شدند.در واقع،شرکت‏کنندگان در آزمون‏ مذکور نمونه‏ای از همهء داوطلبان فرض شده‏اند.حجم نمونهء اوّلیه 553 نفر بود اما تعدادی از پاسخ‏نامه‏ها به‏علت مخدوش و غیرقابل استفاده بودن از نمونه حذف شد و حجم نمونهء نهایی به 430 نفر کاهش یافت.


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 89)

ب.روش‏های آماری


برای تجزیه و تحلیل داده‏ها ابتدا در ایران مشخصه‏های کلاسیک سؤال‏ها و آزمون‏ها محاسبه شد.سپس داده‏ها که شامل پاسخ‏های 430 آزمودنی به سؤال‏های چهار گزینه‏ای سه‏ خرده‏آزمون 20 سؤالی بود،از طریق نظام شبکهء جهانی اطلاعات (Internet به یکی از دانشگاه‏های آمریکا(دانشگاه UCLA )ارسال گردید.پس از تحلیل داده‏ها با نرم‏افزار بای‏لوگ،خروجی کامپیوتر شامل برآورد پارامترهای سؤال و توانایی افراد،به ایران‏ فرستاده شد.13خلاصهء اطلاعات در مورد خرده‏آزمون ریاضیات به‏همراه نمودارهای‏ دشواری و قدرت تشخیص سؤال‏ها در پایان مقاله ارائه شده است(نمودار شمارهء 1 و 2 و جدول شمارهء 4).

برای تعیین برتری مدل‏های سؤال-پاسخ بر مدل کلاسیک در برآورد دقیق مشخصات‏ سؤال(فرضیهء 1 پژوهش)از یک ابزار نیرومند نظریات جدید اندازه‏گیری به نام تابع‏ آگاهی‏14استفاده شد.تابع آگاهی نظامی است که ورودی آن پارامترهای سؤال و خروجی‏ آن میزان آگاهی‏دهندگی آزمون می‏باشد.متفاوت بودن تابع آگاهی یک آزمون برحسب‏ مدل‏های اندازه‏گیری،بیانگر تفاوت مدل‏ها از برآوردهایی است که برای پارامترهای‏ سؤال‏های آزمون مذکور محاسبه شده است.برای بررسی معناداری تفاوت تابع آگاهی‏ آزمون‏ها به‏علت وابسته بودن داده‏ها،از آزمون t برای داده‏های وابسته استفاده شد و تابع‏ آگاهی هر آزمون که براساس مدل‏های یک و دوپارامتری و کلاسیک برآورد شده بود،با تابع آگاهی همان آزمون در مدل سه‏پارامتری مقایسه گردید.معناداری تفاوت این توابع‏ آگاهی با t آزمون شد.

به‏منظور آزمون فرضیهء دوم-تفاوت یا عدم تفاوت مدل‏ها در برآورد توانایی و سطح‏ صفت مکنون آزمودنی‏ها-از آزمون مجذور کای از نوع نیکویی برازش استفاده شد تا مدل‏های یک و دوپارامتری و کلاسیک را در مقایسه با مدل سه‏پارامتری آزمون کند. برای این منظور،ابتدا نمرات به مقیاس استاندارد یا Z برده شدند و سپس به 12 طبقه از [5/2-،3-]تا[3،5/2]تقسیم گردیدند.آن‏گاه فراوانی طبقات براساس آزمون نیکویی‏ برازش با درجات آزادی‏1- k - df مقایسه و در دو سطح معناداری 05/0 و 01/0 بررسی‏ شد.

برای بررسی و تعیین برازش یا عدم برازش هریک از مدل‏های IRT با داده‏ها،یعنی به‏ منظور آزمون فرضیهء 3 پژوهش مبنی بر برازندگی بیش‏تر مدل سه‏پارامتری نسبت به سایر مدل‏های IRT ،نرم‏افزار BILOG از نوعی آزمون مجذور کای استفاده می‏کند.فرض صفر آزمون نیکویی برازش مدل-داده‏ها بر تناسب و برازش مدل با داده‏ها تأکید می‏ورزد و در

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 90)

واقع،تفاوت مدل با داده‏ها را انکار می‏کند و فرض خلاف عدم برازش را بیان می‏دارد.در عمل،سطح احتمال مجذور کای محاسبه‏شدهء هر سؤال با 01/0 و 05/0 مقایسه می‏شود. در صورت بزرگ‏تر بودن سطح احتمال هر سؤال از 01/0 یا 05/0،نتیجه گرفته می‏شود که سؤال با مدل دارای برازش نسبی(05/0> ? >01/0)یا برازش کامل(05/0< ? ) است.


پ.ابزار گردآوری داده‏ها

ابزار مورد استفاده برای گردآوری داده‏های پژوهش شامل سه آزمون بیست سؤالی‏ ریاضیات،فیزیک و درس فنی به‏صورت چهار گزینه‏ای بوده است.درس‏های مذکور جزء مواد امتحانی اصلی و مشترک آزمون‏های گزینش دانشجو در وزارت نیرو به‏شمار می‏روند.سایر مواد امتحانی تعداد آزمودنی کمی دارد.این آزمون‏ها به‏وسیلهء متخصصان‏ حیطه‏های مزبور که معمولا جزء کارشناسان وزارت نیرو هستند،طراحی و تهیه می‏شود.در مورد نحوهء اجرای ابزار تا حد قابل قبولی می‏توان شرایط استاندارد و اصولی را برای آن‏ها در نظر گرفت.از جمله در ابتدای دفترچهء آزمون دربارهء شیوهء پاسخ‏گویی به‏ سؤال‏ها،مدت زمان اجرا،وجود نمرهء منفی در آزمون،تعداد سؤال‏های هر خرده‏آزمون و ...توضیحاتی ذکر شده است.

یافته‏های پژوهش

برای آزمون فرضیهء 1،مقایسهء مدل سه‏پارامتری و مدل کلاسیک از نظر برآوردهایی‏ که برای پارامترهای سؤال‏ها به‏دست می‏دهند،از تابع آگاهی خرده‏آزمون‏ها بهره گرفته شد. تفاوت توابع آگاهی هر آزمون که حاصل مدل‏های مختلف بود،محاسبه و با آزمون t برای‏ داده‏های وابسته آزمون شد.نتایج نشان داد که نه تنها بین تابع آگاهی هر آزمون براساس‏ مدل کلاسیک تفاوت قابل توجهی دیده می‏شود و این تفاوت حتی در سطح‏ 01/0> ? و با بیش از 99 درصد اطمینان معنادار است بلکه توابع آگاهی مدل‏های دو پارامتری و یک‏پارامتری نیز برای آزمون از تابع آگاهی هر خرده‏آزمون براساس مدل‏ کلاسیک در همین سطح تفاوت معناداری دارد.در واقع،با درجهء آزادی 32 و مقدار t مبین 45/2 تنها توابع آگاهی آزمون‏ها بین مدل‏های یک و دوپارامتری معنادار نبود و سایر مقادیر همه تفاوت معناداری داشتند.بنابراین،می‏توان گفت علاوه بر مدل سه‏ پارامتری IRT ،حتی مدل‏های دو و یک‏پارامتری نیز پارامترهای سؤال‏ها را دقیق‏تر و مناسب‏تر از مدل کلاسیک برآورد می‏کنند و فرضیهء صفر رد و فرضیهء اوّل پژوهش با بیش‏ از 99 درصد اطمینان تأیید می‏شود(جدول شمارهء 1).

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 91)

جدول شمارهء 1-محاسبهء آزمون t گروه‏های وابسته برای تفاوت بین توابع آگاهی آزمون‏ها برحسب مدل‏های مختلف

(به تصویر صفحه مراجعه شود) 45/2-01/0 t(cr) 69/1-05/0 t(cr) 32- df 33- n

فرضیهء 2 مدعی است که مدل سه‏پارامتری نظریهء سؤال-پاسخ توانایی افراد را نسبت به‏ مدل کلاسیک اندازه‏گیری به‏گونه‏ای متفاوت و دقیق‏تر برآورد می‏کند.به این ترتیب،باید برای آزمون این فرضیه،تفاوت مدل سه‏پارامتری از مدل کلاسیک در برآورد توانایی‏ بررسی شود.به این منظور،آزمون مجذور کای بین مدل سه‏پارامتری و مدل کلاسیک‏ (البته مدل‏های دو و یک‏پارامتری نیز)اجرا شد تا تفاوت فراوانی‏های افراد در طبقات‏ مختلف آزمون شود.نتایج نشان داد که نه تنها توانایی برآوردشده برای افراد براساس مدل‏ سه‏پارامتری از مدل کلاسیک متفاوت است بلکه حتی مدل‏های دو و یک‏پارامتری نیز در برآورد پارامتر توانایی آزمودنی‏ها با مدل سه‏پارامتری تفاوت و تمایز دارد.این امر در سطح 01/0> ? هم معنی‏دار بود.از سوی دیگر،از آن‏جا که مدل سه‏پارامتری از لحاظ تعداد پارامتر مناسب‏ترین مدل برای داده‏های حاضر محسوب می‏شود و طبق نتایج آزمون‏ خوبی برازندگی،برازش و مناسبت کاملا آشکاری با داده‏های پژوهش دارد،توانایی‏ برآوردشده برای افراد را که از مدل سه‏پارامتری به‏دست آمده است،می‏توان دقیق‏تر و مناسب‏تر از توانایی حاصل از سایر مدل‏های اندازه‏گیری تلقی کرد.بنابراین،فرضیهء صفر رد و فرضیهء دوم پژوهش حاضر نیز با بیش از 99 درصد اطمینان تأیید می‏شود(جدول‏ شمارهء 2).


تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 92)

جدول شمارهء 2-برازندگی مدل-داده‏ها برحسب مدل‏های IRT (تعداد سؤال‏ها)

(به تصویر صفحه مراجعه شود) 8<؟ df ؟>2 9<؟ df ؟>2 9<؟ df ؟>3

جدول شمارهء 3-مجذور کای محاسبه‏شده بین پارامتر توانایی مدل سه‏پارامتری‏ و مدل‏های دو و یک‏پارامتری و کلاسیک

(به تصویر صفحه مراجعه شود) 725/24-01/0 X2(cr) 675/19-05/0 X2(cr) 11- df

برای آزمون فرضیهء 3 پژوهش از نوعی آزمون خوبی برازندگی استفاده شد و برازش‏ سؤال‏های آزمون با مدل‏های یک،دو و سه‏پارامتری بررسی گردید.براساس نتایج به‏دست‏ آمده،مدل سه‏پارامتری برازش چشم‏گیری با داده‏ها داشت؛درحالی‏که نه تنها مدل دو پارامتری بلکه مدل یک‏پارامتری نیز بدون برازش شناخته شد.بنابراین،فرضیهء سوم‏ پژوهش نیز با بیش از 99 درصد اطمینان و در سطح 01/0> ? معنادار شناخته شد و فرض‏ صفر رد و فرض پژوهش(خلاف)تأیید گردید.بدین ترتیب مدل سه‏پارامتری،برای‏ داده‏های آزمون‏های مورد استفاده در این پژوهش نسبت به سایر مدل‏های IRT برازنده‏تر و مناسب‏تر شناخته شد(جدول شمارهء 3).

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 93)

نتیجه‏گیری

مطابق نتایج تحقیقات و مطالعات قبلی در زمینهء نظریه‏های جدید اندازه‏گیری، IRT و مقایسهء آن با نظریهء کلاسیک آزمون،این مطالعه نیز نشان داد که در سطح بالایی از اطمینان‏ می‏توان گفت:

1.مدل‏های IRT نسبت به‏مدل کلاسیک اندازه‏گیری در برآورد پارامترهای سؤال‏ها و توانایی آزمودنی‏ها دارای مناسبت،دقت و برازندگی بیش‏تری است.این نتیجه در مورد آزمون‏های پیشرفت تحصیلی چهار گزینه‏ای که مبنای مطالعهء حاضر بوده است،با بیش از 99 درصد اطمینان صدق می‏کند.

2.در بین مدل‏های نظریهء سؤال-پاسخ (IRT) برای برآورد پارامترهای سؤال و توانایی‏ افراد،مدل سه‏پارامتری در مورد آزمون‏های پیشرفت تحصیلی چند گزینه‏ای این پژوهش، نسبت به مدل‏های یک و دوپارامتری برتری خاصی نشان داد.

3.در بین مدل‏های یک و دوپارامتری IRT از لحاظ برآورد پارامترهای سؤال‏ براساس داده‏های خرده‏آزمون‏های حاضر،تفاوت چشم‏گیری ملاحظه نمی‏شود.ازاین‏رو می‏توان تأثیرگذاری پارامتر قدرت تشخیص سؤال‏ها را بر برآورد پارامتر دشواری چندان‏ شدید و جدی ندانست.به‏زبان دیگر،سؤال‏های مورد استفاده در خرده‏آزمون‏های این‏ مطالعه دارای قدرت تشخیص خیلی متفاوت و مؤثری نیستند اما در مورد برآورد پارامتر توانایی آزمودنی‏ها،می‏توان نتیجه گرفت که براساس داده‏های حاضر،بین مدل‏های یک و دوپارامتری در مقام مقایسه با مدل سه‏پارامتری،برآورد پارامتر توانایی تا حدی متفاوت‏ است و در مورد آزمون‏های چند گزینه‏ای پارامتر شیب بر روی برآورد پارامتر توانایی‏ تأثیر داشته است.

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 94)

پی‏نوشت‏ها

(1).نظریات جدید اندازه‏گیری و روان‏سنجی نخست با اصطلاح صفت مکنون یا خصیصهء مکنون به‏شدت‏ پیوند خورد اما به‏تدریج با عنوان نظریهء سؤال-پاسخ یا Item Response Theory (با علامت اختصاری‏ IRT )یا نظریهء منحنی ویژهء سؤال رواج یافت که برای مقاصد آزمون‏سازی و تحلیل آماری داده‏ها مناسب‏تر به‏نظر می‏رسد(همبلتون،1993).


(2). Information Function

(3).برای تحلیل داده‏ها در آمریکا به‏وسیلهء نرم‏افزار BILOG ،علاوه بر مساعی فراوان استاد محترم راهنما آقای دکتر سلیمی‏زاده،نگارنده بر خود لازم می‏داند از عنایت استاد ارجمند دکتر جمال عابدی،عضو هیأت علمی دانشگاه مذکور که تحلیل داده‏ها را مسیر کردند،تشکر و سپاس‏گزاری نماید.

منابع

1. Allen.J.M.. Yen, M.W.(1979).Introduction to measurement thoery.California: wadsworth.

2.ثرندایک،رابرت؛روان‏سنجی کاربردی،مترجم:حیدر علی هومن،تهران،دانشگاه تهران،1369.

(به تصویر صفحه مراجعه شود)

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 95)

(به تصویر صفحه مراجعه شود) 12.هومن،حیدر علی؛مقایسهء مدل تک‏پارامتری راش و مدل دوپارامتری،پایان‏نامهء منتشرنشدهء دانشگاه‏ آزاد اسلامی،1373.

13.هومن،حیدر علی؛هوش‏آزمای انفرادی تهران-استنفرد-بینه.فصلنامهء علوم تربیتی دانشگاه تهران، ویژه‏نامهء روان‏سنجی،دورهء جدید،سال یکم،شمارهء 1-4.


14.انصارین،علیرضا؛برآورد خم ویژهء سؤال و توانایی آزمودنی‏ها در مقیاس تهران-استنفرد-بینه بر پایهء مدل دوپارامتری صفت مکنون،پایان‏نامهء منتشرنشدهء دانشگاه آزاد اسلامی،1371.

15.هومن،حیدر علی؛روش تهیهء آزمون هوش،تهران،دانشگاه تهران،1375.

16. Divgi.D.R.(1986).Does the Rasch model really work for multiple choice items? Not if you look closely.Journal of Educational Measurement, 23,283-298.

17. Hambleton, R.K.. Cook.L.L.(1983).The robustness of item response models and effects of test length and sample size on the precision of ability estimates.In D.J.Weiss(Ed.). New horizons in testing(pp.31-49).New York:Academic Press.

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 96)

پایان مقاله


تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و  توانايي برآوردشده در مدل هاي پرسش پاسخ و ك

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و

توانايي برآوردشده در مدل هاي پرسش پاسخ و كلاسيك اندازه گيري

بهنام كريمي 1

محمدرضا فلسفينژاد 2

فريبرز درتاج 3

90/12/ 90 تاريخ پذيرش: 24 /6/ تاريخ وصول: 18

چكيده

زمينه: سهولت نمره گذاري، اجرا و عينيت آزمونهاي چندگزينه اي سبب شده كه به عنوان ابزار

اصلي در سنجش هاي وسيع مورد استفاده قرار گيرد. انتقادهاي زيادي نسبت به سؤالات

چندگزينه اي مطرح شده است. نظير پوشش ندادن به تمامي اهداف تربيتي (سطوح پايين

شناختي را مي سنجند) و استفاده از عامل حدس و گمان در پاسخ به سؤا لها. در اين ميان

عده اي نيز افزايش تعداد گزينههاي سؤال را راهي براي مقابله با اين مشكلات دانست هاند. هدف:

هدف از پژوهش حاضر بررسي تأثير تعداد گزينهها بر ويژگي هاي روان سنجي آزمونها و

سؤالات و همچنين توانايي برآورد شده آزمودنيها در نظريه كلاسيك و پرسش پاسخ بود.

روش: جامعه آماري شامل كليه دانشآموزان سال سوم دبيرستانهاي شهر شيراز بود كه 608

نفر از آنان به شيوه تصادفي به عنوان گروه نمونه انتخاب شدند. براي جمعآوري اطلاعات از دو

آزمون پيشرفت تحصيلي زبان و حسابان كه به همين منظور تهيه و تنظيم شده بودند استفاده شد.

يافتهها: تجزيه و تحليل دادهها نشان داد كه تعداد گزينهها بر پارامترهاي سؤال اثر ندارد و تأثير

karimi.adviser@gmail.com -1 كارشناس ارشد روان سنجي

-2 استاد دانشگاه علامه طباطبايي

F_dortaj@yahoo.com -3 استاد دانشگاه علامه طباطبايي

www.SID.ir

Archive of SID

2 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

تعداد گزينهها بر ويژگيهاي روانسنجي برآورد شده آزمودنيها، در آزمونهاي مختلف

يكسان است. همچنين بين پارامترهاي برآورد شده در نظريه كلاسيك و پرسش پاسخ تفاوت

وجود داشت. نتيجهگيري: بعد از بررسي مفروضههاي نظريه پرسش و پاسخ مشخص شد كه

دادهها با مدل دو پارامتري برازش بهتري دارند، و تفاوتي بين تعداد گزينهها و برازش با مدل

مشاهده نشد. همچنين بين توانايي برآورد شده و تعداد گزينه ها تفاوت مشاهده شد.

واژگان كليدي: آزمون هاي چندگزينه اي، نظريه كلاسيك اندازه گيري، نظريه پرسش

پاسخ.

مقدمه

سهولت نمرهگذاري، اجرا و عينيت آزمون هاي چند گزينه اي سبب شده كه به عنوان ابزار اصلي

در سنجش هاي وسيع 1 مورد استفاده قرار مي گيرد ( نظير كنكور، تافل و... ). انتقادهاي زيادي

نسبت به سؤالات چندگزينه اي مطرح شده است نظير پوشش ندادن تمامي اهداف تربيتي

(سطوح پايين شناختي را م يسنجند)، و استفاده از حدس وگمان كه يكي از اصل يترين ايرادات

نسبت به كنكور سراسري بوده كه منجر به طرح حذف كنكور شده است. در اين ميان عدهاي

نيز افزايش تعداد گزينههاي سؤال را راهي براي مقابله با اين مشكلات دانستهاند.

با اين همه اطلاعات محدود و ناچيزي در مورد اثربخشي رويكردهاي ارائه شده وجود

دارد. اگر چه شعور عادي ميپذيرد كه افزايش تعداد گزينهها حدس زدن را كاهش ميدهد،

اما امكان ايجاد گزينه هاي جالب و جذاب (بيش از 3 يا 4) در بسياري مواقع وجود ندارد. از

طرفي تعيين تعداد مطلوب گزينهها نياز به شواهد علمي و تجربي دارد.

نوشتن سؤال هاي تستي با وجود همه تلا شهايي كه در جهت مكانيزه و كامپيوتري كردن

آن به عمل آمده است همچنان به عنوان يك هنر تلقي مي شود. ابتكار و استادي در گنجاندن

1. large scale assessment

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 3

اين مفاهيم در يك مساله، قاطعيت در جلمه بندي و عبارات مربوط به سؤال به گونه اي كه

مسأله مورد نظر به وضوح بيان شده باشد و سرانجام بينش و مهارت در توليد گزينه هاي

انحرافي به گونه اي كه افراد ضعيف را به خود جلب كند مستلزم طرح و تحليل دقيق سؤالها و

.( تجزيه مستقيم است (ثرندايك به نقل از هومن، 1375

سؤال هاي چندگزينه اي ممكن است به گونه كلي داراي 3.4.5 حتي 6 گزينه باشند اما بيش

از 70 سال پيش متخصصان انداز هگيري كشف كردند كه دليل منطقي كمي براي نوشتن

سؤال هاي چندگزينه اي به صورت 4 يا 5 گزينه اي وجود دارد (اون و فرومن، 1987 ) با اين

وجود متداو لترين نوع پرسش ها چهار گزينه اي است. اما يك پرسش 3 گزينه اي كه براساس

روش هاي عملي و آماري صحيح تهيه شوند به يك پرسش 4 يا 5 گزينه اي كه داراي گزينه

.( هاي معيوب است برتري دارد (سيف، 1386

اما امروزه به چند دليل عمده از آزمون هاي چندگزينه اي بيش از ساير انواع آزمون ها در

حوزه تعليم و تربيت استفاده مي شود: اول به علت آنكه آزمودني قادر است در زمان معين تعداد

زيادي سؤال را پاسخ دهد و به عبارتي ديگر در يك زمان محدود تعداد زيادي از هد فها

آموزشي و بخش مهمي از محتواي درس را اندازه بگيرد. دوم اينكه آزمو نهاي چند گزينه اي

نسبت به آزمون هاي صحيح و غلط و دوگزينه اي كمتر امكان حدس زدن كوركورانه را به

آزمون شونده مي دهند. دليل سوم براي استفاده بيشتر از اين نوع آزمون سهولت در نمره

گذاري و تصحيح و تفسير آن و در نتيجه صرفه جويي در نيروي انساني و وقت و هزينه م يباشد

.( (سيف، 1386

اما معايبي نيزدارد از جمله اينكه ساختن اين آزمو نها بسيار دشوار است و در مقايسه با

آزمون هاي صحيح - غلط خواندن اين آزمون ها و پيدا كردن گزينه درست مستلزم وقت

.( زيادتري است (شريفي، 1384

امروزه آزمون هاي چندگزينه اي استعداد و پيشرفت تحصيلي در حوزه تعليم و تربيت بيش

از ساير موقعيت ها مورد استفاده قرار مي گيرد اما اينكه يك آزمون چندگزينه اي چه تعداد

www.SID.ir

Archive of SID

4 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

گزينه بايستي داشته باشد تا از حداكثر پايايي برخوردار باشد همواره مورد بحث مي باشد. تعداد

گزينه هاي سؤال هاي چندگزينه اي (گزين ههاي درست يا انحرافي) از 2 تا 5 و گاهاً تا 6

متغيراست و به لحاظ نظري هر چه تعداد گزينه ها بيشتر باشد امكان حدس زدن كمتر است اما

ابتدا بايد مشخص كرد در يك آزمون، چند گزينة انحرافي بيشتر، باعث افزايش پايايي سؤال

مي شود به هر حال در عمل ممكن است اضافه كردن گزينه هاي انحرافي واقعا باعث افزايش

پايايي آزمون نشود زيرا پيدا كردن گزينه هاي خوب مشكل است. پايائي هر سؤال از طريق

گزينه هاي انحرافي كه هيچ وقت انتخاب نشد هاند بالا نم يرود مطالعات نشان داد هاند كه به

ندرت مي توان سؤالاتي را يافت كه بيشتر از 3 يا 4 گزينه انحرافي كه به طور مؤثر عمل مي كنند

داشته باشند و گزينه هاي انحرافي خنثي ممكن است به پايايي آزمون لطمه وارد كنند به اين

دليل كه آنها زمان بيشتري را براي خواندن م يگيرند و فضاي آزمون را اشتغال مي كنند

.( (كاپلان و ساكوزو،به نقل از دلاور و درتاج و فرخي، 1386

سؤال هاي تحقيق

آيا پارامتر هاي سؤال نسبت به تعداد گزينه ها حساس است ؟

آيا تأثير تعداد گزين هها بر ويژگي هاي روان سنجي سؤالات و توانايي برآورد شده

آزمودني ها در نظريه كلاسيك و سؤال پاسخ متفاوت است ؟

آيا توانايي برآورد شده آزمودن يها از تعداد گزينه هاي سؤال تأثير مي پذيرد؟

آيا تعداد گزين هها بر برازش داده ها با مدل در نظريه سؤال پاسخ تأثير مي گذارد؟

يك مطالعه درباره مسائلي كه به انتخاب گزين ههاي انحرافي مربوط م يشود پيشنهاد

مي كند كه معمولاً بهتر است 3 يا 4 گزينه انحرافي كه به طور مؤثر عمل مي كنند براي هر سؤال

.( تدوين شود (آناستازي و اربينا، 1997 به نقل از دلاور، 1374

يونسي ( 1386 ) به بررسي ويژگ يهاي روان سنجي سؤال هاي آزمون فراگير رشته

روان شناسي دانشگاه پيام نور در سال 1385 پرداخته و نتايج تحقيق را اين طور بيان م يكند.

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 5

تجزيه و تحليل داد هها نشان داد كه گزينه هاي انحرافي تمامي سؤالات در همه آزمون ها هم

احتمال نيستند و عملكرد معيوبي داشت هاند نتايج تجزيه وتحليل حاكي از اين است كه در

آزمون هاي ادبيات فارسي، روانشناسي و جامعه شناسي مدل دو پارامتري نسبت به مدل سه

پارامتري برازش بهتري با مجموعه داده هاي ازمون دارد.

معلمي اوره ( 1387 )در تحقيقي به مقايسه دقت برآورد توانايي در سؤالات چندگزينه اي

با بكارگيري مدل سازي - سؤال پاسخ دو وچند ارزشي - پرداخته است.نتايج حاصل از برازاندن

مدل دو ارزشي 1و 2و 3 پارامتري بر داده هاي سؤال پاسخ مذكور نشان داد مدل دو پارامتري كه

1 است. دراين NRM از نظر ساختار پارامتري در ميان مدل هاي دو ارزشي نزديك ترين مدل به

ميان از برازندگي بهتري با داد ههاي فوق الذكر برخوردار است ولذا اين مدل به عنوان مدل دو

انتخاب (NRM) ارزشي مناسب جهت مقايسه دقت برآورد توانايي با مدل چند ارزشي برگزيده

شد.

هاديان ( 1376 ) تأثير تعداد گزينه هاي سؤال در اعتبار تست هاي چندگزينه اي را مورد

بررسي قرار داد.هدف از اين پژوهش مطالعه تأثير تعداد گزين هها در اعتبار تس تهاي چند

گزينه اي در بين سه گروه قوي،متوسط وضعيف است وتعيين اين كه چه تعداد گزينه در

هريك از گروه ها بيشترين اعتبار را براي تست فراهم م يكنند. 400 نفر از دانش آموزان دختر

وپسر سال اول دبيرستان هاي نظام جديد مناطق 2و 11 و 18 آموزش وپرورش شهر تهران در سال

75 ) به شيوه نمونه گيري چند مرحله اي انتخاب شدند. - تحصيلي ( 76

براي 4 نوع سؤال 2 تا 5 (KR بعد از اجراي آزمون ضريب اعتبار از طريق فرمول آلفا ( 20

گزينه اي در هر يك از سه گروه متوسط، ضعيف وقوي به دست آمد. ضرايب اعتباربه دست

آمده براي هر فرم از تست مورد مقايسه قرار گرفت نتايج نشان داد كه بين ضريب اعتبار

تست هاي 2تا 5 گزينه اي براي گروه قوي وضعيف تفاوت اساسي ومعناداري وجود ندارد ودر

-1 مدل پاسخ اسمي

www.SID.ir

Archive of SID

6 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

اين دو گروه ضريب اعتبار تس تهاي 2گزينه اي به طور قابل ملاحظه اي از ساير تس تها بيشتر

بود. ولي بين ضرايب اعتبار تست هاي 3تا 5 گزينه اي براي گروه متوسط تفاوت معنادار بود بدين

معني كه تست هاي 3گزينه اي، نسبت به تست هاي با تعداد گزينه هاي بيشتروكمتر از اعتبار

بالاتري برخوردار بود.

1376 )به بررسي تأثير تعداد گزينه ها وزمان اجراي آزمون بررسي نمره كل - بيرقي ( 77

آزمون پرداخته است. داده هاي جمع آوري شده برروي 200 نفر گروه نمونه انجام شده است.

آزمودني ها بر اساس نمره هاي حاصل از يك آزمون ادبيات جداگانه كه در ابتداي تحقيق اجرا

شده است، به دو گروه تقسيم شده اند.ويكي از گروه ها به يك آزمون سه گزين هاي وگروه

دوم به يك آزمون 4گزينه اي كمتر از ميانگين نمرات 3گزينه اي است يعني افزايش تعداد

گزينه ها باعث كاهش نمره كل آزمون شده است.

پاك نژاد ( 1377 ) به بررسي، تأثير تعداد گزينه هاي سؤال ومدت زمان پاسخ دهي برپايايي

آزمون هاي چندگزينه اي پيشرفت تحصيلي پرداخته است. تحقيق حاضر به منظور بررسي تأثير

تعداد گزينه هاي سؤال ومدت زمان پاسخ دهي بر پايايي 1 آزمون هاي چندگزينه اي پيشرفت

تحصيلي برروي يك نمونه 400 نفري از دانش آموزان سال سوم دبيرستان نظام جديد آموزش

متوسطه شهرستان انديمشك كه در سال تحصيل فرهنگ ومعارف اسلامي انجام شده است.

دراين تحقيق، ضرايب پايايي آزمون هاي چهارگزينه اي،سه گزينه اي، و دوگزينه اي وآزمون

چهارگزينه اي با مدت زمان پاسخ دهي كوتاه و بلند با استفاده از آزمون هاي معني دار بودن

مورد α=0 . اختلاف بين دو ضريب همبستگي در نمونه هاي همبسته ومستقل در سطوح 05

مقايسه قرار گرفته اند نتايج حاكي از آن بود كه بين ضرايب پايايي آزمون هاي چهارگزينه اي و

سه گزينه اي اختلاف معني داري نمي باشد. وبين ضرايب پايايي آزمون هاي چهارگزينه اي و دو

گزينه اي اختلاف معني دار مي باشد.

1. Reliability

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 7

2009 ) در تحقيقي برروي آزمون هاي ورودي مدارس و دانشگاه ها با بيان ) تام بوركارد 1

SAT اين كه بايد از آزمون ها و سؤالات چند گزينه اي استفاده شود ادعا مي كند تس تهاي

داراي مشكلات خاص وسيستماتيك است. بوركارد مي گويد مشكلات زيربنايي، ناشي از باز

پاسخ بودن بعضي از سؤالات است. همچنين ادعا مي كند كه مهارت تفكر انتقادي دراين

آزمون ها (باز پاسخ) واقعي نيست. زيرا آزمون گران به راحتي نم يتوانند ادعاي خود را درمورد

كودكان 6 تا 11 ساله ثابت كنند. بوركارد بيان مي كند باجايگزيني آزمون هاي چند گزينه اي به

جاي باز پاسخ ديگر مشكلي نخواهيم داشت زيرا اين تست ها به دقت دانش وتوانايي را ارزيابي

ميكنند. با آزمون هاي چندگزين هاي مي توان مقايسه هاي سال به سال از عملكرد دانش آموزان

داشت. بوركارد ( 2009 ) مي گويد در جهان واقعي كسي فاقد دانش نيست و استفاده از سؤالات

انشايي و باز پاسخ امري خطير و فاجعه بار وبسيار پرهزينه براي سنجش عملكرد افراد است.

2008 ) باتحقيقي به عنوان دشواري سؤالات آزمون هاي چند ) گاتس شال وكوبينجر 2

گزينه اي،بيان داشته كه آزمون هاي چندگزينه اي خود مشكل زاست زيرا اغلب به راحتي فرد به

جواب درست دست پيدا مي كند و باعث مي شود آزمودني يك حدس زننده خوش شانس

باشد. در اين تحقيق (كوبينجر وگاتس شال، 2008 ) از آزمون هاي موازي استفاده شد كه از

لحاظ محتوا شبيه به هم هستند اما پاسخ هاي آنها متفاوتند. 173 تست به صورت تصادفي در

كتابچه هايي ارائه شدند. با انجام تحليل مدل راش بعد از حذف 39 سؤال با مدل راش برازش

گزينه اي تفاوت معني X داشت نتيجه اوليه به اين صورت بود كه آزمون چندگزينه اي 5تا

داراي با آزمون جواب آزاد نداشت. در اين تحقيق بيان شده است اگر از سؤالات با فرمت 1

گزينه صحيح از 5 گزينه انحرافي و 1 گزينه صحيح از 4 گزينه انحرافي استفاده شود. چندان

تفاوتي نمي كند.

1. Tom burkard

2. Kubinger ,Gottschall

www.SID.ir

Archive of SID

8 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

در تحقيقي توسط جيمز و ماروي ( 2008 ) با عنوان تأثير گزينه معيوب در امتحانات چند

گزينه اي ارزيابي پرستاران به انتقاد از امتحانات چندگزين هاي پرداخته و با تاسف بيان كرده

است كه رواج گزينه هاي معيوب در امتحانات معلم ساخته باعث تبعات منفي زيادي شده

است.در اين تحقيق با يك بررسي دراز مدت برروي دانش آموختگان بوردپرستاري مشخص

شد افراد با نمره بالا وقتي دوباره آزمون شدند نتايج به نحوي بود كه انگار ارزيابي هاي قبلي،

غلط بودند (دانش آموزان نمرات پاييني در آزمون جديد گرفتند). به گفته جيمز و ماروي

2008 ) ممكن است در ظاهر فقط براي دانش آموزان دوره پرستاري اتفاق افتاده باشد. ولي پر )

واضح است كه در تمام عرصه ها به همين نحو است، جيمز و ماروي پيشنهاد م يكنند عيوب

سؤالات چندگزينه اي با دقت بيشتري بررسي شود و براي تمام سطوح موفقيت وتوانايي بررسي

شود.

2008 ) در پژوهش خود با عنوان استفاده از طرح آشيانه اي براي ) يانگ سوك سو 1

داده هاي آزمون هاي چندگزينه اي ادعا مي كند، موقعي كه راه حل و استراتژي صحيح در

ممانعت از انتخاب گزين ههاي انحرافي به كاربرده م يشود، مي تواند فرايند زير بنايي سؤالات

آزمون هاي چندگزينه اي را بهتر نشان دهد.اين رساله مدل جديدي براي ارزيابي سؤالات چند

ارائه مي دهد. به (MML) گزينه اي با استفاده از الگوريتم برآورد بيشينه درست نمايي كناري

علاوه سؤالات وطبقه كاربرد اطلاعات براي هر مدل به كار رفته است. و به ارزيابي عملكرد هر

مدل و مطالعات مشابه براي كشف پارامترهاي سؤال، پرداخته است. در كاربرد مدل به وسيله

استفاده كرده است. (Likelihood Ratio) از نسبت بيشينه تست DIF تحليل

چاين چي ( 2007 ) رساله دكتري خود را با عنوان تأثير حدس در ارزيابي ابعاد (تك بعدي

بودن وچند بعدي بودن) آزمون هاي چندگزينه اي ارائه كرده است. در اين تحقيق 4 شاخص

براي ارزيابي تك بعدي بودن مورد استفاده قرار گرفته است نسبت واريانس، تحليل هاي

وتفاوت خي دو. RMSR موازي، تبديل

1. Young suk suh

www.SID.ir

Archive of SID

تأثير تعدادگزين ههاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 9

2004 ) بيان مي كند كه آزمو نهاي چندگزينه اي بيشترين تعداد را در ) واي مين هوانگ 1

ميان تنوع بسيار زياد آزمون ها به خود اختصاص داده است. آزمون هاي چندگزينه اي عمومي

براي مواردي مثل تعيين پيشرفت، تعيين پايه دانش، دانشجويان ابقا يا ارتقا درجه علمي مورد

استفاده قرار م يگيرد. بر همين اساس م يگويد علي رغم نفوذ آزمون هاي چند گزينه اي،

شواهد تجربي حاكي از آن است كه چگونگي نوشتن آزمون هاي چند گزينه اي دچار كاستي

است.

2008 ) بيان مي كند ابهام در آيت مهاي تست باعث ورود واريانس هاي نا مربوط ) آلن ام 2

در آزمون هاي چندگزينه اي مي شود.

كارين –وودفورد وپيتر بانكرافت ( 2009 ) در مقاله اي تحت عنوان آزمون هاي چندگزينه اي

را سخت تصور نكنيد به بررسي آزمون هاي چندگزينه اي پرداخته است. وچگونگي ساخت،

اجزا و محدودي تهاي اين آزمو نها را مورد بررسي قرار داده است. در بخشي از اين مقاله به

تعداد گزينه ها در آزمو نهاي چندگزينه اي پرداخته و اظهار مي دارد كه در سا لهاي اخير

بيشترين اظهارنظرها به آزمو نهاي 3و 4و 5 گزينه اي معطوف بوده است. وبيان م يكند كه ادعاي

آنها كه 5 گزينه اي را انتخاب م يكنند بيشتر به خاطر از بين بردن حدس است. اين پژوهشگران

استفاده از 3 گزينه اي يا 4 يا 5 گزينه اي را معطوف به مقتضي زمان كاربرد م يدانند تا از

اشتباهات دوري شود.

2006 ) در تحقيقي در دانشگاه كانساي ژاپن آثار كاهش تعداد ) تتسو هيتوشيزوكا 3

گزينه ها سؤالات برروي مشخص ههاي روان سنجي آزمون ورودي دانشگاه كانساي را مورد

بررسي قرار داد.اين آزمون به صورت يك سري سؤالات 4 گزينه اي بود كه براي غربالگري

مورد استفاده قرار مي گرفت كه با حذف يك گزينه به يك آزمون سه گزينه اي تبديل شد. وبر

روي گروه ديگري اجرا شد. پاسخ به دو آزمون ومقايسه دو آزمون نشان داد كه درجه سهولت

1. Yi min Huang

2. Oleen-m

3. Tetsuhito shizuka

www.SID.ir

Archive of SID

10 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

و پارامتر تشخيص به طور معناداري تغيير نكرد. نتايج اين تحقيق پيشنهاد مي كند كه سؤالات سه

گزينه اي همان كارايي سؤالات 4 گزينه اي را دارد ودر اصل م يتوان به جاي 4 گزينه اي از سه

گزينه اي استفاده كرد.

2005 ) در تحقيقي بيان مي كند كه سؤالات چندگزينه اي بهترين كاربرد را ) مايكل سي 1

در زمينه آزمون هاي پيشرفت تحصيلي دارند. و براي به دست آوردن سؤالاتي با محتواي عالي

و با كيفيت سؤالات سه گزينه اي مي تواند از سؤالات 4 يا 5 گزينه اي برتري داشته باشد. به

گفته مايكل سي ( 2005 ) محققان در طي 80 سال تحقيق مدارك تجربي به دست آورده اند كه

سؤالات 3 گزينه اي بهترين كاربرد را دارد و نياز به اين سؤالات روز به روز بايد مورد توجه

قرار گيرد.

1980 ) به مقايسه آزمون سه گزينه اي و چهارگزين هاي پرداخته وبيان ) رالف جي استاراتون 2

داشته است كه هر چند بيشتر كتاب هاي اندازه گيري به طور معمول سؤالات 5 يا 4 گزينه اي را

توصيه م يكنند، اما مطالعات تجربي نشان داده است كه سؤالات سه گزين هاي در شرايط خاص

بهينه تر است. در اين تحقيق پايايي وخطاي استاندارد اندازه گيري آزمون سه گزينه اي برابر يا

حتي بهتر از سؤالات 4 گزينه اي ويا 2 گزينه اي بود واين نتايج با در نظر گرفتن زمان آزمون

بود. رالف ( 1980 ) پيشنهاد م يكند از سؤالات سه گزينه اي در كلا سهاي عمومي استفاده شود.

روش

باتوجه به هدف اصلي پژوهش كه به بررسي تأثير تعداد گزين ههاي سؤال در ويژگ يهاي

روان سنجي آزمون وتوانايي برآورد شده مي پردازد، بهترين روش تحقيق روش تجربي م يباشد.

جامعه آماري تحقيق حاضر شامل كليه دانش آموزان دبيرستان هاي شهر شيراز و بخش

كربال فارس م يباشد.

1. Michael. c

2. Ralph G. straton

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 11

گروه نمونه اين تحقيق عبارت است از 608 نفر دانش آموز سال سوم دبيرستان رشته

رياضي، به صورت تصادفي خوش هاي به علت وسعت منطقه جغرافيايي و پراكندگي جامعه

آماري و عدم دسترسي به همه آنان صورت گرفت. براي همگون كردن آزمودن يها در تحليل،

آزمودني هاي دختر وپسر از هم تفكيك نشدند.

با توجه به اين كه كاربرد موفقيت آميز مدل هاي نظريه سؤال پاسخ نياز به حجم نمونه

كافي وطول مناسب آزمون براي برآورد دقيق پارامتر هاي توانايي و پارامتر هاي سؤال دارد، بر

نمونه به صورت زير انتخاب ،IRT طبق تحقيقات و پژوه شهاي انجام شده در مورد مدل هاي

خواهد شد 20 سؤال و 200 آزمودني براي مدل تك پارامتري، 30 سؤال و 500 آزمودني براي

مدل دو پارامتري و 60 سؤال و 1000 آزمودني براي مدل سه پارامتري توصيه م يشود از طرف

ديگر بعضي مطالعات حتي حجم نمونه 200 نفر و 20 سؤال را براي كسب برآوردهاي قابل

.( قبول كافي دانسته اند (همبلتون و كوك، 1983

داده ها در تحقيق حاضر از طريق آزمون پيشرفت تحصيلي درس حسابان، و زبان عمومي

در رشته رياضي فيزيك سال سوم دبيرستان جمع آوري شد.

آزمون هاي موردنظر توسط جمعي از دبيران حسابان وهندسه وزبان عمومي شهرستان

خرامه از سؤالات كنكور سا لهاي قبل، 20 سؤال تهيه شد. در ساخت اين آزمون ها به نكات زير

توجه شد:

با توجه به زمان سپري شده از سال تحصيلي اين آزمو نها از يك سوم كتاب تدريس شده

تهيه شد. وبه تاييد گروه رياضي و زبان آموزش پرورش شيراز وشهرستان خرامه رسيد. بعد از

ساخت سؤالات به صورت 4گزينه اي توسط دبيران گزين هاي ديگر به سؤالات 4گزينه اي اضافه

شد و سؤالات به صورت 5گزينه اي، از سؤالات 4گزينه اي يك گزينه غلط (گزينه انحرافي)

حذف گرديد و سؤالات 3گزينه اي تهيه شد. دراصل در تمام فرم تهاي 3و 4و 5 گزينه اي گزينه

صحيح و سؤال مشابه بود. روايي آزمون به صورت محتوايي و ظاهري توسط دبيران حسابان

www.SID.ir

Archive of SID

12 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

وزبان شهرستان خرامه بررسي شد ودر يك مدرسه به عنوان نمونه اجرا شد و پايايي سؤالات با

روش آلفاي كرونباخ مشخص و سؤالات مناسب جايگزين سؤالات نامناسب شد.

يافته ها

به منظور ارزيابي تأثير تعداد گزين هها بر ويژگي هاي روا نسنجي آزمون ها وسؤالات و همچنين

توانايي برآورد شده آزمودني ها در آزمون حسابان و زبان در نظريه كلاسيك اندازه گيري و

پرسش پاسخ، داد هها با استفاده از دو آزمون حسابان و زبان كه هر كدام با فرمت 3و 4و 5

گزينه اي ساخته شده بودند، از گروه نمون هاي كه از 120 دختر و 491 پسر ( 608 نفر به آزمون

زبان و 611 نفر به آزمون حسابان)تشكيل شده بودند و از جامعه به صورت تصادفي انتخاب

شده بودند جمع آوري شد. ابتدا پايايي آزمو نها از طريق آلفاي كرونباخ سنجيده شد و سپس

با استفاده از تحليل عاملي به بررسي مفروضه تك بعدي بودن آزمون پرداختيم. بعد از بررسي

مفروضات اوليه به تحليل نتايج پرداخته و ضرايب تميز و دشواري و حدس آزمو نها محاسبه

و از DIF پارامترها با هم مقايسه شدند. براي مقايسه پارامتر ها از منطق z شد و با استفاده از

آناليز واريانس آميخته نيزاستفاده شد.

جدول 1. جدول پايايي كل آزمون هاي حسابان و زبان

آلفاي كرونباخ (كودرريچارد سون ) آزمون وتعداد گزينه ها تعداد سؤالات

0.755 حسابان 3 گزينهاي 17

0.753 حسابان 4 گزين هاي 17

0.798 حسابان 5 گزينه اي 17

0.774 زبان 3گزينه اي 17

0.780 زبان 4گزينه اي 17

0.762 زبان 5 گزينهاي 17

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 13

به منظور بررسي پيش فرض هاي نظريه پرسش پاسخ از تحليل عاملي براي بررسي تك

بعدي بودن آزمون ها استفاده شد با توجه به ارز شهاي ويژه به دست آمده و اسكري هاي به

( آزمون هاي مورد استفاده تك بعدي بودند. همبلتون ( 1989 SPSS دست آمده از نرم افزار

ذكر م يكند كه چنانكه فرض تك بعدي بودن برقرار باشد. مفروضه استقلال موضعي نيز برقرار

است. باتوجه به اين مطلب در آزمون مذكور مفروضه ي استقلال موضعي نيز برقرار است و

آزمون ها مناسب براي تحليل با نظريه پرسش پاسخ مي باشد.

تحليل شد و BILOG-MG بعد از بررسي پيش فر ضهاي آماري داد هها با نرم افزار

محاسبه شد. IRT ضرايب تشخيص وتميز در دو نظريه كلاسيك و

براي بررسي حساسيت پارامترهاي سؤال نسبت به تعداد گزين هها از 3 روش، براي محاسبه

استفاده شد:

Z - اولين روش استفاده از فرمول

2 2

1 2

E1 E2 S S

b b

Z

در تحليل پارامترهاي سؤال DIF - دوم استفاده از منطق

تعريف اساسي نظريه سؤال پاسخ از كار كرد افتراقي سؤال، روش بسيار ساده اي فراهم

مي كند كه براساس آن مي توان كاركرد افتراقي سؤال را مورد بررسي قرار داد. يعني، انتخاب

نمونه بزرگي از آزمودني ها از دو جامعه، اجراي مقياس موردنظر (منظور تبديل داده ها به

مقياسي مشترك م يباشد) و برآورد پارامترهاي سؤال به طور جداگانه براي هر دو گروه و

سپس مقايسه ديداري منحني هاي سؤال پاسخ. تنها در صورتي پارامتر هاي سؤال (يا نمره هاي

به دست آمده از سطوح صفت) كه به طور جداگانه براي دو يا چند گروه برآورد شده اند قابل

مقايسه اند كه محقق اين پيش فرض را بپذيرد كه گروه ها در متغير صفت مكنون توزيع يكساني

دارند. به طور اخص،سؤال در صورتي كاركرد افتراقي را نشان مي دهد كه منحني سؤال پاسخ

آن در بين گروه هاي مختلف متفاوت باشند و يا اينكه بين هريك از پارامترهاي سؤال در بين

www.SID.ir

Archive of SID

14 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

0

0.2

0.4

0.6

0.8

1

1.2

-3 -2.75 -2.5 -2.25 -2 -1.75 -1.5 -1.25 -1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 2.75 3

سوال 11 زبان 5 گزينه سوال 11 زبان 4 گزينه ای

0

0.2

0.4

0.6

0.8

1

1.2

-3 -2.75 -2.5 -2.25 -2 -1.75 -1.5 -1.25 -1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 2.75 3

سوال 3 زبان 5 گزينه سوال 3 زبان 3 گزينه

ICC در اين مورد تفاوت DIF گروه ها تفاوت و جود داشته باشد. (فلسفي نژاد، 1388 ) ملاك

مي باشد. P( )i  P( )i ها و قدر مطلق 2

- سوم استفاده از آناليز واريانس آميخته

بررسي شده اند آورده شده است. DIF هايي كه به روش منطق ICC در زير نمونه اي از

نمودار 1. بيشترين تفاوت در سؤال 11 زبان 4 و 5 گزينه اي

نمودار 2. كمترين تفاوت در سؤال 2 زبان 3 و 5 گزينه اي

ICC ها نشان داد تفاوت فقط در چند سؤال قابل توجه است و اكثر ICC نتايج بررسي

نيز تأييد شد. Z سؤالات تفاوت زيادي با هم ندارند. اين نتايج با استفاده از تبديل پارامتر ها به

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 15

براي بررسي تفاوت ضريب دشواري در آزمون زبان Z جدول 2. استفاده از قدر مطلق

جدول، تفاوت ضرايب دشواري آزمو نهاي زبان 3 و 4 و 5 گزينه اي را نشان مي دهد. ستون

اول سمت راست تفاوت ضرب دشواري زبان 3 و 5 گزينه اي و در ستون دوم زبان 4و 5

جدول Z محاسبه شد. با توجه به Z گزينه اي و در ستون سوم زبان 3و 4 گزينه اي با استفاده از

در سطح معني داري 0.05 تفاوت بين ضرايب دشواري آزمون زبان 3 و 4 و 5 گزينه اي فقط در

سؤالات 2و 14 آزمون زبان 3و 4 گزينه اي و سؤال 1 ازمون 4 و 5 گزينه اي مشاهده شد.

ضريب دشواري z

5و 3 گزينه اي

ضريب دشواري z

4و 5 گزينه اي

ضريب دشواري z

3و 4 گزينه اي

زبان

1.162 2.026 سؤال 1 0.7202

2.0728 0.5577 0.7548 سؤال 2

1.294 1.289 0.839 سؤال 3

1.032 0.6524 0.7366 سؤال 4

2.109 1.2685 0.9425 سؤال 5

1.2936 1.5130 0.9970 سؤال 6

0.1334 1.3198 0.9569 سؤال 7

0.8411 0.5529 0.8510 سؤال 8

1.152 1.241 0.9682 سؤال 9

2.087 0.4433 0.8489 سؤال 10

1.2684 0.6051 0.4249 سؤال 11

1.0211 1.2277 0.8553 سؤال 12

1.0681 0.5240 0.8730 سؤال 13

2.457 سؤال 14 6387.1 0.8688

1.1006 1.0369 سؤال 15 0.9682

0.0299 1.073 0.777 سؤال 16

1.3654 1.2199 0.9485 سؤال 17

www.SID.ir

Archive of SID

16 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

براي بررسي تأثير تعداد گزينه ها بر ويژگي هاي روا نسنجي سؤالات و توانايي برآورد شده

استفاده شد (mixed ) آزمودني ها در نظريه كلاسيك و سؤال پاسخ از تحليل واريانس آميخته

كه نتايج تحليل آزمون زبان در جداول زير آورده شده است.

IRT,CTT جدول 3. خروجي آناليز واريانس آميخته براي بررسي تفاوت ضريب دشواري زبان در

sig F ms Df Ss منابع تغيير

درون گروهي

0.418 1.561 0.514 2 تعداد گزينه ها 1.028

تعامل 0.042 3.340 1.1 2 2.2

خطا 0.329 64 21.080

برون گروهي

0.000 41.407 20.207 1 مدل 20.207

خطا 0.488 32 15.617

IRT,CTT جدول 4. خروجي آناليز واريانس آميخته براي بررسي تفاوت ضريب تميز زبان در

CTT,IRT ضريب تميز زبان در

sig f ms df Ss منابع تغيير

درون گروهي

0.495 0.712 0.827 2 تعداد گزينه ها 1.653

0.452 0.804 0.934 تعامل 2 1.867

1.161 خطا 64 74.33

برون گروهي

مدل 0.000 26.498 30.761 1 30.761

1.161 خطا 32 17.199

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 17

با توجه به سطح معني داري منابع تغيير درون گروهي و برون گروهي نتايج زير حاصل شد

بين ضرايب تميز و دشواري و تعداد گزينه ها تفاوت معني داري وجود ندارد و لي بين

پارامترهاي محاسبه شده در دو نظريه كلاسيك و پرسش پاسخ تفاوت وجود دارد.

براي بررسي تأثير تعداد گزينه هاي سؤال بر توانايي از آزمون خي 2 استفاده شد كه نتايج

آن در جداول زير موجود مي باشد.

جدول 5. آزمون خي 2 براي بررسي تفاوت تواناي يهاي آزمون هاي زبان 3 و 4و 5 گزينه اي وآزمون

حسابان 3و 4و 5 گزينه اي

زبان 3و 4و 5 گزينه ارزش درجه آزادي سطح معني داري (دودامنه)

0.027 4 10.981 خي 2

تعداد مورد ها 608

نتايج بررسي تفاوت با خي 2 نشان داد كه بين تعداد گزين هها و توانايي آزمون هاي 3و 4و 5

گزينه اي تفاوت معني دار است.

بحث و نتيجهگيري

سؤال 1: آيا پارامتر هاي سؤال نسبت به تعداد گزينه ها حساس است ؟

براي اين منظور از خروجي نرم افزار بايلوگ ضريب هاي تميز و دشواري و حدس در

مورد تحليل قرار DIF و سپس با منطق z نظريه پرسش پاسخ استخراج كرده و ابتدا با فرمول

گرفت. علاوه بر آن از تحليل واريانس آميخته نيز استفاده شد.

حسابان 3و 4و 5 گزينه ارزش درجه آزادي سطح معني داري (دودامنه)

0.000 4 20.228 خي 2

تعداد مورد ها 610

www.SID.ir

Archive of SID

18 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

ضريب تميز، ضريب دشواري، ضريب حدس ، هر : z مقايسه پارامترها با استفاده از فرمول

بحراني در Z محاسبه شده و Z تبديل شده و با هم مقايسه شدند. با توجه به Z سؤال دو به دو به

سطح 0.05 تفاوت معني داري بين ضرايب دشواري و تميز وحدس در آزمون هاي 3 و 4 و 5

گزينه اي مشاهده نشد.

نتايج تحليل واريانس آميخته نيز نشان داد كه بين ضرايب تميز و دشواري و آزمون هاي 3

و 4 و 5 گزينه اي تفاوت معني داري وجود ندارد.براي بهتر نشان دادن اين موضوع از منطق

ها، فقط در تعداد اندكي از سؤالات قابل توجه ICC استفاده شد تفاوت مشاهده شده بين DIF

بودند و بقيه سؤالات تفاوت زيادي باهم نداشتند.

تتسو هيتو شيزوكا ( 2006 )مبني بر اين كه بين ضرايب » نتايج اين تحقيق با تحقيقات

همسو مي باشد. « دشواري و تميز سؤالات 3 و 4 گزينه اي تفاوتي وجود ندارد

سؤال دوم: آيا تأثير تعداد گزينه ها بر ويژگ يهاي روا نسنجي سؤالات و توانايي برآورد

شده آزمودني ها در نظريه كلاسيك و سؤال پاسخ متفاوت است ؟

براي بررسي تأثير تعداد گزينه ها بر ويژگي هاي روا نسنجي سؤالات و توانايي برآورد شده

استفاده (MIXED ) آزمودني ها در نظريه كلاسيك و سؤال پاسخ از تحليل واريانس آميخته

شد. نتايج تحليل نشان داد كه پارامترهاي محاسبه شده در نظريه كلاسيك و پرسش پاسخ باهم

متفاوت بودند.

تفاوت در برآورد پارامترهاي سؤال در » اين نتايج با تحقيق احمدي آذر ( 1387 )، مبني بر

همسو مي باشد. « نظريه سؤال پاسخ و كلاسيك اندازه گيري

سؤال 3: آيا توانايي برآورد شده آزمودن يها از تعداد گزينه هاي سؤال تأثير مي پذيرد؟

براي بررسي اين سؤال توانايي بدست آمده از هر سه فرمت آزمون،ازخي 2 براي بررسي

تفاوت استفاده شد. خي 2 محاسبه شده معني دار بود و تفاوت در برآورد توانايي در فرمت هاي

آزمون هاي 3 و 4 و 5گزينه اي مشاهده شد. باتوجه به نمودارهاي فراواني توانايي به دست آمده و

درصد پاسخ هاي صحيح افراد و توابع آگاهي آزمون هاي مختلف نتايج زير نيز حاصل شد.

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 19

افراد با توانايي كم و متوسط در آزمون هاي 3گزينه اي و 4 گزينه اي عملكرد بهتري داشتند و

افراد با توانايي ضعيف در آزمون هاي 5 گزينه اي عملكرد بدتري داشتند. بررسي درصد

پاسخ هاي صحيح افراد نشان داد در آزمون هاي 3 گزينه اي درصد پاسخ هاي صحيح به مراتب

بالاتر از فرمت هاي ديگر بود همچنين در بررسي توابع آگاهي فرمت هاي مختلف آزمون

مشخص شد آزمو نهاي 3 گزينه اي به اندازه آزمون هاي 4 گزينه اي آگاهي دهنده توانايي افر اد

است.شايد بتوان اين را مطرح كرد كه آزمون هاي 3 گزينه اي به همان مقدار آزمون هاي 4

گزينه اي، توانايي را م يسنجند و مي توان به جاي يكديگر به كار برد.

سؤال 4: آيا تعداد گزينه ها بر برازش با مدل در نظريه سؤال پاسخ تاثير مي گذارد ؟

مقدار - BILOG-MG براي بررسي برازش مدل در نظريه پرسش پاسخ از نرم افزار

2 در آخرين چرخش استخراج كرده و براي هر سه مدل آن را با خي 2 بحراني Loglikelihood

با درجه آزادي برابر با تعداد سؤال ها مقايسه كرديم.

(اگر خي 2 مشاهده شده از خي 2 بحراني كوچكتر باشد، معلوم مي شود كه به لحاظ

آماري بين برازش مدل ها تفاوت معناداري و جود ندارد و ميتوان هريك را به جاي ديگري به

اختيار گزارش كرد. ولي براساس اصل امساك بهتر است مدل داراي پارامترهاي كمتر را

انتخاب كرد.)

-2 به دست آمده و خي 2 جدول با درجه آزادي 17 كه برابر log likelihood با توجه به

27 نتايج زير به دست آمد: آزمون هاي زبان و حسابان در فرمت هاي 3 و 4 و 5 / است با 59

گزينه اي با مدل دو پارامتري برازش بهتري داشت.اين نشان دهنده اين است كه م يتوان از

پارامتر حدس در آزمون هاي چندگزينه اي صرف نظر كرد.

www.SID.ir

Archive of SID

20 فصلنامه اندازه گيري تربيتي شماره 6، سال دوم، پاييز و زمستان 90

منابع فارسي

احمدي، آذر. ( 1387 ). نمره كل سازي با استفاده از تكني كهاي نظريه كلاسيك و مقايسه آن با

مد لهاي نظريه سؤال پاسخ در كنكور كارشناسي رشته رياض . ي پايان نامه كارشناسي ارشد.

تهران: دانشگاه علامه طباطبايي.

آلن ام،جي وين دبليو ام. ( 1384 ). مقدم هاي بر نظري ههاي اندازه گيري ( روان سنجي)، ترجمه

.( علي،دلاور، تهران: سمت (تاريخ انتشار به زبان اصلي 1982

بيرقي، ابولفضل. ( 1377 ). بررسي اثر تعداد گزين هها و زمان بر روي نمره كل در آزمو نهاي پيشرفت

تحصيل . ي پايان نامه كارشناسي ارشد. تهران: دانشگاه علامه طباطبايي.

ثرندايك، برت ال. ( 1369 ). روان سنجي كاربردي. ترجمه هومن، حيدرعلي دانشگاه تهران.

سيده مؤمني، سيد طاهره. ( 1379 ). تأثير عامل حدس بر نمره هاي آزمو نهاي چندگزين هاي پيشرفت

تحصيل . ي پايان نامه كارشناسي ارشد.تهران: دانشگاه علامه طباطبايي.

سيف، علي اكبر. ( 1365 ). اندازه گيري پيشرفت تحصيل ، ي تهران: انتشارات آگاه.

( شريفي حسن پاشا،اصول روان سنجي در روان آزمايي، انتشارات رشد( 1384

فتوحي، ليلا. ( 1387 ). بررسي كاركرد افتراقي سؤالات كنكور كارشناسي ارشد رشته روا نشناس . ي

فلسفي نژاد، محمد رضا. ( 1388 ). مباني نظري پرسش پاس . خ زير چاپ.

كاپلان، روبرت ام؛ ساكوز، دنيس پ. ( 2004 ). روان آزماي ، ي مترجم علي، دلاور، فريبرز درتاج،

. نورعلي فرخي، تهران: نشر ارسباران، 1386

معلمي اوره، مهرناز. ( 1387 ). مقايسه دقت برآورد توانايي در سؤالات چند گزينه اي با بكارگيري

مدل سازي – سؤال پاسخ دو وچند ارزش . يپايان نامه كارشناسي ارشد.تهران. دانشگاه علامه

طباطبايي.

1375 ). تأثير گزينه هاي سؤال در اعتبار تست هاي چندگزين هاي. كتابنامه ص - هاديان، مينا. ( 76

.108 -111

www.SID.ir

Archive of SID

تأثير تعدادگزينه هاي سؤال در ويژگي هاي روان سنجي آزمون و توانايي 21

منابع لاتين

Chien-chi-yeh (2007). The effect of gussing on assessing dimentionality in multiple

choice test,university of Pittsburgh.

Educational and psychological measurement ,vol,40,no,2,357-365/(1980) SAGE

publication /a comparison of the two ,three and four choice item test given/fixed total

number of choice /RALPH G,STRATON

James ware&marve(2008).impact of item-writing flaws in multiple choice question on

student achievement in high-stakes nursing,assessment.42:198-20

Karyn woodfard ,peter Bancroft,(2009).multiple chioice questions not

considered harmful,queensland university of technology.

Kobinger&Christian.h.ghottschall(2008).item difficulty of multiple choice test dependant

on different ietm response formats,university of Vienna.

Olleen m,(2008).heffernan.university of Alberta.

Michael c rodrigrez (2005),tree option are optimal for multiple –choice

item/uni/washin.vol;24,lss,2;pg3,11pgs.

TOM burkard.uk.cps,januray (2009).multiplechoice.

Youngsuk suh (2008),nested logit models for multiple choice item response

data.university of Wisconsin-madison..

Tetsuhito shizuka and coworkers(2006)a comparison of three and four option English

test for university entrance selection,purposes in japan.language testing (2006);23;35.

YI MIN huang.(2004),the impact of the all-of-the above option and student ability in

multiple choice testing,Washington state university college of education.

www.SID.ir

ارزش يابي آزمون نظري آزمون گواهينامة رانندگي بر اساس

ارزش يابي آزمون نظري آزمون گواهينامة رانندگي بر اساس
نظرية سؤال  پاسخ و مقايسة آن با نظرية كلاسيك آزمون
اسماعيل مام شريفي 1
علي دلاور 2
آزاده بلوكي 3
سميه شعباني 4
چكيده
زمينه: اين پژوهش با هدف بررسي ويژگي هاي روان سنجي سؤالات آزمون نظري آزمون گواهينامة رانندگي انجام و
اجرا شده است. نمونة مورد مطالعه را 350 نفر از پاسخ دهندگان آزمون تشكيل دادند كه به روش نمونه گيري خوشه
اي چند مرحله اي انتخاب شده بودند و تعداد 30 سؤال از سؤالات آزمون نظري آزمون گواهينامة رانندگي، كه به
روش تصادفي ساده استخراج شده بودند، به عنوان نمونه سوالات مورد بررسي قرار گرفتند. براي بررسي ويژگي هاي
روان سنجي سؤالات آزمون، از دو نظرية كلاسيك آزمون و سؤال - پاسخ استفاده گرديده و نتايج به دست آمده از
آنها با هم مقايسه و بررسي شده است. روش پژوهش توصيفي بوده و در مرحلة اول صحت نمونه گيري بررسي
گرديد. جهت تعيين تك بعدي بودن آزمون از روش آلفاي كرانباخ و تحليل عاملي استفاده شد. سپس تجزيه و تحليل
سؤالات آزمون با نظرية كلاسيك و نظرية سؤال - پاسخ انجام گرفت و پارامترهاي سؤال (دشواري، تشخيص و
حدس) و توانايي به دليل نامعلوم بودن به روش برآورد همزمان مورد انداز هگيري قرار گرفت.
يافته ها: نتايج، بيان كنندة تك بعدي بودن آزمون و استقلال موضعي آن است. پس از تعيين مفروضه هاي اصلي
برازش مدل - داده ها مورد بررسي قرار گرفت كه نتايج نشان داد مدل دو پارامتري برازش بهتري با ،IRT نظرية
وابسته مورد بررسي قرار T مجموعة داده ها دارد. در مرحلة بعد معناداري پارامترهاي سؤال و توانايي توسط آزمون
گرفت. نتايج نشان داد كه رابطة معناداري بين دقت برآورد پارامترهاي دشواري، شيب و توانايي در دو نظرية
كلاسيك و سؤال - پاسخ وجود ندارد. به منظور بررسي پايايي و ثبات نتايج آزمون در اجراي اول، بر روي نمونه اي
به حجم 30 نفر، بازآزمايي بعمل آمد. از آنجائيكه آزمون مورد نظر از نوع ملاك مرجع مي باشد، براي بررسي توافق
بين تصميم ها از ضريب پايايي كاپا استفاده شد. نتايج نشان داد كه رابطة معناداري بين اجراي اول و اجراي دوم وجود
دارد و آزمون مورد نظر از پايايي و ثبات كافي در اجراهاي مختلف برخوردار است.
بحث و نتيجه گيري: تحليل پارامترهاي سؤال و آزمودني ها، نشان دهندة سادگي آزمون و قدرت جداسازي
خوب توانايي آزمون شوندگان بوده و بر اين اساس مي توان نتيجه گرفت كه سؤالات آزمون براي آزمودني هايي با
توانايي پايين از مناسبت و دقت بيشتري برخوردار است. ميزان توانايي برآورد شده در نظرية سؤال - پاسخ در مقايسه با
نمرة آزمودني در نظرية كلاسيك به ميزان واقعي نزديك تر است. با توجه به توانايي هاي برآورد شده مي توان
سؤالات متناسب با توانايي آزمودني ها را انتخاب نمود و اين مي تواند به ايجاد بانك سؤال منجر شود.
واژگان كليدي: ارزش يابي، آزمون، آزمون گواهينامه رانندگي، نظرية سؤال - پاسخ، نظرية كلاسيك آزمون.
Esmaeil.sharifi@gmail.com ( 1. دانشجوي كارشناسي ارشد (نويسندة مسئول
2. استاد دانشگاه علامه طباطبائي
3. دانشجوي كارشناسي ارشد
4. دانشجوي كارشناسي ارشد
90/8/ تاريخ وصول: 3
91/2/ تاريخ پذيرش: 23
2 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
مقدمه
امروزه در بسياري از جوامع از سه عامل انسان، راه و وسيلة نقليه به عنوان تعيين كننده هاي
اصلي تصادفات نام برده مي شود كه در اين ميان عامل انساني نقش اصلي را به خود
اختصاص داده است. يعقوبي ( 1379 ) نيز در علت شناسي تصادف هاي رانندگي از 4 عامل
انساني، جاده، وسيلة نقليه و محيط نام مي برد كه در 90 تا 95 درصد تصادفات رانندگي در
ايران، عامل انساني را داراي نقش اصلي و اول در حوادث رانندگي دانسته است.
1 ميليون نفر در دنيا به علت تصادفات رانندگي جان خود را از دست / ساليانه بيش از 26
2004 )، و اغلب مرگ و ميرهاي ناشي از حوادث ، مي دهند ( پدين، اسكار فيلد و سليت 1
رانندگي، در كشورهاي با درآمد كم و متوسط و براي جوانان اتفاق م ي افتد (كوپيتز و
2005 ). سازمان بهداشت جهاني پيش بيني كرده است كه در سال 2020 ، مرگ و ، كروپر 2
.(2004 ، 2 ميليون نفر خواهد رسيد (رومانا 3 / مير ناشي از حوادث رانندگي به 34
بر اساس آمارها سالانه حدود 25 هزار نفر نيز در جاده هاي ايران كشته م ي شوند و
سوانح رانندگي پس از بيماري ها ي قلبي - عروقي، دومين عامل مرگ و مير در ايران
12 ميليون مصدوم و معلول، از پيامد هاي 7 سال / محسوب مي شود. 141 هزار كشته، 5
تصادفات در كشور است و خسارات جاني و مالي 7 سال تصادفات رانندگي در ايران ب ا
پيامد هاي يك جنگ يا چند زلزلة مهيب برابري م ي كند . موثق تر ين آمار تصادفات
رانندگي در كشور از كشته شدن 140 هزار و 933 نفر طي 7 سال گذشته (ابتداي 77 تا
انتهاي 83 ) حكايت دارد و اين در حالي است كه وقوع اين حوادث بيش از 12 ميليون
مصدوم و 500 هزار معلول مادام العمر بر جاي گذارده است. مرگ ناشي از تصادفات يك
ساله در كشور با تلفات انساني ناشي از زلزلة بم برابر بوده، اما چون اين حوادث ناگهاني
نيست چندان مشهود به نظر نمي رسد. با وجود اينكه ايران كمتر از يك صدم جمعيت جهان
1. Peden, Scufield, & Sleet
2. Kopits & Cropper
3. Romana
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 3
را دارد بيش از يك چهلم ( 3 درصد) از حوادث ترافيكي را به خود اختصاص داده است
.( (خبرگزاري فارس، 1385
2 درصد از كل تصادفات جاده اي در ايران اتفاق / بر اساس آمارهاي سازمان يونيسف 5
مي افتد و اين به آن معنا است كه آمار تصادفات جادهاي در ايران 20 برابر ديگر كشورهاي
جهان است. در واقع، ميزان كشته شدگان تصادفات جاده اي در دنيا، به ازاي هر ده هزار
خودرو 3 نفر بوده، در حالي كه در ايران به ازاي هر ده هزار خودرو حدود 33 نفر بوده است
(سوري و همكاران، 1388 ). آلمان كمتر از يك چهارم ايران مساحت دارد و تعداد
اتومبيل هايش بيش از 4 برابر ايران است. با اين همه شمار قربانيان حوادث رانندگي در ايران
بيش از 10 برابر آلمان است (بيمة ايران، 2008 ). همچنين انگلستان نيز با وجود 6 برابر بودن
.( تعداد وسايل نقليهاش، 32 باركمتر از ايران تلفات جادهاي دارد (سلماني و همكاران، 1387
در پيامدهاي ناشي از حوادث، پديدة كوه يخ، يك فرايند واقعي است. قلة كوه يخ كه
معمولاً مورد توجه قرار مي گيرد و به ظاهر كوچك است شامل موارد مرگ ناشي از
حوادث است، ولي بدنة عظيم اين كوه از بستري شدگان، آسيب ديدگان نيازمند خد مات
سرپايي و درمان هاي خانگي توأم با ناتوا ني ها ي گذرا يا ماندگار تشكيل شده است و
عواقب رواني، اجتماعي و اقتصادي حوادث نيز بر اين بزرگي مي افزايد.
پايين بودن سطح فرهنگ صحيح ترافيك و عدم توجه كافي به قوانين و مقررات و حقوق
سايرين و رعايت نشدن آيين نامة رانندگي، ناشي از ناكافي بودن آموزش نظري و عملي
رانندگي، قبل و بعد از صدور گواهينامه، موجب شده است آمار تصادفات رانندگي در ايران
شمار كشته ها و مجروحين ناشي از آن افزايش پيدا كرده و بالاترين رتبه را در بين ملل جهان
كسب كند و اين يعني مواجه شدن با پيامدهاي جبران ناپذير از دست رفتن سرماية انساني.
اگرچه در يك برنامه پيشگيرانة جامع براي كاهش تصادفات و تلفات، بايد به هر 4 عامل
انساني، جاده، وسيلة نقليه و محيط پرداخت (آيتي، 1371 ، نقل از يعقوبي، 1379 )، اما به نظر
مي رسد كه مداخله در عامل انساني (با توجه به نقش زياد آن در تصادفات رانندگي در ايران)
4 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
اثربخش تر باشد. چرا كه نتايج مطالعات انجام شده نيز نشان ميدهد كه مي توان از 98 درصد
حوادث پيشگيري نمود (عراقي و واحديان، 1384 ). مراد از عامل انساني عابرين، سرنشين ها،
رانندگان و عوامل رواني، رفتاري، فرهنگي و اجتماعي مؤثر بر آن ها مي باشد.
امروزه نقش آموزش در افزايش كارآيي، بهرهوري و توسعة اقتصادي كشورها بيش از
پيش اهميت يافته است، چرا كه در دنياي كنوني داشتن كارخانهها، زمين، ابزار و ماشين -
.( آلات سرمايه محسوب نمي شود، بلكه ثروت در منابع انساني نهفته است (خالدي، 1387
آموزش اين توانايي را دارد تا براي بهبود و پيشرفت كشورهاي كمتر توسعه يافته زمينة
لازم را فراهم سازد و سياست هاي لازم براي مقابله با اين بحران جهاني را اتخاذ نمايد
(لوئيز، 1990 ، نقل از سهرابي، 1384 ). بسياري از كشورهاي در حال توسعه دربارة مرگ و
مير در كشور خود اطلاعات محدو دي دارند (خي و وانگ 2004،1 ). با مطالعات
اپيدميولوژيك در علوم پزشكي، علوم اجتماعي و علوم رفتاري مي توان در جهت كاهش
حوادث و عواقب ناشي از آن ها گام برداشت، چرا كه آس يب ها ي ناشي از حوادث
.(2005 ، رانندگي يك مشكل بزرگ بهداشتي در دنيا به شمار مي آيد (پدن و تورويان 2
قاعدتاً زماني يك جامعه به كمال رسيده است كه آموزش به گونه اي صحيح در آن
انتقال يافته باشد و اين نيز نمي تواند محقق شود مگر با يك برنامه ريزي فراگير و مستمر به
منظور تدوين و آموزش اصول صحيح رانندگي براي سنين مختلف و با روش هاي متنوع و
مورد قبول (احمدي، 1385 ). به هنگام توجه به روند تكاملي كشورهاي توسعه يافته،
همواره شاهد ارتباط نزديك بين آموزش، پژوهش، ارزش يابي و رشد فناوري از يك سو و
پيشرفت اقتصادي و اجتماعي از سوي ديگر مي باشيم.
يكي از اين فعاليت ها در زمينة كاستن از رخدادهاي مرتبط با رانندگي، توجه وي ژه و
مجدد به آزمون نظري گواهينامة رانندگي از زواياي مختلف و مقايسة آن با ديگر كشورها
است كه مي تواند به عنوان اقدامي پيشگيرانه در جهت كاستن از رخداد حوادث رانندگي به
1. Chi & Wang
2. Peden & Toroyan
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 5
شمار آيد. آزمون نظري، آزمون استاندارد شده اي است كه براي تصميم گيري در مورد
رسيدن فرد به دانش نظري كافي و ساختن راننده اي ايمن و بي خطر از فرد طراحي شده
.(2004 ، است (ويبرگ 1
در حال حاضر آزمون نظري گواهينامة رانندگي در ايران شامل مجموعه اي از
پرسشنامه هاي 30 سؤالي است كه تعدادي از سؤالات آن به صورت تصويري و رنگي
مي باشد . هر سؤال داراي 4 گزينه است كه يكي از گزينه ها صحيح و بقيه انحرافي
مي باشند. زمان پاسخگويي به آزمون محدود، و 20 دقيقه مي باشد. با توجه به اينكه آزمون
از نوع ملاك مرجع و دو ارزشي است، ملاك قبولي در آن پاسخگويي صحيح به 26
86 ) مي باشد. / سؤال از 30 سؤال (نمرة برش 67
امروزه پس از گذشت چندين سال از برگزاري اين آزمون و فعاليت مراكز آموزشي
مربوطه در كشور، بايد پرسيد كه:
اين آزمون تا چه اندازه توانسته است به نيازهاي فرد و جامعه پاسخ دهند؟ 
آيا اين آزمون به اهداف طرح شدة اولية خود رسيده است؟ 
مواد (سؤالات) اين آزمون تا چه اندازه از معيارهاي روان سنجي و استاندارد هاي 
مربوطه برخوردارند؟
پاسخ به اين سؤال ها و سؤال هاي مشابه مستلزم استفاده از سازوكار ارزشيابي آزمون از
بعد روان سنجي است.
متوليان امر بايد به موازات گسترش آموزش هاي ترافيكي، به نتايج آنچه تاكنون در اين
زمينه هزينه شده، بپردازند. چرا كه با هزينه هاي بسياري كه براي اين آموزش ها صرف
مي شود ايجاد اصلاحات در آن ضروري به نظر مي رسد. اصلاحاتي كه مي توان از آن به
ياد كرد. « نوگرايي 2 » عنوان
يكي از مسائل كليدي، در دورنماي آزمون نظري گواهينامة رانندگي، بازسازي مداوم آن
1. Weberg
2 . modernization
6 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
از طريق فرايند ارزش يابي است. يك نظام آموزشي ايستا پاسخگوي ماهيت پوياي توسعه
نيست، چرا كه نيازها و اولويت هاي يك دهه، مسلماً با نيازهاي دهة بعد متفاوت است، گرچه
دانش و مهارت هاي بنيادين معيني ممكن است همچنان با اهميت باقي بمانند، با اين حال
مسائلي كه براي نسل گذشته مهم بوده، امروزه كاملاً بي اهميت است (حسيني، 1380 ). بر اين
1997 ) هم عقيده بود و اين گفته را تأييد كرد كه اگر نظام آموزشي ) اساس مي توان با پاتون 1
.( به سازوكار ارزشيابي مجهز باشد، نتايج مطلوب حاصل خواهد شد (نقل از بازرگان، 1386
بنابراين، ارزشيابي آزمون نظري گواهينامة رانندگي از اهميت حياتي برخوردار است.
در اين ميان علم روان سنجي به عنوان شاخه اي از روان شناسي كاربردي، در پي يافتن
شيوه هايي است كه به كمك آن بتواند صفات رواني انسان را به صورت كمي و مقايسه
پذير ارائه دهد و در اين راه اغلب از محاسبات آماري كه در خيلي از موارد بسيار پيچيده و
1982 ، ترجمة هومن، 1375 ). به نظر مي - ، پيشرفته نيز مي شود، سود مي جويد (ثرندايك 2
رسد كه فعلاً در ايران، جز درموارد استثنايي، ساختن آزمون محدود به تهية سؤال است و
كمتر كسي به خصوصيات علمي آزمون ها و سؤالات توجه دارد. اين عدم توجه به مباني
علمي آزمون سازي در سازمان هاي خارج از دانشگاه ها بيشتر نمايان است تا جايي كه
بعضي از اين سازمان ها در ظرف چند روز آزمون به خصوصي را آمادة اجرا م ي كنند كه
براي ساختن آن در كشوري مثل آمريكا، شايد يكي دو سال وقت لازم باشد (مگنوسون،
.( 1966 ، ترجمة براهني، 1370
استفاده كنندگان آزمون در انتخاب، اجرا، نمره گذاري يا تفسير يك آزمون بايد
هدف ها، راه هاي وصول به آن ها و نتايج احتمالي را بدانند. داشتن هدف هاي مطلوب كافي
نيست؛ استفاده كنندگان بايد روش هاي ضروري به حداكثر رساندن كارايي و به حداقل
رساندن عوامل نامطلوب را بدانند. شايستگي در استفاده از آزمون، تركيبي است از شناخت
اصول روان سنجي، اطلاع از موقعيت مشكل زا كه در آن آزمون انجام مي شود و مهارت
1. Patton
2. Thorndike
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 7
فني. اگر آزمون ها درست به كار برده شوند، ابزار مفيدي هستند؛ در غير اين صورت به
.( 1979 ، ترجمة دلاور، 1384 ، ابزار خطرناكي تبديل مي شوند (آلن و ين 1
نظريههاي آزمون در علم روان سنجي به دو مقوله تقسيم مي شوند: اول: نظرية كلاسيك
كه قدمت آن به مفهوم اسپيرمن 2 از نمرة مشاهده شده، كه شامل مؤلفه ها ي ،(CTT) آزمون
يا نظرية صفت مكنون كه در ،(IRT) حقيقي و خطا است مي رسد. دوم: نظرية سؤال  پاسخ
در جهت توسعه IRT حيطه و قلمرو آزمودن نقش مهمي را ايفا مي نمايد. مدل هاي مشتق از
و بسط آزمون ها، همتراز سازي نمرات آزمون ها ي غير موازي، بررسي تورش سؤال و
.(1982 ، گزارش نمرات مورد استفاده قرارمي گيرند ( همبلتون و واندرليندن 3
در واقع، يك آزمون مي تواند از زواياي مختلف مورد مطالعه واقع شده و سؤالا ت آن
از لحاظ دقت IRT نيز بر طبق نظريات متفاوت ارزش گذاري شود . مقايسة مدل ها ي
برآورد پارامترهاي مدل، مورد توجه محققان بسيار طي سال هاي اخير بوده است . يكي از
تحقيقات قابل توجه در زمينة بررسي آزمون نظري آزمون گواهينامة رانندگي، پژو هشي
است كه توسط ماري ويبرگ در سال 2004 و در دانشگاه يومي سوئد انجام گرفته است .
آزمون نظري گواهينامة رانندگي در سوئد شامل 65 سؤال چند گزينه اي ( 2 تا 6 گزين ه) و
80 درصد) است. نمونة مورد بررسي در اين پژوهش ) از نوع ملاك مرجع با نمرة برش 52
شامل 5404 نفر آزمون شونده بوده كه به 65 سؤال مذكور پاسخ داده اند. برآورد
پارامترهاي سؤال و توانايي از طريق روش بيشينة درست نمايي حاشيه اي صورت گرفته
است. هدف اين پژوهش ارزش يابي آزمون نظري گواهينامة رانندگي با استفاده از نظرية
سؤال  پاسخ و همچنين مقايسة مدل ها ي سه گانة اين نظريه با همديگر در برآورد
پارامترهاي آزمون مورد بررسي، بوده است. نتايج پژوهش وي نشان م ي دهد كه نظرية
سؤال  پاسخ ، ابعاد متفاوت و اطلاعات ارزشمندي به دست مي دهد . با مقايسه مدل ها ي
1. Allen & Yen
2. Spearman
3. Hambleton & Vanderlinden
8 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
يك، دو و سه پارامتري در برآورد پارامترها مشخص شده است كه مدل سه پارامتري به
برآورد دقيقتري در مقايسه با مدل هاي يك و دو پارامتري منجر شده است.
1983 )، با مقايسة اين مدل ها از طريق شبيه سازي كامپيوتري نشان ) همبلتون و كوك 1
دادند كه، مدل منطقي سه پارامتري نسبت به مدل هاي يك و دو پارامتري با آزمون هاي 20
سؤالي داراي قدرت بيشتري در برآورد جايگاه افراد در صفت مكنون و رتبه بندي
1993 ) با هدف مقايسة ) آزمودني ها براساس صفت مورد سنجش بوده است . رايد 2
و با استفاده از تحليل خرده آزمون هاي محاسبات عددي، تجسم فضايي سه IRT مدل هاي
بعدي، خزانة لغات و استدلال رياضي، نتيجه گرفت كه هر 4 خرده آزمون از لحا ظ سطح
دشواري سؤالات و قدرت تشخيص بين افراد در سطوح مختلف توانايي تفاوت داشته اند .
بنابراين مدل هاي يك و دو پارامتري از لحاظ برآورد پارامترها تفاوت معني دار نشان
داده اند. ليكن به دليل تأثير نداشتن عامل حدس در پاسخگويي به سؤالات، مدل ها ي دو و
سه پارامتري تفاوت معني داري در برآورد پارامترها نداشته اند.
نتايج مقايسة مدل هاي مختلف از نظر برآورد پارامترهاي سؤال و توانايي در پژوهش
برآوردهاي متفاوتي براي IRT فراهاني ( 1375 ) نشان داد كه، مدل كلاسيك و مدل ها ي
به و ي ژه IRT پارامترهاي سؤال بدست مي دهند و برآورد پارامترهاي سؤال بر پاية مدل ها ي
مدل سه پارامتري، دقيق تر از برآورد پارامترهاي سؤال بر اساس مدل كلاسيك و مدل ها ي
است. همچنين مقايسة مدل ها از نقطه نظر برآورد توانايي آزمود ني ها نشان داد IRT ساده تر
كه مدل سه پارامتري برآورد متفاوت و دقيقتري از مدل كلاسيك و حتي مدل هاي يك و
ارائه مي دهد. در پژوهش محمد زاده ( 1375 )، نيز مشخص شد كه IRT دو پارامتري
مشخصه هاي آماري سؤالات در مدل كلاسيك وابسته به نمونه بوده و برآورد توانايي
آزمودني هم، وابسته به سؤالات آزمون است، اما در مدل ها ي جديد اندازه گيري اين
برآوردها مستقل از هم مي باشند. مقايسة مدل ها از لحاظ ميزان دخالت پارامتر حدس، اعتبار
1. Cook
2. Reid
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 9
اندازهگيري و آگاهي دهندگي، برتري مدل هاي جديد اندازهگيري را نشان داده است.
نشان داد كه نظرية سؤال  پاسخ در IRT و CTT صالحي ( 1376 ) با مقايسة دو نظرية
مقايسه با نظرية كلاسيك توانمندتر و كارآمد تر بوده و با خطاي استاندارد اندازه گيري
كمتر، آگاهي دهندگي و دقت بيشتري پارامترهاي سؤال و توانايي را برآورد نموده است .
همچنين اين نظريه در سطوح بالاي توانايي داراي بيشترين ميزان آگاهي بوده است. يونسي
نيز ( 1385 ) با بررسي ويژگي هاي روان سنجي سؤالات آزمون هاي فراگير رشتة
روان شناسي بر اساس نظرية سؤال  پاسخ ، به اين نتيجه رسيد كه مدل دو پارامتري نسبت به
مدل سه پارامتري برازش بهتري با مجموعة داده ها داشته است و اين نشان دهندة كم اثر
بودن عامل حدس در پاسخگويي به سؤالات، تلقي شده است.
امروزه با مدرن شدن آموزش، ارزش يابي به عنوان يكي از مؤلفه ها ي آموزش مورد
استفاده قرار گرفته و نوآوري هايي در زمينة آن پديد آمده است. يكي از اين نوآور ي ها
مربوط به بكارگيري كامپيوتر در فرايند سنجش و ارزي ابي و آزمون متقاضيان گواهينامة
رانندگي در كشورهاي اروپايي مي باشد به طوريكه بسياري از مراكز آموزشي به برگزاري
آزمون هاي كامپيوتري اقدام مي كنند. يكي از مهم ترين كاربردهاي تجزيه و تحليل روان
سنجي سؤالات، ايجاد يك مجموعه (بانك) سؤال استاندارد از سؤالات موجود م ي باشد
كه اين خود مقدمه اي است براي ايجاد و گسترش آزمون هاي انطباقي كامپيوتري.
در ايران، آزمون گواهينامة رانندگي شامل يك آزمون نظر ي و يك آزمون عملي
است، كه در اين پژوهش بر آزمون نظري تأكيد شده است . در آزمون نظري گواهينامة
رانندگي از نسخه هاي ثابت و متعددي جهت آزمون استفاده مي شود. اما در ايران، تاكنون
تحقيقات منسجمي در ارتباط با ارزش يابي سؤالات اين آزمون صورت نگرفته و به همين
دليل و نيز اهميت اين آزمون ها در تأثيرگذاري بر پيشگيري از رخداد رانندگي از طريق
آموزش هاي قبل از صدور گواهينامة رانندگي، ضروري به نظر مي رسد تحقيقاتي انجام
گيرد تا ميزان دستيابي به اهداف از پيش تعيين شده در زمينة مؤلفه ها ي روان سنجي يك
10 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
آزمون استاندارد، مشخص گردد. بنابراين هدف از پژوهش حاضر ارزش يابي و بررسي
و (IRT) ويژگي هاي سؤالات آزمون نظري گواهينامة رانندگي طبق نظرية سؤال  پاسخ
با IRT در كنار بررسي برازش مدل ها ي ،(CTT) مقايسة آن با نظرية كلاسيك آزمون
مجموعه داده هاي آزمون بوده است.
روش
در پژوهش حاضر جامعه آماري مورد مطالعه، شامل كلية سؤالات ( 194 سؤال ) آزمون
نظري گواهينامة رانندگي در شهر تهران و در سال 1388 بوده است.
به منظور كسب اطلاعات دقيق در مورد جامعه، بررسي يكايك عناصر جامعه مطلوب
به نظر مي رسد. اما معمولاً اين كار غير ممكن يا غير عملي است. با توجه به اينكه، نظريه
هاي روان سنجي، نظريه هاي نمونه هاي بزرگ هستند. قانون كلي در اين مورد بزرگ ترين
اندازة ممكن را تصويب مي كند. رايت و استون براي مدل يك پارامتري حداقل حجم
نمونة آزمودني ها را 200 نفر ذكر كرده اند. بعضي از محققان هم براي مدل دو پارامتري
500 نفر و براي مدل سه پارامتري 1000 نفر را لازم دانسته اند تا به برآورد هاي نامتغير و
.(1993 ، نااريب از پارامترهاي مدل منجر نشود (همبلتون، جونز و راجرز 1
بنابراين با توجه به نتايج تحقيقات صورت گرفته، حجم نمونة سؤالات مور د بررسي،
تعداد 30 سؤال بوده كه به روش كاملاً تصادفي انتخاب گرديد. همچنين در اين پ ژوهش
به منظور انتخاب حجم نمونة آزمودنيها، با استفاده از روش نمونه گيري خوشه اي چ ند
مرحله اي، پاسخ هاي يك نمونة 350 نفري به آزمون محقق ساخته انتخاب شده است .
انتخاب حجم 30 سؤالي به دليل رعايت شكل صوري آزمون هاي برگزار شده توسط راهور
ناجا بوده است.
روش پژوهش نيز با توجه به اهداف پژوهش و بر حسب نحوة گردآوري داده ها ،
توصيفي بوده است.
1 . Hambleton, Jones & Rogers
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 11
SPSS جهت تجزيه و تحليل داده هاي جمع آوري شده، با استفاده از نرم افزارهاي
از بررسي هاي مرتبط با سنجش مؤلفه هاي روان سنجي آزمون، از قبيل؛ ،BILOG – MG و
ضريب دشواري، ضريب تمييز، واريانس سؤالات، ضريب هبستگي دو رشته اي نقطه اي
استفاده گرديد. تك بعدي بودن آزمون با محاسبة آلفاي كرونباخ و انجام تحليل عاملي
بررسي و سپس استقلال موضعي آزمون بدست آمد. با استفاده از آزمون خي دو (
 2 ) در
مورد برازش مدل با داده ها قضاوت شد و پس از اينكه معلوم شد كدام مدل بهترين برازش را
با داده هاي آزمون دارد، پارامترهاي برآورد شدة سؤال (دشواري، تشخيص و حدس ) و
توانايي آزمودني ها با استفاده از روش ها ي برآورد همزمان پ ارامترهاي سؤال و توانايي،
استخراج گرديد. سپس منحني ويژگي تمامي سؤالات براي رسم نمودارها، تابع آگاهي
سؤالات براي مقايسة تفاوت مدل ها، تابع آگاهي آزمون، منحني خطاي استاندارد آزمون و
منحني تواناييهاي آزمودنيها ترسيم گرديد. در ادامه، بيشينة آگاهي به همراه سط ح توانايي
سؤالات، بيشينة آگاهي آزمون و همچنين نقطه اي كه بيشينة آگاهي در آنها به وجود مي آيد،
محاسبه و نقطه اي كه بيشترين ميزان آگاهيدهندگي آزمون ها در آن دامنه قرار دارد و نيز
توزيع بيشينة آگاهي و خطاي استاندارد توانايي آزمون نيز آورده شد.
2 با PL و مدل CTT در مرحلة بعد همبستگي بين پارامترهاي دشواري و تمييز در مدل
استفاده از ضريب همبستگي پيرسون محاسبه و در ادامه به منظور بررسي معناداري
وابسته T پارامترهاي سؤال و توانايي در نظرية كلاسيك و سؤال  پاسخ از آزمون معناداري
استفاده گرديد.
همچنين به منظور بررسي پايايي و ثبات نتايج آزمون نظري گواهينامة رانندگي در اجراي
اول، مجدداً اين آزمون با همان شرايط اوليه، پس از يك هفته سپري شدن از اجراي اول، بر
روي 30 نفر از همان نمونة اوليه اجرا گرديد. از آنجائيكه آزمون مورد نظر از نوع ملاك
مرجع مي باشد، جهت بررسي توافق بين تصميم ها از ضريب پايايي به روش كاپا استفاده شد.
داده هاي اوليه و اصلي جهت استفاده در تجزيه و تحليل سؤالات آزمون نظري
12 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
گواهينامه رانندگي، پاسخ هاي اولية كلية شركت كنند گان به آزمون مذكور در مراكز
آموزش و آزمون گيري مي باشد كه در مراحل مختلف جمع آوري شده است . جهت
انتخاب سؤالات پرسشنامه، از كتاب "آموزش جامع قوانين و مقررات راهنمايي و
رانندگي" (از انتشارات معاونت راهور ناجا و منبع اصلي آزمون نظري). استفاده گرديد. آن
شامل 10 بخش محتوايي با سؤالات اختصاصي در هر بخش بوده و در مجموع 194 سؤال
را در بر مي گيرد. در مرحلة اول از ميان اين سؤالات، 30 سؤال به شيوة كاملاً تصادفي و با
در نظر داشتن ميزان نسبت در هر بخش محتوايي، انتخاب شد . از ميان سؤالات انتخابي
تعدادي سؤال تصويري و رنگي نيز در نظر گرفته شد. در انتها گزينه هاي انحرافي و گزينة
صحيح سؤالات به شيوة تصادفي براي سؤالات آزمون در نظر گرفته شد.
يافته ها
34 درصد بقيه زن / 65 درصد افراد مرد و 3 / در ميان حجم نمونة ( 350 نفر) مورد بررسي 7
24/ بوده اند، كه ميانگين و انحراف استاندارد نمرات افراد در آزمون نظري برگزار شده، 55
4 بوده و با توجه به ملاك قبولي در آزمون (كسب نمرة 26 از 30 ) تعداد 169 نفر قبول / و 4
48/28 درصد) و 181 نفر مردود شده اند. اين نشان مي دهد بيش از نصف افراد گروه، به )
.( ملاك مورد نظر، جهت قبولي در آزمون نرسيده اند (نمودار 1
5 10 15 20 25 30 35
Frequency
40
30
20
10
0
36
39 39
36
19
22
30
22 21
25
17
15
2
9
6
4
1
2 2 3
Mean =24.55
Std. Dev. =4.395
N =350
SCORE
نمودار 1 . منحني توزيع فراواني نمرات آزمون گواهينامة رانندگي
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 13
در مرحلة اول، جهت تجزيه و تحليل سؤالات آزمون بر طبق نظرية كلاسيك آزمون،
درجة دشواري، ضريب تميز و انحراف استاندارد سؤالات محاسبه گرديد كه نتايج آن در
جدول 1 ارائه گرديده است.
(CTT) جدول 1- پارامترهاي سؤالات آزمون گواهينامة رانندگي بر اساس نظرية كلاسيك
سئوال
ضريب دشواري
(P)
ضريب تميز
) (rpbis
انحراف
استاندارد
سئوال
ضريب دشواري
(P)
ضريب تمييز
) (rpbis
انحراف
استاندارد
. /50 . /24 . /55 16 . /17 . /23 . /97 1
. /38 . /35 . /82 17 . /45 . /39 . /71 2
. /24 . /28 . /93 18 . /31 . /29 . /89 3
. /32 . /35 . /88 19 . /35 . /31 . /86 4
. /42 . /39 . /77 20 . /23 . /17 . /94 5
. /43 . /38 . /74 21 . /47 . /33 . /66 6
. /45 . /51 . /72 22 . /22 . /37 . /94 7
. /49 . /32 . /58 23 . /24 . /39 . /94 8
. /27 . /21 . /92 24 . /38 . /44 . /82 9
. /47 . /42 . /66 25 . /20 . /33 . /95 10
. /36 . /29 . /85 26 . /41 . /4 . /78 11
. /38 . /37 . /82 27 . /25 . /4 . /93 12
. /50 . /30 . /52 28 . /27 . /32 . /92 13
. /45 . /28 . /72 29 . /41 . /37 . /79 14
. /22 . /17 . /95 30 . /28 . /32 . /91 15
0 (سؤال / سؤالات آزمون بين 52 (P) نتايج نشان مي دهد كه؛ دامنة ضريب دشواري
،16 ، 0 (سؤال 1) در نوسان بوده است. بنابراين بر اساس اين نتايج، سؤالات 6 / 28 ) و 97
25 و 28 سؤالات مناسبي محسوب شده و بقية سؤالات نيز به دليل ضرايب دشواري ،23
بالا، سؤالات آساني محسوب م ي شوند . ميانگين و انحراف استاندارد پارامتر دشواري
0 است كه در مجموع نشاندهندة آسان بودن كل آزمون م ي باشد . / 0 و 12 / سؤالات 81
( 0 (سؤال 22 / 0 (سؤالات 5 و 30 ) و 51 / سؤالات آزمون بين 17 (rpbis) دامنة ضريب تمييز
29 و 30 كه دار اي ،26 ،24 ،18 ،16 ،5 ،3 ، در نوسان بوده است . به استثناي سؤالات 1
( 0 / ضرايب تمييز پاييني مي باشند، بقية سؤالات از ضرايب تمييز نسبتاً خوبي (بالاتر از 3
14 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
0 است كه / 0 و 08 / برخوردارند. ميانگين و انحراف استاندارد پارامتر تمييز سؤالات 33
نشاندهندة قدرت تمييز نسبتاً مناسب كل آزمون در جداسازي افراد قوي و ضعيف
مي باشد. بر طبق نتايج جدول بالا، ارتباط خاصي ميان سؤالات با ضرايب دشواري بالا و
پايين مشاهده نمي شود.
ابتدا ،(IRT) در مرحلة بعد جهت انجام تحليل سؤالات با استفاده از نظرية سؤال  پاسخ
يعني مفروضه هاي تك بعدي بودن و استقلال ، IRT مفروضه هاي اساسي و اولية نظرية
موضعي بررسي گرديد. مفروضة اول با استفاده از ضريب پايايي و تحليل عاملي مورد
بررسي قرار گرفت.
براي بررسي پايايي سؤالات آزمون به روش لوپ، ابتدا ضريب پايايي كلية سؤالات و
ميزان پايايي تك تك سؤالات تعيين گرديد. سپس با استفاده از فرمول آلفاي كرانباخ
بدست آمد، كه نشاندهندة همساني دروني بالاي α = . / ضريب پايايي كل آزمون 82
سؤالات آزمون مي باشد.
قبل از انجام تحليل عاملي بايد از اعتبار داده ها اطمينان داشته باشيم، براي اين منظور از
كه روشي براي بررسي صحت نمونه گيري (KMO) آزمون كايزر - ميجر - الكين
.( مي باشد، استفاده شده است (جدول 2
و آزمون كرويت بارتلت KMO جدول 2. اندازة
0 /767 (KMO) اندازة كفايت نمونهگيري كايزر- ميجر- الكين
آزمون كرويت بارتلت
1510/ مجذور كاي تقريبي 824
درجات آزادي 435
0 / سطح معناداري 001
برابر 789 / . بوده كه نشان دهندة كفايت نسبتاً بالاي KMO با توجه به جدول 2، مقدار
نمونه گيري و تناسب داده ها براي تحليل عاملي است، و از آنجايي كه داده هاي بالاتر از
بدست آمده رضايت بخش است . KMO 0/7 براي تحليل مناسب هستند، لذا مقدار
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 15
0، با درجات آزادي 435 و با مقدار مجذور / همچنين آزمون كرويت بارتلت در سطح 001
1510 معنادار بوده است و مي توان گفت كه داده ها براي اجراي تحليل عاملي از / كاي 824
تناسب قابل قبولي برخوردار بوده و نتايج تحليل عاملي قابل اعتماد مي باشد.
با توجه به نتايج بدست آمده، داده ها براي آزمون تحليل عاملي از تناسب برخوردار
بوده، و ماتريس همبستگي حاصل از تحليل عاملي نشان م ي دهد كه، عامل اول با ارزش
17 درصد واريانس عامل ها را تبيين كرده است . (سه / 5/21 حدود 36 (P-Value) ويژه
5 درصد واريانس). اين عامل غالب توسط نمودار / 1 و 57 / برابر عامل دوم با ارزش ويژه 67
اسكري (نمودار 2) بدست آمده نيز تأييد شده است.
Component Number
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
Eigenvalue
6
5
4
3
2
1
0
نمودار 2. منحني اسكري آزمون نظري گواهينامة رانندگي
بنابراين، مي توان نتيجه گرفت كه آزمون گواهينامة رانندگي تك بعدي بوده و يك
عامل غالب، عملكرد افراد را در آزمون تبيين مي كند. چنانچه فرض تك بعدي بودن برقرار
.( باشد، مفروضة استقلال موضعي نيز برقرار است (همبلتون، 1989
پس از اثبات تك بعدي بودن و استقلال موضعي آزمون (نمودار 2)، كه از پيش
است ،(IRT) فرض هاي مهم تجزيه و تحليل سؤالات آزمون بر طبق نظرية سؤال  پاسخ
(همبلتون و سواميناتان، 1985 ؛ نقل از ويبرگ، 2004 )، ضرايب د شواري، شيب، حدس،
نوعي آزمون مجذور خي به همراه سطح احتمال مربوطه، براي مدل ها ي يك، دو و سه
4 و 5 آورده شده است. ، پارامتري محاسبه گرديد كه نتايج آن در جداول 3
16 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
1) بر اساس PL) جدول 3. مقادير پارامترهاي تعدادي از سؤالات آزمون در مدل يك پارامتري
IRT نظرية
(p) معناداري χ خي دو 2 (b) سؤال دشواري
0/61 1 -3/49 1
*0/001 18/5 -0/24 16
*0/001 16/9 -1/03 22
-1/ ميانگين 82
-2 Log Likelihood =7982/8283
0/ انحراف استاندارد 93
0/ * عدم برازش سؤال با مدل در سطح 01
3) بر اساس PL) جدول 4. مقادير پارامترهاي تعدادي از سؤالات آزمون در مدل سه پارامتري
IRT نظرية
سئوال
دشواري
(b)
شيب
(a)
حدس
(c)
خي دو
χ2
معناداري
(p)
. /3 6 . /5 1/41 -. /65 4
. /41 5 . /5 . /59 -2/35 5
. /49 5/5 . /35 1/38 . /02 25
0/45 1/35 - . / ميانگين 76
-2 Log Likelihood =7865/ انحراف 2979
استاندارد
. /05 . /78 . /91
IRT 2) بر اساس نظرية PL) جدول 15 . مقادير پارامترهاي آزمون در مدل دو پارامتري
سئوال دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
سئوال (p) دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
(p)
. /49 7/6 . /4 -0/36 16 . /46 1/6 1 -2/7 1
. /54 5 . /79 -1/53 17 . /71 4/5 . /75 -0/96 2
. /98 . /4 0/94 -2/24 18 . /08 8/1 . /84 -1/95 3
. /91 1/5 0/87 -1/82 19 . /27 5/1 . /78 -1/76 4
. /43 7 . /8 -1/22 20 . /21 5/9 . /57 -3/26 5
. /62 5/3 0/76 -1/12 21 . /96 2/5 0/61 -0/79 6
. /93 1/8 1/17 -0/82 22 . /2 4/6 1/4 - 1/97 7
1. به دليل برازش يافتن مدل 2 پارامتري با مجموعة داده هاي آزمون، نتايج مقادير پارامترهاي آزمون در اين مدل به صورت كامل
آورده شده است.
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 17
سئوال دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
سئوال (p) دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
(p)
. /51 7/2 . /52 -0/49 23 . /95 . /3 1/59 -1/79 8
. /66 3/3 . /65 -2/63 24 . /98 . /7 1/07 - 1/28 9
. /87 3/1 . /8 -0/71 25 . /96 0/3 1/45 -2/03 10
. /46 5/6 . /64 -1/93 26 . /91 2/6 0/83 -1/25 11
. /76 2/6 . /87 -1/46 27 . /29 2/4 1/57 - 1/73 12
. /05 15 . /52 -0/12 28 . /28 5 . /96 -2/06 13
. /06 13/3 . /55 -1/19 29 . /76 3/4 . /77 -1/34 14
. /97 0/5 . /63 -3/19 30 . /98 0/4 . /99 -1/95 15
-2 Log Likelihood = 7889/2777
با توجه به نتايج بدست آمده، سؤالات 16 و 22 با مدل يك پارامتري برازش ندارند، اما
χ بقية سؤالات، با مدل هاي دو و سه پارامتري داراي برازش هستند. سطح معناداري مقادير 2
سئوالات نيز نشان مي دهد كه تمام سؤالات با مدل ها ي دو و سه پارامتري برازش دارند
بنابراين مي توان نتيجه گرفت كه مدل هاي دو و سه پارامتري برآورد دقيق تري .(P> 0/05)
از پارامترهاي سؤال، نسبت به مدل يك پارامتري بدست مي دهند.
اما جهت تعيين برازش مدل- داده ها 1 و اينكه كداميك از مدل ها ي يك، دو و سه
در  2loglikelihood پارامتري با اين مجموعه از داده ها برازش بهتري دارند، از مقدار
آخرين چرخش و آزمون خي دو براي مقايسة آنها به صورت زير استفاده گرديد:
براي مدل هاي يك و دو پارامتري و تعيين اينكه كداميك برازش بهتري با اين مجموعه
از داده ها دارد، نتيجة زير بدست آمد:
2 ( 2log 1 ) ( 2log 2 )
   likelihood L   likelihood L
= (7982/8283 - 7889/2777) = 93/5506 χ2
0 به / 0 و 01 / جدول در سطح 05 χ با توجه به اينكه درجه آزادي آزمون 30 مي باشد، 2
جدول در هر دو χ محاسبه شده از 2 χ 43 مي باشد و چون قدر مطلق 2 / 50 و 77 / ترتيب 89
1 . Model – Data Fit
18 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
سطح 95 و 99 درصد اطمينان بزرگ تر است، بنابراين فرض صفر رد مي شود و نتيجه گرفته
مي شود كه مدل دو پارامتري نسبت به مدل يك پارامتري برازش بهتري با اين مج موعه از
داده ها دارد.
براي مدل هاي دو و سه پارامتري و تعيين اينكه كداميك برازش بهتري با اين مجموعه
از داده ها دارد، نتيجة زير بدست آمد:
2 ( 2log 2 ) ( 2log 3 )
   likelihood L   likelihood L
= (7889/2777 – 7865/2979) = 23/9798 χ2
0 به / 0 و 01 / جدول در سطح 05 χ با توجه به اينكه درجة آزادي آزمون 30 مي باشد، 2
جدول در هر دو χ محاسبه شده از 2 χ 43 مي باشد. چون قدر مطلق 2 / 50 و 77 / ترتيب 89
سطح 95 و 99 درصد اطمينان كوچك تر است، بنابراين فرض صفر تأييد مي شود و نتيجه
گرفته مي شود كه مدل دو پارامتري نسبت به مدل سه پارامتري برازش بهتري با اين
مجموعه از داده ها دارد.
جدول، به لحاظ آماري بين برازش χ محاسبه شده از 2 χ البته به دليل كوچك تر بودن 2
مدل هاي دو و سه پارامتري تفاوت معناداري وجود ندارد، اما بنا بر اصل امساك (امبرتسون
2000 ؛ نقل از شريفي و همكاران، 1388 ) مدل دو پارامتري به دليل دارا بودن ، و رايس 1
پارامترهاي كمتر نسبت به مدل سه پارامتري، به عنوان مدلي كه بهترين برازش را با
مجموعة داده ها دارد، معرفي مي شود.
ها، نتيجه گرفته مي شود كه مدل دو χ بنابراين با توجه به نتايج بدست آمده از مقايسة 2
پارامتري نسبت به مدل هاي يك و سه پارامتري با داده هاي آزمون نظري آزمون گواهينامة
رانندگي برازش بهتري دارد.
آزمون گواهينامة (ICC) در نمودارهاي زير (نمودار 3) منحني هاي ويژگي سؤالات
رانندگي در مدل دو پارامتري آمده است. توجه كنيد كه سؤالات از سمت چپ به راست
شماره گذاري شده اند.
1. Embretson & Reise
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 19
1 - 6
7 - 12
13 - 18
19 - 24
25 - 30
آزمون گواهينامة رانندگي در مدل دو پارامتري (ICC) نمودار 3. منحني ويژگي سؤالات
با توجه به مقادير پارامترهاي سؤالات آزمون در مدل دو پارامتري (جدول 5)، و منحني
ويژگي سؤالات آزمون (نمودار 3)، براي آزمون گواهينامة رانندگي و در مدل دو پارامتري
25 و 28 كه داراي ضرا يب ،23 ،22 ،16 ،6 ، نتيجه مي گي ريم كه به استثناي سؤالات 2
دشواري متوسط مي باشند، بقية سؤالات آزمون داراي ضرايب دشواري منفي و پاييني بوده
و منحني ويژگي آنها به سمت چپ متمايل است و بنابراين سؤالات آساني محسوب
مي شوند. در اين ميان سؤال 5 آسان ترين سؤال است.
شيب تمام سؤالات نيز قابل قبول بوده و از قدرت تشخيص مناسب برخوردارند، تنها
سؤال 16 داراي شيب و قدرت تشخيص نسبتاً پايين و كمتر از 5/ . است . در اين ميان سؤال
12 از بالاترين شيب در بين سؤالات برخوردار است. همچنين بر اساس نتايج بدست آمده،
1 - و 77 / . است كه نشان دهندة / ميانگين و انحراف استاندارد پارامتر دشواري سؤالات 58
. / آسان بودن كل آزمون مي باشد. ميانگين و انحراف استاندارد پارامتر شيب سؤالات نيز 86
و 3/ . است كه نشاندهندة قدرت تمييز قابل قبول در جداسازي افراد قوي و ضعيف مي باشد.
در ادامه، بيشينة آگاهي سؤالات و سطوح توانايي مربوطه (جدول 6) و نيز منح ني
20 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
آگاهي و خطاي استاندارد آزمون گواهينامة رانندگي (نمودار 4) آورده شده است . بايد
توجه شود در نقاطي از منحني كه آگاهي به بالاترين حد مي رسد، خطاي استاندارد به صفر
ميل مي كند، در واقع با افزايش آگاهي آزمون، خطاي استاندارد كاهش مي يابد و بالعكس.
جدول 6 . بيشينة آگاهي و سطح توانايي تعدادي از سؤالات آزمون در مدل دو پارامتري
سؤال بيشينة آگاهي سطح توانايي سؤال بيشينة آگاهي سطح توانايي
-0/36 . /11 16 -2/7 . /73 1
-1/53 . /46 17 -0/96 . /4 2
-2/24 . /64 18 -1/95 . /51 3
-1/82 . /55 19 -1/76 . /44 4
-1/22 . /47 20 -3/26 . /23 5
-1/12 . /42 21 -0/79 . /27 6
-0/82 1 22 - 1/97 1/4 7
-0/49 . /19 23 -1/79 1/83 8
-2/63 . /31 24 - 1/28 . /82 9
-0/71 . /46 25 -2/03 1/53 10
-1/93 . /29 26 -1/25 . /5 11
-1/46 . /55 27 - 1/73 1/78 12
-0/12 . /19 28 -2/06 . /67 13
-1/19 . /22 29 -1/34 . /43 14
-3/19 . /28 30 -1/95 . /71 15
-3 -2 -1 0 1 2 3
0
5
10
15
20
Scale Score
I nformation
0
0.44
0.88
1.32
1.76
2.20
S tandard E rror
و خطاي استاندارد آزمون گواهينامة رانندگي در مدل دو پارامتري (TIF) نمودار 4. منحني تابع آگاهي
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 21
در منحني فوق خطوط پيوسته، منحني آگاهي، و خطوط نقطه چين، منحني خطاي
استاندارد آزمون گواهينامة رانندگي را نشان مي دهد. بيشتري ن ميزان آگاهي دهندگي در
1- است و اين بدان معني است كه اين آزمون براي افرادي كه داراي / 2- تا 4 / دامنة تتاي 2
اين سطوح از توانايي هستند بيشترين مناسبت و كاربرد را دارد . در واقع ميزان آگاهي
دهندگي آزمون در سطوح پايين توانايي، بالا مي باشد. بيشينة مقدار آگاهي آن نيز در سطح
15 مي باشد . از طرفي ميزان آگاهي دهندگي اين آزمون در / 1- و برابر 99 / توانايي 95
سطوح توانايي بالا، بسيار اندك است. توزيع بيشينة آگاهي و خطاي استاندارد نمودار 4، و
نيز توزيع فراواني و سطوح مختلف توانايي آزمودني ها، متعلق به نمودار 5 ، در جدول 7
آمده است.
جدول 7. توزيع بيشينة آگاهي و خطاي استاندارد توانايي آزمون گواهينامة رانندگي در مدل دو پارامتري
توانايي (تتا) فراواني بيشينة آگاهي خطاي استاندارد
1/04 8/44 0 -2/85
0 /64 11/3 2 -2/55
0 /36 14/2 4 -2/25
0 /23 15/99 1 -1/95
0 /25 15/7 12 -1/65
0 /4 13/77 33 -1/35
0 /63 11/36 16 -1/05
0 /94 9/08 26 -0/75
1/32 7/05 63 -0/45
1/8 5/34 25 -0/15
2/1 4/38 21 0/15
2/88 3/21 29 0/45
3/7 2/34 43 0/75
4/66 1/7 27 1/05
5/78 1/24 12 1/35
7/08 0 /91 36 1/65
8/58 0 /67 0 1/95
10/3 0 /49 0 2/25
12/26 0 /36 0 2/55
14/49 0 /27 0 2/85
22 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
-3 -2 -1 0 1 2 3
0
10
20
30
40
50
60
70
Ability
Frequency
نمودار 5. منحني توزيع توانايي آزمودني ها در آزمون گواهينامة رانندگي در مدل دو پارامتري
براي تعيين معناداري پارامترهاي سؤا ل و توانايي، در مرحلة اول ميانگين و انحراف
استاندارد اين پارامترها در مدل كلاسيك و مدل دو پارامتري بر اساس داده هاي بدست
.( آمدة اوليه (داده هاي خام) محاسبه گرديد (جدول 8
CTT و IRT جدول 8. مقايسة پارامترهاي سئوال و توانايي در آزمون گواهينامة رانندگي بر اساس نظرية
شاخص آماري
CTT IRT CTT IRT CTT IRT
توانايي (θ) توانايي (rpbis) تميز (a) تميز (P) دشواري (b) دشواري
. /0007 - . /005 . /33 . /86 . /82 -1 / ميانگين 58
. /99 1/01 . /07 . /3 . /13 . / انحراف استاندارد 77
--- . /49 - . / همبستگي پيرسون 9
2 با استفاده PL و مدل CTT سپس همبستگي بين پارامترهاي دشواري و تمييز در مدل
از ضريب همبستگي پيرسون محاسبه گرديد . ضرايب همبستگي بدست آمده به لحاظ
.( 0 معنادار هستند (جدول 8 / آماري در سطح 01
همچنين جهت سنجش تفاوت معناداري بين پارامترهاي سؤال در دو مدل، داده هاي
تبديل و از آن ها آزمون Z محاسبه شدة (داده هاي خام ) پارامترهاي سؤال، به نمرات
وابسته به عمل آمد. با توجه به نتايج بدست آمده (جدول 9) از مقايسة ميانگين T معناداري
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 23
بدست t پارامتر هاي دشواري، شيب و توانايي در دو مدل، نتيجه گرفته مي شود كه، مقادير
0 معنادار نبوده و بنابراين تفاوت معناداري بين دقت برآورد پارامترهاي / آمده در سطح 05
مذكور در دو نظرية كلاسيك و سؤال  پاسخ وجود ندارد.
و IRT جدو ل 9. مقايسة پارامترهاي سئوال و توانايي در آزمون گواهينامة رانندگي بر اساس نظرية
CTT
پارامترها شاخص
مدل ميانگين انحراف
استاندارد
Sig df T
1/05 . / دشواري كلاسيك 01
. /952 29 . / دو پارامتري 061 1 - . /01
. /97 . / تمييز كلاسيك 01
. /898 29 - . / دو پارامتري 129 1/03 . /03
. /99 . / توانايي كلاسيك 0007
. /963 349 . / دو پارامتري 047 1/01 - . /005
در انتها، به منظور بررسي پايايي و ثبات نتايج آزمون نظري گواهينامة رانندگي، مجدداً
آزمون مذكور با همان شرايط اوليه، پس از يك هفته سپري شدن از اجراي اول، بر روي
30 نفر از همان نمونة اوليه اجرا گرديد. از آنجائي كه آزمون مورد نظر از نوع ملاك مرجع
مي باشد، براي بررسي توافق بين تصميم ها از ضريب پايايي به روش كاپا استفاده شد . در
اين روش مقدار ضريب پايايي، نشان دهندة ميزان توافق تصم يم ها ي نمونة مورد نظر در
ارتباط با چگونگي پاسخگويي به سؤالات آزمون در دو بار اجراي آزمون است. نمرة حد
تسلط در اين آزمون كسب نمرة 26 در 30 سؤال مورد نظر است. در واقع مي توان گفت
86 مي باشد. / كه ملاك قبولي در آزمون و يا نقطة برش آزمون، 67
24 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
جدول 10 . طرح تعيين پايايي بر اساس توافق بين تصميم ها
آزمون اول
رسيده به حد تسلط نرسيده به حد تسلط
2 10
17 1
N = a + b + c + d
بر اساس داده هاي اخذ شده از اجراي دوم، مقدار ضريب كاپا برابر 79 / . بوده و با
در سطح 99 / . كمتر از 01 / . م ي باشد ، مي توان نتيجه P = (. / توجه به اينكه مقدار ( 001
گرفت كه رابطة معناداري بين اجراي اول و اجراي دوم در نمونة مورد نظر وجود دارد. اين
نتيجه نشان مي دهد كه آزمون مورد نظر از پايايي و ثبات كافي در اجراهاي مختلف
برخوردار بوده است.
بحث و نتيجه گيري
معمولاً در علت شناسي تصادف هاي رانندگي از 4 عامل انساني، جاده، وسيلة نقليه و محيط
نام برده مي شود. اما در 90 تا 95 درصد تصادفات رانندگي در ايران، عامل انساني نقش اصلي
1/ و اول را در حوادث رانندگي به عهده دارد (يعقوبي، 1379 ). با اينكه ساليانه بيش از 26
ميليون نفر در دنيا به علت تصادفات رانندگي جان خود را از دست م ي دهند (پدين، اسكار
فيلد و سليت، 2004 )، اما بسياري از كشورهاي در حال توسعه دربارة مرگ و مير در كشور
خود اطلاعات محدودي دارند (خي و وانگ، 2004 ). با مطالعات اپيدميولوژيك مي توان در
جهت كاهش حوادث و عواقب ناشي ازآنها گام برداشت، چرا كه آس يب ها ي ناشي از
.( حوادث رانندگي يك مشكل بزرگ بهداشتي در دنيا است (پدن و تورويان، 2005
رسيده به حد تسلط
آزمون دوم
نرسيده به حد تسلط
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 25
در واقع آموزش اين توانايي را دارد تا براي بهبود و پيشرفت كشورهاي كمتر توسعه يافته
زمينة لازم را فراهم سازد و سياست هاي لازم براي مقابله با اين بحران جهاني را اتخاذ نمايد (
لوئيز، 1990 ، نقل از سهرابي، 1384 ). نتايج مطالعات انجام شده نشان نيز مي دهد كه مي توان با
.( اقدامات پيشگيرانه از 98 درصد حوادث جلوگيري نمود (عراقي و واحديان، 1384
يكي از فعاليت ها در اين زمينه، توجه به آزمون هاي نظري گواهينامة رانندگي از زواياي
مختلف و مقايسة آن با ديگر كشورها است كه مي توان د به عنوان اقدامي پيشگيرانه در
كاهش رخداد حوادث رانندگي به شمار آيد. آزمون گواهينامة رانندگي در ايران شامل
يك آزمون نظري و يك آزمون عملي (شهري يا جاده ) است . آزمون نظري، آزمون
استاندارد شده اي است كه براي تصميم گيري در مورد رسيدن فرد به دانش نظري كافي و
ساختن راننده اي ايمن و بي خطر طراحي شده، و مي تواند از زواياي متفاوت مطالعه شده
.( و سؤالات آن نيز بر طبق نظريات مختلف ارزش گذاري شود (ويبرگ، 2004
هدف اين پژوهش، بررسي ويژگي هاي روان سنجي سؤالات آزمون نظري گواهينامة
در ايران (IRT) و نظرية سؤال  پاسخ (CTT ) رانندگي بر طبق نظرية كلاسيك آزمون
بوده است.
تحليل ويژگي روان سنجي سؤالات آزمون نظري گواهينامة رانندگي طبق نظرية
كلاسيك نشان داد كه، بيشتر سؤالات اين آزمون، سؤالات آساني محسوب شده و افرادي با
كمترين توانايي، قادر به پاسخگويي صحيح به تعدادي از سؤالات هستند . همچنين سؤالات
آسان داراي انحراف استاندارد و واريانس پاييني بوده و به واريانس كل آزمون كمك زيادي
نمي كنند و در واقع اطلاعات زيادي را دربارة تفاوت هاي آزمودني ها به ما نم ي دهند . بيشتر
سؤالات آزمون از ضرايب تمييز نسبتاً قابل قبولي برخوردارند. اين بدان معني است كه بيشتر
سؤالات آزمون قادر به جداسازي مناسب آزمودني هاي قوي و ضعيف مي باشند.
ضريب پايايي كل آزمون نيز نشان دهندة تجانس دروني نسبتاً بالاي سؤالات آزمون
مي باشد.
26 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
تحليل ويژگي هاي روان سنجي سؤالات آزمون نظري آزمون گواهينامة رانندگي طبق
نظرية سؤال  پاسخ نشان داد كه پس از برآورد پارامترها و با بررسي ميزان برازندگي
تك تك سؤالات با مدل هاي يك، دو و سه پارامتري، هيچ سؤالي وجود ندارد كه به
صورت همزمان با هر سه مدل برازش نداشته باشد . بنابراين هيچكدام از سؤالات حذف
نمي شوند. بررسي منحني ويژگي سؤالات نشان مي دهد كه بيشتر سؤالات آزمون داراي
ضرايب دشواري منفي و پاييني بوده و منحني ويژگي آنها به سمت چپ متمايل است و
بنابراين سؤالات آساني محسوب مي شوند. ميانگين و انحراف استاندارد پارامتر دشواري
1- و 77 / . است كه نشان دهندة آسان بودن كل آزمون مي باشد. شيب بيشتر / سؤالات 58
سؤالات آزمون قابل قبول بوده و از قدرت تشخيص مناسب در جداسازي آزمود ني ها ي
قوي و ضعيف برخوردارند. تنها سؤال 16 داراي شيب و قدرت تشخيص پايين و كمتر از
5/ . است. ميانگين و انحراف استاندارد پارامتر شيب سؤالات نيز 86 / . و 3/ . است كه
نشان دهندة قدرت تمييز قابل قبول در جداسازي افراد قوي و ضعيف مي باشد.
در مجموع مي توان نتيجه گرفت كه بيشتر سؤالات آزمون داراي ضرايب دشواري
پايين و ضرايب تمييز قابل قبولي مي باشند.
بررسي منحني آگاهي دهندگي نشان مي دهد كه بيشترين ميزان آگاهي دهندگي اين
1- بوده و بيشينة مقدار آگاهي آن نيز در سطح توانايي / 2- تا 4 / آزمون در دامنة توانايي 2
15 مي باشد. اين بدان معني است كه اين آزمون در سطوح پايين تتا / -1/95 و برابر 99
(توانايي) از آگاهي دهندگي بالايي برخوردار بوده و براي آزمودني هايي با توانايي پايين
-1/ 1، در سطح توانايي 79 / مناسب مي باشد . در اين ميان سؤال 8 با بيشينة آگاهي 83
بيشترين ميزان آگاهي دهندگي را در اين مجموعه از سؤالات به خود اختصاص داده است.
همچنين منحني توزيع توانايي آزمود ني ها نشان م ي دهد كه بيشتر ين فراواني آزمون
شوندگان با 63 نفر متعلق به سطح توانايي 45 / .- مي باشد.
تحليل ويژگي هاي روان سنجي سؤالات آزمون نظري گواهينامة رانندگي طبق نظرية
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 27
سؤال  پاسخ نشان داد كه اين آزمون تك بعدي مي باشد. اين نتيجه با تحليل عاملي سؤالات
آزمون بدست آمد. اثبات تك بعدي بودن آزمون به اين معنا است كه مفروضة استقلال
موضعي نيز برقرار است. در مرحلة بعد پارامترهاي سؤال و توانايي در مدل هاي يك، دو و سه
پارامتري بدست آمد. به منظور مقايسة مدل ها در برازش با داده هاي آزمون، از آزمون خي
دو استفاده گرديد. نتايج نشان داد كه مدل دو پارامتري نسبت به مدل هاي يك و سه پارامتري
برازش بهتري با داده هاي آزمون دارد. اين بدان معني است كه عامل حدس در پاسخگويي
آزمودني ها به سؤالات نقش زيادي نداشته است. همچنين با توجه به اطلاعات بدست آمده،
سؤالات 16 و 22 با مدل يك پارامتري برازش ندارند. اما تمام سؤالات با مدل ها ي دو و سه
پارامتري داراي برازش هستند. بنابراين مي توان با توجه به برازش تمام سؤالات آزمون، با
مدل هاي دو و سه پارامتري، نتيجه گرفت كه مدل هاي دو و سه پارامتري برآورد دقيق تر ي از
پارامترهاي سؤال نسبت به مدل يك پارامتري بدست مي دهد.
نتايج اين پژوهش از لحاظ تفاوت در دقت برآورد پارامترهاي سؤال و توانايي به روش
سؤال  پاسخ نسبت به روش كلاسيك، نشان م ي دهد كه، برآورد پارامترهاي سؤال و
توانايي به روش سؤال  پاسخ از واريانس و دامنة وس يع تر ي نسبت به روش كلاسيك
برخوردار بوده و برخلاف مدل كلاسيك، قاد ر به برآورد پارامترهاي سؤال و توانايي
تلقي CTT مستقل از همديگر مي باشد. به بيان ديگر آنچه به عنوان نقطة ضعف در نظرية
، مي شود، وابستگي پارامترهاي آن به نمونة مورد بررسي است (همبلتون و سواميناتان 1
ويژگي و ،IRT 2000 ). در واقع ثبات و استقلال پارامترها در نظرية ، 1985 ، نقل از استيج 2
1980 ، نقل از استيج، 2000 ). در اين رابطه ، مزيت مهم اين نظريه به شمار مي رود (لرد 3
IRT و CTT 2010 )، نيز نشان دادند كه اگرچه هر دو نظرية ) شاركنس و دي آنجلو 4
مي توانند در به دست آوردن اطلاعات يكسان در مورد مقدار سئوالات آزمون در رابطه با
1 . Hambleton & Swaminathan
2 . Stage
3 . Lord
4 . Sharkness & DeAngelo
28 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
صفت مكنون اندازه گيري شده، مفيد باشند، اما اين دو نظريه اندازه هاي متفاوتي از دقت
آزمون بدست مي دهند.
به منظور مقايسه و تعيين معناداري پارامترهاي سؤال و توانا يي در آزمون گواهينامة
رانندگي، در مرحلة اول ميانگين و انحراف استاندارد پارامترهاي دشواري، شيب و توانايي
در دو مدل كلاسيك و دو پارامتري بر اساس داده هاي بدست آمدة اوليه (داده هاي خام )
و مدل CTT محاسبه گرديد. سپس همبستگي بين پارامترهاي دشواري و تميز در مدل
2 با استفاده از ضريب همبستگي پيرسون محاسبه گرديد، كه ضرايب همبستگي بدست PL
0 معنادار بودند. در مرحلة بعد، داده هاي محاسبه شده / آمده به لحاظ آماري در سطح 01
تبديل و از آن ها Z (داده هاي خام) براي پارامترهاي سؤال و توانايي در دو مدل، به نمرات
محاسبه شده از مقايسة دو ميانگين و T وابسته به عمل آمد. با توجه به T آزمون معناداري
مندرج در جدول در سطح 95 / . ، نتيجه گرفته مي شود كه تفاوت معناداري بين دقت T
برآورد پارامترهاي دشواري، شيب و توانايي در دو نظرية كلاسيك و سؤال  پاسخ وجود
ندارد. با مقايسة نتايج متفاوت معنادار ي ها ي بدست آمده توسط آزمون ها ي رابطه
وابسته) مي توان نتيجه گرفت كه نظريه هاي كلاسيك و سؤال  T) (پيرسون) و تفاوت
پاسخ داراي رابطة معناداري بوده و هر دو نظريه از ميزان دقت تقريباً مشابه و يكساني در
برآورد پارامترهاي سؤال و توانايي برخوردارند و در واقع تفاوت معناداري بين دو نظريه در
برآورد پارامترها وجود ندارد.
پژوهش هاي انجام ،CTT بر IRT امروزه، با وجود مزيت هاي نظري شناخته شدة نظرية
يافته از طريق بررسي ويژگي هاي تجربي نيز به نتايج مشابه، متغير و بعضاً متناقضي منتهي
شده است.
به CTT و IRT بچگار 1 و همكاران ( 2003 ) در مطالعة خود با استفاده از نظريه هاي
اين نتيجه رسيدند كه؛ نظرية سئوال - پاسخ حالت گسترش يافتة نظرية كلاسيك است، و
1 . Bechger
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 29
مفاهيم هر دو نظريه به هم وابسته هستند. با اين حال ثابت شده است كه نظرية سئوال -
پاسخ در جايي كه نظرية كلاسيك ناتوان به نظر مي رسد مي تواند مفيد واقع شود.
بررسي پارامترهاي سئوال و توانايي با استفاده از تكنيك مونت كارلو و از طريق داده
2002 ) نشان داد كه، برآورد ) هاي شبيه سازي شده در مطالعة مكدونالد و پانونن 1
قابل مقايسه، مشابه و دقيق اند. همچنين CTT و IRT پارامترهاي سئوال و توانايي در نظرية
در اغلب شرايط تجربي IRT نتايج حاكي از آن بود كه برآورد پارامترهاي تمييز مبتني بر
در برخي از شرايط خاص از دقت CTT دقيق بوده، اما برآورد پارامترهاي تمييز مبتني بر
پايين تري برخوردار بوده است. پيامدهاي نتايج اين مطالعه براي تجزيه و تحليل روان سنجي
سئوالات و انتخاب سئوال مورد بحث قرار گرفته است. نتيجة پژوهش استيج ( 2000 ) نيز
نشان داد كه؛ نظريه هاي جديد و كلاسيك اندازه گيري به يك اندازه قادرند داده هاي
آزمون را به صورت منظم پيش بيني كنند. اما به دليل تفاوت قابل ملاحظه ي موجود بين دو
نظريه در تئوري و اجرا و در نتيجه برآورد دقيق تر پارامترهاي سئوال و توانايي توسط نظرية
IRT كه در برخي تحقيقات ب ه اثبات رسيده است، نظرية ،CTT نسبت به نظريه IRT
دارد. CTT برتري قابل ملاحظه اي بر نظرية
،(IRT) 2010 ) مشخص گرديد كه، مدل پاسخ مدرج ) در مطالعة سنكتاي و سنكتاي 2
براي برآورد پارامترهاي آماري در يك نمونة بزرگ و نيز تحليل مدل معادلات ساختاري
دقيق تر از مدل كلاسيك آزمون است. اما مدل كلاسيك آزمون نيز همچنان ابزار آماري
پايايي در تحليل رگرسيون و در نمونه هايي با اندازة كوچك محسوب مي شود . همچنين
هنگامي كه پارامترهاي فرد، ناشناخته فرض مي شود و پارامترهاي سئوال نيز به صورت
و IRT شناخته شده و يا شناخته نشده باشد، توان بدست آمده با استفاده از نظريه هاي
مشابه و يكسان، و هميشه پايين تر از توان مورد انتظار در نقطة انتهايي توزيع طبيعي CTT
1 . Macdonald & Paunonen
2 . Siengthai & Siengthai
30 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
.(2010 ، است. تعداد سئوالات نيز تأثير قابل توجهي بر توان در هر دو روش دارد (سبيل 1
تجزيه و تحليل نهايي پارامترهاي سؤال و آزمود ني ها در آزمون نظري گواهينامة
رانندگي كه توسط راهور ناجا برگزار مي شود، نشان داد كه سؤالات اين آزمون بر اساس
نظرية كلاسيك و نظرية سؤال  پاسخ ، براي آزمودني ها يي با توانايي پايين از مناسبت و
دقت بيشتري برخوردار است. اين بدان دليل است كه با توجه به ضرايب دشواري بدست
آمده، بيشتر سؤالات آزمون ساده و آسان مي باشند. اما از آنجائي كه آزمون مورد نظر از
نوع ملاك مرجع است، سؤالي كه از لحاظ محتوايي با ارزش است، لزوماً به دليل آسان
بودن از آزمون كنار گذاشته نمي شود (ويبرگ، 2004 ). پارامتر تمييز آزمون نيز در هر دو
نظريه از ضرايب قابل قبولي برخوردار بوده و نشان مي دهد كه اين آزمون تا حد زيادي از
قدرت جداسازي افراد قوي و ضعيف در سطوح پايين توانايي برخوردار م ي باشد . البته با
توجه به اينكه آزمون نظري گواهينامة رانندگي از نوع آزمون هاي ملاكي م ي باشد ، حتي
سئوال هايي با ضرايب تمييز پايين نيز كنار گذاشته نم ي شوند ، چرا كه چنين سئوالاتي
.( توانايي اندازه گيري هدف را نشان مي دهند (كيامنش، 1387
به منظور بررسي پايايي و ثبات نتايج آزمون نظري گواهينامة رانندگي، مجدداً آزمون
مذكور با همان شرايط اوليه، پس از يك هفته سپري شدن از اجراي اول، بر روي 30 نفر از
همان نمونة اوليه اجرا گرديد. بر اساس ضريب كاپاي بدست آمده مي توان نتيجه گرفت
كه رابطة معناداري بين اجراي اول و اجراي دوم در نمونة مورد نظر وجود دارد. اين نتيجه
نشان داد كه آزمون مورد نظر از پايايي و ثبات كافي در اجراهاي مختلف برخوردار است .
در واقع تغيير چنداني در تعداد و درصد افرادي كه در اجراي اول آزمون موفق و يا ناموفق
بوده اند، نسبت به اجراي دوم آزمون وجود نداشته و مي توان نتيجه گرفت كه، ثبات تصميم
گيري در دو بار اجراي آزمون وجود داشته است.
پايين بودن ميانگين نمرات آزمودنيها در اين پژوهش، نسبت به نمرة ملاك، با در نظر
1 . Sebille
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 31
گرفتن سادگي آزمون، نشاندهندة توانايي پايين آزمون شوندگان م ي باشد . البته ميز ان
توانايي برآورد شده در نظرية سؤال  پاسخ در مقايسه با نمرة آزمودني در نظرية كلاسيك،
به ميزان واقعي نزديك تر است و با توجه به توانايي ها ي برآورد شده، مي توان سؤالات
متناسب با توانايي آزمودني ها را انتخاب نمود و اين مي تواند به ايجاد بانك سؤال و توسعة
در آزمون نظري گواهينامة رانندگي منجر شود . ،(CAT) آزمون هاي انطباقي كامپيوتري
2002 ) نيز بدان اشاره شده است . وي با بررسي سئوالات ) مزيتي كه در بررسي هاروي 1
بر روش ها ي IRT مزي ت ها ي نظرية ،(MBTI) آزمون تجديد نظر شده مايرز - بريگز
را بدين گونه برشمرد: CTT مبتني بر نظرية
(الف) دادن شرح مفصل از عملكرد افراد در سئوالات آزمون
(ب) ثبات و تغيير ناپذيري شاخص هاي دقت سؤال و آزمون در سراسر طيف نمرات
(ج) امكان ارزيابي سوگيري سؤال و آزمون در رابطه با زير گروه هاي جمعيتي
(د) اندازه گيري كيفي و با ثبات از ويژگي هاي هر پاسخ دهنده
(ه) امكان تهية آزمون هاي انطباقي كامپيوتري با هدف كاهش زمان آزمايش، بدون فدا
كردن دقت اندازه گيري.
IRT يافته هاي ديگر (شاركنس و دي آنجلو، 2010 ) نيز نشان داد كه در مجموع نظرية
اطلاعات بسيار جامع تري در مورد دقت اندازه گيري و نيز نقشة راه واضح تر ي براي بهبود
براي ساخت مقياس و توسعة IRT مقياس فراهم مي كند. همچنين اين يافته ها ، از نظرية
زمينه يابي در آموزش عالي پشتيباني مي كنند.
1 . Harvey
32 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
منابع
آلن، مري. جي؛ و وندي، ام. ين ( 1384 ). مقدمه اي بر نظري ه هاي اندازه گيري (روان سنجي ).
.( 12 . (تاريخ انتشار به زبان اصلي، 1982 - ترجمة علي دلاور. تهران: سمت. صص 13
احمدي، فهيمه ( 1385 ). علل وقوع تصادفات در معابر شهري.
براي (IRT) امبرتسون، سوزان اي؛ و رايس، استيون پي ( 1388 ). نظريه هاي جديد روان سنجي
روان شناسان. ترجمة حسن پاشاشريفي، ولي الله فرزاد، مجتبي حبيبي عسگرآباد و بلال
.( ايزانلو. تهران: رشد. ص 490 . (تاريخ انتشار به زبان اصلي، 2000
بازرگان، عباس ( 1386 ). ارزشيابي آموزشي: مفاهيم، الگوها و فرآيند عملياتي. تهران: سمت.
.Http://www.bih.ir . بيمة ايران. ( 2008 ). تفاوت هاي حوادث رانندگي در آلمان و ايران
ثرندايك، آر، ال ( 1375 ). روان سنجي كاربردي. ترجمة حيدرعلي هومن. تهران : دانشگاه تهران .
.( (تاريخ انتشار به زبان اصلي، 1982
حسيني، ميرزا حسن ( 1380 ). لزوم توجه به نكته هاي مثبت آموزش از راه دور در دنيا.
خالدي، محمد ( 1387 ). ارزيابي اثربخشي آموزش هاي فني و حرفه اي، هنرستان ها و دوره هاي
علمي و كاربردي به تفكيك خصوصي و دولتي در اشتغال، مؤسسة كار و تأمين اجتماعي.
؛ خبرگزاري فارس ( 1385 ). گروه اجتماعي، حوزة قضايي و انتظامي. شمارة 8508010184
.1385/08/01
سلماني، محمد؛ رمضان زاده لسبويي، مهدي؛ دريكوند، مسلم و ثابتي، فرخ ( 1387 ). بررسي عوامل
مؤثر بر تصادفات جاده اي و ارائة راهكارهايي براي كاهش آن، مورد مطالعه : منظومة
، روستايي جنوب خور و بيابانك. پژوهش هاي جغرافياي انساني، شمارة 65 ، پاييز 1387
.87- صص 104
سهرابي، منيره ( 1384 ). بررسي تطبيقي سير تحولات آموزش از راه دور در توسعه كمي و كيفي
آموزش عالي به ويژه دانشگاه هاي مجازي در كشورهاي انگلستان، آمريكا و ايران، تهران:
پايان نامة كارشناسي ارشد، دانشگاه علامه طباطبائي.
سوري، حميد؛ عيني، الهه؛ موحدي نژاد، عباسعلي؛ محفوظ پور، سعاد؛ موحدي، محمد؛ رضا زاده
.( آذري، منصور؛ وفايي، رضا؛ حات مآبادي، حميدرضا و مسعودي نژاد، محمدرضا ( 1388
اراية الگوي عملي نقشة سياست گذاري در سوانح ترافيكي كشور در سال 1387 . مجلة
پژوهشي حكيم، پاييز 88 دورة دوازدهم، شماره سوم.
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 33
صالحي، احمد ( 1376 ). بررسي مشخصه هاي روان سنجي آزمون پ ره بورد رشتة زنان و زايمان
پايان نامة كارشناسي ارشد، تهران : ، IRT كشور ايران بر اساس نظرية سؤال  پاسخ
دانشگاه علامه طباطبائي.
عراقي، عزت؛ و واحديان، محمد ( 1384 ). بررسي عوامل مستعد كننده و آس يب ها ي ناشي از
، تصادفات با موتورسيكلت در شهرستان مشهد سال 1384 . مجلة افق دانش (دوره 13
شماره 1). دانشكدة علوم پزشكي و خدمات بهداشتي ،درماني گناباد.
فراهاني، مهدي ( 1375 ). مقايسة مدل هاي اندازه گيري (كلاسيك و سؤال  پاسخ ) از لحاظ برآورد
پارامترهاي سؤال و توانايي. پايان نامة كارشناسي ارشد، تهران: دانشگاه علامه طباطبائي.
- كيامنش، عليرضا ( 1387 ). روش هاي ارزش يابي آموزشي. تهران: دانشگاه پيام نور . صص 119
.118
محمد زاده رومياني، مهري ( 1375 )، روش هاي گزينش سؤال در مدل كلاسيك اندازه گيري و
پايان نامة كارشناسي ارشد، تهران، دانشگاه علامه طباطبائي. ،IRT مدل هاي جديد
مگنوسون، داويد ( 1370 ). مباني نظري آزمون هاي رواني. ترجمة محمد نقي براهني . تهران : نشر
.( دانشگاه تهران. (تاريخ انتشار به زبان اصلي، 1966
يعقوبي، حميد ( 1379 ). بررسي نقش عوامل انساني در بروز تصادفات رانندگي در ايران . نشري ة
انديشه و رفتار، سال ششم، شماره يك.
يونسي، جليل ( 1385 )، بررسي ويژگي هاي روان سنجي سؤالات آزمون هاي فراگير رشته
روانشناسي دانشگاه پيام نور در سال 1385 ، پايان نامة كارشناسي ارشد، تهران، دانشگاه
علامه طباطبائي.
Bechger, T. M., Maris, Gunter., Verstralen, H. H. F. M. & Béguin, A, A. (2003).
Using Classical Test Theory in Combination with Item Response Theory.
Applied Psychological Measurement Vol. 27, No 5,pp 319–334.
Chi, GB., & Wang, sy. (2004). Pattern of road traffic injuries in china. Zhonghua lio
xing bing zue za zhi. (7):598-601.
Hambleton, R. K., & Vanderlinden, W. J. (1982). Advance in item response theory
and application: An introuduction applied psychological measurement,6,4,
372-378.
Hambleton, R. K., & Cook, L. L. (1983). The robustness of item rrsponse models
effects of test length and sample aize on the precision of ability estimates. In D
jweis(Ed.) New horizons in testing (pp.31- 49) New York: Academic press.
Hambleton, R. K. (1989). Principles and selected applications of item- response
theory. In R. Linn (Ed.) Educational measurement, (3rd Ed). New York:
Macmillan. 147-200.
34 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
Hambleton, R. K., Jones, R. W. & Rogers, H. J. (1993). Independence of item
parameter etimtion errors in test development. Journal of Educational
Measurment,30,143 – 155.
Harvey, R. J., & Hammer, A. L. (2002). Item Response Theory. Virginia
Polytechnic Institute & State University & Consulting Psychologists Press, Inc.
Kopits, E., & Cropper, M. (2005). Traffic fatalities and economie growth,
Accidanalprev; 37(1):169-78.
Macdonald, P,. & Paunonen, S. V. (2002). A Monte Carlo Comparison of Item and
Person Statistics Based on Item Response Theory versus Classical Test
Theory. Educational and Psychological Measurement Vol. 62 No. 6, .pp 921-
943. University of Western Ontario.
Peden, M., & Toroyan, T. (2005). Counting road traffic deaths and injuries: poor
data should not detract from doing some thing. Annals of emergency
medicine.46(2):158-60.
Peden, M., Scufield, R., & Sleet, D. (2004). World report on road traffic injury
prevention. Geneva: world health organization.
Reid, C. A. (1993). Latent trait modeling of the general aptitude test battery used
with a rehabilitation client population: An investigation of Model – Data Fit.
Source: DAI – B 54/12 , P. 6497, JUN 1994.
Romana, E. (2004). World health day:road safety is no accident. Paris, Farance.
Sébille, V., Hardouin, JB., Le Néel, T., Kubis, G., Boyer, F., Guillemin, F., &
Falissard, B. (2010). Methodological issues regarding power of classical test theory
(CTT) and item response theory (IRT) -based approaches for the comparison
of patient-reported outcomes in two groups of patients- a simulation study.
BMC Medical Research Methodology.
Sharkness, J,. & DeAngelo, L. (2010). Measuring Student Involvement: A
Comparison of Classical Test Theory and Item Response Theory in the
Construction of Scales from Student Surveys. Res High Educ 52, pp 480–507.
Siengthai, Sukirno & Sununta. (2010). The comparison of graded response model
and classical test theory in human resource research: a model fitness test.
Research and Practice in Human Resource Management.18 (2), pp77-
90.Singapore, Human Resources Institute & Curtin University of Technology.
Stage, C. (2000). A Comparison Between Item Analysis Based on Item Response
Theory and Classical Test Theory. A Study of the SweSAT Subtest ERC.
Wiberg, M. (2004). Classical test theory vs.item response theory: An evaluation of
the theory test the Swedish Driving-License test. 1-27.

تعين نقطه ي برشي براي سنجش يك اختلال (تهيه ي پرسشنامه و تعيين نقطه برش)

دوستي قصد دارد نقطه ي برشي براي سنجش اختلالات صدا ویژه معلمان مقطع ابتدایی بسازد. براي انجام اين كار چه مسيري را لازم است طي نمايد؟

در مرحله ي روش و در قدم اول لازم است ابزار انجام اين كار را مشخص نمايند. يعني مشخص كنند كه سنجش اختلالات صدا از چه طريقي انجام خواهد شد. پاسخ ايشان تهيه ي پرسشنامه است و در ضمن قصد دارند ويژگي هاي روانسنجي آن را نيز بيابند. براي تهيه ي پرسشنامه لازم است كه ويژگي هاي پرسشنامه مشخص و تعيين شود يعني پرسشنامه بايد روايي و پايايي داشته باشد كه اين خود مبحث گسترده اي است. به منظور تعيين ويژگي هاي سوالات پرسشنامه بايد از نظريات اندازه گيري بهره برند. اين نظريات كه به تعيين ويژگيهاي سوال كمك مي كنند عبارتند از نظريه ي كلاسيك اندازه گيري و نظريه ي سوال پاسخ. بنابراين لازم است در گام اول اين نظريات شناخته شوند و نرم افزارهاي مربوطه فرا گرفته شود. لازم به ذكر است كه انجام كارهاي روانسنجي در تخصص دانشجويان و اساتيد آمار نمي باشد بلكه نياز به تخصص سنجش و اندازه گيري يا روانسنجي دارد كه اين موضوع براي دوستان علاقمند بعد از شروع به كار كاملا روشن مي شود.

بعد از تعيين ويژگي هاي روانسنجي و حدف اصلاح سوالات در نهايت سوالاتي باقي خواهند ماند كه بر اساس روش هاي علمي مي توان گفت پرسشنامه توانايي سنجش  اختلالات صدا را دارا است. بعد از اين مرحله لازم است نقطه ي برش تعيين شود. تعيين نقطه ي برش نيز مطالعات خاص خود را مي طلبد و از روش هايي مانند نمودارهاي راك تا روش هاي سوال پاسخ استفاده مي شود كه توصيه ي بنده استفاده از روش هاي سوال پاسخ است.

تئوري يا نظريه ي رويه FACET

نظريه ي FACET توسط لوئس گاتمن و به منظور يكپارچه كردن نظريه و تحقيق گسترش يافته است. بيشتر مفاهيم رواني و اجتماعي چند متغيري هستند و بنابراين مطالعه ي آنها نيازمند يك طرح سيستماتيك و منظم براي تعريف مشاهدات است. علاوه بر اين اگر طرح تعريف به نتايج تراكمي منجر شود، بايد در قالبي مطرح شود كه به درك روابط سيستماتيك و نظامند با داده هاي تجربي منجر شود. ايده ي ترسيم گاتمن به منظور ارتقاء هر دو هدف ارائه شده است: گزاره ي ترسيم كه ابزار پايه اي در نظريه ي FACET است در برگيرنده ي رويه هاي مختلفي است. هر رويه در گزاره ي ترسيم راهي است براي خوشه بندي كردن مفاهيم پژوهش و نقش مشخص هر رويه را تعيين مي كند. با توجه به نظر گاتمن، مفروضه ي اساسي و پايه اي نظريه ي FACET نقش رويه ها در گزاره ي ترسيم دليلي را براي مفروضه انطباق بين چهارچوب تعريف ( گزاره ي ترسيم) و يك وجه از داده هاي تجربي فراهم مي آورد. مثالهاي زيادي از با استفاده از رويكرد FACET و دستيابي به يك ساختار قانمونمند ارائه شده است كه دليلي است بر حمايت از مفروضه ي عمومي نظريه ي FACET.


 

اندازه گیری چند رویه ای راش (Many-facet rasch measurement)

نویسنده: محمد حسین ضرغامی(zar100@gmail.com) 09122263167

اندازه گیری چند رویه ای راش (Many-facet rasch measurement) :

این مدل اندازه گیری به سنجش عملکردی بسیار کمک کرده است. البته این مدل یکی از مدلهای تلفیقی دو نظریه ی تعمیم پذیری و نظریه ی سوال پاسخ است که به آنها GIRM گفته می شود. نظریه ی تعمیم پذیری نظریه ی نمونه گیری است که به پژوهشگر کمک می کند تا منابع خطای خود را به قسمت های مختلف تقسیم نماید. این تقسیم منابع خطا می تواند به شفاف شدن بهتر واریانس مورد مطالعه کمک نماید. از طرفی نظریه ی راش به عنوان یکی از نظریه های اندازه گیری که خود یک نظریه ی مقیاس گذاری است امکان سنجش و اندازه گیری تکالیف را فراهم می آورد. در سنجش عملکردی به جای سوالات و گزاره ها که در پرسشنامه ها و آزمون های شناختی استفاده می شوند از اصطلاح تکلیف استفاده می شود. بنابراین با استفاده از مدل سوال پاسخ می توان به مقیاس بندی و پارامتری کردن تکالیف و دستیابی به درجه دشواری و شیب تکالیف و همچنین عملکرد افتراقی سوالات دست یافت. حوزه ی کاربرد مدل چند رویه ای راش یا مدل های جیرم بیشتر در آموزش و آزمون سازی زبان و همچنین سنجش و اندازه گیری فعالیت های حرکتی در تربیت بدنی و ورزش وهمچنین استاندارد سازی رفتار و عملکرد بر می گردد که می تواند برای دانشجویان و دانش پژوهان در حوزه های مختلف مدیریت مورد نیاز باشد. استفاده از این رویکرد به منظور کالیبره کردن مصاحبه ها و امتحانات شفاهی مانند امتحانات قرائت کاربرد زیادی پیدا کرده است. حوزه های زبان آموزی و آِزمون سازی زبان مجموعه ی گسترده و متنوعی از روش ها را در بر می گیرد که هدف آنها اندازه گیری مهارت زبانی فرد یا چند جنبه مختلف این مهارت است. زمانی که رتبه دهنده یا امتیاز دهنده به دانش آموزان یا شرکت کننده گان رتبه می دهند نظرات آنها می تواند به عنوان یک رویه در کنار توانایی دانش آموزان و شرکت کنندگان و درجه ی سختی تکلیف ایجاد واریانس نماید که می تواند وابسته به هدف پژوهش واریانس خطا و یا واریانس مورد پژوهش قلمداد شوند. به این رویکرد اسامی مختلفی داده اند مانند

Many-facet rasch model, multi-facet rasch model,many faceted conjoint measurement, multi faceted rasch modeling

نرم افزارهای مختلفی برای اندازه گیری و سنجش در این حوزه استفاده شده اند که یکی از آنها FACET است که توسط گروه طراح نرم افزار WINSTEP  ایجاد شده است.

اندازه گیری رویکرد اندازه گیری چند رویه ای راش یا مدل های دیگر GIRM دارای سه گام مهم زیر می باشند.

گام اول: شکل دهی به مفروضات بر پایه ی رویه های مورد پژوهش که به یک سنجش مشخص مربوط می شود.

 

گام دوم: مشخص کردن مدل های اندازه گیری که برای مطالعه ی هر یک از رویه ها باید استفاده شود. در این بخش بحث گزینش مدل اندازه گیری مطرح است و بسیار به روانسنجی و سنجش و اندازه گیری مربوط است وباید به مدل های مختلف و روش های ترکیبی نظریات مختلف اندازه گیری آشنابود.

گام سوم: بکار بردن مدل برای در نظر گرفتن اثر هر رویه به صورت بهترین روش ممکن

Item response theory

Generalozabiltiy theory

Rasch model

FACET

Language testing

Sport

Performance assessment

task

 

نظريه ي تعميم پذيري (Generalizability theory) به عنوان نظريه اي براي مطالعه ي رويه ها(facet)ي موجود

نظريه ي تعميم پذيري يكي از نظريات اندازه گيري است كه با استفاده از تركيب نظريه ي كلاسيك سوال پاسخ و روش تحليل واريانس سعي در برآورد ضرايب اعتبار داشته است. قابليت هاي اين نظريه ي امكان مطالعه ي شرايط مختلف و مقايسه ي اعتبار امتيازات در شرايط مختلف را فراهم مي آورد. به مطالعاتي كه براي بررسي شرايط مختلف استفاده مي شوند، مطالعات تصميم گيري مي گويند. اين مطالعات امكان بررسي رويه ها(FACET) هاي مختلف به عنوان منابع مختلف واريانس يا پراكندگي در امتيازات را فراهم مي آورد. مشخص است كه هر چه پراكندگي بر اساس رويه يا FACET مورد مطالعه ( كه به آن رويه ي تفكيكي گويند) بيشتر باشد، بهتر و مناسب تر است (مانند آنچه در تحليل واريانس به عنوان واريانس بين آزمودني ها مطرح است) و هر چه واريانس ناشي از رويه هايي بجز رويه ي مورد مطالعه باشند، كمتر خواهد بود. 

به عنوان مثال زماني كه هدف پژوهش رتبه بندي پژوهشگران مختلف بر اساس كارهاي انجام داده ي آنها مي باشد و اين كار از طريق بررسي اقدامات علمي آنها توسط 5 نفر خبره انجام مي شود، تمايز پژوهشگران هدف اصلي مورد مطالعه و ساير رويه ها به عنوان رويه هاي مزاحم يا ابزاري instrumental facet شمرده مي شوند. 


روان شناسي سنجش و اندازه گيري  

در تعريف اندازه‌ گيري گفته مي‌شود فرآيندي كه تعيين مي‌كند يك شخص يا يك شي چه مقدار از يك ويژگي برخوردار است و سنجش را نوعي اندازه‌گيري مي‌دانند كه در آن از آزمون و وسائل ديگري استفاده مي‌شود. بنابراين تعريف تعيين ويژگيهاي مورد سنجش ، فرآيند اجراي سنجش و بررسي فرآورده‌ها سه بخش مهم سنجش و اندازه‌گيري به شمار مي‌روند. بر اين اساس سنجش و اندازه گيري را در سه بخش عمده مرحله طراحي ، مرحله اجرا و مرحله بررسي فرآورده‌ها مي‌توان خلاصه كرد.

مرحله طراحي سنجش و اصول مربوط به آن


مرحله طراحي با سوالهايي از اين نوع سروكار دارد: چه كاري انجام خواهيم داد، و شامل تصميم‌هايي است درباره فعاليتهايي كه قرار است انجام گيرند. بطور ويژه در اين مرحله اقدامات زير صورت مي‌پذيرند. تحليل موقعيت ، تعيين و توصيف هدفها ، توصيف پيش نيازها ، انتخاب يا توليد وسايل و ابزارهاي مورد نياز ، تدارك برنامه مورد نياز.



به منظور تحليل موقعيت و يا شناخت پيش نيازها ممكن است به راهبردهايي دست زد كه شرائط موجود را بهتر و مناسب‌تر توصيف كند تا بر آن اساس بتوان تصميم‌هاي بعدي را دقيقتر و مناسبتر اتخاذ كرد، و تحليل موقعيت كمك خواهد كرد تا امكانات و شرائط موجود شناسايي شده و بر آن اساس گامهاي بعدي مثلا تهيه ابزار سنجش با واقع بيني صورت گيرد.


تعيين اهداف: سوالاتي از قبيل منظور از اجراي سنجش چيست؟ چگونه نتايجي مورد انتظار است؟ و ... اهداف كلي و جزئي سنجش را تعيين مي‌كنند. تعيين اهداف داراي اهميت زيادي است و به ويژه براي انتخاب و توليد ابزار سنجش بسيار مهم است.


انتخاب و توليد ابزار اندازه گيري: غالبا براي جمع آوري اطلاعات ضروري وسايل يا ابزارهايي مورد نيازند. در صورت موجود بودن وسايل بايد به بررسي و انتخاب مناسبترين آنها اقدام كرد. اگر وسايل مورد نياز موجود نباشند آنگاه بايد آنها را تهيه كرد. تهيه و توليد اين وسايل به دقت ، تخصص و صلاحيت نياز دارد. در هر حال نوع ابزار براي توليد و چه براي انتخاب از ميان ابزارهاي موجود بايد روشن باشد.


نوع ابزار مورد استفاده ممكن است يك آزمون باشد يا روشهاي ديگري چون مصاحبه ، مشاهده بر اين اساس استفاده از آزمون ، مصاحبه ، مشاهده سر ابزار اساسي براي جمع آوري اطلاعات در سنجش و اندازه گيري هستند. استفاده از ابزارهاي داراي روايي پاياني بسيار ضروريست. تعيين رواي با توجه به نوع روايي مورد نظر مثلا روايي محتوايي روايي صوري ، روايي ملاكي ، روايي پيش بيني و ... صورت مي‌گيرد. براي تعيين پاياني نيز از روشهاي بازآزمايي ، تنصيف ، فرمهاي موازي و يا روشهاي آماري مثل آلفاي كروبناخ و ... استفاده مي‌شود.

مرحله اجراي سنجش و اصول مربوط به آن


شرايط اجراي سنجش بستگي به اهداف سنجش دارد كه در مرحله طراحي مشخص مي‌شوند. هر چند ممكن است برخي اهداف نيازي به شرايط و موقعيت مشخص نداشته باشند. مثلا در محل كار فرد آزمودني اجرا شوند، با اين حال رعايت نكاتي كه پاسخگويي و ارائه اطلاعات مفيدتر را ميسر مي‌سازد ضروري است. بطور كلي شرايط اجراي سنجش بايد به گونه‌اي باشد كه از هر لحاظ آسايش جسمي و فكري افراد مورد سنجش را تامين نمايد. اين نكته در رابطه با آزمون شوندگان خردسال با دقت بيشتري رعايت مي‌شود.


علاوه بر شرايط فيزيكي مثل نور ، صوت ، سرما و گرما و ... شرايط رواني افراد مورد سنجش نيز بر عملكرد آنان تاثير دارد. مهمترين اين عوامل اضطراب است كه با اتخاذ تدابيري در مرحله طراحي و اجراي آنها مرحله سنجش بايد، به حداقل برسند. بطور كلي در اين مرحله با سوالاتي از قبيل سروكار داريم كه چگونه آن را انجام مي‌دهيم. روشن است پاسخگويي به اين سوال جوانب مختلف فيزيكي ، زماني و ... را در بر مي‌گيرد. 

مرحله بررسي فرآورده‌ها و اصول مربوط به آن


بعد از تهيه و اجراي فرآيند سنجش براي تفسير و معني دادن به نتايج و مورد استفاده قرار دادن آنها معلوم لازم است كه درباره اطلاعات جمع آوري شده اقداماتي انجام دهيم. در اين مرحله عمدتا نياز به استفاده از روشهاي آماري لازم مي‌شود. بر اين اساس آشنايي با اين روشها و استفاده مناسب و درست از آنها از اصول اساسي سنجش به شمار مي‌رود.



آشنايي با مقياسها شامل مقياس اسمي ، نسبي ، ترتيبي و فاصله‌اي و كاربرد آنها.


آشنايي با آمار توصيفي شامل تعريف متغير ، فراواني ، توزيع فراواني ، نمودارها ، شاخصهاي گزينش مركزي شامل ميانه ، ميانگين ، نماد شاخصهاي پراكندگي شامل دامنه تغيير ، واريانس و انحراف معيار و ... .


آشنايي با آمار استنباطي شامل آشنايي با روشهاي همبستگي ، تحليل واريانس ، في دو ، آزمون تي و ... .

كاربرد سنجش در روان شناسي


اصولا فرآيند سنجش و اندازه ‌گيري اهميت ويژه‌اي در حوزه‌هاي مختلف روان شناسي داراست. شايد بتوان گفت روانشناسي تربيتي از حوزه‌هايي است كه سنجش و اندازه گيري نقشي اساسي ايفا مي‌كند. روان شناسي تربيتي به بررسي اصول سنجش و اندازه‌گيري در زمينه آموزش و پرورش مي‌پردازد. شناسائي اين اصول و كاربرد دقيق آن از مراحل سه گانه اساسي فرآيند آموزش و تدريس به شمار مي‌رود. سه مرحله آموزش كلاسي عبارت است از مراحل پيش از آموزش ، حين آموزش و پس از آموزش.


بخش عمده مرحله پس از آموزش و بخشهايي از مراحل اول و دوم به فرآيند سنجش اختصاصي مي‌يابد. با استفاده از اين فرآيند و با كاربرد اصول آن، معلم يا روان شناسي تربيتي به بررسي رفتارهاي ورودي آغازين براي شروع آموزش ، تغييرات رفتاري در حين آموزش كه حاكي از وجود يادگيري است و نتايج حاصل از يادگيري و ارزشيابي اثر بخشي يادگيري مي‌پردازد. روان شناسان باليني و ساير حوزه‌ها نيز براي سنجش علائم باليني ، ويژگيهاي شخصيتي ، تغييرات رشدي ، تفاوتهاي فردي اصول سنجش را مورد استفاده قرار مي‌دهند.

معرفي يك كتاب

فهرست مطالب

فصل اول: سابقه تاريخي سنجش و انداز هگيري و روا نسنجي...................................................................... 1

عوامل مؤثر در كشف و گسترش رو شهاي انداز هگيري:

-1 پيدايش روان شناسي تجربي .......................................................................................................................... 2

-2 مطالعه تفاوت هاي فردي................................................................................................................................ 3

-3 مطالعه باليني افراد غيرعادي ......................................................................................................................... 3

فرازهائي از اقدامات مربوط به تاريخچه شكل گيري روان سنجي و سنجش و انداز هگيري.......................... 4

9..................................................................................................................................................... ( خودآزمائي ( 1

فصل دوم: اندازه گيري و ارزشيابي در آموزش و پرورش............................................................................ 19

ارزشيابي چيست؟.............................................................................................................................................. 20

مراحل اندازه گيري.............................................................................................................................................. 21

فلسفه ارزشيابي ................................................................................................................................................. 24

26................................................................................................................................................... ( خودآزمائي ( 2

فصل سوم: امتحان ................................................................................................................................................ 41

-1 مفهوم امتحان................................................................................................................................................ 41

-2 انواع امتحان و موارد كاربردي آنها............................................................................................................ 41

-3 هدف هاي امتحان .......................................................................................................................................... 45

-4 مراحل انجام امتحان..................................................................................................................................... 47

-5 طرح ريزي امتحان......................................................................................................................................... 47

-5-1 مراحل طرح ريزي امتحان......................................................................................................................... 48

-5-1-1 تهيه فهرستي از هدفهاي رفتاري درس............................................................................................. 48

طبقه بندي و تحليل هدف هاي آموزشي در حيطه يادگيري ............................................................................. 51

سطوح يادگيري در حيطه شناختي.................................................................................................................... 51

سطوح يادگيري در حيطه عاطفي....................................................................................................................... 54

سطوح يادگيري در حيطه رواني – حركتي ...................................................................................................... 56

-5-1-2 تهيه فهرستي از محتواي درس.......................................................................................................... 59

-5-1-3 تهيه جدول دوبعدي مشخصات سؤالهاي امتحان............................................................................ 59

62.................................................................................................................................................. ( خودآزمائي ( 3

فصل چهارم: تهيه پرس شهاي امتحان ................................................................................................................ 79

-1 پرسش هاي عيني .......................................................................................................................................... 79

انواع پرسش هاي عيني ....................................................................................................................................... 79

الف) يادآوري..................................................................................................................................................... 79

ب) تشخيص و يا شناسايي.............................................................................................................................. 80

-1-1 پرسش هاي چند گزينه اي و اصول تهيه آنها......................................................................................... 80

اصول تهيه پرسش هاي چند گزينه اي............................................................................................................... 81

-1-2 پرسش هاي صحيح – غلط (متناوب پاسخ) ........................................................................................... 87

-1-3 پرس شهاي جور كردني.......................................................................................................................... 88

نكات مورد توجه در تهيه سؤال هاي جوركردني............................................................................................ 89

-1-4 پرسش هاي كامل كردني.......................................................................................................................... 90

نكات مورد توجه در نوشتن پرسش هاي كامل كردني................................................................................... 90

-1-5 پرسش هاي كوتاه پاسخ .......................................................................................................................... 91

نمونه هائي از سؤال هاي محدود پاسخ.............................................................................................................. 91

-2 پرسش هاي انشائي...................................................................................................................................... 94

مقايسه سؤال هاي عيني و انشائي (مزايا و محدوديت ها)............................................................................... 96

99 ................................................................................................................................................... ( خودآزمائي ( 4

فصل پنجم: اجراي امتحان ................................................................................................................................. 115

-1 تنظيم پرسش هاي آزمون.......................................................................................................................... 115

-2 اجراي آزمون............................................................................................................................................. 117

-3 تصحيح و نمره گذاري پرسش هاي آزمون............................................................................................... 119

-3-1 تصحيح و نمره گذاري سؤال هاي عيني................................................................................................ 119

-3-2 تصيح و نمره گذاري پرسش هاي انشائي............................................................................................. 122

كاربرد نمرات ................................................................................................................................................... 124

-4 تجزيه و تحليل نتايج امتحان و استفاده از آن در كشف نارسائ يهاي دانش آموزان ......................... 126

131................................................................................................................................................. ( خودآزمائي ( 5

فصل ششم: آزمون و انواع آن........................................................................................................................... 143

-1 طبقه بندي آزمون ها.................................................................................................................................... 144

-1-1 انواع آزمون ها از نظر طرز اجرا........................................................................................................... 144

- آزمون هاي فردي.......................................................................................................................................... 144

- آزمون هاي گروهي....................................................................................................................................... 144

-1-2 انواع آزمون ها از نظر دقت ساخت....................................................................................................... 145

آزمون استاندارد شده (تراز شده).................................................................................................................. 145

-1-3 انواع آزمون ها از نظر شكل و فرم....................................................................................................... 145

-1-4 آزمون هاي سرعت و آزمون هاي قدرت.............................................................................................. 145

-1-5 انواع آزمون ها از نظر استفاده از كلام................................................................................................ 146

-1-6 آزمون هاي ملاك مرجع و آزمون هاي گروه مرجع........................................................................... 146

-1-7 آزمون هاي وابسته به فرهنگ در برابر آزمون هاي نابسته با فرهنگ............................................. 147

-1-8 آزمون هاي عيني و آزمون هاي ذهني.................................................................................................. 147

-1-9 انواع آزمون ها از نظر موضوع ............................................................................................................ 147

مهارت هاي ذهني مورد اندازه گيري به وسيله آزمون پيشرفت تحصيلي.................................................. 147

-1-10 انواع آزمون ها از نظر درجه كمي شدن متغير مورد مطالعه ......................................................... 150

-2 فرضيه هاي اساسي سنجش يا ارزشيابي................................................................................................ 151

153 ............................................................................................................................................... ( خودآزمائي ( 6

فصل هفتم: تجزيه و تحليل پرس شهاي آزمون............................................................................................. 169

مراحل تجزيه و تحليل سؤال هاي آزمون ...................................................................................................... 169

-1 مراحل تجزيه و تحليل پرسش هاي عيني................................................................................................. 170

-2 بررسي سطح دشواري سؤال هاي آزمون .............................................................................................. 177

اصلاح سطح دشواري سؤال ها براي حذف عامل حدس و گمان................................................................ 188

-3 محاسبه شاخص هاي آماري مربوط به آزمون...................................................................................... 179

-4 تجزيه و تحليل گزينه ها در پرسش هاي چند گزينه اي............................................................................ 181

-5 تجزيه و تحليل پرسش هاي انشائي .......................................................................................................... 183

-6 ساير روش هاي تجزيه و تحليل سؤال هاي آزمون................................................................................. 184

-6-1 ضريب همبستگي دورشته اي نقطه اي..........................................................................................................

-6-2 ضريب همبستگي دورشته اي.......................................................................................................................

-6-3 روائي سؤال هاي آزمون ....................................................................................................................... 188

-6-4 ضريب فاي ( ) ................................................................................................................................. 190

193..................................................................................................... (rt ) -6-5 ضريب همبستگي تتراكوريك

منحني خصيصه سؤال ................................................................................................................................... 195

تجزيه و تحليل پرسش هاي آزمون................................................................................................................. 196

نظريه سؤال – پاسخ....................................................................................................................................... 199

ارزشيابي انواع مختلف همبستگي ها در تجزيه و تحيل سؤال ها................................................................. 201

205 ................................................................................................................................................ ( خودآزمائي ( 7

فصل هشتم: روائي آزمون................................................................................................................................ 227

-1 تعريف روائي ............................................................................................................................................. 227

-2 شواهد روائي آزمون ................................................................................................................................ 228

-3 انواع روائي................................................................................................................................................. 229

-3-1 روائي وابسته به محتوا......................................................................................................................... 229

-3-2 روائي وابسته به ملاك.......................................................................................................................... 231

-3-2-1 روائي پيش بيني ................................................................................................................................ 232

-3-2-2 روائي همزمان .................................................................................................................................. 232

الف) روائي تقارني........................................................................................................................................... 233

ب) روائي توافقي.............................................................................................................................................. 233

-3-2-3 معيار يا ضابطه................................................................................................................................ 233

خصوصيات معيار (همان منبع) ...................................................................................................................... 234

-3-2-4 ضريب روائي ملاكي......................................................................................................................... 235

-3-2-5 پيش بيني متغير ملاك براساس نمره آزمون.................................................................................. 236

-3-2-6 عوامل مؤثر بر ضريب روائي ملاكي.....................................................................................................

-3-3 روائي سازه (روائي مفهومي) ............................................................................................................... 238

243.................................................................................................................................................( خودآزمائي ( 8

فصل نهم: اعتبار آزمون..................................................................................................................................... 259

-1 مفهوم نظري اعتبار آزمون........................................................................................................................ 260

-2 تعريف اعتبار.............................................................................................................................................. 260

-3 منابع خطاي اندازه گيري آزمون................................................................................................................ 261

-3-1 روش هاي اعتباريابي در نمونه گيري زماني........................................................................................ 261

-3-1-1 روش بازآزمائي............................................................................................................................... 262

-3-1-2 اعتبار آزمون هاي همتا ..................................................................................................................... 264

-3-2 روش هاي اعتباريابي در نمونه گيري حيطه......................................................................................... 265

-3-2-1 روش دو نيمه كردن.......................................................................................................................... 266

-3-2-2 روش كودر ريچارد سون................................................................................................................ 267

268.............................................................(KR الف) استفاده از فرمول شماره 20 كودر – ريچاردسون ( 20

ب) استفاده از فرمول شماره 21 كودر – ريچاردسون ............................................................................... 268

-3-2-3 روش كاپلان ............................................................................................................................................

-3-2-4 روش آلفاي كرونباخ...............................................................................................................................

-4 اعتبار نمره گذاري يا درجه بندي................................................................................................................ 271

-5 اعتبار آزمون هاي ملاك مرجع.................................................................................................................. 271

-6 روش هاي افزايش ضريب اعتبار آزمون.................................................................................................. 272

-7 خطاي معيار اندازه گيري........................................................................................................................... 274

-8 برآورد نمره واقعي آزمودني با استفاده از خطاي معيار اندازه گيري.................................................. 275

-9 ضريب اعتبار بهينه ................................................................................................................................... 276

-10 رابطه روائي و اعتبار آزمون.................................................................................................................. 277

-11 عملي بودن آزمون.................................................................................................................................. 277

279................................................................................................................................................ ( خودآزمائي ( 9

فصل دهم: نرم يا هنجار.................................................................................................................................... 303

-1 تعريف نرم ................................................................................................................................................. 303

-2 مشخصات مطلوب نرم ها........................................................................................................................... 304

-3 انواع نرم..................................................................................................................................................... 304

-3-1 انواع نرم از نظر وسعت جامعه هدف.................................................................................................. 305

-3-2 انواع نرم از نظر نوع گروه نرم............................................................................................................ 305

محدوديت هاي نرم هاي سني و كلاسي .......................................................................................................... 308

-3-3 نرم هاي بهنجار شده ............................................................................................................................. 312

-3-3-1 نمره هاي انحراف معيار.................................................................................................................... 312

-3-3-2 نمره معيار تراز شده........................................................................................................................ 312

312...............................................................................................................................................T -3-3-3 نمره

313......................................................................................................................................CEEB -3-3-4 نمره

-3-3-5 معادل هاي هوشبهر.......................................................................................................................... 313

-3-3-6 نمره هاي نه بخشي........................................................................................................................... 314

-4 نيمرخ رواني............................................................................................................................................... 316

-5 مراحل تهيه آزمون استاندارد شده .......................................................................................................... 319

322............................................................................................................................................. ( خودآزمائي ( 10

فصل يازدهم: آزمون هاي هوشي...................................................................................................................... 335

الف) آزمون هاي فردي هوش.......................................................................................................................... 335

-1 آزمون هاي هوشي بينه............................................................................................................................. 335

-2 آزمون هاي استنفرد بينه........................................................................................................................... 336

336 ....................................................................................................................... مقياس استنفرد بينه فرم 1937

338....................................................................................................................... مقياس استنفرد بينه فرم 1960

-3 مقياس هاي هوشي وكسلر......................................................................................................................... 341

342 ..................................................................................... (WAIS-R) مقياس هوش وكسلر براي بزرگسالان

344 ...............................................................................................Wisc-R مقياس هوشي وكسلر براي كودكان

345 .................................................................Wppsi مقياس هوشي وكسلر براي كودكان پيش آموزشگاهي

ب) آزمون هاي گروهي هوش.......................................................................................................................... 345

-1 آزمون ارتشي طبقه بندي شده آلفا و بتا .................................................................................................. 345

-2 آزمون نابسته با فرهنگ ريون.................................................................................................................. 347

-3 آزمون نابسته به فرهنگ كتل .................................................................................................................... 348

فصل دوازدهم: آزمون هاي شخصيت............................................................................................................... 349

-1 پرسش نامه ها يا آزمون هاي عيني شخصيت........................................................................................... 349

351.............................................................................................................................................MMpi تراز جديد

-2 آزمون هاي شخصيتي فرافكن ................................................................................................................... 357

الف) آزمون ررشاخ......................................................................................................................................... 358

مشخصات روان سنجي آزمون ررشاخ.......................................................................................................... 359

361........................................................................................................... (T.A.T) ب) آزمون اندريافت موضوع

362...........................................................................................................T.A.T مشخصات روان سنجي آزمون

363................................................................................................. سؤال هاي كنكور كارشناسي ارشد سال 1388

جداول آماري........................................................................................................................................................ 370

منابع ....................................................................................................................................................................... 378

١

فصل اول

سابقه تاريخي سنجش و اندازه گيري و روان سنجي

امر استفاده از سنجش و اندازه گيري در زندگي روزمره انسان سابقه اي بس طولاني

و مهم دارد . انسان هاي اوليه در مراسم گوناگون از قبيل جشن ها و مسابقات به منظور

مقايسه توانائي و قابليت افراد و قضاوت د ر مورد آنان (مثلاً قدرت بدني، مهارت و

خبرگي اشخاص ) به صورتي بسيار ابتدائي و ذهني در كلام و رفتار خود از مفاهيم

اندازه گيري و ارزشيابي بهره مند مي ش دند. اين اقدامات مشخص كننده وضع كلي

اندازه گيري و سنجش تا اوائل قرن بيستم در ارتباط با زندگي بشر است.

عده اي از روان شناسان معتقدند كه ارزشيابي براي اولين بار در كشور چين حدود

3000 سال پيش انجام گرفته است و برخي نيز ظهور ارزشيابي را به سال 165 پيش از

ميلاد نسبت مي دهند و معتقدند كه در اين زمان افراد را تحت آزمايش قرار م ي دادند و به

مشاغل مختلف مي گماشتند. در قرون وسطي ارزشيابي استعدادها در بيشتر دانشگا ه هاي

اروپا رواج مي يابد. كريستيان ون ولف در 1732 رشته رياضي روان شناسي را تحت

عنوان روان سنجي داير مي كند.

ويلهم وندت روان شناس آلماني اولين كسي است كه پيش از همه به روان سنجي

علاقمند شده است . او در سال 1879 اولين آزم ايشگاه روان شناسي را در شهر لايپزي ك

آلمان تأسيس كرد و سپس اين نهضت در تمام دنيا گسترش يافت.

به موازات اين اقدام، روش هاي مشاهده و كنترل دقيق تر مي شوند و وندت پديده هاي

مورد مطالعه را با وسايل و روش هاي دقيق كنترل مي كند و از آن پس روان شناسان

١٩

فصل دوم

اندازه گيري و ارزشيابي در آموزش و پرورش

نقش اصلي معلم در فرآيند آموزش و پرورش فراهم ساختن شرايط و امكانات

مناسب آموزش ي و پرورش ي و هدايت يادگيري دانش آموزان به منظور كمك به رشد و

تكامل همه جانبه آنان است . معلم به همين منظور بايد هر يك از دانش آموزان را بخوبي

بشناسد.

شناخت دانش آموزان عبارت از كسب آگاهي هاي لازم در مورد جنبه هاي مختلف

رفتار و ويژگي هاي آنان است . يعني معلم بايد از ويژگي هاي جسماني، رواني، اجتماعي و

عاطفي و همچنين علائق و توانائي ها و نارسائي هاي هر يك از دانش آموزان و رابطه اين

ويژگي ها با هم و تأثير آنها در رفتار به خوبي آگاه باشد . شاخت دانش آموزان مستلزم

جمع آوري و تحليل اطلاعات لازم در مورد آنان براساس اصول و روش هاي علمي است .

به دست آوردن اطلاعات لازم در مورد هر فرد را بر مبناي رو ش هاي علمي

1 مي نامند. 2 « اندازه گيري »

اطلاعات حاصل از اندازه گيري ممكن است به صورت ك مي (عددي) و يا به صورت

اندازه گيري عبارت است از » توصيف (كيفي) باشد. كه در صورت كمي مي توان گفت

اختصاص دادن اعداد به مقادير مختلفي از صفات برحسب قواعد معين كه صحت آنها را

مي توان از راه آزمايش بررسي كرد . 3 و يا مي توان گفت اندازه گيري يعني فرآيند منظم

1 - Measurement

-2 نقل از كتاب اصول روان سنجي تأليف دكتر حسن پاشاشريفي

-3 نقل از كتاب مباني آزمون هاي رواني، تأليف مگنوسون، ترجمه محمدتقي براهني

٤١

فصل سوم

امتحان

-1 مفهوم امتحان:

امتحان حالت خاصي از ارزشيابي است كه ناظر بر سنجش آموخته هاي دانش آموزان

است. به مفهوم علمي امتحان عبارت است از تعيين ميزان تغييرات حاصل در جنبه هاي

خاصي از رفتار شاگرد در فواصل زماني معين در جهت نيل به هدف هاي آموزشي و

پرورشي (اصول روانسنجي، شريفي)

امتحان يا ارزشيابي يكي از عناصر مهم فرايند آموزش و پرورش است كه اطلاعات

مفيدي را براي تعيين سطح كارآئي و بهبود شرايط آموزش ي فراهم مي سازد . علاوه بر

اين، امتحان نقش ناظر بر ساي ر عناصر آموزش و پرورش از قبيل : هد ف هاي آموزشي،

برنامه هاي درسي، روش هاي تدريس، امكانات، تجهيزات و عوامل انساني و غير انساني

را بر عهده دارد.

-2 انواع امتحان و موارد كاربردي آنها:

امتحان را از دو ديدگاه مي توان طبقه بندي كرد . از نظر هدف و از نظر ماهيت موضوع

يادگيري

الف) انواع امتحان از نظر هدف

برحسب هدفي كه معلم ازانجام امتحان دارد، م يتوان آن را به چهار نوع تقسيم كرد:

- امتحان ورودي (تشخيصي) كه در ابتداي هر دوره آموزشي به منظور تعيين

معلومات و رفتار ورودي و سنجش آمادگي دانش آموز ان براي يادگيري درس جديد

براساس محتواي آموزشي پيش نياز آن درس به عمل مي آيد.

79

فصل چهارم

تهيه پرسش هاي امتحان

پس از تهيه جدول دو بعدي مشخصات سوال ها مي توان به نوشتن پرس ش هاي

امتحان پرداخت مجموعه پرسش هائي را كه تمامي اهداف و محتواي مطرح شده در يك

جدول دو بعدي را شامل مي شوند آزمون مي نامند. پرسش هاي آزمون را به طور كلي به

دو صورت عيني و انشائي م يتوان نوشت.

از آنجا كه هر پرسش بايد از يك سو با هدف و از سوي ديگر با محتواي خاصي كه

در جدول دو بعدي مطرح شده هماهنگ باشد، بنابراين تعيين نوع پرسش با چگونگي

برآيند يادگيري مورد نظر در جدول بستگي پيدا مي كند . اينك به توضيح پرس ش هاي

عيني و انشائي، اصول تهيه و موارد كاربردي هر كدام به تفكيك م يپردازيم.

-1 پرسش هاي عيني

پرسش عيني به سوالي گفته مي شود كه اولاً نمره گذاري آن مستقل از نظر شخصي

و قضاوت ذهني ارزشياب باشد . يعني تصحيح كنندگان مختلف به آن نمره مساوي

بدهند. ثانياً در اين گونه از پرسش ها معمولاً آزمايش شونده خود پاسخ سوال را تهيه

نمي كند، بلكه از بين پاسخ هاي داده شده پاسخ درست را پيدا كرده و مشخص م يكند.

انواع پرسش هاي عيني

پرسش هاي عيني بطور كلي يا از نوع يادآوري هستند و يا از نوع تشخيص و

شناسائي.

الف) يادآوري: در اين نوع، پاسخ دهنده جواب سوال را از ميان آموخته هاي قبلي

خود پيدا كرده و مشخص مي سازد. پرسش هاي يادآوري نيز به دو دسته يادآوري ساده

و جملات تكميلي تقسيم مي شوند. يادآوري ساده سوالي است كه احتياج به پاسخ كوتاهي

١١٥

فصل پنجم

اجراي امتحان

سوال هاي آزمون پس از تهيه براساس بودجه بندي جدول دو بعدي، مورد بررسي و

بازبيني قرار مي گيرند. اجراي اين مهم در جهت پاسخگوئي به پرس ش هاي زير انجام

مي گيرد:

الف) آيا هر سوال يكي از هدف هاي مهم درس را كه در جدول دو بعدي پيش بيني

شده است اندازه مي گيرد؟

ب) آيا هر سوال داراي يك پاسخ درست و مشخص است و گزينه هاي انحرافي ضمن

اينكه پاسخ كليد نيستند به ظاهر موجه و منطقي جلوه مي كنند؟

ج) آيا هر سوال كاملاً روشن و دور از ابهام تهيه شده است؟

د) آيا نوع پرسش تهيه شده براي اندازه گيري برآيند مورد نظر مناسب است؟

ه) آيا تمام اصول و نكات لازم در تهيه پرس شها رعايت شده است؟

د) آيا پاسخ درست هيچ پرسشي مستقيماً و يا ضمني در پرسش هاي ديگر قابل

استنباط نيست؟

ز) آيا هر پرسشي مستقل از پرس شهاي ديگر است؟

ح) آيا مجموعه پرسش هاي تهيه شده تمامي قسمت هاي جد ول دو بعدي را در بر

مي گيرد؟

-1 تنظيم پرسش هاي آزمون

پس از آنكه پرسش هاي تهيه شده با توجه به موارد مذكور مورد بازبيني و بررسي

قرار گرفت، تهيه كننده اقدام به تنظيم و مرتب كردن آنها طي مراحل زير م ينمايد:

143

فصل ششم

آزمون و انواع آن

همانطوري كه در ابتداي فصل ( 4) اشاره شد مجموعه پرسش هائي را كه تمامي

1« آزمون » اهداف و محتواي مطرح شده در يك جدول دو بعدي را در بر مي گيرند

مي نامند.

آزمون عبارت يك وسيله عيني 2 و محاسبه شده اي 3 است كه براي اندازه گيري

نمونه اي از حالات و رفتار معين فر د بكار مي رود. منظور از عيني بودن آن است كه

وسيله سنجش مشخص و قطعي بوده و در همه حال نتيجه اندازه گيري آن تابع نظر

شخص و طرز قضاوت ارزشياب قرار نگيرد . منظور از محاسبه شده يا استاندارد آن

است كه قبلاً در بوته تجربيات و محاسبات لازم گداخته شده و شرايط و خصوصياتي را

كه هر قسمت بايد دارا باشد در خود جمع داشته باشد . اين خصوصيات عبارتند از :

روائي 4، اعتبار 5 و نرم يا هنجار 6 كه در مورد اين خصوصيات در فصل هاي بعدي كتاب

به طور مشروح سخن خواهيم گفت.

از آنجا كه با هيچ وسيله اي نمي توان همه استعد ادها، معلومات، رغبت ها و بطور كلي

از رفتار و « نمونه اي » خصوصيات فرد را اندازه گيري كرد، بنابراين هر آزمون فقط

حالات فرد را اندازه مي گيرد و براي اندازه گيري همه حالات و رفتار فرد بايد از ابزارها و

. آزمون ها و معيارهاي مختلف استفاده نمود 7

1 -Test

2 -Objective

3 -Standardized

4 -Validity

5 -Reliability

6 -Norm

7 - نقل از كتاب اصول علمي تهيه، اجرا و استاندارد كردن تست، يوسف اردبيلي 1348

١٦٩

فصل هفتم

تجزيه و تحليل پرسش هاي آزمون

تجزيه و تحليل آماري پاسخ هائي كه به سوال هاي امتحان داده شده است نشان

مي دهد كه هر يك از سوال ها و بطور كلي امتحان تا چه اندازه با هد ف هاي مورد نظر

مطابقت داشته است.

اگر هدف آزمايش اندازه گيري پيشرفت نسبي دانش آ موزان، يعني مقايسه پيشرفت

آنان با يكديگر (آزمون گروه مرجع ) باشد در اين صورت سوال هاي امتحان بايد نتايج

آماري معيني را كه شرح داده مي شود در بر داشته باشد و تهيه كننده سوال هاي امتحان

نيز بايد سوال ها را به گونه اي بنويسد كه نتايج مورد نظر از آن به دست آيد . از سوي

ديگر اگر هدف امتحان، اندازه گيري پيشرفت دانش آموزان براساس معيارهاي معلم يعني

تعيين ميزان آموخته هاي دانش آموزان باشد، در اين صورت سوال هاي امتحان بايد

طوري نوشته شود كه ميزان نيل به هدف هاي معلم سنجيده شود (آزمون ملاك مرجع ).

لذا آن دسته از خصائص آماري مورد نظر خواهد بود كه منعكس كننده هدف هاي تعليم

باشند نه اندازه گيري پيشرفت نسبي دانش آموزان و مقايسه آنان با يكديگر . از آنجا كه

تاكيد بر ملاك نسبي در اندازه گيري پيشرفت تحصيلي از دير زماني مورد توجه تهيه

كننده و ناشران آزمون ها بوده است، بنابراين به بيان مراحل و نحوة تجزيه و تحليل

سوال ها در آزمون هائي كه براي اندازه گيري پيشرفت نسبي دانش آموزان به كار

مي روند مي پردازيم.

مراحل تجزيه و تحليل سوا لهاي آزمون

از آنجا كه مراحل تجزيه و تحليل سوال هاي عيني و انشائي در مواردي با هم متفاوت

است به همين جهت آنها را در دو بخش جداگانه مورد بررسي قرار مي دهيم.

٢٢٧

فصل هشتم

روائي 1 آزمون

-1 تعريف روائي

اولين و مهم ترين سوالي كه بايد در مورد هر وسيله و ابزار اندازه گيري بشود،

مربوط به مقدار روائي آن است . منظور از اين سوال آن است كه معلوم شود آيا وسيله

يا ابزار آنچه را كه مورد نظر است و تمام آنچه را مورد نظر است و فقط آنچه را مورد

نظر است اندازه گيري مي كند يا نه ؟ به عبارت ديگر آيا اين وسيله اندازه گيري حقيقتاً

صفتي را كه براي اندازه گيري آن ساخته شده است مي سنجد يا خير؟

روائي عبارت است از توافق بين نمره هاي آزمون با ويژگي يا صفتي كه آزمون براي

اندازه گيري آن ساخ ته شده است (گاپلان و ساكوز 1989 )، يعني اين كه آزمون بايد

چيزي را اندازه بگيرد كه براي اندازه گيري آن ساخته شده است . به بيان ديگر روائي

يعني ميزان كارآئي آزمون براي انداز هگيري خصيصه مورد نظر.

روائي مهم ترين ويژگي يك آزمون به حساب مي آيد و مقصود از آن مناسب بودن، با

معنا بودن و مفيد بودن استنبا ط هائي است كه از روي نمره آزمون به عمل م يآيد . براي

تاييد اين گونه استنباط ها، لازم است شواهدي جمع آوري شود كه در فرهنگ روانشناسي

ناميده مي شود. « رواسازي آزمون »

1 -Validity

259

فصل نهم

اعتبار آزمون

از نتايج اندازه گيري با وسايل سنجش وقتي مي توان عملاً استفاده كرد كه اين وسايل

شرايط بخصوصي را دارا باشند . نخست اينكه وسيله اندازه گيري بخصوصي كه در

شرايط خاصي و به منظور خاصي به كار مي رود بايد حقيقتاً صفت مورد اندازه گيري را

بسنجد (داراي روائي باشد ). ثانياً نتيجه اصل از اندازه گيري بايد اعتبار داشته باشد . يعني

اگر شي يا شخص مورد نظر را در تحت شرايط مشابهي مجدداً آزمايش كنيم، نتيجه

مشابهي به دست آيد . بنابراين داده هاي حاصل از اندازه گيري بايد از دو لحاظ قابل

اطمينان باشند. اولاً معناي مشخصي داشته باشند و ثانياً بازيافتني 1 باشند.

-1 مفهوم نظري اعتبار 2 آزمون

از نظر تئوري مي توان اعتبار را به عنوان اندازه اي براي تعيين تفاوت بين نمره هاي

مشاهده شده 3 و نمره هاي واقعي 4 دانست . منظور از نمره مشاهده شده نمره اي است كه

دانش آموز عملاً در نتيجه گذراندن آزمون به دست مي آورد و مراد از نمره واقعي

نمره اي است كه دانش آموز در نتيجه گذراندن آزموني به دست مي آورد كه از هر نوع

خطاي اندازه گيري به دور باشد. همچنين مي توان گفت نمره مشاهده شده نمر ه اي است

كه دانش آموز از گذراندن يك آزمون منتخب از ميان آزمون هاي ممكن بي شمار گرفته

است. اما نمره واقعي ميانگين نمراتي است كه با گذراندن تعداد بي شماري از آزمون هاي

1 -Reproducible

2 -Reliability

3 -Observed Score

4 -True Score

303

فصل دهم

نرم يا هنجار

-1 تعريف نرم

به معيار و مقياس محاسبه شده 1 و متحد الشكل يا همترازي 2 كه براي سنجش و

مقايسه بكار مي رود، نرم 3 گويند . نرم مقياس و ميزاني است كه از كار يا بازده كار و يا

از قوا و معلومات و استعدادهاي يك گروه نمونه طبيعي به دست آمده ا ست و مقدار كار،

يا بازده كار و توانائي و معلومات افراد ديگر را مي توان با آن سنجيد، تا معلوم شود

شخص در يك جنبه خاص رواني و يا بدني، هنگام مقايسه با افراد متجانس و مشابه

خود در چه وضعي و يا در چه جائي قرار مي گيرد. (اردبيلي، اصول علمي تهيه، اجرا، و

استاندارد كردن تست).

به بيان ديگر نرم يا هنجار عبارت است از متوسط عملكرد گروه نمونه اي از

آزمودني ها كه به روش تصادفي از يك جامعه معين انتخاب مي شوند . نرم آزمون هاي

استاندارد شده براساس توزيع نمره هاي خام گروه نمونه اي از آزمودني ها به دست

مي آيد كه ميانگين و نق طه 50 درصدي (ميانه) نمونه هائي از متوسط عملكرد گروه و به

عبارت ديگر نرم يا هنجار گروه است.

در آزمون هاي گروه مرجع، نرم يا هنجار مقياس محاسبه شده اي است كه نمره خام

آزمودني با آن مقايسه مي شود تا عملكرد وي نسبت به متوسط عملكرد گروه مورد

ارزشيابي قرار گيرد (شريفي: اصول روان سنجي و روان آزمائي)

1 -Standardized

2 -Uniform

3 -Norm

335

فصل يازدهم

آزمون هاي هوشي

الف) آزمون هاي فردي هوش

-1 آزمون هاي هوشي بينه

اين آزمون ها كه از مقياس مشهور بينه سيمون مشتق شده و مورد تجديد نظر قرار

گرفته اند، چون از آزمون هاي كلامي و غير كلامي تشكيل شده اند، مي توان آنها را

مقياس هاي مختلط دانست . نخستين فرم آنها در 1905 در فرانسه استاندارد شد . بينه

آزمون هوش خود را بر اساس دو اصل تدوين كرد : ( 1) تعريف سن ( 2) مفهوم توانائي

كلي ذهني

منظور بينه از اصل اول اين بود كه توانائ ي هاي عقلي كودكان مسن تر بيشتر از

كودكان خردسال تر است بر اين اساس، تكاليفي را كه ح دود 3

2

تا

4

3

كودكان گروه سني

معين از عهده انجام آن بر مي آمدند، ولي كودكان خردسا ل تر كمتر و كودكان بزرگتر

بيشتر از اين نسبت مي توانستند آن را انجام دهند براي گروه مورد نظر مناسب

مي دانستند در اجراي اصل دوم بينه توج ه خود را به اندازه گيري هوش (توانائي هاي كلي

ذهني) معطوف داشت و از اندازه گيري عناصر تشكيل دهنده هوش صرف نظر كرد .

بنابراين هر تكليفي كه با كل توانائي مورد اندازه گيري او همبستگي داشت در محتواي

آزمون قرار گرفت . بدين ترتيب نخستين فرم آزمون هوشي بينه از 30 سؤ ال (تكليف )

تشكيل و بر اساس مقياس سني درجه بندي شد.

از بين مقياس هاي مربوط به آزمون بينه مواردي از آن را كه در حال حاضر استفاده

مي شوند به اختصار مطالعه مي كنيم.

349

فصل دوازدهم

آزمون هاي شخصيت

طرفداران مكتب صفات شخصيت عقيده دارند كه هر فرد تركيب وحدت يافته اي از

صفات بدني و رواني است . آنان ضمن تاكيد بر تفاوت هاي فردي در صفات شخصيت، به

طبقه بندي افراد بر اساس برخي از صفات مشترك معتقدند . به نظر روان شناسان مكتب

صفات شخصيت، هر چند الگوي صفات شخصيتي هر فرد متمايز از ديگران است، در

بعضي موارد نيز وجوه اشتراك مقايسه پذير بين افراد وجود دارد، به همين جهت

تفاوت هاي فردي را مي توان به عنوان پراكندگي يا تغيير پذيري تعدادي از صفات و

خصائص اساسي شخصيت آدمي تلقي كرد. (شريفي، اصول روا نسنجي و روان آزمائي).

بعضي ديگر از روان شناسان در سنجش شخصيت آدمي فرضيه فرافكني را مطرح

كرده اند. بر اساس اين فرضيه هنگامي كه شخص يك محرك مبهم را تفسير مي كند تفسير

وي از اين محرك، بازتابي از نيازها، احساسات، انگيزه ها، تجارب زندگي و رفتارهاي

شرطي شده اوست . آزمون هاي شخصيتي فرافكن بر اساس اين نظريه ساخته شده اند .

(همان مرجع)

بنابراين آزمون هاي شخصيت را مي توان به دو طبقه عمده تقسيم كرد : آزمون هاي

عيني شخصيت و آزمو نهاي فرافكن.

-1 پرسش نامه ها يا آزمون هاي عيني شخصيت

آزمون هاي عيني شخصيت به صورت پر سش نامه با پرسش هاي بسته تهيه مي شوند

مشخص مي كند. در تهيه « نه » يا « آري » كه آزمودني پاسخ خود را به سوال ها به صورت

اين پرسش نامه ها فرض بر اين است كه اولاً شخصيت آدمي متشكل از مجموعه صفات يا

خصوصیات یک مقیاس اندازه گیری خوب

خصوصیات یک مقیاس اندازه گیری خوب

 یکی از ویژگیهای متغیر قابلیت اندازه گیری آن است. چنانچه از وزن به عنوان یک   متغیر  نام  ببریم بهترین راه اندازه گیری آن بر اساس کیلوگرم یا گرم می باشد در موردقد هم سانتیمتر یا مترازعهده آن برمی آید.اما در مورد رضایت بیماران از ارائه خدمات یا میزان شنوایی یا ناتوانی و معلولیت از چه ملاک هایی باید استفاده کرد .برای اندازه گیری هر عنصر نیاز به مقیاس اندازه گیری وجود دارد.یک مقیاس خوب باید دارای ویژگیهای زیر باشد:

علمی: بر گرفته ومتناسب با اصول علمی باشد.

جامع:  بتواند تمام موارد متغیررا شامل شود.

مناسب: برای اندازه گیری آن متغیر باشد.

قوی: تلاش شود قویترین مقیاس باشد.

غیر قابل جمع: رده های مشترک نداشته باشد.

رده های کافی: موردی را فراموش نکرده باشیم.

رده های تعریف شده: گروهها و رده های آن تعریف شده باشند.

عملی: قابلیت انجام داشته باشد.

برای ارزشیابی اندازه گیری ها می توان از الگو های دیگری استفاده کرد؛الگویی که مشتمل بر ویژگی های متعددی که ما علاقه مند یم ،اندازه گیری های ما داشته باشد.

تمایز 

مرتب کردن از نظر مقدار 

فاصله های مساوی

صفر مطلق

این چهار ویژگی برای تعیین سطح اندازه گیری اسمی ،رتبه ای ،فاصله ای یا نسبی به کار برده می شود.


اهميت احاطه به آزمون سازي در زمان ساخت يا هنجاريابي به آزمون يا پرسشنامه

امروزه انواع آزمون های روانشناسی و دیگر ابزار سنجش علوم انسانی بصورت گسترده در زمینه های مختلف مورداستفاده قرار می گیرند، از جمله در مدارس، دانشکده ها، صنایع، کلینیک های روانشناسی، سازمان های دولتی و نظامی و غيره. از این رو در تمامي مراكز مهم دنيا روانسنجان و روانشناسان به خدمت گرفته مي شوند، تا ابزاري را براي سنجش اهداف مشخص و از قبل طرح شده، به روش هاي علمي تهيه نمايند.


آزمون ها به عنوان مهمترين ابزار سنجش بطور دقیق برای  سرند کردن متقاضیان مشاغل و پست هاي خدمتي، طبقه بندی و جایگزینی افراد در زمینه های مختلف، مشاوره و راهنمایی( شغلی،آموزشی و تربیتی)، ارتقاء، نگهداری یا اخراج، تشخیص و تجویز درمانهای روانی و داروئی، ارزیابی تغییرات شناختی درون فردی و بین فردی در اثر برنامه  های مداخله ای و اجرای تحقیق در باره رشد فردی در طول زمان و اثر بخشی برنامه مورد استفاده قرار می گیرند. همچنین آزمون ها جهت بررسی بسیاری از حوادث و اتفاقات روانی– اجتماعی به کار می روند(آیکن، 1991). 


اگر چه آزمون ها تصمیمات کاملا درست در باره ا فراد فراهم نمی کنند با این حال آکادمی ملی علوم در یک نشست اختصاصی به این نتیجه رسید که در کل، آزمون ها بهترین، عادلانه ترین و اقتصادی ترین روش بدست آوردن اطلاعات لازم جهت تصمیم گیری های مهم درباره افراد هستند(مورفی و دیوید شوفر، 1991). باتوجه به این که آزمون ها منشا و مقصد چنین تصمیم گیری هایی هستند، لازم است فرآیند سنجش و اندازه گیری با دقت هرچه بیشتر را انجام شوند. بنابراین بسیار مهم است زمانی که قصد استفاده از یک آزمون روانی را داریم خصوصا در اجراي با حجم بالا، تمام فرایند ساخت و هنجاریابی آن را مورد بازبینی قرار دهیم. 

فراخوان اولويت هاي پژوهشي سال 1391 پژوهشکده آمار  

به نظر من بيشتر پژوهشهاي مورد نياز توسط دانشجويان و اساتيد رشته هاي سنجش و اندازه گيري و دانشجويان جمعيت شناسي مي تواند انجام شود

در ادامه ليست اولويت هاي پژوهشي پژوهشكده ي آمار ارائه مي شود. 

باسمه تعالی

فراخوان اولويت هاي پژوهشي سال 1391 پژوهشکده آمار 



روش شناسی

1 روش تهیه تراز غذایی ایران

2 روش‌ پیش‌بینی مقدار تولید محصولات استراتژیک کشاورزی

3 محاسبه شاخص‌های اقتصادی خانوار در مناطق کوچک جغرافیایی با روش‌های برآورد نواحی کوچک

4 بررسی تفاوت‌های بین نظرسنجی با آمارگیری‌های رسمی

5 روش‌های کاهش خطاهای نمونه‌گیری در آمارگیری‌های چرخشی

6 تعدیل فصلی برآوردها در آمارگیری‌های مستمر

7 بررسی و مدل‌بندی خطای اندازه‌گیری در طرح‌های آمارگیری 

8 بررسی کاربرد داده‌کاوی در آمارهای رسمی

9 بررسی روش‌های آمارگیری از جوامع نادر

10 بررسی روش‌های آمارگیری از جوامع پنهان

11 روش برآورد سرمایه‌گذاری به تفکیک بخش‌های عمومی، خصوصی و تعاونی 

12 استفاده از آمارگيري تلفني در طرح‌های آمارگيري 

13 بررسي روش‌هاي برخورد با داده‌هاي دور افتاده در آمارگيري‌ها

14 بررسی سازگاری درونی و بیرونی نتایج آمارگیری‌ها

15 بررسی و تعیین روش جانهی و برآورد اطلاعات کارگاه‌های صنعتی برای جبران بی‌پاسخی

16 استفاده از چارچوب‌های چندگانه در آمارگیری‌ها

17 استفاده از چارچوب‌های ناحیه‌ای در آمارگیری‌ها

18 به‌کارگیری روش‌های نمونه‌گیری جدید در آمارگیری‌های نمونه‌ای با هدف بهبود برآورد

19 به‌کارگیری روش‌های انطباق رکوردها در پیوند دادگان آمارگیری‌ها

20 به‌کارگیری روش‌های هم گروه‌های ساختگی در پیوند دادگان آمارگیری‌ها

21 به‌کارگیری روش‌های چند سطحی در تحلیل نتایج آمارگیری‌ها

22 بررسی روش‌های جانهی واحد در آمارگیری‌ها

23 امکان‌سنجی استفاده از داده‌های فضایی در براوردهای کوچک ناحیه‌ای

24 بهبود دادن کیفیت سیستم گردآوری داده‌ها با استفاده از روش طرح آزمایش‌ها

25 اندازه‌گیری تأثیر عوامل مؤثر بر میزان بی‌پاسخی در آمارگیری‌های خانواری

26 ارائه‌ی براورد و پیش‌بینی جمعیت نیروهای مشمول خدمت نظام وظیفه تا سال ۱۴۰۰

27 جانهی چندگانه‌ی اقلام در آمارگیری‌ها با استفاده از سه رویکرد پارامتری، نیمه‌پارامتری و ناپارامتری

28 بررسی روش‌های ترکیب کردن داده‌های حاصل از آمارگیرهای احتمالی و نااحتمالی

29 کنترل کیفیت کدگذاری در آمارگیری‌ها با استفاده از نمونه‌گیری پذیرشی

30 روش‌های حفظ محرمانگی در انتشار داده‌ها

31 همسان‌سازی و یکپارچه کردن آدرس جغرافیایی در چارچوب‌های آماری سرشماری‌ها

32 بررسی ایجاد حوزه‌های سرشماری یکتا برای استفاده در تمامی طرح‌های آماری و سرشماری

33 تهیه نقشه کاربری اراضی برای آمارهای کشاورزی با استفاده از تصاویر ماهواره‌ای

34 بازسازی shapefile سرشماری‌های گذشته با مبنا قرار دادن نقشه‌های سال 1390

35 طرح تهیه کد شناسایی ملی آبادی‌های کشور در جهت بهبود آمارهای ثبتی

36 تطبیق جمعیت شهرهای کشور در سرشماری های 1335 تا 1390 براساس محدوده های جغرافیایی سرشماری 1390   

37 همانند سازی نتایج سرشماری 1385 و 1390 براساس تغییرات تقسیمات جغرافیایی

38 تولید آمار های مورد نیاز در زمینه مهاجرت داخلی براساس اطلاعات ثبت تغییر نشانی و کد پستی در پایگاه اطلاعات جمعیت کشور

39 توسعه آمار و اطلاعات ثبتی جمعیتی به صورت مکان محور (داده های مکانی جمعیتی)

40 بررسی روش های قابل استفاده برای سرشماری  1395

41 توسعه روش‌های ادیت و جانهی اتوماتیک برای داده‌های پیوسته در سرشماری‌ها

42 بررسی روش‌های کدگذاری اطلاعات باز


طراحی آمارگیری‌های جدید

1 طراحی آمارگیری ناتوانی در ایران

2 براورد شغل‌های ایجاد شده در کشور

3 طراحی آمارگیری مصرف دخانیات

4 طراحی آمارگیری طولی از ویژگی‌های اجتماعی- اقتصادی خانوار 

5 مطالعات تطبیقی برای اجرای سرشماری کشاورزی


محاسبه و تحلیل آمارها و شاخص‌ها

1 تهیه حساب‌های کار

2 برآورد اشتغال غیر رسمی در بازار کار ایران

3 بررسی وضعیت اشتغال در بین کودکان و نوجوانان

4 آینده‌نگری وضعیت بازار کار ایران با توجه به تحولات جمعیتی

5 تعیین و محاسبه شاخص‌های امنیت شغلی

6 بررسی شاخص‌های بازار کار در ایران طی سال‌های مختلف

7 بررسی تأثیر سرمایه‌ی انسانی (سن، تحصیلات و …) بر درآمد خانوار

8 بررسی رابطه بین تعداد افراد خانوار و درآمد خانوار

9 طراحی و ساخت جدول سالانه عمر در ایران 

10 گروه‌بندی خانوارها از نظر سطح زندگی بر اساس داده‌های طرح آمارگیری از هزینه و درآمد خانوار

11 بررسی رابطه بین سرمایه‌گذاری و ایجاد اشتغال

12 بررسی سازگاری شاخص‌های حاصل از آمارگیری نیروی کار با اطلاعات ثبتی

13 بررسی تأثیر افراد چند شغله در بازار کار کشور

14 بررسی روند نرخ مشارکت اقتصادی در کشور و متغیرهای مؤثر بر آن

15 بررسی رابطه مهاجرت با درآمد خانوار

16 برآورد تعداد خانوارهای کشور تا سال 1404

17 تعیین و محاسبه شاخص‌های نوآوری 

18 بررسی نسبت داده به ستانده در تعدیل نتایج طرح آمارگیری از کارگاه‌های صنعتی

19 پیش‌بینی تعداد واحدهای مسکونی مورد نیاز تا سال 1404

20 پیش‌بینی قیمت مسکن تا سال 1404

21 تعیین عوامل مؤثر بر تورم در سه دهه گذشته اقتصاد ایران

22 برآورد مهاجرین بین استانی در سال‌های بین دو سرشماری 1385 تا 1390

23 تقسيم‌بندي كشور به مناطق همگن كشاورزي

24 بررسی توزیع مشاغل در کشور

25 برآورد پس‌انداز و درآمد خانوار

26 بررسی روند سن ازدواج در ایران و عوامل موثر بر آن

27 بررسی رابطه شغل و درامد در کشور

28 تعیین شاخص‌های مناسب برای طبقه‌بندی کشور به مناطق همگن اجتماعی و اقتصادی 

29 بررسی جریان بازار کار دانش آموختگان مراکز آموزش عالی

30 شاخص‌های مسکن امن

31 بررسی وضعیت سواد و تحصیلات

32 بررسی وضعیت سالمندان

33 بررسی وضعیت اقتصادی و اجتماعی جوانان

34 تحلیل نتایج سرشماری عمومی نفوس و مسکن 1390 

35 شناسایی عوامل موثر بر ترک تحصیل در ایران

36 بررسی عوامل موثر بر افزایش شکاف ثروت با استفاده از روش تحلیل مولفه‌های اصلی

37 شناسایی مشخصه‌های مشترک برای تلفیق طرح نیروی کار و هزینه و درآمد خانوار

38 بررسی الگوی مصرف خانوارها پس از هدفمندسازی یارانه‌ها

39 براورد جمعیت شهرستان‌های کشور براساس تطبیق محدوده‌های جغرافیایی 1391

40 براورد مهاجرین در سال‌های بین سرشماری

41 بررسی رابطه‌ی تورم و نرخ بیکاری

42 بررسی روند و ترکیب صادرات و واردات کشور طی سال‌های متوالی

43 امکان‌سنجی پیش‌بینی رشد اقتصادی مبتنی بر مدل‌های آماری

44 بررسی هزینه‌های زندگی در کلان شهرها

45 بررسی اشتغال در ایران بر اساس تعداد ساعت کار


ارزیابی

1 ارزیابی داده‌های باروری در سرشماری‌های عمومی نفوس و مسکن با استفاده از روش‌های جمعیت شناسی

طراحی نرم‌افزارها و بانک‌های اطلاعاتی

1 طراحی نرم‌افزار بومی پیش‌بینی جمعیت

2 طراحی نرم‌افزار انطباق رکوردها در آمارگیری‌ها

3 روش‌های بررسی قابلیت اعتماد نرم‌افزارها در فرایند پردازش داده‌ها

4 امکان سنجی استفاده از نرم افزارCSPro در طرح‌های آمارگیری

5 توسعه نرم‌افزار پارس

6 تهیه نرم‌افزار شناسنامه آبادی‌های کشور

7 انطباق فایل سرشماری1390 با فایل ثبت‌ احوال

8 انطباق فایل سرشماری عشایری 1387 با فایل ثبت‌ احوال

9 تجزیه و تحلیل آمارهای ثبتی (وقایع چهارگانه حیاتی)



آلفاي كرونباخ چيست؟

ﺭﻭﺵ ﺁﻟﻔﺎﻱ ﻛﺮﻭﻧﺒﺎﺥ ﺑﺮﺍﻱ ﺗﻌﻴﻴﻦ ﭘﺎﻳﺎﻳﻲ ﭘﺮﺳﺸﻨﺎﻣﻪ

ﺩﺭ ﻋﻠﻭﻡ ﺍﻧﺳﺎﻧﯽ ﻭ ﺭﻓﺗﺎﺭی ﺑﻳﺷﺗﺭ ﺗﺣﻘﻳﻘﺎﺕ ﺑﺭ ﺍﺳﺎﺱ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺻﻭﺭﺕ ﻣﯽ ﮔﻳﺭﺩ. ﻣﻭﺿﻭﻉ ﮐﻧﺗﺭﻝ ﮐﻳﻔﻳﺕ ﻧﺗﺎﻳﺞ ﻳﮏ ﭘﺭﺳﺷﻧﺎﻣﻪ 

ﺩﺍﻣﻧﻪ ﻭﺳﻳﻌﯽ ﺍﺯ ﻣﻭﺿﻭﻋﺎﺕ ﻣﺧﺗﻠﻑ ﺭﺍ ﺩﺭ ﺑﺭ ﻣﯽ ﮔﻳﺭﺩ. ﺍﮔﺭ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺭﺍ ﻣﺎﻧﻧﺩ ﻳﮏ ﺁﺯﻣﻭﻥ ﻓﺭﺽ ﮐﻧﻳﻡ، ﺑﻪ ﻁﻭﺭ ﮐﻠﯽ ﻣﯽ ﺗﻭﺍﻥ 

ﮔﻔﺕ ﻳﮏ ﺁﺯﻣﻭﻥ ﺧﻭﺏ ﺑﺎﻳﺩ ﺍﺯ ﻭﻳژﮔﯽ ﻫﺎی ﻣﻁﻠﻭﺑﯽ ﻣﺎﻧﻧﺩ ﻋﻳﻧﻳﺕ، ﺳﻬﻭﻟﺕ ﺍﺟﺭﺍ، ﻋﻣﻠﯽ ﺑﻭﺩﻥ، ﺳﻬﻭﻟﺕ ﺗﻌﺑﻳﺭ ﻭ ﺗﻔﺳﻳﺭ، ﺭﻭﺍﻳﯽ ﻭ 

ﭘﺎﻳﺎﻳﯽ ﺑﺭﺧﻭﺭﺩﺍﺭ ﺑﺎﺷﺩ ﺗﺎ ﺑﻪ ﻧﺗﺎﻳﺞ ﺩﺭﺳﺗﯽ ﻣﻧﺟﺭ ﺷﻭﺩ. ﺩﺭ ﺑﻳﻥ ﺍﻳﻥ ﻭﻳژﮔﯽ ﻫﺎ ﺭﻭﺍﺋﯽ ﻭ ﭘﺎﻳﺎﺋﯽ ﺍﺯ ﺍﻫﻣﻳﺕ ﺑﻳﺷﺗﺭی ﺑﺭﺧﻭﺭﺩﺍﺭﻧﺩ. ﺩﺭ 

ﺯﻳﺭ ﺭﻭﺵ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺭﺍ ﮐﻪ ﺷﺎﻳﻊ ﺗﺭ ﺍﺯ ﺭﻭﺷﻬﺎی ﺩﻳﮕﺭ ﺍﺳﺕ، ﻣﻭﺭﺩ ﺑﺭﺭﺳﯽ ﻗﺭﺍﺭ ﺩﺍﺩﻩ ﺍﻳﻡ. 

ﺭﻭﺵ ﺍﺳﺗﻔﺎﺩﻩ ﺍﺯ ﺿﺭﻳﺏ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺭﺍ ﺑﺭﺍی ﺗﻌﻳﻳﻥ ﭘﺎﻳﺎﻳﯽ ﻳﮏ ﭘﺭﺳﺷﻧﺎﻣﻪ ﻳﺎ ﺁﺯﻣﻭﻥ ﺑﺎ ﺗﺎﮐﻳﺩ ﺑﺭ ﻫﻣﺑﺳﺗﮕﯽ ﺩﺭﻭﻧﯽ ﻣﯽ ﺗﻭﺍﻥ 

ﺍﺳﺗﻔﺎﺩﻩ ﮐﺭﺩ. ﺩﺭ ﺍﻳﻥ ﺭﻭﺵ ﺍﺟﺯﺍ ﻳﺎ ﻗﺳﻣﺕ ﻫﺎی ﭘﺭﺳﺷﻧﺎﻣﻪ ﺑﺭﺍی ﺳﻧﺟﺵ ﺿﺭﻳﺏ ﭘﺎﻳﺎﻳﯽ ﺁﺯﻣﻭﻥ ﺑﻪ ﮐﺎﺭ ﻣﯽ ﺭﻭﻧﺩ. ﺍﮔﺭ ﺳﻭﺍﻻﺕ ﺑﻪ 

ﺻﻭﺭﺕ ﺩﻭ ﺣﺎﻟﺗﯽ (ﺩﺭﺳﺕ =1 ﻭ ﻏﻠﻁ = ﺻﻔﺭ) ﺩﺭ ﻧﻅﺭ ﮔﺭﻓﺗﻪ ﺷﻭﻧﺩ، ﺿﺭﻳﺏ ﺁﻟﻔﺎ ﺍﺯ ﺭﺍﺑﻁﻪ ﺯﻳﺭ ﻗﺎﺑﻝ ﻣﺣﺎﺳﺑﻪ ﺧﻭﺍﻫﺩ ﺑﻭﺩ. 

α =

𝑘𝑘

𝑘𝑘−1

(1 −

∑ 𝑝𝑝𝑝𝑝

𝑠𝑠

2

)

 ﮐﻪ ﺩﺭ ﺁﻥ k ﺗﻌﺩﺍﺩ ﺳﻭﺍﻻﺕ ، p ﺗﻌﺩﺍﺩ ﭘﺎﺳﺦ ﻫﺎی ﺩﺭﺳﺕ، q ﺗﻌﺩﺍﺩ ﭘﺎﺳﺦ ﻫﺎی ﻏﻠﻁ ﻭ �𝑠�

2

 ﻭﺍﺭﻳﺎﻧﺱ ﮐﻝ ﺳﻭﺍﻻﺕ ﺍﺳﺕ ﻭ ﺍﮔﺭ ﺳﻭﺍﻻﺕ 

ﺑﻪ ﺻﻭﺭﺕ ﺍﺭﺯﺷﯽ ﺑﺎﺷﻧﺩ (ﻫﺭ ﺳﻭﺍﻝ ﺍﺭﺯﺵ ﻣﺭﺑﻭﻁ ﺧﻭﺩ ﺭﺍ ﺩﺍﺷﺗﻪ ﺑﺎﺷﺩ) ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺍﺯ ﺭﺍﺑﻁﻪ ﺯﻳﺭ ﻣﻳﺯﺍﻥ ﭘﺎﻳﺎﻳﯽ ﺁﺯﻣﻭﻥ ﺭﺍ 

ﻣﺣﺎﺳﺑﻪ ﻣﯽ ﮐﻧﺩ.

α =

𝑘𝑘

𝑘𝑘−1

�1 −

∑ 𝑠𝑠

𝑖𝑖

𝑘𝑘 2

𝑖𝑖=1

𝑠𝑠

2

� (1)

ﮐﻪ ﺩﺭ ﺁﻥ k ﺗﻌﺩﺍﺩ ﺳﻭﺍﻻﺕ، �𝑠�

𝑖𝑖

2

 ﻭﺍﺭﻳﺎﻧﺱ ﻫﺭ ﺳﻭﺍﻝ ﻭ �𝑠�

2

  ﻭﺍﺭﻳﺎﻧﺱ ﮐﻝ ﺳﻭﺍﻻﺕ ﺍﺳﺕ.

ﭘﺎﻳﺎﻳﯽ ﭘﺭﺳﺷﻧﺎﻣﻪ: ﺍﺯ ﺁﻧﺟﺎ ﮐﻪ ﻳﮏ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺑﺎ ﺗﻌﺩﺍﺩی ﺳﻭﺍﻝ (ﻣﺎﻧﻧﺩ ﻁﻳﻑ 5 ﮔﺯﻳﻧﻪ ﺍی ﻟﻳﮑﺭﺕ) ﻣﺎﻧﻧﺩ ﻳﮏ ﺁﺯﻣﻭﻥ ﺍﺳﺕ، ﻣﯽ ﺗﻭﺍﻥ ﺍﺯ 

ﺭﺍﺑﻁﻪ (1) ﻣﻘﺩﺍﺭ ﭘﺎﻳﺎﻳﯽ ﺭﺍ ﺑﻪ ﮐﻣﮏ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺑﻪ ﺩﺳﺕ ﺁﻭﺭﺩ. 

ﺍﻣﺎ ﺍﮔﺭ ﺑﻪ ﺟﺎی ﺳﻭﺍﻻﺕ ﻳﺎ ﻣﺎﺩﻩ ﻫﺎ، ﺁﺯﻣﻭﻥ ﺍﺯ ﺑﺧﺵ ﻫﺎ ﻳﺎ ﻗﺳﻣﺕ ﻫﺎﻳﯽﺗﺷﮑﻳﻝ ﺷﺩﻩ ﺑﺎﺷﺩ ﻣﺛﻝ ﺯﻣﺎﻧﯽ ﮐﻪ ﻳﮏ ﺁﺯﻣﻭﻥ ﺍﺯ ﺗﻌﺩﺍﺩی ﺧﺭﺩﻩ 

ﺁﺯﻣﻭﻥ ﺗﺷﮑﻳﻝ ﺷﺩﻩ ﺍﺳﺕ ﻭ ﺑﺧﻭﺍﻫﻳﻡ ﺍﺯ ﺁﻥ ﻫﺎ ﺩﺭ ﻣﺣﺎﺳﺑﻪ ﺿﺭﻳﺏ ﭘﺎﻳﺎﻳﯽ ﮐﻝ ﺁﺯﻣﻭﻥ ﺍﺳﺗﻔﺎﺩﻩ ﮐﻧﻳﻡ، ﺑﺎﺯ ﻫﻡ ﻣﯽ ﺗﻭﺍﻥ ﺍﺯ ﺭﻭﺵ ﺁﻟﻔﺎی 

ﮐﺭﻭﻧﺑﺎﺥ ﻣﻁﺎﺑﻕ ﺑﺎ ﺭﺍﺑﻁﻪ (1) ﺍﺳﺗﻔﺎﺩﻩ ﮐﺭﺩ.

 ﺭﻭﺵ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﻧﻪ ﺗﻧﻬﺎ ﺑﺭﺍی ﮔﺯﻳﻧﻪ ﻫﺎی ﺩﻭ ﺍﺭﺯﺷﯽ ﺻﻔﺭ ﻭ ﻳﮏ، ﺑﻠﮑﻪ ﺑﺭﺍی ﮔﺯﻳﻧﻪ ﻫﺎی ﭼﻧﺩ ﺍﺭﺯﺷﯽ (ﻣﺎﻧﻧﺩ ﻣﺎﻧﻧﺩ ﻁﻳﻑ 5

ﮔﺯﻳﻧﻪ ﺍی ﻟﻳﮑﺭﺕ) ﻧﻳﺯ ﻗﺎﺑﻝ ﺍﺳﺗﻔﺎﺩﻩ ﺍﺳﺕ. ﺍﮔﺭ ﺑﺧﺵ ﻫﺎی ﺁﺯﻣﻭﻥ ﻳﺎ ﺧﺭﺩﻩ ﺁﺯﻣﻭﻥ ﻫﺎﻳﯽ ﮐﻪ ﺍﺯ ﻣﺟﻣﻭﻉ ﺁﻧﻬﺎ ﺁﺯﻣﻭﻥ ﮐﻠﯽ ﺗﺷﮑﻳﻝ ﺷﺩﻩ  

ﺍﺳﺕ ﺑﻪ ﻁﻭﺭ ﺟﺩﺍﮔﺎﻧﻪ ﻧﻣﺭﻩ ﮔﺫﺍﺭی ﺷﻭﻧﺩ، ﺩﺭ ﺁﻥ ﺻﻭﺭﺕ ﺿﺭﻳﺏ ﺁﻟﻔﺎ ﻣﺳﺗﻠﺯﻡ ﺍﻳﻥ ﻧﻳﺳﺕ ﮐﻪ ﺗﮏ ﺗﮏ ﺳﻭﺍﻻﺕ ﺑﻪ ﺻﻭﺭﺕ ﺻﺣﻳﺢ ﻭ 

ﻏﻠﻁ ﺑﺎﺷﻧﺩ.

ﺑﺭﺍی ﺗﻭﺿﻳﺢ ﺑﻳﺷﺗﺭ ﺩﺭ ﻣﻭﺭﺩ ﭼﮕﻭﻧﮕﯽ ﺍﺳﺗﻔﺎﺩﻩ ﺍﺯ ﺿﺭﻳﺏ ﺁﻟﻔﺎ، ﻓﺭﺽ ﮐﻧﻳﺩ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺍی ﺟﻬﺕ ﺁﺯﻣﻭﻥ ﺳﻪ ﻓﺭﺿﻳﻪ ﻁﺭﺍﺣﯽ ﺷﺩﻩ 

ﺍﺳﺕ ﮐﻪ ﺳﻭﺍﻻﺕ ﻣﺭﺑﻭﻁ ﺑﻪ ﻫﺭ ﻓﺭﺿﻳﻪ ﻳﮏ ﺧﺭﺩﻩ ﺁﺯﻣﻭﻥ ﻣﺣﺳﻭﺏ ﻣﯽ ﺷﻭﺩ. 

ﻓﺭﺽ ﮐﻧﻳﺩ ﻭﺍﺭﻳﺎﻧﺱ 3 ﺧﺭﺩﻩ ﺁﺯﻣﻭﻥ ﺑﺭﺍﺑﺭ ﺑﺎ:

    ﻭ ﻭﺍﺭﻳﺎﻧﺱ ﮐﻝ ﺁﺯﻣﻭﻥ ﺑﺭﺍﺑﺭ ﺍﺳﺕ ﺑﺎ �𝑠�

2

ﺑﺎﺷﺩ

ﺑﺎ ﺗﻭﺟﻪ ﺑﻪ ﺍﻳﻥ ﮐﻪ k=3 ﺍﺳﺕ، ﺿﺭﻳﺏ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺑﻪ ﺻﻭﺭﺕ ﺯﻳﺭ ﻣﺣﺎﺳﺑﻪ ﻣﯽ ﺷﻭﺩ:

ﮔﻔﺗﻪ ﻣﯽ ﺷﻭﺩ ﺍﮔﺭ ﺿﺭﻳﺏ ﺁﻟﻔﺎ ﺑﻳﺷﺗﺭ ﺍﺯ 0.7 ﺑﺎﺷﺩ، ﺁﺯﻣﻭﻥ ﺍﺯ ﭘﺎﻳﺎﻳﯽ ﻗﺎﺑﻝ ﻗﺑﻭﻟﯽ ﺑﺭﺧﻭﺭﺩﺍﺭ ﺍﺳﺕ. ﻣﺛﻼ ﺁﺯﻣﻭﻥ ﻓﻭﻕ ﭘﺎﻳﺎﻳﯽ ﻗﺎﺑﻝ 

ﻗﺑﻭﻟﯽ ﺩﺍﺭﺩ. 

ﺗﻣﺭﻳﻥ ﺯﻳﺭ ﻳﮏ ﺗﻣﺭﻳﻥ ﻋﻣﻠﯽ ﺍﺯ ﻧﺣﻭﻩ ﺑﻪ ﺩﺳﺕ ﺁﻭﺭﺩﻥ ﻣﻳﺯﺍﻥ ﭘﺎﻳﺎﻳﯽ ﻳﮏ ﭘﺭﺳﺷﻧﺎﻣﻪ (ﺑﺎ 10 ﺳﻭﺍﻝ 5 ﮔﺯﻳﻧﻪ ﺍی ﻟﻳﮑﺭﺕ) ﺑﺭ ﺍﺳﺎﺱ 

ﺷﺎﺧﺹ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺩﺭ spss ﺍﺳﺕ. 

ﺗﻣﺭﻳﻥ ﻋﻣﻠﯽ ﺍﺯ ﺗﺣﻠﻳﻝ ﭘﺎﻳﺎﻳﯽ ﻭ ﺗﺷﺧﻳﺹ ﺳﻭﺍﻻﺕ ﺯﺍﺋﺩ ﭘﺭﺳﺷﻧﺎﻣﻪ

ﺍﮔﺭ ﺳﻭﺍﻻﺕ ﻳﮏ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺭﺍ ﺩﺭ ﺍﺧﺗﻳﺎﺭ ﺩﺍﺭﻳﺩ، ﺩﺭ ﻧﺭﻡ ﺍﻓﺯﺍﺭ spss ﺑﻪ ﭘﻧﺟﺭﻩ  Data Editor ﺑﺭﻭﻳﺩ. ﻫﺭ ﺳﻭﺍﻝ ﺭﺍ ﺑﻪ ﻋﻧﻭﺍﻥ 

ﻳﮏ ﻣﺗﻐﻳﺭ ﺗﻌﺭﻳﻑ ﮐﻧﻳﺩ ﻭ ﻣﻘﺎﺩﻳﺭ ﺁﻥ ﺭﺍ ﺩﺭ ﺍﻳﻥ ﭘﻧﺟﺭﻩ ﻭﺍﺭﺩ ﻧﻣﺎﻳﻳﺩ. (ﺑﻪ ﺷﮑﻝ ﺯﻳﺭ ﺗﻭﺟﻪ ﮐﻧﻳﺩ) ﺳﭘﺱ ﻣﺭﺍﺣﻝ ﺯﻳﺭ ﺭﺍ ﺩﻧﺑﺎﻝ ﮐﻧﻳﺩ:  

• ﺍﺯ ﻣﻧﻭی ﺁﻧﺎﻟﻳﺯ (Analyze) ﺑﻪ ﻣﻧﻭی Scale ﺑﺭﻭﻳﺩ . ﺳﭘﺱ ﺯﻳﺭ ﻣﻧﻭی Reliability Analysis ﺭﺍ ﺍﻧﺗﺧﺎﺏ ﮐﻧﻳﺩ ﺗﺎ 

ﮐﺎﺩﺭ ﻣﺣﺎﻭﺭﻩ ﺗﺣﻠﻳﻝ ﭘﺎﻳﺎﻳﯽ ﺑﺎﺯ ﺷﻭﺩ.2 ﻣﻳﺭﺯﺍﺩﻩ ﻣﺣﻣﺩﺭﺿﺎ ﺗﻭﺳﻁ ﺷﺩﻩ ﺗﻬﻳﻪ  | www.M-Mirzadeh.Blogfa.com

ﮐﺎﺩﺭ ﻣﺣﺎﻭﺭﻩ ﺗﺣﻠﻳﻝ ﭘﺎﻳﺎﻳﯽ ﻣﺎﻧﻧﺩ ﺷﮑﻝ ﺯﻳﺭ ﺍﺳﺕ

• ﻫﺭ ﻳﮏ ﺍﺯ ﻣﺗﻐﻳﺭﻫﺎی ﻣﻁﺎﻟﻌﻪ  ﺭﺍ ﺑﻪ ﭼﻬﺎﺭﮔﻭﺵ :Items ﻣﻧﺗﻘﻝ ﮐﻧﻳﺩ. (ﭼﻭﻥ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺍی ﮐﻪ ﻣﻥ ﺑﺭﺍی ﺍﻳﻥ ﺗﻣﺭﻳﻥ ﺩﺭ 

ﺍﺧﺗﻳﺎﺭ ﺩﺍﺭﻡ  ﺷﺎﻣﻝ ﺩﻩ ﺳﻭﺍﻝ ﺍﺳﺕ، ﻣﻥ ﺑﺎﻳﺩ 10 ﻣﺗﻐﻳﺭ ﺩﺍﺷﺗﻪ ﺑﺎﺵﻡ ﻭ ﺁﻧﻬﺎ ﺭﺍ ﺑﻪ ﺳﻣﺕ ﺭﺍﺳﺕ ﻣﻧﺗﻘﻝ ﮐﻧﻡ.)

• ﺑﺭﺭﺳﯽ ﮐﻧﻳﺩ ﺩﺭ ﺑﺧﺵ :model (ﭘﺎﻳﻳﻥ ﮐﺎﺩﺭ ﻣﺣﺎﻭﺭﻩ) ﮔﺯﻳﻧﻪ Alpha ﺍﻧﺗﺧﺎﺏ ﺷﺩﻩ ﺑﺎﺷﺩ.

• OK ﺭﺍ ﮐﻠﻳﮏ ﮐﻧﻳﺩ ﻭ ﺩﺭ ﺧﺭﻭﺟﯽ ﻧﺗﺎﻳﺞ ﺭﺍ ﻣﺷﺎﻫﺩﻩ ﮐﻧﻳﺩ. 

ﺍﮔﺭ ﺿﺭﻳﺏ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ 0/7 ﻳﺎ ﺑﻳﺷﺗﺭ ﺍﺳﺕ، ﭘﺭﺳﺷﻧﺎﻣﻪ ﺍﺯ ﭘﺎﻳﺎﻳﯽ ﻣﻁﻠﻭﺑﯽ ﺑﺭﺧﻭﺭﺩﺍﺭ ﺍﺳﺕ ﻭ ﻣﯽ ﺗﻭﺍﻧﻳﺩ ﺍﺯ ﺑﺎﺑﺕ ﻫﻣﺑﺳﺗﮕﯽ 

ﺩﺭﻭﻧﯽ ﺳﻭﺍﻻﺕ ﻣﻁﻣﺋﻥ ﺑﺎﺷﻳﺩ. ﻭﻟﯽ ﺍﮔﺭ ﻣﻘﺩﺍﺭ ﺁﻟﻔﺎ ﮐﻣﺗﺭ ﺍﺯ 0/7 ﺍﺳﺕ (ﻣﺎﻧﻧﺩ ﻧﺗﺎﻳﺟﯽ ﮐﻪ ﻣﻥ ﺍﺯ ﻧﻣﻭﻧﻪ 10 ﺳﻭﺍﻟﯽ ﮔﺭﻓﺗﻡ) ﺑﻬﺗﺭ 

ﺍﺳﺕ ﺳﻭﺍﻻﺗﯽ ﺭﺍ ﮐﻪ ﺑﺎ ﺳﺎﻳﺭ ﺳﻭﺍﻻﺕ ﻫﻣﺑﺳﺗﮕﯽ ﮐﻣﺗﺭی ﺩﺍﺭﻧﺩ ﺷﻧﺎﺳﺎﻳﯽ ﻭ ﺍﺯ ﻣﺟﻣﻭﻋﻪ ﺳﻭﺍﻻﺕ ﺣﺫﻑ ﮐﻧﻳﺩ ﺗﺎ ﻣﻘﺩﺍﺭ ﺁﻟﻔﺎ ﺍﻓﺯﺍﻳﺵ 

ﭘﻳﺩﺍ ﮐﻧﺩ. ﻫﺭﭼﻧﺩ ﺍﮔﺭ ﺿﺭﻳﺏ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺑﻳﻥ (0/5 ﺗﺎ 0/7) ﺑﺎﺷﺩ ﺍﻋﺗﺑﺎﺭ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺩﺭ ﺣﺩ ﻣﺗﻭﺳﻁ ﺍﺭﺯﻳﺎﺑﯽ ﻣﯽ ﺷﻭﺩ. ﺑﺭﺍی 

ﺷﻧﺎﺳﺎﻳﯽ ﻭ ﺣﺫﻑ ﺳﻭﺍﻻﺕ ﻧﺎﻫﻣﺑﺳﺗﻪ، ﻣﺭﺍﺣﻝ ﺯﻳﺭ ﺭﺍ ﺩﻧﺑﺎﻝ ﮐﻧﻳﺩ:

• ﻣﺟﺩﺩﺍ ﺑﻪ ﮐﺎﺩﺭ ﻣﺣﺎﻭﺭﻩ ﭘﺎﻳﺎﻳﯽ ﺑﺭﻭﻳﺩ ﻭ ﺍﺯ ﮔﺯﻳﻧﻪ Statistics ﺑﻪ ﮐﺎﺩﺭ ﻣﺣﺎﻭﺭﻩ ﺷﮑﻝ ﺯﻳﺭ ﻣﻧﺗﻘﻝ ﺷﻭﻳﺩ.

  3 ﻣﻳﺭﺯﺍﺩﻩ ﻣﺣﻣﺩﺭﺿﺎ ﺗﻭﺳﻁ ﺷﺩﻩ ﺗﻬﻳﻪ  | www.M-Mirzadeh.Blogfa.com

ﺍﮔﺭ ﭘﺎﻳﺎﻳﯽ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺩﺭ ﺣﺩ ﻣﻁﻠﻭﺏ ﻧﺑﺎﺷﺩ ﺑﺎ ﺗﺷﺧﻳﺹ ﺳﻭﺍﻻﺕ ﺯﺍﺋﺩ، ﺑﺎﻳﺩ ﻣﻘﺩﺍﺭ ﭘﺎﻳﺎﻳﯽ ﺭﺍ ﺑﻪ ﺣﺩ ﻣﻁﻠﻭﺏ ﺑﺭﺳﺎﻧﯽ ﺩ . ﺍﻳﻥ ﺍﻣﮑﺎﻥ ﺩﺭ 

ﻧﺭﻡ ﺍﻓﺯﺍﺭ spss ﻭﺟﻭﺩ ﺩﺍﺭﺩ ﮐﻪ ﺑﺗﻭﺍﻥ ﻭﺿﻌﻳﺕ ﻫﺭ ﺳﻭﺍﻝ ﺭﺍ ﺍﺯ ﻧﻅﺭ ﭘﺎﻳﺎﻳﯽ ﺩﺭ ﻣﺟﻣﻭﻋﻪ ﺳﻭﺍﻻﺕ ﺑﺭﺭﺳﯽ ﮐﺭﺩ. 

• ﺑﺭﺍی ﺍﻳﻥ ﮐﻪ ﺑﺧﻭﺍﻫﻳﺩ ﺍﺛﺭ ﺣﺫﻑ ﻫﺭ ﺳﻭﺍﻝ ﺭﺍ ﺑﺭ ﺿﺭﻳﺏ ﺁﻟﻔﺎ ﻣﻌﻳﻥ ﮐﻧﻳﺩ ﻭ ﺩﺭ ﻣﻭﺭﺩ ﺣﺫﻑ ﺳﻭﺍﻻﺕ ﺍﺿﺎﻓﻪ ﺗﺻﻣﻳﻡ ﺑﮕﻳﺭﻳﺩ، 

ﺩﺭ ﮐﺎﺩﺭ ﻣﺣﺎﻭﺭﻩ Reliability Analysis: statistics ﮔﺯﻳﻧﻪ Scale if item delete ﺭﺍ ﺍﻧﺗﺧﺎﺏ ﻧﻣﺎﻳﻳﺩ.

• ﮐﻠﻳﺩ ﻫﺎی Continue ﻭ Ok ﺭﺍ ﺑﻪ ﺗﺭﺗﻳﺏ ﮐﻠﻳﮏ ﮐﻧﻳﺩ ﻭ ﻧﺗﺎﻳﺞ ﺭﺍ ﺩﺭﺧﺭﻭﺟﯽ ﻣﺷﺎﻫﺩﻩ ﻧﻣﺎﻳﻳﺩ.

ﺩﺭ ﺧﺭﻭﺟﯽ spss ﺳﻪ ﺟﺩﻭﻝ ﮐﻪ ﻣﻬﻣﺗﺭ ﺍﺯ ﺑﻘﻳﻪ ﻫﺳﺗﻧﺩ، ﺑﻪ ﺻﻭﺭﺕ ﺯﻳﺭ ﻣﺷﺎﻫﺩﻩ ﺧﻭﺍﻫﻳﺩ ﮐﺭﺩ: 

ﺟﺩﻭﻝ ﺍﺻﻠﯽ ﺟﺩﻭﻝ Reliability Statistics ﺍﺳﺕ ﮐﻪ ﺩﺭ ﺁﻥ ﻣﻘﺩﺍﺭ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺭﺍ ﺑﺭﺍی ﺳﻭﺍﻻﺗﯽ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺍی ﮐﻪ ﻣﻥ ﺩﺍﺭﻡ 

ﺑﺭﺍﺑﺭ 660. ﻣﺷﺎﻫﺩﻩ ﻣﯽ ﮐﻧﻳﺩ. 

ﺩﺭ ﺟﺩﻭﻝ Item Statistics ﺷﻣﺎ ﻣﺗﻐﻳﺭﻫﺎ، ﻣﻳﺎﻧﮕﻳﻥ ﻭ ﺍﻧﺣﺭﺍﻑ ﻣﻌﻳﺎﺭ ﻫﺭ ﻳﮏ ﺍﺯ ﺳﻭﺍﻻﺕ ﻭ ﺗﻌﺩﺍﺩ ﻧﻣﻭﻧﻪ ﻫﺎ ﺭﺍ ﻣﺷﺎﻫﺩﻩ ﻣﯽ ﮐﻧﻳﺩ. 

ﻫﺭ ﭼﻪ ﻣﻘﺩﺍﺭ ﺁﻟﻔﺎ ﺑﻪ ﻳﮏ ﻧﺯﺩﻳﮑﺗﺭ ﺑﺎﺷﺩ ﻧﺷﺎﻥ ﺍﺯ ﭘﺎﻳﺎﻳﯽ ﺑﻳﺷﺗﺭ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺩﺍﺭﺩ . ﺍﮔﺭ ﻣﻘﺩﺍﺭﺁﻟﻔﺎ ﺑﻳﺷﺗﺭ ﺍﺯ  0.7 ﺑﺎﺷﺩ ﭘﺎﻳﺎﻳﯽ ﺧﻭﺏ ﻭ 

ﺍﮔﺭ ﺑﻳﻥ 0.5 ﺗﺎ 0.7 ﺑﺎﺷﺩ ﭘﺎﻳﺎﻳﯽ ﻣﺗﻭﺳﻁ ﻭ ﺍﮔﺭ ﮐﻣﺗﺭ ﺍﺯ 0.5 ﺑﺎﺷﺩ ﭘﺭﺳﺷﻧﺎﻣﻪ ﻓﺎﻗﺩ ﭘﺎﻳﺎﻳﯽ ﻻﺯﻡ ﺍﺳﺕ. 

ﺩﺭ ﺍﻳﻥ ﻣﺛﺎﻝ ﻣﻘﺩﺍﺭ ﺁﻟﻔﺎ ﻧﺷﺎﻥ ﻣﯽ ﺩﻫﺩ ﮐﻪ ﻣﻳﺯﺍﻥ ﭘﺎﻳﺎﻳﯽ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺩﺭ ﺣﺩ ﻣﺗﻭﺳﻁ ﺍﺳﺕ. 

Reliability Statistics

Cronbach's Alpha

Cronbach's Alpha 

Based on 

Standardized Items

N of Items

.660 .673 10

Item Statistics

Mean Std. Deviation N

x1 3.67 1.209 48

x2 2.85 1.148 48

x3 4.35 .911 48

x4 1.98 .978 48

x5 3.02 1.158 48

x6 4.33 .724 48

x7 2.81 1.045 48

x8 2.79 1.304 48

x9 2.73 .917 48

x10 3.00 1.149 484 ﻣﻳﺭﺯﺍﺩﻩ ﻣﺣﻣﺩﺭﺿﺎ ﺗﻭﺳﻁ ﺷﺩﻩ ﺗﻬﻳﻪ  | www.M-Mirzadeh.Blogfa.com

Item-Total Statistics

Scale Mean if 

Item Deleted

Scale Variance if 

Item Deleted

Corrected ItemTotal 

Correlation

Cronbach's Alpha if Item Deleted

ﻣﻘﺪﺍﺭ ﺁﻟﻔﺎی ﮐﺮﻭﻧﺒﺎﺥ، ﭘﺲ ﺍﺯ ﺣﺬﻑ ﺳﻮﺍﻝ

x1 27.88 27.346 -.061 .717

x2 28.69 25.326 .121 .678

x3 27.19 24.709 .276 .645

x4 29.56 24.719 .243 .651

x5 28.52 22.297 .403 .618

x6 27.21 25.105 .332 .638

x7 28.73 21.606 .550 .589

x8 28.75 21.128 .435 .609

x9 28.81 22.751 .509 .604

x10 28.54 20.722 .574 .579

ﺩﺭ ﺟﺩﻭﻝ Item-Total Statistics ﺩﺭ ﺳﺗﻭﻥ ﺍﻭﻝ ﻧﺎﻡ ﻣﺗﻐﻳﺭﻫﺎ (ﺳﻭﺍﻻﺕ) ﻭ ﺷﺎﺧﺹ ﻫﺎی ﺳﺗﻭﻥ ﻫﺎی ﺑﻌﺩی ﺩﺭ ﺻﻭﺭﺕ ﺣﺫﻑ ﺍﻳﻥ 

ﻣﺗﻐﻳﺭ ﺁﻣﺩﻩ ﺍﺳﺕ. ﺩﺭ ﺳﺗﻭﻥ ﺩﻭﻡ ﻣﻳﺎﻧﮕﻳﻥ ﺍﻣﺗﻳﺎﺯﺍﺕ ﻫﺭ ﺳﻭﺍﻝ ﭘﺱ ﺍﺯ ﺣﺫﻑ ﺳﻭﺍﻝ ﻣﻭﺭﺩ ﻧﻅﺭ، ﺩﺭ ﺳﺗﻭﻥ ﺳﻭﻡ ﻭﺍﺭﻳﺎﻧﺱ ﺍﻣﺗﻳﺎﺯﺍﺕ، ﺩﺭ 

ﺳﺗﻭﻥ ﭼﻬﺎﺭﻡ ﻫﻣﺑﺳﺗﮕﯽ ﺑﻳﻥ ﻣﺗﻐﻳﺭﻫﺎ ﻭ ﺩﺭ ﺳﺗﻭﻥ ﭘﻧﺟﻡ ﻣﻘﺩﺍﺭ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺭﺍ ﺑﺎ ﺗﻭﺟﻪ ﺑﻪ ﺣﺫﻑ ﻣﺗﻐﻳﺭ ﻣﻭﺭﺩ ﻧﻅﺭ ﺭﺍ ﺷﺎﻫﺩ ﻫﺳﺗﻳﺩ. 

ﺑﺎ ﺗﻭﺟﻪ ﺑﻪ ﺍﻳﻥ ﮐﻪ ﺑﺎ ﺣﺫﻑ ﺳﻭﺍﻝ ﻳﮏ، ﺿﺭﻳﺏ ﺁﻟﻔﺎ ﺑﻪ ﻣﻘﺩﺍﺭ 0.717 ﺍﻓﺯﺍﻳﺵ ﭘﻳﺩﺍ ﻣﯽ ﮐﻧﺩ، ﻣﯽ ﺗﻭﺍﻥ ﺳﻭﺍﻝ ﻳﮏ ﺭﺍ ﺍﺯ ﻣﺟﻣﻭﻋﻪ 

ﺳﻭﺍﻻﺕ ﺣﺫﻑ ﮐﺭﺩ. 

ﺍﻳﻥ ﺭﻭﻧﺩ ﺭﺍ ﺑﻪ ﻫﻣﻳﻥ ﺗﺭﺗﻳﺏ ﻭ ﺗﺎ ﻭﻗﺗﯽ ﮐﻪ ﺣﺫﻑ ﺳﻭﺍﻻﺕ ﻧﺎﻫﻣﺑﺳﺗﻪ ﻣﻧﺟﺭ ﺑﻪ ﻣﻘﺩﺍﺭ ﻣﻁﻠﻭﺏ ﺁﻟﻔﺎ ﻣﯽﺷﻭﺩ، ﺍﺩﺍﻣﻪ ﺩﻫﻳﺩ.

ضريب آلفاي کرونباخ؛ مفاهيم، کارکرد و شيوه هاي نوين آن  

دکترامير تيمور پاينده1، دکتر مريم اميدي نجف آبادی2، فهيمه مسعودي فر3

1و 3: دانشگاه شهيد بهشتي، دانشکده علوم رياضي، گروه آمار

2: دانشگاه آزاد اسلامي واحد علوم وتحقيقات، گروه ترويج و آموزش کشاوزي

amirtpayandeh@sbu.ac.ir 

چکيده :

بي شک همه ي ما درطول دوران زندگي خود حداقل يکبار پرسشنامه پرکرده ايم. تا بحال ازخود پرسيده ايد که اين پرسشنامه ها چگونه تهيه مي شوند و نيز معياري براي بررسي ميزان قابليت اطمينان آنها وجود دارد يا خير؟ بديهي است که چنين مقياسي وجود دارد، چرا که بسياري از بررسي ها ي آماري درسطوح وسيع ابتدا درقالب پرسش نامه پايه گذاري مي شوند، پس مي بايست ملاکي براي نظارت  بر قابليت  اعتماد  آنها  وجود داشته باشد.

در اين مقاله، ابتدا به مفهوم ضريب آلفاي کرونباخ و کارکرد آن، شيوه محاسبه آن با استفاده از نرم افزارهاي آماري مي پردازد. نهايتا به معرفي تتاي ترتيبي  و ارائه برنامه ای جهت محاسبه آن (با استفاده از نرم افزار R)خواهيم پرداخت.

مفهوم ضريب آلفاي کرونباخ:

ضريب آلفاي کرونباخ توسط کرونباخ ابداع شده و يکي ازمتداولترين روشهاي اندازه گيري اعتماد پذيري و يا پايائي پرسش نامه هاست. منظور از اعتبار يا پايايي پرسش نامه اين است که اگر صفت هاي مورد سنجش با همان وسيله و تحت شرايط مشابه و در زمانهاي مختلف مجددا اندازه گيري شوند، نتايج تقريبا يکسان حاصله شود.

 ضريب آلفاي کرونباخ، براي سنجش ميزان تک بعدي بودن نگرشها، عقايد و ... بکار مي رود. در واقع مي خواهيم ببينيم تا چه حد برداشت پاسخگويان از سوالات يکسان بوده است. اساس اين ضريب بر پايه مقياسهاست. مقياس عبارتند از دسته اي از اعداد که بر روي يک پيوستار به افراد، اشيا يا رفتارها در جهت به کميت کشاندن کيفيت ها اختصاص داده مي شود. رايج ترين مقياس که در تحقيقات اجتماعي بکار مي رود مقياس ليکرت است. در مقياس ليکرت اساس کار بر فرض هم وزن بودن گويه ها استوار است. بدين ترتيب به هر گويه نمراتي (مثلا از1 تا 5 براي مقياس ليکرت 5 گويه اي) داده مي شود که مجموع نمراتي که هر فرد از گويه ها مي گيرد نمايانگر گرايش او خواهد بود. 

آلفاي کرونباخ بطورکلي با استفاده از يکي روابط  زيرمحاسبه مي شود.

  يا   

که دراين روابط  k تعداد سوالات،   واريانس سوال i ام،   واريانس مجموع کلي سوالات،  ميانگين کواريانس بين سوالات، و   واريانس ميانگين سوالات مي باشند (برگرفته شده از آلن و ين، 2002). 

با استفاده از تعريف آلفاي کرونباخ مي توان نتيجه گرفت: (1) هرقدرهمبستگي مثبت بين سوالات بيشتر شود، ميزان آلفاي کرونباخ بيشتر خواهد شدو بالعکس، (2) هر قدر واريانس ميانگين سوالات بيشتر شود آلفاي کرونباخ کاهش پيدا خواهد کرد، (3) افزايش تعداد سوالات تاثيرمثبت و يا منفي (بسته به نوع همبستگي بين سوالات) بر ميزان آلفاي کرونباخ خواهد گذاشت، (4) افزايش حجم نمونه باعث کاهش واريانس ميانگين سوالات در نتيجه باعث افزايش آلفاي کرونباخ خواهد شد. 

بديهي است هرقدر شاخص آلفاي کرونباخ به 1نزديکترباشد، همبستگي دروني بين سوالات بيشتر و در نتيجه پرسشها همگن ترخواهند بود. کرونباخ ضريب پايايي %45 را کم، %75 را متوسطو قابل قبول، و ضريب %95 را زياد پيشنهاد کرده (کرونباخ، 1951). بديهي است درصورت پايين بودن مقدارآلفا، بايستي بررسي شود که با حذف کدام پرسشها مقدارآن را مي توان افزايش داد. 

تتاي ترتيبي:

در سال 1974 آمارداني به نام آمور در مورد استفاده از آلفاي کرونباخ آماردانان ديگر را به چالش کشيد. استدلال او اين بود که آلفاي کرونباخ بر علاوه بر نارايب بوده (نارايبي مثبت)، بر اساس شاخص هاي تعريف و محاسبه مي گردنند که مربوط به داده هاي با مقياس فاصله اي و يا نسبتي هستند، بنابراين استفاده از آلفاي کرونباخ براي محاسبه اي ميزان پايائي پرسش نامه هاي که حاوي سوالات ترتيبي هستند دقيق به نظر نمي رسد. او براي رفع اين مشکل شاخص جديدي تحت عنوان تتاي ترتيبي به صورت زير ارائه داد.

 

که   بيشترين مقدار ويژه در تحليل مولفه اي اصلي مي باشد. اخيرا زامبو، گادرومن، و زيسر (2007) به مطالعه اين شاخص پرداخته و با چندين مثال شبيه سازي شده نشان دادند که ضريب آلفاي کرونباخ هميشه مقدار پاياي را کم برآورد مي کند. بنابراين توصيه مي شود که در هنگامي که داده ها ترتيبي هستنند به جاي آلفاي کرونباخ از تتاي ترتيبي استفاده شود.

چگونگي محاسبه به همراه مثال عملي:

بسياري از نرم افزارهاي آماري قادر به محاسبه آلفاي کرونباخ هستند. در اين قسمت از مقاله چگونگي محاسبه ي آلفاي کرونباخ را توسط دو نرم افزار SPSS و SAS شرح داده، سپس با ارائه يک برنامه به زبان R  چگونگي محاسبه ي آلفاي کرونباخ و تتاي ترتيبي را توسط نرم افزار R نشان مي دهيم. در ادامه با استفاده از سوالات نمونه گيري مقدماتي اميدي (1387) چگونگي سنجش آلفاي کرونباخ و تتاي ترتيبي را نشان مي دهيم.

براي محاسبه آلفاي کرونباخ  به کمک نرم افزار SPSS مسير زيررا دنبال مي کنيم :

Analyze> Scale> Reliability Analysis…

چنانچه مايل باشيم بررسي کنيم که حذف هرسوال چه ميزان روي ضريب آلفاي کرونباخ تاثير مي گذارد، بعد از باز شدن پنجره “Reliability Analysis Reliability Analysis” روي گزينه Statistics کليک کرده و در قسمت “Descriptive for” گزينه “Scale if item deleted”  را انتخاب کنيم.

خروجي نرم افزارSPSS براي داده هاي اميدي (1387) به صورت زيرخواهد بود:

جدول1) خروجی نرم افزار شامل ضريب آلفا و تعداد سوالات

Reliability Statistics

Cronbach's Alpha N of Items

.855 13





جدول2) خروجی نرم افزار

Item-Total Statistics

Scale Mean if Item Deleted Scale Variance if Item Deleted Corrected Item-Total Correlation Cronbach's Alpha if Item Deleted

V1 48.159 45.067 .470 .848

V2 48.500 44.488 .517 .845

V3 47.977 46.162 .484 .847

V4 48.318 43.989 .660 .838

V5 48.045 44.230 .495 .846

V6 49.227 45.808 .147 .890

V7 47.864 44.074 .690 .837

V8 48.136 43.283 .653 .837

V9 48.000 45.442 .515 .846

V10 48.068 43.646 .616 .839

V11 47.841 43.532 .680 .836

V12 48.318 43.106 .597 .840

V13 48.545 41.323 .671 .834


همانطوريکه ملاحظه مي شود مقدارآلفاي محاسبه شده برابر85 درصد است، که مقدار قابل قبولي است. همانطور که جدول شماره 2 نشان مي دهد حذف سوال ششم (v6) باعث افزايش آلفاي کرونباخ به 89 درصد خواهد شد.   

آلفاي کرونباخ در نرم افزار SAS با استفاده از دستور 

proc corr alpha nocorr nomiss; Variables; run;

محاسبه مي گردد. که به دلايل مشابه بودن خروجي با نرم افزار SPSS از ذکر جزئيات آن خوداري مي کنيم. 

دو نرم افزار SPSS  و SAS قادر به محاسبه ي تتاي ترتيبي نمي باشند و نرم افزار S-plus و R توانائي محاسبه آلفاي کرونباخ را ندارند.

در ادامه با ارائه تابعي (پيوست الف) چگونگي محاسبه آلفاي کرونباخ و تتاي ترتتيبي را توسط R  نشان مي دهيم. 

خروجي برنامه بالا تحت نرم افزار R  براي داده هاي اميدي (1387) در جدول 3 خلاصه شده است.

جدول 3) خروجی برنامه پيوست الف

New_Theta $` Ordinal Theta if a Question Deleted` New_Alpha $`Alpha if a Question Deleted`

0.8849911 Without Question 1 0.8476305 Without Question 1

0.8840719 Without Question 2 0.8448156 Without Question 2

0.8867511 Without Question 3 0.8474065 Without Question 3

0.8765560 Without Question 4 0.8377251 Without Question 4

0.8854676 Without Question 5 0.8461963 Without Question 5

0.8949432 Without Question 6 0.8899667 Without Question 6

0.8737700 Without Question 7 0.8368503 Without Question 7

0.8754874 Without Question 8 0.8368983 Without Question 8

0.8834650 Without Question 9 0.8455129 Without Question 9

0.8782972 Without Question 10 0.8390775 Without Question 10

0.8741109 Without Question 11 0.8361389 Without Question 11

0.8814010 Without Question 12 0.8395971 Without Question 12

0.8775920 Without Question 13 0.8338930 Without Question 13

$`Ordinal Theta for all Question=`  0.8895967 $`Cronbach's Alpha for all Question=` 0.8551825


نتيجه آلفاي کرونباخ جدول بالا مشابه با نرم افزار SPSS مي باشد. همچنين تتاي ترتيبي نيز نتيجه مشابه با آلفاي کرونباخ ارائه مي دهد با اين تفاوت که تتاي ترتيبي برآوردگر دقيق تر نسبت به آلفاي کرونباخ براي پايائي سوالات ارائه مي کند.

نتيجه گيري:

با توجه به کم برآورد پايائي توسط آلفاي کرونباخ توصيه مي شود پايائي سوالات ترتيبي با استفاده از تتاي ترتيبي سنجيده شود.


منابع :

1- Armor, D. J. (1974). Theta reliability and factor scaling. Sociological methodology, 17-50.

2- Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika. 16, 297-334.

3- Diener, E , Emmons, R. A., Larsen, R. J., & Griffin, S. (1985). The satisfaction with life scale. Journal of Personality Assessment, 49, 71-75 .

4- Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading MA: Addison-Wesley Publishing Company.

5- Zumbo, D. B., Gadermann, A. M., and Zeisser, C. (2007). Ordinal versions of coefficient alpha and theta for Likert rating scales. Journal of modern applied statistical methods, 6, 21-29.

6- اميدي، م. (1387). طراحی نظام فناوری اطلاعات و ارتباطات به منظور آموزش کارگزاران خصوصی بيمه کشاورزی ايران. رساله دکتری واحد علوم و تحقيقات دانشگاه آزاد اسلامی. 

  

پيوست الف  (برنامه محاسباتي آلفاي کرونباخ و تتاي ترتيبي توسط نرم افزار R)

Alpha<-function(all_data){

N<-ncol(all_data)

  D<-c()  

Q<-c()

# Cronbach’s alpha calculation

Alpha_Cronbach<-function(data){

k<-ncol(data)  

s<-cov(data)  

A<-c()

sumcov<-sum(s) 

for(i in 1:k){

A<-c(A,s[i,i]) }

sumcov<-sumcov-sum(A)

alpha<-1/((k-1)*mean(A)/sumcov+(1-1/k))

return(alpha) }

 # Ordinal’s theta calculation

theta_ordinal<-function(data){

p<-ncol(data)

p/(p-1)*(1-1/max(eigen(cor(data))$value)) }

for (j in 1: N){

D<-c(D,Alpha_Cronbach(all_data[-j]))

Q<-c(Q,theta_ordinal(all_data[-j])) }

D<-c(D)

list("Alpha if a Question Deleted" = data.frame("New "=""," Alpha"=D, row.names=paste("Without Question.",1:N))

,"Cronbach's Alpha for all Question="=Alpha_Cronbach(all_data),

"Ordinal Theta if a Question Deleted"=data.frame("New "="","Theta"=Q, row.names=paste("Without Question.",1:N))

,"Ordinal Theta for all Question="=theta_ordinal(all_data)) }


مقايسهاي اندازه گيري :


1-مقياس ليكرت 2-مقياس افتراق معنايي 3-مقياس ثرستون  4-مقياس گاتمن 5-مقياس فاصله اجتماعي بوگاردوس


1-مقياس ليكرت:


 ين مقياس از مجموعه اي منظم از گويه ها كه به ترتيب خاصي تدوين شده است ساخته ميشود. اين گويه ها حالات خاصي از پديده مورد اندازه گيري را بصورت گويه هايي كه از لحاظ ارزش اندازه گيري داراي فاصله هاي مساوي است عرضه مي كند.  براي تدوين اين گويه ها معمولا از عبارات مساعد و نامساعد درباره پديده مورد اندازه گيري به تعداد مساوي استفاده ميشود.  پاسخ دهنده ميزان موافقت خود را با هر يك از اين عبارات در يك مقيياس درجه بندي شده كه معمولا از يك تا پنج ياهفت درجه است نشان مي دهد.  سپس ازمودني به هريك از گويه ها از نظر عددي(رتبه) ارزش گذاري مي شود.  حاصل جمع عددي اين ارزشها نمره ازمودني را در اين مقياس بدست مي دهد. در ساختن مقياس ليكرت بايد 6مرحله به شرح زيررا رعايت كرد:


1-      انتخاب مقوله هاي تشكيل دهنده مقياس اندازه گيري وتدوين گويه هاي مساعد و نامساعد مربوط به موضوع


2-      اجراي مقدماتي گويه ها در يك نمونه تصادفي ازپاسخ دهنده ها


3-      محاسبه نمره كل براي هر پاسخ دهنده


4-      تعين توان افتراقي گويه ها


5-      انتخاب گويه هاي برگزيده


6-      تعيين ضريب قابليت اعتماد مقياس


2-مقیاس افتراق معنایی


افتراق معنايي روش كمي براي اندازه گيري معنايي مفاهيم نزد افراد است وعكس العمل افراد نسبت به يك مفهوم يا شيء را توصيف ميكند. در اين مقياس از پاسخ دهنده خواسته مي شود تا مفهومي ررا روي يك مقياس دو قطبي هفت درجه اي علامت گذاري كند. در دو قطب مقياس دو صفت متضاد با هم قرار دارند.  معمولا پاسخهاي ازمودني را مي توان به شيوه هاي مختلف تحليل كرد.  براي تحليل كمي مي توان به درجه بنديهاي هر مقياس نمره هايي از 1تا 7 يا از3- تا3+ داده و سپس با محاسبه جمع يك نمره هاي هر مفهوم در هر يك از مقياسها، مشخص ساخت كه دو مفهوم از نظر يك فرد يا يك گروه تا چه اندازه به يگديگر شبيه هستند. مقياس افتراق معنايي ، ابزاري است كه در مدت زمان كوتاه ، اطلاعات بسيار مفيدي را درباره نگرش افراد بدست مي دهد.  با كمك اين مقياس مي توان نيمرخ نتايج را ترسيم نموده وبا مقايسه نيمرخها اختلاف نگرش نسبت به مفاهيم را نشان داد. مقياس افتراق معنايي بررسي تغيير در نگرش فرد را نسبت به يك موضوع ا مكان پذيرميكند ازاين مقياس در پژوهش هاي روان – درماني نيز استفاده مي شود. خاطر نشان مي شود كه تفسير نتايج حاصله از اين مقياس به آساني صورت نمي گيرد واين خطر هميشه وجود دارد كه درك افراد نسبت به معناي مفاهيم متفاوت از يكديگر باشد.


مراحل ساخت مقياس:


1-      مفاهيم موردنظر را انتخاب كند.اين مفاهيم بايد با مساله تحقيق مرتبط بوده و نسبت به تفاوتها و شباهت هاي گروه مورد مطالعه حساس باشد.


2-      زوج صفت هايي را براي مقياس انتخا كند.وقتي هدف اندازه گيري طرز فكر باشد از صفتهايي كه بيشترين وزنه ارزشي را دارد بايد استفاده كرد


3-      صفت هاي متضاد را بايد طوري در دو انتهاي مقياس قرار داد كه ترتيب خاصي وجود نداشته باشد.براي مثال در يك انتها فقط صفت هاي نشان دهنده قدرت ،فعاليت يا مطلوبيت قرار نگرفته باشد.


3-مقياس ثرستون:


. این مقیاس شامل مجموعه ای از گویه ها است که برای سنجش برخی از مفاهیم به کار می رود. در مقیاس ثرستون از پاسخ دهنده خواسته می شود ، تا تمام مواردی را که با آنها موافق است علامت بزند .  امتیاز هر فرد در این مقیاس به وسیله تعداد گویه هایی که با آن موافق است تعیین می شود.


مراحل ساختن مقیاس ترستون :


1-       تهییه مجموعه ای از گویه هایی کوتاه و دقیق راکه نشانگر طیفی از طرز فکر نسبت به شيئي یا حادثه خاصی باشد.


2-       طبقه بندی گویه ها روی یک مقیاس از یک تا یازده ( از قوی ترین تا ضعیف ترین ) به وسیله یک گروه داور


3-       در نظر گرفتن توزیع ارزشهای مقیاسی ( 1 تا 11 ) هر گویه و محاسبه میانه این توزیع


4-     گویه هایی که ارزش نیم دامنه چارکی (  ) نصف دامنه بین ربع اول و سوم خیلی زیاد است باید حذف شود . دامنه بزرگ نشانگر اختلاف زیاد بین داوران است .


5-       گویه های باقی مانده رابه نمونه اي از آزمودني ها عرضه كرده و از آنان خواسته شود تا گويه هايي را که با آن موافق هستند علامت بگذارند. گویه هایی که از لحاظ آماری دارای هماهنگی درونی پایین است ، حذف مي شود.


6-      از میان گویه های باقی مانده آنهایی که نیم فاصله چارکی آنها فواصل یکسانی را نشان می دهد ، یکی انتخاب کرد.


مقياس گاتمن


این مقیاس شامل مجموعه ای از گویه هاست که در رابطه با نگرش فرد نسبت به یک موضوع تنظیم شده است .


گویه ها بر حسب دشواری ، پیچیدگی یا ارزش وزنی مرتب می شوند و موافقت یا تاکید یک گویه ، مو افقت با سایر گویه ها ی کم وزن تر را به دنبال دارد.   اين ويژگي تراكمي بودن مقياس گاتمن امكن مي دهد تا با داشتن امتياز كلي فرد نمره فرد را در هر گويه اي پيش بيني نماييم.


مراحل ساخت مقياس گاتمن


1-       انتخاب وتدوين گويه هاي مناسب درباره نگرش نسبت به موضوع مورد نظر .براي انتخاب گويه ها مي توان به برخي منابع از قبيل روزنامه ها ، كتابها،مقاله هاي علمي،نتايج تحقيات و مصاحبه با افراد متخصص مراجعه كرد.


2-       اجراي مقدماتي گويه هاي تدوين شده


3-       تجزيه و تحليل پاسخهاي بدست آمده


4-       محاسبه ضريب بازيابي (cr)


ساختن مقياس گاتمن مستلزم طي مراحل دشواريست ولي در مقايسه بامقياس ليكرت وثرستون مزايايي به قرار زير دارد:


الف) امكان تعيين نيمرخ پاسخهاي فرد را فراهم مي كند.


ب) با توجه به ماهيت تراكمي مقياس براي ارزيابي تغييرات نگرش مناسبتر است.


 


مقياس فاصله اجتماعي بوگاردوس


 


نوعي مقياس سنجش نگرش است كه در بررسي نگرش نسبت به گروهاي قومي – نژادي طبقات اجتماعي ،گروه هاي مذهبي و حرفه اي مورد استفاده قرار مي گيرد .  پيش فرض اين مقياس آن است كه فرد پيشداوري بيشتر در مورد يك گروه ويژه داشته باشد ، فاصله اجتماعي بين او و اعضاي آن گروه بيشتر خواهد بود .  در اين مقياس گويه ها به صورت موقعيت هاي فرضي به ترتيبي كه معرف فاصله اجتماعي باشد ارائه مي شود.


 


منبع : سرمد ،بازرگان،حجازي، روشهاي تحقيق در علوم رفتاري ،انتشارات آگاه


 مقیاسی است که به‌وسیله "رنسیس لیکرت" طراحی شده و نوعی مقیاس نگرش‌سنج است که در آن آزمودنی باید میزانی را که برای هر جنبه صحه می‌گذارد ، ابراز کند. مقیاس‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌های لیکرت معمولاً پنج تا هفت پاسخ محتمل را با یک وضعیت خنثی ، ارائه می‌کند مانند کاملاً موافق ، موافق ، بی‌نظر ، مخالف ، و کاملاً مخالف. 

مقیاس‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌های لیکرت می‌توانند نظریات کلی دانش‌آموزان را درباره نظام آموزشی مشخص کنند ، از این مقیاس‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌ها می‌توان برای مقایسه استفاده کرد مانند مقایسه آزمون آغاز و پایان دوره و یا مقایسه یک گروه آزمایشی با گروه گواه.


سوالات آزمون جامع دکترا سنجش-22 تیر 1391- ساعت 8:45 الی 1:15.  نظریه کلاسیک

سوالات آزمون جامع دکترا سنجش-22 تیر 1391- ساعت 8:45 الی 1:15.

نظریه کلاسیک

1. اعتبار چند صفتی-چند روشی را تعریف کنید.

2. تصحیح برای کاهش را تعریف کنید و دلایل اتفاق آن را شرح دهید.

3. اگر بخواهید برای پیش بینی موفقیت شغلی در یک شغل مدلی را تدوین کنید چه مراحلی را پشت سر می گذارید؟ به طور مختصر توضیح دهید.

4. در جدول زير مجموع مجذورات و  مضروبات يك آزمون 6 سؤالي داده شده است كه 100 نفر به آن پاسخ داده اند. ضريب اعتبار را براي كل آزمون و براي دو بخش و براي سه بخش حساب كنيد(بخش ها را به دلخواه انتخاب كنيد) و در پايان در مورد موازي بودن آن ها بحث كنيد. (ص. 42 کتاب گراجتر ترجمه کامکار و دکتر اسکندری مشابه این سوال به نقل از لرد و ناویک هست!)

X1      X2        X3      X4       X5        X6         

X1

X2

X3

X4

X5

X6 79      85        32      62         81       65

85      62        54      36         42       72

32      54

62      36

81      42

65      72


5. دو ارزياب مقالات 5 دانشجو را ارزيابي كرده اند. داده ها در زير آمده است. نمرات بهتر نشان دهنده مقالات بهتر است.

الف) مؤلفه هاي واريانس را محاسبه كنيد؟

ب) ضريب تعميم پذيري و ضريب اتكاپذيري را محاسبه كنيد.

ج) چنان چه سؤالات در ارزيابان آشيانه كنند چه تغييراتي در ضرايب بالا به وجود مي آيد.

ارزيابان

ارزياب 2                                   ارزياب   1

مقاله 2     مقاله 1                  مقاله 2       مقاله  1

1 8            6                          6             4

2

3

4

5

با تشکر از خانم دکتر مقدم azam.moghadam@gmail.com

بعضی از سوالات درس کلاسیک رشته ی سنجش و اندازه گیری دوره ی دکتری امتحانات پایان ترم

سوالات امتحان كلاسيك 1/11/90-دکتر فلسفی نژاد

راستي، اعداد سؤالات زير را تقريبي نوشته شده است تا صرفاً حدود مسأله مشخص شود.

1- كميت را توضيح دهيد و شرايط كمي سازي را بنويسيد؟

2- با ذكر يك مثال تأثير افزايش طول آزمون بر روايي سؤالات را بنويسيد.

3- تأثير نوع همبستگي در گزينش سؤالات را بر توزيع نمرات متغير ملاك توضيح دهيد؟

4- در جدول زير مجموع مجذورات و  مضروبات يك آزمون 6 سؤالي داده شده است كه 100 نفر به آن پاسخ داده اند. ضريب اعتبار را براي كل آزمون و براي دو بخش و براي سه بخش حساب كنيد(بخش ها را به دلخواه انتخاب كنيد) و در پايان در مورد موازي بودن آن ها بحث كنيد.

 

X1      X2        X3      X4       X5      X6     

X1

X2

X3

X4

X5

X6

79      85        32      62         81       65

85      62        54      36         42       72

32      54

62      36

81      42

65      72

 

5- دو ارزياب مقالات 5 دانشجو را ارزيابي كرده اند. داده ها در زير آمده است. نمرات بهتر نشان دهنده مقالات بهتر است.

الف) مؤلفه هاي واريانس را محاسبه كنيد؟

ب) ضريب تعميم پذيري و ضريب اتكاپذيري را محاسبه كنيد.

ج) چنان چه سؤالات در ارزيابان آشيانه كنند چه تغييراتي در ضرايب بالا به وجود مي آيد.

 

 

 

 

 

ارزيابان

 

    ارزياب 2                                   ارزياب   1

 

مقاله 2     مقاله 1                  مقاله 2       مقاله  1

1

  8            6                          6             4

2

 

3

 

4

 

5

 

 

6- اگر بخواهيد مقياسي در مورد برتري مشاغل نسبت به هم بسازيد چه مراحلي طي مي كنيد. توضيح دهيد.

7- تأثير ميزان پراكندگي سؤالات را بر هماهنگي دروني آزمون بنويسيد؟

8-نقطه برش براي آزموني با ضريب روايي 0.6 را كه نمره حد مبين آن 0.6 است را به طوري تعيين كنيد كه 95 درصد از افراد در آن نمره بياورند. شكل مربوطه را رسم كنيد.

با تشکر از جناب آقای طاهری و خانم مقدم (دانشجویان دکتری رشته ی سنجش و اندازه گیری دانشگاه علامه طباطبایی) 

دقت اندازه گيري، خطاي اندازه گيري و ضريب پايايي

يكي از بحث هاي رايج در حوزه ي دقت اندازه گيري شاخص مربوط به اين دقت است. براي برآورد دقت اندازه گيري دو شاخص وجود دارد. يكي مقدار پايايي و ديگري مقدار خطاي اندازه گيري. در مورد اهميت هر كدام از اين دو بحث هاي فراواني شده است. لين در فصلي با عنوان پايايي با بررسي اين موضوع وارد بحث شده است و دلايلي را ذكر مي كند كه خطاي اندازه گيري شاخص بهتري نسبت به پايايي براي بيان دقت يك آزمون است. اين دلايل عبارتند از:

1. از طريق شاخص خطاي اندازه گيري مي توان دامنه ي اطمينان  تعريف نمود.

2. تغيير درجه همگني گروه نمونه روي ضريب پايايي اثر گذاشته اما روي خطاي اندازه گيري تاثيري ندارد. 

3. شاخص خطاي معيار اندازه گيري شاخص عملي تري نسبت به پايايي است. 

4. رابطه ي بين دقت اندازه گيري و خطاي اندازه گيري رابطه ي معكوس و قابل فهمتري است نسبت به شاخص پايايي.


ضريب آلفاي کرونباخ؛ مفاهيم، کارکرد و شيوه هاي نوين آن

ضريب آلفاي کرونباخ؛ مفاهيم، کارکرد و شيوه هاي نوين آن  

دکترامير تيمور پاينده1، دکتر مريم اميدي نجف آبادی2، فهيمه مسعودي فر3

1و 3: دانشگاه شهيد بهشتي، دانشکده علوم رياضي، گروه آمار

2: دانشگاه آزاد اسلامي واحد علوم وتحقيقات، گروه ترويج و آموزش کشاوزي

amirtpayandeh@sbu.ac.ir 

چکيده :

بي شک همه ي ما درطول دوران زندگي خود حداقل يکبار پرسشنامه پرکرده ايم. تا بحال ازخود پرسيده ايد که اين پرسشنامه ها چگونه تهيه مي شوند و نيز معياري براي بررسي ميزان قابليت اطمينان آنها وجود دارد يا خير؟ بديهي است که چنين مقياسي وجود دارد، چرا که بسياري از بررسي ها ي آماري درسطوح وسيع ابتدا درقالب پرسش نامه پايه گذاري مي شوند، پس مي بايست ملاکي براي نظارت  بر قابليت  اعتماد  آنها  وجود داشته باشد.

در اين مقاله، ابتدا به مفهوم ضريب آلفاي کرونباخ و کارکرد آن، شيوه محاسبه آن با استفاده از نرم افزارهاي آماري مي پردازد. نهايتا به معرفي تتاي ترتيبي  و ارائه برنامه ای جهت محاسبه آن (با استفاده از نرم افزار R)خواهيم پرداخت.

مفهوم ضريب آلفاي کرونباخ:

ضريب آلفاي کرونباخ توسط کرونباخ ابداع شده و يکي ازمتداولترين روشهاي اندازه گيري اعتماد پذيري و يا پايائي پرسش نامه هاست. منظور از اعتبار يا پايايي پرسش نامه اين است که اگر صفت هاي مورد سنجش با همان وسيله و تحت شرايط مشابه و در زمانهاي مختلف مجددا اندازه گيري شوند، نتايج تقريبا يکسان حاصله شود.

 ضريب آلفاي کرونباخ، براي سنجش ميزان تک بعدي بودن نگرشها، عقايد و ... بکار مي رود. در واقع مي خواهيم ببينيم تا چه حد برداشت پاسخگويان از سوالات يکسان بوده است. اساس اين ضريب بر پايه مقياسهاست. مقياس عبارتند از دسته اي از اعداد که بر روي يک پيوستار به افراد، اشيا يا رفتارها در جهت به کميت کشاندن کيفيت ها اختصاص داده مي شود. رايج ترين مقياس که در تحقيقات اجتماعي بکار مي رود مقياس ليکرت است. در مقياس ليکرت اساس کار بر فرض هم وزن بودن گويه ها استوار است. بدين ترتيب به هر گويه نمراتي (مثلا از1 تا 5 براي مقياس ليکرت 5 گويه اي) داده مي شود که مجموع نمراتي که هر فرد از گويه ها مي گيرد نمايانگر گرايش او خواهد بود. 

آلفاي کرونباخ بطورکلي با استفاده از يکي روابط  زيرمحاسبه مي شود.

  يا   

که دراين روابط  k تعداد سوالات،   واريانس سوال i ام،   واريانس مجموع کلي سوالات،  ميانگين کواريانس بين سوالات، و   واريانس ميانگين سوالات مي باشند (برگرفته شده از آلن و ين، 2002). 

با استفاده از تعريف آلفاي کرونباخ مي توان نتيجه گرفت: (1) هرقدرهمبستگي مثبت بين سوالات بيشتر شود، ميزان آلفاي کرونباخ بيشتر خواهد شدو بالعکس، (2) هر قدر واريانس ميانگين سوالات بيشتر شود آلفاي کرونباخ کاهش پيدا خواهد کرد، (3) افزايش تعداد سوالات تاثيرمثبت و يا منفي (بسته به نوع همبستگي بين سوالات) بر ميزان آلفاي کرونباخ خواهد گذاشت، (4) افزايش حجم نمونه باعث کاهش واريانس ميانگين سوالات در نتيجه باعث افزايش آلفاي کرونباخ خواهد شد. 

بديهي است هرقدر شاخص آلفاي کرونباخ به 1نزديکترباشد، همبستگي دروني بين سوالات بيشتر و در نتيجه پرسشها همگن ترخواهند بود. کرونباخ ضريب پايايي %45 را کم، %75 را متوسطو قابل قبول، و ضريب %95 را زياد پيشنهاد کرده (کرونباخ، 1951). بديهي است درصورت پايين بودن مقدارآلفا، بايستي بررسي شود که با حذف کدام پرسشها مقدارآن را مي توان افزايش داد. 

تتاي ترتيبي:

در سال 1974 آمارداني به نام آمور در مورد استفاده از آلفاي کرونباخ آماردانان ديگر را به چالش کشيد. استدلال او اين بود که آلفاي کرونباخ بر علاوه بر نارايب بوده (نارايبي مثبت)، بر اساس شاخص هاي تعريف و محاسبه مي گردنند که مربوط به داده هاي با مقياس فاصله اي و يا نسبتي هستند، بنابراين استفاده از آلفاي کرونباخ براي محاسبه اي ميزان پايائي پرسش نامه هاي که حاوي سوالات ترتيبي هستند دقيق به نظر نمي رسد. او براي رفع اين مشکل شاخص جديدي تحت عنوان تتاي ترتيبي به صورت زير ارائه داد.

 

که   بيشترين مقدار ويژه در تحليل مولفه اي اصلي مي باشد. اخيرا زامبو، گادرومن، و زيسر (2007) به مطالعه اين شاخص پرداخته و با چندين مثال شبيه سازي شده نشان دادند که ضريب آلفاي کرونباخ هميشه مقدار پاياي را کم برآورد مي کند. بنابراين توصيه مي شود که در هنگامي که داده ها ترتيبي هستنند به جاي آلفاي کرونباخ از تتاي ترتيبي استفاده شود.

چگونگي محاسبه به همراه مثال عملي:

بسياري از نرم افزارهاي آماري قادر به محاسبه آلفاي کرونباخ هستند. در اين قسمت از مقاله چگونگي محاسبه ي آلفاي کرونباخ را توسط دو نرم افزار SPSS و SAS شرح داده، سپس با ارائه يک برنامه به زبان R  چگونگي محاسبه ي آلفاي کرونباخ و تتاي ترتيبي را توسط نرم افزار R نشان مي دهيم. در ادامه با استفاده از سوالات نمونه گيري مقدماتي اميدي (1387) چگونگي سنجش آلفاي کرونباخ و تتاي ترتيبي را نشان مي دهيم.

براي محاسبه آلفاي کرونباخ  به کمک نرم افزار SPSS مسير زيررا دنبال مي کنيم :

Analyze> Scale> Reliability Analysis…

چنانچه مايل باشيم بررسي کنيم که حذف هرسوال چه ميزان روي ضريب آلفاي کرونباخ تاثير مي گذارد، بعد از باز شدن پنجره “Reliability Analysis Reliability Analysis” روي گزينه Statistics کليک کرده و در قسمت “Descriptive for” گزينه “Scale if item deleted”  را انتخاب کنيم.

خروجي نرم افزارSPSS براي داده هاي اميدي (1387) به صورت زيرخواهد بود:

جدول1) خروجی نرم افزار شامل ضريب آلفا و تعداد سوالات

Reliability Statistics

Cronbach's Alpha N of Items

.855 13





جدول2) خروجی نرم افزار

Item-Total Statistics

Scale Mean if Item Deleted Scale Variance if Item Deleted Corrected Item-Total Correlation Cronbach's Alpha if Item Deleted

V1 48.159 45.067 .470 .848

V2 48.500 44.488 .517 .845

V3 47.977 46.162 .484 .847

V4 48.318 43.989 .660 .838

V5 48.045 44.230 .495 .846

V6 49.227 45.808 .147 .890

V7 47.864 44.074 .690 .837

V8 48.136 43.283 .653 .837

V9 48.000 45.442 .515 .846

V10 48.068 43.646 .616 .839

V11 47.841 43.532 .680 .836

V12 48.318 43.106 .597 .840

V13 48.545 41.323 .671 .834


همانطوريکه ملاحظه مي شود مقدارآلفاي محاسبه شده برابر85 درصد است، که مقدار قابل قبولي است. همانطور که جدول شماره 2 نشان مي دهد حذف سوال ششم (v6) باعث افزايش آلفاي کرونباخ به 89 درصد خواهد شد.   

آلفاي کرونباخ در نرم افزار SAS با استفاده از دستور 

proc corr alpha nocorr nomiss; Variables; run;

محاسبه مي گردد. که به دلايل مشابه بودن خروجي با نرم افزار SPSS از ذکر جزئيات آن خوداري مي کنيم. 

دو نرم افزار SPSS  و SAS قادر به محاسبه ي تتاي ترتيبي نمي باشند و نرم افزار S-plus و R توانائي محاسبه آلفاي کرونباخ را ندارند.

در ادامه با ارائه تابعي (پيوست الف) چگونگي محاسبه آلفاي کرونباخ و تتاي ترتتيبي را توسط R  نشان مي دهيم. 

خروجي برنامه بالا تحت نرم افزار R  براي داده هاي اميدي (1387) در جدول 3 خلاصه شده است.

جدول 3) خروجی برنامه پيوست الف

New_Theta $` Ordinal Theta if a Question Deleted` New_Alpha $`Alpha if a Question Deleted`

0.8849911 Without Question 1 0.8476305 Without Question 1

0.8840719 Without Question 2 0.8448156 Without Question 2

0.8867511 Without Question 3 0.8474065 Without Question 3

0.8765560 Without Question 4 0.8377251 Without Question 4

0.8854676 Without Question 5 0.8461963 Without Question 5

0.8949432 Without Question 6 0.8899667 Without Question 6

0.8737700 Without Question 7 0.8368503 Without Question 7

0.8754874 Without Question 8 0.8368983 Without Question 8

0.8834650 Without Question 9 0.8455129 Without Question 9

0.8782972 Without Question 10 0.8390775 Without Question 10

0.8741109 Without Question 11 0.8361389 Without Question 11

0.8814010 Without Question 12 0.8395971 Without Question 12

0.8775920 Without Question 13 0.8338930 Without Question 13

$`Ordinal Theta for all Question=`  0.8895967 $`Cronbach's Alpha for all Question=` 0.8551825


نتيجه آلفاي کرونباخ جدول بالا مشابه با نرم افزار SPSS مي باشد. همچنين تتاي ترتيبي نيز نتيجه مشابه با آلفاي کرونباخ ارائه مي دهد با اين تفاوت که تتاي ترتيبي برآوردگر دقيق تر نسبت به آلفاي کرونباخ براي پايائي سوالات ارائه مي کند.

نتيجه گيري:

با توجه به کم برآورد پايائي توسط آلفاي کرونباخ توصيه مي شود پايائي سوالات ترتيبي با استفاده از تتاي ترتيبي سنجيده شود.


منابع :

1- Armor, D. J. (1974). Theta reliability and factor scaling. Sociological methodology, 17-50.

2- Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika. 16, 297-334.

3- Diener, E , Emmons, R. A., Larsen, R. J., & Griffin, S. (1985). The satisfaction with life scale. Journal of Personality Assessment, 49, 71-75 .

4- Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading MA: Addison-Wesley Publishing Company.

5- Zumbo, D. B., Gadermann, A. M., and Zeisser, C. (2007). Ordinal versions of coefficient alpha and theta for Likert rating scales. Journal of modern applied statistical methods, 6, 21-29.

6- اميدي، م. (1387). طراحی نظام فناوری اطلاعات و ارتباطات به منظور آموزش کارگزاران خصوصی بيمه کشاورزی ايران. رساله دکتری واحد علوم و تحقيقات دانشگاه آزاد اسلامی. 

  

پيوست الف  (برنامه محاسباتي آلفاي کرونباخ و تتاي ترتيبي توسط نرم افزار R)

Alpha<-function(all_data){

N<-ncol(all_data)

  D<-c()  

Q<-c()

# Cronbach’s alpha calculation

Alpha_Cronbach<-function(data){

k<-ncol(data)  

s<-cov(data)  

A<-c()

sumcov<-sum(s) 

for(i in 1:k){

A<-c(A,s[i,i]) }

sumcov<-sumcov-sum(A)

alpha<-1/((k-1)*mean(A)/sumcov+(1-1/k))

return(alpha) }

 # Ordinal’s theta calculation

theta_ordinal<-function(data){

p<-ncol(data)

p/(p-1)*(1-1/max(eigen(cor(data))$value)) }

for (j in 1: N){

D<-c(D,Alpha_Cronbach(all_data[-j]))

Q<-c(Q,theta_ordinal(all_data[-j])) }

D<-c(D)

list("Alpha if a Question Deleted" = data.frame("New "=""," Alpha"=D, row.names=paste("Without Question.",1:N))

,"Cronbach's Alpha for all Question="=Alpha_Cronbach(all_data),

"Ordinal Theta if a Question Deleted"=data.frame("New "="","Theta"=Q, row.names=paste("Without Question.",1:N))

,"Ordinal Theta for all Question="=theta_ordinal(all_data)) }


ضریب آلفا و روشهاي برگرفته از مدل معادلات  à ساختاري د ر برآورد اعتبار

ضریب آلفا و روشهاي برگرفته از مدل معادلات

à ساختاري د ر برآورد اعتبار

A Comparison between Alpha Coefficient and Structural Equation

Modeling Methods to Estimation of Reliabilityà

àà مسعود کبیري

Masoud Kabiri,*

چکیده

هدف این مطالعه، مقایسه بین ضریب آلفا و

روشهاي برگرفته از مدل معادلات ساختاري در

برآورد اعتبار آزمون است. انطباق با مدل اندازه گیري

اساساً معادل-تاو و عدم همبستگی بین خطاهاي

اندازهگیري مهمترین پی شفرض هاي ضریب آلفا

است. در مقابل، روشهاي برگرفته از مدل معادلات

ساختاري علاوه بر عدم الزام در رعایت چنین

پیشفرضهایی امکان بررسی و آزمون هریک از

آنها و قابلیت وزنبندي گویهها جهت تشکیل

ترکیب بهینه براي تشکیل مقیاس را نیز بهدست

میدهد. در این مقاله چهار روش برآورد اعتبار در

روشهاي مجذور » مدل معادلات ساختاري، شامل

استفاده از ،« اعتبار مرکب » ،« همبستگی چندگانه

مورد بحث « اعتبار بیشینهاي » و « متغیرهاي خیالی »

قرار گرفت. هر یک از این روش ها بر روي داده هاي

حاصل از مقیاس ادراك نسبت به نگرش معلم

ریاضی از مجموعه مقیاسهاي نگرش نسبت به

ریاضی فنما و شرمن بهکار برده شد. دادههاي این

مقیاس از نمونه 340 نفري دانشآموزان سال اول

متوسطه بهدست آمد. نتایج کاربرد هر یک از این

روشهاي برگرفته از مدل معادلات ساختاري نشان

دادکه روشهاي معرفی شده مقادیر بالاتري از اعتبار

مقیاس نسبت به ضریب آلفا را نشان میدهند. کاهش

ضریب آلفا ممکن است به علت عدم انطباق مقیاس

با مدل اساساً معادل-تاو باشد. به طو ر کلی بحث

پیشینهاي بههمراه نتایج مطالعه نشان داد که رو ش

هاي برگرفته از مدل معادلات ساختاري برآوردهاي

دقیقتري براي اندازهگیري اعتبار آزمون هستند.

Abstract

The purpose of this study is comparison

between alpha coefficient and given methods of

structural equation modeling to estimate

reliability of a scale. Due to necessity of

restricted assumptions, that is, fitting to

essentially τ-equivalence measurement model

and uncorrelated measurement errors. Alpha

coefficient may be an inaccurate estimator, In

contrast, methods of structural equation

modeling does not require considering this

assumptions, also there are some possibilities to

test assumptions and weighting items to

construct an optimal scale. In this article, we

discuss four estimators of reliability in structural

equation modeling: square multiple coefficient,

composite reliability, phantom variable and

maximal reliability. Each of them was analyzed

on perception of math teacher' attitude scale- a

scale of Modified Fennema and Sherman's

mathematics attitude scales. Data gathered from

340 ninth grad students. The results reveal these

methods have higher values of reliability scale

rather than alpha. The reduction of alpha may be

due to miss-fit of scale to essentially τ-

equivalent model. In general, the results of this

study along with literature review show that

given methods of structural equation modeling

are more accurate estimators to measurement of

reliability.

Keywords: alpha coefficient, reliability,

structural equation modeling,estimate reliability,

square multiple coefficient, composite phantom

variable, maximal reliability, phantom variable,

maximal reliability.

کلیدواژهها: مدل معادلات ساختاري، ضریب

آلفا، اعتبار مرکب، اعتبار بیشینهاي، متغیر خیالی،

مجذور همبستگی چندگان

1388/6/ 1387 تصویب نهایی : 1 /3/ دریافت مقاله : 4 à

پژوهشگاه مطالعات وزارت آموزش و پرورش àà

à Rresearch Institute for Education of Education ministry, I,R.Iran

*Eٍmail: mkabiri@rie, ir, Tel: (+98)21 88 95 2003, 09102123787

40 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 40

مقدمه —

به عنوان رابطه واریانس واقعی به واریانس « اعتبار » ، در نظریۀ کلاسیک آزمون

مشاهده شده (رایکوف، 2004 ) و ضریب اعتبار به عنوان سهم واریانس نمره مشاهده

شدهاي که توسط واریانس نمره واقعی تبیین می شو د (گراهام، 2006 ) درنظر گرفته

میشود. بر این اساس ضریب اعتبار به عنوان شاخص کلی دقت اندازه گیر ي ملاحظه

می شود (رایکوف، 2004 ) که در نقطۀ مقابل خطاي اندازه گیر ي است . علاو ه براین،

را به عنوان تجانس نمرات یا ثبات درونی نیز تعریف نمود (آناستازي، « اعتبار » می توان

1379 ). این تعریف که یکی از رایج ترین مبانی محاسبات اعتبار را تشکیل میدهد، بر

روش ب هدست آوردن اعتبار بر اساس یکبار اجراي آزمون استوار است که در مقابل

سایر روشهاي محاسبۀ اعتبار مثل بازآزمایی و فرمهاي همتا قرار دارد. معرو فترین

روش محاسبه اعتبار در این مبنا، ضریب آلفا است که توسط کرونباخ پیشنهاد شده

است. بحث این مقاله بر روي این روش از محاسبه اعتبار متمرکز شده است.

بررسی پیشینه پژوهشی نشان میدهد که ضریب آلفا داراي پیشفرضهاي مهم و

جدي است که عدم توجه به آن ها میتواند بر برآورد اعتبار اثر داشته باشد. این

١ گویه ها و عدم همبستگی بین « بودن (τ) معادل-تا و » پیشفرضها شامل اساساً

؛ خطاهاي اندازهگیري گویه ها میباشند (بیکون، سائور و یونگ، 1995 ؛ رایکوف ، 2001

2004 ؛ رایکوف و شراوت، 2002 ؛ کوماروف، 1997 ؛ گراهام، 2006 ؛ گرین و هرشبرگر،

2000 ). اساساً معادل-تاو بودن گویهها به یکسانی نمرات مشاهده شدة گویه ها یا

تساوي بار گویهها مرتبط است. عدم رعایت این پیشفرضباعث می شود که آلفا داراي

اعتبار کمتري باشد. به این دلیل در برخی مواقع اعتبار به عنوان مرز پائین اعتبار شناخته

.( میشود (رایکوف و شراوت، 2002 ؛ گراهام، 2006

و یا اندازه گیر ي در مقیاس یکسان) ) « معادل-تاو بودن گوی هه ا » براي بررسی

می توان انحراف معیار گویه ها را ملاحظه نمود. در صورتیکه انحراف معیار نمرات

گویههاي تشکیل دهندة یک آزمون از یکدیگر تفاوت زیادي داشته باشند، میتوان

چنین نتیجهگیري کرد که این گویهها احتمالاً در مقیاس متفاوتی اندازهگیري می شون د،

در غیر اینصورت، وجود مقیاس یکسان محتمل است. چنین بررسی میتواند توسط

41 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 41

ایجاد فواصل اطمینان پیرامون انحراف معیار انجام شود. به ای نصورت که با ایجاد

فواصل اطمینان حدود انحراف معیار، میتوان معادل بودن آنها را از نظر دیداري

بررسی کرد (گراهام، 2006 ). با این حال، رعایت نکات دیگر ي م یتواند اطمینان از

معادل-تاو بودن گویهها را حاصل کند. بهطور مثال، در صورتیکه از اشکال متفاوتی

براي دریافت پاسخ استفاده کنیم، احتمال معادل-تاو نبودن گویه ها زیاد خواهد بود

(گراهام، 2006 ). به عبارت دیگر، اگر در مقیاسی هم گویههاي صحیح و غلط و هم

گویههاي 5 درجهاي طیف لیکرت وجود داشته باشد، احتمالاً نمی توان این گویه ها را

گویههایی معادل دانست. وزنبندي یکسان گویه ها نیز از عوامل بهدست آوردن

گویههاي معادل-تا و است (بیکون، سائور و یونگ، 1995 ). در بیشتر مطالعات،

گویههاي آزمون با وزن یکسانی با همدیگر ترکیب می شوند . اگر گویه ها وزنهاي

یکسانی براي ترکیب و ایجاد یک متغیر ترکیبی نداشته باشند، احتمالاً مقیاس معادل-تاو

را نخواهیم داشت. از عوامل دیگري که بر معادل-تا و بودن اثر میگذارد، تعداد

٢ ضریب آلفا در آزمونهایی که تعداد « ک م برآورده شدن » ، گویههاست. به طوري که

گویههاي بیشتري دارند، کمتر اتفاق میافتد (گراهام، 2006 ). به این دلیل که با معاد ل-

تاو نبودن یک گویه مقدار کمی از سهم واریانس نمره واقعی تغییر می کن د و بنابراین

کم تر در معادل-تاو بودن مقیاس تأثیر می گذا رد. از طرف دیگر، در مقیاس هاي

کوچک تر، معادل-تاو نبودن یک گویه سهم بیشتري بر معادل-تاو بودن مقیاس دارد. با

اینحال، نتایج برخی از مطالعات نشان میدهد که وجود حتی یک گویه غیر معادل-تاو

میتواند بر دقت ضریب آلفا موثر باشد (رایکوف، 1997 ). با وجود اهمیت این نکات

هیچ روش دقیق و مشخصی بر اساس روشهاي مرسوم اندازه گیر ي براي بررسی

معادل-تاو بودن گویهها وجود ندارد.

٤« متجانس » ٣، معادل-تاو، اساساً معادل-تاو و « مدل موازي » بهطور کلی چهار نوع

وجود دارند که بسته به مفاهیم و عناصر محدود شده آن تعریف میگردند.

محدود ترین مدل اندازهگیري در تعریف نمرات واقعی است. در « مدل موازي » ¨

این مدل علاوه بر آن که همه گویههاي آزمون متغیر نهفتۀ یکسانی را میسنجند (مفهوم

تکوجهی بودن که در تمام آزمون هاي ثبات درونی فرض میشود)، فرضمیشود که

همه گویههاي آزمون دقیقاً معادل یکدیگر هستند. علاوهبرآن، همه گویه ها باید متغیر

42 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 42

نهفته را در مقیاس مشابهی اندازهگیري کرده که با درجه یکسانی از دقت و مقدار

یکسانی از خطا همراه باشند (گراهام، 2006 ). به عبارت دیگر، مقیاس اندازه گیر ي،

دقت و خطاي اندازهگیري همه گویهها یکسان در نظر گرفته می شود . این مطلب را

میتوان با استفاده از معادلهاي ریاضی آن به ترتیب به این صورت نشان داد:

(1) bi= … = bk = ۱

(2) ai=…= ak = ۰

(3) Var (E i) =…= Var (Ek)

ضریب بین متغیرهاي مشاهده و متغیر نهفته (بارهاي عاملی)، bi در این عبارت ها

(4) Ti = aij + bij Tj ضریب ثابت درمعادله ai واریانس خطاي اندازهگیري، و Var (Ei)

.( را نشان میدهد (رایکوف، 1997 Tj و Ti است. این معادله رابطه خطی بین نمرات

دارد به جز آنکه در این « مدل موازي » نیز ساختاري همانند « مدل معادل- تاو » ¨

مدل، خطاهاي واریانس گویهها میتوانند از همدیگر متفاوت باشند. این موضوع دلالت

بر این دارد که تکتک گویهها، متغیر نهفته یکسانی را در مقیاس یکسان و با درجه

دقت یکسانی اندازهگیري می کنند ولی احتمالاً میزان خطاي متفاوتی وجود دارد

1998 ؛ گراهام، 2006 ). معناي مفهومی این مدل آن است که اگرچه همه a ، (رایکوف

نمرات واقعیِ گویهها معادل هستند ولی هر گویه عبارتهاي خطاي منحصر به فردي

( دارد. بر حسب عبارات ریاضی پیشین میتوان گفت که در مدل معادل- تاو عبارت ( 3

درنظر گرفته نمیشود.

فرضمیکند که هر گویه، متغیر نهفته یکسانی را در « مدل اساساً معادل- تاو » ¨

یک مقیاس یکسان ولی با دقت احتمالاً متفاوتی اندازهگیري میکند. علاوهبراین، در این

مدل همانند مدل معادل-تاو احتمالاً خطاهاي اندازهگیري نیز متفاوت هستند (رایکوف،

1997 ). در این تعریف تفاوت بین دقت و مقیاس گویه برجسته شده است. در مدل

معادل- تاو فرض میشود که نمرات واقعی گویهها معادل هستند، ولی در مدل اساساً

معادل- تاو نمره واقعی گویه میتواند توسط ترکیب با یک ضریب یگانه اضافی به هر

زوج از متغیر ها متفاوت باشد. این پیشفرضبهشکل ریاضی اینگونه نوشته میشود:

(۵) Xik = (αk + Ti) + Eik

43 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 43

عبارت فوق این حقیقت را منعکس میکند که اگرچه نمرات واقعی گویهها در

مقیاس یکسانی اندازهگیري میشوند (یعنی واریانس مشابهی دارند)، ولی ممکن است

دقت متفاوتی (میانگینهاي متفاوت) داشته باشند. گنجانیدن ضریب اضافی تنها بر

میانگین گویهها تأثیر میگذارد، ولی بر واریانس و کوواریانس آنها متفاوت نیست

(گراهام، 2006 ). بر حسب عبارتهاي مشخص شده در مدل موازي، میتوان مدلی را

دانست که عبارت هاي ( 2) و ( 3) را رعایت نکرده باشد. براي « مدل اساساً معاول-تاو »

استفاده از ضریب آلفاي کرونباخ لازم است که اندازهگیري حداقل بر مبناي مدل اساساً

معادل-تاو استوار شده باشد. به این معنا که مقیاس و نمرات واقعی گویه ها یکسان

باشد.

در نهایت کمترین محدودیت در آن وجود دارد و به همین دلیل « مدل متجانس » ¨

است. در این مدل فرضمیشود که « اعتبار » عمومی ترین مدل براي استفاده در برآورد

تک تک گویهها متغیر نهفته یکسانی را با مقیاس، دقت و میزان خطاي احتمالاً متفاوت

مدل » اندازهگیري میکنند (آدامسون، شولین، لوید و لوئیس، 2000 ؛ گراهام، 2006 ). در

مدل اساساً » در این است که در « مدل با مدل اساساً معادل-تاو » تفاوت این « متجانس

٥با همدیگر متفاوت « جم عپذیر ي » نمرات واقعی گویهها توسط ضریب « معادل-تاو

هستند، در حالیکه در مدل متجانس بین نمرات واقعی گویهها رابطه خطی فرض شده

و بین هر زوج از آن ها، ضریب جم عپذیر یگانهاي وجود دارد که میتوان آنرا به این

:(1998a ، صورت نشان داد (رایکوف

(۶) Xj = aj + bj T۱

عموم یترین مدل « مدل متجانس » بهطوري که در عبارت ( 6) ملاحظه میشود

اندازهگیري است، زیرا میتوان با رعایت هریک از پیشفرضهاي مدلهاي قبلی، مدل

متجانس را به یکی از مدل هاي محدودتر تبدیل کرد. بنابراین، سه مدل مورد اشاره در

هستند و به همین دلیل است که برخی از « مدل متجانس » بالا زیر مجموعه هاي

صاحبنظران سایر مد لهاي اندازهگیري را یکی از حالتهاي مدل متجانس می دانند

.( (رایکوف و هانکوك، 2005

براي تطبیق داده هاي حاصل از اندازهگیري با هر یک از مدلها از ویژگی سلسله ¨

مراتبی مدل هاي اندازهگیري استفاده میشود. به عبارت دیگر، براي انتخاب بهترین

44 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 44

مدل، از نامحدودترین و غیراقتصاديترین مدل بهسوي محدودترین و اقتصاديترین

مدل حرکت می شود تا بهینهترین مدل انتخاب گردد (گراهام، 2006 ). بدین منظور از

٦ استفاده میشود، یعنی ابتدا از مدل متجانس شروع شده و برازش « مدلهاي آشیانهاي »

این مدل با دادهها آزمون میشود. در صورت معنیداري، مدل معادل-تا و و یا اساساً

معادل-تاو آزمون میشود، یعنی مدلی که بارهاي عاملی آن برابر با یک درنظر گرفته

میشود. در صورتیکه تفاوت در مقادیر آمارة خیدو بین این دو مدل از نظر آماري

معنیدار نبود مدل محدودتر انتخاب شده و در غیر اینصورت مدل اولی و محدودتر به

عنوان مدل مناسب برگزیده میشود. در صورتیکه مدل معادل -تاو پذیرفته ش ود، مدل

موازي آزمون میگردد و خطاهاي اندازهگیري گویهها برابر فرضم یگردند . پس از

آزمودن مدل، تفاوت مقادیر خیدو (آماره تفاوت خیدو) بررسی می گردند . همانند

مرحله قبلی، در صورت معنیدار نبودن آماره تفاوت خیدو مدل محدودتر و در غیر

این صورت مدل نامحدودتر انتخاب می گردد (رایکوف، 1997 ). بنابراین، با توجه به

٧ در اندازهگیري، اگر دو مدل بهطور منطقی برازش پیدا کنند، برآورد « بهینه بودن » اصل

مدل محدودتر از مدل با محدودیت کم تر ترجیح داده خواهد شد. به این دلیل توصیه

شده است که قبل از انجام ه رگونه عمل اندازهگیري، پیش فرض هاي برآورد اعتبار

آزمون شده و مناسبترین مدل در رابطه با دادهها انتخاب گردد.

نیز از جمله شرایط استفاده از ضریب « خطاي اندازهگیري ناهمبسته » پیشفرض ¨

آلفا است. مطالعات نشان دادهاند که همبستگی بین خطاهاي اندازهگیري بر روي برآورد

2004 ؛ کوماروف، 1997 ؛ گرین و هرشبرگر، ؛ ضریب آلفا موثر است (رایکوف، 2001

2000 ؛ لوك، 2005 ). عمده مطالعات در این زمینه نشان میدهند که انحراف از

پیشفرض خطاهاي مستقل میتواند ضریب آلفا را متورم ساخته و در نتیجه ضرایب

آلفا بیش از مقدار واقعی آن برآورد گردند (کوماروف ، 1997 ؛ گرین و هرشبرگر،

2000 ). با اینحال، برخی از نوشتهها حاکی از کم برآورد کردن اعتبار در هنگام همبسته

2004 ). ولی بهطور کلی با توجه به ؛ بودن خطاهاي اندازه گیري دارد (رایکوف، 2001

پژوهشهایی که بهطور منظم این موضوع را بررسی کردهاند، میتوان چنین برداشت

کرد که چنانچه بین خطاهاي اندازهگیري در یک آزمون، همبستگی و به خصوص

٨ میکند (زیمرمن، زومبو « بیشبرآورد » همبستگی مثبت وجود داشته باشد، آلفا اعتبار را

45 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 45

و لالونده، 1993 ). این موضوع در مطالعه دیگري نیز تأئید شد و بر اساس آن مشخص

گردید که وجود خطاي همبسته میتواند تا اندازه اي، مقداري از کمبرآورد شدن اعتبار

به علت معادل-تاو نبودن را کاهش دهد (کوماروف، 1997 ) که معر ف تعامل رعایت

نکردن هر دو پیشفرضاست. مقدار سوگیري آلفا در هنگام بروز خطاهاي همبسته

قابل محاسبه خواهد بود (رایکوف، 2001 ). ناهمبستگی بین خطاهاي اندازه گیر ي از

٩ بهدست میآید. استقلال آماري به دو موضوع اشاره « استقلال آماري » طریق اجراي

دارد: اول آنکه مقدار مشاهده شدة افراد در یک گویه مستقل از مقادیر آنها در

گویههاي دیگر باشد و دوم اینکه مقدار مشاهده شدهي افراد در گویه بهطور آزمایشی

از مقدار مشاهده شده ي هر فرد دیگر در آن گویه یا گویه ها ي دیگر متفاوت باشد

(کوماروف، 1997 ). بنابراین پیشفرض استقلال آماري در هنگامیکه آزمون مشابه

باشند یا گویههاي مقیاس، تقریب همزمان نزدیکی داشته باشند، غیر قابل دفاع خواهد

بود. همبستگی بین خطاهاي اندازهگیري به دلایل متفاوتی رخ میدهد که از آن جمله

وجود یک نظم مشخص بین گویهها خواهد بود. در نتیجه براي پرهیز از بروز چنین

مشکلی میتوان براي به حداقل رساندن ثبات تصنعی، نظم گویهها را بهصورت تصادفی

تنظیم کرد. به عبارت دیگر با اینکار میتوان امیدوار بود که پاسخ افراد به نمره واقعی

آنها وابسته است و نه به پاس خهاي آنان در گویههاي قبلی. علاوهبراین، مواردي چون

اجرا شدن همه گویهها در یک مقیاس بهطور متوالی و در یک وضعیت یکسان، داشتن

عبارتپردازي یکسان و نمرهگذاري در یک جهت نیز از مواردي است که همبستگی

بین گویهها و خطاها را افزایش داده و در نتیجه ضریب آلفا را بیشبرآورد خواهد کرد

.( (گرین و هرشبرگر، 2000

دشواري رعایت پیشفرض ها به همراه فقدان قابلیت بررسی و آزمون آنها در ¨

روشهاي مرسوم اندازهگیري، ابهاماتی را در دقیق بودن ضریب آلفا بهوجود میآورد. به

همین خاطر معمولاً از ضریب آلفا به عنوان برآورد غیردقیق اعتبار یاد م یشو د. با

اینحال، در مواقعی که تعداد نسبتاً زیادي از مولفهها وجود داشته باشند (بیشتر از 6)، یا

0) و خطاهاي / بارها بهطور بالایی در یک سازة نهفتۀ مشترك بار داشته باشند (حداقل 6

اندازهگیري ناهمبستهاي وجود داشته باشند استفاده از آلفا مجاز خواهد بود (رایکوف ،

.(2004 ؛2001

46 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 46

با توجه به مطالبی که گفته شد میتوان نتیجه گرفت که در استفاده از ضریب ¨

حداقل دو مشکل وجود دارد. مشکل اول برآورده کردن « شاخص اعتبار » آلفا به عنوان

پیشفرضهاي لازم براي استفاده از ضریب آلفا و مشکل دوم آزمون کردن هر یک این

پیشفرضها در رابطه با دادههاي در دسترس میباشد. براي حل مشکل اول روشهاي

جايگزین ضریب آلفا پیشنهاد شده است. به عنوان نمونه در پیشفرض ناهمبسته بودن

خطاهاي اندازهگیري گویهها، در مدل معادلات ساختاري خطاهاي اندازه گیر ي را به

خطاي همبستۀ تولید شده توسط عامل و خطاي همبسته تولید شده توسط خطاي

اندازهگیري تفکیک میکنند. خطاي همبستهاي که توسط عاملها تولید م یشود واریانس

معتبر را مورد توجه قرار میدهد، در حالیکه خطاهاي همبسته تولید شده توسط خطاي

.( را درنظر میگیرند (گرین و هرشبرگر، 2000 « نامعتبر » اندازهگیري تصادفی واریانس

براي مواقعیکه مدل اساساً معادل-تاو نیست نیز روشهاي دیگري جايگزین ضریب

آلفا شدهاند که از آن جمله روش امگا یا معادل آن روش اعتبار سازه (بیکون، سائور و

یونگ، 1995 ؛ رایکوف و شراوت، 2002 ؛ زینبرگ، رول و یوول، 2007 )، روش امگ اي

وزنبندي شده (بیکون، سائور و یونگ، 1995 ) و روش ه اي موجود در روش مدل

معادلات ساختاري هستند. براي حل مشکل دوم (عدم توانایی براي آزمون کردن

پیشفرضها) مناسبترین و رایجترین روش، استفاده از مدل معادلات ساختاري است.

در این مقاله سعی میشود که جنبه هاي استفاده از شاخص ها و روشهاي ویژه موجود

در مدل معادلات ساختاري براي برآورد اعتبار و همچنین آزمون پیش فرض ها مورد

بررسی قرار گیرند. همچنین برخی مطالعات نشان دادهاند که ضریب آلفا نسبت به

( وجود نقاط پرت تأثیرپذیر است (لیو و زومبو، 2007

کاربرد روش مدل معادلات ساختاري در برآورد اعتبار ابزار به علت قابلیت ها و ¨

مزایاي استفاده از آن رواج یافته است. مهمترین دلیل استفاده از این روش عدم اجبار

براي رعای تکردن پیشفرض هاي سخت و جدي است که در روش آلفا وجود دارد. در

این روش امکان آن وجود دارد که از مدل اندازهگیري کمتر محدودشده اي همانند مدل

متجانس استفاده شود و در نتیجه الزام استفاده از مدل اساساً معادل -تاو از بین می رود

(آدامسون و همکاران، 2000 ؛ رایکوف، 1997 ؛ رایکوف و شراوت، 2002 ). خطاهاي

ناهمبسته نیز از جمله پیشفرضهاي اساسی در ضریب آلفاست که به عنوان همبستگی

47 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 47

خطاي اندازهگیري درنظر گرفته میشود، ولی در روش مدل معادلات ساختاري کاملاً

١٠ درنظر گرفته نمیشود بلکه به عنوان « خالصیا ناب » به صورت خطاي اندازهگیري

عوامل باقیمانده مشخصنشده مورد توجه قرار میگیرند. این نمرات باقیمانده هم

مولفههاي تصادفی و هم مولفههاي غیرتصادفی را در بر می گیرند. خطاهاي همبسته

بهصورت همپراکندگی تولید شده توسط مولفههاي غیرتصادفی یا عواملی هستند که

لزوماً بهصورت نااعتبار ملاحظه نمیشوند (گرین و هرشبرگر، 2000 )، در نتیجه می توان

بین خطاهاي اندازهگیري گویهها همبستگی درنظر گرفت. به عبارت دیگر، دو گویه

می توانند تأثیرات تصادفی مشترکی را دربرگیرند که در نمرات خطاي مرتبط با آنها

مشترك بوده و به همبستگی بین این خطاها منجر شوند (رایکوف، 2001 ؛ کوماروف،

1997 ). علاوه بر مزیت آزاد بودن از رعایت پیش فرض ها، در روش هاي برگرفته از

مدل معادلات ساختاري امکان محاسبه اعتبار با استفاده از عملکرد وزنبندي کردن

گویهها نیز وجود دارد. استفاده از بارهاي غیر مساوي گویه ها براي برآورد اعتبار در

زمانی که گویهها بهطور مساوي بر برآورد ساز هها تأثیر نمیگذارند، مفید است (بیکون،

1998 ). همچنین به علت انعطاف بالاي روش مدل a ، سائور و یونگ، 1995 ؛ رایکوف

معادلات ساختاري امکان بررسی تفاوتهاي گروهی در اعتبار مرکب، بررسی تفاوت

اعتبار در نسخههاي متفاوت ابزار اندازه گیري (مثلاً نسخه قلم و کاغذي در مقابل نسخه

1998 )، به دست a ، رایانهاي) (رایکوف، 2004 )، استفاده از دادههاي مقوله اي (رایکوف

آوردن خطاهاي معیار و فواصل اطمینان براي اعتبار مرکب در حالتی که به پیش فرض

،( 1998 ؛ رایکوف و شراوت، 2004 a ، نرمال بودن مولفهها وابسته نباشند (رایکوف

فراهم میگردد. امکان محاسبه میزان سوگیري و کمبرآوردي ضریب آلفا نیز از دیگر

2001 ). به تمامی ؛1998b ؛ قابلیتهاي روش مدل معادلات است (رایکوف، 1997

مزایاي اشاره شده میتوان امکان آزمون کردن پیشفرضها را اضافه نمود که با سایر

روشها قابل انجام نیست.

با وجود مزایاي مدل معادلات ساختاري در برآورد اعتبار، ملاحظاتی در مورد

استفاده از این روش باید انجام پذیرد که مهمترین آن نیاز به نمونههاي بزرگ

مشارکتکنندگان است. این امر بهویژه در مورد دادههاي طبقهاي که تعداد محدودي

گزینه براي پاسخ دارد، از اهمیت خاصی برخوردار است زیرا در اینگونه مواقع روش

48 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 48

١١ براي آزمون مدل مورد نیاز بوده که این « مجذورات وزنبندي شده » برآورد حداقل

روش حساسیت زیادي در مورد استفاده از نمونههایی دارد که به طو ر بهینه بزرگ

2004 ). لذا در این موقعیتها استفاده از ؛2001 ؛ شناخته میشوند (رایکوف، 1997

نمونههاي کوچک براي برآورد اعتبار مرکب گمراهکننده است. علاو ه بر ای ن، تعداد

گویهها ملاحظه قابل توجهی در آزمون مدل هاي اندازهگیري بهشمار میرود. در مواقعی

که تنها دو گویه وجود داشته باشد، روشهاي محاسبه اعتبار تنها براي مدل هاي موازي

یا معادل -تاو قابل کاربرد هستند زیرا براي حالت آزمون موازي، مدل دو پارامتر آزاد

١٢ است (درجه آزادي برابر با یک است). در این « بیششناساییشده » دارد و بنابراین

موقعیت با افزودن محدودیتهاي اضافی همچون برابري بارهاي شاخص(مدل معادل-

تاو) و یا برابري واریانس خطا (مدل موازي) مدل در حالت قابل برازشی قرار میگیرد

(رایکوف و هنکوك، 2005 ). براي مدل معادل -تاو، این مدل سه پارامتر آزاد دارد و

١٣ است (درجه آزادي برابر با صفر است). مدل متجانس در این « کاملاً شناساییشده »

وضعیت کم شناساییشده بوده (درجه آزادي آن منفی است) و بنابراین کاربرد عملی

ندارد (یورسکاگ و سوربوم، 1993 ). در زمانی که سه گوی ه وجود دارد، مدل متجانس

١٤« مدل اشبا عشد ه » کاملاً شناساییشده و قابل برآورد میشود ولی نمی توان آن را با

.( مقایسه کرد زیرا هر دوي این مدلها داراي درجه آزادي صفر هستند (رایکوف، 1997

با گویههاي بالاتر از چهار، تمامی مدلها کم شناسای ی شد ه بوده و در مقابل مدل

اشباعشده قابل دفاع خواهند بود.

در استفاده از مدل معادلات ساختاري براي برآورد اعتبار روشهاي مختلفی ¨

پیشنهاد شده است. بهطور کلی می توان این روشها را به دو دستهي روش ه اي مبتنی

بر تک تک گویهها یا متغیرهاي مشاهده شده و روشهاي مبتنی بر ترکیب متغیرهاي

مشاهده شده تقسیم نمود. گرایش بیشتر پژوهشگران و صاحبنظران بر استفاده از

روشهاي مبتنی بر ترکیب گویه هاست تا به این وسیله بتوانند جایگزینهاي مناسبی را

براي روشهاي مرسومی همچون آلفا پیشنهاد دهند. با این وجود در ابتدا روش ه اي

مبتنی بر تک تک گویهها معرفی میگردند.

مشخصشد که اعتبار قسمتی از اندازهگیري است که مشمول « اعتبار » در مفهوم ¨

اعتبار به عنوان ،« مدل معادلات ساختاري » خطاي تصادفی نمیشود. بنابه تعریف در

49 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 49

تعریف میشود (راین س- « واریانسی که به وسیله خطاي اندازهگیري تبیین نمیشود »

128 ). مشهورترین شاخصی که بر مبناي بررسی ت کتک گویه ها معرفی ، اودي، 2000

١٥ نام دارد که نشا ندهند ه مقدار « ضریب مجذور همبستگی چندگانه » ، شده است

توسط متغیر نهفته است (راینس- اودي، 2000 ؛ قاضی x واریانس تبیین شده در متغیر

طباطبایی، 1377 ؛ یورسکاگ و سوربوم، 1993 ). این شاخص به عنوان حد پائین اعتبار

مورد توجه قرار میگیرد، به این معنی که اعتبار هر گویه حداقل برابر x براي متغیرهاي

با مجذور همبستگیهاي چندگانه است (قاضی طباطبایی، 1377 ؛ یورسکاگ و سوربوم،

1993 ). مقادیر این شاخص از طریق خروجیهاي برنام ههاي رایانه اي مدل معادلات

بهدست میآیند و مقدار آن بین صفر و یک است. جهت LISREL ساختاري همچون

0 به عنوان ضرایب مناسب درنظر گرفته / تفسیر این شاخص ها، مقادیر بالاتر از 5

میشوند (راینس- اودي، 2000 ). همچنین جداي از این شاخص، همبستگی هر گویه

با متغیر نهفته در هر زیرمقیاس نیز به عنوان ضریبی براي ثبات درونی هر گویه معرفی

.( شده است (عابدي، 2002

راهبرد دوم ترکیب متغیرها که رواج زیادي پیدا کرده است، ترکیب همه گویه ها ي

١٦ یاد می شو د. این « اعتبار مرکب » یک عامل با همدیگر است که از آن روش به عنوان

روش بر اساس مفهوم اصلی اعتبار در نظریه کلاسیک آزمون بنا شده است که اعتبار را

به عنوان سهم واریانس نمره واقعی به واریانس نمره مشاهده شده درنظر میگیرد. بدین

منظور لازم است که برآوردهایی براي واریانس نمره واقعی و واریانس نمره مشاهده

شده داشته باشیم. واریانس نمره مشاهده شدهي یک اندازه میتواند توسط ایجاد یک

متغیر مشاهده شده ترکیبی در دسترس قرار گیرد که توسط جمع واریانسهاي تکتک

متغیرهاي مشاهده شده بهوجود میآید (گراهام ، 2006 ). در این روش یک شاخص

آماري براي برآورد اعتبار مجموعه اي از گویهها که در یک عامل قرار دارند ارائه

میشود. با توجه به نوع ترکیب گویهها و وضعیت خطاهاي آنها (با خطاي همبسته و

بدون خطاي همبسته) فرمولهاي چندگانهاي پیشنهاد شده است که قابل تبدیل به

یکدیگر میباشند. در حالت کلی و مدلهاي متجانس و ه مچنین گویه ها ي وزنبندي

، نشده، اعتبار مرکب بهوسیله این فرمول بهدست می آی د (آدامسو ن و همکارا ن، 2000

:(345 ، 973 ؛ رایکوف، 2004

50 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 50

å å

å

= =

=

+ k

i 1 ii

k

i 1

2

i

k

i 1

2

i

( )

( )

b

b θ ( = اعتبار مرکب ( 7

å= دراین عبارت

k

مجموع ضرایب بین متغیرهاي مشاهده شده و نهفته i 1bi

å= گویه و k ( (بارعاملی

k

i 1 ii گویه را نشان م یده د. در k مجموع واریانس هاي خطاي θ

صورتیکه بین خطاهاي اندازهگیري همبستگی وجود داشته باشد، از فرمول زیر استفاده

:(344 ، میشود (رایکوف، 2004

å å å

å

= = £ < £

=

+ +

1 i j k jj

k

i 1 ii

k

i 1

2

i

k

i 1

2

i

( ) θ 2 θ

( )

b

( اعتبار مرکب ( 8 = b

کوواریانس خطاي غیرصفر است. qjj(1£i< j£k) در این عبارت

این دو فرمول قابل تبدیل به وضعی ت گوی ه ها ي وزنبندي شده هستند. در

این حالت، گویهها با وزنهاي خاصی با همدیگر ترکیب شده و نمره مرکبی را بهوجود

میآورند. نمره مرکب از طریق عبارت زیر بهدست میآید:

(9)Y = w1y1 + w2y2 + ... + wkyk

از پیش مشخصهستند (چگونگی بهدست wk ،... ،w2 ،w دراین عبارت وزن هاي 1

آوردن وزنها در قسمت هاي بعدي توضیح داده خواهد شد). اعتبار مرکب یک آزمون

:(344 ، وزنبندي شده از طریق فرمول زیر محاسبه میگردد (رایکوف، 2004

å å

å

= =

=

+ k

i 1 ii

2i

k

i 1

2

i

k

i 1

2

i

( i ) θ

( i )

w b w

( اعتبار مرکب ( 10 = w b

:(345 ، در حالت خطاهاي همبسته (رایکوف، 2004

å å å

å

£ < £

= =

=

+ +

1 i j k

i j jj

k

i 1 ii

2i

k

i 1

2

i

k

i 1

2

i

( i ) θ 2 w w θ

( i )

w b w

( اعتبار مرکب ( 11 = w b

روش هایی که در بالا توضیح داده شد، برآورد نقطه اي اعتبار مرکب را نشان

میدهند. میتوان با استفاده از روشهایی برآورد فاصله اي اعتبار مرکب را نیز محاسبه

کرد. برآورد فاصلهاي در مطالعات اعتبار میتواند مفید باشد. بر پایه چنین روشهایی

نتایج حاصل از برآورد اعتبار به فواصل مشخصی تعریف میشود (رایکوف و شراوت،

.(2002

51 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 51

علاوه بر روش بالا م یتوان اعتبار مرکب را از طریق تعریف پارامترهاي جدید در

١٧ در مدلها محاسبه نمود. این کار از طریق تعریف « برازش شده » یک مدل از قبل

١٨ امکانپذیر است. در این روش با محدود کردن ضرایب در نمرات « متغیر خیالی »

مشاهده شده، نمرههاي مشاهده شده به مجموع نمرات خطا و نمره واقعی تجزیه

نامیده میشوند، با همدیگر ترکیب میگردند تا نمره Xi میشوند. سپس این نمرات که

به وجود آید. مجذور همبستگی متغیر خیالی با متغیر نهفته اعتبار مرکب (F) متغیر خیالی

آزمون را نشان خواهد داد (رایکوف ، 1997 ؛ گراهام ، 2006 ). شکل نمادین ساخت

متغیر خیالی در شکل 1 مشخصشده است.

.(176 ، شکل 1- چگونگی ساخت متغیر خیالی (منبع: رایکوف، 1997

می توان بهجاي محدود کردن پارامترها در عدد یک، از وزنهاي شناخته شدهاي

براي هریک از مسیرها استفاده کرد. در انتخاب این وزنها (wk ،... ،w2 ،w (همچون 1

میتوان یا از پژوه شهاي قبلی و یا از دانش نظري توسط صاحبنظران استفاده کرد.

T

X٢ X٣ … Xk

F

E٢ E٣

Ek

١

١ ١

٭ ٭ ٭

٭٭٭

١ ١

52 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 52

همچنین با توجه به قابلیت عدم الزام براي تشخیص دقیق ضرایب مسیر، میتوان از

به عنوان وزن استفاده نمود (رایکوف ، 1997 ). بنابراین با (λi) برآوردهاي بار عاملی

میتوان متغیر خیالی را بهوجود wi=λi محدود کردن ضرایب نمرات مشاهده شده در

آورده و از طریق آن برآوردي از اعتبار مرکب وزنبندي شده را بهدست آورد. به طور

کلی کاربرد این روش با استفاده از نرمافزارهاي آماري مدل معادلات ساختاري قابل

انجام است. دراستفاده از این روش باید بهخاطر داشت که از مدلهایی استفاده گردد که

قبلاً ساختار آنان برازش یافته باشد.

١٩« اعتبار بیشینهاي » در نهایت، روش آخري که مورد بحث قرار می گیرد، ضریب ¨

است که به عنوان شاخص اعتبار سازه تعریف میشود که میتوان سازه نهفته را

توسط شاخصهاي سازه درنظر « لحاظ شده » بهصورت مقداري تعریف شده و یا

گرفت (رایکوف و هنکوك، 2005 ). اعتبار بیشینهاي به عنوان آخرین شاخص براي

برآورد اعتبار در روش مدل معادلات ساختاري پیشنهاد شده است. این شاخص از

ترکیب مجموعهي از پیش تعریف شدهاي از مولفههاي متجانس با عبارتهاي خطاي

ناهمبسته تشکیل شده است. این روش میتواند در ساخت، توسعه و تجدید نظر مقیاس

بهینه به کار آید. قابلیت مهم آن در سنجش تغییرات اعتبار بیشینهاي در نتیجه حذف و یا

افزودن یک یا چند اندازه است. همچنین با استفاده از ترکیب خطی وزنبندي شده

می توان اعتبار مرکبی را بهوجود آورد که داراي بالاترین درجه تفکیکپذیري در جنبه

نهفته مورد نظر بوده و حداقل واریانس خطاي نسبی ممکن را داشته باشد. با این

ترکیب وزنبندي شده آماره رضایتبخشی از نمره توانایی نهفته بهدست م یآید .

بررسیهاي تجربی نشان میدهند هنگامیکه نمرات عامل با روش برآورد حداقل

٢٠ در یک مدل تکعاملی برآورد م یشود، اعتبار بیشین هاي با « مجذورات عمومی شده »

روش متغیر خیالی (مجذور همبستگی بین عامل و ترکیب برآورد کننده ه ا) مساوي

.( است (رایکوف و هنکوك، 2005

تعیین وزن ها از اهمیت خاصی برخوردار است. « اعتبار بیشینهاي » در روش ¨

روشهاي متفاوتی براي اینکار پیشنهاد شده که در قبل به چند مورد از آنها اشاره شد.

در تکمیل این بحث دو روش دیگر نیز معرفی میشود که اولی به صورت نسبت بار

53 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 53

عاملی به خطاي آن است که میتوان آنرا بهصورت زیر نوشت (کانجر، 1980 ، به نقل

:( از رایکوف و هنکوك، 2005

(i , ,...,m) θ

w β

i

* i

i (12) = =12

دومین روش که کاربرد زیادي در اعتبار بیشینهاي دارد به نسبت مجذور بارهاي

به خطاي مرتبط با آن تعریف میگردد که به این صورت (η اندازهها در جنبه مشترك ( 1

آنرا میتوان نشان داد:

( ,..., ) * i m

i

i

wi 1,2

2

= = q

(13) b

(ρi با ملاحظه چگونگی محاسبه وزن ها، ضریب اعتبار بیشینه اي جامعه

(* به این

:(68 ، صورت محاسبه میشوند (رایکوف و هنکوك، 2005

å

å

=

=

+

= m

i 1 i i

m

* i 1 i i

(m) ( )

( )

θˆ

βˆ

θˆ

βˆ

ρˆ 2

2

1

(14)

آزمون تغییرات در اعتبار بیشینهاي به عنوان نتیجهاي از حذف و افزودن متغیرها ¨

یکی ازجنبههاي مهم این روش است. بنابر این روش، اگر بخواهیم که ابزاري با

اندازه متجانس m بالاترین اعتبار بیشینه اي را از طریق مجموعه از پیشتعریف شده اي با

باید بالاترین نسبتهاي مجذور بار ،(m>k) ،( اندازه k در اندازه معینی بسازیم (مثلاً

شاخص در واریانس خطاي مرتبط ( )

θ

β

i

i

2 را انتخاب کنیم. در نمونههاي معین از جامعه

مورد علاقه، ترتیب رتبه و انتخاب باید بر حسب نسبتهاي

q

b

ˆ

ˆ

i

از (i = 1,2,...,m) ، i

مولفه انجام میشود. پس از انتخاب m پارامترهاي برآورد شده در هنگام برازش مدل با

مولفه، برآورد بیشینهاي مجموعه کوچکتر محاسبه میشود و سپس آزمون معنی داري k

تغییرات در اعتبار بیشینهاي انجام میشود. فرضصفر در این آزمون به این صورت

است:

r r*

( )

*

H0 (m) = k (15) =

c2 c2 c آماره آزمون بر اساس 2

m k m k

D = -

( , ) محاسبه شده که براي نمونههاي بزرگ

درجه آزادي پیروي میکند. اگر خیدو تفاوت معن یدار m-k از توزیع خیدو مرکزي با

بود، فرض صفر رد می شود و نتیجه گرفته می شود که اعتبار بیشینهاي به عنوان نتیجه اي

m-k اندازه، کاهش خواهد یافت و یا با افزودن m مولفه از مجموعه اولیه m-k از حذف

54 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 54

اندازه اعتبار افزایش خواهد یافت (رایکو ف و هنکوك، k اندازه در مجموعه اولیه

2005 ). ذکر این نکته لازم است چنان چه در اعتبار بیشین هاي فرضمیشود هنگام

حذف اندازهها از مجموعه اولیه اندازههاي متجانس، هیچ گاه اعتبار بیشین هاي بالاتري

بهدست نمیآید و تنها میتوان بررسی کرد که آیا کاهش چندین اندازه میتواند از نظر

آماري بر کاهش اعتبار بیشینهاي موثر باشد یا نه؟ برآورد نقطهاي میزان تغییرا ت اعتبار

بیشینهاي نیز میتواند با استفاده از فرمول مربوطه و همچنین متغیر خیالی بهدست آید.

توجه به ملاحظاتی لازم است؛ از جمله آنکه « اعتبار بیشینهاي » در استفاده از ¨

و همراه با رعای ت k= تعداد اندازهها در کوتاهترین ابزار مورد بررسی باید به میزا ن 2

باشد. همچنین براي کاربرد این روش با نرمافزارهاي موجود کنونی، باید m>k

مولفه هاي (تقریباً) پیوستهاي را مورد بررسی قرار داد، در غیر اینصورت میتوان از

٢١ استفاده نمود. علاو ه بر ای ن، این « ساخت بسته » ماتریس همبستگی پلیکوریک و یا

روش بر اساس مولفههاي متجانس و خطاي اندازهگیري ناهمبسته استوار شده است.

بنابراین، اگر حداقل یکی از این پیشفرضها رعایت نشود، مدل توصیف شده ممکن

٢٢ باش د « زیربهینهاي » است نتایج گمراه کنندهاي را بهبار آورده و مستلزم ترکیب ابزار

(رایکوف و هنکوك، 2005 ). بنابراین قبل از اینکه از این روش استفاده شود، باید مدل

تکعاملی در همه مولفهها برازش شده و برازش آن براي قابل دفاع بودن و مناسب

بودن شاخصهاي اصلاح در کوواریانس خطا مشخصشود.

مقدمه اي بر همتراز سازي (equating) كه معادل سازي يا برابرسازي نيز ترجمه شده است

در بسیاري از موقعیت هاي روانشناختی و آموزشی، چندین فرم از یک آزمون براي سنجش

توانایی پیشرفت عملکرد و مانند آن قابل استفاده است. وقتی چند فرم آزمون براي اندازه گیري

توانایی یکسانی اجرا می شود در حقیقت قادر به مقایسه نمرات آزمون افراد هستیم با آزمون هاي

موازي این کار به صورت مستقیم انجام می شود. آزمون هاي موازي محتواي یکسانی را اندازه می

گیرند و ویژگی آماري مشترکی دارند ( تساوي میانگین، انحراف استاندارد و پایایی).

نمره ها در آزمون هاي موازي کاملاً قابل تعویض بوده و هیچ مشکلی در زمینه مقایسه

نمرات در فرم هاي موازي آزمون پیش نمی آید. اغلب، چند فرم از یک آزمون که ویژگی

یکسانی را اندازه می گیرند موازي نبوده و مقایسه ي نمرات به راحتی انجام نمی شود چون

فرم هاي مختلف آزمون در چند خصوصیت با هم تفاوت دارند (عدم تساوي میانگین ها،

واریانس ها، پایایی ها و مانند آن) بنابر این قبل از مقایسه نمرات آزمودنی ها در چند فرم از

یک آزمون ایجاد تعادل بین نمرات خام در فرم هاي مختلف از یک آزمون لازم است این عمل

همتراز سازي 1 آزمون ها نام دارد. اگر چه نظریه پردازان و عمل کنندگان به نظریه ها با هم

اختلاف عقیده دارند براي نمره هاي همتراز شده شرایطی وجود دارد که باید به اتفاق نظ ر

برسند مانند شرایطی که بعد از اجراي روش هاي همتراز سازي نمرات بدست آمده است.

روش همتراز سازي نه فقط باید بتواند توانایی مبادله ي نمرات را داشته باشد بلکه باید

به محتواي آزمون و جامعه هدفی که آزمون براي آنها در نظر گرفته شده نیز مربوط باشد.

به منظور دقت بیشترچهار ویژگی لازم براي نمره هاي آزمون همتراز شده در زیر آمده

(2005 است. ( گراجتر و وندرکمپ 2

خانم دكتر اكبري

مشكلات بررسي پايايي در آزمون هاي فرافكن  

مشكلات بررسي پايايي در آزمون هاي فرافكن

1.      عدم توانايي استفاده از روش هاي معمول كمي در تعيين شاخص پايايي به عنوان مثال استفاده از روش تنصيف به دليل اين كه قدرت معادل كردن محرك هاي فرافكن وجود ندارد امكان پذير نيست. به عنوان مثال در آزمون رورشاخ نمي توان دقيقا كارت ها را به دو قسمت تقسيم نمود. روش ديگر برآورد شاخص پايايي در معني ثبات زمان استفاده از روش هاي باز آزمايي است به دليل اين كه ماهيت آزمون هاي فرافكن ماهيت ديناميك دارد و تغييرات در نتايج آزمون نشان دهنده ي تغييرات واقعي است و به سازه ي اندازه گيري شده بر مي گردد و نه به خطا. وابسته به زمان است بنابراين مقدار اين پايايي نيز قابل استناد براي روش هاي فرافكن نيست

2.      در عمل نشان روش هاي مختلفي براي ارائه ي محرك ها در آزمون هاي فرافكن وجود دارد و بنابراين دستيابي به شاخص درستي از پايايي آزمون ممكن نيست.

3.      پاسخ به محرك ها دامنه ي بسيار وسيعي را در بر دارد و بنابراين استفاده از روش هاي مرسوم در تعيين مقدار براي پايايي امكان پذير نيست

4.      نمره گذاري آزمون هاي فرافكن چه بسا بعد از رشد يافتن خود آزمون گسترش يافته اند مانند آزمون فرافكن تي اي تي. نمره گذاري ها نسبي است و بنابراين نمره گذاري هاي نسبي موجب مقادير كم پايايي براي آزمون هاي فرافكن مي شود.

5.      دستورالعمل هاي مربوط به آزمون هاي فرافكن متنوع اند اين دستور العمل ها نتايج مختلف و اندازه هاي مختلفي را ارائه مي دهد كه قابل تامل است.

6.      نقش آزمونگر در جريان آزمون نتيجه اي غير قابل انكار در نتايج آزمون مي گذارد. اين موضوع به در بر گيرنده ي شيوه ي تعامل و نمره گذاري قضاوتي آزمونگر مي شود. بايد به خاطر داشت که ناپايايي نمره گذاري در ناپايايي آزمون تأثير مي گذارد.

7.       

بررسي پايايي آزمون هاي فرافكن

پايايي و فنون فرافکن

نمره هاي کمّي حاصل از آزمونهاي فرافکن چنانچه با روشهايي که توصيف شدند ارزيابي شوند، اغلب پايايي اندکي دارند. از آنجايي که پايايي يک اندازه يا شاخص، حد بالايي را بر سودمندي بالقوه يا اعتبار آن تحميل مي کند، پاياييهاي کم اغلب در بررسيهاي پژوهشي روي اين آزمونها مسئول اعتبارهاي پايين قلمداد مي شوند. از طرف ديگر، همچنين استدلال شده است که روشهاي معمول براي ارزيابي پايايي را نمي توان براي ابزارهاي فرافکن به کار برد. براي مثال، گفته مي شود که روش دونيمه سازي براي آزمون رورشاخ نامناسب است، زيرا غيرممکن است که بتوان اين ده کارت را به گونه اي تقسيم کرد که دو نيمه قابل مقايسه را به دست دهد. پايايي بازآزمايي را نيز نمي توان به کار برد، زيرا آزمون مجدد، در واقع، يک تجربه روان شناختي متفاوت از آزمون اوليه است و چون گفته مي شود که فنون فرافکن نسبت به تغييرات جزيي در آزمودني حساس هستند، در واقع، به نظر مي رسد که در برخي از آزمونهاي فرافکن فرض مي شود که اين ابزارها کاملاً پايا هستند و اينکه تغييرات مشاهده شده در پاسخهاي آزمون با گذشت زمان مؤيد تغييرات واقعي در فرد هستند. بسياري از ويژگيهايي که اين آزمونها با آنها سرو کار دارند، مانند خُلق يا سطح انرژي با گذشت زمان تغيير مي کنند و بدين وسيله استدلال محکمي را دال بر اين مفروضه به دست مي دهند. با وجود اين، هر گونه شناخت واقعي از مشکلات پايايي اندازه گيري بايد به اين نتيجه منجر شود که بسياري از اين تغييرات، اگرچه نه همه آنها، تابعي از پايايي فرعي اين ابزارهاست. 

مشکلات اندازه گيري در ناپايايي هر آزمون تأثير دارد، ولي بعضي از مشکلات به ويژه در خصوص ابزارهاي فرافکن ايجاد مي شود. به طور کلي، مواد محرک مورد استفاده در آزمونهاي فرافکن با توجه به اينکه طبقه هاي نمره گذاري مختلف به طور مناسبي بر اساس محرکها تنظيم شوند، انتخاب نمي شوند. براي مثال، متوسط تعداد پاسخهاي حرکت (M) براي افرا غيربيمار در آزمون رورشاخ با توجه به انحراف معيارحدود 2، برابر 4 و متوسط جزئيات نادر (Dd) تنها برابر يک است (اکسنر، 1990). در عمل حداکثر پايايي اين اندازه گيريها همان طوري که نشان دادن اعتبارهاي معنادار امري تقريباً غيرممکن است، پايين است.

غالباً همان طور که در مورد آزمون TAT صادق است، نظامهاي نمره گذاري تا چند سال بعد از اينکه مواد محرک انتخاب شده باشند، تنظيم نخواهند شد. در آزمون TAT، آزمايندگان حتي در اين مورد اختيار دارند که کدام محرک را سرانجام به کار ببرند. اين رشد اتفاقي طبقه هاي نمره گذاري در ميزان پاياييهاي کم، تأثير دارد. نمره هاي نسبي (و تفاوت آنها) همان گونه که در آزمون رورشاخ به کار مي روند، به ويژه نسبت به پاياييهاي کم، حساس هستند. هولتزمن(818) در تهيه HIT، به انتخاب کارتهايي توجه کرد که در کميتهاي نمره گذاري تأثير خاصي داشتند؛ در نتيجه، پاياييهاي اکثر طبقه هاي HIT مناسبتر هستند. 

مشکل ديگر شامل استاندارد بودن دستورالعملهاست. راهنماييهاي مربوط به اجراي اکثر زبانهاي فرافکن استاندارد نشده اند، به طوري که به آزماينده امکان دهند تا به طور معناداري بر پاسخهاي آزمودني اثر گذارند. حتي اگرچه در نظام کنوني اکسنر(1986)، آزمون رورشاخ بر کاربرد ابزارهاي استاندارد شده تأکيد مي کند، آزماينده مي تواند هنوز تفاوت قايل شود. براي مثال، گراس(819) (1959) آزمون رورشاخ را روي 30 بيمار اجرا کرد، و در خصوص 20 نفر از آنها با گفتن "بسيارخوب" يا تکان دادن سر پس از هر پاسخ محتواي انسان تقويت اجتماعي را براي آنها فراهم کرد. بيماراني که بدين ترتيب تقويت شدند، در مقايسه با 10 نفر ديگر به طور معناداري پاسخهاي محتواي انسان بيشتري را ارايه دادند. اهميت اين تفاوتهاي ظريف آزماينده که ممکن است او به آنها واقف نباشد، بايد براي خواننده روشن باشد.

حتي مشکل غامضتر اين است که به آزمودنيها اغلب اجازه داده مي شود که پاسخهاي مختلف چندي بدهند که طولهاي نابرابري دارند. احتمالاً اثر محتواي روان شناختي يک پاسخ يا مجموعه پاسخهاي طولاني در مقايسه با يک پاسخ کوتاه متفاوت است. پاسخهاي کوتاه در آزمون رورشاخ يا TAT، عمدتاً مواد رايج يا پيش پا افتاده را شامل مي شوند. پراکندگي در طول پاسخ همچنين انجام مقايسه هاي آماري را بي اندازه مشکل مي کند.

مشکل ديگر در نمره گذاري تجلي مي کند. در بعضي آزمونها مانند MMPI، نمره گذاري جنبه مکانيکي دارد؛ يعني، هيچ گونه قضاوت ذهني در خصوص طبقه يک پاسخ صورت نمي گيرد يا قضاوت ذهني اندکي مورد استفاده قرار مي گيرد. همين موضوع در مورد بعضي از طبقه هاي نمره گذاري آزمونهايي مانند رورشاخ صادق است. براي مثال، هنگامي که داده ها جمع آوري مي شوند، تعيين تعداد کل پاسخهاي ارايه شده شامل هيچ قضاوتي نيست و يا قضاوت ناچيزي را در بر مي گيرد. به همين ترتيب، اندازه گيري بلندي يک شکل نقاشي يا مساحت کل آن، يک روش نسبتاً مکانيکي است. ولي با اين حال، تعيين اکثر نمره هاي حاصل از آزمونهاي فرافکن شامل چندين قضاوت ذهني است، براي مثال، آيا اين پاسخ رورشاخ شامل رنگ يا حرکت انسان است؟ آيا اين داستان TAT نياز به پيشرفت يا مهرورزي را نشان داده و يا اينکه هر دو را نشان مي دهد؟ در خصوص آن دسته از آزمونهاي فرافکن که چند روش نمره گذاري مختلف ولي مشابه را در بر مي گيرند، مشکل حتي شديدتر است.

اگرچه سؤال مربوط به پايايي نمره گذار به طور ساده يک توافق بين داوران و درون داوران است، ولي بايد به خاطر داشت که ناپايايي نمره گذاري در ناپايايي آزمون تأثير مي گذارد. مورستاين(820) (1963، ص 146-144) جدول خلاصه اي از پاياييهاي نمره گذاران را در خصوص ويژگيهاي نمره گذاري شده از آزمون TAT ارايه کرده است. از 45 مطالعه اي که پايايي تحت لواي همبستگي در آنها گزارش شده بود، ميانه پايايي نمره گذاران 0/74 به دست آمد. با پاياييهايي از اين دست، مشکلات دستيابي به سطوح قابل قبول پايايي آزمون در واقع زياد هستند. با وجود اين، مي توان در اين زمينه به پاياييهاي بالاتري نيز دست يافت. در اين خصوص، هولت(821) (1978) داده هاي TAT حاصل از چند منبع را گزارش کرد که حاکي از پايايي بالاي نمره گذاران تا سقف 0/90 بودند. دستيابي به ضرايب پايايي بالا معمولاً شامل راهنماهاي مبسوطي است که طبقه ها را با دقت تعريف کند و مثالهاي نمره گذاري را ارايه دهد. از آنجايي که کاربرد چنين راهنماهايي نيازمند توجه زياد و تلاش وافر در تعميم دادن يک نمره واحد است، آنها بيشتر به جاي قاعده يا حکم، موارد استثنايي را نشان مي دهند.


پايايي يا همان reliability

پايايي مفهومي است كه به خطاي اندازه گيري بسيار نزديك است و در واقع اين دو مفهوم با يكديگر معادل اند. دقت اندازه گيري نيز كه با خطاي اندازه گيري رابطه ي عكس دارد نيز همان مفهوم پايايي را دارد. بنابراين بررسي ها و بحث هايي كه پيرامون خطاي اندازه گيري – خطاي منظم و خطاي تصادفي- مي شود مي تواند به حوزه ي پايايي آزمون نيز كشيده شود. لين در مقدمه فصلي كه در باره ي پايايي نوشته است براي بررسي مفهوم پايايي از خطاي اندازه گيري شروع كرده است. شاخص هاي متفاوتي از پايايي آزمون يا ابزار اندازه گيري در ادبيات روانسنجي موجود است براي بررسي اين شاخص ها مي توان به گفتاري از ريموند كتل اشاره كرد. كتل سه روش عمده را مطرح کرد که بر اساس آنها پايايي را مي توان اندازه گيري کرد (البته وي اين اصطلاح کلي را بيشتر از اصطلاحهاي ديگر ترجيح مي داد). اولين روش، ثبات و توافق نمره ها در دفعات متوالي اجراست؛ يعني، تغييراتي که در يک آزمون و روي يک گروه از افراد در زمانهاي مختلف صورت مي گيرد. کتل اين نوع پايايي را "ثبات" ناميد. روش هايي مانند بازآزمايي و استفاده از تحليل هاي همبستگي به منظور كمي سازي اين ارتباط و بيان درجه اي از ثبات استفاده مي شوند.  دومين نوع پايايي به آزمونهاي مختلف ( يا بخشهاي يک آزمون که معمولاً ماده هاي انفرادي هستند) بر مي گردد و شامل توافق مربوط به يک بار اجراست که با استفاده از چند آزمون (يا بخشهاي آزمون) روي يک گروه از افراد صورت مي گيرد. اين ثبات "همگني" ناميده مي شود. در كلي ترين حالت آلفاي كرونباخ كه "متوسط ضريب بين تمام آزمون هايي است كه از تنصيف آزمون قابل دست يابي است" مي تواند به عنوان ضريبي از همگني سوالات آزمون در نظر گرفته شود. البته همانطور كه مشخص است آلفاي كرونباخ فرم كامل مربوط به فرمول هاي كودر ريچاردسون 20 و 21 نيز مي باشد.  نوع سوم ثبات به افراد مختلف بر مي گردد و شامل توافقي است که در مورد معناي نمره هاي يک آزمون که در يک زمان معين روي مجموعه هاي مختلفي از افراد اجرا شده است. اين نوع ثبات "انتقال پذيري" ( يا سرسختي) ناميده مي شود.

انتقال پذيري و يا سرسختي كه به مسئله تعميم معني نمرات آزمون به موقعيت هاي مشابه در يك زمان خاص اشاره دارد توسط كرونباخ گليسر و ساير روانسنجان مشهور دنيا به طور گسترده تري بررسي شده است. بر اساس نظر آنها پايايي بايد به بررسي ميزاني از ثبات نتايج در گروه مرجع و يا در موقعيت هاي مختلف اتلاق شود.  اين موضوع تا حدي مي تواند جدايي مفهومي كه در ادبيات روانسنجي بين روايي و پايايي وجود دارد را تا حدي تعديل نمايد. بر اساس اين مطالعات نظريه ي تعميم پذيري به منظور بررسي ثبات نتايج آزمون بوجود آمد. 

نكته اي كه اخيرا به شدت مورد حمايت روانسنجان قرار گرفته است اين است كه بررسي پايايي آزمون و يا ابزار اندازه گيري يك بحث و گفتگو است كه در آن سعي مي شود پايايي آزمون به هر روش و طريقه ي ممكن اثبات شود. جي پاركس استاد دانشگاه مكزيكو سيتي در مجله ي اندازه گيري رواني مقاله اي با عنوان 

Reliability as an argument

دارد كه در آن بيان مي كند پايايي شامل روش ها و ارزش هاي علمي و اجتماعي مهمي براي اثبات آن ارزش ها مي باشد كه بسيار به ديدگاه مسيك در مورد اعتبار است. 



نظريه تعميم پذيري  

نظريه تعميم پذيري

در سال 1964، ريموند بي.کتل(812) سه روش عمده را مطرح کرد که بر اساس آنها "اثبات آزمون" را مي توان اندازه گيري کرد (البته وي اين اصطلاح کلي را بيشتر از اصطلاحهاي ديگر ترجيح مي داد). اولين روش، ثبات و توافق نمره ها در دفعات متوالي اجراست؛ يعني، تغييراتي که در يک آزمون و روي يک گروه از افراد در زمانهاي مختلف صورت مي گيرد. کتل اين ثبات را "پايايي" ناميد. دومين نوع ثبات به آزمونهاي مختلف ( يا بخشهاي يک آزمون که معمولاً ماده هاي انفرادي هستند) بر مي گردد و شامل توافق مربوط به يک بار اجراست که با استفاده از چند آزمون (يا بخشهاي آزمون) روي يک گروه از افراد صورت مي گيرد. اين ثبات "همگني" ناميده مي شود. نوع سوم ثبات به افراد مختلف بر مي گردد و شامل توافقي است که در مورد معناي نمره هاي يک آزمون که در يک زمان معين روي مجموعه هاي مختلفي از افراد اجرا شده است. اين نوع ثبات "انتقال پذيري" ( يا سرسختي) ناميده مي شود.

در يک رويکرد مشابه، کرونباخ، گليزر(813)، ناندا(814) و راجارتنام(815) (1972) فرض کردند که اساسي ترين موضوع در پايايي، سؤال مربوط به تعميم دادن مشاهده ها يا اندازه گيريها به طبقه ديگري از مشاهده هاست. بنابراين، به نظر آنها پايايي بايد به بررسي ميزاني مربوط شود که بر اساس آن، نمره هاي حاصل، معرف نمره هاي به دست آمده از شرايط ديگر يا "مجموعه هاي مرجع" مختلف است. مثالها مطالعه نمره هاي حاصل از نمره گذاران مختلف، ماده هاي آزمون، روشها، مشاهده کننده ها يا دفعات مختلف را در بر مي گيرند. همان طوري که در يک بحث دقيق درباره اين روش توسط ويگينز(1973) مورد تأکيد قرار گرفت، يکي از مزيتهاي اصلي اين روش در آن است که پژوهشگران را وا مي دارد که در خصوص مجموعه مرجع خاصي که مايل اند مشاهده هاي خودشان را بدان تعميم دهند، صريح و روشن باشند. اين امر تا اندازه اي از تمايز سنتي بين پايايي و اعتبار مي کاهد. جونز(816)، ريد(817) و پترسون(1975) در نظام کدگذاري رفتاري خودشان، مثال خوبي را در زمينه مطالعه کمّي تعميم پذيري گزارش کردند. در اين مطالعه، آزمودنيها، مشاهده کنندگان و دفعات مختلف، مجموعه هاي مرجع تعميم بودند.


روايي محتوي

روایی محتوا مبتنی بر قضاوت¬های حرفه¬ای در مورد مرتبط بودن محتوای آزمون به محتوای یک حیطه رفتاری خاص مورد نظر و در مورد معرف بودن است که در آن محتوای سوال یا تکلیف، آن حیطه را پوشش می¬دهد، می¬باشد. بدین ترتیب روایی محتوا به فرایندهای پاسخ، ساختارهای درونی و بیرونی آزمون، تفاوت¬های عملکرد و پاسخدهی به کاربندی  یا با پیامدهای اجتماعی توجهی ندارد. بنابراین روایی محتوا، به جای شواهدی در حمایت از تفسیرهای نمرات آزمون، شواهد قضاوتی در حمایت از مرتبط و معرف بودن محتوای ابزار آزمون تهیه می¬کند. پاسخ¬های آزمون و نمرات آزمون حتی در تبیین¬های معمول روایی محتوا مورد توجه قرار نگرفته است. از این رو اگر چه ملاحظات مرتبط و معرف بودن محتوا به طور واضح بر ماهیت تفسیرهای نمره که به وسیله¬ی شواهد دیگر حمایت می¬شود تاثیر می-گذارد و باید تاثیر بگذارد اما به طور اساسی اصطلاحاً روایی محتوا اصلاً واجد شرایط روایی نیست (مسیک، 1975). قطعاً بعضی از متخصصان آزمون می¬پذیرند که آن چه یک آزمون اندازه می¬گیرد عملاً با تعیین کردن جامعه محتوای سوال و فرایند انتخاب سوال  تعریف می¬شود.  اما همان¬طور که ما خواهیم دید، تعیین آن¬چه یک آزمون اندازه می-گیرد همیشه به منبعی برای شکل¬های دیگر شواهد نیاز دارد. 

اعتبار و پايايي

در اين مقاله با تفصيل به مفاهيم پايايي و اعتبار پرداخته ایم . اين بررسي براي دستيابي به يک درک مناسب از چشم انداز و محدوديتهاي روشهاي ارزيابي مختلف ضروري است. در عين حال، عوامل نامربوط نظامدار يا تحريفهاي پاسخ نيز مورد بحث قرار گرفته اند. اين تحريفها که بر کاربرد شيوه هاي ارزيابي شخصيت اثر مي گذارند، مشکل کوششهاي عمدي و حتي ناهشيار را براي ايجاد يک تأثير مطلوب (يا نامطلوب) در ديگران در بر مي گيرند.

پايايي، همان طوري که از نام آن بر مي آيد، به قابليت تکرار يا اعتماد يک اندازه يا شاخص مربوط مي شود. به عنوان يک مثال بسيار ساده، مي توان گفت که ديروز ما قد يک کودک را اندازه گرفته و مقدار 122/68 سانتي متر را به دست آورده ايم. ولي امروز فرد ديگري قد همان کودک را اندازه گرفته و مقدار 122/93 سانتي متر را گزارش کرده است. اين دو مقدار تا اندازه زيادي با يکديگر هماهنگ هستند؛ يعني، ما نوعي اندازهگيري اوليه از قد کودک را در نظر گرفته ايم که در بررسي مجدد تأکيد يا تکرار شده است. اين 0/25 سانتي متر اختلاف، اين واقعيت را نشان مي دهد که تکرار اندازه گيريها تقريباً همواره تا اندازه اي ثبات يا پايايي دارد و پذيرش اين نتيجه از جانب ما نشان مي دهد که اين بي ثباتي به اندازه اي نيست که سودمندي آن را انکار کنيم. بدين ترتيب، اختلاف 0/25 سانتي متر تحت اين شرايط به اندازه اي ناچيز است که مي توان آن را بي اهميت تلقي کرد. با وجود اين، در ساير اندازه گيريهاي فيزيکي اين سطوح تحمل بسيار کم هستند، مانند سيلندر موتور که اين تفاوت، اهميت بسياري دارد و سطح بالاتري از پايايي اندازه گيري مورد نياز است.

پايايي همان دقت نيست. دقت به ميزان صحتي اشاره مي کند که اندازه گيري را بر اساس آن مي توان مشخص کرد؛ بدين ترتيب، يک شيوه اندازه گيري که به ما امکان مي دهد تا نتايج را بر اساس يک هزارم سانتي متر گزارش کنيم، دقيقتر از آن اندازه گيري است که نتايج را بر اساس يک دهم سانتي متر به دست مي دهد. درجه دقت يک ابزار مکانيکي که امکان اندازه گيري 2/432 را فراهم مي سازد، يک هزارم سانتي متر است، ولي اگر تحت شرايط يکسان اين وسيله، مقدار 2/381 سانتي متر را به دست دهد، پايايي اين اندازه گيري به هيچ وجه منطبق با دقتي نخواهد بود که اين ابزار از آن برخوردار است.

اين ويژگي که اندازه گيريها را بايد "به اندازه کافي دقيق" انجام داد، در ارزيابي شخصيت نيز کاربرد دارد. اندازه گيري شخصيت در مقايسه با اندازه گيري خصوصيات فيزيکي مانند قد، هميشه نسبتاً فاقد دقت است؛ و بنابراين، تا اندازه اي ناپاياست. بدين ترتيب، ميزان دقت يک ابزار ارزيابي شخصيت بايد با پايايي آن همخواني داشته باشد. براي کساني که از چنين ابزارهايي استفاده مي کنند معمولاً ميزان شاخص پايايي مشخص شده است. ما مجدداً در يک فرصت مناسب به موضوع پايايي باز خواهيم گشت.

اندازه گيري شخصيت داراي شکل ديگري نيز هست که در اندازه گيريهاي فيزيکي به چشم نمي خورد و آن به استانداردهاي مورد قبولي مربوط مي شود که بر اساس آنها اندازه گيريها صورت مي گيرند. هيچ ترديدي وجود ندارد که يک ياردسنج (يا يک مترسنج) براي اندازه گيري فواصل خطي مانند قد مناسب است. با وجود اين، در ارزيابي شخصيت، غالباً سؤالهايي درباره صحت و دقت ابزارهاي اندازه گيري به منظور ارزيابي بُعد يا ويژگي مورد بررسي مطرح مي شوند. براي مثال، آيا واقعاً مي توان افسردگي را با شمارش پاسخهاي رنگي به موارد بي رنگ در آزمون رورشاخ اندازه گرفت؟ در اين مورد، نه تنها سؤال مربوط به شمارش پاياي اين پاسخها مطرح است، بلکه شکل ديگر و جدي تر اين است که آيا شمارش پاسخهاي رنگ به اندازه گيري درستي از افسردگي مي انجامد، درست به همان شيوه اي که علايم مندرج ياردسنج به شاخص معتبري از قد منجر مي شود (صحت يا اعتبار ابزارهاي اندازه گيري مورد استفاده در اندازه گيريهاي فيزيکي که درجات بسيار بالايي از دقت لازم را دارد، مشکلات چندي ايجاد کرده است.)

چون پيش از آنکه بتوانيم تعيين کنيم که آيا اندازه گيري در واقع به مفهوم مورد نظر مربوط مي شود يا خير، بايد از پايايي مناسب برخوردار باشد، ابتدا به بحث درباره پايايي مي پردازيم. معيارهاي آزمون تربيتي و روان شناختي که يک راهنماي عملي براي پايايي و اعتبار است، براي چندين سال توسط انجمن روان شناسي آمريکا انتشار يافته است (براي مثال، انجمن پژوهش تربيتي آمريکا- انجمن روان شناسي آمريکا- شوراي ملي اندازه گيري در تربيت، 1985) و تمام افرادي که فعالانه در ساختن ابزارهاي اندازه گري شخصيت و کاربرد آنها شرکت دارند، بايد اين راهنما را به دقت مطالعه کنند. کتاب راهنمايي که به منظور استفاده ويژه در زمينه انتخاب استخدامي به کار مي رود و با اين کتاب راهنما قابل مقايسه است، توسط شاخه روان شناسي صنعتي- سازماني انجمن روان شناسي آمريکا (1980) منتشر شده است. در اين کتاب راهنما توجه خاصي به موارد اعتبار و پايايي و تهيه ملاکها مبذول شده است و منبع مرجع سودمندي در اين زمينه ها محسوب مي شود.

پايايي


پايايي به قابليت تکرار يا قابليت اعتماد اندازه گيري اشاره دارد. در يک موقعيت فرضي که روش اندازه گيري کاملاً پاياست، فرض مي شود که هر گونه تغييري در اندازه گيري حاصل نشان دهنده يک تغيير واقعي در صفت مورد مطالعه است. بدين ترتيب، در چنين نظامي، افزايش يک کيلوگرم در مقياس نشان خواهد داد که وزن شيء مورد نظر دقيقاً يک کيلوگرم زياد شده است؛ به همين ترتيب، افزايش نمره حاصل از يک مقياس افسردگي نشان خواهد داد که پاسخ دهنده در حال حاضر افسردگي بيشتري دارد. پايايي يک اصطلاح کلي است؛ اصطلاحهاي همساني و ثبات به ترتيب براي توصيف پايايي وابسته به ابزار و پايايي مربوط به زمان به کار مي روند.

همساني به ميزان توافقي اشاره مي کند که از به کارگيري دو يا چند ابزار اندازه گيري (يعني، مقياسها، خط کشها يا آزمونها) حاصل مي شود. هر گونه ابزار اندازه گيري يا مجموعه ابزارها را مي توان برگرفته از جامعه گسترده اي از اين ابزارها (چه واقعي يا چه فرضي) در نظر گرفت که مي توان از آنها براي اندازه گيري اين صفت خاص استفاده کرد. همساني معمولاً با به کارگيري يک آزمون يا آزمونهاي همزمان ديگر مورد ارزشيابي قرار مي گيرد که ترجيحاً به طور تصادفي از جامعه در دسترس اندازه گيريها انتخاب مي شوند. اگرچه اين موضوع در اندازه گيري ابعاد فيزيکي مانند قد يا وزن به مشکلات اندکي مي انجامد، ولي با اين حال، مشکلات چندي را در ارزيابي شخصيت ايجاد مي کند. ما به زودي اين مشکلات را مورد بررسي قرار خواهيم داد.

ثبات به دقت اندازه گيري حاصل با گذشت زمان اشاره دارد. چنانچه از ابزار ديگري براي اندازه گيري مجدد استفاده شود، بازآزمايي با گذشت زمان علاوه بر ثبات، همساني را نيز شامل مي شود. هرگاه در دو بار اندازه گيري از يک ابزار استفاده شود، ارزيابي مستقيم ثبات اندازه گيري را مي توان انجام داد. بدين ترتيب، ناتواني در رسيدن به پايايي کامل به واسطه ناهمسانيها يا خطاهايي است که تابع تغييرات حاصل در نظام مورد نظر با گذشت زمان يا تابع تغييرات مربوط به ابزار مورد نظر و يا هر دو هستند.

به طور کلي، پايايي به شواهد مختلفي اشاره مي کند که در صدد توصيف يک توافق کلي ميان عمليات اندازه گيري هستند. هر کدام از اين شواهد بر منبع معيني از عدم توافق يا خطا تأکيد مي کند و بقيه منابع را ناديده مي گيرد. اندازه گيري شخصيت شامل گرفتن نمونه اي از رفتار در يک زمان و روز معين در قبال مجموعه معيني از محرکهاست. البته اين پاسخها بايد بر طبق يک شيوه معين توسط يک آزماينده خاص ثبت شوند. بعضي از خطاهاي نمونه گيري با هر کدام از اين "موارد خاص" رابطه دارند. اين زمان خاص نمونه اي از يک دوره زماني است و اين مجموعه خاص از محرکها يا سؤالها نمونه اي از يک دسته واقعي يا فرضي از محرکها در دسترس است. بسيار اهميت دارد که بتوانيم مشخص کنيم که يک پاسخ يا نمره خاص، احتمالاً تا چه اندازه به عنوان تابعي از تغييرات در هر کدام از اين خصوصيات اندازه گيري تغيير مي کند. متأسفانه، اين نوع اطلاعات به ندرت در ارزيابي شخصيت به چشم مي خورد. 

بررسي کتاب هاي درسي در زمينه نظريه روان سنجي (براي مثال گيزلي(807)، 1964؛ نانالي(808)و برنشتاين(809)، 1994) نشان مي دهد که فرضهاي فلسفي متخصصان در زمينه مبناي اندازه گيري روان شناختي با يکديگر متفاوت است. اين تفاوتها در فلسفه به تفاوتهاي چندي در توصيف دقيق مفهوم و معناي پايايي و تفاوتهايي در شيوه هاي پيشنهادي براي اندازه گيري پايايي يک شاخص انجاميده است. در اين فصل، ما مي کوشيم تا مسير ميانه اي را از ميان رويکردهاي مختلف برگزينيم و در عين حال، علاوه بر موضوعهايي که فراتر از طيف اين کتاب قرار مي گيرند، از ناهمسانيها نيز اجتناب کنيم.

ما با اين نکته شروع مي کنيم که پايايي به طور تنگاتنگي با مفهوم خطاي اندازه گيري رابطه دارد. خطاهاي اندازه گيري را مي توان به صورت منظم يا تصادفي در نظر گرفت. هرگاه ما زمان را از روي ساعتي مشاهده کنيم که همواره پنج دقيقه جلوست، مرتکب يک خطاي منظم شده ايم. از طرف ديگر، هرگاه اين ساعت درست ولي به اندازه اي دور از ما قرار گرفته باشد که ما نتوانيم عقربه دقيقه شمار را بخوانيم، مرتکب يک خطاي تصادفي شده ايم. خطاهاي منظم را مي توان به صورت خطاهايي در نظر گرفت که با اشتباههاي معلوم رابطه دارند؛ و خطاهاي تصادفي را که به متوسط نمره درست يا مطلق گرايش دارند، مي توان زماني به صورت "موارد نامعلوم" در مشاهده در نظر گرفت که تمام خطاهاي منظم شناسايي يا حذف شده باشند.

به عبارت ديگر، خطاهاي اندازه گيري تصادفي با روش اندازه گيري "شکل مي گيرند"، درست مانند زماني که مي کوشيم با يک خط کش که تنها با اينچ مدرج شده است با تقريب يک دهم اينچ اندازه گيري کنيم يا هنگامي که سعي مي کنيم "افسردگي" را با يک پرسشنامه مداد و کاغذي کلي که فاقد ويژگيهاي باليني ضروري افسردگي است، ارزيابي کنيم. برخلاف اين خطاهاي تصادفي که اجتناب از آنها مشکل است، خطاهاي منظم مشخص تر و صحيح تر هستند. به يک معنا، خطاهاي منظم ناشي از سازنده يا استفاده کننده آزمون هستند تا اينکه به خود ابزار اندازه گيري برگردند. هرگاه ما يک مقياس افسردگي را روي آزمودنيهايي اجرا کنيم که در يک فرهنگ (يا خرده فرهنگ) متفاوت زندگي مي کنند در مقايسه با آزمودنيهايي که از هنجارهاي مناسبي برخوردارند، يا هرگاه دستورالعملهاي فشارزايي را به کار ببريم که آشکارا از دستورالعملهاي مربوط به جامعه هنجاري متفاوت باشند، در معرض خطاي منظم قرار خواهيم داشت. اين خطاهاي منظم بالقوه را مي توان و البته بايد با تنظيم هنجارهاي جديد مبتني بر گروه فرهنگي مناسب يا شرايط ديگر سنجش تصحيح کرد.

نظريه پردازان روان سنجي در کوششهاي خود براي به کميت درآوردن پايايي، به طور سنتي به مشخص کردن سهم خطاهاي تصادفي در پايايي کم پرداخته اند. عقايد آنها درباره اينکه آيا بايد خطاهاي منظم را نيز به عنوان منبع ناپايايي اندازه گيري در نظر گرفت با يکديگر اختلاف دارد، و از اين رو، ماحصل اين اختلاف عقيده در شاخص عددي پايايي انعکاس يافته است. تعدادي از شاخصهاي متداول پايايي نشان دهنده خطاي تصادفي هستند؛ و تعدادي نيز بعضي از منابع خطاي منظم و نه تمام آنها را نشان مي دهند. در نسخه تجديدنظرشده جديدتر معيارهاي سنجش تربيتي و روان شناختي (1985) با تصديق اين موضوع که روشهاي مختلف محاسبه پايايي، شامل منابع مختلف خطا هستند، توصيه شده است که پژوهشگران بايد دقيقاً روشن کنند، چه روشهايي را در به دست آوردن شاخص پايايي خاص مورد نظر به کار برده اند.

اکنون به روشهاي متداول محاسبه پايايي توجه کنيد. شاخص سنتي پايايي، ضريب پايايي است که مي توان آن را هم به عنوان همبستگي بين نمره هاي واقعي آزمون و نمره هاي "واقعي" فرضي و هم به عنوان متوسط همبستگي بين نمره هاي واقعي آزمون و ساير آزمونهاي احتمالي که همان خصوصيت را اندازه مي گيرند، در نظر گرفت. رويکردهاي عملي زير که براي محاسبه پايايي به کار مي روند، با اين تعريف شباهت دارند.

همان طوري که قبلاً اشاره کرديم، آن نوع پايايي که صرفاً با خطاي تصادفي رابطه دارد (خطاهاي ناشي از اين واقعيت که محتواي آزمون صرفاً نمونه اي از کل محتواست که ويژگي مورد نظر را در بر مي گيرد)، ثبات يا ثبات دروني آزمون ناديده مي شود. ثبات را مي توان به شيوه هاي مختلف ارزيابي کرد. يک روش، تقسيم آزمون به دو نيمه قابل مقايسه است که با يکديگر همبسته هستند. بدين ترتيب، همبستگي حاصل با استفاده از فرمولي که فرمول پيشگويي اسپيرمن - براون ناميده مي شود، با توجه به ارزش مورد انتظار براي کل آزمون "تصحيح" مي شود. چنين برآوردي از ثبات که با مقايسه ماده هاي زوج و فرد آزمون به دست مي آيد، ثبات پايايي از طريق دو نيمه کردن ناميده مي شود. روش ديگر، تعيين ثبات از طريق کاربرد نسخه هاي مشابه يا جانشين (يا موازي) آزمون است. همبستگي بين اين نسخه ها اساساً با همبستگي تصحيح شده بين دو نيمه آزمون مطابقت مي کند. هنگامي که نسخه هاي جانشين در دسترس نباشند، راه حل رايج، استفاده از روش بازآزمايي است. همبستگي بين اين دو مجموعه از نمره ها ضريب پايايي بازآزمايي ناميده مي شود.

يکي ديگر از روشهاي محاسبه پايايي که از لحاظ آماري تا اندازه اي پيچيده تر است، با استفاده از فرمول پايايي کودر- ريچاردسون صورت مي گيرد (کودر و ريچاردسون، 1937). مهمترين اجزاي اين فرمول شامل درصد ماده هاي نمره گذاري شده به شيوه اي خاص، همبستگيهاي بين ماده ها و نمره کل و انحراف معيار آزمون است. اين داده ها در فرمولي قرار مي گيرند که برآورد خوبي از ثبات را به دست مي دهد، به شرطي که آزمون مورد نظر تنها يک عامل آماري را اندازه گيري کند. متداولترين ضريب پايايي از اين دست که ضريب آلفا (کرونباخ، 1951) ناميده مي شود، "ميانگين تمام ضرايب دو نيمه سازي حاصل از نيمه هاي مختلف آزمون است (آناستازي، 1988)، قطع نظر از اينکه اين ماده ها دوارزشي يا چندارزشي هستند". دشواريهاي اين روش فراتر از دامنه اين کتاب هستند، ولي با اين حال، اين روشها در بسياري از کتابهاي درسي روان سنجي مورد بحث قرار گرفته اند.

همبستگيهاي بازآزمايي و نسخه هاي جانشين اطلاعاتي را فراتر از ثبات آزمون به دست مي دهند. چنانچه آزمودنيها در هنگام اجراي آزمون مجدد، پاسخ بعضي از ماده ها را به ياد آورند، امکان دارد که همان پاسخها را صرفاً بر اساس حافظه بدهند؛ يعني، يک اثر منظم که ممکن است به افزايش ساختگي اين همبستگي بينجامد. يا همان طوري که قبلاً بدان توجه شد، شرايط اجراي يک جلسه آزمون از يک نوبت به نوبت بعدي ممکن است تغيير کند و اين امر به منابع ناشناخته خطاي منظم مي انجامد. يا آزمودنيها ممکن است خصوصيتي را که اندازه گيري مي شود تغيير دهند، در چنين شرايطي از ميزان ضريب پايايي کاسته مي شود.

در عمل از کدام روش محاسبه ضريب پايايي بايد استفاده کرد؟ يک پاسخ ساده اين است که ضريب پايايي بايد انواع مختلف خطاهايي را که استفاده کننده آزمون به آنها علاقه مند است، انعکاس دهد. بنابراين، هرگاه ما در اندازه گيري يک مفهوم به پايايي آزمون علاقه مند باشيم، شاخص ثبات (آلفاي کرونباخ يا دو نيمه سازي) مناسب خواهد بود. چنانچه در اجراهاي مکرر و تحت شرايط مختلف به ثبات آزمون توجه نشان دهيم، آن گاه پايايي بازآزمايي يا نسخه هاي جانشين از مناسبت بيشتر برخوردار خواهند بود. در شرايط آرماني، سازنده آزمون هر دو مجموعه از داده ها را فراهم خواهد ساخت.

حدود قابل قبول ضرايب پايايي کدام اند؟ براي پاسخ به اين سؤال، ما بايد به شيوه اي توجه کنيم که بر اساس آنها، اين ضرايب را مي توان در عمل به کار برد. معمولاً، کليد اصلي به خطاي معيار اندازه گيري مربوط مي شود؛ کميتي که مستقيماً از روي ضريب پايايي و انحراف معيار نمره هاي حاصل به دست مي آيد. اگر ضريب پايايي را با r و انحراف معيار را با s نشان دهيم، خطاي معيار اندازه گيري را مي توان با توجه به فرمول sراديکال r-1 محاسبه کرد. براي نشان دادن معنا و کاربرد خطاي معيار اندازه گيري، مقياس Sc مربوط به MMPI را در نظر بگيريد. برآوردهاي ثبات دروني (ضرايب همبستگي دو نيمه آزمون) اين مقياس در حدود 0/91 گزارش شده است (دالستروم(810)، ولش(811) و دالستروم، 1975، ص 260). انحراف معيار تمام مقياسهاي MMPI براي نمره هاي مقياس بندي شده برابر با 10 است. حال خطاي معيار اندازه گيري را مي توان از فرمول ياد شده محاسبه کرد که برابر است با 10 راديکال 0/9-1 يا 3؛ يعني، مي توان گفت که هرگاه امکان اجراي اين آزمون به دفعات بسيار زياد وجود داشته باشد، متوسط نمره هاي Sc حاصل برابر با نمره هاي "واقعي" مي شود، ولي اين نمره ها با انحراف معيار 3 پيرامون اين ميانگين توزيع مي يافتند.

اگر توزيع نمره ها کاملاً نامتقارن نباشد، تقريباً دوسوم نمره ها در داخل يک انحراف معيار نسبت به ميانگين قرار مي گيرند. بنابراين، احتمال اينکه نمره حاصل از هر اجراي آزمون معين در سه واحد نسبت به نمره "واقعي" قرار گيرد، حدود دوسوم است. به عبارت ديگر، اگر يک پاسخ دهنده در مقياس Sc نمره 55 را کسب کند؛ احتمال اينکه نمره "واقعي" در سه واحد نمره 55، يعني، 52 و 58 قرار گيرد، دوسوم است. با همين استدلال، از آنجايي که حدود 95 درصد نمره هاي يکتوزيع کاملاً متقارن در دو انحراف معيار نسبت به ميانگين قرار مي گيرند، 95 درصد يا 19 مورد از 20 مورد احتمال وجود دارد که نمره واقعي پاسخ دهنده در فواصل 6 واحدي نمره 55، يعني بين 49 و 61 قرار گيرد.

همان طوري که تا اندازه اي در مورد مقياس D آزمون MMPI صادق است، فرض کنيد که مقدار اين ضريب پايايي (دو نيمه سازي) به جاي 0/91 برابر با 0/75 باشد (دالستروم، ولش و دالستروم، 1975، ص 260). با توجه به انحراف معيار 10، اين فرمول مقدار خطاي معيار اندازه گيري را برابر با 10 راديکال 0/75-1 يا 5 نشان مي دهد. اين موضوع در عمل به معناي آن است که هرگاه پاسخ دهنده اي در مقياس D نمره 60 را به دست آورده باشد، و ما بخواهيم دامنه اي را چنان تعيين کنيم که با احتمال 95 درصد نمره "واقعي" را در برگيرد، اين دامنه بايد بين 50 تا 70 باشد. هر چقدر ضريب پايايي کمتر باشد، ميزان اعتمادي را که مي توان نسبت به نمره به عنوان برآوردي از ميزان "واقعي" خصوصيتي داشت که پاسخ دهنده آن را داراست، کمتر است.

نظريه تعميم پذيري


در سال 1964، ريموند بي.کتل(812) سه روش عمده را مطرح کرد که بر اساس آنها "اثبات آزمون" را مي توان اندازه گيري کرد (البته وي اين اصطلاح کلي را بيشتر از اصطلاحهاي ديگر ترجيح مي داد). اولين روش، ثبات و توافق نمره ها در دفعات متوالي اجراست؛ يعني، تغييراتي که در يک آزمون و روي يک گروه از افراد در زمانهاي مختلف صورت مي گيرد. کتل اين ثبات را "پايايي" ناميد. دومين نوع ثبات به آزمونهاي مختلف ( يا بخشهاي يک آزمون که معمولاً ماده هاي انفرادي هستند) بر مي گردد و شامل توافق مربوط به يک بار اجراست که با استفاده از چند آزمون (يا بخشهاي آزمون) روي يک گروه از افراد صورت مي گيرد. اين ثبات "همگني" ناميده مي شود. نوع سوم ثبات به افراد مختلف بر مي گردد و شامل توافقي است که در مورد معناي نمره هاي يک آزمون که در يک زمان معين روي مجموعه هاي مختلفي از افراد اجرا شده است. اين نوع ثبات "انتقال پذيري" ( يا سرسختي) ناميده مي شود.

در يک رويکرد مشابه، کرونباخ، گليزر(813)، ناندا(814) و راجارتنام(815) (1972) فرض کردند که اساسي ترين موضوع در پايايي، سؤال مربوط به تعميم دادن مشاهده ها يا اندازه گيريها به طبقه ديگري از مشاهده هاست. بنابراين، به نظر آنها پايايي بايد به بررسي ميزاني مربوط شود که بر اساس آن، نمره هاي حاصل، معرف نمره هاي به دست آمده از شرايط ديگر يا "مجموعه هاي مرجع" مختلف است. مثالها مطالعه نمره هاي حاصل از نمره گذاران مختلف، ماده هاي آزمون، روشها، مشاهده کننده ها يا دفعات مختلف را در بر مي گيرند. همان طوري که در يک بحث دقيق درباره اين روش توسط ويگينز(1973) مورد تأکيد قرار گرفت، يکي از مزيتهاي اصلي اين روش در آن است که پژوهشگران را وا مي دارد که در خصوص مجموعه مرجع خاصي که مايل اند مشاهده هاي خودشان را بدان تعميم دهند، صريح و روشن باشند. اين امر تا اندازه اي از تمايز سنتي بين پايايي و اعتبار مي کاهد. جونز(816)، ريد(817) و پترسون(1975) در نظام کدگذاري رفتاري خودشان، مثال خوبي را در زمينه مطالعه کمّي تعميم پذيري گزارش کردند. در اين مطالعه، آزمودنيها، مشاهده کنندگان و دفعات مختلف، مجموعه هاي مرجع تعميم بودند.

پايايي و فنون فرافکن


نمره هاي کمّي حاصل از آزمونهاي فرافکن چنانچه با روشهايي که توصيف شدند ارزيابي شوند، اغلب پايايي اندکي دارند. از آنجايي که پايايي يک اندازه يا شاخص، حد بالايي را بر سودمندي بالقوه يا اعتبار آن تحميل مي کند، پاياييهاي کم اغلب در بررسيهاي پژوهشي روي اين آزمونها مسئول اعتبارهاي پايين قلمداد مي شوند. از طرف ديگر، همچنين استدلال شده است که روشهاي معمول براي ارزيابي پايايي را نمي توان براي ابزارهاي فرافکن به کار برد. براي مثال، گفته مي شود که روش دونيمه سازي براي آزمون رورشاخ نامناسب است، زيرا غيرممکن است که بتوان اين ده کارت را به گونه اي تقسيم کرد که دو نيمه قابل مقايسه را به دست دهد. پايايي بازآزمايي را نيز نمي توان به کار برد، زيرا آزمون مجدد، در واقع، يک تجربه روان شناختي متفاوت از آزمون اوليه است و چون گفته مي شود که فنون فرافکن نسبت به تغييرات جزيي در آزمودني حساس هستند، در واقع، به نظر مي رسد که در برخي از آزمونهاي فرافکن فرض مي شود که اين ابزارها کاملاً پايا هستند و اينکه تغييرات مشاهده شده در پاسخهاي آزمون با گذشت زمان مؤيد تغييرات واقعي در فرد هستند. بسياري از ويژگيهايي که اين آزمونها با آنها سرو کار دارند، مانند خُلق يا سطح انرژي با گذشت زمان تغيير مي کنند و بدين وسيله استدلال محکمي را دال بر اين مفروضه به دست مي دهند. با وجود اين، هر گونه شناخت واقعي از مشکلات پايايي اندازه گيري بايد به اين نتيجه منجر شود که بسياري از اين تغييرات، اگرچه نه همه آنها، تابعي از پايايي فرعي اين ابزارهاست. 

مشکلات اندازه گيري در ناپايايي هر آزمون تأثير دارد، ولي بعضي از مشکلات به ويژه در خصوص ابزارهاي فرافکن ايجاد مي شود. به طور کلي، مواد محرک مورد استفاده در آزمونهاي فرافکن با توجه به اينکه طبقه هاي نمره گذاري مختلف به طور مناسبي بر اساس محرکها تنظيم شوند، انتخاب نمي شوند. براي مثال، متوسط تعداد پاسخهاي حرکت (M) براي افرا غيربيمار در آزمون رورشاخ با توجه به انحراف معيارحدود 2، برابر 4 و متوسط جزئيات نادر (Dd) تنها برابر يک است (اکسنر، 1990). در عمل حداکثر پايايي اين اندازه گيريها همان طوري که نشان دادن اعتبارهاي معنادار امري تقريباً غيرممکن است، پايين است.

غالباً همان طور که در مورد آزمون TAT صادق است، نظامهاي نمره گذاري تا چند سال بعد از اينکه مواد محرک انتخاب شده باشند، تنظيم نخواهند شد. در آزمون TAT، آزمايندگان حتي در اين مورد اختيار دارند که کدام محرک را سرانجام به کار ببرند. اين رشد اتفاقي طبقه هاي نمره گذاري در ميزان پاياييهاي کم، تأثير دارد. نمره هاي نسبي (و تفاوت آنها) همان گونه که در آزمون رورشاخ به کار مي روند، به ويژه نسبت به پاياييهاي کم، حساس هستند. هولتزمن(818) در تهيه HIT، به انتخاب کارتهايي توجه کرد که در کميتهاي نمره گذاري تأثير خاصي داشتند؛ در نتيجه، پاياييهاي اکثر طبقه هاي HIT مناسبتر هستند. 

مشکل ديگر شامل استاندارد بودن دستورالعملهاست. راهنماييهاي مربوط به اجراي اکثر زبانهاي فرافکن استاندارد نشده اند، به طوري که به آزماينده امکان دهند تا به طور معناداري بر پاسخهاي آزمودني اثر گذارند. حتي اگرچه در نظام کنوني اکسنر(1986)، آزمون رورشاخ بر کاربرد ابزارهاي استاندارد شده تأکيد مي کند، آزماينده مي تواند هنوز تفاوت قايل شود. براي مثال، گراس(819) (1959) آزمون رورشاخ را روي 30 بيمار اجرا کرد، و در خصوص 20 نفر از آنها با گفتن "بسيارخوب" يا تکان دادن سر پس از هر پاسخ محتواي انسان تقويت اجتماعي را براي آنها فراهم کرد. بيماراني که بدين ترتيب تقويت شدند، در مقايسه با 10 نفر ديگر به طور معناداري پاسخهاي محتواي انسان بيشتري را ارايه دادند. اهميت اين تفاوتهاي ظريف آزماينده که ممکن است او به آنها واقف نباشد، بايد براي خواننده روشن باشد.

حتي مشکل غامضتر اين است که به آزمودنيها اغلب اجازه داده مي شود که پاسخهاي مختلف چندي بدهند که طولهاي نابرابري دارند. احتمالاً اثر محتواي روان شناختي يک پاسخ يا مجموعه پاسخهاي طولاني در مقايسه با يک پاسخ کوتاه متفاوت است. پاسخهاي کوتاه در آزمون رورشاخ يا TAT، عمدتاً مواد رايج يا پيش پا افتاده را شامل مي شوند. پراکندگي در طول پاسخ همچنين انجام مقايسه هاي آماري را بي اندازه مشکل مي کند.

مشکل ديگر در نمره گذاري تجلي مي کند. در بعضي آزمونها مانند MMPI، نمره گذاري جنبه مکانيکي دارد؛ يعني، هيچ گونه قضاوت ذهني در خصوص طبقه يک پاسخ صورت نمي گيرد يا قضاوت ذهني اندکي مورد استفاده قرار مي گيرد. همين موضوع در مورد بعضي از طبقه هاي نمره گذاري آزمونهايي مانند رورشاخ صادق است. براي مثال، هنگامي که داده ها جمع آوري مي شوند، تعيين تعداد کل پاسخهاي ارايه شده شامل هيچ قضاوتي نيست و يا قضاوت ناچيزي را در بر مي گيرد. به همين ترتيب، اندازه گيري بلندي يک شکل نقاشي يا مساحت کل آن، يک روش نسبتاً مکانيکي است. ولي با اين حال، تعيين اکثر نمره هاي حاصل از آزمونهاي فرافکن شامل چندين قضاوت ذهني است، براي مثال، آيا اين پاسخ رورشاخ شامل رنگ يا حرکت انسان است؟ آيا اين داستان TAT نياز به پيشرفت يا مهرورزي را نشان داده و يا اينکه هر دو را نشان مي دهد؟ در خصوص آن دسته از آزمونهاي فرافکن که چند روش نمره گذاري مختلف ولي مشابه را در بر مي گيرند، مشکل حتي شديدتر است.

اگرچه سؤال مربوط به پايايي نمره گذار به طور ساده يک توافق بين داوران و درون داوران است، ولي بايد به خاطر داشت که ناپايايي نمره گذاري در ناپايايي آزمون تأثير مي گذارد. مورستاين(820) (1963، ص 146-144) جدول خلاصه اي از پاياييهاي نمره گذاران را در خصوص ويژگيهاي نمره گذاري شده از آزمون TAT ارايه کرده است. از 45 مطالعه اي که پايايي تحت لواي همبستگي در آنها گزارش شده بود، ميانه پايايي نمره گذاران 0/74 به دست آمد. با پاياييهايي از اين دست، مشکلات دستيابي به سطوح قابل قبول پايايي آزمون در واقع زياد هستند. با وجود اين، مي توان در اين زمينه به پاياييهاي بالاتري نيز دست يافت. در اين خصوص، هولت(821) (1978) داده هاي TAT حاصل از چند منبع را گزارش کرد که حاکي از پايايي بالاي نمره گذاران تا سقف 0/90 بودند. دستيابي به ضرايب پايايي بالا معمولاً شامل راهنماهاي مبسوطي است که طبقه ها را با دقت تعريف کند و مثالهاي نمره گذاري را ارايه دهد. از آنجايي که کاربرد چنين راهنماهايي نيازمند توجه زياد و تلاش وافر در تعميم دادن يک نمره واحد است، آنها بيشتر به جاي قاعده يا حکم، موارد استثنايي را نشان مي دهند.

پايايي تفسير کلي


توجه بيش از حد به رويکردهاي مختلف در تعيين پايايي ممکن است از لحاظ علمي خطر از دست دادن موضوع اصلي در پايايي را به همراه داشته باشد. آزمونها فنون جمع آوري اطلاعات مربوط به شخصيت هستند و معمولاً در خصوص ارايه پيش بيني هايي درباره رفتار آتي بر مبناي عملکرد شخصيت استوارند. به همين دليل، توجه غايي ما به پايايي بايد معطوف اين باشد که کدام آزمون مطرح است؛ يعني، هرگاه آزمون رورشاخ براي به دست آوردن توصيف جامعي از عملکرد کلي شخصيت به کار رود، آن گاه موضوع اصلي، پايايي اين توصيفهاي کلي است و نه پايايي طبقه هاي نمره گذاري فردي.

در ارزيابي پاياييهاي کلي چه چيزي مورد توجه قرار دارد؟ اين روشها به روشهايي شباهت دارند که قبلاً توصيف شدند. براي مثال، پايايي حاصل از روش دو نيمه سازي را مي توان با مقايسه تفسيرهاي حاصل از بررسي نيمه هاي قابل مقايسه آزمون ارزيابي کرد؛ پايايي حاصل از روش بازآزمايي شامل مقايسه تفسيرهاي حاصل از دو اجراي مختلف آزمون است؛ و پايايي بين داوران را مي توان با مقايسه تفسيرهاي حاصل از اجراي يک آزمون که توسط داوران مختلف صورت گرفته است، تعيين کرد. پايايي بين آزمايندگان را نيز مي توان به روش مشابهي ارزيابي کرد.

براي ارايه توصيفهاي کلي شخصيت که به طور آماري مي توان به همين شيوه آنها را با يکديگر مقايسه کرد، چهارچوبهاي توصيفي چندي در خصوص شخصيت مورد نياز است. يک روش موسوم کاربرد مجموعه اي از مقياسها يا ابعاد درجه بندي است که با آزمون و نوع اطلاعات توصيفي مورد نياز متناسب هستند. بدين ترتيب، تفسير به دنبال بررسي طرح کلي آزمون، با اختصاص دادن نمره ها يا جايگاهها به آزمودنيها بر اساس اين مقياسها صورت مي گيرد. يا آزمايندگان مي توانند به تعدادي از سؤالهاي صحيح - غلط يا چندگزينه اي در خصوص موضوع پاسخ دهند. روش مرسوم ديگر، استفاده از فن دسته بندي پرسش است. يک دسته بندي پرسش معمولي شامل 100 کارت است که هر کدام يک توصيف شخصيت را در بر مي گيرد. از آزماينده خواسته مي شود که طرح کلي آزمون را مطالعه کند و بعد، عبارتهاي توصيفي را در 9 دسته طبقه بندي کند که از حداقل وصف حال تا حداکثر وصف حال آزمودني را در بر مي گيرد. تعداد کارتهايي که در هر دسته قرار مي گيرند از قبل تعيين مي شوند. به طوري که هر داور توزيع يکساني از کارتها را به دست مي دهد. در تمام اين فنون، همبستگي رتبه اي يا درصد توافق روشها را مي توان براي تعيين يک شاخص عددي پايايي به کار برد (هرگاه قصد داشته باشيم که پاياييهاي مربوط به يک آزماينده واحد را تعيين کنيم، تعداد طرحهاي آزمونهاي مورد داوري بايد به اندازه کافي زياد باشد که آزماينده نتواند به ياد آورد يا حدس بزند که کدام مورد به کدام آزمودني تعلق داشته است).

پايايي به دست آمده از هر روش ارزيابي بايد با کاربرد همان روش متناسب باشد. هرگاه پيش بيني هاي مربوط به رويدادهاي به خصوصي ارايه شود، پايايي اين پيش بيني ها بايد مورد بررسي قرار گيرد. هرگاه توصيفهاي کلي شخصيت مورد توجه باشد، اين پاياييهاي آنهاست که مورد توجه قرار مي گيرند. گرچه اغلب منابع اساسي ديگري نيز در زمينه پايايي وجود دارد (مانند پايايي نمره گذار) که پاياييهاي نهايي به آنها بستگي دارند، پايايي روش مورد استفاده، سؤال مربوط به علاقه نهايي است.

پي نوشت:


807- Ghiselli

808- Nunnally

809- Bernstein

810- Dahlstrom

811- Welsh

812- Raymond B. Cattell

813- Gleser

814- Nanda

815- Rajaratnam

816- Jones

817- Reid

818- Holtzman

819- Gross

820- Murstein

821- Holt


منبع:تالیف:آی . لانیون،ریچارد و دی فلئونارد ، ترجمه:نقشبندی،سیامک و .... «ارزيابي شخصيت» ، نشر روان ،1385

اعتبار و پايايي

در اين مقاله با تفصيل به مفاهيم پايايي و اعتبار پرداخته ایم . اين بررسي براي دستيابي به يک درک مناسب از چشم انداز و محدوديتهاي روشهاي ارزيابي مختلف ضروري است. در عين حال، عوامل نامربوط نظامدار يا تحريفهاي پاسخ نيز مورد بحث قرار گرفته اند. اين تحريفها که بر کاربرد شيوه هاي ارزيابي شخصيت اثر مي گذارند، مشکل کوششهاي عمدي و حتي ناهشيار را براي ايجاد يک تأثير مطلوب (يا نامطلوب) در ديگران در بر مي گيرند.

پايايي، همان طوري که از نام آن بر مي آيد، به قابليت تکرار يا اعتماد يک اندازه يا شاخص مربوط مي شود. به عنوان يک مثال بسيار ساده، مي توان گفت که ديروز ما قد يک کودک را اندازه گرفته و مقدار 122/68 سانتي متر را به دست آورده ايم. ولي امروز فرد ديگري قد همان کودک را اندازه گرفته و مقدار 122/93 سانتي متر را گزارش کرده است. اين دو مقدار تا اندازه زيادي با يکديگر هماهنگ هستند؛ يعني، ما نوعي اندازهگيري اوليه از قد کودک را در نظر گرفته ايم که در بررسي مجدد تأکيد يا تکرار شده است. اين 0/25 سانتي متر اختلاف، اين واقعيت را نشان مي دهد که تکرار اندازه گيريها تقريباً همواره تا اندازه اي ثبات يا پايايي دارد و پذيرش اين نتيجه از جانب ما نشان مي دهد که اين بي ثباتي به اندازه اي نيست که سودمندي آن را انکار کنيم. بدين ترتيب، اختلاف 0/25 سانتي متر تحت اين شرايط به اندازه اي ناچيز است که مي توان آن را بي اهميت تلقي کرد. با وجود اين، در ساير اندازه گيريهاي فيزيکي اين سطوح تحمل بسيار کم هستند، مانند سيلندر موتور که اين تفاوت، اهميت بسياري دارد و سطح بالاتري از پايايي اندازه گيري مورد نياز است.

پايايي همان دقت نيست. دقت به ميزان صحتي اشاره مي کند که اندازه گيري را بر اساس آن مي توان مشخص کرد؛ بدين ترتيب، يک شيوه اندازه گيري که به ما امکان مي دهد تا نتايج را بر اساس يک هزارم سانتي متر گزارش کنيم، دقيقتر از آن اندازه گيري است که نتايج را بر اساس يک دهم سانتي متر به دست مي دهد. درجه دقت يک ابزار مکانيکي که امکان اندازه گيري 2/432 را فراهم مي سازد، يک هزارم سانتي متر است، ولي اگر تحت شرايط يکسان اين وسيله، مقدار 2/381 سانتي متر را به دست دهد، پايايي اين اندازه گيري به هيچ وجه منطبق با دقتي نخواهد بود که اين ابزار از آن برخوردار است.

اين ويژگي که اندازه گيريها را بايد "به اندازه کافي دقيق" انجام داد، در ارزيابي شخصيت نيز کاربرد دارد. اندازه گيري شخصيت در مقايسه با اندازه گيري خصوصيات فيزيکي مانند قد، هميشه نسبتاً فاقد دقت است؛ و بنابراين، تا اندازه اي ناپاياست. بدين ترتيب، ميزان دقت يک ابزار ارزيابي شخصيت بايد با پايايي آن همخواني داشته باشد. براي کساني که از چنين ابزارهايي استفاده مي کنند معمولاً ميزان شاخص پايايي مشخص شده است. ما مجدداً در يک فرصت مناسب به موضوع پايايي باز خواهيم گشت.

اندازه گيري شخصيت داراي شکل ديگري نيز هست که در اندازه گيريهاي فيزيکي به چشم نمي خورد و آن به استانداردهاي مورد قبولي مربوط مي شود که بر اساس آنها اندازه گيريها صورت مي گيرند. هيچ ترديدي وجود ندارد که يک ياردسنج (يا يک مترسنج) براي اندازه گيري فواصل خطي مانند قد مناسب است. با وجود اين، در ارزيابي شخصيت، غالباً سؤالهايي درباره صحت و دقت ابزارهاي اندازه گيري به منظور ارزيابي بُعد يا ويژگي مورد بررسي مطرح مي شوند. براي مثال، آيا واقعاً مي توان افسردگي را با شمارش پاسخهاي رنگي به موارد بي رنگ در آزمون رورشاخ اندازه گرفت؟ در اين مورد، نه تنها سؤال مربوط به شمارش پاياي اين پاسخها مطرح است، بلکه شکل ديگر و جدي تر اين است که آيا شمارش پاسخهاي رنگ به اندازه گيري درستي از افسردگي مي انجامد، درست به همان شيوه اي که علايم مندرج ياردسنج به شاخص معتبري از قد منجر مي شود (صحت يا اعتبار ابزارهاي اندازه گيري مورد استفاده در اندازه گيريهاي فيزيکي که درجات بسيار بالايي از دقت لازم را دارد، مشکلات چندي ايجاد کرده است.)

چون پيش از آنکه بتوانيم تعيين کنيم که آيا اندازه گيري در واقع به مفهوم مورد نظر مربوط مي شود يا خير، بايد از پايايي مناسب برخوردار باشد، ابتدا به بحث درباره پايايي مي پردازيم. معيارهاي آزمون تربيتي و روان شناختي که يک راهنماي عملي براي پايايي و اعتبار است، براي چندين سال توسط انجمن روان شناسي آمريکا انتشار يافته است (براي مثال، انجمن پژوهش تربيتي آمريکا- انجمن روان شناسي آمريکا- شوراي ملي اندازه گيري در تربيت، 1985) و تمام افرادي که فعالانه در ساختن ابزارهاي اندازه گري شخصيت و کاربرد آنها شرکت دارند، بايد اين راهنما را به دقت مطالعه کنند. کتاب راهنمايي که به منظور استفاده ويژه در زمينه انتخاب استخدامي به کار مي رود و با اين کتاب راهنما قابل مقايسه است، توسط شاخه روان شناسي صنعتي- سازماني انجمن روان شناسي آمريکا (1980) منتشر شده است. در اين کتاب راهنما توجه خاصي به موارد اعتبار و پايايي و تهيه ملاکها مبذول شده است و منبع مرجع سودمندي در اين زمينه ها محسوب مي شود.

پايايي


پايايي به قابليت تکرار يا قابليت اعتماد اندازه گيري اشاره دارد. در يک موقعيت فرضي که روش اندازه گيري کاملاً پاياست، فرض مي شود که هر گونه تغييري در اندازه گيري حاصل نشان دهنده يک تغيير واقعي در صفت مورد مطالعه است. بدين ترتيب، در چنين نظامي، افزايش يک کيلوگرم در مقياس نشان خواهد داد که وزن شيء مورد نظر دقيقاً يک کيلوگرم زياد شده است؛ به همين ترتيب، افزايش نمره حاصل از يک مقياس افسردگي نشان خواهد داد که پاسخ دهنده در حال حاضر افسردگي بيشتري دارد. پايايي يک اصطلاح کلي است؛ اصطلاحهاي همساني و ثبات به ترتيب براي توصيف پايايي وابسته به ابزار و پايايي مربوط به زمان به کار مي روند.

همساني به ميزان توافقي اشاره مي کند که از به کارگيري دو يا چند ابزار اندازه گيري (يعني، مقياسها، خط کشها يا آزمونها) حاصل مي شود. هر گونه ابزار اندازه گيري يا مجموعه ابزارها را مي توان برگرفته از جامعه گسترده اي از اين ابزارها (چه واقعي يا چه فرضي) در نظر گرفت که مي توان از آنها براي اندازه گيري اين صفت خاص استفاده کرد. همساني معمولاً با به کارگيري يک آزمون يا آزمونهاي همزمان ديگر مورد ارزشيابي قرار مي گيرد که ترجيحاً به طور تصادفي از جامعه در دسترس اندازه گيريها انتخاب مي شوند. اگرچه اين موضوع در اندازه گيري ابعاد فيزيکي مانند قد يا وزن به مشکلات اندکي مي انجامد، ولي با اين حال، مشکلات چندي را در ارزيابي شخصيت ايجاد مي کند. ما به زودي اين مشکلات را مورد بررسي قرار خواهيم داد.

ثبات به دقت اندازه گيري حاصل با گذشت زمان اشاره دارد. چنانچه از ابزار ديگري براي اندازه گيري مجدد استفاده شود، بازآزمايي با گذشت زمان علاوه بر ثبات، همساني را نيز شامل مي شود. هرگاه در دو بار اندازه گيري از يک ابزار استفاده شود، ارزيابي مستقيم ثبات اندازه گيري را مي توان انجام داد. بدين ترتيب، ناتواني در رسيدن به پايايي کامل به واسطه ناهمسانيها يا خطاهايي است که تابع تغييرات حاصل در نظام مورد نظر با گذشت زمان يا تابع تغييرات مربوط به ابزار مورد نظر و يا هر دو هستند.

به طور کلي، پايايي به شواهد مختلفي اشاره مي کند که در صدد توصيف يک توافق کلي ميان عمليات اندازه گيري هستند. هر کدام از اين شواهد بر منبع معيني از عدم توافق يا خطا تأکيد مي کند و بقيه منابع را ناديده مي گيرد. اندازه گيري شخصيت شامل گرفتن نمونه اي از رفتار در يک زمان و روز معين در قبال مجموعه معيني از محرکهاست. البته اين پاسخها بايد بر طبق يک شيوه معين توسط يک آزماينده خاص ثبت شوند. بعضي از خطاهاي نمونه گيري با هر کدام از اين "موارد خاص" رابطه دارند. اين زمان خاص نمونه اي از يک دوره زماني است و اين مجموعه خاص از محرکها يا سؤالها نمونه اي از يک دسته واقعي يا فرضي از محرکها در دسترس است. بسيار اهميت دارد که بتوانيم مشخص کنيم که يک پاسخ يا نمره خاص، احتمالاً تا چه اندازه به عنوان تابعي از تغييرات در هر کدام از اين خصوصيات اندازه گيري تغيير مي کند. متأسفانه، اين نوع اطلاعات به ندرت در ارزيابي شخصيت به چشم مي خورد. 

بررسي کتاب هاي درسي در زمينه نظريه روان سنجي (براي مثال گيزلي(807)، 1964؛ نانالي(808)و برنشتاين(809)، 1994) نشان مي دهد که فرضهاي فلسفي متخصصان در زمينه مبناي اندازه گيري روان شناختي با يکديگر متفاوت است. اين تفاوتها در فلسفه به تفاوتهاي چندي در توصيف دقيق مفهوم و معناي پايايي و تفاوتهايي در شيوه هاي پيشنهادي براي اندازه گيري پايايي يک شاخص انجاميده است. در اين فصل، ما مي کوشيم تا مسير ميانه اي را از ميان رويکردهاي مختلف برگزينيم و در عين حال، علاوه بر موضوعهايي که فراتر از طيف اين کتاب قرار مي گيرند، از ناهمسانيها نيز اجتناب کنيم.

ما با اين نکته شروع مي کنيم که پايايي به طور تنگاتنگي با مفهوم خطاي اندازه گيري رابطه دارد. خطاهاي اندازه گيري را مي توان به صورت منظم يا تصادفي در نظر گرفت. هرگاه ما زمان را از روي ساعتي مشاهده کنيم که همواره پنج دقيقه جلوست، مرتکب يک خطاي منظم شده ايم. از طرف ديگر، هرگاه اين ساعت درست ولي به اندازه اي دور از ما قرار گرفته باشد که ما نتوانيم عقربه دقيقه شمار را بخوانيم، مرتکب يک خطاي تصادفي شده ايم. خطاهاي منظم را مي توان به صورت خطاهايي در نظر گرفت که با اشتباههاي معلوم رابطه دارند؛ و خطاهاي تصادفي را که به متوسط نمره درست يا مطلق گرايش دارند، مي توان زماني به صورت "موارد نامعلوم" در مشاهده در نظر گرفت که تمام خطاهاي منظم شناسايي يا حذف شده باشند.

به عبارت ديگر، خطاهاي اندازه گيري تصادفي با روش اندازه گيري "شکل مي گيرند"، درست مانند زماني که مي کوشيم با يک خط کش که تنها با اينچ مدرج شده است با تقريب يک دهم اينچ اندازه گيري کنيم يا هنگامي که سعي مي کنيم "افسردگي" را با يک پرسشنامه مداد و کاغذي کلي که فاقد ويژگيهاي باليني ضروري افسردگي است، ارزيابي کنيم. برخلاف اين خطاهاي تصادفي که اجتناب از آنها مشکل است، خطاهاي منظم مشخص تر و صحيح تر هستند. به يک معنا، خطاهاي منظم ناشي از سازنده يا استفاده کننده آزمون هستند تا اينکه به خود ابزار اندازه گيري برگردند. هرگاه ما يک مقياس افسردگي را روي آزمودنيهايي اجرا کنيم که در يک فرهنگ (يا خرده فرهنگ) متفاوت زندگي مي کنند در مقايسه با آزمودنيهايي که از هنجارهاي مناسبي برخوردارند، يا هرگاه دستورالعملهاي فشارزايي را به کار ببريم که آشکارا از دستورالعملهاي مربوط به جامعه هنجاري متفاوت باشند، در معرض خطاي منظم قرار خواهيم داشت. اين خطاهاي منظم بالقوه را مي توان و البته بايد با تنظيم هنجارهاي جديد مبتني بر گروه فرهنگي مناسب يا شرايط ديگر سنجش تصحيح کرد.

نظريه پردازان روان سنجي در کوششهاي خود براي به کميت درآوردن پايايي، به طور سنتي به مشخص کردن سهم خطاهاي تصادفي در پايايي کم پرداخته اند. عقايد آنها درباره اينکه آيا بايد خطاهاي منظم را نيز به عنوان منبع ناپايايي اندازه گيري در نظر گرفت با يکديگر اختلاف دارد، و از اين رو، ماحصل اين اختلاف عقيده در شاخص عددي پايايي انعکاس يافته است. تعدادي از شاخصهاي متداول پايايي نشان دهنده خطاي تصادفي هستند؛ و تعدادي نيز بعضي از منابع خطاي منظم و نه تمام آنها را نشان مي دهند. در نسخه تجديدنظرشده جديدتر معيارهاي سنجش تربيتي و روان شناختي (1985) با تصديق اين موضوع که روشهاي مختلف محاسبه پايايي، شامل منابع مختلف خطا هستند، توصيه شده است که پژوهشگران بايد دقيقاً روشن کنند، چه روشهايي را در به دست آوردن شاخص پايايي خاص مورد نظر به کار برده اند.

اکنون به روشهاي متداول محاسبه پايايي توجه کنيد. شاخص سنتي پايايي، ضريب پايايي است که مي توان آن را هم به عنوان همبستگي بين نمره هاي واقعي آزمون و نمره هاي "واقعي" فرضي و هم به عنوان متوسط همبستگي بين نمره هاي واقعي آزمون و ساير آزمونهاي احتمالي که همان خصوصيت را اندازه مي گيرند، در نظر گرفت. رويکردهاي عملي زير که براي محاسبه پايايي به کار مي روند، با اين تعريف شباهت دارند.

همان طوري که قبلاً اشاره کرديم، آن نوع پايايي که صرفاً با خطاي تصادفي رابطه دارد (خطاهاي ناشي از اين واقعيت که محتواي آزمون صرفاً نمونه اي از کل محتواست که ويژگي مورد نظر را در بر مي گيرد)، ثبات يا ثبات دروني آزمون ناديده مي شود. ثبات را مي توان به شيوه هاي مختلف ارزيابي کرد. يک روش، تقسيم آزمون به دو نيمه قابل مقايسه است که با يکديگر همبسته هستند. بدين ترتيب، همبستگي حاصل با استفاده از فرمولي که فرمول پيشگويي اسپيرمن - براون ناميده مي شود، با توجه به ارزش مورد انتظار براي کل آزمون "تصحيح" مي شود. چنين برآوردي از ثبات که با مقايسه ماده هاي زوج و فرد آزمون به دست مي آيد، ثبات پايايي از طريق دو نيمه کردن ناميده مي شود. روش ديگر، تعيين ثبات از طريق کاربرد نسخه هاي مشابه يا جانشين (يا موازي) آزمون است. همبستگي بين اين نسخه ها اساساً با همبستگي تصحيح شده بين دو نيمه آزمون مطابقت مي کند. هنگامي که نسخه هاي جانشين در دسترس نباشند، راه حل رايج، استفاده از روش بازآزمايي است. همبستگي بين اين دو مجموعه از نمره ها ضريب پايايي بازآزمايي ناميده مي شود.

يکي ديگر از روشهاي محاسبه پايايي که از لحاظ آماري تا اندازه اي پيچيده تر است، با استفاده از فرمول پايايي کودر- ريچاردسون صورت مي گيرد (کودر و ريچاردسون، 1937). مهمترين اجزاي اين فرمول شامل درصد ماده هاي نمره گذاري شده به شيوه اي خاص، همبستگيهاي بين ماده ها و نمره کل و انحراف معيار آزمون است. اين داده ها در فرمولي قرار مي گيرند که برآورد خوبي از ثبات را به دست مي دهد، به شرطي که آزمون مورد نظر تنها يک عامل آماري را اندازه گيري کند. متداولترين ضريب پايايي از اين دست که ضريب آلفا (کرونباخ، 1951) ناميده مي شود، "ميانگين تمام ضرايب دو نيمه سازي حاصل از نيمه هاي مختلف آزمون است (آناستازي، 1988)، قطع نظر از اينکه اين ماده ها دوارزشي يا چندارزشي هستند". دشواريهاي اين روش فراتر از دامنه اين کتاب هستند، ولي با اين حال، اين روشها در بسياري از کتابهاي درسي روان سنجي مورد بحث قرار گرفته اند.

همبستگيهاي بازآزمايي و نسخه هاي جانشين اطلاعاتي را فراتر از ثبات آزمون به دست مي دهند. چنانچه آزمودنيها در هنگام اجراي آزمون مجدد، پاسخ بعضي از ماده ها را به ياد آورند، امکان دارد که همان پاسخها را صرفاً بر اساس حافظه بدهند؛ يعني، يک اثر منظم که ممکن است به افزايش ساختگي اين همبستگي بينجامد. يا همان طوري که قبلاً بدان توجه شد، شرايط اجراي يک جلسه آزمون از يک نوبت به نوبت بعدي ممکن است تغيير کند و اين امر به منابع ناشناخته خطاي منظم مي انجامد. يا آزمودنيها ممکن است خصوصيتي را که اندازه گيري مي شود تغيير دهند، در چنين شرايطي از ميزان ضريب پايايي کاسته مي شود.

در عمل از کدام روش محاسبه ضريب پايايي بايد استفاده کرد؟ يک پاسخ ساده اين است که ضريب پايايي بايد انواع مختلف خطاهايي را که استفاده کننده آزمون به آنها علاقه مند است، انعکاس دهد. بنابراين، هرگاه ما در اندازه گيري يک مفهوم به پايايي آزمون علاقه مند باشيم، شاخص ثبات (آلفاي کرونباخ يا دو نيمه سازي) مناسب خواهد بود. چنانچه در اجراهاي مکرر و تحت شرايط مختلف به ثبات آزمون توجه نشان دهيم، آن گاه پايايي بازآزمايي يا نسخه هاي جانشين از مناسبت بيشتر برخوردار خواهند بود. در شرايط آرماني، سازنده آزمون هر دو مجموعه از داده ها را فراهم خواهد ساخت.

حدود قابل قبول ضرايب پايايي کدام اند؟ براي پاسخ به اين سؤال، ما بايد به شيوه اي توجه کنيم که بر اساس آنها، اين ضرايب را مي توان در عمل به کار برد. معمولاً، کليد اصلي به خطاي معيار اندازه گيري مربوط مي شود؛ کميتي که مستقيماً از روي ضريب پايايي و انحراف معيار نمره هاي حاصل به دست مي آيد. اگر ضريب پايايي را با r و انحراف معيار را با s نشان دهيم، خطاي معيار اندازه گيري را مي توان با توجه به فرمول sراديکال r-1 محاسبه کرد. براي نشان دادن معنا و کاربرد خطاي معيار اندازه گيري، مقياس Sc مربوط به MMPI را در نظر بگيريد. برآوردهاي ثبات دروني (ضرايب همبستگي دو نيمه آزمون) اين مقياس در حدود 0/91 گزارش شده است (دالستروم(810)، ولش(811) و دالستروم، 1975، ص 260). انحراف معيار تمام مقياسهاي MMPI براي نمره هاي مقياس بندي شده برابر با 10 است. حال خطاي معيار اندازه گيري را مي توان از فرمول ياد شده محاسبه کرد که برابر است با 10 راديکال 0/9-1 يا 3؛ يعني، مي توان گفت که هرگاه امکان اجراي اين آزمون به دفعات بسيار زياد وجود داشته باشد، متوسط نمره هاي Sc حاصل برابر با نمره هاي "واقعي" مي شود، ولي اين نمره ها با انحراف معيار 3 پيرامون اين ميانگين توزيع مي يافتند.

اگر توزيع نمره ها کاملاً نامتقارن نباشد، تقريباً دوسوم نمره ها در داخل يک انحراف معيار نسبت به ميانگين قرار مي گيرند. بنابراين، احتمال اينکه نمره حاصل از هر اجراي آزمون معين در سه واحد نسبت به نمره "واقعي" قرار گيرد، حدود دوسوم است. به عبارت ديگر، اگر يک پاسخ دهنده در مقياس Sc نمره 55 را کسب کند؛ احتمال اينکه نمره "واقعي" در سه واحد نمره 55، يعني، 52 و 58 قرار گيرد، دوسوم است. با همين استدلال، از آنجايي که حدود 95 درصد نمره هاي يکتوزيع کاملاً متقارن در دو انحراف معيار نسبت به ميانگين قرار مي گيرند، 95 درصد يا 19 مورد از 20 مورد احتمال وجود دارد که نمره واقعي پاسخ دهنده در فواصل 6 واحدي نمره 55، يعني بين 49 و 61 قرار گيرد.

همان طوري که تا اندازه اي در مورد مقياس D آزمون MMPI صادق است، فرض کنيد که مقدار اين ضريب پايايي (دو نيمه سازي) به جاي 0/91 برابر با 0/75 باشد (دالستروم، ولش و دالستروم، 1975، ص 260). با توجه به انحراف معيار 10، اين فرمول مقدار خطاي معيار اندازه گيري را برابر با 10 راديکال 0/75-1 يا 5 نشان مي دهد. اين موضوع در عمل به معناي آن است که هرگاه پاسخ دهنده اي در مقياس D نمره 60 را به دست آورده باشد، و ما بخواهيم دامنه اي را چنان تعيين کنيم که با احتمال 95 درصد نمره "واقعي" را در برگيرد، اين دامنه بايد بين 50 تا 70 باشد. هر چقدر ضريب پايايي کمتر باشد، ميزان اعتمادي را که مي توان نسبت به نمره به عنوان برآوردي از ميزان "واقعي" خصوصيتي داشت که پاسخ دهنده آن را داراست، کمتر است.

نظريه تعميم پذيري


در سال 1964، ريموند بي.کتل(812) سه روش عمده را مطرح کرد که بر اساس آنها "اثبات آزمون" را مي توان اندازه گيري کرد (البته وي اين اصطلاح کلي را بيشتر از اصطلاحهاي ديگر ترجيح مي داد). اولين روش، ثبات و توافق نمره ها در دفعات متوالي اجراست؛ يعني، تغييراتي که در يک آزمون و روي يک گروه از افراد در زمانهاي مختلف صورت مي گيرد. کتل اين ثبات را "پايايي" ناميد. دومين نوع ثبات به آزمونهاي مختلف ( يا بخشهاي يک آزمون که معمولاً ماده هاي انفرادي هستند) بر مي گردد و شامل توافق مربوط به يک بار اجراست که با استفاده از چند آزمون (يا بخشهاي آزمون) روي يک گروه از افراد صورت مي گيرد. اين ثبات "همگني" ناميده مي شود. نوع سوم ثبات به افراد مختلف بر مي گردد و شامل توافقي است که در مورد معناي نمره هاي يک آزمون که در يک زمان معين روي مجموعه هاي مختلفي از افراد اجرا شده است. اين نوع ثبات "انتقال پذيري" ( يا سرسختي) ناميده مي شود.

در يک رويکرد مشابه، کرونباخ، گليزر(813)، ناندا(814) و راجارتنام(815) (1972) فرض کردند که اساسي ترين موضوع در پايايي، سؤال مربوط به تعميم دادن مشاهده ها يا اندازه گيريها به طبقه ديگري از مشاهده هاست. بنابراين، به نظر آنها پايايي بايد به بررسي ميزاني مربوط شود که بر اساس آن، نمره هاي حاصل، معرف نمره هاي به دست آمده از شرايط ديگر يا "مجموعه هاي مرجع" مختلف است. مثالها مطالعه نمره هاي حاصل از نمره گذاران مختلف، ماده هاي آزمون، روشها، مشاهده کننده ها يا دفعات مختلف را در بر مي گيرند. همان طوري که در يک بحث دقيق درباره اين روش توسط ويگينز(1973) مورد تأکيد قرار گرفت، يکي از مزيتهاي اصلي اين روش در آن است که پژوهشگران را وا مي دارد که در خصوص مجموعه مرجع خاصي که مايل اند مشاهده هاي خودشان را بدان تعميم دهند، صريح و روشن باشند. اين امر تا اندازه اي از تمايز سنتي بين پايايي و اعتبار مي کاهد. جونز(816)، ريد(817) و پترسون(1975) در نظام کدگذاري رفتاري خودشان، مثال خوبي را در زمينه مطالعه کمّي تعميم پذيري گزارش کردند. در اين مطالعه، آزمودنيها، مشاهده کنندگان و دفعات مختلف، مجموعه هاي مرجع تعميم بودند.

پايايي و فنون فرافکن


نمره هاي کمّي حاصل از آزمونهاي فرافکن چنانچه با روشهايي که توصيف شدند ارزيابي شوند، اغلب پايايي اندکي دارند. از آنجايي که پايايي يک اندازه يا شاخص، حد بالايي را بر سودمندي بالقوه يا اعتبار آن تحميل مي کند، پاياييهاي کم اغلب در بررسيهاي پژوهشي روي اين آزمونها مسئول اعتبارهاي پايين قلمداد مي شوند. از طرف ديگر، همچنين استدلال شده است که روشهاي معمول براي ارزيابي پايايي را نمي توان براي ابزارهاي فرافکن به کار برد. براي مثال، گفته مي شود که روش دونيمه سازي براي آزمون رورشاخ نامناسب است، زيرا غيرممکن است که بتوان اين ده کارت را به گونه اي تقسيم کرد که دو نيمه قابل مقايسه را به دست دهد. پايايي بازآزمايي را نيز نمي توان به کار برد، زيرا آزمون مجدد، در واقع، يک تجربه روان شناختي متفاوت از آزمون اوليه است و چون گفته مي شود که فنون فرافکن نسبت به تغييرات جزيي در آزمودني حساس هستند، در واقع، به نظر مي رسد که در برخي از آزمونهاي فرافکن فرض مي شود که اين ابزارها کاملاً پايا هستند و اينکه تغييرات مشاهده شده در پاسخهاي آزمون با گذشت زمان مؤيد تغييرات واقعي در فرد هستند. بسياري از ويژگيهايي که اين آزمونها با آنها سرو کار دارند، مانند خُلق يا سطح انرژي با گذشت زمان تغيير مي کنند و بدين وسيله استدلال محکمي را دال بر اين مفروضه به دست مي دهند. با وجود اين، هر گونه شناخت واقعي از مشکلات پايايي اندازه گيري بايد به اين نتيجه منجر شود که بسياري از اين تغييرات، اگرچه نه همه آنها، تابعي از پايايي فرعي اين ابزارهاست. 

مشکلات اندازه گيري در ناپايايي هر آزمون تأثير دارد، ولي بعضي از مشکلات به ويژه در خصوص ابزارهاي فرافکن ايجاد مي شود. به طور کلي، مواد محرک مورد استفاده در آزمونهاي فرافکن با توجه به اينکه طبقه هاي نمره گذاري مختلف به طور مناسبي بر اساس محرکها تنظيم شوند، انتخاب نمي شوند. براي مثال، متوسط تعداد پاسخهاي حرکت (M) براي افرا غيربيمار در آزمون رورشاخ با توجه به انحراف معيارحدود 2، برابر 4 و متوسط جزئيات نادر (Dd) تنها برابر يک است (اکسنر، 1990). در عمل حداکثر پايايي اين اندازه گيريها همان طوري که نشان دادن اعتبارهاي معنادار امري تقريباً غيرممکن است، پايين است.

غالباً همان طور که در مورد آزمون TAT صادق است، نظامهاي نمره گذاري تا چند سال بعد از اينکه مواد محرک انتخاب شده باشند، تنظيم نخواهند شد. در آزمون TAT، آزمايندگان حتي در اين مورد اختيار دارند که کدام محرک را سرانجام به کار ببرند. اين رشد اتفاقي طبقه هاي نمره گذاري در ميزان پاياييهاي کم، تأثير دارد. نمره هاي نسبي (و تفاوت آنها) همان گونه که در آزمون رورشاخ به کار مي روند، به ويژه نسبت به پاياييهاي کم، حساس هستند. هولتزمن(818) در تهيه HIT، به انتخاب کارتهايي توجه کرد که در کميتهاي نمره گذاري تأثير خاصي داشتند؛ در نتيجه، پاياييهاي اکثر طبقه هاي HIT مناسبتر هستند. 

مشکل ديگر شامل استاندارد بودن دستورالعملهاست. راهنماييهاي مربوط به اجراي اکثر زبانهاي فرافکن استاندارد نشده اند، به طوري که به آزماينده امکان دهند تا به طور معناداري بر پاسخهاي آزمودني اثر گذارند. حتي اگرچه در نظام کنوني اکسنر(1986)، آزمون رورشاخ بر کاربرد ابزارهاي استاندارد شده تأکيد مي کند، آزماينده مي تواند هنوز تفاوت قايل شود. براي مثال، گراس(819) (1959) آزمون رورشاخ را روي 30 بيمار اجرا کرد، و در خصوص 20 نفر از آنها با گفتن "بسيارخوب" يا تکان دادن سر پس از هر پاسخ محتواي انسان تقويت اجتماعي را براي آنها فراهم کرد. بيماراني که بدين ترتيب تقويت شدند، در مقايسه با 10 نفر ديگر به طور معناداري پاسخهاي محتواي انسان بيشتري را ارايه دادند. اهميت اين تفاوتهاي ظريف آزماينده که ممکن است او به آنها واقف نباشد، بايد براي خواننده روشن باشد.

حتي مشکل غامضتر اين است که به آزمودنيها اغلب اجازه داده مي شود که پاسخهاي مختلف چندي بدهند که طولهاي نابرابري دارند. احتمالاً اثر محتواي روان شناختي يک پاسخ يا مجموعه پاسخهاي طولاني در مقايسه با يک پاسخ کوتاه متفاوت است. پاسخهاي کوتاه در آزمون رورشاخ يا TAT، عمدتاً مواد رايج يا پيش پا افتاده را شامل مي شوند. پراکندگي در طول پاسخ همچنين انجام مقايسه هاي آماري را بي اندازه مشکل مي کند.

مشکل ديگر در نمره گذاري تجلي مي کند. در بعضي آزمونها مانند MMPI، نمره گذاري جنبه مکانيکي دارد؛ يعني، هيچ گونه قضاوت ذهني در خصوص طبقه يک پاسخ صورت نمي گيرد يا قضاوت ذهني اندکي مورد استفاده قرار مي گيرد. همين موضوع در مورد بعضي از طبقه هاي نمره گذاري آزمونهايي مانند رورشاخ صادق است. براي مثال، هنگامي که داده ها جمع آوري مي شوند، تعيين تعداد کل پاسخهاي ارايه شده شامل هيچ قضاوتي نيست و يا قضاوت ناچيزي را در بر مي گيرد. به همين ترتيب، اندازه گيري بلندي يک شکل نقاشي يا مساحت کل آن، يک روش نسبتاً مکانيکي است. ولي با اين حال، تعيين اکثر نمره هاي حاصل از آزمونهاي فرافکن شامل چندين قضاوت ذهني است، براي مثال، آيا اين پاسخ رورشاخ شامل رنگ يا حرکت انسان است؟ آيا اين داستان TAT نياز به پيشرفت يا مهرورزي را نشان داده و يا اينکه هر دو را نشان مي دهد؟ در خصوص آن دسته از آزمونهاي فرافکن که چند روش نمره گذاري مختلف ولي مشابه را در بر مي گيرند، مشکل حتي شديدتر است.

اگرچه سؤال مربوط به پايايي نمره گذار به طور ساده يک توافق بين داوران و درون داوران است، ولي بايد به خاطر داشت که ناپايايي نمره گذاري در ناپايايي آزمون تأثير مي گذارد. مورستاين(820) (1963، ص 146-144) جدول خلاصه اي از پاياييهاي نمره گذاران را در خصوص ويژگيهاي نمره گذاري شده از آزمون TAT ارايه کرده است. از 45 مطالعه اي که پايايي تحت لواي همبستگي در آنها گزارش شده بود، ميانه پايايي نمره گذاران 0/74 به دست آمد. با پاياييهايي از اين دست، مشکلات دستيابي به سطوح قابل قبول پايايي آزمون در واقع زياد هستند. با وجود اين، مي توان در اين زمينه به پاياييهاي بالاتري نيز دست يافت. در اين خصوص، هولت(821) (1978) داده هاي TAT حاصل از چند منبع را گزارش کرد که حاکي از پايايي بالاي نمره گذاران تا سقف 0/90 بودند. دستيابي به ضرايب پايايي بالا معمولاً شامل راهنماهاي مبسوطي است که طبقه ها را با دقت تعريف کند و مثالهاي نمره گذاري را ارايه دهد. از آنجايي که کاربرد چنين راهنماهايي نيازمند توجه زياد و تلاش وافر در تعميم دادن يک نمره واحد است، آنها بيشتر به جاي قاعده يا حکم، موارد استثنايي را نشان مي دهند.

پايايي تفسير کلي


توجه بيش از حد به رويکردهاي مختلف در تعيين پايايي ممکن است از لحاظ علمي خطر از دست دادن موضوع اصلي در پايايي را به همراه داشته باشد. آزمونها فنون جمع آوري اطلاعات مربوط به شخصيت هستند و معمولاً در خصوص ارايه پيش بيني هايي درباره رفتار آتي بر مبناي عملکرد شخصيت استوارند. به همين دليل، توجه غايي ما به پايايي بايد معطوف اين باشد که کدام آزمون مطرح است؛ يعني، هرگاه آزمون رورشاخ براي به دست آوردن توصيف جامعي از عملکرد کلي شخصيت به کار رود، آن گاه موضوع اصلي، پايايي اين توصيفهاي کلي است و نه پايايي طبقه هاي نمره گذاري فردي.

در ارزيابي پاياييهاي کلي چه چيزي مورد توجه قرار دارد؟ اين روشها به روشهايي شباهت دارند که قبلاً توصيف شدند. براي مثال، پايايي حاصل از روش دو نيمه سازي را مي توان با مقايسه تفسيرهاي حاصل از بررسي نيمه هاي قابل مقايسه آزمون ارزيابي کرد؛ پايايي حاصل از روش بازآزمايي شامل مقايسه تفسيرهاي حاصل از دو اجراي مختلف آزمون است؛ و پايايي بين داوران را مي توان با مقايسه تفسيرهاي حاصل از اجراي يک آزمون که توسط داوران مختلف صورت گرفته است، تعيين کرد. پايايي بين آزمايندگان را نيز مي توان به روش مشابهي ارزيابي کرد.

براي ارايه توصيفهاي کلي شخصيت که به طور آماري مي توان به همين شيوه آنها را با يکديگر مقايسه کرد، چهارچوبهاي توصيفي چندي در خصوص شخصيت مورد نياز است. يک روش موسوم کاربرد مجموعه اي از مقياسها يا ابعاد درجه بندي است که با آزمون و نوع اطلاعات توصيفي مورد نياز متناسب هستند. بدين ترتيب، تفسير به دنبال بررسي طرح کلي آزمون، با اختصاص دادن نمره ها يا جايگاهها به آزمودنيها بر اساس اين مقياسها صورت مي گيرد. يا آزمايندگان مي توانند به تعدادي از سؤالهاي صحيح - غلط يا چندگزينه اي در خصوص موضوع پاسخ دهند. روش مرسوم ديگر، استفاده از فن دسته بندي پرسش است. يک دسته بندي پرسش معمولي شامل 100 کارت است که هر کدام يک توصيف شخصيت را در بر مي گيرد. از آزماينده خواسته مي شود که طرح کلي آزمون را مطالعه کند و بعد، عبارتهاي توصيفي را در 9 دسته طبقه بندي کند که از حداقل وصف حال تا حداکثر وصف حال آزمودني را در بر مي گيرد. تعداد کارتهايي که در هر دسته قرار مي گيرند از قبل تعيين مي شوند. به طوري که هر داور توزيع يکساني از کارتها را به دست مي دهد. در تمام اين فنون، همبستگي رتبه اي يا درصد توافق روشها را مي توان براي تعيين يک شاخص عددي پايايي به کار برد (هرگاه قصد داشته باشيم که پاياييهاي مربوط به يک آزماينده واحد را تعيين کنيم، تعداد طرحهاي آزمونهاي مورد داوري بايد به اندازه کافي زياد باشد که آزماينده نتواند به ياد آورد يا حدس بزند که کدام مورد به کدام آزمودني تعلق داشته است).

پايايي به دست آمده از هر روش ارزيابي بايد با کاربرد همان روش متناسب باشد. هرگاه پيش بيني هاي مربوط به رويدادهاي به خصوصي ارايه شود، پايايي اين پيش بيني ها بايد مورد بررسي قرار گيرد. هرگاه توصيفهاي کلي شخصيت مورد توجه باشد، اين پاياييهاي آنهاست که مورد توجه قرار مي گيرند. گرچه اغلب منابع اساسي ديگري نيز در زمينه پايايي وجود دارد (مانند پايايي نمره گذار) که پاياييهاي نهايي به آنها بستگي دارند، پايايي روش مورد استفاده، سؤال مربوط به علاقه نهايي است.

پي نوشت:


807- Ghiselli

808- Nunnally

809- Bernstein

810- Dahlstrom

811- Welsh

812- Raymond B. Cattell

813- Gleser

814- Nanda

815- Rajaratnam

816- Jones

817- Reid

818- Holtzman

819- Gross

820- Murstein

821- Holt


منبع:تالیف:آی . لانیون،ریچارد و دی فلئونارد ، ترجمه:نقشبندی،سیامک و .... «ارزيابي شخصيت» ، نشر روان ،1385

اندازه گيري رواني آموزشي و نظريات اندازه گيري

اندازه گیری از مهمترین ویژگی های علم است. کلوین می گوید در صورتی می توان از چیزی صحبت کرد که بتوان آن را اندازه گرفت. یکی از بزرگان علم قرن 20 بیان کرده است که تا کنون همه ی چیزهایی که قرار بوده کشف شوند کشف شده اند تنها چیزی که تغییر خواهد کرد دقت اندازه گیری است. جنبه های فلسفی اندازه گیری در فلسفه ی تحلیلی بررسی می شود و کاربردهای اولیه ی آن در فیزیک ظهور کرده است. بعد از آن در آزمایشات روانشناسی تجربی وارد حوزه ی روانشناسی شده است. 

مهمترین نظریات اندازه گیری در حوزه ی روانشناسی نظریه کلاسیک اندازه گیری، نظریه ی تعمیم پذیری، نظریه ی سوال پاسخ و  احتمالا نظریه ی شبکه ای است. نظریات کلاسیک اندازه گیری و سوال پاسخ بیشترین کاربرد را در حوزه ی طراحی سوال و ساخت پرسشنامه دارند. این نظریات در تحلیل داده های بدست آمده از پرسشنامه ها برای دستیابی به بهترین سوالات و پرسشنامه های معتبر و پایا کاربرد دارند.