ارزش يابي آزمون نظري آزمون گواهينامة رانندگي بر اساس

ارزش يابي آزمون نظري آزمون گواهينامة رانندگي بر اساس
نظرية سؤال  پاسخ و مقايسة آن با نظرية كلاسيك آزمون
اسماعيل مام شريفي 1
علي دلاور 2
آزاده بلوكي 3
سميه شعباني 4
چكيده
زمينه: اين پژوهش با هدف بررسي ويژگي هاي روان سنجي سؤالات آزمون نظري آزمون گواهينامة رانندگي انجام و
اجرا شده است. نمونة مورد مطالعه را 350 نفر از پاسخ دهندگان آزمون تشكيل دادند كه به روش نمونه گيري خوشه
اي چند مرحله اي انتخاب شده بودند و تعداد 30 سؤال از سؤالات آزمون نظري آزمون گواهينامة رانندگي، كه به
روش تصادفي ساده استخراج شده بودند، به عنوان نمونه سوالات مورد بررسي قرار گرفتند. براي بررسي ويژگي هاي
روان سنجي سؤالات آزمون، از دو نظرية كلاسيك آزمون و سؤال - پاسخ استفاده گرديده و نتايج به دست آمده از
آنها با هم مقايسه و بررسي شده است. روش پژوهش توصيفي بوده و در مرحلة اول صحت نمونه گيري بررسي
گرديد. جهت تعيين تك بعدي بودن آزمون از روش آلفاي كرانباخ و تحليل عاملي استفاده شد. سپس تجزيه و تحليل
سؤالات آزمون با نظرية كلاسيك و نظرية سؤال - پاسخ انجام گرفت و پارامترهاي سؤال (دشواري، تشخيص و
حدس) و توانايي به دليل نامعلوم بودن به روش برآورد همزمان مورد انداز هگيري قرار گرفت.
يافته ها: نتايج، بيان كنندة تك بعدي بودن آزمون و استقلال موضعي آن است. پس از تعيين مفروضه هاي اصلي
برازش مدل - داده ها مورد بررسي قرار گرفت كه نتايج نشان داد مدل دو پارامتري برازش بهتري با ،IRT نظرية
وابسته مورد بررسي قرار T مجموعة داده ها دارد. در مرحلة بعد معناداري پارامترهاي سؤال و توانايي توسط آزمون
گرفت. نتايج نشان داد كه رابطة معناداري بين دقت برآورد پارامترهاي دشواري، شيب و توانايي در دو نظرية
كلاسيك و سؤال - پاسخ وجود ندارد. به منظور بررسي پايايي و ثبات نتايج آزمون در اجراي اول، بر روي نمونه اي
به حجم 30 نفر، بازآزمايي بعمل آمد. از آنجائيكه آزمون مورد نظر از نوع ملاك مرجع مي باشد، براي بررسي توافق
بين تصميم ها از ضريب پايايي كاپا استفاده شد. نتايج نشان داد كه رابطة معناداري بين اجراي اول و اجراي دوم وجود
دارد و آزمون مورد نظر از پايايي و ثبات كافي در اجراهاي مختلف برخوردار است.
بحث و نتيجه گيري: تحليل پارامترهاي سؤال و آزمودني ها، نشان دهندة سادگي آزمون و قدرت جداسازي
خوب توانايي آزمون شوندگان بوده و بر اين اساس مي توان نتيجه گرفت كه سؤالات آزمون براي آزمودني هايي با
توانايي پايين از مناسبت و دقت بيشتري برخوردار است. ميزان توانايي برآورد شده در نظرية سؤال - پاسخ در مقايسه با
نمرة آزمودني در نظرية كلاسيك به ميزان واقعي نزديك تر است. با توجه به توانايي هاي برآورد شده مي توان
سؤالات متناسب با توانايي آزمودني ها را انتخاب نمود و اين مي تواند به ايجاد بانك سؤال منجر شود.
واژگان كليدي: ارزش يابي، آزمون، آزمون گواهينامه رانندگي، نظرية سؤال - پاسخ، نظرية كلاسيك آزمون.
Esmaeil.sharifi@gmail.com ( 1. دانشجوي كارشناسي ارشد (نويسندة مسئول
2. استاد دانشگاه علامه طباطبائي
3. دانشجوي كارشناسي ارشد
4. دانشجوي كارشناسي ارشد
90/8/ تاريخ وصول: 3
91/2/ تاريخ پذيرش: 23
2 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
مقدمه
امروزه در بسياري از جوامع از سه عامل انسان، راه و وسيلة نقليه به عنوان تعيين كننده هاي
اصلي تصادفات نام برده مي شود كه در اين ميان عامل انساني نقش اصلي را به خود
اختصاص داده است. يعقوبي ( 1379 ) نيز در علت شناسي تصادف هاي رانندگي از 4 عامل
انساني، جاده، وسيلة نقليه و محيط نام مي برد كه در 90 تا 95 درصد تصادفات رانندگي در
ايران، عامل انساني را داراي نقش اصلي و اول در حوادث رانندگي دانسته است.
1 ميليون نفر در دنيا به علت تصادفات رانندگي جان خود را از دست / ساليانه بيش از 26
2004 )، و اغلب مرگ و ميرهاي ناشي از حوادث ، مي دهند ( پدين، اسكار فيلد و سليت 1
رانندگي، در كشورهاي با درآمد كم و متوسط و براي جوانان اتفاق م ي افتد (كوپيتز و
2005 ). سازمان بهداشت جهاني پيش بيني كرده است كه در سال 2020 ، مرگ و ، كروپر 2
.(2004 ، 2 ميليون نفر خواهد رسيد (رومانا 3 / مير ناشي از حوادث رانندگي به 34
بر اساس آمارها سالانه حدود 25 هزار نفر نيز در جاده هاي ايران كشته م ي شوند و
سوانح رانندگي پس از بيماري ها ي قلبي - عروقي، دومين عامل مرگ و مير در ايران
12 ميليون مصدوم و معلول، از پيامد هاي 7 سال / محسوب مي شود. 141 هزار كشته، 5
تصادفات در كشور است و خسارات جاني و مالي 7 سال تصادفات رانندگي در ايران ب ا
پيامد هاي يك جنگ يا چند زلزلة مهيب برابري م ي كند . موثق تر ين آمار تصادفات
رانندگي در كشور از كشته شدن 140 هزار و 933 نفر طي 7 سال گذشته (ابتداي 77 تا
انتهاي 83 ) حكايت دارد و اين در حالي است كه وقوع اين حوادث بيش از 12 ميليون
مصدوم و 500 هزار معلول مادام العمر بر جاي گذارده است. مرگ ناشي از تصادفات يك
ساله در كشور با تلفات انساني ناشي از زلزلة بم برابر بوده، اما چون اين حوادث ناگهاني
نيست چندان مشهود به نظر نمي رسد. با وجود اينكه ايران كمتر از يك صدم جمعيت جهان
1. Peden, Scufield, & Sleet
2. Kopits & Cropper
3. Romana
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 3
را دارد بيش از يك چهلم ( 3 درصد) از حوادث ترافيكي را به خود اختصاص داده است
.( (خبرگزاري فارس، 1385
2 درصد از كل تصادفات جاده اي در ايران اتفاق / بر اساس آمارهاي سازمان يونيسف 5
مي افتد و اين به آن معنا است كه آمار تصادفات جادهاي در ايران 20 برابر ديگر كشورهاي
جهان است. در واقع، ميزان كشته شدگان تصادفات جاده اي در دنيا، به ازاي هر ده هزار
خودرو 3 نفر بوده، در حالي كه در ايران به ازاي هر ده هزار خودرو حدود 33 نفر بوده است
(سوري و همكاران، 1388 ). آلمان كمتر از يك چهارم ايران مساحت دارد و تعداد
اتومبيل هايش بيش از 4 برابر ايران است. با اين همه شمار قربانيان حوادث رانندگي در ايران
بيش از 10 برابر آلمان است (بيمة ايران، 2008 ). همچنين انگلستان نيز با وجود 6 برابر بودن
.( تعداد وسايل نقليهاش، 32 باركمتر از ايران تلفات جادهاي دارد (سلماني و همكاران، 1387
در پيامدهاي ناشي از حوادث، پديدة كوه يخ، يك فرايند واقعي است. قلة كوه يخ كه
معمولاً مورد توجه قرار مي گيرد و به ظاهر كوچك است شامل موارد مرگ ناشي از
حوادث است، ولي بدنة عظيم اين كوه از بستري شدگان، آسيب ديدگان نيازمند خد مات
سرپايي و درمان هاي خانگي توأم با ناتوا ني ها ي گذرا يا ماندگار تشكيل شده است و
عواقب رواني، اجتماعي و اقتصادي حوادث نيز بر اين بزرگي مي افزايد.
پايين بودن سطح فرهنگ صحيح ترافيك و عدم توجه كافي به قوانين و مقررات و حقوق
سايرين و رعايت نشدن آيين نامة رانندگي، ناشي از ناكافي بودن آموزش نظري و عملي
رانندگي، قبل و بعد از صدور گواهينامه، موجب شده است آمار تصادفات رانندگي در ايران
شمار كشته ها و مجروحين ناشي از آن افزايش پيدا كرده و بالاترين رتبه را در بين ملل جهان
كسب كند و اين يعني مواجه شدن با پيامدهاي جبران ناپذير از دست رفتن سرماية انساني.
اگرچه در يك برنامه پيشگيرانة جامع براي كاهش تصادفات و تلفات، بايد به هر 4 عامل
انساني، جاده، وسيلة نقليه و محيط پرداخت (آيتي، 1371 ، نقل از يعقوبي، 1379 )، اما به نظر
مي رسد كه مداخله در عامل انساني (با توجه به نقش زياد آن در تصادفات رانندگي در ايران)
4 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
اثربخش تر باشد. چرا كه نتايج مطالعات انجام شده نيز نشان ميدهد كه مي توان از 98 درصد
حوادث پيشگيري نمود (عراقي و واحديان، 1384 ). مراد از عامل انساني عابرين، سرنشين ها،
رانندگان و عوامل رواني، رفتاري، فرهنگي و اجتماعي مؤثر بر آن ها مي باشد.
امروزه نقش آموزش در افزايش كارآيي، بهرهوري و توسعة اقتصادي كشورها بيش از
پيش اهميت يافته است، چرا كه در دنياي كنوني داشتن كارخانهها، زمين، ابزار و ماشين -
.( آلات سرمايه محسوب نمي شود، بلكه ثروت در منابع انساني نهفته است (خالدي، 1387
آموزش اين توانايي را دارد تا براي بهبود و پيشرفت كشورهاي كمتر توسعه يافته زمينة
لازم را فراهم سازد و سياست هاي لازم براي مقابله با اين بحران جهاني را اتخاذ نمايد
(لوئيز، 1990 ، نقل از سهرابي، 1384 ). بسياري از كشورهاي در حال توسعه دربارة مرگ و
مير در كشور خود اطلاعات محدو دي دارند (خي و وانگ 2004،1 ). با مطالعات
اپيدميولوژيك در علوم پزشكي، علوم اجتماعي و علوم رفتاري مي توان در جهت كاهش
حوادث و عواقب ناشي از آن ها گام برداشت، چرا كه آس يب ها ي ناشي از حوادث
.(2005 ، رانندگي يك مشكل بزرگ بهداشتي در دنيا به شمار مي آيد (پدن و تورويان 2
قاعدتاً زماني يك جامعه به كمال رسيده است كه آموزش به گونه اي صحيح در آن
انتقال يافته باشد و اين نيز نمي تواند محقق شود مگر با يك برنامه ريزي فراگير و مستمر به
منظور تدوين و آموزش اصول صحيح رانندگي براي سنين مختلف و با روش هاي متنوع و
مورد قبول (احمدي، 1385 ). به هنگام توجه به روند تكاملي كشورهاي توسعه يافته،
همواره شاهد ارتباط نزديك بين آموزش، پژوهش، ارزش يابي و رشد فناوري از يك سو و
پيشرفت اقتصادي و اجتماعي از سوي ديگر مي باشيم.
يكي از اين فعاليت ها در زمينة كاستن از رخدادهاي مرتبط با رانندگي، توجه وي ژه و
مجدد به آزمون نظري گواهينامة رانندگي از زواياي مختلف و مقايسة آن با ديگر كشورها
است كه مي تواند به عنوان اقدامي پيشگيرانه در جهت كاستن از رخداد حوادث رانندگي به
1. Chi & Wang
2. Peden & Toroyan
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 5
شمار آيد. آزمون نظري، آزمون استاندارد شده اي است كه براي تصميم گيري در مورد
رسيدن فرد به دانش نظري كافي و ساختن راننده اي ايمن و بي خطر از فرد طراحي شده
.(2004 ، است (ويبرگ 1
در حال حاضر آزمون نظري گواهينامة رانندگي در ايران شامل مجموعه اي از
پرسشنامه هاي 30 سؤالي است كه تعدادي از سؤالات آن به صورت تصويري و رنگي
مي باشد . هر سؤال داراي 4 گزينه است كه يكي از گزينه ها صحيح و بقيه انحرافي
مي باشند. زمان پاسخگويي به آزمون محدود، و 20 دقيقه مي باشد. با توجه به اينكه آزمون
از نوع ملاك مرجع و دو ارزشي است، ملاك قبولي در آن پاسخگويي صحيح به 26
86 ) مي باشد. / سؤال از 30 سؤال (نمرة برش 67
امروزه پس از گذشت چندين سال از برگزاري اين آزمون و فعاليت مراكز آموزشي
مربوطه در كشور، بايد پرسيد كه:
اين آزمون تا چه اندازه توانسته است به نيازهاي فرد و جامعه پاسخ دهند؟ 
آيا اين آزمون به اهداف طرح شدة اولية خود رسيده است؟ 
مواد (سؤالات) اين آزمون تا چه اندازه از معيارهاي روان سنجي و استاندارد هاي 
مربوطه برخوردارند؟
پاسخ به اين سؤال ها و سؤال هاي مشابه مستلزم استفاده از سازوكار ارزشيابي آزمون از
بعد روان سنجي است.
متوليان امر بايد به موازات گسترش آموزش هاي ترافيكي، به نتايج آنچه تاكنون در اين
زمينه هزينه شده، بپردازند. چرا كه با هزينه هاي بسياري كه براي اين آموزش ها صرف
مي شود ايجاد اصلاحات در آن ضروري به نظر مي رسد. اصلاحاتي كه مي توان از آن به
ياد كرد. « نوگرايي 2 » عنوان
يكي از مسائل كليدي، در دورنماي آزمون نظري گواهينامة رانندگي، بازسازي مداوم آن
1. Weberg
2 . modernization
6 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
از طريق فرايند ارزش يابي است. يك نظام آموزشي ايستا پاسخگوي ماهيت پوياي توسعه
نيست، چرا كه نيازها و اولويت هاي يك دهه، مسلماً با نيازهاي دهة بعد متفاوت است، گرچه
دانش و مهارت هاي بنيادين معيني ممكن است همچنان با اهميت باقي بمانند، با اين حال
مسائلي كه براي نسل گذشته مهم بوده، امروزه كاملاً بي اهميت است (حسيني، 1380 ). بر اين
1997 ) هم عقيده بود و اين گفته را تأييد كرد كه اگر نظام آموزشي ) اساس مي توان با پاتون 1
.( به سازوكار ارزشيابي مجهز باشد، نتايج مطلوب حاصل خواهد شد (نقل از بازرگان، 1386
بنابراين، ارزشيابي آزمون نظري گواهينامة رانندگي از اهميت حياتي برخوردار است.
در اين ميان علم روان سنجي به عنوان شاخه اي از روان شناسي كاربردي، در پي يافتن
شيوه هايي است كه به كمك آن بتواند صفات رواني انسان را به صورت كمي و مقايسه
پذير ارائه دهد و در اين راه اغلب از محاسبات آماري كه در خيلي از موارد بسيار پيچيده و
1982 ، ترجمة هومن، 1375 ). به نظر مي - ، پيشرفته نيز مي شود، سود مي جويد (ثرندايك 2
رسد كه فعلاً در ايران، جز درموارد استثنايي، ساختن آزمون محدود به تهية سؤال است و
كمتر كسي به خصوصيات علمي آزمون ها و سؤالات توجه دارد. اين عدم توجه به مباني
علمي آزمون سازي در سازمان هاي خارج از دانشگاه ها بيشتر نمايان است تا جايي كه
بعضي از اين سازمان ها در ظرف چند روز آزمون به خصوصي را آمادة اجرا م ي كنند كه
براي ساختن آن در كشوري مثل آمريكا، شايد يكي دو سال وقت لازم باشد (مگنوسون،
.( 1966 ، ترجمة براهني، 1370
استفاده كنندگان آزمون در انتخاب، اجرا، نمره گذاري يا تفسير يك آزمون بايد
هدف ها، راه هاي وصول به آن ها و نتايج احتمالي را بدانند. داشتن هدف هاي مطلوب كافي
نيست؛ استفاده كنندگان بايد روش هاي ضروري به حداكثر رساندن كارايي و به حداقل
رساندن عوامل نامطلوب را بدانند. شايستگي در استفاده از آزمون، تركيبي است از شناخت
اصول روان سنجي، اطلاع از موقعيت مشكل زا كه در آن آزمون انجام مي شود و مهارت
1. Patton
2. Thorndike
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 7
فني. اگر آزمون ها درست به كار برده شوند، ابزار مفيدي هستند؛ در غير اين صورت به
.( 1979 ، ترجمة دلاور، 1384 ، ابزار خطرناكي تبديل مي شوند (آلن و ين 1
نظريههاي آزمون در علم روان سنجي به دو مقوله تقسيم مي شوند: اول: نظرية كلاسيك
كه قدمت آن به مفهوم اسپيرمن 2 از نمرة مشاهده شده، كه شامل مؤلفه ها ي ،(CTT) آزمون
يا نظرية صفت مكنون كه در ،(IRT) حقيقي و خطا است مي رسد. دوم: نظرية سؤال  پاسخ
در جهت توسعه IRT حيطه و قلمرو آزمودن نقش مهمي را ايفا مي نمايد. مدل هاي مشتق از
و بسط آزمون ها، همتراز سازي نمرات آزمون ها ي غير موازي، بررسي تورش سؤال و
.(1982 ، گزارش نمرات مورد استفاده قرارمي گيرند ( همبلتون و واندرليندن 3
در واقع، يك آزمون مي تواند از زواياي مختلف مورد مطالعه واقع شده و سؤالا ت آن
از لحاظ دقت IRT نيز بر طبق نظريات متفاوت ارزش گذاري شود . مقايسة مدل ها ي
برآورد پارامترهاي مدل، مورد توجه محققان بسيار طي سال هاي اخير بوده است . يكي از
تحقيقات قابل توجه در زمينة بررسي آزمون نظري آزمون گواهينامة رانندگي، پژو هشي
است كه توسط ماري ويبرگ در سال 2004 و در دانشگاه يومي سوئد انجام گرفته است .
آزمون نظري گواهينامة رانندگي در سوئد شامل 65 سؤال چند گزينه اي ( 2 تا 6 گزين ه) و
80 درصد) است. نمونة مورد بررسي در اين پژوهش ) از نوع ملاك مرجع با نمرة برش 52
شامل 5404 نفر آزمون شونده بوده كه به 65 سؤال مذكور پاسخ داده اند. برآورد
پارامترهاي سؤال و توانايي از طريق روش بيشينة درست نمايي حاشيه اي صورت گرفته
است. هدف اين پژوهش ارزش يابي آزمون نظري گواهينامة رانندگي با استفاده از نظرية
سؤال  پاسخ و همچنين مقايسة مدل ها ي سه گانة اين نظريه با همديگر در برآورد
پارامترهاي آزمون مورد بررسي، بوده است. نتايج پژوهش وي نشان م ي دهد كه نظرية
سؤال  پاسخ ، ابعاد متفاوت و اطلاعات ارزشمندي به دست مي دهد . با مقايسه مدل ها ي
1. Allen & Yen
2. Spearman
3. Hambleton & Vanderlinden
8 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
يك، دو و سه پارامتري در برآورد پارامترها مشخص شده است كه مدل سه پارامتري به
برآورد دقيقتري در مقايسه با مدل هاي يك و دو پارامتري منجر شده است.
1983 )، با مقايسة اين مدل ها از طريق شبيه سازي كامپيوتري نشان ) همبلتون و كوك 1
دادند كه، مدل منطقي سه پارامتري نسبت به مدل هاي يك و دو پارامتري با آزمون هاي 20
سؤالي داراي قدرت بيشتري در برآورد جايگاه افراد در صفت مكنون و رتبه بندي
1993 ) با هدف مقايسة ) آزمودني ها براساس صفت مورد سنجش بوده است . رايد 2
و با استفاده از تحليل خرده آزمون هاي محاسبات عددي، تجسم فضايي سه IRT مدل هاي
بعدي، خزانة لغات و استدلال رياضي، نتيجه گرفت كه هر 4 خرده آزمون از لحا ظ سطح
دشواري سؤالات و قدرت تشخيص بين افراد در سطوح مختلف توانايي تفاوت داشته اند .
بنابراين مدل هاي يك و دو پارامتري از لحاظ برآورد پارامترها تفاوت معني دار نشان
داده اند. ليكن به دليل تأثير نداشتن عامل حدس در پاسخگويي به سؤالات، مدل ها ي دو و
سه پارامتري تفاوت معني داري در برآورد پارامترها نداشته اند.
نتايج مقايسة مدل هاي مختلف از نظر برآورد پارامترهاي سؤال و توانايي در پژوهش
برآوردهاي متفاوتي براي IRT فراهاني ( 1375 ) نشان داد كه، مدل كلاسيك و مدل ها ي
به و ي ژه IRT پارامترهاي سؤال بدست مي دهند و برآورد پارامترهاي سؤال بر پاية مدل ها ي
مدل سه پارامتري، دقيق تر از برآورد پارامترهاي سؤال بر اساس مدل كلاسيك و مدل ها ي
است. همچنين مقايسة مدل ها از نقطه نظر برآورد توانايي آزمود ني ها نشان داد IRT ساده تر
كه مدل سه پارامتري برآورد متفاوت و دقيقتري از مدل كلاسيك و حتي مدل هاي يك و
ارائه مي دهد. در پژوهش محمد زاده ( 1375 )، نيز مشخص شد كه IRT دو پارامتري
مشخصه هاي آماري سؤالات در مدل كلاسيك وابسته به نمونه بوده و برآورد توانايي
آزمودني هم، وابسته به سؤالات آزمون است، اما در مدل ها ي جديد اندازه گيري اين
برآوردها مستقل از هم مي باشند. مقايسة مدل ها از لحاظ ميزان دخالت پارامتر حدس، اعتبار
1. Cook
2. Reid
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 9
اندازهگيري و آگاهي دهندگي، برتري مدل هاي جديد اندازهگيري را نشان داده است.
نشان داد كه نظرية سؤال  پاسخ در IRT و CTT صالحي ( 1376 ) با مقايسة دو نظرية
مقايسه با نظرية كلاسيك توانمندتر و كارآمد تر بوده و با خطاي استاندارد اندازه گيري
كمتر، آگاهي دهندگي و دقت بيشتري پارامترهاي سؤال و توانايي را برآورد نموده است .
همچنين اين نظريه در سطوح بالاي توانايي داراي بيشترين ميزان آگاهي بوده است. يونسي
نيز ( 1385 ) با بررسي ويژگي هاي روان سنجي سؤالات آزمون هاي فراگير رشتة
روان شناسي بر اساس نظرية سؤال  پاسخ ، به اين نتيجه رسيد كه مدل دو پارامتري نسبت به
مدل سه پارامتري برازش بهتري با مجموعة داده ها داشته است و اين نشان دهندة كم اثر
بودن عامل حدس در پاسخگويي به سؤالات، تلقي شده است.
امروزه با مدرن شدن آموزش، ارزش يابي به عنوان يكي از مؤلفه ها ي آموزش مورد
استفاده قرار گرفته و نوآوري هايي در زمينة آن پديد آمده است. يكي از اين نوآور ي ها
مربوط به بكارگيري كامپيوتر در فرايند سنجش و ارزي ابي و آزمون متقاضيان گواهينامة
رانندگي در كشورهاي اروپايي مي باشد به طوريكه بسياري از مراكز آموزشي به برگزاري
آزمون هاي كامپيوتري اقدام مي كنند. يكي از مهم ترين كاربردهاي تجزيه و تحليل روان
سنجي سؤالات، ايجاد يك مجموعه (بانك) سؤال استاندارد از سؤالات موجود م ي باشد
كه اين خود مقدمه اي است براي ايجاد و گسترش آزمون هاي انطباقي كامپيوتري.
در ايران، آزمون گواهينامة رانندگي شامل يك آزمون نظر ي و يك آزمون عملي
است، كه در اين پژوهش بر آزمون نظري تأكيد شده است . در آزمون نظري گواهينامة
رانندگي از نسخه هاي ثابت و متعددي جهت آزمون استفاده مي شود. اما در ايران، تاكنون
تحقيقات منسجمي در ارتباط با ارزش يابي سؤالات اين آزمون صورت نگرفته و به همين
دليل و نيز اهميت اين آزمون ها در تأثيرگذاري بر پيشگيري از رخداد رانندگي از طريق
آموزش هاي قبل از صدور گواهينامة رانندگي، ضروري به نظر مي رسد تحقيقاتي انجام
گيرد تا ميزان دستيابي به اهداف از پيش تعيين شده در زمينة مؤلفه ها ي روان سنجي يك
10 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
آزمون استاندارد، مشخص گردد. بنابراين هدف از پژوهش حاضر ارزش يابي و بررسي
و (IRT) ويژگي هاي سؤالات آزمون نظري گواهينامة رانندگي طبق نظرية سؤال  پاسخ
با IRT در كنار بررسي برازش مدل ها ي ،(CTT) مقايسة آن با نظرية كلاسيك آزمون
مجموعه داده هاي آزمون بوده است.
روش
در پژوهش حاضر جامعه آماري مورد مطالعه، شامل كلية سؤالات ( 194 سؤال ) آزمون
نظري گواهينامة رانندگي در شهر تهران و در سال 1388 بوده است.
به منظور كسب اطلاعات دقيق در مورد جامعه، بررسي يكايك عناصر جامعه مطلوب
به نظر مي رسد. اما معمولاً اين كار غير ممكن يا غير عملي است. با توجه به اينكه، نظريه
هاي روان سنجي، نظريه هاي نمونه هاي بزرگ هستند. قانون كلي در اين مورد بزرگ ترين
اندازة ممكن را تصويب مي كند. رايت و استون براي مدل يك پارامتري حداقل حجم
نمونة آزمودني ها را 200 نفر ذكر كرده اند. بعضي از محققان هم براي مدل دو پارامتري
500 نفر و براي مدل سه پارامتري 1000 نفر را لازم دانسته اند تا به برآورد هاي نامتغير و
.(1993 ، نااريب از پارامترهاي مدل منجر نشود (همبلتون، جونز و راجرز 1
بنابراين با توجه به نتايج تحقيقات صورت گرفته، حجم نمونة سؤالات مور د بررسي،
تعداد 30 سؤال بوده كه به روش كاملاً تصادفي انتخاب گرديد. همچنين در اين پ ژوهش
به منظور انتخاب حجم نمونة آزمودنيها، با استفاده از روش نمونه گيري خوشه اي چ ند
مرحله اي، پاسخ هاي يك نمونة 350 نفري به آزمون محقق ساخته انتخاب شده است .
انتخاب حجم 30 سؤالي به دليل رعايت شكل صوري آزمون هاي برگزار شده توسط راهور
ناجا بوده است.
روش پژوهش نيز با توجه به اهداف پژوهش و بر حسب نحوة گردآوري داده ها ،
توصيفي بوده است.
1 . Hambleton, Jones & Rogers
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 11
SPSS جهت تجزيه و تحليل داده هاي جمع آوري شده، با استفاده از نرم افزارهاي
از بررسي هاي مرتبط با سنجش مؤلفه هاي روان سنجي آزمون، از قبيل؛ ،BILOG – MG و
ضريب دشواري، ضريب تمييز، واريانس سؤالات، ضريب هبستگي دو رشته اي نقطه اي
استفاده گرديد. تك بعدي بودن آزمون با محاسبة آلفاي كرونباخ و انجام تحليل عاملي
بررسي و سپس استقلال موضعي آزمون بدست آمد. با استفاده از آزمون خي دو (
 2 ) در
مورد برازش مدل با داده ها قضاوت شد و پس از اينكه معلوم شد كدام مدل بهترين برازش را
با داده هاي آزمون دارد، پارامترهاي برآورد شدة سؤال (دشواري، تشخيص و حدس ) و
توانايي آزمودني ها با استفاده از روش ها ي برآورد همزمان پ ارامترهاي سؤال و توانايي،
استخراج گرديد. سپس منحني ويژگي تمامي سؤالات براي رسم نمودارها، تابع آگاهي
سؤالات براي مقايسة تفاوت مدل ها، تابع آگاهي آزمون، منحني خطاي استاندارد آزمون و
منحني تواناييهاي آزمودنيها ترسيم گرديد. در ادامه، بيشينة آگاهي به همراه سط ح توانايي
سؤالات، بيشينة آگاهي آزمون و همچنين نقطه اي كه بيشينة آگاهي در آنها به وجود مي آيد،
محاسبه و نقطه اي كه بيشترين ميزان آگاهيدهندگي آزمون ها در آن دامنه قرار دارد و نيز
توزيع بيشينة آگاهي و خطاي استاندارد توانايي آزمون نيز آورده شد.
2 با PL و مدل CTT در مرحلة بعد همبستگي بين پارامترهاي دشواري و تمييز در مدل
استفاده از ضريب همبستگي پيرسون محاسبه و در ادامه به منظور بررسي معناداري
وابسته T پارامترهاي سؤال و توانايي در نظرية كلاسيك و سؤال  پاسخ از آزمون معناداري
استفاده گرديد.
همچنين به منظور بررسي پايايي و ثبات نتايج آزمون نظري گواهينامة رانندگي در اجراي
اول، مجدداً اين آزمون با همان شرايط اوليه، پس از يك هفته سپري شدن از اجراي اول، بر
روي 30 نفر از همان نمونة اوليه اجرا گرديد. از آنجائيكه آزمون مورد نظر از نوع ملاك
مرجع مي باشد، جهت بررسي توافق بين تصميم ها از ضريب پايايي به روش كاپا استفاده شد.
داده هاي اوليه و اصلي جهت استفاده در تجزيه و تحليل سؤالات آزمون نظري
12 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
گواهينامه رانندگي، پاسخ هاي اولية كلية شركت كنند گان به آزمون مذكور در مراكز
آموزش و آزمون گيري مي باشد كه در مراحل مختلف جمع آوري شده است . جهت
انتخاب سؤالات پرسشنامه، از كتاب "آموزش جامع قوانين و مقررات راهنمايي و
رانندگي" (از انتشارات معاونت راهور ناجا و منبع اصلي آزمون نظري). استفاده گرديد. آن
شامل 10 بخش محتوايي با سؤالات اختصاصي در هر بخش بوده و در مجموع 194 سؤال
را در بر مي گيرد. در مرحلة اول از ميان اين سؤالات، 30 سؤال به شيوة كاملاً تصادفي و با
در نظر داشتن ميزان نسبت در هر بخش محتوايي، انتخاب شد . از ميان سؤالات انتخابي
تعدادي سؤال تصويري و رنگي نيز در نظر گرفته شد. در انتها گزينه هاي انحرافي و گزينة
صحيح سؤالات به شيوة تصادفي براي سؤالات آزمون در نظر گرفته شد.
يافته ها
34 درصد بقيه زن / 65 درصد افراد مرد و 3 / در ميان حجم نمونة ( 350 نفر) مورد بررسي 7
24/ بوده اند، كه ميانگين و انحراف استاندارد نمرات افراد در آزمون نظري برگزار شده، 55
4 بوده و با توجه به ملاك قبولي در آزمون (كسب نمرة 26 از 30 ) تعداد 169 نفر قبول / و 4
48/28 درصد) و 181 نفر مردود شده اند. اين نشان مي دهد بيش از نصف افراد گروه، به )
.( ملاك مورد نظر، جهت قبولي در آزمون نرسيده اند (نمودار 1
5 10 15 20 25 30 35
Frequency
40
30
20
10
0
36
39 39
36
19
22
30
22 21
25
17
15
2
9
6
4
1
2 2 3
Mean =24.55
Std. Dev. =4.395
N =350
SCORE
نمودار 1 . منحني توزيع فراواني نمرات آزمون گواهينامة رانندگي
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 13
در مرحلة اول، جهت تجزيه و تحليل سؤالات آزمون بر طبق نظرية كلاسيك آزمون،
درجة دشواري، ضريب تميز و انحراف استاندارد سؤالات محاسبه گرديد كه نتايج آن در
جدول 1 ارائه گرديده است.
(CTT) جدول 1- پارامترهاي سؤالات آزمون گواهينامة رانندگي بر اساس نظرية كلاسيك
سئوال
ضريب دشواري
(P)
ضريب تميز
) (rpbis
انحراف
استاندارد
سئوال
ضريب دشواري
(P)
ضريب تمييز
) (rpbis
انحراف
استاندارد
. /50 . /24 . /55 16 . /17 . /23 . /97 1
. /38 . /35 . /82 17 . /45 . /39 . /71 2
. /24 . /28 . /93 18 . /31 . /29 . /89 3
. /32 . /35 . /88 19 . /35 . /31 . /86 4
. /42 . /39 . /77 20 . /23 . /17 . /94 5
. /43 . /38 . /74 21 . /47 . /33 . /66 6
. /45 . /51 . /72 22 . /22 . /37 . /94 7
. /49 . /32 . /58 23 . /24 . /39 . /94 8
. /27 . /21 . /92 24 . /38 . /44 . /82 9
. /47 . /42 . /66 25 . /20 . /33 . /95 10
. /36 . /29 . /85 26 . /41 . /4 . /78 11
. /38 . /37 . /82 27 . /25 . /4 . /93 12
. /50 . /30 . /52 28 . /27 . /32 . /92 13
. /45 . /28 . /72 29 . /41 . /37 . /79 14
. /22 . /17 . /95 30 . /28 . /32 . /91 15
0 (سؤال / سؤالات آزمون بين 52 (P) نتايج نشان مي دهد كه؛ دامنة ضريب دشواري
،16 ، 0 (سؤال 1) در نوسان بوده است. بنابراين بر اساس اين نتايج، سؤالات 6 / 28 ) و 97
25 و 28 سؤالات مناسبي محسوب شده و بقية سؤالات نيز به دليل ضرايب دشواري ،23
بالا، سؤالات آساني محسوب م ي شوند . ميانگين و انحراف استاندارد پارامتر دشواري
0 است كه در مجموع نشاندهندة آسان بودن كل آزمون م ي باشد . / 0 و 12 / سؤالات 81
( 0 (سؤال 22 / 0 (سؤالات 5 و 30 ) و 51 / سؤالات آزمون بين 17 (rpbis) دامنة ضريب تمييز
29 و 30 كه دار اي ،26 ،24 ،18 ،16 ،5 ،3 ، در نوسان بوده است . به استثناي سؤالات 1
( 0 / ضرايب تمييز پاييني مي باشند، بقية سؤالات از ضرايب تمييز نسبتاً خوبي (بالاتر از 3
14 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
0 است كه / 0 و 08 / برخوردارند. ميانگين و انحراف استاندارد پارامتر تمييز سؤالات 33
نشاندهندة قدرت تمييز نسبتاً مناسب كل آزمون در جداسازي افراد قوي و ضعيف
مي باشد. بر طبق نتايج جدول بالا، ارتباط خاصي ميان سؤالات با ضرايب دشواري بالا و
پايين مشاهده نمي شود.
ابتدا ،(IRT) در مرحلة بعد جهت انجام تحليل سؤالات با استفاده از نظرية سؤال  پاسخ
يعني مفروضه هاي تك بعدي بودن و استقلال ، IRT مفروضه هاي اساسي و اولية نظرية
موضعي بررسي گرديد. مفروضة اول با استفاده از ضريب پايايي و تحليل عاملي مورد
بررسي قرار گرفت.
براي بررسي پايايي سؤالات آزمون به روش لوپ، ابتدا ضريب پايايي كلية سؤالات و
ميزان پايايي تك تك سؤالات تعيين گرديد. سپس با استفاده از فرمول آلفاي كرانباخ
بدست آمد، كه نشاندهندة همساني دروني بالاي α = . / ضريب پايايي كل آزمون 82
سؤالات آزمون مي باشد.
قبل از انجام تحليل عاملي بايد از اعتبار داده ها اطمينان داشته باشيم، براي اين منظور از
كه روشي براي بررسي صحت نمونه گيري (KMO) آزمون كايزر - ميجر - الكين
.( مي باشد، استفاده شده است (جدول 2
و آزمون كرويت بارتلت KMO جدول 2. اندازة
0 /767 (KMO) اندازة كفايت نمونهگيري كايزر- ميجر- الكين
آزمون كرويت بارتلت
1510/ مجذور كاي تقريبي 824
درجات آزادي 435
0 / سطح معناداري 001
برابر 789 / . بوده كه نشان دهندة كفايت نسبتاً بالاي KMO با توجه به جدول 2، مقدار
نمونه گيري و تناسب داده ها براي تحليل عاملي است، و از آنجايي كه داده هاي بالاتر از
بدست آمده رضايت بخش است . KMO 0/7 براي تحليل مناسب هستند، لذا مقدار
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 15
0، با درجات آزادي 435 و با مقدار مجذور / همچنين آزمون كرويت بارتلت در سطح 001
1510 معنادار بوده است و مي توان گفت كه داده ها براي اجراي تحليل عاملي از / كاي 824
تناسب قابل قبولي برخوردار بوده و نتايج تحليل عاملي قابل اعتماد مي باشد.
با توجه به نتايج بدست آمده، داده ها براي آزمون تحليل عاملي از تناسب برخوردار
بوده، و ماتريس همبستگي حاصل از تحليل عاملي نشان م ي دهد كه، عامل اول با ارزش
17 درصد واريانس عامل ها را تبيين كرده است . (سه / 5/21 حدود 36 (P-Value) ويژه
5 درصد واريانس). اين عامل غالب توسط نمودار / 1 و 57 / برابر عامل دوم با ارزش ويژه 67
اسكري (نمودار 2) بدست آمده نيز تأييد شده است.
Component Number
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
Eigenvalue
6
5
4
3
2
1
0
نمودار 2. منحني اسكري آزمون نظري گواهينامة رانندگي
بنابراين، مي توان نتيجه گرفت كه آزمون گواهينامة رانندگي تك بعدي بوده و يك
عامل غالب، عملكرد افراد را در آزمون تبيين مي كند. چنانچه فرض تك بعدي بودن برقرار
.( باشد، مفروضة استقلال موضعي نيز برقرار است (همبلتون، 1989
پس از اثبات تك بعدي بودن و استقلال موضعي آزمون (نمودار 2)، كه از پيش
است ،(IRT) فرض هاي مهم تجزيه و تحليل سؤالات آزمون بر طبق نظرية سؤال  پاسخ
(همبلتون و سواميناتان، 1985 ؛ نقل از ويبرگ، 2004 )، ضرايب د شواري، شيب، حدس،
نوعي آزمون مجذور خي به همراه سطح احتمال مربوطه، براي مدل ها ي يك، دو و سه
4 و 5 آورده شده است. ، پارامتري محاسبه گرديد كه نتايج آن در جداول 3
16 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
1) بر اساس PL) جدول 3. مقادير پارامترهاي تعدادي از سؤالات آزمون در مدل يك پارامتري
IRT نظرية
(p) معناداري χ خي دو 2 (b) سؤال دشواري
0/61 1 -3/49 1
*0/001 18/5 -0/24 16
*0/001 16/9 -1/03 22
-1/ ميانگين 82
-2 Log Likelihood =7982/8283
0/ انحراف استاندارد 93
0/ * عدم برازش سؤال با مدل در سطح 01
3) بر اساس PL) جدول 4. مقادير پارامترهاي تعدادي از سؤالات آزمون در مدل سه پارامتري
IRT نظرية
سئوال
دشواري
(b)
شيب
(a)
حدس
(c)
خي دو
χ2
معناداري
(p)
. /3 6 . /5 1/41 -. /65 4
. /41 5 . /5 . /59 -2/35 5
. /49 5/5 . /35 1/38 . /02 25
0/45 1/35 - . / ميانگين 76
-2 Log Likelihood =7865/ انحراف 2979
استاندارد
. /05 . /78 . /91
IRT 2) بر اساس نظرية PL) جدول 15 . مقادير پارامترهاي آزمون در مدل دو پارامتري
سئوال دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
سئوال (p) دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
(p)
. /49 7/6 . /4 -0/36 16 . /46 1/6 1 -2/7 1
. /54 5 . /79 -1/53 17 . /71 4/5 . /75 -0/96 2
. /98 . /4 0/94 -2/24 18 . /08 8/1 . /84 -1/95 3
. /91 1/5 0/87 -1/82 19 . /27 5/1 . /78 -1/76 4
. /43 7 . /8 -1/22 20 . /21 5/9 . /57 -3/26 5
. /62 5/3 0/76 -1/12 21 . /96 2/5 0/61 -0/79 6
. /93 1/8 1/17 -0/82 22 . /2 4/6 1/4 - 1/97 7
1. به دليل برازش يافتن مدل 2 پارامتري با مجموعة داده هاي آزمون، نتايج مقادير پارامترهاي آزمون در اين مدل به صورت كامل
آورده شده است.
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 17
سئوال دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
سئوال (p) دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
(p)
. /51 7/2 . /52 -0/49 23 . /95 . /3 1/59 -1/79 8
. /66 3/3 . /65 -2/63 24 . /98 . /7 1/07 - 1/28 9
. /87 3/1 . /8 -0/71 25 . /96 0/3 1/45 -2/03 10
. /46 5/6 . /64 -1/93 26 . /91 2/6 0/83 -1/25 11
. /76 2/6 . /87 -1/46 27 . /29 2/4 1/57 - 1/73 12
. /05 15 . /52 -0/12 28 . /28 5 . /96 -2/06 13
. /06 13/3 . /55 -1/19 29 . /76 3/4 . /77 -1/34 14
. /97 0/5 . /63 -3/19 30 . /98 0/4 . /99 -1/95 15
-2 Log Likelihood = 7889/2777
با توجه به نتايج بدست آمده، سؤالات 16 و 22 با مدل يك پارامتري برازش ندارند، اما
χ بقية سؤالات، با مدل هاي دو و سه پارامتري داراي برازش هستند. سطح معناداري مقادير 2
سئوالات نيز نشان مي دهد كه تمام سؤالات با مدل ها ي دو و سه پارامتري برازش دارند
بنابراين مي توان نتيجه گرفت كه مدل هاي دو و سه پارامتري برآورد دقيق تري .(P> 0/05)
از پارامترهاي سؤال، نسبت به مدل يك پارامتري بدست مي دهند.
اما جهت تعيين برازش مدل- داده ها 1 و اينكه كداميك از مدل ها ي يك، دو و سه
در  2loglikelihood پارامتري با اين مجموعه از داده ها برازش بهتري دارند، از مقدار
آخرين چرخش و آزمون خي دو براي مقايسة آنها به صورت زير استفاده گرديد:
براي مدل هاي يك و دو پارامتري و تعيين اينكه كداميك برازش بهتري با اين مجموعه
از داده ها دارد، نتيجة زير بدست آمد:
2 ( 2log 1 ) ( 2log 2 )
   likelihood L   likelihood L
= (7982/8283 - 7889/2777) = 93/5506 χ2
0 به / 0 و 01 / جدول در سطح 05 χ با توجه به اينكه درجه آزادي آزمون 30 مي باشد، 2
جدول در هر دو χ محاسبه شده از 2 χ 43 مي باشد و چون قدر مطلق 2 / 50 و 77 / ترتيب 89
1 . Model – Data Fit
18 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
سطح 95 و 99 درصد اطمينان بزرگ تر است، بنابراين فرض صفر رد مي شود و نتيجه گرفته
مي شود كه مدل دو پارامتري نسبت به مدل يك پارامتري برازش بهتري با اين مج موعه از
داده ها دارد.
براي مدل هاي دو و سه پارامتري و تعيين اينكه كداميك برازش بهتري با اين مجموعه
از داده ها دارد، نتيجة زير بدست آمد:
2 ( 2log 2 ) ( 2log 3 )
   likelihood L   likelihood L
= (7889/2777 – 7865/2979) = 23/9798 χ2
0 به / 0 و 01 / جدول در سطح 05 χ با توجه به اينكه درجة آزادي آزمون 30 مي باشد، 2
جدول در هر دو χ محاسبه شده از 2 χ 43 مي باشد. چون قدر مطلق 2 / 50 و 77 / ترتيب 89
سطح 95 و 99 درصد اطمينان كوچك تر است، بنابراين فرض صفر تأييد مي شود و نتيجه
گرفته مي شود كه مدل دو پارامتري نسبت به مدل سه پارامتري برازش بهتري با اين
مجموعه از داده ها دارد.
جدول، به لحاظ آماري بين برازش χ محاسبه شده از 2 χ البته به دليل كوچك تر بودن 2
مدل هاي دو و سه پارامتري تفاوت معناداري وجود ندارد، اما بنا بر اصل امساك (امبرتسون
2000 ؛ نقل از شريفي و همكاران، 1388 ) مدل دو پارامتري به دليل دارا بودن ، و رايس 1
پارامترهاي كمتر نسبت به مدل سه پارامتري، به عنوان مدلي كه بهترين برازش را با
مجموعة داده ها دارد، معرفي مي شود.
ها، نتيجه گرفته مي شود كه مدل دو χ بنابراين با توجه به نتايج بدست آمده از مقايسة 2
پارامتري نسبت به مدل هاي يك و سه پارامتري با داده هاي آزمون نظري آزمون گواهينامة
رانندگي برازش بهتري دارد.
آزمون گواهينامة (ICC) در نمودارهاي زير (نمودار 3) منحني هاي ويژگي سؤالات
رانندگي در مدل دو پارامتري آمده است. توجه كنيد كه سؤالات از سمت چپ به راست
شماره گذاري شده اند.
1. Embretson & Reise
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 19
1 - 6
7 - 12
13 - 18
19 - 24
25 - 30
آزمون گواهينامة رانندگي در مدل دو پارامتري (ICC) نمودار 3. منحني ويژگي سؤالات
با توجه به مقادير پارامترهاي سؤالات آزمون در مدل دو پارامتري (جدول 5)، و منحني
ويژگي سؤالات آزمون (نمودار 3)، براي آزمون گواهينامة رانندگي و در مدل دو پارامتري
25 و 28 كه داراي ضرا يب ،23 ،22 ،16 ،6 ، نتيجه مي گي ريم كه به استثناي سؤالات 2
دشواري متوسط مي باشند، بقية سؤالات آزمون داراي ضرايب دشواري منفي و پاييني بوده
و منحني ويژگي آنها به سمت چپ متمايل است و بنابراين سؤالات آساني محسوب
مي شوند. در اين ميان سؤال 5 آسان ترين سؤال است.
شيب تمام سؤالات نيز قابل قبول بوده و از قدرت تشخيص مناسب برخوردارند، تنها
سؤال 16 داراي شيب و قدرت تشخيص نسبتاً پايين و كمتر از 5/ . است . در اين ميان سؤال
12 از بالاترين شيب در بين سؤالات برخوردار است. همچنين بر اساس نتايج بدست آمده،
1 - و 77 / . است كه نشان دهندة / ميانگين و انحراف استاندارد پارامتر دشواري سؤالات 58
. / آسان بودن كل آزمون مي باشد. ميانگين و انحراف استاندارد پارامتر شيب سؤالات نيز 86
و 3/ . است كه نشاندهندة قدرت تمييز قابل قبول در جداسازي افراد قوي و ضعيف مي باشد.
در ادامه، بيشينة آگاهي سؤالات و سطوح توانايي مربوطه (جدول 6) و نيز منح ني
20 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
آگاهي و خطاي استاندارد آزمون گواهينامة رانندگي (نمودار 4) آورده شده است . بايد
توجه شود در نقاطي از منحني كه آگاهي به بالاترين حد مي رسد، خطاي استاندارد به صفر
ميل مي كند، در واقع با افزايش آگاهي آزمون، خطاي استاندارد كاهش مي يابد و بالعكس.
جدول 6 . بيشينة آگاهي و سطح توانايي تعدادي از سؤالات آزمون در مدل دو پارامتري
سؤال بيشينة آگاهي سطح توانايي سؤال بيشينة آگاهي سطح توانايي
-0/36 . /11 16 -2/7 . /73 1
-1/53 . /46 17 -0/96 . /4 2
-2/24 . /64 18 -1/95 . /51 3
-1/82 . /55 19 -1/76 . /44 4
-1/22 . /47 20 -3/26 . /23 5
-1/12 . /42 21 -0/79 . /27 6
-0/82 1 22 - 1/97 1/4 7
-0/49 . /19 23 -1/79 1/83 8
-2/63 . /31 24 - 1/28 . /82 9
-0/71 . /46 25 -2/03 1/53 10
-1/93 . /29 26 -1/25 . /5 11
-1/46 . /55 27 - 1/73 1/78 12
-0/12 . /19 28 -2/06 . /67 13
-1/19 . /22 29 -1/34 . /43 14
-3/19 . /28 30 -1/95 . /71 15
-3 -2 -1 0 1 2 3
0
5
10
15
20
Scale Score
I nformation
0
0.44
0.88
1.32
1.76
2.20
S tandard E rror
و خطاي استاندارد آزمون گواهينامة رانندگي در مدل دو پارامتري (TIF) نمودار 4. منحني تابع آگاهي
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 21
در منحني فوق خطوط پيوسته، منحني آگاهي، و خطوط نقطه چين، منحني خطاي
استاندارد آزمون گواهينامة رانندگي را نشان مي دهد. بيشتري ن ميزان آگاهي دهندگي در
1- است و اين بدان معني است كه اين آزمون براي افرادي كه داراي / 2- تا 4 / دامنة تتاي 2
اين سطوح از توانايي هستند بيشترين مناسبت و كاربرد را دارد . در واقع ميزان آگاهي
دهندگي آزمون در سطوح پايين توانايي، بالا مي باشد. بيشينة مقدار آگاهي آن نيز در سطح
15 مي باشد . از طرفي ميزان آگاهي دهندگي اين آزمون در / 1- و برابر 99 / توانايي 95
سطوح توانايي بالا، بسيار اندك است. توزيع بيشينة آگاهي و خطاي استاندارد نمودار 4، و
نيز توزيع فراواني و سطوح مختلف توانايي آزمودني ها، متعلق به نمودار 5 ، در جدول 7
آمده است.
جدول 7. توزيع بيشينة آگاهي و خطاي استاندارد توانايي آزمون گواهينامة رانندگي در مدل دو پارامتري
توانايي (تتا) فراواني بيشينة آگاهي خطاي استاندارد
1/04 8/44 0 -2/85
0 /64 11/3 2 -2/55
0 /36 14/2 4 -2/25
0 /23 15/99 1 -1/95
0 /25 15/7 12 -1/65
0 /4 13/77 33 -1/35
0 /63 11/36 16 -1/05
0 /94 9/08 26 -0/75
1/32 7/05 63 -0/45
1/8 5/34 25 -0/15
2/1 4/38 21 0/15
2/88 3/21 29 0/45
3/7 2/34 43 0/75
4/66 1/7 27 1/05
5/78 1/24 12 1/35
7/08 0 /91 36 1/65
8/58 0 /67 0 1/95
10/3 0 /49 0 2/25
12/26 0 /36 0 2/55
14/49 0 /27 0 2/85
22 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
-3 -2 -1 0 1 2 3
0
10
20
30
40
50
60
70
Ability
Frequency
نمودار 5. منحني توزيع توانايي آزمودني ها در آزمون گواهينامة رانندگي در مدل دو پارامتري
براي تعيين معناداري پارامترهاي سؤا ل و توانايي، در مرحلة اول ميانگين و انحراف
استاندارد اين پارامترها در مدل كلاسيك و مدل دو پارامتري بر اساس داده هاي بدست
.( آمدة اوليه (داده هاي خام) محاسبه گرديد (جدول 8
CTT و IRT جدول 8. مقايسة پارامترهاي سئوال و توانايي در آزمون گواهينامة رانندگي بر اساس نظرية
شاخص آماري
CTT IRT CTT IRT CTT IRT
توانايي (θ) توانايي (rpbis) تميز (a) تميز (P) دشواري (b) دشواري
. /0007 - . /005 . /33 . /86 . /82 -1 / ميانگين 58
. /99 1/01 . /07 . /3 . /13 . / انحراف استاندارد 77
--- . /49 - . / همبستگي پيرسون 9
2 با استفاده PL و مدل CTT سپس همبستگي بين پارامترهاي دشواري و تمييز در مدل
از ضريب همبستگي پيرسون محاسبه گرديد . ضرايب همبستگي بدست آمده به لحاظ
.( 0 معنادار هستند (جدول 8 / آماري در سطح 01
همچنين جهت سنجش تفاوت معناداري بين پارامترهاي سؤال در دو مدل، داده هاي
تبديل و از آن ها آزمون Z محاسبه شدة (داده هاي خام ) پارامترهاي سؤال، به نمرات
وابسته به عمل آمد. با توجه به نتايج بدست آمده (جدول 9) از مقايسة ميانگين T معناداري
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 23
بدست t پارامتر هاي دشواري، شيب و توانايي در دو مدل، نتيجه گرفته مي شود كه، مقادير
0 معنادار نبوده و بنابراين تفاوت معناداري بين دقت برآورد پارامترهاي / آمده در سطح 05
مذكور در دو نظرية كلاسيك و سؤال  پاسخ وجود ندارد.
و IRT جدو ل 9. مقايسة پارامترهاي سئوال و توانايي در آزمون گواهينامة رانندگي بر اساس نظرية
CTT
پارامترها شاخص
مدل ميانگين انحراف
استاندارد
Sig df T
1/05 . / دشواري كلاسيك 01
. /952 29 . / دو پارامتري 061 1 - . /01
. /97 . / تمييز كلاسيك 01
. /898 29 - . / دو پارامتري 129 1/03 . /03
. /99 . / توانايي كلاسيك 0007
. /963 349 . / دو پارامتري 047 1/01 - . /005
در انتها، به منظور بررسي پايايي و ثبات نتايج آزمون نظري گواهينامة رانندگي، مجدداً
آزمون مذكور با همان شرايط اوليه، پس از يك هفته سپري شدن از اجراي اول، بر روي
30 نفر از همان نمونة اوليه اجرا گرديد. از آنجائي كه آزمون مورد نظر از نوع ملاك مرجع
مي باشد، براي بررسي توافق بين تصميم ها از ضريب پايايي به روش كاپا استفاده شد . در
اين روش مقدار ضريب پايايي، نشان دهندة ميزان توافق تصم يم ها ي نمونة مورد نظر در
ارتباط با چگونگي پاسخگويي به سؤالات آزمون در دو بار اجراي آزمون است. نمرة حد
تسلط در اين آزمون كسب نمرة 26 در 30 سؤال مورد نظر است. در واقع مي توان گفت
86 مي باشد. / كه ملاك قبولي در آزمون و يا نقطة برش آزمون، 67
24 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
جدول 10 . طرح تعيين پايايي بر اساس توافق بين تصميم ها
آزمون اول
رسيده به حد تسلط نرسيده به حد تسلط
2 10
17 1
N = a + b + c + d
بر اساس داده هاي اخذ شده از اجراي دوم، مقدار ضريب كاپا برابر 79 / . بوده و با
در سطح 99 / . كمتر از 01 / . م ي باشد ، مي توان نتيجه P = (. / توجه به اينكه مقدار ( 001
گرفت كه رابطة معناداري بين اجراي اول و اجراي دوم در نمونة مورد نظر وجود دارد. اين
نتيجه نشان مي دهد كه آزمون مورد نظر از پايايي و ثبات كافي در اجراهاي مختلف
برخوردار بوده است.
بحث و نتيجه گيري
معمولاً در علت شناسي تصادف هاي رانندگي از 4 عامل انساني، جاده، وسيلة نقليه و محيط
نام برده مي شود. اما در 90 تا 95 درصد تصادفات رانندگي در ايران، عامل انساني نقش اصلي
1/ و اول را در حوادث رانندگي به عهده دارد (يعقوبي، 1379 ). با اينكه ساليانه بيش از 26
ميليون نفر در دنيا به علت تصادفات رانندگي جان خود را از دست م ي دهند (پدين، اسكار
فيلد و سليت، 2004 )، اما بسياري از كشورهاي در حال توسعه دربارة مرگ و مير در كشور
خود اطلاعات محدودي دارند (خي و وانگ، 2004 ). با مطالعات اپيدميولوژيك مي توان در
جهت كاهش حوادث و عواقب ناشي ازآنها گام برداشت، چرا كه آس يب ها ي ناشي از
.( حوادث رانندگي يك مشكل بزرگ بهداشتي در دنيا است (پدن و تورويان، 2005
رسيده به حد تسلط
آزمون دوم
نرسيده به حد تسلط
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 25
در واقع آموزش اين توانايي را دارد تا براي بهبود و پيشرفت كشورهاي كمتر توسعه يافته
زمينة لازم را فراهم سازد و سياست هاي لازم براي مقابله با اين بحران جهاني را اتخاذ نمايد (
لوئيز، 1990 ، نقل از سهرابي، 1384 ). نتايج مطالعات انجام شده نشان نيز مي دهد كه مي توان با
.( اقدامات پيشگيرانه از 98 درصد حوادث جلوگيري نمود (عراقي و واحديان، 1384
يكي از فعاليت ها در اين زمينه، توجه به آزمون هاي نظري گواهينامة رانندگي از زواياي
مختلف و مقايسة آن با ديگر كشورها است كه مي توان د به عنوان اقدامي پيشگيرانه در
كاهش رخداد حوادث رانندگي به شمار آيد. آزمون گواهينامة رانندگي در ايران شامل
يك آزمون نظري و يك آزمون عملي (شهري يا جاده ) است . آزمون نظري، آزمون
استاندارد شده اي است كه براي تصميم گيري در مورد رسيدن فرد به دانش نظري كافي و
ساختن راننده اي ايمن و بي خطر طراحي شده، و مي تواند از زواياي متفاوت مطالعه شده
.( و سؤالات آن نيز بر طبق نظريات مختلف ارزش گذاري شود (ويبرگ، 2004
هدف اين پژوهش، بررسي ويژگي هاي روان سنجي سؤالات آزمون نظري گواهينامة
در ايران (IRT) و نظرية سؤال  پاسخ (CTT ) رانندگي بر طبق نظرية كلاسيك آزمون
بوده است.
تحليل ويژگي روان سنجي سؤالات آزمون نظري گواهينامة رانندگي طبق نظرية
كلاسيك نشان داد كه، بيشتر سؤالات اين آزمون، سؤالات آساني محسوب شده و افرادي با
كمترين توانايي، قادر به پاسخگويي صحيح به تعدادي از سؤالات هستند . همچنين سؤالات
آسان داراي انحراف استاندارد و واريانس پاييني بوده و به واريانس كل آزمون كمك زيادي
نمي كنند و در واقع اطلاعات زيادي را دربارة تفاوت هاي آزمودني ها به ما نم ي دهند . بيشتر
سؤالات آزمون از ضرايب تمييز نسبتاً قابل قبولي برخوردارند. اين بدان معني است كه بيشتر
سؤالات آزمون قادر به جداسازي مناسب آزمودني هاي قوي و ضعيف مي باشند.
ضريب پايايي كل آزمون نيز نشان دهندة تجانس دروني نسبتاً بالاي سؤالات آزمون
مي باشد.
26 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
تحليل ويژگي هاي روان سنجي سؤالات آزمون نظري آزمون گواهينامة رانندگي طبق
نظرية سؤال  پاسخ نشان داد كه پس از برآورد پارامترها و با بررسي ميزان برازندگي
تك تك سؤالات با مدل هاي يك، دو و سه پارامتري، هيچ سؤالي وجود ندارد كه به
صورت همزمان با هر سه مدل برازش نداشته باشد . بنابراين هيچكدام از سؤالات حذف
نمي شوند. بررسي منحني ويژگي سؤالات نشان مي دهد كه بيشتر سؤالات آزمون داراي
ضرايب دشواري منفي و پاييني بوده و منحني ويژگي آنها به سمت چپ متمايل است و
بنابراين سؤالات آساني محسوب مي شوند. ميانگين و انحراف استاندارد پارامتر دشواري
1- و 77 / . است كه نشان دهندة آسان بودن كل آزمون مي باشد. شيب بيشتر / سؤالات 58
سؤالات آزمون قابل قبول بوده و از قدرت تشخيص مناسب در جداسازي آزمود ني ها ي
قوي و ضعيف برخوردارند. تنها سؤال 16 داراي شيب و قدرت تشخيص پايين و كمتر از
5/ . است. ميانگين و انحراف استاندارد پارامتر شيب سؤالات نيز 86 / . و 3/ . است كه
نشان دهندة قدرت تمييز قابل قبول در جداسازي افراد قوي و ضعيف مي باشد.
در مجموع مي توان نتيجه گرفت كه بيشتر سؤالات آزمون داراي ضرايب دشواري
پايين و ضرايب تمييز قابل قبولي مي باشند.
بررسي منحني آگاهي دهندگي نشان مي دهد كه بيشترين ميزان آگاهي دهندگي اين
1- بوده و بيشينة مقدار آگاهي آن نيز در سطح توانايي / 2- تا 4 / آزمون در دامنة توانايي 2
15 مي باشد. اين بدان معني است كه اين آزمون در سطوح پايين تتا / -1/95 و برابر 99
(توانايي) از آگاهي دهندگي بالايي برخوردار بوده و براي آزمودني هايي با توانايي پايين
-1/ 1، در سطح توانايي 79 / مناسب مي باشد . در اين ميان سؤال 8 با بيشينة آگاهي 83
بيشترين ميزان آگاهي دهندگي را در اين مجموعه از سؤالات به خود اختصاص داده است.
همچنين منحني توزيع توانايي آزمود ني ها نشان م ي دهد كه بيشتر ين فراواني آزمون
شوندگان با 63 نفر متعلق به سطح توانايي 45 / .- مي باشد.
تحليل ويژگي هاي روان سنجي سؤالات آزمون نظري گواهينامة رانندگي طبق نظرية
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 27
سؤال  پاسخ نشان داد كه اين آزمون تك بعدي مي باشد. اين نتيجه با تحليل عاملي سؤالات
آزمون بدست آمد. اثبات تك بعدي بودن آزمون به اين معنا است كه مفروضة استقلال
موضعي نيز برقرار است. در مرحلة بعد پارامترهاي سؤال و توانايي در مدل هاي يك، دو و سه
پارامتري بدست آمد. به منظور مقايسة مدل ها در برازش با داده هاي آزمون، از آزمون خي
دو استفاده گرديد. نتايج نشان داد كه مدل دو پارامتري نسبت به مدل هاي يك و سه پارامتري
برازش بهتري با داده هاي آزمون دارد. اين بدان معني است كه عامل حدس در پاسخگويي
آزمودني ها به سؤالات نقش زيادي نداشته است. همچنين با توجه به اطلاعات بدست آمده،
سؤالات 16 و 22 با مدل يك پارامتري برازش ندارند. اما تمام سؤالات با مدل ها ي دو و سه
پارامتري داراي برازش هستند. بنابراين مي توان با توجه به برازش تمام سؤالات آزمون، با
مدل هاي دو و سه پارامتري، نتيجه گرفت كه مدل هاي دو و سه پارامتري برآورد دقيق تر ي از
پارامترهاي سؤال نسبت به مدل يك پارامتري بدست مي دهد.
نتايج اين پژوهش از لحاظ تفاوت در دقت برآورد پارامترهاي سؤال و توانايي به روش
سؤال  پاسخ نسبت به روش كلاسيك، نشان م ي دهد كه، برآورد پارامترهاي سؤال و
توانايي به روش سؤال  پاسخ از واريانس و دامنة وس يع تر ي نسبت به روش كلاسيك
برخوردار بوده و برخلاف مدل كلاسيك، قاد ر به برآورد پارامترهاي سؤال و توانايي
تلقي CTT مستقل از همديگر مي باشد. به بيان ديگر آنچه به عنوان نقطة ضعف در نظرية
، مي شود، وابستگي پارامترهاي آن به نمونة مورد بررسي است (همبلتون و سواميناتان 1
ويژگي و ،IRT 2000 ). در واقع ثبات و استقلال پارامترها در نظرية ، 1985 ، نقل از استيج 2
1980 ، نقل از استيج، 2000 ). در اين رابطه ، مزيت مهم اين نظريه به شمار مي رود (لرد 3
IRT و CTT 2010 )، نيز نشان دادند كه اگرچه هر دو نظرية ) شاركنس و دي آنجلو 4
مي توانند در به دست آوردن اطلاعات يكسان در مورد مقدار سئوالات آزمون در رابطه با
1 . Hambleton & Swaminathan
2 . Stage
3 . Lord
4 . Sharkness & DeAngelo
28 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
صفت مكنون اندازه گيري شده، مفيد باشند، اما اين دو نظريه اندازه هاي متفاوتي از دقت
آزمون بدست مي دهند.
به منظور مقايسه و تعيين معناداري پارامترهاي سؤال و توانا يي در آزمون گواهينامة
رانندگي، در مرحلة اول ميانگين و انحراف استاندارد پارامترهاي دشواري، شيب و توانايي
در دو مدل كلاسيك و دو پارامتري بر اساس داده هاي بدست آمدة اوليه (داده هاي خام )
و مدل CTT محاسبه گرديد. سپس همبستگي بين پارامترهاي دشواري و تميز در مدل
2 با استفاده از ضريب همبستگي پيرسون محاسبه گرديد، كه ضرايب همبستگي بدست PL
0 معنادار بودند. در مرحلة بعد، داده هاي محاسبه شده / آمده به لحاظ آماري در سطح 01
تبديل و از آن ها Z (داده هاي خام) براي پارامترهاي سؤال و توانايي در دو مدل، به نمرات
محاسبه شده از مقايسة دو ميانگين و T وابسته به عمل آمد. با توجه به T آزمون معناداري
مندرج در جدول در سطح 95 / . ، نتيجه گرفته مي شود كه تفاوت معناداري بين دقت T
برآورد پارامترهاي دشواري، شيب و توانايي در دو نظرية كلاسيك و سؤال  پاسخ وجود
ندارد. با مقايسة نتايج متفاوت معنادار ي ها ي بدست آمده توسط آزمون ها ي رابطه
وابسته) مي توان نتيجه گرفت كه نظريه هاي كلاسيك و سؤال  T) (پيرسون) و تفاوت
پاسخ داراي رابطة معناداري بوده و هر دو نظريه از ميزان دقت تقريباً مشابه و يكساني در
برآورد پارامترهاي سؤال و توانايي برخوردارند و در واقع تفاوت معناداري بين دو نظريه در
برآورد پارامترها وجود ندارد.
پژوهش هاي انجام ،CTT بر IRT امروزه، با وجود مزيت هاي نظري شناخته شدة نظرية
يافته از طريق بررسي ويژگي هاي تجربي نيز به نتايج مشابه، متغير و بعضاً متناقضي منتهي
شده است.
به CTT و IRT بچگار 1 و همكاران ( 2003 ) در مطالعة خود با استفاده از نظريه هاي
اين نتيجه رسيدند كه؛ نظرية سئوال - پاسخ حالت گسترش يافتة نظرية كلاسيك است، و
1 . Bechger
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 29
مفاهيم هر دو نظريه به هم وابسته هستند. با اين حال ثابت شده است كه نظرية سئوال -
پاسخ در جايي كه نظرية كلاسيك ناتوان به نظر مي رسد مي تواند مفيد واقع شود.
بررسي پارامترهاي سئوال و توانايي با استفاده از تكنيك مونت كارلو و از طريق داده
2002 ) نشان داد كه، برآورد ) هاي شبيه سازي شده در مطالعة مكدونالد و پانونن 1
قابل مقايسه، مشابه و دقيق اند. همچنين CTT و IRT پارامترهاي سئوال و توانايي در نظرية
در اغلب شرايط تجربي IRT نتايج حاكي از آن بود كه برآورد پارامترهاي تمييز مبتني بر
در برخي از شرايط خاص از دقت CTT دقيق بوده، اما برآورد پارامترهاي تمييز مبتني بر
پايين تري برخوردار بوده است. پيامدهاي نتايج اين مطالعه براي تجزيه و تحليل روان سنجي
سئوالات و انتخاب سئوال مورد بحث قرار گرفته است. نتيجة پژوهش استيج ( 2000 ) نيز
نشان داد كه؛ نظريه هاي جديد و كلاسيك اندازه گيري به يك اندازه قادرند داده هاي
آزمون را به صورت منظم پيش بيني كنند. اما به دليل تفاوت قابل ملاحظه ي موجود بين دو
نظريه در تئوري و اجرا و در نتيجه برآورد دقيق تر پارامترهاي سئوال و توانايي توسط نظرية
IRT كه در برخي تحقيقات ب ه اثبات رسيده است، نظرية ،CTT نسبت به نظريه IRT
دارد. CTT برتري قابل ملاحظه اي بر نظرية
،(IRT) 2010 ) مشخص گرديد كه، مدل پاسخ مدرج ) در مطالعة سنكتاي و سنكتاي 2
براي برآورد پارامترهاي آماري در يك نمونة بزرگ و نيز تحليل مدل معادلات ساختاري
دقيق تر از مدل كلاسيك آزمون است. اما مدل كلاسيك آزمون نيز همچنان ابزار آماري
پايايي در تحليل رگرسيون و در نمونه هايي با اندازة كوچك محسوب مي شود . همچنين
هنگامي كه پارامترهاي فرد، ناشناخته فرض مي شود و پارامترهاي سئوال نيز به صورت
و IRT شناخته شده و يا شناخته نشده باشد، توان بدست آمده با استفاده از نظريه هاي
مشابه و يكسان، و هميشه پايين تر از توان مورد انتظار در نقطة انتهايي توزيع طبيعي CTT
1 . Macdonald & Paunonen
2 . Siengthai & Siengthai
30 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
.(2010 ، است. تعداد سئوالات نيز تأثير قابل توجهي بر توان در هر دو روش دارد (سبيل 1
تجزيه و تحليل نهايي پارامترهاي سؤال و آزمود ني ها در آزمون نظري گواهينامة
رانندگي كه توسط راهور ناجا برگزار مي شود، نشان داد كه سؤالات اين آزمون بر اساس
نظرية كلاسيك و نظرية سؤال  پاسخ ، براي آزمودني ها يي با توانايي پايين از مناسبت و
دقت بيشتري برخوردار است. اين بدان دليل است كه با توجه به ضرايب دشواري بدست
آمده، بيشتر سؤالات آزمون ساده و آسان مي باشند. اما از آنجائي كه آزمون مورد نظر از
نوع ملاك مرجع است، سؤالي كه از لحاظ محتوايي با ارزش است، لزوماً به دليل آسان
بودن از آزمون كنار گذاشته نمي شود (ويبرگ، 2004 ). پارامتر تمييز آزمون نيز در هر دو
نظريه از ضرايب قابل قبولي برخوردار بوده و نشان مي دهد كه اين آزمون تا حد زيادي از
قدرت جداسازي افراد قوي و ضعيف در سطوح پايين توانايي برخوردار م ي باشد . البته با
توجه به اينكه آزمون نظري گواهينامة رانندگي از نوع آزمون هاي ملاكي م ي باشد ، حتي
سئوال هايي با ضرايب تمييز پايين نيز كنار گذاشته نم ي شوند ، چرا كه چنين سئوالاتي
.( توانايي اندازه گيري هدف را نشان مي دهند (كيامنش، 1387
به منظور بررسي پايايي و ثبات نتايج آزمون نظري گواهينامة رانندگي، مجدداً آزمون
مذكور با همان شرايط اوليه، پس از يك هفته سپري شدن از اجراي اول، بر روي 30 نفر از
همان نمونة اوليه اجرا گرديد. بر اساس ضريب كاپاي بدست آمده مي توان نتيجه گرفت
كه رابطة معناداري بين اجراي اول و اجراي دوم در نمونة مورد نظر وجود دارد. اين نتيجه
نشان داد كه آزمون مورد نظر از پايايي و ثبات كافي در اجراهاي مختلف برخوردار است .
در واقع تغيير چنداني در تعداد و درصد افرادي كه در اجراي اول آزمون موفق و يا ناموفق
بوده اند، نسبت به اجراي دوم آزمون وجود نداشته و مي توان نتيجه گرفت كه، ثبات تصميم
گيري در دو بار اجراي آزمون وجود داشته است.
پايين بودن ميانگين نمرات آزمودنيها در اين پژوهش، نسبت به نمرة ملاك، با در نظر
1 . Sebille
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 31
گرفتن سادگي آزمون، نشاندهندة توانايي پايين آزمون شوندگان م ي باشد . البته ميز ان
توانايي برآورد شده در نظرية سؤال  پاسخ در مقايسه با نمرة آزمودني در نظرية كلاسيك،
به ميزان واقعي نزديك تر است و با توجه به توانايي ها ي برآورد شده، مي توان سؤالات
متناسب با توانايي آزمودني ها را انتخاب نمود و اين مي تواند به ايجاد بانك سؤال و توسعة
در آزمون نظري گواهينامة رانندگي منجر شود . ،(CAT) آزمون هاي انطباقي كامپيوتري
2002 ) نيز بدان اشاره شده است . وي با بررسي سئوالات ) مزيتي كه در بررسي هاروي 1
بر روش ها ي IRT مزي ت ها ي نظرية ،(MBTI) آزمون تجديد نظر شده مايرز - بريگز
را بدين گونه برشمرد: CTT مبتني بر نظرية
(الف) دادن شرح مفصل از عملكرد افراد در سئوالات آزمون
(ب) ثبات و تغيير ناپذيري شاخص هاي دقت سؤال و آزمون در سراسر طيف نمرات
(ج) امكان ارزيابي سوگيري سؤال و آزمون در رابطه با زير گروه هاي جمعيتي
(د) اندازه گيري كيفي و با ثبات از ويژگي هاي هر پاسخ دهنده
(ه) امكان تهية آزمون هاي انطباقي كامپيوتري با هدف كاهش زمان آزمايش، بدون فدا
كردن دقت اندازه گيري.
IRT يافته هاي ديگر (شاركنس و دي آنجلو، 2010 ) نيز نشان داد كه در مجموع نظرية
اطلاعات بسيار جامع تري در مورد دقت اندازه گيري و نيز نقشة راه واضح تر ي براي بهبود
براي ساخت مقياس و توسعة IRT مقياس فراهم مي كند. همچنين اين يافته ها ، از نظرية
زمينه يابي در آموزش عالي پشتيباني مي كنند.
1 . Harvey
32 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
منابع
آلن، مري. جي؛ و وندي، ام. ين ( 1384 ). مقدمه اي بر نظري ه هاي اندازه گيري (روان سنجي ).
.( 12 . (تاريخ انتشار به زبان اصلي، 1982 - ترجمة علي دلاور. تهران: سمت. صص 13
احمدي، فهيمه ( 1385 ). علل وقوع تصادفات در معابر شهري.
براي (IRT) امبرتسون، سوزان اي؛ و رايس، استيون پي ( 1388 ). نظريه هاي جديد روان سنجي
روان شناسان. ترجمة حسن پاشاشريفي، ولي الله فرزاد، مجتبي حبيبي عسگرآباد و بلال
.( ايزانلو. تهران: رشد. ص 490 . (تاريخ انتشار به زبان اصلي، 2000
بازرگان، عباس ( 1386 ). ارزشيابي آموزشي: مفاهيم، الگوها و فرآيند عملياتي. تهران: سمت.
.Http://www.bih.ir . بيمة ايران. ( 2008 ). تفاوت هاي حوادث رانندگي در آلمان و ايران
ثرندايك، آر، ال ( 1375 ). روان سنجي كاربردي. ترجمة حيدرعلي هومن. تهران : دانشگاه تهران .
.( (تاريخ انتشار به زبان اصلي، 1982
حسيني، ميرزا حسن ( 1380 ). لزوم توجه به نكته هاي مثبت آموزش از راه دور در دنيا.
خالدي، محمد ( 1387 ). ارزيابي اثربخشي آموزش هاي فني و حرفه اي، هنرستان ها و دوره هاي
علمي و كاربردي به تفكيك خصوصي و دولتي در اشتغال، مؤسسة كار و تأمين اجتماعي.
؛ خبرگزاري فارس ( 1385 ). گروه اجتماعي، حوزة قضايي و انتظامي. شمارة 8508010184
.1385/08/01
سلماني، محمد؛ رمضان زاده لسبويي، مهدي؛ دريكوند، مسلم و ثابتي، فرخ ( 1387 ). بررسي عوامل
مؤثر بر تصادفات جاده اي و ارائة راهكارهايي براي كاهش آن، مورد مطالعه : منظومة
، روستايي جنوب خور و بيابانك. پژوهش هاي جغرافياي انساني، شمارة 65 ، پاييز 1387
.87- صص 104
سهرابي، منيره ( 1384 ). بررسي تطبيقي سير تحولات آموزش از راه دور در توسعه كمي و كيفي
آموزش عالي به ويژه دانشگاه هاي مجازي در كشورهاي انگلستان، آمريكا و ايران، تهران:
پايان نامة كارشناسي ارشد، دانشگاه علامه طباطبائي.
سوري، حميد؛ عيني، الهه؛ موحدي نژاد، عباسعلي؛ محفوظ پور، سعاد؛ موحدي، محمد؛ رضا زاده
.( آذري، منصور؛ وفايي، رضا؛ حات مآبادي، حميدرضا و مسعودي نژاد، محمدرضا ( 1388
اراية الگوي عملي نقشة سياست گذاري در سوانح ترافيكي كشور در سال 1387 . مجلة
پژوهشي حكيم، پاييز 88 دورة دوازدهم، شماره سوم.
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 33
صالحي، احمد ( 1376 ). بررسي مشخصه هاي روان سنجي آزمون پ ره بورد رشتة زنان و زايمان
پايان نامة كارشناسي ارشد، تهران : ، IRT كشور ايران بر اساس نظرية سؤال  پاسخ
دانشگاه علامه طباطبائي.
عراقي، عزت؛ و واحديان، محمد ( 1384 ). بررسي عوامل مستعد كننده و آس يب ها ي ناشي از
، تصادفات با موتورسيكلت در شهرستان مشهد سال 1384 . مجلة افق دانش (دوره 13
شماره 1). دانشكدة علوم پزشكي و خدمات بهداشتي ،درماني گناباد.
فراهاني، مهدي ( 1375 ). مقايسة مدل هاي اندازه گيري (كلاسيك و سؤال  پاسخ ) از لحاظ برآورد
پارامترهاي سؤال و توانايي. پايان نامة كارشناسي ارشد، تهران: دانشگاه علامه طباطبائي.
- كيامنش، عليرضا ( 1387 ). روش هاي ارزش يابي آموزشي. تهران: دانشگاه پيام نور . صص 119
.118
محمد زاده رومياني، مهري ( 1375 )، روش هاي گزينش سؤال در مدل كلاسيك اندازه گيري و
پايان نامة كارشناسي ارشد، تهران، دانشگاه علامه طباطبائي. ،IRT مدل هاي جديد
مگنوسون، داويد ( 1370 ). مباني نظري آزمون هاي رواني. ترجمة محمد نقي براهني . تهران : نشر
.( دانشگاه تهران. (تاريخ انتشار به زبان اصلي، 1966
يعقوبي، حميد ( 1379 ). بررسي نقش عوامل انساني در بروز تصادفات رانندگي در ايران . نشري ة
انديشه و رفتار، سال ششم، شماره يك.
يونسي، جليل ( 1385 )، بررسي ويژگي هاي روان سنجي سؤالات آزمون هاي فراگير رشته
روانشناسي دانشگاه پيام نور در سال 1385 ، پايان نامة كارشناسي ارشد، تهران، دانشگاه
علامه طباطبائي.
Bechger, T. M., Maris, Gunter., Verstralen, H. H. F. M. & Béguin, A, A. (2003).
Using Classical Test Theory in Combination with Item Response Theory.
Applied Psychological Measurement Vol. 27, No 5,pp 319–334.
Chi, GB., & Wang, sy. (2004). Pattern of road traffic injuries in china. Zhonghua lio
xing bing zue za zhi. (7):598-601.
Hambleton, R. K., & Vanderlinden, W. J. (1982). Advance in item response theory
and application: An introuduction applied psychological measurement,6,4,
372-378.
Hambleton, R. K., & Cook, L. L. (1983). The robustness of item rrsponse models
effects of test length and sample aize on the precision of ability estimates. In D
jweis(Ed.) New horizons in testing (pp.31- 49) New York: Academic press.
Hambleton, R. K. (1989). Principles and selected applications of item- response
theory. In R. Linn (Ed.) Educational measurement, (3rd Ed). New York:
Macmillan. 147-200.
34 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
Hambleton, R. K., Jones, R. W. & Rogers, H. J. (1993). Independence of item
parameter etimtion errors in test development. Journal of Educational
Measurment,30,143 – 155.
Harvey, R. J., & Hammer, A. L. (2002). Item Response Theory. Virginia
Polytechnic Institute & State University & Consulting Psychologists Press, Inc.
Kopits, E., & Cropper, M. (2005). Traffic fatalities and economie growth,
Accidanalprev; 37(1):169-78.
Macdonald, P,. & Paunonen, S. V. (2002). A Monte Carlo Comparison of Item and
Person Statistics Based on Item Response Theory versus Classical Test
Theory. Educational and Psychological Measurement Vol. 62 No. 6, .pp 921-
943. University of Western Ontario.
Peden, M., & Toroyan, T. (2005). Counting road traffic deaths and injuries: poor
data should not detract from doing some thing. Annals of emergency
medicine.46(2):158-60.
Peden, M., Scufield, R., & Sleet, D. (2004). World report on road traffic injury
prevention. Geneva: world health organization.
Reid, C. A. (1993). Latent trait modeling of the general aptitude test battery used
with a rehabilitation client population: An investigation of Model – Data Fit.
Source: DAI – B 54/12 , P. 6497, JUN 1994.
Romana, E. (2004). World health day:road safety is no accident. Paris, Farance.
Sébille, V., Hardouin, JB., Le Néel, T., Kubis, G., Boyer, F., Guillemin, F., &
Falissard, B. (2010). Methodological issues regarding power of classical test theory
(CTT) and item response theory (IRT) -based approaches for the comparison
of patient-reported outcomes in two groups of patients- a simulation study.
BMC Medical Research Methodology.
Sharkness, J,. & DeAngelo, L. (2010). Measuring Student Involvement: A
Comparison of Classical Test Theory and Item Response Theory in the
Construction of Scales from Student Surveys. Res High Educ 52, pp 480–507.
Siengthai, Sukirno & Sununta. (2010). The comparison of graded response model
and classical test theory in human resource research: a model fitness test.
Research and Practice in Human Resource Management.18 (2), pp77-
90.Singapore, Human Resources Institute & Curtin University of Technology.
Stage, C. (2000). A Comparison Between Item Analysis Based on Item Response
Theory and Classical Test Theory. A Study of the SweSAT Subtest ERC.
Wiberg, M. (2004). Classical test theory vs.item response theory: An evaluation of
the theory test the Swedish Driving-License test. 1-27.

تعين نقطه ي برشي براي سنجش يك اختلال (تهيه ي پرسشنامه و تعيين نقطه برش)

دوستي قصد دارد نقطه ي برشي براي سنجش اختلالات صدا ویژه معلمان مقطع ابتدایی بسازد. براي انجام اين كار چه مسيري را لازم است طي نمايد؟

در مرحله ي روش و در قدم اول لازم است ابزار انجام اين كار را مشخص نمايند. يعني مشخص كنند كه سنجش اختلالات صدا از چه طريقي انجام خواهد شد. پاسخ ايشان تهيه ي پرسشنامه است و در ضمن قصد دارند ويژگي هاي روانسنجي آن را نيز بيابند. براي تهيه ي پرسشنامه لازم است كه ويژگي هاي پرسشنامه مشخص و تعيين شود يعني پرسشنامه بايد روايي و پايايي داشته باشد كه اين خود مبحث گسترده اي است. به منظور تعيين ويژگي هاي سوالات پرسشنامه بايد از نظريات اندازه گيري بهره برند. اين نظريات كه به تعيين ويژگيهاي سوال كمك مي كنند عبارتند از نظريه ي كلاسيك اندازه گيري و نظريه ي سوال پاسخ. بنابراين لازم است در گام اول اين نظريات شناخته شوند و نرم افزارهاي مربوطه فرا گرفته شود. لازم به ذكر است كه انجام كارهاي روانسنجي در تخصص دانشجويان و اساتيد آمار نمي باشد بلكه نياز به تخصص سنجش و اندازه گيري يا روانسنجي دارد كه اين موضوع براي دوستان علاقمند بعد از شروع به كار كاملا روشن مي شود.

بعد از تعيين ويژگي هاي روانسنجي و حدف اصلاح سوالات در نهايت سوالاتي باقي خواهند ماند كه بر اساس روش هاي علمي مي توان گفت پرسشنامه توانايي سنجش  اختلالات صدا را دارا است. بعد از اين مرحله لازم است نقطه ي برش تعيين شود. تعيين نقطه ي برش نيز مطالعات خاص خود را مي طلبد و از روش هايي مانند نمودارهاي راك تا روش هاي سوال پاسخ استفاده مي شود كه توصيه ي بنده استفاده از روش هاي سوال پاسخ است.

نظريه ي تعميم پذيري (Generalizability theory) به عنوان نظريه اي براي مطالعه ي رويه ها(facet)ي موجود

نظريه ي تعميم پذيري يكي از نظريات اندازه گيري است كه با استفاده از تركيب نظريه ي كلاسيك سوال پاسخ و روش تحليل واريانس سعي در برآورد ضرايب اعتبار داشته است. قابليت هاي اين نظريه ي امكان مطالعه ي شرايط مختلف و مقايسه ي اعتبار امتيازات در شرايط مختلف را فراهم مي آورد. به مطالعاتي كه براي بررسي شرايط مختلف استفاده مي شوند، مطالعات تصميم گيري مي گويند. اين مطالعات امكان بررسي رويه ها(FACET) هاي مختلف به عنوان منابع مختلف واريانس يا پراكندگي در امتيازات را فراهم مي آورد. مشخص است كه هر چه پراكندگي بر اساس رويه يا FACET مورد مطالعه ( كه به آن رويه ي تفكيكي گويند) بيشتر باشد، بهتر و مناسب تر است (مانند آنچه در تحليل واريانس به عنوان واريانس بين آزمودني ها مطرح است) و هر چه واريانس ناشي از رويه هايي بجز رويه ي مورد مطالعه باشند، كمتر خواهد بود. 

به عنوان مثال زماني كه هدف پژوهش رتبه بندي پژوهشگران مختلف بر اساس كارهاي انجام داده ي آنها مي باشد و اين كار از طريق بررسي اقدامات علمي آنها توسط 5 نفر خبره انجام مي شود، تمايز پژوهشگران هدف اصلي مورد مطالعه و ساير رويه ها به عنوان رويه هاي مزاحم يا ابزاري instrumental facet شمرده مي شوند. 


دقت اندازه گيري، خطاي اندازه گيري و ضريب پايايي

يكي از بحث هاي رايج در حوزه ي دقت اندازه گيري شاخص مربوط به اين دقت است. براي برآورد دقت اندازه گيري دو شاخص وجود دارد. يكي مقدار پايايي و ديگري مقدار خطاي اندازه گيري. در مورد اهميت هر كدام از اين دو بحث هاي فراواني شده است. لين در فصلي با عنوان پايايي با بررسي اين موضوع وارد بحث شده است و دلايلي را ذكر مي كند كه خطاي اندازه گيري شاخص بهتري نسبت به پايايي براي بيان دقت يك آزمون است. اين دلايل عبارتند از:

1. از طريق شاخص خطاي اندازه گيري مي توان دامنه ي اطمينان  تعريف نمود.

2. تغيير درجه همگني گروه نمونه روي ضريب پايايي اثر گذاشته اما روي خطاي اندازه گيري تاثيري ندارد. 

3. شاخص خطاي معيار اندازه گيري شاخص عملي تري نسبت به پايايي است. 

4. رابطه ي بين دقت اندازه گيري و خطاي اندازه گيري رابطه ي معكوس و قابل فهمتري است نسبت به شاخص پايايي.


نظريه ي خصيصه مكنون (سوال پاسخ)

نظریه سوال-پاسخ(IRT)

نویسنده: قاسم کشاورز گرامی - سه شنبه هشتم آذر 1390

نظریه سوال-­ پاسخ شامل خانواده­ اي از مدل­هاي رياضي است که روابط تابعي بين متغيرهاي مشاهده­پذير و سازه­هاي صفات زيربنايي اين متغيرها را نمايش مي دهد که بسیاری از روانسنجان قرن معاصر به آن پرداخته اند.در منابع گوناگون چندین پیش­فرض­ برای مدل های نظریه سوال-پاسخ مطرح شده است که در تمامی آنها  «تک­بعدي بودن»و «استقلال موضعي» مهمترين و اساسي­ترین مفروضه ها معرفی شده اند(متسن امورنن،2002­). تک بعدي بودن به اين معنا است که همة سوالات آزمون فقط يک حوزة توانايي يا دانش را اندازه بگيرد. مفروضة استقلال موضعي بيان مي­کند که پاسخ هاي آمودني ها به سوالات آزمون از لحاظ آماري مستقل از يکديگرند اگر و فقط اگر سطح توانايي آزمودني به عنوان عامل اصلي به حساب آيد. اگر اين پيش فرض برقرار باشد عملکرد آزمودني نبايد تحت تاثير پاسخ­هاي خوب يا بد او در ديگر سوالات باشد. (سیجت سما و مولن­ آیر 2002).


نظرية سوال- پاسخ به جاي تاکيد بر نمرات کل آزمون, بر پاسخ­هاي آزمودني­ها به تک­تک سوال­هاي آزمون تکيه مي­کند. در نظرية سوال- پاسخ با استفاده از مدل هاي رياضي مي­توان احتمال پاسخ درست به يک سوال آزمون را به عنوان تابعي از توانايي آزمون شونده به حساب آورد و همچنين برخي ويژگي­هاي سوال را پيش بيني کرد. ويژگي­هايي که براي سوال­ها يا ماده­هاي آزمون بدست مي آيند به نوع مدل يا الگوي نظريه سوال- پاسخ وابسته اند (سيف, 1383). مدل­های نظریه­ سوال-پاسخ می توانند نمره های دو مقوله ای و چند مقوله ای را تحلیل کنند بشکلی که طبقه بندی نمره­ها می تواند منظم یا نامنظم باشند( رونالد، 2008 ).


ضريب آلفاي کرونباخ؛ مفاهيم، کارکرد و شيوه هاي نوين آن

ضريب آلفاي کرونباخ؛ مفاهيم، کارکرد و شيوه هاي نوين آن  

دکترامير تيمور پاينده1، دکتر مريم اميدي نجف آبادی2، فهيمه مسعودي فر3

1و 3: دانشگاه شهيد بهشتي، دانشکده علوم رياضي، گروه آمار

2: دانشگاه آزاد اسلامي واحد علوم وتحقيقات، گروه ترويج و آموزش کشاوزي

amirtpayandeh@sbu.ac.ir 

چکيده :

بي شک همه ي ما درطول دوران زندگي خود حداقل يکبار پرسشنامه پرکرده ايم. تا بحال ازخود پرسيده ايد که اين پرسشنامه ها چگونه تهيه مي شوند و نيز معياري براي بررسي ميزان قابليت اطمينان آنها وجود دارد يا خير؟ بديهي است که چنين مقياسي وجود دارد، چرا که بسياري از بررسي ها ي آماري درسطوح وسيع ابتدا درقالب پرسش نامه پايه گذاري مي شوند، پس مي بايست ملاکي براي نظارت  بر قابليت  اعتماد  آنها  وجود داشته باشد.

در اين مقاله، ابتدا به مفهوم ضريب آلفاي کرونباخ و کارکرد آن، شيوه محاسبه آن با استفاده از نرم افزارهاي آماري مي پردازد. نهايتا به معرفي تتاي ترتيبي  و ارائه برنامه ای جهت محاسبه آن (با استفاده از نرم افزار R)خواهيم پرداخت.

مفهوم ضريب آلفاي کرونباخ:

ضريب آلفاي کرونباخ توسط کرونباخ ابداع شده و يکي ازمتداولترين روشهاي اندازه گيري اعتماد پذيري و يا پايائي پرسش نامه هاست. منظور از اعتبار يا پايايي پرسش نامه اين است که اگر صفت هاي مورد سنجش با همان وسيله و تحت شرايط مشابه و در زمانهاي مختلف مجددا اندازه گيري شوند، نتايج تقريبا يکسان حاصله شود.

 ضريب آلفاي کرونباخ، براي سنجش ميزان تک بعدي بودن نگرشها، عقايد و ... بکار مي رود. در واقع مي خواهيم ببينيم تا چه حد برداشت پاسخگويان از سوالات يکسان بوده است. اساس اين ضريب بر پايه مقياسهاست. مقياس عبارتند از دسته اي از اعداد که بر روي يک پيوستار به افراد، اشيا يا رفتارها در جهت به کميت کشاندن کيفيت ها اختصاص داده مي شود. رايج ترين مقياس که در تحقيقات اجتماعي بکار مي رود مقياس ليکرت است. در مقياس ليکرت اساس کار بر فرض هم وزن بودن گويه ها استوار است. بدين ترتيب به هر گويه نمراتي (مثلا از1 تا 5 براي مقياس ليکرت 5 گويه اي) داده مي شود که مجموع نمراتي که هر فرد از گويه ها مي گيرد نمايانگر گرايش او خواهد بود. 

آلفاي کرونباخ بطورکلي با استفاده از يکي روابط  زيرمحاسبه مي شود.

  يا   

که دراين روابط  k تعداد سوالات،   واريانس سوال i ام،   واريانس مجموع کلي سوالات،  ميانگين کواريانس بين سوالات، و   واريانس ميانگين سوالات مي باشند (برگرفته شده از آلن و ين، 2002). 

با استفاده از تعريف آلفاي کرونباخ مي توان نتيجه گرفت: (1) هرقدرهمبستگي مثبت بين سوالات بيشتر شود، ميزان آلفاي کرونباخ بيشتر خواهد شدو بالعکس، (2) هر قدر واريانس ميانگين سوالات بيشتر شود آلفاي کرونباخ کاهش پيدا خواهد کرد، (3) افزايش تعداد سوالات تاثيرمثبت و يا منفي (بسته به نوع همبستگي بين سوالات) بر ميزان آلفاي کرونباخ خواهد گذاشت، (4) افزايش حجم نمونه باعث کاهش واريانس ميانگين سوالات در نتيجه باعث افزايش آلفاي کرونباخ خواهد شد. 

بديهي است هرقدر شاخص آلفاي کرونباخ به 1نزديکترباشد، همبستگي دروني بين سوالات بيشتر و در نتيجه پرسشها همگن ترخواهند بود. کرونباخ ضريب پايايي %45 را کم، %75 را متوسطو قابل قبول، و ضريب %95 را زياد پيشنهاد کرده (کرونباخ، 1951). بديهي است درصورت پايين بودن مقدارآلفا، بايستي بررسي شود که با حذف کدام پرسشها مقدارآن را مي توان افزايش داد. 

تتاي ترتيبي:

در سال 1974 آمارداني به نام آمور در مورد استفاده از آلفاي کرونباخ آماردانان ديگر را به چالش کشيد. استدلال او اين بود که آلفاي کرونباخ بر علاوه بر نارايب بوده (نارايبي مثبت)، بر اساس شاخص هاي تعريف و محاسبه مي گردنند که مربوط به داده هاي با مقياس فاصله اي و يا نسبتي هستند، بنابراين استفاده از آلفاي کرونباخ براي محاسبه اي ميزان پايائي پرسش نامه هاي که حاوي سوالات ترتيبي هستند دقيق به نظر نمي رسد. او براي رفع اين مشکل شاخص جديدي تحت عنوان تتاي ترتيبي به صورت زير ارائه داد.

 

که   بيشترين مقدار ويژه در تحليل مولفه اي اصلي مي باشد. اخيرا زامبو، گادرومن، و زيسر (2007) به مطالعه اين شاخص پرداخته و با چندين مثال شبيه سازي شده نشان دادند که ضريب آلفاي کرونباخ هميشه مقدار پاياي را کم برآورد مي کند. بنابراين توصيه مي شود که در هنگامي که داده ها ترتيبي هستنند به جاي آلفاي کرونباخ از تتاي ترتيبي استفاده شود.

چگونگي محاسبه به همراه مثال عملي:

بسياري از نرم افزارهاي آماري قادر به محاسبه آلفاي کرونباخ هستند. در اين قسمت از مقاله چگونگي محاسبه ي آلفاي کرونباخ را توسط دو نرم افزار SPSS و SAS شرح داده، سپس با ارائه يک برنامه به زبان R  چگونگي محاسبه ي آلفاي کرونباخ و تتاي ترتيبي را توسط نرم افزار R نشان مي دهيم. در ادامه با استفاده از سوالات نمونه گيري مقدماتي اميدي (1387) چگونگي سنجش آلفاي کرونباخ و تتاي ترتيبي را نشان مي دهيم.

براي محاسبه آلفاي کرونباخ  به کمک نرم افزار SPSS مسير زيررا دنبال مي کنيم :

Analyze> Scale> Reliability Analysis…

چنانچه مايل باشيم بررسي کنيم که حذف هرسوال چه ميزان روي ضريب آلفاي کرونباخ تاثير مي گذارد، بعد از باز شدن پنجره “Reliability Analysis Reliability Analysis” روي گزينه Statistics کليک کرده و در قسمت “Descriptive for” گزينه “Scale if item deleted”  را انتخاب کنيم.

خروجي نرم افزارSPSS براي داده هاي اميدي (1387) به صورت زيرخواهد بود:

جدول1) خروجی نرم افزار شامل ضريب آلفا و تعداد سوالات

Reliability Statistics

Cronbach's Alpha N of Items

.855 13





جدول2) خروجی نرم افزار

Item-Total Statistics

Scale Mean if Item Deleted Scale Variance if Item Deleted Corrected Item-Total Correlation Cronbach's Alpha if Item Deleted

V1 48.159 45.067 .470 .848

V2 48.500 44.488 .517 .845

V3 47.977 46.162 .484 .847

V4 48.318 43.989 .660 .838

V5 48.045 44.230 .495 .846

V6 49.227 45.808 .147 .890

V7 47.864 44.074 .690 .837

V8 48.136 43.283 .653 .837

V9 48.000 45.442 .515 .846

V10 48.068 43.646 .616 .839

V11 47.841 43.532 .680 .836

V12 48.318 43.106 .597 .840

V13 48.545 41.323 .671 .834


همانطوريکه ملاحظه مي شود مقدارآلفاي محاسبه شده برابر85 درصد است، که مقدار قابل قبولي است. همانطور که جدول شماره 2 نشان مي دهد حذف سوال ششم (v6) باعث افزايش آلفاي کرونباخ به 89 درصد خواهد شد.   

آلفاي کرونباخ در نرم افزار SAS با استفاده از دستور 

proc corr alpha nocorr nomiss; Variables; run;

محاسبه مي گردد. که به دلايل مشابه بودن خروجي با نرم افزار SPSS از ذکر جزئيات آن خوداري مي کنيم. 

دو نرم افزار SPSS  و SAS قادر به محاسبه ي تتاي ترتيبي نمي باشند و نرم افزار S-plus و R توانائي محاسبه آلفاي کرونباخ را ندارند.

در ادامه با ارائه تابعي (پيوست الف) چگونگي محاسبه آلفاي کرونباخ و تتاي ترتتيبي را توسط R  نشان مي دهيم. 

خروجي برنامه بالا تحت نرم افزار R  براي داده هاي اميدي (1387) در جدول 3 خلاصه شده است.

جدول 3) خروجی برنامه پيوست الف

New_Theta $` Ordinal Theta if a Question Deleted` New_Alpha $`Alpha if a Question Deleted`

0.8849911 Without Question 1 0.8476305 Without Question 1

0.8840719 Without Question 2 0.8448156 Without Question 2

0.8867511 Without Question 3 0.8474065 Without Question 3

0.8765560 Without Question 4 0.8377251 Without Question 4

0.8854676 Without Question 5 0.8461963 Without Question 5

0.8949432 Without Question 6 0.8899667 Without Question 6

0.8737700 Without Question 7 0.8368503 Without Question 7

0.8754874 Without Question 8 0.8368983 Without Question 8

0.8834650 Without Question 9 0.8455129 Without Question 9

0.8782972 Without Question 10 0.8390775 Without Question 10

0.8741109 Without Question 11 0.8361389 Without Question 11

0.8814010 Without Question 12 0.8395971 Without Question 12

0.8775920 Without Question 13 0.8338930 Without Question 13

$`Ordinal Theta for all Question=`  0.8895967 $`Cronbach's Alpha for all Question=` 0.8551825


نتيجه آلفاي کرونباخ جدول بالا مشابه با نرم افزار SPSS مي باشد. همچنين تتاي ترتيبي نيز نتيجه مشابه با آلفاي کرونباخ ارائه مي دهد با اين تفاوت که تتاي ترتيبي برآوردگر دقيق تر نسبت به آلفاي کرونباخ براي پايائي سوالات ارائه مي کند.

نتيجه گيري:

با توجه به کم برآورد پايائي توسط آلفاي کرونباخ توصيه مي شود پايائي سوالات ترتيبي با استفاده از تتاي ترتيبي سنجيده شود.


منابع :

1- Armor, D. J. (1974). Theta reliability and factor scaling. Sociological methodology, 17-50.

2- Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika. 16, 297-334.

3- Diener, E , Emmons, R. A., Larsen, R. J., & Griffin, S. (1985). The satisfaction with life scale. Journal of Personality Assessment, 49, 71-75 .

4- Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading MA: Addison-Wesley Publishing Company.

5- Zumbo, D. B., Gadermann, A. M., and Zeisser, C. (2007). Ordinal versions of coefficient alpha and theta for Likert rating scales. Journal of modern applied statistical methods, 6, 21-29.

6- اميدي، م. (1387). طراحی نظام فناوری اطلاعات و ارتباطات به منظور آموزش کارگزاران خصوصی بيمه کشاورزی ايران. رساله دکتری واحد علوم و تحقيقات دانشگاه آزاد اسلامی. 

  

پيوست الف  (برنامه محاسباتي آلفاي کرونباخ و تتاي ترتيبي توسط نرم افزار R)

Alpha<-function(all_data){

N<-ncol(all_data)

  D<-c()  

Q<-c()

# Cronbach’s alpha calculation

Alpha_Cronbach<-function(data){

k<-ncol(data)  

s<-cov(data)  

A<-c()

sumcov<-sum(s) 

for(i in 1:k){

A<-c(A,s[i,i]) }

sumcov<-sumcov-sum(A)

alpha<-1/((k-1)*mean(A)/sumcov+(1-1/k))

return(alpha) }

 # Ordinal’s theta calculation

theta_ordinal<-function(data){

p<-ncol(data)

p/(p-1)*(1-1/max(eigen(cor(data))$value)) }

for (j in 1: N){

D<-c(D,Alpha_Cronbach(all_data[-j]))

Q<-c(Q,theta_ordinal(all_data[-j])) }

D<-c(D)

list("Alpha if a Question Deleted" = data.frame("New "=""," Alpha"=D, row.names=paste("Without Question.",1:N))

,"Cronbach's Alpha for all Question="=Alpha_Cronbach(all_data),

"Ordinal Theta if a Question Deleted"=data.frame("New "="","Theta"=Q, row.names=paste("Without Question.",1:N))

,"Ordinal Theta for all Question="=theta_ordinal(all_data)) }


ضریب آلفا و روشهاي برگرفته از مدل معادلات  à ساختاري د ر برآورد اعتبار

ضریب آلفا و روشهاي برگرفته از مدل معادلات

à ساختاري د ر برآورد اعتبار

A Comparison between Alpha Coefficient and Structural Equation

Modeling Methods to Estimation of Reliabilityà

àà مسعود کبیري

Masoud Kabiri,*

چکیده

هدف این مطالعه، مقایسه بین ضریب آلفا و

روشهاي برگرفته از مدل معادلات ساختاري در

برآورد اعتبار آزمون است. انطباق با مدل اندازه گیري

اساساً معادل-تاو و عدم همبستگی بین خطاهاي

اندازهگیري مهمترین پی شفرض هاي ضریب آلفا

است. در مقابل، روشهاي برگرفته از مدل معادلات

ساختاري علاوه بر عدم الزام در رعایت چنین

پیشفرضهایی امکان بررسی و آزمون هریک از

آنها و قابلیت وزنبندي گویهها جهت تشکیل

ترکیب بهینه براي تشکیل مقیاس را نیز بهدست

میدهد. در این مقاله چهار روش برآورد اعتبار در

روشهاي مجذور » مدل معادلات ساختاري، شامل

استفاده از ،« اعتبار مرکب » ،« همبستگی چندگانه

مورد بحث « اعتبار بیشینهاي » و « متغیرهاي خیالی »

قرار گرفت. هر یک از این روش ها بر روي داده هاي

حاصل از مقیاس ادراك نسبت به نگرش معلم

ریاضی از مجموعه مقیاسهاي نگرش نسبت به

ریاضی فنما و شرمن بهکار برده شد. دادههاي این

مقیاس از نمونه 340 نفري دانشآموزان سال اول

متوسطه بهدست آمد. نتایج کاربرد هر یک از این

روشهاي برگرفته از مدل معادلات ساختاري نشان

دادکه روشهاي معرفی شده مقادیر بالاتري از اعتبار

مقیاس نسبت به ضریب آلفا را نشان میدهند. کاهش

ضریب آلفا ممکن است به علت عدم انطباق مقیاس

با مدل اساساً معادل-تاو باشد. به طو ر کلی بحث

پیشینهاي بههمراه نتایج مطالعه نشان داد که رو ش

هاي برگرفته از مدل معادلات ساختاري برآوردهاي

دقیقتري براي اندازهگیري اعتبار آزمون هستند.

Abstract

The purpose of this study is comparison

between alpha coefficient and given methods of

structural equation modeling to estimate

reliability of a scale. Due to necessity of

restricted assumptions, that is, fitting to

essentially τ-equivalence measurement model

and uncorrelated measurement errors. Alpha

coefficient may be an inaccurate estimator, In

contrast, methods of structural equation

modeling does not require considering this

assumptions, also there are some possibilities to

test assumptions and weighting items to

construct an optimal scale. In this article, we

discuss four estimators of reliability in structural

equation modeling: square multiple coefficient,

composite reliability, phantom variable and

maximal reliability. Each of them was analyzed

on perception of math teacher' attitude scale- a

scale of Modified Fennema and Sherman's

mathematics attitude scales. Data gathered from

340 ninth grad students. The results reveal these

methods have higher values of reliability scale

rather than alpha. The reduction of alpha may be

due to miss-fit of scale to essentially τ-

equivalent model. In general, the results of this

study along with literature review show that

given methods of structural equation modeling

are more accurate estimators to measurement of

reliability.

Keywords: alpha coefficient, reliability,

structural equation modeling,estimate reliability,

square multiple coefficient, composite phantom

variable, maximal reliability, phantom variable,

maximal reliability.

کلیدواژهها: مدل معادلات ساختاري، ضریب

آلفا، اعتبار مرکب، اعتبار بیشینهاي، متغیر خیالی،

مجذور همبستگی چندگان

1388/6/ 1387 تصویب نهایی : 1 /3/ دریافت مقاله : 4 à

پژوهشگاه مطالعات وزارت آموزش و پرورش àà

à Rresearch Institute for Education of Education ministry, I,R.Iran

*Eٍmail: mkabiri@rie, ir, Tel: (+98)21 88 95 2003, 09102123787

40 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 40

مقدمه —

به عنوان رابطه واریانس واقعی به واریانس « اعتبار » ، در نظریۀ کلاسیک آزمون

مشاهده شده (رایکوف، 2004 ) و ضریب اعتبار به عنوان سهم واریانس نمره مشاهده

شدهاي که توسط واریانس نمره واقعی تبیین می شو د (گراهام، 2006 ) درنظر گرفته

میشود. بر این اساس ضریب اعتبار به عنوان شاخص کلی دقت اندازه گیر ي ملاحظه

می شود (رایکوف، 2004 ) که در نقطۀ مقابل خطاي اندازه گیر ي است . علاو ه براین،

را به عنوان تجانس نمرات یا ثبات درونی نیز تعریف نمود (آناستازي، « اعتبار » می توان

1379 ). این تعریف که یکی از رایج ترین مبانی محاسبات اعتبار را تشکیل میدهد، بر

روش ب هدست آوردن اعتبار بر اساس یکبار اجراي آزمون استوار است که در مقابل

سایر روشهاي محاسبۀ اعتبار مثل بازآزمایی و فرمهاي همتا قرار دارد. معرو فترین

روش محاسبه اعتبار در این مبنا، ضریب آلفا است که توسط کرونباخ پیشنهاد شده

است. بحث این مقاله بر روي این روش از محاسبه اعتبار متمرکز شده است.

بررسی پیشینه پژوهشی نشان میدهد که ضریب آلفا داراي پیشفرضهاي مهم و

جدي است که عدم توجه به آن ها میتواند بر برآورد اعتبار اثر داشته باشد. این

١ گویه ها و عدم همبستگی بین « بودن (τ) معادل-تا و » پیشفرضها شامل اساساً

؛ خطاهاي اندازهگیري گویه ها میباشند (بیکون، سائور و یونگ، 1995 ؛ رایکوف ، 2001

2004 ؛ رایکوف و شراوت، 2002 ؛ کوماروف، 1997 ؛ گراهام، 2006 ؛ گرین و هرشبرگر،

2000 ). اساساً معادل-تاو بودن گویهها به یکسانی نمرات مشاهده شدة گویه ها یا

تساوي بار گویهها مرتبط است. عدم رعایت این پیشفرضباعث می شود که آلفا داراي

اعتبار کمتري باشد. به این دلیل در برخی مواقع اعتبار به عنوان مرز پائین اعتبار شناخته

.( میشود (رایکوف و شراوت، 2002 ؛ گراهام، 2006

و یا اندازه گیر ي در مقیاس یکسان) ) « معادل-تاو بودن گوی هه ا » براي بررسی

می توان انحراف معیار گویه ها را ملاحظه نمود. در صورتیکه انحراف معیار نمرات

گویههاي تشکیل دهندة یک آزمون از یکدیگر تفاوت زیادي داشته باشند، میتوان

چنین نتیجهگیري کرد که این گویهها احتمالاً در مقیاس متفاوتی اندازهگیري می شون د،

در غیر اینصورت، وجود مقیاس یکسان محتمل است. چنین بررسی میتواند توسط

41 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 41

ایجاد فواصل اطمینان پیرامون انحراف معیار انجام شود. به ای نصورت که با ایجاد

فواصل اطمینان حدود انحراف معیار، میتوان معادل بودن آنها را از نظر دیداري

بررسی کرد (گراهام، 2006 ). با این حال، رعایت نکات دیگر ي م یتواند اطمینان از

معادل-تاو بودن گویهها را حاصل کند. بهطور مثال، در صورتیکه از اشکال متفاوتی

براي دریافت پاسخ استفاده کنیم، احتمال معادل-تاو نبودن گویه ها زیاد خواهد بود

(گراهام، 2006 ). به عبارت دیگر، اگر در مقیاسی هم گویههاي صحیح و غلط و هم

گویههاي 5 درجهاي طیف لیکرت وجود داشته باشد، احتمالاً نمی توان این گویه ها را

گویههایی معادل دانست. وزنبندي یکسان گویه ها نیز از عوامل بهدست آوردن

گویههاي معادل-تا و است (بیکون، سائور و یونگ، 1995 ). در بیشتر مطالعات،

گویههاي آزمون با وزن یکسانی با همدیگر ترکیب می شوند . اگر گویه ها وزنهاي

یکسانی براي ترکیب و ایجاد یک متغیر ترکیبی نداشته باشند، احتمالاً مقیاس معادل-تاو

را نخواهیم داشت. از عوامل دیگري که بر معادل-تا و بودن اثر میگذارد، تعداد

٢ ضریب آلفا در آزمونهایی که تعداد « ک م برآورده شدن » ، گویههاست. به طوري که

گویههاي بیشتري دارند، کمتر اتفاق میافتد (گراهام، 2006 ). به این دلیل که با معاد ل-

تاو نبودن یک گویه مقدار کمی از سهم واریانس نمره واقعی تغییر می کن د و بنابراین

کم تر در معادل-تاو بودن مقیاس تأثیر می گذا رد. از طرف دیگر، در مقیاس هاي

کوچک تر، معادل-تاو نبودن یک گویه سهم بیشتري بر معادل-تاو بودن مقیاس دارد. با

اینحال، نتایج برخی از مطالعات نشان میدهد که وجود حتی یک گویه غیر معادل-تاو

میتواند بر دقت ضریب آلفا موثر باشد (رایکوف، 1997 ). با وجود اهمیت این نکات

هیچ روش دقیق و مشخصی بر اساس روشهاي مرسوم اندازه گیر ي براي بررسی

معادل-تاو بودن گویهها وجود ندارد.

٤« متجانس » ٣، معادل-تاو، اساساً معادل-تاو و « مدل موازي » بهطور کلی چهار نوع

وجود دارند که بسته به مفاهیم و عناصر محدود شده آن تعریف میگردند.

محدود ترین مدل اندازهگیري در تعریف نمرات واقعی است. در « مدل موازي » ¨

این مدل علاوه بر آن که همه گویههاي آزمون متغیر نهفتۀ یکسانی را میسنجند (مفهوم

تکوجهی بودن که در تمام آزمون هاي ثبات درونی فرض میشود)، فرضمیشود که

همه گویههاي آزمون دقیقاً معادل یکدیگر هستند. علاوهبرآن، همه گویه ها باید متغیر

42 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 42

نهفته را در مقیاس مشابهی اندازهگیري کرده که با درجه یکسانی از دقت و مقدار

یکسانی از خطا همراه باشند (گراهام، 2006 ). به عبارت دیگر، مقیاس اندازه گیر ي،

دقت و خطاي اندازهگیري همه گویهها یکسان در نظر گرفته می شود . این مطلب را

میتوان با استفاده از معادلهاي ریاضی آن به ترتیب به این صورت نشان داد:

(1) bi= … = bk = ۱

(2) ai=…= ak = ۰

(3) Var (E i) =…= Var (Ek)

ضریب بین متغیرهاي مشاهده و متغیر نهفته (بارهاي عاملی)، bi در این عبارت ها

(4) Ti = aij + bij Tj ضریب ثابت درمعادله ai واریانس خطاي اندازهگیري، و Var (Ei)

.( را نشان میدهد (رایکوف، 1997 Tj و Ti است. این معادله رابطه خطی بین نمرات

دارد به جز آنکه در این « مدل موازي » نیز ساختاري همانند « مدل معادل- تاو » ¨

مدل، خطاهاي واریانس گویهها میتوانند از همدیگر متفاوت باشند. این موضوع دلالت

بر این دارد که تکتک گویهها، متغیر نهفته یکسانی را در مقیاس یکسان و با درجه

دقت یکسانی اندازهگیري می کنند ولی احتمالاً میزان خطاي متفاوتی وجود دارد

1998 ؛ گراهام، 2006 ). معناي مفهومی این مدل آن است که اگرچه همه a ، (رایکوف

نمرات واقعیِ گویهها معادل هستند ولی هر گویه عبارتهاي خطاي منحصر به فردي

( دارد. بر حسب عبارات ریاضی پیشین میتوان گفت که در مدل معادل- تاو عبارت ( 3

درنظر گرفته نمیشود.

فرضمیکند که هر گویه، متغیر نهفته یکسانی را در « مدل اساساً معادل- تاو » ¨

یک مقیاس یکسان ولی با دقت احتمالاً متفاوتی اندازهگیري میکند. علاوهبراین، در این

مدل همانند مدل معادل-تاو احتمالاً خطاهاي اندازهگیري نیز متفاوت هستند (رایکوف،

1997 ). در این تعریف تفاوت بین دقت و مقیاس گویه برجسته شده است. در مدل

معادل- تاو فرض میشود که نمرات واقعی گویهها معادل هستند، ولی در مدل اساساً

معادل- تاو نمره واقعی گویه میتواند توسط ترکیب با یک ضریب یگانه اضافی به هر

زوج از متغیر ها متفاوت باشد. این پیشفرضبهشکل ریاضی اینگونه نوشته میشود:

(۵) Xik = (αk + Ti) + Eik

43 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 43

عبارت فوق این حقیقت را منعکس میکند که اگرچه نمرات واقعی گویهها در

مقیاس یکسانی اندازهگیري میشوند (یعنی واریانس مشابهی دارند)، ولی ممکن است

دقت متفاوتی (میانگینهاي متفاوت) داشته باشند. گنجانیدن ضریب اضافی تنها بر

میانگین گویهها تأثیر میگذارد، ولی بر واریانس و کوواریانس آنها متفاوت نیست

(گراهام، 2006 ). بر حسب عبارتهاي مشخص شده در مدل موازي، میتوان مدلی را

دانست که عبارت هاي ( 2) و ( 3) را رعایت نکرده باشد. براي « مدل اساساً معاول-تاو »

استفاده از ضریب آلفاي کرونباخ لازم است که اندازهگیري حداقل بر مبناي مدل اساساً

معادل-تاو استوار شده باشد. به این معنا که مقیاس و نمرات واقعی گویه ها یکسان

باشد.

در نهایت کمترین محدودیت در آن وجود دارد و به همین دلیل « مدل متجانس » ¨

است. در این مدل فرضمیشود که « اعتبار » عمومی ترین مدل براي استفاده در برآورد

تک تک گویهها متغیر نهفته یکسانی را با مقیاس، دقت و میزان خطاي احتمالاً متفاوت

مدل » اندازهگیري میکنند (آدامسون، شولین، لوید و لوئیس، 2000 ؛ گراهام، 2006 ). در

مدل اساساً » در این است که در « مدل با مدل اساساً معادل-تاو » تفاوت این « متجانس

٥با همدیگر متفاوت « جم عپذیر ي » نمرات واقعی گویهها توسط ضریب « معادل-تاو

هستند، در حالیکه در مدل متجانس بین نمرات واقعی گویهها رابطه خطی فرض شده

و بین هر زوج از آن ها، ضریب جم عپذیر یگانهاي وجود دارد که میتوان آنرا به این

:(1998a ، صورت نشان داد (رایکوف

(۶) Xj = aj + bj T۱

عموم یترین مدل « مدل متجانس » بهطوري که در عبارت ( 6) ملاحظه میشود

اندازهگیري است، زیرا میتوان با رعایت هریک از پیشفرضهاي مدلهاي قبلی، مدل

متجانس را به یکی از مدل هاي محدودتر تبدیل کرد. بنابراین، سه مدل مورد اشاره در

هستند و به همین دلیل است که برخی از « مدل متجانس » بالا زیر مجموعه هاي

صاحبنظران سایر مد لهاي اندازهگیري را یکی از حالتهاي مدل متجانس می دانند

.( (رایکوف و هانکوك، 2005

براي تطبیق داده هاي حاصل از اندازهگیري با هر یک از مدلها از ویژگی سلسله ¨

مراتبی مدل هاي اندازهگیري استفاده میشود. به عبارت دیگر، براي انتخاب بهترین

44 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 44

مدل، از نامحدودترین و غیراقتصاديترین مدل بهسوي محدودترین و اقتصاديترین

مدل حرکت می شود تا بهینهترین مدل انتخاب گردد (گراهام، 2006 ). بدین منظور از

٦ استفاده میشود، یعنی ابتدا از مدل متجانس شروع شده و برازش « مدلهاي آشیانهاي »

این مدل با دادهها آزمون میشود. در صورت معنیداري، مدل معادل-تا و و یا اساساً

معادل-تاو آزمون میشود، یعنی مدلی که بارهاي عاملی آن برابر با یک درنظر گرفته

میشود. در صورتیکه تفاوت در مقادیر آمارة خیدو بین این دو مدل از نظر آماري

معنیدار نبود مدل محدودتر انتخاب شده و در غیر اینصورت مدل اولی و محدودتر به

عنوان مدل مناسب برگزیده میشود. در صورتیکه مدل معادل -تاو پذیرفته ش ود، مدل

موازي آزمون میگردد و خطاهاي اندازهگیري گویهها برابر فرضم یگردند . پس از

آزمودن مدل، تفاوت مقادیر خیدو (آماره تفاوت خیدو) بررسی می گردند . همانند

مرحله قبلی، در صورت معنیدار نبودن آماره تفاوت خیدو مدل محدودتر و در غیر

این صورت مدل نامحدودتر انتخاب می گردد (رایکوف، 1997 ). بنابراین، با توجه به

٧ در اندازهگیري، اگر دو مدل بهطور منطقی برازش پیدا کنند، برآورد « بهینه بودن » اصل

مدل محدودتر از مدل با محدودیت کم تر ترجیح داده خواهد شد. به این دلیل توصیه

شده است که قبل از انجام ه رگونه عمل اندازهگیري، پیش فرض هاي برآورد اعتبار

آزمون شده و مناسبترین مدل در رابطه با دادهها انتخاب گردد.

نیز از جمله شرایط استفاده از ضریب « خطاي اندازهگیري ناهمبسته » پیشفرض ¨

آلفا است. مطالعات نشان دادهاند که همبستگی بین خطاهاي اندازهگیري بر روي برآورد

2004 ؛ کوماروف، 1997 ؛ گرین و هرشبرگر، ؛ ضریب آلفا موثر است (رایکوف، 2001

2000 ؛ لوك، 2005 ). عمده مطالعات در این زمینه نشان میدهند که انحراف از

پیشفرض خطاهاي مستقل میتواند ضریب آلفا را متورم ساخته و در نتیجه ضرایب

آلفا بیش از مقدار واقعی آن برآورد گردند (کوماروف ، 1997 ؛ گرین و هرشبرگر،

2000 ). با اینحال، برخی از نوشتهها حاکی از کم برآورد کردن اعتبار در هنگام همبسته

2004 ). ولی بهطور کلی با توجه به ؛ بودن خطاهاي اندازه گیري دارد (رایکوف، 2001

پژوهشهایی که بهطور منظم این موضوع را بررسی کردهاند، میتوان چنین برداشت

کرد که چنانچه بین خطاهاي اندازهگیري در یک آزمون، همبستگی و به خصوص

٨ میکند (زیمرمن، زومبو « بیشبرآورد » همبستگی مثبت وجود داشته باشد، آلفا اعتبار را

45 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 45

و لالونده، 1993 ). این موضوع در مطالعه دیگري نیز تأئید شد و بر اساس آن مشخص

گردید که وجود خطاي همبسته میتواند تا اندازه اي، مقداري از کمبرآورد شدن اعتبار

به علت معادل-تاو نبودن را کاهش دهد (کوماروف، 1997 ) که معر ف تعامل رعایت

نکردن هر دو پیشفرضاست. مقدار سوگیري آلفا در هنگام بروز خطاهاي همبسته

قابل محاسبه خواهد بود (رایکوف، 2001 ). ناهمبستگی بین خطاهاي اندازه گیر ي از

٩ بهدست میآید. استقلال آماري به دو موضوع اشاره « استقلال آماري » طریق اجراي

دارد: اول آنکه مقدار مشاهده شدة افراد در یک گویه مستقل از مقادیر آنها در

گویههاي دیگر باشد و دوم اینکه مقدار مشاهده شدهي افراد در گویه بهطور آزمایشی

از مقدار مشاهده شده ي هر فرد دیگر در آن گویه یا گویه ها ي دیگر متفاوت باشد

(کوماروف، 1997 ). بنابراین پیشفرض استقلال آماري در هنگامیکه آزمون مشابه

باشند یا گویههاي مقیاس، تقریب همزمان نزدیکی داشته باشند، غیر قابل دفاع خواهد

بود. همبستگی بین خطاهاي اندازهگیري به دلایل متفاوتی رخ میدهد که از آن جمله

وجود یک نظم مشخص بین گویهها خواهد بود. در نتیجه براي پرهیز از بروز چنین

مشکلی میتوان براي به حداقل رساندن ثبات تصنعی، نظم گویهها را بهصورت تصادفی

تنظیم کرد. به عبارت دیگر با اینکار میتوان امیدوار بود که پاسخ افراد به نمره واقعی

آنها وابسته است و نه به پاس خهاي آنان در گویههاي قبلی. علاوهبراین، مواردي چون

اجرا شدن همه گویهها در یک مقیاس بهطور متوالی و در یک وضعیت یکسان، داشتن

عبارتپردازي یکسان و نمرهگذاري در یک جهت نیز از مواردي است که همبستگی

بین گویهها و خطاها را افزایش داده و در نتیجه ضریب آلفا را بیشبرآورد خواهد کرد

.( (گرین و هرشبرگر، 2000

دشواري رعایت پیشفرض ها به همراه فقدان قابلیت بررسی و آزمون آنها در ¨

روشهاي مرسوم اندازهگیري، ابهاماتی را در دقیق بودن ضریب آلفا بهوجود میآورد. به

همین خاطر معمولاً از ضریب آلفا به عنوان برآورد غیردقیق اعتبار یاد م یشو د. با

اینحال، در مواقعی که تعداد نسبتاً زیادي از مولفهها وجود داشته باشند (بیشتر از 6)، یا

0) و خطاهاي / بارها بهطور بالایی در یک سازة نهفتۀ مشترك بار داشته باشند (حداقل 6

اندازهگیري ناهمبستهاي وجود داشته باشند استفاده از آلفا مجاز خواهد بود (رایکوف ،

.(2004 ؛2001

46 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 46

با توجه به مطالبی که گفته شد میتوان نتیجه گرفت که در استفاده از ضریب ¨

حداقل دو مشکل وجود دارد. مشکل اول برآورده کردن « شاخص اعتبار » آلفا به عنوان

پیشفرضهاي لازم براي استفاده از ضریب آلفا و مشکل دوم آزمون کردن هر یک این

پیشفرضها در رابطه با دادههاي در دسترس میباشد. براي حل مشکل اول روشهاي

جايگزین ضریب آلفا پیشنهاد شده است. به عنوان نمونه در پیشفرض ناهمبسته بودن

خطاهاي اندازهگیري گویهها، در مدل معادلات ساختاري خطاهاي اندازه گیر ي را به

خطاي همبستۀ تولید شده توسط عامل و خطاي همبسته تولید شده توسط خطاي

اندازهگیري تفکیک میکنند. خطاي همبستهاي که توسط عاملها تولید م یشود واریانس

معتبر را مورد توجه قرار میدهد، در حالیکه خطاهاي همبسته تولید شده توسط خطاي

.( را درنظر میگیرند (گرین و هرشبرگر، 2000 « نامعتبر » اندازهگیري تصادفی واریانس

براي مواقعیکه مدل اساساً معادل-تاو نیست نیز روشهاي دیگري جايگزین ضریب

آلفا شدهاند که از آن جمله روش امگا یا معادل آن روش اعتبار سازه (بیکون، سائور و

یونگ، 1995 ؛ رایکوف و شراوت، 2002 ؛ زینبرگ، رول و یوول، 2007 )، روش امگ اي

وزنبندي شده (بیکون، سائور و یونگ، 1995 ) و روش ه اي موجود در روش مدل

معادلات ساختاري هستند. براي حل مشکل دوم (عدم توانایی براي آزمون کردن

پیشفرضها) مناسبترین و رایجترین روش، استفاده از مدل معادلات ساختاري است.

در این مقاله سعی میشود که جنبه هاي استفاده از شاخص ها و روشهاي ویژه موجود

در مدل معادلات ساختاري براي برآورد اعتبار و همچنین آزمون پیش فرض ها مورد

بررسی قرار گیرند. همچنین برخی مطالعات نشان دادهاند که ضریب آلفا نسبت به

( وجود نقاط پرت تأثیرپذیر است (لیو و زومبو، 2007

کاربرد روش مدل معادلات ساختاري در برآورد اعتبار ابزار به علت قابلیت ها و ¨

مزایاي استفاده از آن رواج یافته است. مهمترین دلیل استفاده از این روش عدم اجبار

براي رعای تکردن پیشفرض هاي سخت و جدي است که در روش آلفا وجود دارد. در

این روش امکان آن وجود دارد که از مدل اندازهگیري کمتر محدودشده اي همانند مدل

متجانس استفاده شود و در نتیجه الزام استفاده از مدل اساساً معادل -تاو از بین می رود

(آدامسون و همکاران، 2000 ؛ رایکوف، 1997 ؛ رایکوف و شراوت، 2002 ). خطاهاي

ناهمبسته نیز از جمله پیشفرضهاي اساسی در ضریب آلفاست که به عنوان همبستگی

47 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 47

خطاي اندازهگیري درنظر گرفته میشود، ولی در روش مدل معادلات ساختاري کاملاً

١٠ درنظر گرفته نمیشود بلکه به عنوان « خالصیا ناب » به صورت خطاي اندازهگیري

عوامل باقیمانده مشخصنشده مورد توجه قرار میگیرند. این نمرات باقیمانده هم

مولفههاي تصادفی و هم مولفههاي غیرتصادفی را در بر می گیرند. خطاهاي همبسته

بهصورت همپراکندگی تولید شده توسط مولفههاي غیرتصادفی یا عواملی هستند که

لزوماً بهصورت نااعتبار ملاحظه نمیشوند (گرین و هرشبرگر، 2000 )، در نتیجه می توان

بین خطاهاي اندازهگیري گویهها همبستگی درنظر گرفت. به عبارت دیگر، دو گویه

می توانند تأثیرات تصادفی مشترکی را دربرگیرند که در نمرات خطاي مرتبط با آنها

مشترك بوده و به همبستگی بین این خطاها منجر شوند (رایکوف، 2001 ؛ کوماروف،

1997 ). علاوه بر مزیت آزاد بودن از رعایت پیش فرض ها، در روش هاي برگرفته از

مدل معادلات ساختاري امکان محاسبه اعتبار با استفاده از عملکرد وزنبندي کردن

گویهها نیز وجود دارد. استفاده از بارهاي غیر مساوي گویه ها براي برآورد اعتبار در

زمانی که گویهها بهطور مساوي بر برآورد ساز هها تأثیر نمیگذارند، مفید است (بیکون،

1998 ). همچنین به علت انعطاف بالاي روش مدل a ، سائور و یونگ، 1995 ؛ رایکوف

معادلات ساختاري امکان بررسی تفاوتهاي گروهی در اعتبار مرکب، بررسی تفاوت

اعتبار در نسخههاي متفاوت ابزار اندازه گیري (مثلاً نسخه قلم و کاغذي در مقابل نسخه

1998 )، به دست a ، رایانهاي) (رایکوف، 2004 )، استفاده از دادههاي مقوله اي (رایکوف

آوردن خطاهاي معیار و فواصل اطمینان براي اعتبار مرکب در حالتی که به پیش فرض

،( 1998 ؛ رایکوف و شراوت، 2004 a ، نرمال بودن مولفهها وابسته نباشند (رایکوف

فراهم میگردد. امکان محاسبه میزان سوگیري و کمبرآوردي ضریب آلفا نیز از دیگر

2001 ). به تمامی ؛1998b ؛ قابلیتهاي روش مدل معادلات است (رایکوف، 1997

مزایاي اشاره شده میتوان امکان آزمون کردن پیشفرضها را اضافه نمود که با سایر

روشها قابل انجام نیست.

با وجود مزایاي مدل معادلات ساختاري در برآورد اعتبار، ملاحظاتی در مورد

استفاده از این روش باید انجام پذیرد که مهمترین آن نیاز به نمونههاي بزرگ

مشارکتکنندگان است. این امر بهویژه در مورد دادههاي طبقهاي که تعداد محدودي

گزینه براي پاسخ دارد، از اهمیت خاصی برخوردار است زیرا در اینگونه مواقع روش

48 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 48

١١ براي آزمون مدل مورد نیاز بوده که این « مجذورات وزنبندي شده » برآورد حداقل

روش حساسیت زیادي در مورد استفاده از نمونههایی دارد که به طو ر بهینه بزرگ

2004 ). لذا در این موقعیتها استفاده از ؛2001 ؛ شناخته میشوند (رایکوف، 1997

نمونههاي کوچک براي برآورد اعتبار مرکب گمراهکننده است. علاو ه بر ای ن، تعداد

گویهها ملاحظه قابل توجهی در آزمون مدل هاي اندازهگیري بهشمار میرود. در مواقعی

که تنها دو گویه وجود داشته باشد، روشهاي محاسبه اعتبار تنها براي مدل هاي موازي

یا معادل -تاو قابل کاربرد هستند زیرا براي حالت آزمون موازي، مدل دو پارامتر آزاد

١٢ است (درجه آزادي برابر با یک است). در این « بیششناساییشده » دارد و بنابراین

موقعیت با افزودن محدودیتهاي اضافی همچون برابري بارهاي شاخص(مدل معادل-

تاو) و یا برابري واریانس خطا (مدل موازي) مدل در حالت قابل برازشی قرار میگیرد

(رایکوف و هنکوك، 2005 ). براي مدل معادل -تاو، این مدل سه پارامتر آزاد دارد و

١٣ است (درجه آزادي برابر با صفر است). مدل متجانس در این « کاملاً شناساییشده »

وضعیت کم شناساییشده بوده (درجه آزادي آن منفی است) و بنابراین کاربرد عملی

ندارد (یورسکاگ و سوربوم، 1993 ). در زمانی که سه گوی ه وجود دارد، مدل متجانس

١٤« مدل اشبا عشد ه » کاملاً شناساییشده و قابل برآورد میشود ولی نمی توان آن را با

.( مقایسه کرد زیرا هر دوي این مدلها داراي درجه آزادي صفر هستند (رایکوف، 1997

با گویههاي بالاتر از چهار، تمامی مدلها کم شناسای ی شد ه بوده و در مقابل مدل

اشباعشده قابل دفاع خواهند بود.

در استفاده از مدل معادلات ساختاري براي برآورد اعتبار روشهاي مختلفی ¨

پیشنهاد شده است. بهطور کلی می توان این روشها را به دو دستهي روش ه اي مبتنی

بر تک تک گویهها یا متغیرهاي مشاهده شده و روشهاي مبتنی بر ترکیب متغیرهاي

مشاهده شده تقسیم نمود. گرایش بیشتر پژوهشگران و صاحبنظران بر استفاده از

روشهاي مبتنی بر ترکیب گویه هاست تا به این وسیله بتوانند جایگزینهاي مناسبی را

براي روشهاي مرسومی همچون آلفا پیشنهاد دهند. با این وجود در ابتدا روش ه اي

مبتنی بر تک تک گویهها معرفی میگردند.

مشخصشد که اعتبار قسمتی از اندازهگیري است که مشمول « اعتبار » در مفهوم ¨

اعتبار به عنوان ،« مدل معادلات ساختاري » خطاي تصادفی نمیشود. بنابه تعریف در

49 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 49

تعریف میشود (راین س- « واریانسی که به وسیله خطاي اندازهگیري تبیین نمیشود »

128 ). مشهورترین شاخصی که بر مبناي بررسی ت کتک گویه ها معرفی ، اودي، 2000

١٥ نام دارد که نشا ندهند ه مقدار « ضریب مجذور همبستگی چندگانه » ، شده است

توسط متغیر نهفته است (راینس- اودي، 2000 ؛ قاضی x واریانس تبیین شده در متغیر

طباطبایی، 1377 ؛ یورسکاگ و سوربوم، 1993 ). این شاخص به عنوان حد پائین اعتبار

مورد توجه قرار میگیرد، به این معنی که اعتبار هر گویه حداقل برابر x براي متغیرهاي

با مجذور همبستگیهاي چندگانه است (قاضی طباطبایی، 1377 ؛ یورسکاگ و سوربوم،

1993 ). مقادیر این شاخص از طریق خروجیهاي برنام ههاي رایانه اي مدل معادلات

بهدست میآیند و مقدار آن بین صفر و یک است. جهت LISREL ساختاري همچون

0 به عنوان ضرایب مناسب درنظر گرفته / تفسیر این شاخص ها، مقادیر بالاتر از 5

میشوند (راینس- اودي، 2000 ). همچنین جداي از این شاخص، همبستگی هر گویه

با متغیر نهفته در هر زیرمقیاس نیز به عنوان ضریبی براي ثبات درونی هر گویه معرفی

.( شده است (عابدي، 2002

راهبرد دوم ترکیب متغیرها که رواج زیادي پیدا کرده است، ترکیب همه گویه ها ي

١٦ یاد می شو د. این « اعتبار مرکب » یک عامل با همدیگر است که از آن روش به عنوان

روش بر اساس مفهوم اصلی اعتبار در نظریه کلاسیک آزمون بنا شده است که اعتبار را

به عنوان سهم واریانس نمره واقعی به واریانس نمره مشاهده شده درنظر میگیرد. بدین

منظور لازم است که برآوردهایی براي واریانس نمره واقعی و واریانس نمره مشاهده

شده داشته باشیم. واریانس نمره مشاهده شدهي یک اندازه میتواند توسط ایجاد یک

متغیر مشاهده شده ترکیبی در دسترس قرار گیرد که توسط جمع واریانسهاي تکتک

متغیرهاي مشاهده شده بهوجود میآید (گراهام ، 2006 ). در این روش یک شاخص

آماري براي برآورد اعتبار مجموعه اي از گویهها که در یک عامل قرار دارند ارائه

میشود. با توجه به نوع ترکیب گویهها و وضعیت خطاهاي آنها (با خطاي همبسته و

بدون خطاي همبسته) فرمولهاي چندگانهاي پیشنهاد شده است که قابل تبدیل به

یکدیگر میباشند. در حالت کلی و مدلهاي متجانس و ه مچنین گویه ها ي وزنبندي

، نشده، اعتبار مرکب بهوسیله این فرمول بهدست می آی د (آدامسو ن و همکارا ن، 2000

:(345 ، 973 ؛ رایکوف، 2004

50 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 50

å å

å

= =

=

+ k

i 1 ii

k

i 1

2

i

k

i 1

2

i

( )

( )

b

b θ ( = اعتبار مرکب ( 7

å= دراین عبارت

k

مجموع ضرایب بین متغیرهاي مشاهده شده و نهفته i 1bi

å= گویه و k ( (بارعاملی

k

i 1 ii گویه را نشان م یده د. در k مجموع واریانس هاي خطاي θ

صورتیکه بین خطاهاي اندازهگیري همبستگی وجود داشته باشد، از فرمول زیر استفاده

:(344 ، میشود (رایکوف، 2004

å å å

å

= = £ < £

=

+ +

1 i j k jj

k

i 1 ii

k

i 1

2

i

k

i 1

2

i

( ) θ 2 θ

( )

b

( اعتبار مرکب ( 8 = b

کوواریانس خطاي غیرصفر است. qjj(1£i< j£k) در این عبارت

این دو فرمول قابل تبدیل به وضعی ت گوی ه ها ي وزنبندي شده هستند. در

این حالت، گویهها با وزنهاي خاصی با همدیگر ترکیب شده و نمره مرکبی را بهوجود

میآورند. نمره مرکب از طریق عبارت زیر بهدست میآید:

(9)Y = w1y1 + w2y2 + ... + wkyk

از پیش مشخصهستند (چگونگی بهدست wk ،... ،w2 ،w دراین عبارت وزن هاي 1

آوردن وزنها در قسمت هاي بعدي توضیح داده خواهد شد). اعتبار مرکب یک آزمون

:(344 ، وزنبندي شده از طریق فرمول زیر محاسبه میگردد (رایکوف، 2004

å å

å

= =

=

+ k

i 1 ii

2i

k

i 1

2

i

k

i 1

2

i

( i ) θ

( i )

w b w

( اعتبار مرکب ( 10 = w b

:(345 ، در حالت خطاهاي همبسته (رایکوف، 2004

å å å

å

£ < £

= =

=

+ +

1 i j k

i j jj

k

i 1 ii

2i

k

i 1

2

i

k

i 1

2

i

( i ) θ 2 w w θ

( i )

w b w

( اعتبار مرکب ( 11 = w b

روش هایی که در بالا توضیح داده شد، برآورد نقطه اي اعتبار مرکب را نشان

میدهند. میتوان با استفاده از روشهایی برآورد فاصله اي اعتبار مرکب را نیز محاسبه

کرد. برآورد فاصلهاي در مطالعات اعتبار میتواند مفید باشد. بر پایه چنین روشهایی

نتایج حاصل از برآورد اعتبار به فواصل مشخصی تعریف میشود (رایکوف و شراوت،

.(2002

51 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 51

علاوه بر روش بالا م یتوان اعتبار مرکب را از طریق تعریف پارامترهاي جدید در

١٧ در مدلها محاسبه نمود. این کار از طریق تعریف « برازش شده » یک مدل از قبل

١٨ امکانپذیر است. در این روش با محدود کردن ضرایب در نمرات « متغیر خیالی »

مشاهده شده، نمرههاي مشاهده شده به مجموع نمرات خطا و نمره واقعی تجزیه

نامیده میشوند، با همدیگر ترکیب میگردند تا نمره Xi میشوند. سپس این نمرات که

به وجود آید. مجذور همبستگی متغیر خیالی با متغیر نهفته اعتبار مرکب (F) متغیر خیالی

آزمون را نشان خواهد داد (رایکوف ، 1997 ؛ گراهام ، 2006 ). شکل نمادین ساخت

متغیر خیالی در شکل 1 مشخصشده است.

.(176 ، شکل 1- چگونگی ساخت متغیر خیالی (منبع: رایکوف، 1997

می توان بهجاي محدود کردن پارامترها در عدد یک، از وزنهاي شناخته شدهاي

براي هریک از مسیرها استفاده کرد. در انتخاب این وزنها (wk ،... ،w2 ،w (همچون 1

میتوان یا از پژوه شهاي قبلی و یا از دانش نظري توسط صاحبنظران استفاده کرد.

T

X٢ X٣ … Xk

F

E٢ E٣

Ek

١

١ ١

٭ ٭ ٭

٭٭٭

١ ١

52 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 52

همچنین با توجه به قابلیت عدم الزام براي تشخیص دقیق ضرایب مسیر، میتوان از

به عنوان وزن استفاده نمود (رایکوف ، 1997 ). بنابراین با (λi) برآوردهاي بار عاملی

میتوان متغیر خیالی را بهوجود wi=λi محدود کردن ضرایب نمرات مشاهده شده در

آورده و از طریق آن برآوردي از اعتبار مرکب وزنبندي شده را بهدست آورد. به طور

کلی کاربرد این روش با استفاده از نرمافزارهاي آماري مدل معادلات ساختاري قابل

انجام است. دراستفاده از این روش باید بهخاطر داشت که از مدلهایی استفاده گردد که

قبلاً ساختار آنان برازش یافته باشد.

١٩« اعتبار بیشینهاي » در نهایت، روش آخري که مورد بحث قرار می گیرد، ضریب ¨

است که به عنوان شاخص اعتبار سازه تعریف میشود که میتوان سازه نهفته را

توسط شاخصهاي سازه درنظر « لحاظ شده » بهصورت مقداري تعریف شده و یا

گرفت (رایکوف و هنکوك، 2005 ). اعتبار بیشینهاي به عنوان آخرین شاخص براي

برآورد اعتبار در روش مدل معادلات ساختاري پیشنهاد شده است. این شاخص از

ترکیب مجموعهي از پیش تعریف شدهاي از مولفههاي متجانس با عبارتهاي خطاي

ناهمبسته تشکیل شده است. این روش میتواند در ساخت، توسعه و تجدید نظر مقیاس

بهینه به کار آید. قابلیت مهم آن در سنجش تغییرات اعتبار بیشینهاي در نتیجه حذف و یا

افزودن یک یا چند اندازه است. همچنین با استفاده از ترکیب خطی وزنبندي شده

می توان اعتبار مرکبی را بهوجود آورد که داراي بالاترین درجه تفکیکپذیري در جنبه

نهفته مورد نظر بوده و حداقل واریانس خطاي نسبی ممکن را داشته باشد. با این

ترکیب وزنبندي شده آماره رضایتبخشی از نمره توانایی نهفته بهدست م یآید .

بررسیهاي تجربی نشان میدهند هنگامیکه نمرات عامل با روش برآورد حداقل

٢٠ در یک مدل تکعاملی برآورد م یشود، اعتبار بیشین هاي با « مجذورات عمومی شده »

روش متغیر خیالی (مجذور همبستگی بین عامل و ترکیب برآورد کننده ه ا) مساوي

.( است (رایکوف و هنکوك، 2005

تعیین وزن ها از اهمیت خاصی برخوردار است. « اعتبار بیشینهاي » در روش ¨

روشهاي متفاوتی براي اینکار پیشنهاد شده که در قبل به چند مورد از آنها اشاره شد.

در تکمیل این بحث دو روش دیگر نیز معرفی میشود که اولی به صورت نسبت بار

53 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 53

عاملی به خطاي آن است که میتوان آنرا بهصورت زیر نوشت (کانجر، 1980 ، به نقل

:( از رایکوف و هنکوك، 2005

(i , ,...,m) θ

w β

i

* i

i (12) = =12

دومین روش که کاربرد زیادي در اعتبار بیشینهاي دارد به نسبت مجذور بارهاي

به خطاي مرتبط با آن تعریف میگردد که به این صورت (η اندازهها در جنبه مشترك ( 1

آنرا میتوان نشان داد:

( ,..., ) * i m

i

i

wi 1,2

2

= = q

(13) b

(ρi با ملاحظه چگونگی محاسبه وزن ها، ضریب اعتبار بیشینه اي جامعه

(* به این

:(68 ، صورت محاسبه میشوند (رایکوف و هنکوك، 2005

å

å

=

=

+

= m

i 1 i i

m

* i 1 i i

(m) ( )

( )

θˆ

βˆ

θˆ

βˆ

ρˆ 2

2

1

(14)

آزمون تغییرات در اعتبار بیشینهاي به عنوان نتیجهاي از حذف و افزودن متغیرها ¨

یکی ازجنبههاي مهم این روش است. بنابر این روش، اگر بخواهیم که ابزاري با

اندازه متجانس m بالاترین اعتبار بیشینه اي را از طریق مجموعه از پیشتعریف شده اي با

باید بالاترین نسبتهاي مجذور بار ،(m>k) ،( اندازه k در اندازه معینی بسازیم (مثلاً

شاخص در واریانس خطاي مرتبط ( )

θ

β

i

i

2 را انتخاب کنیم. در نمونههاي معین از جامعه

مورد علاقه، ترتیب رتبه و انتخاب باید بر حسب نسبتهاي

q

b

ˆ

ˆ

i

از (i = 1,2,...,m) ، i

مولفه انجام میشود. پس از انتخاب m پارامترهاي برآورد شده در هنگام برازش مدل با

مولفه، برآورد بیشینهاي مجموعه کوچکتر محاسبه میشود و سپس آزمون معنی داري k

تغییرات در اعتبار بیشینهاي انجام میشود. فرضصفر در این آزمون به این صورت

است:

r r*

( )

*

H0 (m) = k (15) =

c2 c2 c آماره آزمون بر اساس 2

m k m k

D = -

( , ) محاسبه شده که براي نمونههاي بزرگ

درجه آزادي پیروي میکند. اگر خیدو تفاوت معن یدار m-k از توزیع خیدو مرکزي با

بود، فرض صفر رد می شود و نتیجه گرفته می شود که اعتبار بیشینهاي به عنوان نتیجه اي

m-k اندازه، کاهش خواهد یافت و یا با افزودن m مولفه از مجموعه اولیه m-k از حذف

54 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 54

اندازه اعتبار افزایش خواهد یافت (رایکو ف و هنکوك، k اندازه در مجموعه اولیه

2005 ). ذکر این نکته لازم است چنان چه در اعتبار بیشین هاي فرضمیشود هنگام

حذف اندازهها از مجموعه اولیه اندازههاي متجانس، هیچ گاه اعتبار بیشین هاي بالاتري

بهدست نمیآید و تنها میتوان بررسی کرد که آیا کاهش چندین اندازه میتواند از نظر

آماري بر کاهش اعتبار بیشینهاي موثر باشد یا نه؟ برآورد نقطهاي میزان تغییرا ت اعتبار

بیشینهاي نیز میتواند با استفاده از فرمول مربوطه و همچنین متغیر خیالی بهدست آید.

توجه به ملاحظاتی لازم است؛ از جمله آنکه « اعتبار بیشینهاي » در استفاده از ¨

و همراه با رعای ت k= تعداد اندازهها در کوتاهترین ابزار مورد بررسی باید به میزا ن 2

باشد. همچنین براي کاربرد این روش با نرمافزارهاي موجود کنونی، باید m>k

مولفه هاي (تقریباً) پیوستهاي را مورد بررسی قرار داد، در غیر اینصورت میتوان از

٢١ استفاده نمود. علاو ه بر ای ن، این « ساخت بسته » ماتریس همبستگی پلیکوریک و یا

روش بر اساس مولفههاي متجانس و خطاي اندازهگیري ناهمبسته استوار شده است.

بنابراین، اگر حداقل یکی از این پیشفرضها رعایت نشود، مدل توصیف شده ممکن

٢٢ باش د « زیربهینهاي » است نتایج گمراه کنندهاي را بهبار آورده و مستلزم ترکیب ابزار

(رایکوف و هنکوك، 2005 ). بنابراین قبل از اینکه از این روش استفاده شود، باید مدل

تکعاملی در همه مولفهها برازش شده و برازش آن براي قابل دفاع بودن و مناسب

بودن شاخصهاي اصلاح در کوواریانس خطا مشخصشود.

مشكلات بررسي پايايي در آزمون هاي فرافكن  

مشكلات بررسي پايايي در آزمون هاي فرافكن

1.      عدم توانايي استفاده از روش هاي معمول كمي در تعيين شاخص پايايي به عنوان مثال استفاده از روش تنصيف به دليل اين كه قدرت معادل كردن محرك هاي فرافكن وجود ندارد امكان پذير نيست. به عنوان مثال در آزمون رورشاخ نمي توان دقيقا كارت ها را به دو قسمت تقسيم نمود. روش ديگر برآورد شاخص پايايي در معني ثبات زمان استفاده از روش هاي باز آزمايي است به دليل اين كه ماهيت آزمون هاي فرافكن ماهيت ديناميك دارد و تغييرات در نتايج آزمون نشان دهنده ي تغييرات واقعي است و به سازه ي اندازه گيري شده بر مي گردد و نه به خطا. وابسته به زمان است بنابراين مقدار اين پايايي نيز قابل استناد براي روش هاي فرافكن نيست

2.      در عمل نشان روش هاي مختلفي براي ارائه ي محرك ها در آزمون هاي فرافكن وجود دارد و بنابراين دستيابي به شاخص درستي از پايايي آزمون ممكن نيست.

3.      پاسخ به محرك ها دامنه ي بسيار وسيعي را در بر دارد و بنابراين استفاده از روش هاي مرسوم در تعيين مقدار براي پايايي امكان پذير نيست

4.      نمره گذاري آزمون هاي فرافكن چه بسا بعد از رشد يافتن خود آزمون گسترش يافته اند مانند آزمون فرافكن تي اي تي. نمره گذاري ها نسبي است و بنابراين نمره گذاري هاي نسبي موجب مقادير كم پايايي براي آزمون هاي فرافكن مي شود.

5.      دستورالعمل هاي مربوط به آزمون هاي فرافكن متنوع اند اين دستور العمل ها نتايج مختلف و اندازه هاي مختلفي را ارائه مي دهد كه قابل تامل است.

6.      نقش آزمونگر در جريان آزمون نتيجه اي غير قابل انكار در نتايج آزمون مي گذارد. اين موضوع به در بر گيرنده ي شيوه ي تعامل و نمره گذاري قضاوتي آزمونگر مي شود. بايد به خاطر داشت که ناپايايي نمره گذاري در ناپايايي آزمون تأثير مي گذارد.

7.       

بررسي پايايي آزمون هاي فرافكن

پايايي و فنون فرافکن

نمره هاي کمّي حاصل از آزمونهاي فرافکن چنانچه با روشهايي که توصيف شدند ارزيابي شوند، اغلب پايايي اندکي دارند. از آنجايي که پايايي يک اندازه يا شاخص، حد بالايي را بر سودمندي بالقوه يا اعتبار آن تحميل مي کند، پاياييهاي کم اغلب در بررسيهاي پژوهشي روي اين آزمونها مسئول اعتبارهاي پايين قلمداد مي شوند. از طرف ديگر، همچنين استدلال شده است که روشهاي معمول براي ارزيابي پايايي را نمي توان براي ابزارهاي فرافکن به کار برد. براي مثال، گفته مي شود که روش دونيمه سازي براي آزمون رورشاخ نامناسب است، زيرا غيرممکن است که بتوان اين ده کارت را به گونه اي تقسيم کرد که دو نيمه قابل مقايسه را به دست دهد. پايايي بازآزمايي را نيز نمي توان به کار برد، زيرا آزمون مجدد، در واقع، يک تجربه روان شناختي متفاوت از آزمون اوليه است و چون گفته مي شود که فنون فرافکن نسبت به تغييرات جزيي در آزمودني حساس هستند، در واقع، به نظر مي رسد که در برخي از آزمونهاي فرافکن فرض مي شود که اين ابزارها کاملاً پايا هستند و اينکه تغييرات مشاهده شده در پاسخهاي آزمون با گذشت زمان مؤيد تغييرات واقعي در فرد هستند. بسياري از ويژگيهايي که اين آزمونها با آنها سرو کار دارند، مانند خُلق يا سطح انرژي با گذشت زمان تغيير مي کنند و بدين وسيله استدلال محکمي را دال بر اين مفروضه به دست مي دهند. با وجود اين، هر گونه شناخت واقعي از مشکلات پايايي اندازه گيري بايد به اين نتيجه منجر شود که بسياري از اين تغييرات، اگرچه نه همه آنها، تابعي از پايايي فرعي اين ابزارهاست. 

مشکلات اندازه گيري در ناپايايي هر آزمون تأثير دارد، ولي بعضي از مشکلات به ويژه در خصوص ابزارهاي فرافکن ايجاد مي شود. به طور کلي، مواد محرک مورد استفاده در آزمونهاي فرافکن با توجه به اينکه طبقه هاي نمره گذاري مختلف به طور مناسبي بر اساس محرکها تنظيم شوند، انتخاب نمي شوند. براي مثال، متوسط تعداد پاسخهاي حرکت (M) براي افرا غيربيمار در آزمون رورشاخ با توجه به انحراف معيارحدود 2، برابر 4 و متوسط جزئيات نادر (Dd) تنها برابر يک است (اکسنر، 1990). در عمل حداکثر پايايي اين اندازه گيريها همان طوري که نشان دادن اعتبارهاي معنادار امري تقريباً غيرممکن است، پايين است.

غالباً همان طور که در مورد آزمون TAT صادق است، نظامهاي نمره گذاري تا چند سال بعد از اينکه مواد محرک انتخاب شده باشند، تنظيم نخواهند شد. در آزمون TAT، آزمايندگان حتي در اين مورد اختيار دارند که کدام محرک را سرانجام به کار ببرند. اين رشد اتفاقي طبقه هاي نمره گذاري در ميزان پاياييهاي کم، تأثير دارد. نمره هاي نسبي (و تفاوت آنها) همان گونه که در آزمون رورشاخ به کار مي روند، به ويژه نسبت به پاياييهاي کم، حساس هستند. هولتزمن(818) در تهيه HIT، به انتخاب کارتهايي توجه کرد که در کميتهاي نمره گذاري تأثير خاصي داشتند؛ در نتيجه، پاياييهاي اکثر طبقه هاي HIT مناسبتر هستند. 

مشکل ديگر شامل استاندارد بودن دستورالعملهاست. راهنماييهاي مربوط به اجراي اکثر زبانهاي فرافکن استاندارد نشده اند، به طوري که به آزماينده امکان دهند تا به طور معناداري بر پاسخهاي آزمودني اثر گذارند. حتي اگرچه در نظام کنوني اکسنر(1986)، آزمون رورشاخ بر کاربرد ابزارهاي استاندارد شده تأکيد مي کند، آزماينده مي تواند هنوز تفاوت قايل شود. براي مثال، گراس(819) (1959) آزمون رورشاخ را روي 30 بيمار اجرا کرد، و در خصوص 20 نفر از آنها با گفتن "بسيارخوب" يا تکان دادن سر پس از هر پاسخ محتواي انسان تقويت اجتماعي را براي آنها فراهم کرد. بيماراني که بدين ترتيب تقويت شدند، در مقايسه با 10 نفر ديگر به طور معناداري پاسخهاي محتواي انسان بيشتري را ارايه دادند. اهميت اين تفاوتهاي ظريف آزماينده که ممکن است او به آنها واقف نباشد، بايد براي خواننده روشن باشد.

حتي مشکل غامضتر اين است که به آزمودنيها اغلب اجازه داده مي شود که پاسخهاي مختلف چندي بدهند که طولهاي نابرابري دارند. احتمالاً اثر محتواي روان شناختي يک پاسخ يا مجموعه پاسخهاي طولاني در مقايسه با يک پاسخ کوتاه متفاوت است. پاسخهاي کوتاه در آزمون رورشاخ يا TAT، عمدتاً مواد رايج يا پيش پا افتاده را شامل مي شوند. پراکندگي در طول پاسخ همچنين انجام مقايسه هاي آماري را بي اندازه مشکل مي کند.

مشکل ديگر در نمره گذاري تجلي مي کند. در بعضي آزمونها مانند MMPI، نمره گذاري جنبه مکانيکي دارد؛ يعني، هيچ گونه قضاوت ذهني در خصوص طبقه يک پاسخ صورت نمي گيرد يا قضاوت ذهني اندکي مورد استفاده قرار مي گيرد. همين موضوع در مورد بعضي از طبقه هاي نمره گذاري آزمونهايي مانند رورشاخ صادق است. براي مثال، هنگامي که داده ها جمع آوري مي شوند، تعيين تعداد کل پاسخهاي ارايه شده شامل هيچ قضاوتي نيست و يا قضاوت ناچيزي را در بر مي گيرد. به همين ترتيب، اندازه گيري بلندي يک شکل نقاشي يا مساحت کل آن، يک روش نسبتاً مکانيکي است. ولي با اين حال، تعيين اکثر نمره هاي حاصل از آزمونهاي فرافکن شامل چندين قضاوت ذهني است، براي مثال، آيا اين پاسخ رورشاخ شامل رنگ يا حرکت انسان است؟ آيا اين داستان TAT نياز به پيشرفت يا مهرورزي را نشان داده و يا اينکه هر دو را نشان مي دهد؟ در خصوص آن دسته از آزمونهاي فرافکن که چند روش نمره گذاري مختلف ولي مشابه را در بر مي گيرند، مشکل حتي شديدتر است.

اگرچه سؤال مربوط به پايايي نمره گذار به طور ساده يک توافق بين داوران و درون داوران است، ولي بايد به خاطر داشت که ناپايايي نمره گذاري در ناپايايي آزمون تأثير مي گذارد. مورستاين(820) (1963، ص 146-144) جدول خلاصه اي از پاياييهاي نمره گذاران را در خصوص ويژگيهاي نمره گذاري شده از آزمون TAT ارايه کرده است. از 45 مطالعه اي که پايايي تحت لواي همبستگي در آنها گزارش شده بود، ميانه پايايي نمره گذاران 0/74 به دست آمد. با پاياييهايي از اين دست، مشکلات دستيابي به سطوح قابل قبول پايايي آزمون در واقع زياد هستند. با وجود اين، مي توان در اين زمينه به پاياييهاي بالاتري نيز دست يافت. در اين خصوص، هولت(821) (1978) داده هاي TAT حاصل از چند منبع را گزارش کرد که حاکي از پايايي بالاي نمره گذاران تا سقف 0/90 بودند. دستيابي به ضرايب پايايي بالا معمولاً شامل راهنماهاي مبسوطي است که طبقه ها را با دقت تعريف کند و مثالهاي نمره گذاري را ارايه دهد. از آنجايي که کاربرد چنين راهنماهايي نيازمند توجه زياد و تلاش وافر در تعميم دادن يک نمره واحد است، آنها بيشتر به جاي قاعده يا حکم، موارد استثنايي را نشان مي دهند.


پايايي يا همان reliability

پايايي مفهومي است كه به خطاي اندازه گيري بسيار نزديك است و در واقع اين دو مفهوم با يكديگر معادل اند. دقت اندازه گيري نيز كه با خطاي اندازه گيري رابطه ي عكس دارد نيز همان مفهوم پايايي را دارد. بنابراين بررسي ها و بحث هايي كه پيرامون خطاي اندازه گيري – خطاي منظم و خطاي تصادفي- مي شود مي تواند به حوزه ي پايايي آزمون نيز كشيده شود. لين در مقدمه فصلي كه در باره ي پايايي نوشته است براي بررسي مفهوم پايايي از خطاي اندازه گيري شروع كرده است. شاخص هاي متفاوتي از پايايي آزمون يا ابزار اندازه گيري در ادبيات روانسنجي موجود است براي بررسي اين شاخص ها مي توان به گفتاري از ريموند كتل اشاره كرد. كتل سه روش عمده را مطرح کرد که بر اساس آنها پايايي را مي توان اندازه گيري کرد (البته وي اين اصطلاح کلي را بيشتر از اصطلاحهاي ديگر ترجيح مي داد). اولين روش، ثبات و توافق نمره ها در دفعات متوالي اجراست؛ يعني، تغييراتي که در يک آزمون و روي يک گروه از افراد در زمانهاي مختلف صورت مي گيرد. کتل اين نوع پايايي را "ثبات" ناميد. روش هايي مانند بازآزمايي و استفاده از تحليل هاي همبستگي به منظور كمي سازي اين ارتباط و بيان درجه اي از ثبات استفاده مي شوند.  دومين نوع پايايي به آزمونهاي مختلف ( يا بخشهاي يک آزمون که معمولاً ماده هاي انفرادي هستند) بر مي گردد و شامل توافق مربوط به يک بار اجراست که با استفاده از چند آزمون (يا بخشهاي آزمون) روي يک گروه از افراد صورت مي گيرد. اين ثبات "همگني" ناميده مي شود. در كلي ترين حالت آلفاي كرونباخ كه "متوسط ضريب بين تمام آزمون هايي است كه از تنصيف آزمون قابل دست يابي است" مي تواند به عنوان ضريبي از همگني سوالات آزمون در نظر گرفته شود. البته همانطور كه مشخص است آلفاي كرونباخ فرم كامل مربوط به فرمول هاي كودر ريچاردسون 20 و 21 نيز مي باشد.  نوع سوم ثبات به افراد مختلف بر مي گردد و شامل توافقي است که در مورد معناي نمره هاي يک آزمون که در يک زمان معين روي مجموعه هاي مختلفي از افراد اجرا شده است. اين نوع ثبات "انتقال پذيري" ( يا سرسختي) ناميده مي شود.

انتقال پذيري و يا سرسختي كه به مسئله تعميم معني نمرات آزمون به موقعيت هاي مشابه در يك زمان خاص اشاره دارد توسط كرونباخ گليسر و ساير روانسنجان مشهور دنيا به طور گسترده تري بررسي شده است. بر اساس نظر آنها پايايي بايد به بررسي ميزاني از ثبات نتايج در گروه مرجع و يا در موقعيت هاي مختلف اتلاق شود.  اين موضوع تا حدي مي تواند جدايي مفهومي كه در ادبيات روانسنجي بين روايي و پايايي وجود دارد را تا حدي تعديل نمايد. بر اساس اين مطالعات نظريه ي تعميم پذيري به منظور بررسي ثبات نتايج آزمون بوجود آمد. 

نكته اي كه اخيرا به شدت مورد حمايت روانسنجان قرار گرفته است اين است كه بررسي پايايي آزمون و يا ابزار اندازه گيري يك بحث و گفتگو است كه در آن سعي مي شود پايايي آزمون به هر روش و طريقه ي ممكن اثبات شود. جي پاركس استاد دانشگاه مكزيكو سيتي در مجله ي اندازه گيري رواني مقاله اي با عنوان 

Reliability as an argument

دارد كه در آن بيان مي كند پايايي شامل روش ها و ارزش هاي علمي و اجتماعي مهمي براي اثبات آن ارزش ها مي باشد كه بسيار به ديدگاه مسيك در مورد اعتبار است. 



نظريه تعميم پذيري  

نظريه تعميم پذيري

در سال 1964، ريموند بي.کتل(812) سه روش عمده را مطرح کرد که بر اساس آنها "اثبات آزمون" را مي توان اندازه گيري کرد (البته وي اين اصطلاح کلي را بيشتر از اصطلاحهاي ديگر ترجيح مي داد). اولين روش، ثبات و توافق نمره ها در دفعات متوالي اجراست؛ يعني، تغييراتي که در يک آزمون و روي يک گروه از افراد در زمانهاي مختلف صورت مي گيرد. کتل اين ثبات را "پايايي" ناميد. دومين نوع ثبات به آزمونهاي مختلف ( يا بخشهاي يک آزمون که معمولاً ماده هاي انفرادي هستند) بر مي گردد و شامل توافق مربوط به يک بار اجراست که با استفاده از چند آزمون (يا بخشهاي آزمون) روي يک گروه از افراد صورت مي گيرد. اين ثبات "همگني" ناميده مي شود. نوع سوم ثبات به افراد مختلف بر مي گردد و شامل توافقي است که در مورد معناي نمره هاي يک آزمون که در يک زمان معين روي مجموعه هاي مختلفي از افراد اجرا شده است. اين نوع ثبات "انتقال پذيري" ( يا سرسختي) ناميده مي شود.

در يک رويکرد مشابه، کرونباخ، گليزر(813)، ناندا(814) و راجارتنام(815) (1972) فرض کردند که اساسي ترين موضوع در پايايي، سؤال مربوط به تعميم دادن مشاهده ها يا اندازه گيريها به طبقه ديگري از مشاهده هاست. بنابراين، به نظر آنها پايايي بايد به بررسي ميزاني مربوط شود که بر اساس آن، نمره هاي حاصل، معرف نمره هاي به دست آمده از شرايط ديگر يا "مجموعه هاي مرجع" مختلف است. مثالها مطالعه نمره هاي حاصل از نمره گذاران مختلف، ماده هاي آزمون، روشها، مشاهده کننده ها يا دفعات مختلف را در بر مي گيرند. همان طوري که در يک بحث دقيق درباره اين روش توسط ويگينز(1973) مورد تأکيد قرار گرفت، يکي از مزيتهاي اصلي اين روش در آن است که پژوهشگران را وا مي دارد که در خصوص مجموعه مرجع خاصي که مايل اند مشاهده هاي خودشان را بدان تعميم دهند، صريح و روشن باشند. اين امر تا اندازه اي از تمايز سنتي بين پايايي و اعتبار مي کاهد. جونز(816)، ريد(817) و پترسون(1975) در نظام کدگذاري رفتاري خودشان، مثال خوبي را در زمينه مطالعه کمّي تعميم پذيري گزارش کردند. در اين مطالعه، آزمودنيها، مشاهده کنندگان و دفعات مختلف، مجموعه هاي مرجع تعميم بودند.


روايي محتوي

روایی محتوا مبتنی بر قضاوت¬های حرفه¬ای در مورد مرتبط بودن محتوای آزمون به محتوای یک حیطه رفتاری خاص مورد نظر و در مورد معرف بودن است که در آن محتوای سوال یا تکلیف، آن حیطه را پوشش می¬دهد، می¬باشد. بدین ترتیب روایی محتوا به فرایندهای پاسخ، ساختارهای درونی و بیرونی آزمون، تفاوت¬های عملکرد و پاسخدهی به کاربندی  یا با پیامدهای اجتماعی توجهی ندارد. بنابراین روایی محتوا، به جای شواهدی در حمایت از تفسیرهای نمرات آزمون، شواهد قضاوتی در حمایت از مرتبط و معرف بودن محتوای ابزار آزمون تهیه می¬کند. پاسخ¬های آزمون و نمرات آزمون حتی در تبیین¬های معمول روایی محتوا مورد توجه قرار نگرفته است. از این رو اگر چه ملاحظات مرتبط و معرف بودن محتوا به طور واضح بر ماهیت تفسیرهای نمره که به وسیله¬ی شواهد دیگر حمایت می¬شود تاثیر می-گذارد و باید تاثیر بگذارد اما به طور اساسی اصطلاحاً روایی محتوا اصلاً واجد شرایط روایی نیست (مسیک، 1975). قطعاً بعضی از متخصصان آزمون می¬پذیرند که آن چه یک آزمون اندازه می¬گیرد عملاً با تعیین کردن جامعه محتوای سوال و فرایند انتخاب سوال  تعریف می¬شود.  اما همان¬طور که ما خواهیم دید، تعیین آن¬چه یک آزمون اندازه می-گیرد همیشه به منبعی برای شکل¬های دیگر شواهد نیاز دارد. 

اعتبار و پايايي

در اين مقاله با تفصيل به مفاهيم پايايي و اعتبار پرداخته ایم . اين بررسي براي دستيابي به يک درک مناسب از چشم انداز و محدوديتهاي روشهاي ارزيابي مختلف ضروري است. در عين حال، عوامل نامربوط نظامدار يا تحريفهاي پاسخ نيز مورد بحث قرار گرفته اند. اين تحريفها که بر کاربرد شيوه هاي ارزيابي شخصيت اثر مي گذارند، مشکل کوششهاي عمدي و حتي ناهشيار را براي ايجاد يک تأثير مطلوب (يا نامطلوب) در ديگران در بر مي گيرند.

پايايي، همان طوري که از نام آن بر مي آيد، به قابليت تکرار يا اعتماد يک اندازه يا شاخص مربوط مي شود. به عنوان يک مثال بسيار ساده، مي توان گفت که ديروز ما قد يک کودک را اندازه گرفته و مقدار 122/68 سانتي متر را به دست آورده ايم. ولي امروز فرد ديگري قد همان کودک را اندازه گرفته و مقدار 122/93 سانتي متر را گزارش کرده است. اين دو مقدار تا اندازه زيادي با يکديگر هماهنگ هستند؛ يعني، ما نوعي اندازهگيري اوليه از قد کودک را در نظر گرفته ايم که در بررسي مجدد تأکيد يا تکرار شده است. اين 0/25 سانتي متر اختلاف، اين واقعيت را نشان مي دهد که تکرار اندازه گيريها تقريباً همواره تا اندازه اي ثبات يا پايايي دارد و پذيرش اين نتيجه از جانب ما نشان مي دهد که اين بي ثباتي به اندازه اي نيست که سودمندي آن را انکار کنيم. بدين ترتيب، اختلاف 0/25 سانتي متر تحت اين شرايط به اندازه اي ناچيز است که مي توان آن را بي اهميت تلقي کرد. با وجود اين، در ساير اندازه گيريهاي فيزيکي اين سطوح تحمل بسيار کم هستند، مانند سيلندر موتور که اين تفاوت، اهميت بسياري دارد و سطح بالاتري از پايايي اندازه گيري مورد نياز است.

پايايي همان دقت نيست. دقت به ميزان صحتي اشاره مي کند که اندازه گيري را بر اساس آن مي توان مشخص کرد؛ بدين ترتيب، يک شيوه اندازه گيري که به ما امکان مي دهد تا نتايج را بر اساس يک هزارم سانتي متر گزارش کنيم، دقيقتر از آن اندازه گيري است که نتايج را بر اساس يک دهم سانتي متر به دست مي دهد. درجه دقت يک ابزار مکانيکي که امکان اندازه گيري 2/432 را فراهم مي سازد، يک هزارم سانتي متر است، ولي اگر تحت شرايط يکسان اين وسيله، مقدار 2/381 سانتي متر را به دست دهد، پايايي اين اندازه گيري به هيچ وجه منطبق با دقتي نخواهد بود که اين ابزار از آن برخوردار است.

اين ويژگي که اندازه گيريها را بايد "به اندازه کافي دقيق" انجام داد، در ارزيابي شخصيت نيز کاربرد دارد. اندازه گيري شخصيت در مقايسه با اندازه گيري خصوصيات فيزيکي مانند قد، هميشه نسبتاً فاقد دقت است؛ و بنابراين، تا اندازه اي ناپاياست. بدين ترتيب، ميزان دقت يک ابزار ارزيابي شخصيت بايد با پايايي آن همخواني داشته باشد. براي کساني که از چنين ابزارهايي استفاده مي کنند معمولاً ميزان شاخص پايايي مشخص شده است. ما مجدداً در يک فرصت مناسب به موضوع پايايي باز خواهيم گشت.

اندازه گيري شخصيت داراي شکل ديگري نيز هست که در اندازه گيريهاي فيزيکي به چشم نمي خورد و آن به استانداردهاي مورد قبولي مربوط مي شود که بر اساس آنها اندازه گيريها صورت مي گيرند. هيچ ترديدي وجود ندارد که يک ياردسنج (يا يک مترسنج) براي اندازه گيري فواصل خطي مانند قد مناسب است. با وجود اين، در ارزيابي شخصيت، غالباً سؤالهايي درباره صحت و دقت ابزارهاي اندازه گيري به منظور ارزيابي بُعد يا ويژگي مورد بررسي مطرح مي شوند. براي مثال، آيا واقعاً مي توان افسردگي را با شمارش پاسخهاي رنگي به موارد بي رنگ در آزمون رورشاخ اندازه گرفت؟ در اين مورد، نه تنها سؤال مربوط به شمارش پاياي اين پاسخها مطرح است، بلکه شکل ديگر و جدي تر اين است که آيا شمارش پاسخهاي رنگ به اندازه گيري درستي از افسردگي مي انجامد، درست به همان شيوه اي که علايم مندرج ياردسنج به شاخص معتبري از قد منجر مي شود (صحت يا اعتبار ابزارهاي اندازه گيري مورد استفاده در اندازه گيريهاي فيزيکي که درجات بسيار بالايي از دقت لازم را دارد، مشکلات چندي ايجاد کرده است.)

چون پيش از آنکه بتوانيم تعيين کنيم که آيا اندازه گيري در واقع به مفهوم مورد نظر مربوط مي شود يا خير، بايد از پايايي مناسب برخوردار باشد، ابتدا به بحث درباره پايايي مي پردازيم. معيارهاي آزمون تربيتي و روان شناختي که يک راهنماي عملي براي پايايي و اعتبار است، براي چندين سال توسط انجمن روان شناسي آمريکا انتشار يافته است (براي مثال، انجمن پژوهش تربيتي آمريکا- انجمن روان شناسي آمريکا- شوراي ملي اندازه گيري در تربيت، 1985) و تمام افرادي که فعالانه در ساختن ابزارهاي اندازه گري شخصيت و کاربرد آنها شرکت دارند، بايد اين راهنما را به دقت مطالعه کنند. کتاب راهنمايي که به منظور استفاده ويژه در زمينه انتخاب استخدامي به کار مي رود و با اين کتاب راهنما قابل مقايسه است، توسط شاخه روان شناسي صنعتي- سازماني انجمن روان شناسي آمريکا (1980) منتشر شده است. در اين کتاب راهنما توجه خاصي به موارد اعتبار و پايايي و تهيه ملاکها مبذول شده است و منبع مرجع سودمندي در اين زمينه ها محسوب مي شود.

پايايي


پايايي به قابليت تکرار يا قابليت اعتماد اندازه گيري اشاره دارد. در يک موقعيت فرضي که روش اندازه گيري کاملاً پاياست، فرض مي شود که هر گونه تغييري در اندازه گيري حاصل نشان دهنده يک تغيير واقعي در صفت مورد مطالعه است. بدين ترتيب، در چنين نظامي، افزايش يک کيلوگرم در مقياس نشان خواهد داد که وزن شيء مورد نظر دقيقاً يک کيلوگرم زياد شده است؛ به همين ترتيب، افزايش نمره حاصل از يک مقياس افسردگي نشان خواهد داد که پاسخ دهنده در حال حاضر افسردگي بيشتري دارد. پايايي يک اصطلاح کلي است؛ اصطلاحهاي همساني و ثبات به ترتيب براي توصيف پايايي وابسته به ابزار و پايايي مربوط به زمان به کار مي روند.

همساني به ميزان توافقي اشاره مي کند که از به کارگيري دو يا چند ابزار اندازه گيري (يعني، مقياسها، خط کشها يا آزمونها) حاصل مي شود. هر گونه ابزار اندازه گيري يا مجموعه ابزارها را مي توان برگرفته از جامعه گسترده اي از اين ابزارها (چه واقعي يا چه فرضي) در نظر گرفت که مي توان از آنها براي اندازه گيري اين صفت خاص استفاده کرد. همساني معمولاً با به کارگيري يک آزمون يا آزمونهاي همزمان ديگر مورد ارزشيابي قرار مي گيرد که ترجيحاً به طور تصادفي از جامعه در دسترس اندازه گيريها انتخاب مي شوند. اگرچه اين موضوع در اندازه گيري ابعاد فيزيکي مانند قد يا وزن به مشکلات اندکي مي انجامد، ولي با اين حال، مشکلات چندي را در ارزيابي شخصيت ايجاد مي کند. ما به زودي اين مشکلات را مورد بررسي قرار خواهيم داد.

ثبات به دقت اندازه گيري حاصل با گذشت زمان اشاره دارد. چنانچه از ابزار ديگري براي اندازه گيري مجدد استفاده شود، بازآزمايي با گذشت زمان علاوه بر ثبات، همساني را نيز شامل مي شود. هرگاه در دو بار اندازه گيري از يک ابزار استفاده شود، ارزيابي مستقيم ثبات اندازه گيري را مي توان انجام داد. بدين ترتيب، ناتواني در رسيدن به پايايي کامل به واسطه ناهمسانيها يا خطاهايي است که تابع تغييرات حاصل در نظام مورد نظر با گذشت زمان يا تابع تغييرات مربوط به ابزار مورد نظر و يا هر دو هستند.

به طور کلي، پايايي به شواهد مختلفي اشاره مي کند که در صدد توصيف يک توافق کلي ميان عمليات اندازه گيري هستند. هر کدام از اين شواهد بر منبع معيني از عدم توافق يا خطا تأکيد مي کند و بقيه منابع را ناديده مي گيرد. اندازه گيري شخصيت شامل گرفتن نمونه اي از رفتار در يک زمان و روز معين در قبال مجموعه معيني از محرکهاست. البته اين پاسخها بايد بر طبق يک شيوه معين توسط يک آزماينده خاص ثبت شوند. بعضي از خطاهاي نمونه گيري با هر کدام از اين "موارد خاص" رابطه دارند. اين زمان خاص نمونه اي از يک دوره زماني است و اين مجموعه خاص از محرکها يا سؤالها نمونه اي از يک دسته واقعي يا فرضي از محرکها در دسترس است. بسيار اهميت دارد که بتوانيم مشخص کنيم که يک پاسخ يا نمره خاص، احتمالاً تا چه اندازه به عنوان تابعي از تغييرات در هر کدام از اين خصوصيات اندازه گيري تغيير مي کند. متأسفانه، اين نوع اطلاعات به ندرت در ارزيابي شخصيت به چشم مي خورد. 

بررسي کتاب هاي درسي در زمينه نظريه روان سنجي (براي مثال گيزلي(807)، 1964؛ نانالي(808)و برنشتاين(809)، 1994) نشان مي دهد که فرضهاي فلسفي متخصصان در زمينه مبناي اندازه گيري روان شناختي با يکديگر متفاوت است. اين تفاوتها در فلسفه به تفاوتهاي چندي در توصيف دقيق مفهوم و معناي پايايي و تفاوتهايي در شيوه هاي پيشنهادي براي اندازه گيري پايايي يک شاخص انجاميده است. در اين فصل، ما مي کوشيم تا مسير ميانه اي را از ميان رويکردهاي مختلف برگزينيم و در عين حال، علاوه بر موضوعهايي که فراتر از طيف اين کتاب قرار مي گيرند، از ناهمسانيها نيز اجتناب کنيم.

ما با اين نکته شروع مي کنيم که پايايي به طور تنگاتنگي با مفهوم خطاي اندازه گيري رابطه دارد. خطاهاي اندازه گيري را مي توان به صورت منظم يا تصادفي در نظر گرفت. هرگاه ما زمان را از روي ساعتي مشاهده کنيم که همواره پنج دقيقه جلوست، مرتکب يک خطاي منظم شده ايم. از طرف ديگر، هرگاه اين ساعت درست ولي به اندازه اي دور از ما قرار گرفته باشد که ما نتوانيم عقربه دقيقه شمار را بخوانيم، مرتکب يک خطاي تصادفي شده ايم. خطاهاي منظم را مي توان به صورت خطاهايي در نظر گرفت که با اشتباههاي معلوم رابطه دارند؛ و خطاهاي تصادفي را که به متوسط نمره درست يا مطلق گرايش دارند، مي توان زماني به صورت "موارد نامعلوم" در مشاهده در نظر گرفت که تمام خطاهاي منظم شناسايي يا حذف شده باشند.

به عبارت ديگر، خطاهاي اندازه گيري تصادفي با روش اندازه گيري "شکل مي گيرند"، درست مانند زماني که مي کوشيم با يک خط کش که تنها با اينچ مدرج شده است با تقريب يک دهم اينچ اندازه گيري کنيم يا هنگامي که سعي مي کنيم "افسردگي" را با يک پرسشنامه مداد و کاغذي کلي که فاقد ويژگيهاي باليني ضروري افسردگي است، ارزيابي کنيم. برخلاف اين خطاهاي تصادفي که اجتناب از آنها مشکل است، خطاهاي منظم مشخص تر و صحيح تر هستند. به يک معنا، خطاهاي منظم ناشي از سازنده يا استفاده کننده آزمون هستند تا اينکه به خود ابزار اندازه گيري برگردند. هرگاه ما يک مقياس افسردگي را روي آزمودنيهايي اجرا کنيم که در يک فرهنگ (يا خرده فرهنگ) متفاوت زندگي مي کنند در مقايسه با آزمودنيهايي که از هنجارهاي مناسبي برخوردارند، يا هرگاه دستورالعملهاي فشارزايي را به کار ببريم که آشکارا از دستورالعملهاي مربوط به جامعه هنجاري متفاوت باشند، در معرض خطاي منظم قرار خواهيم داشت. اين خطاهاي منظم بالقوه را مي توان و البته بايد با تنظيم هنجارهاي جديد مبتني بر گروه فرهنگي مناسب يا شرايط ديگر سنجش تصحيح کرد.

نظريه پردازان روان سنجي در کوششهاي خود براي به کميت درآوردن پايايي، به طور سنتي به مشخص کردن سهم خطاهاي تصادفي در پايايي کم پرداخته اند. عقايد آنها درباره اينکه آيا بايد خطاهاي منظم را نيز به عنوان منبع ناپايايي اندازه گيري در نظر گرفت با يکديگر اختلاف دارد، و از اين رو، ماحصل اين اختلاف عقيده در شاخص عددي پايايي انعکاس يافته است. تعدادي از شاخصهاي متداول پايايي نشان دهنده خطاي تصادفي هستند؛ و تعدادي نيز بعضي از منابع خطاي منظم و نه تمام آنها را نشان مي دهند. در نسخه تجديدنظرشده جديدتر معيارهاي سنجش تربيتي و روان شناختي (1985) با تصديق اين موضوع که روشهاي مختلف محاسبه پايايي، شامل منابع مختلف خطا هستند، توصيه شده است که پژوهشگران بايد دقيقاً روشن کنند، چه روشهايي را در به دست آوردن شاخص پايايي خاص مورد نظر به کار برده اند.

اکنون به روشهاي متداول محاسبه پايايي توجه کنيد. شاخص سنتي پايايي، ضريب پايايي است که مي توان آن را هم به عنوان همبستگي بين نمره هاي واقعي آزمون و نمره هاي "واقعي" فرضي و هم به عنوان متوسط همبستگي بين نمره هاي واقعي آزمون و ساير آزمونهاي احتمالي که همان خصوصيت را اندازه مي گيرند، در نظر گرفت. رويکردهاي عملي زير که براي محاسبه پايايي به کار مي روند، با اين تعريف شباهت دارند.

همان طوري که قبلاً اشاره کرديم، آن نوع پايايي که صرفاً با خطاي تصادفي رابطه دارد (خطاهاي ناشي از اين واقعيت که محتواي آزمون صرفاً نمونه اي از کل محتواست که ويژگي مورد نظر را در بر مي گيرد)، ثبات يا ثبات دروني آزمون ناديده مي شود. ثبات را مي توان به شيوه هاي مختلف ارزيابي کرد. يک روش، تقسيم آزمون به دو نيمه قابل مقايسه است که با يکديگر همبسته هستند. بدين ترتيب، همبستگي حاصل با استفاده از فرمولي که فرمول پيشگويي اسپيرمن - براون ناميده مي شود، با توجه به ارزش مورد انتظار براي کل آزمون "تصحيح" مي شود. چنين برآوردي از ثبات که با مقايسه ماده هاي زوج و فرد آزمون به دست مي آيد، ثبات پايايي از طريق دو نيمه کردن ناميده مي شود. روش ديگر، تعيين ثبات از طريق کاربرد نسخه هاي مشابه يا جانشين (يا موازي) آزمون است. همبستگي بين اين نسخه ها اساساً با همبستگي تصحيح شده بين دو نيمه آزمون مطابقت مي کند. هنگامي که نسخه هاي جانشين در دسترس نباشند، راه حل رايج، استفاده از روش بازآزمايي است. همبستگي بين اين دو مجموعه از نمره ها ضريب پايايي بازآزمايي ناميده مي شود.

يکي ديگر از روشهاي محاسبه پايايي که از لحاظ آماري تا اندازه اي پيچيده تر است، با استفاده از فرمول پايايي کودر- ريچاردسون صورت مي گيرد (کودر و ريچاردسون، 1937). مهمترين اجزاي اين فرمول شامل درصد ماده هاي نمره گذاري شده به شيوه اي خاص، همبستگيهاي بين ماده ها و نمره کل و انحراف معيار آزمون است. اين داده ها در فرمولي قرار مي گيرند که برآورد خوبي از ثبات را به دست مي دهد، به شرطي که آزمون مورد نظر تنها يک عامل آماري را اندازه گيري کند. متداولترين ضريب پايايي از اين دست که ضريب آلفا (کرونباخ، 1951) ناميده مي شود، "ميانگين تمام ضرايب دو نيمه سازي حاصل از نيمه هاي مختلف آزمون است (آناستازي، 1988)، قطع نظر از اينکه اين ماده ها دوارزشي يا چندارزشي هستند". دشواريهاي اين روش فراتر از دامنه اين کتاب هستند، ولي با اين حال، اين روشها در بسياري از کتابهاي درسي روان سنجي مورد بحث قرار گرفته اند.

همبستگيهاي بازآزمايي و نسخه هاي جانشين اطلاعاتي را فراتر از ثبات آزمون به دست مي دهند. چنانچه آزمودنيها در هنگام اجراي آزمون مجدد، پاسخ بعضي از ماده ها را به ياد آورند، امکان دارد که همان پاسخها را صرفاً بر اساس حافظه بدهند؛ يعني، يک اثر منظم که ممکن است به افزايش ساختگي اين همبستگي بينجامد. يا همان طوري که قبلاً بدان توجه شد، شرايط اجراي يک جلسه آزمون از يک نوبت به نوبت بعدي ممکن است تغيير کند و اين امر به منابع ناشناخته خطاي منظم مي انجامد. يا آزمودنيها ممکن است خصوصيتي را که اندازه گيري مي شود تغيير دهند، در چنين شرايطي از ميزان ضريب پايايي کاسته مي شود.

در عمل از کدام روش محاسبه ضريب پايايي بايد استفاده کرد؟ يک پاسخ ساده اين است که ضريب پايايي بايد انواع مختلف خطاهايي را که استفاده کننده آزمون به آنها علاقه مند است، انعکاس دهد. بنابراين، هرگاه ما در اندازه گيري يک مفهوم به پايايي آزمون علاقه مند باشيم، شاخص ثبات (آلفاي کرونباخ يا دو نيمه سازي) مناسب خواهد بود. چنانچه در اجراهاي مکرر و تحت شرايط مختلف به ثبات آزمون توجه نشان دهيم، آن گاه پايايي بازآزمايي يا نسخه هاي جانشين از مناسبت بيشتر برخوردار خواهند بود. در شرايط آرماني، سازنده آزمون هر دو مجموعه از داده ها را فراهم خواهد ساخت.

حدود قابل قبول ضرايب پايايي کدام اند؟ براي پاسخ به اين سؤال، ما بايد به شيوه اي توجه کنيم که بر اساس آنها، اين ضرايب را مي توان در عمل به کار برد. معمولاً، کليد اصلي به خطاي معيار اندازه گيري مربوط مي شود؛ کميتي که مستقيماً از روي ضريب پايايي و انحراف معيار نمره هاي حاصل به دست مي آيد. اگر ضريب پايايي را با r و انحراف معيار را با s نشان دهيم، خطاي معيار اندازه گيري را مي توان با توجه به فرمول sراديکال r-1 محاسبه کرد. براي نشان دادن معنا و کاربرد خطاي معيار اندازه گيري، مقياس Sc مربوط به MMPI را در نظر بگيريد. برآوردهاي ثبات دروني (ضرايب همبستگي دو نيمه آزمون) اين مقياس در حدود 0/91 گزارش شده است (دالستروم(810)، ولش(811) و دالستروم، 1975، ص 260). انحراف معيار تمام مقياسهاي MMPI براي نمره هاي مقياس بندي شده برابر با 10 است. حال خطاي معيار اندازه گيري را مي توان از فرمول ياد شده محاسبه کرد که برابر است با 10 راديکال 0/9-1 يا 3؛ يعني، مي توان گفت که هرگاه امکان اجراي اين آزمون به دفعات بسيار زياد وجود داشته باشد، متوسط نمره هاي Sc حاصل برابر با نمره هاي "واقعي" مي شود، ولي اين نمره ها با انحراف معيار 3 پيرامون اين ميانگين توزيع مي يافتند.

اگر توزيع نمره ها کاملاً نامتقارن نباشد، تقريباً دوسوم نمره ها در داخل يک انحراف معيار نسبت به ميانگين قرار مي گيرند. بنابراين، احتمال اينکه نمره حاصل از هر اجراي آزمون معين در سه واحد نسبت به نمره "واقعي" قرار گيرد، حدود دوسوم است. به عبارت ديگر، اگر يک پاسخ دهنده در مقياس Sc نمره 55 را کسب کند؛ احتمال اينکه نمره "واقعي" در سه واحد نمره 55، يعني، 52 و 58 قرار گيرد، دوسوم است. با همين استدلال، از آنجايي که حدود 95 درصد نمره هاي يکتوزيع کاملاً متقارن در دو انحراف معيار نسبت به ميانگين قرار مي گيرند، 95 درصد يا 19 مورد از 20 مورد احتمال وجود دارد که نمره واقعي پاسخ دهنده در فواصل 6 واحدي نمره 55، يعني بين 49 و 61 قرار گيرد.

همان طوري که تا اندازه اي در مورد مقياس D آزمون MMPI صادق است، فرض کنيد که مقدار اين ضريب پايايي (دو نيمه سازي) به جاي 0/91 برابر با 0/75 باشد (دالستروم، ولش و دالستروم، 1975، ص 260). با توجه به انحراف معيار 10، اين فرمول مقدار خطاي معيار اندازه گيري را برابر با 10 راديکال 0/75-1 يا 5 نشان مي دهد. اين موضوع در عمل به معناي آن است که هرگاه پاسخ دهنده اي در مقياس D نمره 60 را به دست آورده باشد، و ما بخواهيم دامنه اي را چنان تعيين کنيم که با احتمال 95 درصد نمره "واقعي" را در برگيرد، اين دامنه بايد بين 50 تا 70 باشد. هر چقدر ضريب پايايي کمتر باشد، ميزان اعتمادي را که مي توان نسبت به نمره به عنوان برآوردي از ميزان "واقعي" خصوصيتي داشت که پاسخ دهنده آن را داراست، کمتر است.

نظريه تعميم پذيري


در سال 1964، ريموند بي.کتل(812) سه روش عمده را مطرح کرد که بر اساس آنها "اثبات آزمون" را مي توان اندازه گيري کرد (البته وي اين اصطلاح کلي را بيشتر از اصطلاحهاي ديگر ترجيح مي داد). اولين روش، ثبات و توافق نمره ها در دفعات متوالي اجراست؛ يعني، تغييراتي که در يک آزمون و روي يک گروه از افراد در زمانهاي مختلف صورت مي گيرد. کتل اين ثبات را "پايايي" ناميد. دومين نوع ثبات به آزمونهاي مختلف ( يا بخشهاي يک آزمون که معمولاً ماده هاي انفرادي هستند) بر مي گردد و شامل توافق مربوط به يک بار اجراست که با استفاده از چند آزمون (يا بخشهاي آزمون) روي يک گروه از افراد صورت مي گيرد. اين ثبات "همگني" ناميده مي شود. نوع سوم ثبات به افراد مختلف بر مي گردد و شامل توافقي است که در مورد معناي نمره هاي يک آزمون که در يک زمان معين روي مجموعه هاي مختلفي از افراد اجرا شده است. اين نوع ثبات "انتقال پذيري" ( يا سرسختي) ناميده مي شود.

در يک رويکرد مشابه، کرونباخ، گليزر(813)، ناندا(814) و راجارتنام(815) (1972) فرض کردند که اساسي ترين موضوع در پايايي، سؤال مربوط به تعميم دادن مشاهده ها يا اندازه گيريها به طبقه ديگري از مشاهده هاست. بنابراين، به نظر آنها پايايي بايد به بررسي ميزاني مربوط شود که بر اساس آن، نمره هاي حاصل، معرف نمره هاي به دست آمده از شرايط ديگر يا "مجموعه هاي مرجع" مختلف است. مثالها مطالعه نمره هاي حاصل از نمره گذاران مختلف، ماده هاي آزمون، روشها، مشاهده کننده ها يا دفعات مختلف را در بر مي گيرند. همان طوري که در يک بحث دقيق درباره اين روش توسط ويگينز(1973) مورد تأکيد قرار گرفت، يکي از مزيتهاي اصلي اين روش در آن است که پژوهشگران را وا مي دارد که در خصوص مجموعه مرجع خاصي که مايل اند مشاهده هاي خودشان را بدان تعميم دهند، صريح و روشن باشند. اين امر تا اندازه اي از تمايز سنتي بين پايايي و اعتبار مي کاهد. جونز(816)، ريد(817) و پترسون(1975) در نظام کدگذاري رفتاري خودشان، مثال خوبي را در زمينه مطالعه کمّي تعميم پذيري گزارش کردند. در اين مطالعه، آزمودنيها، مشاهده کنندگان و دفعات مختلف، مجموعه هاي مرجع تعميم بودند.

پايايي و فنون فرافکن


نمره هاي کمّي حاصل از آزمونهاي فرافکن چنانچه با روشهايي که توصيف شدند ارزيابي شوند، اغلب پايايي اندکي دارند. از آنجايي که پايايي يک اندازه يا شاخص، حد بالايي را بر سودمندي بالقوه يا اعتبار آن تحميل مي کند، پاياييهاي کم اغلب در بررسيهاي پژوهشي روي اين آزمونها مسئول اعتبارهاي پايين قلمداد مي شوند. از طرف ديگر، همچنين استدلال شده است که روشهاي معمول براي ارزيابي پايايي را نمي توان براي ابزارهاي فرافکن به کار برد. براي مثال، گفته مي شود که روش دونيمه سازي براي آزمون رورشاخ نامناسب است، زيرا غيرممکن است که بتوان اين ده کارت را به گونه اي تقسيم کرد که دو نيمه قابل مقايسه را به دست دهد. پايايي بازآزمايي را نيز نمي توان به کار برد، زيرا آزمون مجدد، در واقع، يک تجربه روان شناختي متفاوت از آزمون اوليه است و چون گفته مي شود که فنون فرافکن نسبت به تغييرات جزيي در آزمودني حساس هستند، در واقع، به نظر مي رسد که در برخي از آزمونهاي فرافکن فرض مي شود که اين ابزارها کاملاً پايا هستند و اينکه تغييرات مشاهده شده در پاسخهاي آزمون با گذشت زمان مؤيد تغييرات واقعي در فرد هستند. بسياري از ويژگيهايي که اين آزمونها با آنها سرو کار دارند، مانند خُلق يا سطح انرژي با گذشت زمان تغيير مي کنند و بدين وسيله استدلال محکمي را دال بر اين مفروضه به دست مي دهند. با وجود اين، هر گونه شناخت واقعي از مشکلات پايايي اندازه گيري بايد به اين نتيجه منجر شود که بسياري از اين تغييرات، اگرچه نه همه آنها، تابعي از پايايي فرعي اين ابزارهاست. 

مشکلات اندازه گيري در ناپايايي هر آزمون تأثير دارد، ولي بعضي از مشکلات به ويژه در خصوص ابزارهاي فرافکن ايجاد مي شود. به طور کلي، مواد محرک مورد استفاده در آزمونهاي فرافکن با توجه به اينکه طبقه هاي نمره گذاري مختلف به طور مناسبي بر اساس محرکها تنظيم شوند، انتخاب نمي شوند. براي مثال، متوسط تعداد پاسخهاي حرکت (M) براي افرا غيربيمار در آزمون رورشاخ با توجه به انحراف معيارحدود 2، برابر 4 و متوسط جزئيات نادر (Dd) تنها برابر يک است (اکسنر، 1990). در عمل حداکثر پايايي اين اندازه گيريها همان طوري که نشان دادن اعتبارهاي معنادار امري تقريباً غيرممکن است، پايين است.

غالباً همان طور که در مورد آزمون TAT صادق است، نظامهاي نمره گذاري تا چند سال بعد از اينکه مواد محرک انتخاب شده باشند، تنظيم نخواهند شد. در آزمون TAT، آزمايندگان حتي در اين مورد اختيار دارند که کدام محرک را سرانجام به کار ببرند. اين رشد اتفاقي طبقه هاي نمره گذاري در ميزان پاياييهاي کم، تأثير دارد. نمره هاي نسبي (و تفاوت آنها) همان گونه که در آزمون رورشاخ به کار مي روند، به ويژه نسبت به پاياييهاي کم، حساس هستند. هولتزمن(818) در تهيه HIT، به انتخاب کارتهايي توجه کرد که در کميتهاي نمره گذاري تأثير خاصي داشتند؛ در نتيجه، پاياييهاي اکثر طبقه هاي HIT مناسبتر هستند. 

مشکل ديگر شامل استاندارد بودن دستورالعملهاست. راهنماييهاي مربوط به اجراي اکثر زبانهاي فرافکن استاندارد نشده اند، به طوري که به آزماينده امکان دهند تا به طور معناداري بر پاسخهاي آزمودني اثر گذارند. حتي اگرچه در نظام کنوني اکسنر(1986)، آزمون رورشاخ بر کاربرد ابزارهاي استاندارد شده تأکيد مي کند، آزماينده مي تواند هنوز تفاوت قايل شود. براي مثال، گراس(819) (1959) آزمون رورشاخ را روي 30 بيمار اجرا کرد، و در خصوص 20 نفر از آنها با گفتن "بسيارخوب" يا تکان دادن سر پس از هر پاسخ محتواي انسان تقويت اجتماعي را براي آنها فراهم کرد. بيماراني که بدين ترتيب تقويت شدند، در مقايسه با 10 نفر ديگر به طور معناداري پاسخهاي محتواي انسان بيشتري را ارايه دادند. اهميت اين تفاوتهاي ظريف آزماينده که ممکن است او به آنها واقف نباشد، بايد براي خواننده روشن باشد.

حتي مشکل غامضتر اين است که به آزمودنيها اغلب اجازه داده مي شود که پاسخهاي مختلف چندي بدهند که طولهاي نابرابري دارند. احتمالاً اثر محتواي روان شناختي يک پاسخ يا مجموعه پاسخهاي طولاني در مقايسه با يک پاسخ کوتاه متفاوت است. پاسخهاي کوتاه در آزمون رورشاخ يا TAT، عمدتاً مواد رايج يا پيش پا افتاده را شامل مي شوند. پراکندگي در طول پاسخ همچنين انجام مقايسه هاي آماري را بي اندازه مشکل مي کند.

مشکل ديگر در نمره گذاري تجلي مي کند. در بعضي آزمونها مانند MMPI، نمره گذاري جنبه مکانيکي دارد؛ يعني، هيچ گونه قضاوت ذهني در خصوص طبقه يک پاسخ صورت نمي گيرد يا قضاوت ذهني اندکي مورد استفاده قرار مي گيرد. همين موضوع در مورد بعضي از طبقه هاي نمره گذاري آزمونهايي مانند رورشاخ صادق است. براي مثال، هنگامي که داده ها جمع آوري مي شوند، تعيين تعداد کل پاسخهاي ارايه شده شامل هيچ قضاوتي نيست و يا قضاوت ناچيزي را در بر مي گيرد. به همين ترتيب، اندازه گيري بلندي يک شکل نقاشي يا مساحت کل آن، يک روش نسبتاً مکانيکي است. ولي با اين حال، تعيين اکثر نمره هاي حاصل از آزمونهاي فرافکن شامل چندين قضاوت ذهني است، براي مثال، آيا اين پاسخ رورشاخ شامل رنگ يا حرکت انسان است؟ آيا اين داستان TAT نياز به پيشرفت يا مهرورزي را نشان داده و يا اينکه هر دو را نشان مي دهد؟ در خصوص آن دسته از آزمونهاي فرافکن که چند روش نمره گذاري مختلف ولي مشابه را در بر مي گيرند، مشکل حتي شديدتر است.

اگرچه سؤال مربوط به پايايي نمره گذار به طور ساده يک توافق بين داوران و درون داوران است، ولي بايد به خاطر داشت که ناپايايي نمره گذاري در ناپايايي آزمون تأثير مي گذارد. مورستاين(820) (1963، ص 146-144) جدول خلاصه اي از پاياييهاي نمره گذاران را در خصوص ويژگيهاي نمره گذاري شده از آزمون TAT ارايه کرده است. از 45 مطالعه اي که پايايي تحت لواي همبستگي در آنها گزارش شده بود، ميانه پايايي نمره گذاران 0/74 به دست آمد. با پاياييهايي از اين دست، مشکلات دستيابي به سطوح قابل قبول پايايي آزمون در واقع زياد هستند. با وجود اين، مي توان در اين زمينه به پاياييهاي بالاتري نيز دست يافت. در اين خصوص، هولت(821) (1978) داده هاي TAT حاصل از چند منبع را گزارش کرد که حاکي از پايايي بالاي نمره گذاران تا سقف 0/90 بودند. دستيابي به ضرايب پايايي بالا معمولاً شامل راهنماهاي مبسوطي است که طبقه ها را با دقت تعريف کند و مثالهاي نمره گذاري را ارايه دهد. از آنجايي که کاربرد چنين راهنماهايي نيازمند توجه زياد و تلاش وافر در تعميم دادن يک نمره واحد است، آنها بيشتر به جاي قاعده يا حکم، موارد استثنايي را نشان مي دهند.

پايايي تفسير کلي


توجه بيش از حد به رويکردهاي مختلف در تعيين پايايي ممکن است از لحاظ علمي خطر از دست دادن موضوع اصلي در پايايي را به همراه داشته باشد. آزمونها فنون جمع آوري اطلاعات مربوط به شخصيت هستند و معمولاً در خصوص ارايه پيش بيني هايي درباره رفتار آتي بر مبناي عملکرد شخصيت استوارند. به همين دليل، توجه غايي ما به پايايي بايد معطوف اين باشد که کدام آزمون مطرح است؛ يعني، هرگاه آزمون رورشاخ براي به دست آوردن توصيف جامعي از عملکرد کلي شخصيت به کار رود، آن گاه موضوع اصلي، پايايي اين توصيفهاي کلي است و نه پايايي طبقه هاي نمره گذاري فردي.

در ارزيابي پاياييهاي کلي چه چيزي مورد توجه قرار دارد؟ اين روشها به روشهايي شباهت دارند که قبلاً توصيف شدند. براي مثال، پايايي حاصل از روش دو نيمه سازي را مي توان با مقايسه تفسيرهاي حاصل از بررسي نيمه هاي قابل مقايسه آزمون ارزيابي کرد؛ پايايي حاصل از روش بازآزمايي شامل مقايسه تفسيرهاي حاصل از دو اجراي مختلف آزمون است؛ و پايايي بين داوران را مي توان با مقايسه تفسيرهاي حاصل از اجراي يک آزمون که توسط داوران مختلف صورت گرفته است، تعيين کرد. پايايي بين آزمايندگان را نيز مي توان به روش مشابهي ارزيابي کرد.

براي ارايه توصيفهاي کلي شخصيت که به طور آماري مي توان به همين شيوه آنها را با يکديگر مقايسه کرد، چهارچوبهاي توصيفي چندي در خصوص شخصيت مورد نياز است. يک روش موسوم کاربرد مجموعه اي از مقياسها يا ابعاد درجه بندي است که با آزمون و نوع اطلاعات توصيفي مورد نياز متناسب هستند. بدين ترتيب، تفسير به دنبال بررسي طرح کلي آزمون، با اختصاص دادن نمره ها يا جايگاهها به آزمودنيها بر اساس اين مقياسها صورت مي گيرد. يا آزمايندگان مي توانند به تعدادي از سؤالهاي صحيح - غلط يا چندگزينه اي در خصوص موضوع پاسخ دهند. روش مرسوم ديگر، استفاده از فن دسته بندي پرسش است. يک دسته بندي پرسش معمولي شامل 100 کارت است که هر کدام يک توصيف شخصيت را در بر مي گيرد. از آزماينده خواسته مي شود که طرح کلي آزمون را مطالعه کند و بعد، عبارتهاي توصيفي را در 9 دسته طبقه بندي کند که از حداقل وصف حال تا حداکثر وصف حال آزمودني را در بر مي گيرد. تعداد کارتهايي که در هر دسته قرار مي گيرند از قبل تعيين مي شوند. به طوري که هر داور توزيع يکساني از کارتها را به دست مي دهد. در تمام اين فنون، همبستگي رتبه اي يا درصد توافق روشها را مي توان براي تعيين يک شاخص عددي پايايي به کار برد (هرگاه قصد داشته باشيم که پاياييهاي مربوط به يک آزماينده واحد را تعيين کنيم، تعداد طرحهاي آزمونهاي مورد داوري بايد به اندازه کافي زياد باشد که آزماينده نتواند به ياد آورد يا حدس بزند که کدام مورد به کدام آزمودني تعلق داشته است).

پايايي به دست آمده از هر روش ارزيابي بايد با کاربرد همان روش متناسب باشد. هرگاه پيش بيني هاي مربوط به رويدادهاي به خصوصي ارايه شود، پايايي اين پيش بيني ها بايد مورد بررسي قرار گيرد. هرگاه توصيفهاي کلي شخصيت مورد توجه باشد، اين پاياييهاي آنهاست که مورد توجه قرار مي گيرند. گرچه اغلب منابع اساسي ديگري نيز در زمينه پايايي وجود دارد (مانند پايايي نمره گذار) که پاياييهاي نهايي به آنها بستگي دارند، پايايي روش مورد استفاده، سؤال مربوط به علاقه نهايي است.

پي نوشت:


807- Ghiselli

808- Nunnally

809- Bernstein

810- Dahlstrom

811- Welsh

812- Raymond B. Cattell

813- Gleser

814- Nanda

815- Rajaratnam

816- Jones

817- Reid

818- Holtzman

819- Gross

820- Murstein

821- Holt


منبع:تالیف:آی . لانیون،ریچارد و دی فلئونارد ، ترجمه:نقشبندی،سیامک و .... «ارزيابي شخصيت» ، نشر روان ،1385

اعتبار و پايايي

در اين مقاله با تفصيل به مفاهيم پايايي و اعتبار پرداخته ایم . اين بررسي براي دستيابي به يک درک مناسب از چشم انداز و محدوديتهاي روشهاي ارزيابي مختلف ضروري است. در عين حال، عوامل نامربوط نظامدار يا تحريفهاي پاسخ نيز مورد بحث قرار گرفته اند. اين تحريفها که بر کاربرد شيوه هاي ارزيابي شخصيت اثر مي گذارند، مشکل کوششهاي عمدي و حتي ناهشيار را براي ايجاد يک تأثير مطلوب (يا نامطلوب) در ديگران در بر مي گيرند.

پايايي، همان طوري که از نام آن بر مي آيد، به قابليت تکرار يا اعتماد يک اندازه يا شاخص مربوط مي شود. به عنوان يک مثال بسيار ساده، مي توان گفت که ديروز ما قد يک کودک را اندازه گرفته و مقدار 122/68 سانتي متر را به دست آورده ايم. ولي امروز فرد ديگري قد همان کودک را اندازه گرفته و مقدار 122/93 سانتي متر را گزارش کرده است. اين دو مقدار تا اندازه زيادي با يکديگر هماهنگ هستند؛ يعني، ما نوعي اندازهگيري اوليه از قد کودک را در نظر گرفته ايم که در بررسي مجدد تأکيد يا تکرار شده است. اين 0/25 سانتي متر اختلاف، اين واقعيت را نشان مي دهد که تکرار اندازه گيريها تقريباً همواره تا اندازه اي ثبات يا پايايي دارد و پذيرش اين نتيجه از جانب ما نشان مي دهد که اين بي ثباتي به اندازه اي نيست که سودمندي آن را انکار کنيم. بدين ترتيب، اختلاف 0/25 سانتي متر تحت اين شرايط به اندازه اي ناچيز است که مي توان آن را بي اهميت تلقي کرد. با وجود اين، در ساير اندازه گيريهاي فيزيکي اين سطوح تحمل بسيار کم هستند، مانند سيلندر موتور که اين تفاوت، اهميت بسياري دارد و سطح بالاتري از پايايي اندازه گيري مورد نياز است.

پايايي همان دقت نيست. دقت به ميزان صحتي اشاره مي کند که اندازه گيري را بر اساس آن مي توان مشخص کرد؛ بدين ترتيب، يک شيوه اندازه گيري که به ما امکان مي دهد تا نتايج را بر اساس يک هزارم سانتي متر گزارش کنيم، دقيقتر از آن اندازه گيري است که نتايج را بر اساس يک دهم سانتي متر به دست مي دهد. درجه دقت يک ابزار مکانيکي که امکان اندازه گيري 2/432 را فراهم مي سازد، يک هزارم سانتي متر است، ولي اگر تحت شرايط يکسان اين وسيله، مقدار 2/381 سانتي متر را به دست دهد، پايايي اين اندازه گيري به هيچ وجه منطبق با دقتي نخواهد بود که اين ابزار از آن برخوردار است.

اين ويژگي که اندازه گيريها را بايد "به اندازه کافي دقيق" انجام داد، در ارزيابي شخصيت نيز کاربرد دارد. اندازه گيري شخصيت در مقايسه با اندازه گيري خصوصيات فيزيکي مانند قد، هميشه نسبتاً فاقد دقت است؛ و بنابراين، تا اندازه اي ناپاياست. بدين ترتيب، ميزان دقت يک ابزار ارزيابي شخصيت بايد با پايايي آن همخواني داشته باشد. براي کساني که از چنين ابزارهايي استفاده مي کنند معمولاً ميزان شاخص پايايي مشخص شده است. ما مجدداً در يک فرصت مناسب به موضوع پايايي باز خواهيم گشت.

اندازه گيري شخصيت داراي شکل ديگري نيز هست که در اندازه گيريهاي فيزيکي به چشم نمي خورد و آن به استانداردهاي مورد قبولي مربوط مي شود که بر اساس آنها اندازه گيريها صورت مي گيرند. هيچ ترديدي وجود ندارد که يک ياردسنج (يا يک مترسنج) براي اندازه گيري فواصل خطي مانند قد مناسب است. با وجود اين، در ارزيابي شخصيت، غالباً سؤالهايي درباره صحت و دقت ابزارهاي اندازه گيري به منظور ارزيابي بُعد يا ويژگي مورد بررسي مطرح مي شوند. براي مثال، آيا واقعاً مي توان افسردگي را با شمارش پاسخهاي رنگي به موارد بي رنگ در آزمون رورشاخ اندازه گرفت؟ در اين مورد، نه تنها سؤال مربوط به شمارش پاياي اين پاسخها مطرح است، بلکه شکل ديگر و جدي تر اين است که آيا شمارش پاسخهاي رنگ به اندازه گيري درستي از افسردگي مي انجامد، درست به همان شيوه اي که علايم مندرج ياردسنج به شاخص معتبري از قد منجر مي شود (صحت يا اعتبار ابزارهاي اندازه گيري مورد استفاده در اندازه گيريهاي فيزيکي که درجات بسيار بالايي از دقت لازم را دارد، مشکلات چندي ايجاد کرده است.)

چون پيش از آنکه بتوانيم تعيين کنيم که آيا اندازه گيري در واقع به مفهوم مورد نظر مربوط مي شود يا خير، بايد از پايايي مناسب برخوردار باشد، ابتدا به بحث درباره پايايي مي پردازيم. معيارهاي آزمون تربيتي و روان شناختي که يک راهنماي عملي براي پايايي و اعتبار است، براي چندين سال توسط انجمن روان شناسي آمريکا انتشار يافته است (براي مثال، انجمن پژوهش تربيتي آمريکا- انجمن روان شناسي آمريکا- شوراي ملي اندازه گيري در تربيت، 1985) و تمام افرادي که فعالانه در ساختن ابزارهاي اندازه گري شخصيت و کاربرد آنها شرکت دارند، بايد اين راهنما را به دقت مطالعه کنند. کتاب راهنمايي که به منظور استفاده ويژه در زمينه انتخاب استخدامي به کار مي رود و با اين کتاب راهنما قابل مقايسه است، توسط شاخه روان شناسي صنعتي- سازماني انجمن روان شناسي آمريکا (1980) منتشر شده است. در اين کتاب راهنما توجه خاصي به موارد اعتبار و پايايي و تهيه ملاکها مبذول شده است و منبع مرجع سودمندي در اين زمينه ها محسوب مي شود.

پايايي


پايايي به قابليت تکرار يا قابليت اعتماد اندازه گيري اشاره دارد. در يک موقعيت فرضي که روش اندازه گيري کاملاً پاياست، فرض مي شود که هر گونه تغييري در اندازه گيري حاصل نشان دهنده يک تغيير واقعي در صفت مورد مطالعه است. بدين ترتيب، در چنين نظامي، افزايش يک کيلوگرم در مقياس نشان خواهد داد که وزن شيء مورد نظر دقيقاً يک کيلوگرم زياد شده است؛ به همين ترتيب، افزايش نمره حاصل از يک مقياس افسردگي نشان خواهد داد که پاسخ دهنده در حال حاضر افسردگي بيشتري دارد. پايايي يک اصطلاح کلي است؛ اصطلاحهاي همساني و ثبات به ترتيب براي توصيف پايايي وابسته به ابزار و پايايي مربوط به زمان به کار مي روند.

همساني به ميزان توافقي اشاره مي کند که از به کارگيري دو يا چند ابزار اندازه گيري (يعني، مقياسها، خط کشها يا آزمونها) حاصل مي شود. هر گونه ابزار اندازه گيري يا مجموعه ابزارها را مي توان برگرفته از جامعه گسترده اي از اين ابزارها (چه واقعي يا چه فرضي) در نظر گرفت که مي توان از آنها براي اندازه گيري اين صفت خاص استفاده کرد. همساني معمولاً با به کارگيري يک آزمون يا آزمونهاي همزمان ديگر مورد ارزشيابي قرار مي گيرد که ترجيحاً به طور تصادفي از جامعه در دسترس اندازه گيريها انتخاب مي شوند. اگرچه اين موضوع در اندازه گيري ابعاد فيزيکي مانند قد يا وزن به مشکلات اندکي مي انجامد، ولي با اين حال، مشکلات چندي را در ارزيابي شخصيت ايجاد مي کند. ما به زودي اين مشکلات را مورد بررسي قرار خواهيم داد.

ثبات به دقت اندازه گيري حاصل با گذشت زمان اشاره دارد. چنانچه از ابزار ديگري براي اندازه گيري مجدد استفاده شود، بازآزمايي با گذشت زمان علاوه بر ثبات، همساني را نيز شامل مي شود. هرگاه در دو بار اندازه گيري از يک ابزار استفاده شود، ارزيابي مستقيم ثبات اندازه گيري را مي توان انجام داد. بدين ترتيب، ناتواني در رسيدن به پايايي کامل به واسطه ناهمسانيها يا خطاهايي است که تابع تغييرات حاصل در نظام مورد نظر با گذشت زمان يا تابع تغييرات مربوط به ابزار مورد نظر و يا هر دو هستند.

به طور کلي، پايايي به شواهد مختلفي اشاره مي کند که در صدد توصيف يک توافق کلي ميان عمليات اندازه گيري هستند. هر کدام از اين شواهد بر منبع معيني از عدم توافق يا خطا تأکيد مي کند و بقيه منابع را ناديده مي گيرد. اندازه گيري شخصيت شامل گرفتن نمونه اي از رفتار در يک زمان و روز معين در قبال مجموعه معيني از محرکهاست. البته اين پاسخها بايد بر طبق يک شيوه معين توسط يک آزماينده خاص ثبت شوند. بعضي از خطاهاي نمونه گيري با هر کدام از اين "موارد خاص" رابطه دارند. اين زمان خاص نمونه اي از يک دوره زماني است و اين مجموعه خاص از محرکها يا سؤالها نمونه اي از يک دسته واقعي يا فرضي از محرکها در دسترس است. بسيار اهميت دارد که بتوانيم مشخص کنيم که يک پاسخ يا نمره خاص، احتمالاً تا چه اندازه به عنوان تابعي از تغييرات در هر کدام از اين خصوصيات اندازه گيري تغيير مي کند. متأسفانه، اين نوع اطلاعات به ندرت در ارزيابي شخصيت به چشم مي خورد. 

بررسي کتاب هاي درسي در زمينه نظريه روان سنجي (براي مثال گيزلي(807)، 1964؛ نانالي(808)و برنشتاين(809)، 1994) نشان مي دهد که فرضهاي فلسفي متخصصان در زمينه مبناي اندازه گيري روان شناختي با يکديگر متفاوت است. اين تفاوتها در فلسفه به تفاوتهاي چندي در توصيف دقيق مفهوم و معناي پايايي و تفاوتهايي در شيوه هاي پيشنهادي براي اندازه گيري پايايي يک شاخص انجاميده است. در اين فصل، ما مي کوشيم تا مسير ميانه اي را از ميان رويکردهاي مختلف برگزينيم و در عين حال، علاوه بر موضوعهايي که فراتر از طيف اين کتاب قرار مي گيرند، از ناهمسانيها نيز اجتناب کنيم.

ما با اين نکته شروع مي کنيم که پايايي به طور تنگاتنگي با مفهوم خطاي اندازه گيري رابطه دارد. خطاهاي اندازه گيري را مي توان به صورت منظم يا تصادفي در نظر گرفت. هرگاه ما زمان را از روي ساعتي مشاهده کنيم که همواره پنج دقيقه جلوست، مرتکب يک خطاي منظم شده ايم. از طرف ديگر، هرگاه اين ساعت درست ولي به اندازه اي دور از ما قرار گرفته باشد که ما نتوانيم عقربه دقيقه شمار را بخوانيم، مرتکب يک خطاي تصادفي شده ايم. خطاهاي منظم را مي توان به صورت خطاهايي در نظر گرفت که با اشتباههاي معلوم رابطه دارند؛ و خطاهاي تصادفي را که به متوسط نمره درست يا مطلق گرايش دارند، مي توان زماني به صورت "موارد نامعلوم" در مشاهده در نظر گرفت که تمام خطاهاي منظم شناسايي يا حذف شده باشند.

به عبارت ديگر، خطاهاي اندازه گيري تصادفي با روش اندازه گيري "شکل مي گيرند"، درست مانند زماني که مي کوشيم با يک خط کش که تنها با اينچ مدرج شده است با تقريب يک دهم اينچ اندازه گيري کنيم يا هنگامي که سعي مي کنيم "افسردگي" را با يک پرسشنامه مداد و کاغذي کلي که فاقد ويژگيهاي باليني ضروري افسردگي است، ارزيابي کنيم. برخلاف اين خطاهاي تصادفي که اجتناب از آنها مشکل است، خطاهاي منظم مشخص تر و صحيح تر هستند. به يک معنا، خطاهاي منظم ناشي از سازنده يا استفاده کننده آزمون هستند تا اينکه به خود ابزار اندازه گيري برگردند. هرگاه ما يک مقياس افسردگي را روي آزمودنيهايي اجرا کنيم که در يک فرهنگ (يا خرده فرهنگ) متفاوت زندگي مي کنند در مقايسه با آزمودنيهايي که از هنجارهاي مناسبي برخوردارند، يا هرگاه دستورالعملهاي فشارزايي را به کار ببريم که آشکارا از دستورالعملهاي مربوط به جامعه هنجاري متفاوت باشند، در معرض خطاي منظم قرار خواهيم داشت. اين خطاهاي منظم بالقوه را مي توان و البته بايد با تنظيم هنجارهاي جديد مبتني بر گروه فرهنگي مناسب يا شرايط ديگر سنجش تصحيح کرد.

نظريه پردازان روان سنجي در کوششهاي خود براي به کميت درآوردن پايايي، به طور سنتي به مشخص کردن سهم خطاهاي تصادفي در پايايي کم پرداخته اند. عقايد آنها درباره اينکه آيا بايد خطاهاي منظم را نيز به عنوان منبع ناپايايي اندازه گيري در نظر گرفت با يکديگر اختلاف دارد، و از اين رو، ماحصل اين اختلاف عقيده در شاخص عددي پايايي انعکاس يافته است. تعدادي از شاخصهاي متداول پايايي نشان دهنده خطاي تصادفي هستند؛ و تعدادي نيز بعضي از منابع خطاي منظم و نه تمام آنها را نشان مي دهند. در نسخه تجديدنظرشده جديدتر معيارهاي سنجش تربيتي و روان شناختي (1985) با تصديق اين موضوع که روشهاي مختلف محاسبه پايايي، شامل منابع مختلف خطا هستند، توصيه شده است که پژوهشگران بايد دقيقاً روشن کنند، چه روشهايي را در به دست آوردن شاخص پايايي خاص مورد نظر به کار برده اند.

اکنون به روشهاي متداول محاسبه پايايي توجه کنيد. شاخص سنتي پايايي، ضريب پايايي است که مي توان آن را هم به عنوان همبستگي بين نمره هاي واقعي آزمون و نمره هاي "واقعي" فرضي و هم به عنوان متوسط همبستگي بين نمره هاي واقعي آزمون و ساير آزمونهاي احتمالي که همان خصوصيت را اندازه مي گيرند، در نظر گرفت. رويکردهاي عملي زير که براي محاسبه پايايي به کار مي روند، با اين تعريف شباهت دارند.

همان طوري که قبلاً اشاره کرديم، آن نوع پايايي که صرفاً با خطاي تصادفي رابطه دارد (خطاهاي ناشي از اين واقعيت که محتواي آزمون صرفاً نمونه اي از کل محتواست که ويژگي مورد نظر را در بر مي گيرد)، ثبات يا ثبات دروني آزمون ناديده مي شود. ثبات را مي توان به شيوه هاي مختلف ارزيابي کرد. يک روش، تقسيم آزمون به دو نيمه قابل مقايسه است که با يکديگر همبسته هستند. بدين ترتيب، همبستگي حاصل با استفاده از فرمولي که فرمول پيشگويي اسپيرمن - براون ناميده مي شود، با توجه به ارزش مورد انتظار براي کل آزمون "تصحيح" مي شود. چنين برآوردي از ثبات که با مقايسه ماده هاي زوج و فرد آزمون به دست مي آيد، ثبات پايايي از طريق دو نيمه کردن ناميده مي شود. روش ديگر، تعيين ثبات از طريق کاربرد نسخه هاي مشابه يا جانشين (يا موازي) آزمون است. همبستگي بين اين نسخه ها اساساً با همبستگي تصحيح شده بين دو نيمه آزمون مطابقت مي کند. هنگامي که نسخه هاي جانشين در دسترس نباشند، راه حل رايج، استفاده از روش بازآزمايي است. همبستگي بين اين دو مجموعه از نمره ها ضريب پايايي بازآزمايي ناميده مي شود.

يکي ديگر از روشهاي محاسبه پايايي که از لحاظ آماري تا اندازه اي پيچيده تر است، با استفاده از فرمول پايايي کودر- ريچاردسون صورت مي گيرد (کودر و ريچاردسون، 1937). مهمترين اجزاي اين فرمول شامل درصد ماده هاي نمره گذاري شده به شيوه اي خاص، همبستگيهاي بين ماده ها و نمره کل و انحراف معيار آزمون است. اين داده ها در فرمولي قرار مي گيرند که برآورد خوبي از ثبات را به دست مي دهد، به شرطي که آزمون مورد نظر تنها يک عامل آماري را اندازه گيري کند. متداولترين ضريب پايايي از اين دست که ضريب آلفا (کرونباخ، 1951) ناميده مي شود، "ميانگين تمام ضرايب دو نيمه سازي حاصل از نيمه هاي مختلف آزمون است (آناستازي، 1988)، قطع نظر از اينکه اين ماده ها دوارزشي يا چندارزشي هستند". دشواريهاي اين روش فراتر از دامنه اين کتاب هستند، ولي با اين حال، اين روشها در بسياري از کتابهاي درسي روان سنجي مورد بحث قرار گرفته اند.

همبستگيهاي بازآزمايي و نسخه هاي جانشين اطلاعاتي را فراتر از ثبات آزمون به دست مي دهند. چنانچه آزمودنيها در هنگام اجراي آزمون مجدد، پاسخ بعضي از ماده ها را به ياد آورند، امکان دارد که همان پاسخها را صرفاً بر اساس حافظه بدهند؛ يعني، يک اثر منظم که ممکن است به افزايش ساختگي اين همبستگي بينجامد. يا همان طوري که قبلاً بدان توجه شد، شرايط اجراي يک جلسه آزمون از يک نوبت به نوبت بعدي ممکن است تغيير کند و اين امر به منابع ناشناخته خطاي منظم مي انجامد. يا آزمودنيها ممکن است خصوصيتي را که اندازه گيري مي شود تغيير دهند، در چنين شرايطي از ميزان ضريب پايايي کاسته مي شود.

در عمل از کدام روش محاسبه ضريب پايايي بايد استفاده کرد؟ يک پاسخ ساده اين است که ضريب پايايي بايد انواع مختلف خطاهايي را که استفاده کننده آزمون به آنها علاقه مند است، انعکاس دهد. بنابراين، هرگاه ما در اندازه گيري يک مفهوم به پايايي آزمون علاقه مند باشيم، شاخص ثبات (آلفاي کرونباخ يا دو نيمه سازي) مناسب خواهد بود. چنانچه در اجراهاي مکرر و تحت شرايط مختلف به ثبات آزمون توجه نشان دهيم، آن گاه پايايي بازآزمايي يا نسخه هاي جانشين از مناسبت بيشتر برخوردار خواهند بود. در شرايط آرماني، سازنده آزمون هر دو مجموعه از داده ها را فراهم خواهد ساخت.

حدود قابل قبول ضرايب پايايي کدام اند؟ براي پاسخ به اين سؤال، ما بايد به شيوه اي توجه کنيم که بر اساس آنها، اين ضرايب را مي توان در عمل به کار برد. معمولاً، کليد اصلي به خطاي معيار اندازه گيري مربوط مي شود؛ کميتي که مستقيماً از روي ضريب پايايي و انحراف معيار نمره هاي حاصل به دست مي آيد. اگر ضريب پايايي را با r و انحراف معيار را با s نشان دهيم، خطاي معيار اندازه گيري را مي توان با توجه به فرمول sراديکال r-1 محاسبه کرد. براي نشان دادن معنا و کاربرد خطاي معيار اندازه گيري، مقياس Sc مربوط به MMPI را در نظر بگيريد. برآوردهاي ثبات دروني (ضرايب همبستگي دو نيمه آزمون) اين مقياس در حدود 0/91 گزارش شده است (دالستروم(810)، ولش(811) و دالستروم، 1975، ص 260). انحراف معيار تمام مقياسهاي MMPI براي نمره هاي مقياس بندي شده برابر با 10 است. حال خطاي معيار اندازه گيري را مي توان از فرمول ياد شده محاسبه کرد که برابر است با 10 راديکال 0/9-1 يا 3؛ يعني، مي توان گفت که هرگاه امکان اجراي اين آزمون به دفعات بسيار زياد وجود داشته باشد، متوسط نمره هاي Sc حاصل برابر با نمره هاي "واقعي" مي شود، ولي اين نمره ها با انحراف معيار 3 پيرامون اين ميانگين توزيع مي يافتند.

اگر توزيع نمره ها کاملاً نامتقارن نباشد، تقريباً دوسوم نمره ها در داخل يک انحراف معيار نسبت به ميانگين قرار مي گيرند. بنابراين، احتمال اينکه نمره حاصل از هر اجراي آزمون معين در سه واحد نسبت به نمره "واقعي" قرار گيرد، حدود دوسوم است. به عبارت ديگر، اگر يک پاسخ دهنده در مقياس Sc نمره 55 را کسب کند؛ احتمال اينکه نمره "واقعي" در سه واحد نمره 55، يعني، 52 و 58 قرار گيرد، دوسوم است. با همين استدلال، از آنجايي که حدود 95 درصد نمره هاي يکتوزيع کاملاً متقارن در دو انحراف معيار نسبت به ميانگين قرار مي گيرند، 95 درصد يا 19 مورد از 20 مورد احتمال وجود دارد که نمره واقعي پاسخ دهنده در فواصل 6 واحدي نمره 55، يعني بين 49 و 61 قرار گيرد.

همان طوري که تا اندازه اي در مورد مقياس D آزمون MMPI صادق است، فرض کنيد که مقدار اين ضريب پايايي (دو نيمه سازي) به جاي 0/91 برابر با 0/75 باشد (دالستروم، ولش و دالستروم، 1975، ص 260). با توجه به انحراف معيار 10، اين فرمول مقدار خطاي معيار اندازه گيري را برابر با 10 راديکال 0/75-1 يا 5 نشان مي دهد. اين موضوع در عمل به معناي آن است که هرگاه پاسخ دهنده اي در مقياس D نمره 60 را به دست آورده باشد، و ما بخواهيم دامنه اي را چنان تعيين کنيم که با احتمال 95 درصد نمره "واقعي" را در برگيرد، اين دامنه بايد بين 50 تا 70 باشد. هر چقدر ضريب پايايي کمتر باشد، ميزان اعتمادي را که مي توان نسبت به نمره به عنوان برآوردي از ميزان "واقعي" خصوصيتي داشت که پاسخ دهنده آن را داراست، کمتر است.

نظريه تعميم پذيري


در سال 1964، ريموند بي.کتل(812) سه روش عمده را مطرح کرد که بر اساس آنها "اثبات آزمون" را مي توان اندازه گيري کرد (البته وي اين اصطلاح کلي را بيشتر از اصطلاحهاي ديگر ترجيح مي داد). اولين روش، ثبات و توافق نمره ها در دفعات متوالي اجراست؛ يعني، تغييراتي که در يک آزمون و روي يک گروه از افراد در زمانهاي مختلف صورت مي گيرد. کتل اين ثبات را "پايايي" ناميد. دومين نوع ثبات به آزمونهاي مختلف ( يا بخشهاي يک آزمون که معمولاً ماده هاي انفرادي هستند) بر مي گردد و شامل توافق مربوط به يک بار اجراست که با استفاده از چند آزمون (يا بخشهاي آزمون) روي يک گروه از افراد صورت مي گيرد. اين ثبات "همگني" ناميده مي شود. نوع سوم ثبات به افراد مختلف بر مي گردد و شامل توافقي است که در مورد معناي نمره هاي يک آزمون که در يک زمان معين روي مجموعه هاي مختلفي از افراد اجرا شده است. اين نوع ثبات "انتقال پذيري" ( يا سرسختي) ناميده مي شود.

در يک رويکرد مشابه، کرونباخ، گليزر(813)، ناندا(814) و راجارتنام(815) (1972) فرض کردند که اساسي ترين موضوع در پايايي، سؤال مربوط به تعميم دادن مشاهده ها يا اندازه گيريها به طبقه ديگري از مشاهده هاست. بنابراين، به نظر آنها پايايي بايد به بررسي ميزاني مربوط شود که بر اساس آن، نمره هاي حاصل، معرف نمره هاي به دست آمده از شرايط ديگر يا "مجموعه هاي مرجع" مختلف است. مثالها مطالعه نمره هاي حاصل از نمره گذاران مختلف، ماده هاي آزمون، روشها، مشاهده کننده ها يا دفعات مختلف را در بر مي گيرند. همان طوري که در يک بحث دقيق درباره اين روش توسط ويگينز(1973) مورد تأکيد قرار گرفت، يکي از مزيتهاي اصلي اين روش در آن است که پژوهشگران را وا مي دارد که در خصوص مجموعه مرجع خاصي که مايل اند مشاهده هاي خودشان را بدان تعميم دهند، صريح و روشن باشند. اين امر تا اندازه اي از تمايز سنتي بين پايايي و اعتبار مي کاهد. جونز(816)، ريد(817) و پترسون(1975) در نظام کدگذاري رفتاري خودشان، مثال خوبي را در زمينه مطالعه کمّي تعميم پذيري گزارش کردند. در اين مطالعه، آزمودنيها، مشاهده کنندگان و دفعات مختلف، مجموعه هاي مرجع تعميم بودند.

پايايي و فنون فرافکن


نمره هاي کمّي حاصل از آزمونهاي فرافکن چنانچه با روشهايي که توصيف شدند ارزيابي شوند، اغلب پايايي اندکي دارند. از آنجايي که پايايي يک اندازه يا شاخص، حد بالايي را بر سودمندي بالقوه يا اعتبار آن تحميل مي کند، پاياييهاي کم اغلب در بررسيهاي پژوهشي روي اين آزمونها مسئول اعتبارهاي پايين قلمداد مي شوند. از طرف ديگر، همچنين استدلال شده است که روشهاي معمول براي ارزيابي پايايي را نمي توان براي ابزارهاي فرافکن به کار برد. براي مثال، گفته مي شود که روش دونيمه سازي براي آزمون رورشاخ نامناسب است، زيرا غيرممکن است که بتوان اين ده کارت را به گونه اي تقسيم کرد که دو نيمه قابل مقايسه را به دست دهد. پايايي بازآزمايي را نيز نمي توان به کار برد، زيرا آزمون مجدد، در واقع، يک تجربه روان شناختي متفاوت از آزمون اوليه است و چون گفته مي شود که فنون فرافکن نسبت به تغييرات جزيي در آزمودني حساس هستند، در واقع، به نظر مي رسد که در برخي از آزمونهاي فرافکن فرض مي شود که اين ابزارها کاملاً پايا هستند و اينکه تغييرات مشاهده شده در پاسخهاي آزمون با گذشت زمان مؤيد تغييرات واقعي در فرد هستند. بسياري از ويژگيهايي که اين آزمونها با آنها سرو کار دارند، مانند خُلق يا سطح انرژي با گذشت زمان تغيير مي کنند و بدين وسيله استدلال محکمي را دال بر اين مفروضه به دست مي دهند. با وجود اين، هر گونه شناخت واقعي از مشکلات پايايي اندازه گيري بايد به اين نتيجه منجر شود که بسياري از اين تغييرات، اگرچه نه همه آنها، تابعي از پايايي فرعي اين ابزارهاست. 

مشکلات اندازه گيري در ناپايايي هر آزمون تأثير دارد، ولي بعضي از مشکلات به ويژه در خصوص ابزارهاي فرافکن ايجاد مي شود. به طور کلي، مواد محرک مورد استفاده در آزمونهاي فرافکن با توجه به اينکه طبقه هاي نمره گذاري مختلف به طور مناسبي بر اساس محرکها تنظيم شوند، انتخاب نمي شوند. براي مثال، متوسط تعداد پاسخهاي حرکت (M) براي افرا غيربيمار در آزمون رورشاخ با توجه به انحراف معيارحدود 2، برابر 4 و متوسط جزئيات نادر (Dd) تنها برابر يک است (اکسنر، 1990). در عمل حداکثر پايايي اين اندازه گيريها همان طوري که نشان دادن اعتبارهاي معنادار امري تقريباً غيرممکن است، پايين است.

غالباً همان طور که در مورد آزمون TAT صادق است، نظامهاي نمره گذاري تا چند سال بعد از اينکه مواد محرک انتخاب شده باشند، تنظيم نخواهند شد. در آزمون TAT، آزمايندگان حتي در اين مورد اختيار دارند که کدام محرک را سرانجام به کار ببرند. اين رشد اتفاقي طبقه هاي نمره گذاري در ميزان پاياييهاي کم، تأثير دارد. نمره هاي نسبي (و تفاوت آنها) همان گونه که در آزمون رورشاخ به کار مي روند، به ويژه نسبت به پاياييهاي کم، حساس هستند. هولتزمن(818) در تهيه HIT، به انتخاب کارتهايي توجه کرد که در کميتهاي نمره گذاري تأثير خاصي داشتند؛ در نتيجه، پاياييهاي اکثر طبقه هاي HIT مناسبتر هستند. 

مشکل ديگر شامل استاندارد بودن دستورالعملهاست. راهنماييهاي مربوط به اجراي اکثر زبانهاي فرافکن استاندارد نشده اند، به طوري که به آزماينده امکان دهند تا به طور معناداري بر پاسخهاي آزمودني اثر گذارند. حتي اگرچه در نظام کنوني اکسنر(1986)، آزمون رورشاخ بر کاربرد ابزارهاي استاندارد شده تأکيد مي کند، آزماينده مي تواند هنوز تفاوت قايل شود. براي مثال، گراس(819) (1959) آزمون رورشاخ را روي 30 بيمار اجرا کرد، و در خصوص 20 نفر از آنها با گفتن "بسيارخوب" يا تکان دادن سر پس از هر پاسخ محتواي انسان تقويت اجتماعي را براي آنها فراهم کرد. بيماراني که بدين ترتيب تقويت شدند، در مقايسه با 10 نفر ديگر به طور معناداري پاسخهاي محتواي انسان بيشتري را ارايه دادند. اهميت اين تفاوتهاي ظريف آزماينده که ممکن است او به آنها واقف نباشد، بايد براي خواننده روشن باشد.

حتي مشکل غامضتر اين است که به آزمودنيها اغلب اجازه داده مي شود که پاسخهاي مختلف چندي بدهند که طولهاي نابرابري دارند. احتمالاً اثر محتواي روان شناختي يک پاسخ يا مجموعه پاسخهاي طولاني در مقايسه با يک پاسخ کوتاه متفاوت است. پاسخهاي کوتاه در آزمون رورشاخ يا TAT، عمدتاً مواد رايج يا پيش پا افتاده را شامل مي شوند. پراکندگي در طول پاسخ همچنين انجام مقايسه هاي آماري را بي اندازه مشکل مي کند.

مشکل ديگر در نمره گذاري تجلي مي کند. در بعضي آزمونها مانند MMPI، نمره گذاري جنبه مکانيکي دارد؛ يعني، هيچ گونه قضاوت ذهني در خصوص طبقه يک پاسخ صورت نمي گيرد يا قضاوت ذهني اندکي مورد استفاده قرار مي گيرد. همين موضوع در مورد بعضي از طبقه هاي نمره گذاري آزمونهايي مانند رورشاخ صادق است. براي مثال، هنگامي که داده ها جمع آوري مي شوند، تعيين تعداد کل پاسخهاي ارايه شده شامل هيچ قضاوتي نيست و يا قضاوت ناچيزي را در بر مي گيرد. به همين ترتيب، اندازه گيري بلندي يک شکل نقاشي يا مساحت کل آن، يک روش نسبتاً مکانيکي است. ولي با اين حال، تعيين اکثر نمره هاي حاصل از آزمونهاي فرافکن شامل چندين قضاوت ذهني است، براي مثال، آيا اين پاسخ رورشاخ شامل رنگ يا حرکت انسان است؟ آيا اين داستان TAT نياز به پيشرفت يا مهرورزي را نشان داده و يا اينکه هر دو را نشان مي دهد؟ در خصوص آن دسته از آزمونهاي فرافکن که چند روش نمره گذاري مختلف ولي مشابه را در بر مي گيرند، مشکل حتي شديدتر است.

اگرچه سؤال مربوط به پايايي نمره گذار به طور ساده يک توافق بين داوران و درون داوران است، ولي بايد به خاطر داشت که ناپايايي نمره گذاري در ناپايايي آزمون تأثير مي گذارد. مورستاين(820) (1963، ص 146-144) جدول خلاصه اي از پاياييهاي نمره گذاران را در خصوص ويژگيهاي نمره گذاري شده از آزمون TAT ارايه کرده است. از 45 مطالعه اي که پايايي تحت لواي همبستگي در آنها گزارش شده بود، ميانه پايايي نمره گذاران 0/74 به دست آمد. با پاياييهايي از اين دست، مشکلات دستيابي به سطوح قابل قبول پايايي آزمون در واقع زياد هستند. با وجود اين، مي توان در اين زمينه به پاياييهاي بالاتري نيز دست يافت. در اين خصوص، هولت(821) (1978) داده هاي TAT حاصل از چند منبع را گزارش کرد که حاکي از پايايي بالاي نمره گذاران تا سقف 0/90 بودند. دستيابي به ضرايب پايايي بالا معمولاً شامل راهنماهاي مبسوطي است که طبقه ها را با دقت تعريف کند و مثالهاي نمره گذاري را ارايه دهد. از آنجايي که کاربرد چنين راهنماهايي نيازمند توجه زياد و تلاش وافر در تعميم دادن يک نمره واحد است، آنها بيشتر به جاي قاعده يا حکم، موارد استثنايي را نشان مي دهند.

پايايي تفسير کلي


توجه بيش از حد به رويکردهاي مختلف در تعيين پايايي ممکن است از لحاظ علمي خطر از دست دادن موضوع اصلي در پايايي را به همراه داشته باشد. آزمونها فنون جمع آوري اطلاعات مربوط به شخصيت هستند و معمولاً در خصوص ارايه پيش بيني هايي درباره رفتار آتي بر مبناي عملکرد شخصيت استوارند. به همين دليل، توجه غايي ما به پايايي بايد معطوف اين باشد که کدام آزمون مطرح است؛ يعني، هرگاه آزمون رورشاخ براي به دست آوردن توصيف جامعي از عملکرد کلي شخصيت به کار رود، آن گاه موضوع اصلي، پايايي اين توصيفهاي کلي است و نه پايايي طبقه هاي نمره گذاري فردي.

در ارزيابي پاياييهاي کلي چه چيزي مورد توجه قرار دارد؟ اين روشها به روشهايي شباهت دارند که قبلاً توصيف شدند. براي مثال، پايايي حاصل از روش دو نيمه سازي را مي توان با مقايسه تفسيرهاي حاصل از بررسي نيمه هاي قابل مقايسه آزمون ارزيابي کرد؛ پايايي حاصل از روش بازآزمايي شامل مقايسه تفسيرهاي حاصل از دو اجراي مختلف آزمون است؛ و پايايي بين داوران را مي توان با مقايسه تفسيرهاي حاصل از اجراي يک آزمون که توسط داوران مختلف صورت گرفته است، تعيين کرد. پايايي بين آزمايندگان را نيز مي توان به روش مشابهي ارزيابي کرد.

براي ارايه توصيفهاي کلي شخصيت که به طور آماري مي توان به همين شيوه آنها را با يکديگر مقايسه کرد، چهارچوبهاي توصيفي چندي در خصوص شخصيت مورد نياز است. يک روش موسوم کاربرد مجموعه اي از مقياسها يا ابعاد درجه بندي است که با آزمون و نوع اطلاعات توصيفي مورد نياز متناسب هستند. بدين ترتيب، تفسير به دنبال بررسي طرح کلي آزمون، با اختصاص دادن نمره ها يا جايگاهها به آزمودنيها بر اساس اين مقياسها صورت مي گيرد. يا آزمايندگان مي توانند به تعدادي از سؤالهاي صحيح - غلط يا چندگزينه اي در خصوص موضوع پاسخ دهند. روش مرسوم ديگر، استفاده از فن دسته بندي پرسش است. يک دسته بندي پرسش معمولي شامل 100 کارت است که هر کدام يک توصيف شخصيت را در بر مي گيرد. از آزماينده خواسته مي شود که طرح کلي آزمون را مطالعه کند و بعد، عبارتهاي توصيفي را در 9 دسته طبقه بندي کند که از حداقل وصف حال تا حداکثر وصف حال آزمودني را در بر مي گيرد. تعداد کارتهايي که در هر دسته قرار مي گيرند از قبل تعيين مي شوند. به طوري که هر داور توزيع يکساني از کارتها را به دست مي دهد. در تمام اين فنون، همبستگي رتبه اي يا درصد توافق روشها را مي توان براي تعيين يک شاخص عددي پايايي به کار برد (هرگاه قصد داشته باشيم که پاياييهاي مربوط به يک آزماينده واحد را تعيين کنيم، تعداد طرحهاي آزمونهاي مورد داوري بايد به اندازه کافي زياد باشد که آزماينده نتواند به ياد آورد يا حدس بزند که کدام مورد به کدام آزمودني تعلق داشته است).

پايايي به دست آمده از هر روش ارزيابي بايد با کاربرد همان روش متناسب باشد. هرگاه پيش بيني هاي مربوط به رويدادهاي به خصوصي ارايه شود، پايايي اين پيش بيني ها بايد مورد بررسي قرار گيرد. هرگاه توصيفهاي کلي شخصيت مورد توجه باشد، اين پاياييهاي آنهاست که مورد توجه قرار مي گيرند. گرچه اغلب منابع اساسي ديگري نيز در زمينه پايايي وجود دارد (مانند پايايي نمره گذار) که پاياييهاي نهايي به آنها بستگي دارند، پايايي روش مورد استفاده، سؤال مربوط به علاقه نهايي است.

پي نوشت:


807- Ghiselli

808- Nunnally

809- Bernstein

810- Dahlstrom

811- Welsh

812- Raymond B. Cattell

813- Gleser

814- Nanda

815- Rajaratnam

816- Jones

817- Reid

818- Holtzman

819- Gross

820- Murstein

821- Holt


منبع:تالیف:آی . لانیون،ریچارد و دی فلئونارد ، ترجمه:نقشبندی،سیامک و .... «ارزيابي شخصيت» ، نشر روان ،1385

مقیاس گذاری (مقیاس سازی) یا مقیاس بندی چند بعدی MULTIDIMENTIONAL SCALING

مقیاس بندی چند بعدی یک تکنیک اکتشافی است، اکتشاف خصیصه های نهان در داده ها. مقیاس بندی چند بعدی را میتوان هم خانواده روش هایی همچو تحلیل عناصر اصلی، تحلیل عاملی و یا تحلیل خوشه دانست. با این حال، مقیاس بندی چند بعدی تفاوتها و مزیت هایی نیز دارد. اصل زیر بنایی در مقیاس بندی چند بعدی این است که انسان ها بر اساس تشابهات و تفاوت های اشیا آنها را دسته بندی می کنند، رتبه بندی میکنند، ترجیح میدهند و.... برای همین مقیاس بندی چند بعدی معمولا از داده های تشابه استفاده میکند . تشابه بین محرک ها یا آیتم ها و یا اشیا. سپس این تشابهات مشاهده شده را به شکل نقاطی در یک فضای چند بعدی در می آورد. مقیاس بندی چند بعدی فرض میکند که یک واقعیتی وجود دارد و سعی میکند داده های به دست آمده را به گونه ای پیکربندی کند که حداکثر تطابق با آن واقعیت را داشته باشد. برای همین مقیاس بندی چند بعدی مناسب نظریه پردازی است، چرا که این روش از تاریکی ها به ما میگوید.


یکی از خصیصه های متمایز کننده مقیاس بندی چند بعدی این است که داده های ورودی باید ماتریس مربع باشند. در ماتریس مربع، ردیف ها و ستون ها برابر هستند، درحالیکه در ماتریس مستطیل ردیف ها بیانگر آزمودنی ها هستند و ستون ها بیانگر آیتم ها، محرک ها یا اشیا. بنابر این در ماتریس مربع هر آیتم، یا محرک با خودش مقایسه میشود.


بگذارید یک مثال بزنم: یکی از کاربرد های مقیاس بندی چند بعدی در ساختن پرسشنامه ها است. وولف معتقد بود که افراد یا دین را می پذیرند و یا دین را نمی پذیرند و هر یک از این دو دسته افراد نیز یا دین را تحت الفظی تفسیر می کنند و یا نمادین. به این ترتیب 4 شیوه نگرش به دین به دست می آید. آشکارا پیدا است که در نظر وولف دو محور در شیوه نگرش به دین داری وجود دارد. یکی محور پذیرش دین (از پذیرش کامل تا عدم پذیرش) و دیگری محور تفسیر (از تفسیر نمادین تا تفسیر تحت الفظی). از ادغام متعامد این دو محور 4 شیوه نگرشی به وجود می آید که در شکل زیر نشان داده شده.


فونتاین و همکاران (2003) برای سنجش ابعاد مورد نظر وولف پرسشنامه ای طراحی کردند که هر یک از سوالات پرسشنامه روی هر دو محور بار داشت و برای تعیین روایی پرسشنامه هم از مقیاس بندی چندبعدی استفاده کردند. همانطور که میدانید تحلیل عاملی یک روش تک بعدی است، یعنی هر سوال پرسشنامه روی یک بعد بار دارد، اما در مقیا بندس چند بعد هر سوال می تواند روی چند بعد بار داشته باشد. نتایج حاصل از تحلیل ها نشان داد که ساختار پرسشنامه دو بعدی است (نقاط پراکنده در طرح نشانگر موقعیت سوالات با توجه به دو بعد مورد نظر هستند).


اگر بخواهید با تحلیل عاملی یا سایر شیوه های خوشه بندی کار را انجام دهید، راه به جایی نخواهید برد چرا که تمامی روش های خوشه بندی دیگر تک بعدی هستند و در آنجا هر سوال صرفا یک چیز را میسنجد اما در این نوع از پرسشنامه ها هر سوال دو چیز را میسنجد. مثلا یکی از سولاات پرسشنامه این بود: «هر نظری درباره خداوند تحت تاثیر زمانی است که آن نظر ارائه شده است». این گویه علیرغم بار داشتن روی بعد نحوه تفسیر (که نشانگر تفسیر نمادین از دین است)، روی میزان پذیرش (که نشانگر دو دسته افرادی که دین را پذیرفته یا نپذیرفته اند میباشد) هم بار دارد.


بگذارید مثال ساده تری بزنم. مثلاً فرض کنید فواصل بیش شهر های ایران را دارید و میخواهید از آنها یک نقشه دو بعدی بسازید، یک بعد بیانگر طول جغرافیایی و دیگری بیانگر عرض جغرافیایی، این کار را میتوانید با مقیاس بندی چند بعدی انجام دهید. مقیاس بندی چند بعدی هر شهر را به صورت یک نقطه در آورده و آن را در یک نقشه دو بعدی برایتان ترسیم می کند. حتی اگر بخواهید ارتفاع شهر ها از سطح دریا را نیز محاسبه کنید، آن وقت مقیاس بندی چند بعدی یک نقشه سه بعدی از شهر ها را به شما نشان خواهد داد که بیشترین تناسب را با واقعیت دارد. در این مثال هر شهر روی هر دو بعد ارزشی را به خود اختصاص میدهد مانند سوالات پرسشنامه فونتاین و همکاران.

نه تنها در ساخت مقیاس، بلکه در ساخت ویژگی های شخصیتی، در حیطه ادراک، احساس، شناخت  و بسیاری از حیطه های دیگر نیز مقیاس بندی چند بعدی کاربرد دارد

برنامه های مختلفی هست که قادربه انجام مقیاس بندی چند بعدی هستند. محبوب ترین آنها برنامه SPSS است. این برنامه الگوریتم های مختلفی برای انجام این نوح تحلیل فراهم کرده است.

در پایان معتقدم تا در هر کاری روش هایمان مناسب و دقیق نباشد، نتایجمان هم قابل اعتماد نیست. اگرچه مقیاس بندی چند بعدی از دقت سایر روشها برخوردار نیست، اما خصیصه چند بعدی بودنش اطلاعاتی را فراهم می کند که سایر روش ها از ارائه چنین اطلاعاتی عاجز هستند. به شدت جای چنین روش هایی در ادبیات پژوهشی روانشناسی خالی است.

نویسنده سعید

http://farmani-saeid.persianblog.ir/post/13

تعريف و انواع روايي

تعريف و انواع روايي

روايي اصطلاحي است كه به هدفي كه آزمون براي تحقق بخشيدن به آن درست شده است، اشاره مي‌كند. لين و گرانلاند (2000) روايي را به صورت يك ارزشيابي از كفايت و مناسبت تفسيرها و استفاده‌هاي نتايج سنجش تعريف كرده‌اند. كاپلان و ساكوزو (2001) گفته‌اند: روايي را مي‌توان به صورت توافق بين نمره‌ي آزمون و كيفيتي كه قرار است اندازه بگيرد، تعريف كرد.


بنابر آنچه گفته شد، آزموني داراي روايي است كه براي اندازه‌گيري آن‌چه مورد نظر است، كافي و مناسب باشد. براي مثال، يك آزمون پيشرفت تحصيلي رياضي كلاس پنجم دبستان، درصورتي يك آزمون روا است كه محتوا و هدف‌هاي آن درس را به‌خوبي اندازه‌گيري كند و به‌جز يادگيري دانش‌آموزان از آن درس، چيز ديگري را شامل نباشد. آزمون‌هاي مورد استفاده در آموزش و پرورش و روانشناسي داراي سه هدف عمده هستند كه به سه پرسش زير پاسخ مي‌دهند:

1-   آيا سؤال‌هاي آزمون از محتواي موضوع مورد نظر يك نمونه‌ي خوب ارايه مي‌دهند؟

2-   آيا نمرات آزمون عملكرد فعلي يا آتي دانش‌آموزان را پيش‌بيني مي‌كنند؟

3-   آيا نمرات آزمون به مفاهيم نظري يا سازه‌هايي كه آزمون براي سنجش آن‌ها درست شده، مربوط است؟

محتوی اولیه و پیشنهادی به صورت مقدماتی برای روانسنجی2


روايي وابسته به ملاك: روايي پيش بين

روايي پيش بيني ويژه آزمون هايي است كه براي پيش بيني موفقيت افراد در امور تحصيلي و شغلي به كار مي روند.

براي مثال، آزمون هاي ورودي دانشگاه ها به منظور پيش بيني احتمال موفقيت تحصيلي داوطلبان در دانشگاه به كار مي روند. 

در يك امتحان استخدامي، سوال هاي آزموني كه براي گزينش داوطلبان اجرا مي شود متغير پيش بين و موفقيت و كارايي انتخاب شدگان در شغل آينده متغير ملاك است.

آزمون سنجش آمادگي براي ورود به كلاس اول دبستان كه در مورد كودكان 6 ساله اجرا مي شود، متغير پيش بين و نمره هايي كه دانش آموزان در كلاس اول مي گيرند متغير ملاك است.

روايي وابسته به ملاك: روش تعيين روايي پيش بين

فرض كنيد بخواهيم تعيين كنيم كه يك آزمون ورودي دانشگاه داراي روايي پيش بين است يه نه، بايد رابطه بين نمرات داوطلبان ورود به دانشگاه را در اين آزمون با نمرات آنان در درس هايي كه بعدا در دانشگاه مي گيرند، تعيين كنيم. و ضريب همبستگي بين آن ها را به دست آوريم.

گاه تبديل متغيري كه بايد پيش بيني شود به صورت عددي به سادگي امكان پذير نيست. براي مثال، اگر بخواهيم يك آزمون يا يك پرسش نامه انتخاب معلمي بسازيم، بايد يك وسيله اندازه گيري موفقيت در شغل معلمي نيز درست كنيم تا بتوانيم عملكرد فرد را در اين دو نوع وسيله اندازه گيري با هم مقايسه كنيم. براي تعيين ميزان موفقيت معلمان در فعاليت هاي آموزشي هم باي از نظر مديران، همكاران، دانش آموزان و دانشجويان استفاده كرد و هم از ميزان پيشزفت تحصيلي دانش آموزان و دانشجويان آن معلمان.

روايي وابسته به ملاك: روايي همزمان

روايي همزمان نوعي روايي ملاكي است كه در آن به جاي تعيين رابطه بين دو آزمون پس از گذشت يك فاصله زماني، رابطه بين دو آزمون به طور همزمان تعيين مي شود. هدف از تعيين روايي همزمان بين دو آزمون اين است كه معلوم سازيم آيا مي توان يكي از دو آزمون را به جاي ديگري مورد استفاده قرار دهيم يا نه.

گنجاندن نمونه هايي از تكاليف شغلي در آزمون استخدامي موجب مي شود كه روايي ةمزمان ازمون افزايش يابد. روان شناسان صنعتي، اغلب بر اساس پاره اي از اطلاعات محدود ناگزيرند داوطلباني را براي مشاغل مختلف انتخاب كنند. آزمون هايي كه براي اين منظور ساخته مي شوند بايد نمونه هايي از رفتار آزمودني ها را كه با وظايف شغلي مورد نظر زابطه دارند اندازه گيري كنند.

روايي وابسته به ملاك: روايي همزمان

يكي ديگر از موارد كاربرد روايي همزمان، استفاده از الگوهاي علايق شغلي كساني است كه از مشاغل خود رضايت دارند به عنوان متغير ملاك و مقايسه الگوهاي علايق شغلي ساير افراد(داراي مشاغل متفتوت) با اين الگوها. پسش هايي كه دو گروه آزمودني مذكور را به گونه معني داري از هم تفكيك مي كنند براي تدوين پرسش نامه فرم اصلي انتخاب مي شوند.

به عنوان مثال ديگر، يك آزمون استعداد فني در مورد گروهي از تكنسين ها و مهندسان مشاغل فني و گروه مشابهي از آزمودني ها كه در مشاغل غير فني(مثلا اداري و دفتري) اشتغال دارند اجرا مي شود. اگر ميانگين نمره هاي افراد گروه اول به گونه معني داري بالاتر از ميانگين نمره هاي گروه دوم باشد، گفته مي شود كه آزمون داراي روايي همزمان است. 

روايي وابسته به ملاك: روش تعيين روايي همزمان

در تعيين روايي همزمان، هنگام اندازه گيري متغير پيش بين، علاوه بر اين متغير، متغر ملاك نيز موجود است. در حالي كه در تعيين روايي پيش بيني، متغير ملاك در آيندن اندازه گيري مي شود. به سخن  ديگر، اگر به عوض مقايسه نمرات يك آزمون با نمرات آزمون ديگري كه در اينده به دست ]واهند آمد، نمرات آزمون اول را با نمرات آزمون ديگري كه همزمان با آزمون اول يا در فاصله كوتاهي بعد از آن اجرا مي شود مقايسه كنيم، رابطه حاصل بين اين دو آزمون همزمان اجرا شده، نشان دهنده روايي همزمان است.

براي مثال، رابط بين نمران حاصل از يك پرسش نامه و تشخيص متخصص براي تشخيص  يك بيماري رواني مثال از روايي همزمان پرسش نامه است.

روايي وابسته به ملاك: مقايسه روايي همزمان و پيش بين

در روايي پيش بين، نمرات آزمون اولي واقعا براي پيش بيني نمراه فرد در آزمون دوم استفاده مي شود، اما در روايي همرمان هدف اصلي پيش بيني نيست بلكه شناسايي يك آزمون مناسب براي آزمون ملاك است كه بتوانيم آن را با اطمينان به جاي آزمون ملاك به كار ببريم.

آزمون پيش بين بايد با آزمون ملاك رابطه بالايي داشته باشد و اجراي آن نسبت به آزمون ملاك از لحاظ اقتصادي و زماني به صرفه تر باشد.

روايي وابسته به ملاك: ضريب روايي ملاكي

رابطه بين آزمون و متغير ملاك به صورت ضريب همبستگي بيان مي شود كه آن را ضريب روايي مي نامند. براي تعيين ضريب روايي ملاكي آزمون كافي است بين نمره هاي آزمون گروه نمونه اي از آزمودني ها و نمره هاي ملاك آنان همبستگي محاسبه شود.

براي اين كه معلوم شود اين ضرايب روايي تا چه اندازه با معني هستند، قاعده قطعي وجود ندارد. در عمل به ندرت ممكن است ضريب روايي يك ازمون از 0/60 بالاتر باشد، بتابراين ضرايب روايي 0/30 و 0/40 ضرايب نسبتا بالايي به شمار مي روند. يك ضريب همبستگي در صورتي از نظر آماري معني دار است كه احتمال به دست آوردن تصادفي آن كمتر از 5 درصد باشد.

روايي وابسته به ملاك: ضريب روايي ملاكي

در پيش بيني موفقيت در دانشگاه (به عنوان متغير ملاك)علاوه بر  نمرات آزمون ورودي به دانشگاه ( به عنوان متغير پيش بين)ممكن است متغيرهاي متعددي دخيل باشند لذا اين سوال باقي مي ماند كه چه ميزان از تغييرات موفقيت دانشگاهي به وسيله ازمون مذكور تبيين مي شود؟

مجذور ضريب اعتبار پيش بين آزمون، درصد تغييرات متغير ملاك را كه به وسيله آزمون پيش بين تبيين مي شود نشان مي دهد. براي مثال،اگر همبستگي بين نمره نهايي آزمون ورودي و شاخص موفقيت تحصيلي در دانش گاه، 0/40 باش مي توانيم بگوييم كه 16 درصد تغييرات موفقيت تحصيلي در دانشگاه به وسيله نمرات آزمون ورودي تبييت مي شود و 84 درصد تغييرات به عوامل ناشناخته ديگري مربوط است كه تبيين نشده اند.


پيش بيني متغير ملاك از روي نمره آزمون

يكي از موارد مهم ضريب روايي پيش بين آزمون اين است كه از روي نمره آزمون پيش بين مي توان نمره متغير ملاك را پيش بيني كرد. براي اين كار لازم است معادله رگرسيون براي پيش بيني متغير ملاك از روي متغير پيش بين را تهيه كنيم. با در دست داشتن معادله رگرسيون و خطاي معيار برآورد(standard error of estimate)، مي توان از روي نمره آزمون پيش بين،حدود نمره متغير ملاك را برآورد كرد. اگر نمره پيش بيني شده ملاك براي فرد الف را به عنوان ميانگين توزيع نمره هاي ملاك آزمودني هايي كه در متغير پيش بيني نمره اي برابر نمره فرد الف گرفته اند فرض كنيم، در اين صورت انحراف معيار اين توزيع شاخصي از متوسط خطاي پيش بيني است. اين شاخص كه خطاي معيار برآورد ناميده مي شود، از رابطه زير به دست مي آيد.

پيش بيني متغير ملاك از روي نمره آزمون

خطاي معيار برآورد:

عناصر اين رابطه عبارتند از:

        =     خطاي معيار برآورد


S= انحراف معيار نمره هاي ملاك

R = ضريب همبستگي گشتاوري بين نمره هاي ملاك با نمره هاي آزمون(ضريب روايي پيش بين)

پيش بيني متغير ملاك از روي نمره آزمون

محاسبه خطاي معيار برآورد: مثال عددي

فرض كنيد معادله رگرسيون براي پيش بيني متغير ملاك و معدل امتحانات كلاس اول دبستان از روي متغير پيش بين(نمره هاي سنجش آمادگي) به صورت زير نوشته شده است.


                               در اين معادله           نمره پيش بيني شده ملاك و  x نمره آزمون پيش بيني است. اگر ضريب اعتبار پيش بيني آزمون سنجش آمادگي برابر 0/60 باشد، مي خواهيم معدل امتحانات كلاس اول كودكي را كه در آزمون سنجش آمادگي 15 گرفته است در سطح اطمينان 95 درصد پيش بيني كنيم. در ص.رتي كه بدانيم انحراف معيار نمره هاي معدي امتحاني آزمودني هاي گروه نمونه اي كه اين آزمون در مورد آنان اجرا شده است 2/2 باشد.


-

پيش بيني متغير ملاك از روي نمره آزمون

محاسبه خطاي معيار برآورد:


- نمره متغير ملاك بر اساس معادله رگرسيون


- برآورد حدود نمره واقعي آزمودني در كلاس اول در سطح اطمينان 95 درصد


 13.5±1.76*1.96 = 13.5±3.5


بنابراين نمره واقعي اين كودك با احتمال 95 درصد بين 10 تا 17 خواهد بود. چون ملاك قبولي در كلاس اول ابتدايي داشتن حداقل معدل 100 است، بنابراين با اطمينان 95 درصد مي توان پيش بيني كرد كه اين كودك در كلاس اول دبستان موفق خواهد شد.


عوامل موثر بر روايي ملاكي

ضريب روايي ملاكي آزمون هايي كه به روش هاي مختلف و تحت شرايط متفاوت به دست آمده اند، حتي اگر اندازه آن ها يكسان هم باشد، از ارزش يكساني برخوردار نيستند زيرا ضرايب روايي وابسته به ملاك، تحت تاثير عوامل مختلفي قرار مي گيرند. بنابراين مصرف كننده آزمون ها در انتخاب آزمون هاي رواني براي هدف هاي خود بايد همه عوامل موثر در ضرايب روايي ملاكي را به دقت بررسي و مورد توجه قرار دهند. 

عوامل موثر بر روايي ملاكي: تفاوت هاي گروهي

اعتبار وابسته به ملاك يك آزمون بر حسب خصايص افرادي كه مبناي برآورد روايي ملاكي آزمون بوده اند، تفاوت مي كند.

تفاوت بين گروه هاي آزمودني از نظر متغيرهايي مانند جنسيت، سن، و صفات شخصيت- كه متغيرهاي تعديل كننده ناميده مي شوند- ممكن است همبستگي بين آزمون و متغير ملاك را تحت تاثير قرار دهند.

درجه ناهمگوني گرون نمونه مورد آزمايش از نظر متغير ملاك نيز مي تواند اندازه ضريب محاسبه شده را تحت تاثير قرار دهد. معمولا در يك گروه همگون يعني گروهي كه دامنه تغيير نمره هاي آن ها در متغير ملاك كم است، ضريب همبستگي كمتر است. چون در عمل ضريب همبستگي همواره تابعي از دو متغير است، بنابراين پايين بودن دامنه تغيير نمره ها در هر يك از متغيرهاي ملاك و پيش بين موجب مي شود كه ضريب اعتبار آزمون كاهش يابد.



عوامل موثر بر روايي ملاكي: تفاوت هاي گروهي

چون اندازه ضريب اعتبار بر حسب ماهيت گروه آزمودني تغيير مي كند، لازم است آزموني كه روايي ملاكي آن در مورد گروه خاصي از آزمودني ها مشخص شده است، در مورد گروه نمونه ديگري از آزمودني ها اجرا و كجددا روايي ملاكي آن در مورد گروه جديد برآورد شود. اين عمل را وارسي ملاكي(cross validation) مي نامند.

بنابراين وارسي روايي مستلزم آن است كه آزمون در مورد گروه نمونه ديگري اجرا و ضريب روايي ملاكي آن بر اساس آن برآورد شود، تا معلوم گردد كه ضريب روايي گزارش شده آزمون تا چه اندازه با ضريب روايي جديد همخواني دارد. معمولا بر اثر برخي عوامل تصادفي مقدار ضريب روايي آزمون در وارسي روايي كاهش مي يابد. در نتيجه ضريب همبستگي محاسبه شده بين آزمون و متغير ملاك در مرحله وارسي روايي در مقايسه با ضريب همبستگي اوليه، شاخص مناسب تري براي روايي ملاكي آزمون است. 

در هر حال، ضريب روايي محاسبه شده از طريق روش وارسي روايي نشان خواهد داد كه روايي ملاكي آزمون را تا چه اندازه مي توان در مورد گروه هاي ديگر تعميم داد. 

عوامل موثر بر روايي ملاكي: طول آزمون

روايي ازمون هم مانند اعتبار آن به طور مستقيم از طول آزمون تاثير مي پذيرد. زيرا به طور كلي هر چه تعداد سوال هاي آزمون بيشتر باشد، واريانس آن بيشتر است. براي اطلاح ضريب روايي آزمون براي كاهش اثز محدوديت تعداد سوال هاي مي توان همان روشي را كه در مورد اعتبار آزمون مورد بحث قرار گرفت، به كار بست. اما چون استفاده از فرمول اصلاح ضريب اعتبار مستلزم وجود شرايط ويژه است، بنابراين در عمل كمتر مي توان از آن استفاده كرد.

عوامل موثر بر روايي ملاكي: روايي و اعتبار متغير ملاك

روايي آزمون نه تنها از ضرايب اعتبار آزمون هاي ملاك و پيش بين، بلكه هم چنين از روايي آزمون ملاك كه براي اندازه گيري متغير ملاك به كار رفته است نيز تاثير مي پذيرد.

گاهي آزمون ملاك، روايي كمي دارد و يا به سبب روش نامناسبي كه براي اندازه گيري متغير ملاك به كار مي رود، اهندازه هاي به دست آمده براي متغير ملاك با نوعي خطا همراه است.

به عنوان مثال، ممكن است نمره هاي حاصل از اجراي يك آزمون به عنوان متغير ملاك مورد استفاده قرار گيرد كه روايي ملاكي آن آزمون كاملا مشخص نيست.

به عنوان يك مثال ديگر، در بررسي روايي يك آزمون استعداد شغلي، درجه بندي مهارت هاي شغلي آزمودني ها توسط سرپرستان به عنوان متغير ملاك به كار بسته شود و نمره هاي مقياس درجه بندي تحت تاثير خطاهاي درجه بندي مثلا خطاي هاله اي قرار گيرد.

بنابراين آزموني كه روايي ملاكي آن بر اساس ملاكي كه خود فاقد روايي و اعتبار كافي است به دست آمده است، نمي تواند به عنوان يك آزمون معتبر و روا مورد استفاده قرار گيرد. 

عوامل موثر بر روايي ملاكي: حجم نمونه

گاهي ممكن است روايي بر مبناي يك گروه نمونه كوچك برآورد شده باشد. همبستگي محاسبه شده در مورد يك نمونه كوچك نمي تواند به اندازه همبستگي حاصل از اجراي آزمون در مورد يك نمونه بزرگ تر معتبر باشد. اين امر به ويژه در مورد همبستگي چند متغيري بيشتر صادق است. هر چه حجم نمونه كوچك تر باشد، احتمال به دست آوردن عمبستگي بزرگ تري كه صرفا بر اساس عامل تصادف به دست آمده است، بيشتر است.

عوامل موثر بر روايي ملاكي: معرف بودن گروه نمونه

در بررسي ضريب روايي آزمون ها بايد به اين نكته توجه داشت كه آيا گروهي كه روايي ملاكي بر مبناي خصايص آن گروه برآورد شده است، معرف جامعه اي كه اكنون مي خواهيم آزمون را براي پيش بيني رفتار افراد جامعه به كار ببريم هست يا خير.

به عنوان مثال، اگر ضرريب روايي يك آزمون هوش در مورد كودكان ساكن تهران به دست آمده باشد، احتمال اين كه ضريب در مورد كودكان ساير استان هاي كشور صدق كند، كم است. آزمون تدوين شده براي پيش بيني رفتاردانش آموزان دختر و يا دانش آموزاني كه زبان مادري آنان فارسي است، ممكن است براي پيش بيني رفتار دانش آموزان پسر و يا دانش آموزاني كه زبان مادري آنان فارسي است فاقد روايي ملاكي باشد.

روايي وابسته به سازه

تا پيش از 1950 دانشمندان علوم اجتماعي تنها به روايي محتوا و روايي ملاكي توجه نداشتند. در سال هاي نيمه دهه 1950 پژوهشگران به اين نتيجه رسيدند كه براي بيشتر خصايص اجتماعي و رواني ملاك(بيروني) روشني وجود ندارد.

براي مثال، ساختن آزموني براي اندازه گيري هوش دشوار بود، زيرا كسي به طور قطع نمي دانست بگويد هوش چيست. روايي ملاكي مستلزم آن است كه ملاك مشخصي براي هوش وجود داشته باشد تا آزموني كه براي اندازه گيري هوش ساخته مي شود با آن مقايسه شود. مساله اين است كه ملاك مشخصي براي هوش وجود ندارد. هوش يك سازه فرضي است كه نمي توان يك ملاك قطعي و كاملا مشخص براي آن پيدا كرد. 

روايي وابسته به سازه

در حال حاضر، ما اغلب مي خواهيم خصايصي مانند هوش، كنجكاوي، سلامت رواني و مانند اين ها را اندازه بگيريم. همه اين ها سازه هايي هستند كه نمي توان آن ها را تعريف كرد و ملاك هاي مشخصي براي مقايسه نتايج آزمون ها با اين ملاك ها در دست نيست. اين ها مسايل عمده اي هستند كه روان شناسان اغلب با آن ها درگيرند.

روايي سازه با انجام رشته اي از فعاليت هاي كه پژوهشگر از طريف آن ها به طور همزمان سازه هايي را تعريف و ابزارهايي براي اندازه گيري آن ها مي سازد، به دست مي آيد. روايي سازه مستلزم جمع آوري شواهدي است تا بر اساس آن ها معناي آزمون روشن شود. هر بار كه زابطه اي به دست مي ايد، يك معناي اضافي براي آزمون پيدا مي شود. پس از يك رشته مطالعات، معناي آزمون به تدريج شكل مي گيرد. استقرار روايي سازه براي ازمون يك فرايند مداوم است، و به فرايند ساختن نظريه هاي پيچيده علمي بر اساس مجموعه شواهد علمي شباهت دارد. شواهد قطعي روايي سازه هر گز بر اساس مشاهدات منحصر به فرد به دست نمي آيد.



روايي وابسته به سازه: شواهد همگرا و واگرا

كمپيل و فيسك(1959) براي تهيه آزمون هايي كه روايي سازه دارند اصولي را مطرح كرده اند كه در اين جا مورد بحث قرار مي گيرد. آن ها دو نوع شواهد را كه براي با معنا كردن آزمون امري اساسي است، مورد توجه قرار داده اند كه عبارتند از شواهد همگرا(convergent) و شواهد واگرا(discriminant). به نظر آنان براي اين كه آزمون داراي روايي سازه باشد، لازم است هر اندازه كه امكان دارد شواهدي در مورد روايي همگرا و روايي افتراقي فراهم شود

روايي وابسته به سازه: شواهد همگرا

شواهد روايي همگراي آزمون از طريق همبستگي نمره هاي آن با نمره هاي ديگر آزمون هايي كه همان سازه را اندازه مي گيرند جمع آوري مي شود. اين دسته شواهد نشان مي دهند كه آزمون مورد نظر با ساير آزمون هايي كه همان سازه را اندازه مي گيرند «همگرا» است.

شواهد همگرا براي روايي سازه از بسياري جهات شبيه روايي ملاكي است. زيرا در هر دو مورد نمره هاي آزمون با نمره هاي آزمون هاي ديگر همبسته مي شوند. اما، در مورد شواهد همگرا به عنوان ملاك روايي سازه براي تعريف آن چه كه اندازه گيري مي شود، ملاكي وجود ندارد. 

روايي ملاكي براي موقعيت هايي كه مي خواهيم عملكرد افراد را در يك متغير خاص- مانند موفقيت در دانشگاه- پيش بيني كنيم مناسب است. در اين جا تكليف كاملا مشخص است، و آن چه كه لازم است انجام شود اين است كه سوال هايي ساخته شوند كه ملاك مورد نظر را به خوبي پيش بيني كنند. در ورايي ملاكي كه كاملا تعريف شده باشند وجود ندارد، از اين رو معناي آزمون بر اساس متغرهايي كه آزمون با آن ها همبسته است روشن مي شود.

روايي وابسته به سازه: شواهد همگرا

براي روشن شدن روايي همگرا به مطالعه اي كه توسط كاپلان، بوش و بري(1976) براي اندازه گيري سازه سلامتي انجام داده اند اشاره مي شود. سلامتي سازه پيچيده اي است كه ابعاد مختلف دارد. به سبب اين پيچيدگي، ملاك منحصز به فردي وجود ندارد كه اندازه سلامتي با آن سنجيده مي شود. بنابراين پژوهشگران ناگزير شدند شواهد همگراي اين سازه كه آن ها را شاخص سلامتي ناميدند بررسي كنند.

شواهد همگرا با يكي از اين دو روش به دست مي آيد. 

روش اول آن است كه نشان داده شود آزمون همان خصيصه اي را اندازه مي گيرد كه آزمون هاي مشابه ديگر اندازه مي گيرند.

روش دوم بدين ترتيب است كه روابط خاصي به دست مي آيد كه نشان دهد آزمون خصيصه مورد نظر را به روشني اندازه گيري مي كند.

مطالعه در باره شاخص سلامتي، اين هر دو دسته شواهد را شامل بود.


روايي وابسته به سازه: شواهد همگرا

پژوهشگران براي نشان دادن معناي شاخص سلامتي پيوسته از خود سوال مي كردند «اگر واقعا سلامتي را اندازه مي گيريم، چه نوع روابطي را بايد بين شاخص سلامتي و ساير اندازه ها انتظار داشته باشيم؟». 

ساده ترين رابطه در اين مورد، رابطه بين نمره هاي شاخص سلامتي و درجه بندي سلامتي آزمودني ها توسط خود  آن هاست. بررسي نشان داد كه بين نمره هاي شاخص سلامتي و درجه بندي سلامتي آزمودنيه ا توسط خودشان رابطه قوي وجود دارد. اما بايد دانست شواهد روايي همگرا بسيار فراتر از رابطه اي است كه بدين ترتيب به دست مي آيد، زيرا روش خود- درجه بندي روش چندان پايايي نيست.

روايي وابسته به سازه: شواهد همگرا

در روايي سازه هيچ ملاك منحصر به فردي نمي تواند به عنوان ملاك سازه به كار رود. بنابراين، رباي نشان دادن ساير روابط، مطالعات ديگري انجام شد. به عنوان مثال، معلوم شد كسلني كه از شاخص سلامتي نمره كمتري ميگيرند، معمولا در باره علايم بيماري آشكار و مزمن خود بيشتر گزارش مي دهند. علاوه بر آن پژوهشگران چنين فرض كردند كه وضع سلامتي افراد با سن آن ها رابطه دارد و لذا مشاهده كردند كه بين اين دو متغير رابطه موجود است. افراد مسن تر، از مقياس شاخص سلامتي نمره هاي كمتري گرفتند.

روايي وابسته به سازه: شواهد همگرا

پژوهشگران مذكور هم چنين اين فرضيه را مطرح كردند كه «اگر شاخص سلامتي واقعا وضع سلامتي افراد را اندازه مي گيرد، بايد بين نمره هاي اين شاخص و تعداد موارد مراجعه آزمودني ها به پزشك رابطه وجود داشته باشد». در بررسي هاي پژوهشگران اين رابطه نيز به اثبات رسيد، و بدين ترتيب شاهد ديگري از روايي همگرا به دست آمد.

هم چنين اين فرضيه را مطرح كردند كه «ميانگين نمره هاي افراد معلول بايد به گونه معني داري پايين تر از ميانگين نمره هاي افراد سالم باشد.» و اين فرضيه نيز به عنوان يكي ديگر از شواهد روايي همگرا به اثبات رسيد. در اين تحقيق شواهد ديگير از جمله رابطه بين نمره هاي شاخص سلامتي و برخي از جنبه هاي فيزيولوژيكي افراد مبتلا به بيماري هاي ريوي، ديابت و مانند آن ها مورد بررسي قرار گرفت و تاييد شد.

بدين ترتيب ، در يك رشته از مطالعات، انبوهي از شواهد به دست آمد كه به تدريج معناي آن چه را كه به وسيله شاخص سلامتي اندازه گيري مي شد براي پژوهشگران روشن ساخت. با وجود اين، شواهد همگرايي تمامي شواهد مربوط به روايي سازه را در آزمون هاي رواني در بر نمي گيرد. بنابراين مطالعاتي نيز در باره شواهد افتراقي روايي سازه امري ضروري است.

روايي وابسته به سازه: شواهد افتراقي

براي روان شناس ممكن است اين سوال مطرح شود كه اگر براي اندازه گيري خصيصه اي يك ازمون ساخته شده است، ساختن آزمون هاي ديگري كه همان خصيصه را اندازه گيري مي كند چه ضرورتي دارد؟ 

به عنوان مثال، اگر شخص سلامتي همان خصيصه اي را مي سنجد كه مي توان با مقياس خود- سنجي( يا خود درجه بندي)، مقياس سنجش تعداد علايم بيماري، و يا تعداد دفعات مراجعه به پزشك بررسي كرد، ساختن مقياس شاخص سلامتي چه لزومي دارد؟

پاسخ اين سوال آن است كه آزمون چيزي را اندازه مي گيرد كه با خصايصي كه به وسيله آزمون ها اندازه گيري مي شود تفاوت دارد. اثبات يگانگي(uniqueness) آزمون را روايي افتراقي يا روايي واگرا مي نامند.

بعضي از روان شناسان اظهار مي دارند كه تنها يك نوع روايي وجود دارد و آن روايي سازه است و ساير انواع روايي زير طبقه هايي از روايي سازه به شمار مي روند.

روايي وابسته به سازه: شواهد افتراقي

به طور كلي برخي از منابع مهمي كه شواهد روايي بر اساس مطالعه آن ها جمع آوري مي شود به شرح زير است:

1- قضاوت متخصصان در باره ميزان ارتباط محتواي آزمون با سازه مورد اندازه گيري

2- تحليل همساني دروني آزمون. هماهنگي دروني آزمون نشانگر يگانگي آزمون و احتمالا بيانگر آن است كه آزمون سازه واحدي را اندازه مي گيرد.

3- مطالعه تفاوت بين ميانگين نمره هاي گروه هاي مختلف. به عنوان مثال، اگر در يك آزمون هوش ميانگين نمره هاي كودكان 6 ساله بيش از ميانگين نمره هاي كودكان 5 ساله و كمتر از ميانگين نمره هاي كودكان 7 ساله باشد، اين تفاوت نشانگر سازه هوش است كه با افزايش سن رشد مي كند. هم چنين در يك آزمون سنجش اضطراب بايد ميانگين نمره هاي بيماران اضطرابي يالاتر از ميانگين نمره هاي افراد سالم باشد.


روايي وابسته به سازه: شواهد افتراقي

4- همبستگي بين آزمون با ساير متغيرها يا آزمون هايي كه انتظار مي رود همان خصيصه را اندازه بگيرند و تحليل عاملي همبستگي هاي متقابل.

5- مورد پرسش قرار دادن آزمودني ها يا درجه بندي كنندگان در باره پاسخ هايشان نسبت به آزمون يا مقياس درجه بندي براي روشن كردن فرايندهاي خاصي كه به پاسخ هاي آن ها منتهي شده است.

6- بررسي عدم همبستگي آزمون با ساير متغيرهايي كه با سازه مورد نظر ارتباطي ندارند. به عنوان مثال، در آزمون MMPI ، بايد بين مقياس Ma (هيپوماني) و مقياسD (افسردگي) همبستگي منفي و ناچيز مشاهده شود، كه شاخصي از روايي واگراي اين دو مقياس است.

رابطه بين اعتبار و روايي

كوشش براي تعريف و برآورد روايي آزمون فاقد اعتبار تلاشي بيهوده است. به طور نظري مي توان گفت كه همبستگي آزمون با خودش بايد بزرگ تر از همبستگي آن با هر متغير ديگر باشد. بالاترين ضريب همبستگي بين دو متغير برابر ريشه دوم حاصل ضرب اعتبار آن هاست. كه با رابطه زير نشان داده مي شود:

عناصر رابطه بالا عبارتند از:

                 = حداكثر ضريب همبستگي بين دو متغير

       = ضريب اعتبار ازمون اول

     = ضريب اعتبار آزمون دوم

رابطه بين اعتبار و روايي

چون معمولا انتظار نمي رود كه ضرايب روايي خيلي بالا باشند، اين امكان وجود دارد كه همبستگي متوسط بين نمره هاي واقعي دو آزمون به علت پايين بودن ضرايب اعتبار آن ها از دست برود. در برآورد روايي ملاكي آزمون هر اندازه كه ضرايب اعتبار آزمون پيش بين و ازمون ملاك بالاتر باشد، احتمال افزايش ضريب روايي ملاكي دو آزمون بيشتر است و بالعكس.

نرم يا هنجار: مفهوم نرم

نرم يا هنجار عبارت است از متوسط عملكرد گروه نمونه اي از آزمودني ها كه به روش تصادفي از يك جامعه تعريف شده انتخاب مي شود. 

نرم آزمون هاي استاندارد شده بر اساس توزيع نمره هاي خام گروه نمونه اي از آزمودني ها به دست مي آيد. ميانگين و نقطه 50 درصدي اين توزيع، نمونه هايي از متوسط عملكرد گروه و به عبارت ديگر نرم يا هنجار گروه است. 

در آزمون هاي گروه مرجع، نرم يا هنجار مقياس محاسبه شده اي است كه نمره خام آزمودني با آن سنجيده مي شود تا عملكرد وي نسبت به متوسط عملكرد گروه مورد ارزشيابي قرار گيرد.

نرم يا هنجار: مفهوم نرم

براي استاندارد يا ميزان كردن يك آزمون، آن را بر اساس يك دستورالعمل استاندارد شده و تحت شرايط يكسان در باره يك گروه نمونه تصادفي انتخاب شده از جامعه اي كه آزمون در مورد آن استاندارد مي شود اجرا مي كنند. هدف عمده فرايند استاندارد كردن آزمون تعيين توزيع نمره هاي خام گروه معياريابي(گروه نرم) است. سپس نمره هاي به دست آمده به گونه اي از نمره هاي اشتقاقي(derived score)، مانند نمره هاي معادل سني، نمره هاي معادل كلاسي، رتبه هاي درصدي و يا نمره هاي تراز شده تبديل مي شوند. 

نرم يا هنجار: مفهوم نرم

در راهنماي اجراي بيشتر آزمون هاي استاندارد شده، جداول نرم وجود دارد كه با استفاده از آن ها نمره هاي خام آزمودني ها را مي توان به نمره هاي اشتقاقي تبديل و آن ها را تفسير كرد.

بدين ترتيب، نرم يك چهارچوب داوري است كه نمره خام آزمودني بر اساس آن تفسير و در باره وي قضاوت مي شود. مقايسه نمره خام آزمودني با جدول نرم به روان شناس امكان مي دهد كه موقعيت آزمودني را نسبت به توزيع نمره هاي خام ساير افراد گروه سني، كلاسي و يا جنسي او تعيين كند.


نرم يا هنجار: انتخاب گروه نرم

براي اين كه تفسير نمره خام آزمون به درستي انجام گيرد، نرم يا هنجار آزمون بايد با شرايط افرادي كه آزمون در مورد آنان اجرا مي شود همخواني داشته باشد. هنگامي كه نمره خام آزمودني بر اساس جدول نرم تفسير مي شود، بايد ماهيت افراد گروه نرم(سن، جنسيت، زبان مادري، گروه قومي، منطقه جغرافيايي، خصايص فرهنگي، سطح اجتماعي- اقتصادي و غيره) همواره مورد نوجه روان شناس باشد.


نرم يا هنجار: انتخاب گروه نرم

هنگام ميزان كردن آزمون به منظور تهيه نرم، ابتدا بايد جامعه اي كه قرار است آزمون در باره افراد آن جامعه(جامعه هدف) ميزان شود، به ئقت تعريف گردد. سپس گروه نمونه اي كه معرف اين جامعه باشد، به روش تصادفي از افراد جامعه به عنوان نمونه معياريابي انتخاب شود. 

روش نمونه گيري براي انتخاب گروه نرم، ممكن است از ساده ترين روش نمونه گيري(تصادفي ساده) تا پيچيده ترين روش (نمونه گيري طبقه اي و خوشه اي) استفاده شود.

بديهي است نمونه اي كه با روش نمونه گيري طبقه اي انتخاب مي شود، به دليل اين كه ار هر طبقه فرعي افراد جامعه(جنس، سن، زبان مادري و ...) نمونه هايي در گروه نرم فرار مي گيرند، بهتر از نمونه اي كه از روش تصادفي ساده انتخاب مي شود، معرف جامعه هدف خواهد بود.

نرم يا هنجار: نرم هاي ملي، منطقه اي و محلي

اگر جامعه هدف، به صورت كليه افراد يك كشور كه در يك يا چند صفت مشتركند تعريف شود و افراد گروه نرم از اين جامعه انتخاب گردد، نرمي كه بدين ترتيب به دست مي آيد نرم ملي يا كشوري ناميده مي شود. 

بريا انتخاب افراد گروه نرم ملي به سبب گسترده و ناهمگوني جامعه ناگزير بايد از روش نمونه گيري خوشه اي و طبقه اي استفاده شود. در جوامع گسترده و ناهمگون لازم است اولا حجم نمونه انتخاب شده نسبتا زياد باشد، ثانيا طوري نمونه گيري شود كه از همه گروه هاي مختلف جامعه نمونه هايي در گروه نرم قرار گيرند.

نرم يا هنجار: نرم هاي ملي، منطقه اي و محلي

اگر جامعه هدف به صورت كليه افراد يك استان يا منطقه اي از يك كشور كه شامل چند استان همجوار است و در يك صفت مشتركند تعريف شود و افراد گروه نمونه از اين جامعه انتخاب گردد، جداول نرم به دست آمده از نمره هاي خام آزمودني ها، نرم منطقه اي خواهد بود. به عنوان مثال، در مراحل ميزان كردن يك آزمون هوش براي كودكان ايراني ممكن است كشور را بر اساس خصوصيات اقليمي، زبان و گويش و ساير ويژگي هاي مشترك به چند زير جامعه تقسيم و از هر زير جامعه نمونه اي انتخاب و نرم هاي متفاوتي تدوين شود.

هر گاه گروه نرم از افراد يك شهر، يك بخش، قسمتي از يك شهر و يا حتي دانش آموزان يك مدرسه انتخاب شود، جدول نرمي كه بدين ترتيب بر اساس نمره هاي خام افراد گروه نرم ساخته مي شود، نرم محلي خواهد بود.

نرم يا هنجار: نرم هاي سني و كلاسي

نرم هاي سني و نرم هاي كلاسي از جمله نرم هايي هستند كه مصرف كنندگان آزمون ها با آن ها آشنايي دارند. نرم سني(نرم معادل سن تقويمي) نمره مياني يك آزمون است كه افراد گروه سني معيني نمره هاي برابر آن گرفته اند. نرم هاي سني بر حسب سال و ماه و با فاصله هاي يك ماه تدوين مي شوند. به عنوان مثال، نرم سني براي كودكان 5 ساله به صورت زير طبقه بندي مي شود كه در آن ها اعداد سمت چپ، نماينده سال و اعداد سمت راست نماينده ماه هستند.: 0 – 5 سال، 1 – 5 سال و...

نرم هاي كلاسي در كشور هايي كه سال تحصيلي 10 ماه است، بر حسب پايه و ماه هاي سال تحصيلي با فاصله يك ماه به صورت زير طبقه بندي مي شوند كه در آن ها اعداد سمت چپ سطح يا پايه تحصيلي و اعداد سمت راست ماه هاي سال تحصيلي را نشان مي دهند.

1 – 4 سال، 2 – 4سال، 3 – 4 سال و....

نرم يا هنجار: نرم هاي سني و كلاسي

مثلا، طبقه 1-4، به معناي عملكرد دانش آموزان كلاس چهارم در ماه اول يال تحصيلي است. در نظام آموزشي ايران براي تهيه نرم كلاسي، چون سال تحصيلي 9 ماه است، بنابراين طبقه هاي معادل كلاسي در هر پايه تحصيلي شامل 9 طبقه خواهد بود. طبقه بندي نرم كلاسي به فاصله يك ماه بر اين فرضيه استوار است كه با گذشت ماه هاي سال تحصيلي، به تدريج و با آهنگ يكسان سطح پيشرفت دانش آموزان افزايش مي يابد.

نرم سني براي سنجش خصايصي به كار مي رود كه با افزايش سن رابطه دارند مانند هوش و بعضي از استعدادهاي شناختي ديگر.

نرم كلاسي براي سنجش پيشرفت تحصيلي كه با افزايش پايه تحصيلي افزايش مي يابد به كار مي رود.

نرم يا هنجار: نرم هاي سني و كلاسي

يكي از محدوديت هاي نرم سني و كلاسي اين است كه واحدهاي مقياس اين دو نرم در طول مقياس برابر نيستند.

به عنوان مثال، تفاوت افزايش سطح پيشرفت تحصيلي در فاصله بين معادل هاي كلاسي 2-5 تا 4-5 با افزايش سطح پيشرفت تحصيلي در فاصله هاي معادل هاي كلاسي 2-8 تا4-8 برابر نيست.

در عمل واحد هاي نرم سني و معادل كلاسي با افزايش سن و پايه تحصيلي مرتبا كوچك نر مي شوند. بنابراين به سبب ناهمساني در سرعت افزايش توانايي هاي مورد اندازه گيري و در نتيجه نابرابري واحدها، متخصصان اندازه گيري آموزشي و تربيتي ترجيح مي دهند از نرم هايي استفاده كنند كه واحدهاي آن ها در طول مقياس همساني بيشتري داشته باشد.

نرم يا هنجار: نرم هاي سني و كلاسي

اما به سبب سهولت استفاده از نرم هاي سني و كلاسي، اين نرم ها در سطح مدارس ابتدايي، كه فرض همساني نسبي آهنگ رشد بيشتر صادق باشاست، هم چنان مورد استفاده قرار مي گيرند. با وجود اين، در اين سطح نيز لازم است براي هر يك از گروه هاي سني و يا معادل هاي كلاسي، نمره هاي تراز شده يا رتبه هاي درصدي تهيه شود.

نرم يا هنجار: نرم هاي سن هنجاري

modal age norms

معمولا همه دانش آموزان يك پايه تحصيلي كه نرم كلاسي براي آن تهيه مي شود سن برابر ندارند و دامنه تغيير سن آن ها اغلب زياد است. با وجود اين، نمره هاي دانش آموزان خيلي جوان تر و افراد مسن تر از افراد متوسط كلاس در محاسبه نرم وارد مي شود. براي تهيه شاخص دقيق تر از متوسط نمره دانش آموزان يك پايه تحصيلي، نمره هاي افراد خيلي جوان تر و افراد خيلي مسن تر حذف و نرم بر اتساس نمره هاي دانش آموزاني كه سن آن ها با سطح پايه تحصيلي شان متناسب است محاسبه مي شود. نرم كلاسي كه بدين ترتيب به دست مي آيد، نرم سني هنجاري ناميده مي شود.

نرم يا هنجار: نرم هاي سن عقلي

mental age norms

اصطلاح سن عقلي توسط آلفرد بينه، روان شناس فرانسوي مطرح شد و امروزه در بيشتر آزمون هاي هوشي مورد استفاده قرار مي گيرد. سن عقلي يك آزمودني معين برابر سن تقويمي آن دسته از كودكان همسال او در يك گروه هنجاريابي است كه نمره مياني آن ها با نمره آزمودني مورد نظر برابر باشد. معمولا در مدارس عقب مانده هاي ذهني، طبقه بندي دانش آموزان براي هدف هاي آموزشي بر مبناي سن عقلي انجام مي گيرد.

نرم يا هنجار: خارج قسمت ها

quotients

يكي از روش هاي قديمي تهيه نرمة كه اكنون تقريبا كنار گذاشته شده است، تبديل نرم سني آزمودني به نوعي خارج قسمت بود كه از تقسيم نمره سني يا سن عقلي بر سن تقويمي و ضرب آن در عدد 100به دست آمد. بدين ترتيب خارج قسمت هوش در فرم قديمي آزمون استنفورد بينه از رابطه زير محاسبه مي شد.      (MA/CA) 100 = IQ

در اين رابطه، IQ خارج قسمت هوش يا هوشبهر، MA سن عقلي و CA سن تقويمي آزمودني است.

هم چنين خارج قسمت تحصيلي(educational quotient) در بعضي از آزمون هاي پيش رفت تحصيلي از راه تقسيم نرم سني بر سن تقويمي به دست مي آمد. 

نرم يا هنجار: نرم هاي درصدي

نرم هاي درصدي بر اساس نمره هاي خام آزمودني هاي گرو نرم كه با فاصله طبقه اي معين طبقه بندي مي شوند، به دست مي آيد. هر نمره خام را نمره درصدي(percentile) و درصد افراد نرم را كه زير نمره معيني قرار ميگيرد رتبه درصدي(percentile rank) مي نامند. به عنوان مثال، در جدول شماره 1 نمره 72 در طبقه دوم از بالا نمره درصدي است كه رتبه درصدي آن 97 است، يعني نمره 97 درصد افراد زير آن قرار دارد.

نرم يا هنجار: نرم هاي درصدي

براي روشن شدن روش محاسبه نرم درصدي به جدول شماره 8-1 توجه كنيد.

در اولين ستون سمت چپ جدول، فاصله نمره ها با فاصله طبقه اي 5، در ستون دوم اعداد مياني هر طبقه و بالاخره تراكمي زير اعداد مياني طبقه ها را نشان مي دهد.

براي محاسبه فراواني تراكمي زير عدد مياني هر طبقه كافي است نصف فراواني مطلق آن طبقه را با مجموع فراواني هاي مطلق طبقه هاي پايين تر جمع كنيم.

به عنوان مثال، فراواني تراكمي زير عدد مياني براي پايين ترين طبقه برابر 0/5(0/5=يك دوم + 0 ) و براي دومين طبقه از پايين برابر 7/5 است.(7/5=13:2 + 1). رتبه درصدي هر طبقه از حاصل ضرب فراواني تراكمر زير عدد مياني آن طبقه در N : 100 به دست مي ايد. (N مجموع فراواني هاي مطلق و يا تعداد افراد گروه نرم است).


نرم يا هنجار: نرم هاي درصدي

نرم يا هنجار: نرم هاي درصدي

به سبب سهولت محاسبه و تفسير رتبه هاي درصدي، در جدول هاي نرم بيشتر آزمون هاي استاندارد شده از اين نرم استفاده مي شود. در اين جدول ها، نرم هاي درصدي براي گروه هاي سني، پايه هاي تحصيلي، شغلي، جنسيت و ساير گروه هاي محاسبه مي شود. نا همساني واحدهاي رتبه ها در نرم هاي درصدي نيز مانند نرم هاي سني و كلاسي از جمله محدوديت هاي نرم درصدي است.

چنان كه از نمودار 8-1 ملاحظه مي شود، واحد هاي رتبه هاي درصدي از نوع مقياس رتبه اي هستند نه مقياس فاصله اي. با توجه به نمودار شماره 8-1 ملاحظه مي شود كه فاصله بين رتبه هاي درصدي 5 و 0 يا 90 و 95 بزرگ تر از فاصله بين رتبه هاي 40 و 45 يا 60 و 65 است.

با وجودي كه تفاوت عددي هر دسته از اين دو رتبه با يكديگر برابرند، اما اندازه رتبه هاي درصدي برابر نيستند. زيرا به سبب خاصيت زنگوله اي بودن نمره ها، هر چه از دو حد انتهايي توزيع به حد وسط نزديك تر مي شويم اندازه رتبه ها مرتبا كاهش مي يابند.

نرم يا هنجار: نرم هاي درصدي

به سبب انباشته شدن رتبه هاي درصدي در وسط و پراكندگي آن ها در دو انتهاي توزيع، تفسير تغييرات و تفاوت هاي نرم هاي درصدي دشوار مي شود.

به عنوان مثال، تفاوت پيشرفت تحصيلي دو دانش آموز كه يكي رتبه 5 درصدي و ديگري رتبه 10 درصدي گرفته است، با تفاوت دو دانش آموز ديگر كه رتبه درصدي يكي 40 و رتبه درصدي ديگري 45 است، برابر نيست. تفاوت بين رتبه هاي 5 و 10 درصدي بيشتر از تفاوت بين رتبه هاي 40 و 45 درصدي است، زيرا واحدهاي مقياس در مورد دو رتبه اول بزرگ تر از واحد هاي رتبه ها ي دوم است. 

با وجود اين، چنان چه استفاده كنندگان از اين نرم، به نابرابري واحدهاي رتبه ها در طول مقياس توجه كنند و براي تفاوت رتبه هاي انتهايي در مقايسه با رتبه هاي مياني، وزن بيشتري قايل باشند، مي توانند آن ها را به گونه اي روشن تر تفسير كنند.

نرم يا هنجار: نرم نمره هاي تراز شده

(standard score norms)

بر خلاف نرم درصدي، نمره هاي تراز شده از نوع مقياس فاصله اي هستند كه اندازه واحدهاي آن ها در سرتاسر مقياس برابرند. نمره هاي تراز شده، نمره هاي تبديل شده اي هستند كه مي توان آن ها را بر حسب ميانگين و انحراف معيار دلخواه محاسبه كرد. نمره هاي تراز شده انئاع مختلف دارند كه از آن جمله اند نمره هاي z، نمره هاي Z، نمره هاي CEEB(Colledge Entrance Examination Bord، نمره هاي امتحانات ورودي دانشگاه ها)، نمره هاي AGCT(Army General Classification Test، آزمون هاي ارتشي آلفا و بتا)، هوشبهر انحرافي(deviation  IQ)، نمره هاي نه بخشي(stanine scores)، و نمره هاي T .

در عمل همه اين نرم ها بر مبناي نمره z محاسبه مي شوند.

نرم يا هنجار: نرم نمره هاي تراز شده

به نمودار ص 240 كتاب شريفي(1377) مراجعه نماييد.

نرم يا هنجار: نمره z

نمره z از رابطه زير به دست مي آيد.


در اين رابطه، X نمره خام،    ميانگين نمره هاي خام افراد گروه نرم و s انحراف معيار نمره هاي خام افراد گروه نرم است. با تبديل نمره هاي خام به نمره z توزيع جديدي به دست مي آيد كه ميانگين آن برابر با صفر و انحراف معيار آن برابر يك است. شكل منحني توزيع جديد با شكل توزيع نمره هاي خام آن يكسان است. در جدول شماره 8-1 نمره هاي z اعداد مياني طبقه ها در ستون 6 نشان داده شده است. به عنوان مثال، نمره z براي اعداد ميانياولين طبقه از بالا 2/59 است. در نمودار 8-1 نيز در خط پايه منحني نمره z از 4- تا 4+ نشان داده شده است.

نرم يا هنجار: نمره هاي Z

چون نمره z داراي ارقام اعشاري و نيمي از اين نمره ها در توزيع نرمال منفي است، بنابراين كاركردن با اين نمره ها تا اندازه اي دشوار است. اگر نمره z را در عدد ثابت 10 ضرب و حاصل ضرب را با عدد ثابت 50 جمع كنيم نمره هاي Z به دست مي آيد كه ميانگين آن ها 50 و انحراف معيار آن ها 10 است. شكل توزيع نمره هاي Z نيز مانند توزيع نمره هاي اصلي افراد گروه نرم با آن يكسان است. نمره هاي Z در ستون 7 جدول 8 – 1 نشان داده شده اند.

نرم يا هنجار: نمره هاي تراز شده بهنجار(نرمال) شده

همه نرم هاي نمره هاي تراز شده كه در بالا به آن ها اشاره شد، تبديل خطي ساده نمره هاي خام هستند. ميانگين و انحراف معيار توزيع نمره هاي تبديل شده با ميانگين و انحراف معيار نمره هاي خام تفاوت مي كند، اما شكل توزيع در هر دو مورد يكسان است. تبديل گروهي از نمره هاي خام به نمره هاي تراز به هنجار شده با محاسبه رتبه هاي درصدي نمره هاي خام شروع مي ود. سپس با استفاده از جدول سطح منحني نرمال، نمره هاي z هر يك از رتبه هاي درصدي به دست مي آيد. 

فرض كنيد مي خواهيم عدد مياني(ستون 2) جدول شماره 8-1 را به نمره هاي تراز به هنجار شده تبديل كنيم. چون رتبه هاي درصدي اين نمره ها محاسبه شده است(ستون 5)، لذا كافي است اين رتبه ها را با تقسيم كردن بر صد به نسبت تبديل كرده و سپس z مربوط به آن را از جدول سطح منحني نرمال پيدا كنيم. نمره هاي z كه بدين طريق به دست مي آيند با علامتzn يعني نمره هاي z نرمال شده نشان داده مي شوند. آن گاه ساير نمره هاي تراز شده مانند نمره هاي CEEB، T،AGCT، و IQ را بر مبناي zn محاسبه مي كنيم.

نرم يا هنجار: نمره هاي CEEB

نمره هاي CEEB كه معمولا در آزمون هاي ورودي دانشگاه ها به كار مي روند، نمره هايي هستند كه ميانگين آن ها 500 و انحراف معيار آن ها 100 است. بنابراين براي تبديل نمره هاي z به نمره هاي CEEB كافي است از رابطه زير استفاده شود.

500 + 100 *  zn = CEEB

شكل توزيع نمره هاي CEEB نيز مانند شكل توزيع نمره هاي خام افراد گروه نرم است. نمره هاي CEEB محاسبه شده براي نمره هاي مياني طبقه ها در ستون 8 جدول 8-1 نشان داده شده است.

نرم يا هنجار: نمره هاي T

نمره هاي T نمره هاي تراز شده اي هستند كه ميانگين آن ها 50 و انحراف معيار آن ها 10 است. براي محاسبه نمره هاي T كافي است اندازه هاي zn را در 10 ضرب كرده حاصل را با 50 جمع كنيم يعني:


50 +10* zn = T

نرم يا هنجار: نمره هاي AGCT

اين نمره ها كه براي نخستين بار براي نمره هاي آزمون ارتشي طبقه بندي كلي محاسبه شد، نمره هاي تراز شده اي هستند كه با ميانگين 100 و انحراف معيار 20 محاسبه مي شوند. توزيع اين نمره ها كه همان شكل توزيع نمره هاي اوليه را دارد، در ستون 9 جدول 8-1 براي اعداد مياني هر طبقه محاسبه شده است. روش محاسبه بر اساس فرمول زير انجام مي گيرد.

100 + 20 * zn = AGCT


نرم يا هنجار: نمره هاي انحرافي آزمون وكسلر

هوشبهر انحرافي آزمون وكسلر داراي ميانگين 100 و انحراف معيار 15 است كه از رابطه زير به دست مي آيد.

100 + 15 * zn = IQ (وكسلر)


در نمره هاي تراز شده آزمون هاي فرعي اين تست ميانگين برابر 10 و انحراف معيار برابر 3 فرض شده است.

نرم يا هنجار: نمره هاي هوشبهر انحرافي آزمون استنفورد- بينه

در اين آزمون ميانگين برابر 100 و انحراف معيار برابر 16 فرض شده است. بنابراين محاسبه هوشبهر انحرافي در آزمون استنفورد بينه از رابطه زير به دست مي آيد.


100 + 16 * = zn IQ

نرم يا هنجار: نمره هاي نه بخشي

نمره هاي zn را مي توان به هر نمره تراز شده و با هر ميانگين و انحراف معياري تبديل كرد. يكي از نرم هاي معروف كه براي درجه بندي افراد در نيروي هوايي آمريكا و بعدها براي مقاصد آموزشي و ارزشيابي مورد استفاده فراوان پيدا كرد، نمره هاي نه بخشي(standard nine=stanine) است.

مقياس نه بخشي، كه مقياس نمره هاي تراز شده با ميانگين 5 و انحراف معيار تقريبا 2 است، اين مقياس داراي نه بخش است كه با اعداد از 1 تا 9 نشان داده مي شوند. چنان كه در نمودار(ص 240) ملاحظه مي شود، در يك توزيع نرمال درصد معيني از افراد در هر يك از 9 بخش مقياس قرار مي گيرند. پنجمين بخش اين مقياس كه ميانگين آن است به فاصله يك چهارم انحراف معيار از دو طرف ميانگين توزيع قرار  مي گيرد و ساير بخش ها نيز هر يك ، يك دوم انحراف معيار از توزيع نرمال را شامل مي شوند.

نرم يا هنجار: نمره هاي نه بخشي

بايد دانست كه نمره هاي 9 بخشيع نمره هاي تراز شده واقعي نيستند، زيرا بخش اول و نهم آن بي انتهاست. در نمودرا 8-1 ملاحظه مي شود كه اندازه هاي واحدها در بخش هاي 2 تا 8 يكسانند، اما بخش يك و بخش 9 گسترده تر از ساير بخش ها است. 

يكي از مزيت هاي نمره هاي نه بخشي اين است كه به جاي نقاط معين، دامنه هايي از نمره ها را نشان مي دهند. اين امر موجب مي شود كه اجرا كنندگان آزمون ها تصور نكنند كه نمره هاي مشاهده شده  آزمودني ها، نمره هايي دقيق و يا اندازه هاي تغيير ناپذير خصايص رواني است. 

چنان كه در بحث از خطاي معيار اندازه گيري و برآورد حدود نمره هاي واقعي آزمودني ملاحظه شد، نتيجه آزمون را نبايد يك نمره منحصر به فرد و تغيير ناپذير دانست. بلكه همواره نمره واقعي آزمودني در سطح اطمينان معين در فاصله بين دو نمره قرار مي گيرد. نمره هاي نه بخشي، نتايج آزمون ها را بر اساس اين اطمينان مشخص مي كنند.


نرم يا هنجار: تاريخ تنظيم جداول نرم

يكي از مسايل عمده در مورد جداول نرم آن است كه اين جداول معمولا سال ها قبل تهيه و تنظيم شده اند. چون تهيه و تنظيم جداول نرم مستلزم صرف اعتبار و هزينه هاي زيادي است، بنابراين امكان تجديد نظر در آن ها محدود است. 

تهيه كنندگان آزمون ها معمولا هر 10 سال يك بار در جداول نرم تجديد نظر مي كنند. از آن جا كه تجارب و محيط زندگي كودكان و دانش آموزان و هم چنين برنامه ها و روش هاي آموزشي در حال تغيير است، نرم هايي كه در سال هاي گذشته تهيه شده اند در زمان حال فاقد ارزش و اعتبار كافي هستند. 

به عنوان مثال چون روش تدريس رياضيات امروزه لااقل در مدارس ابتدايي بهتر از سال هايپيش است، اگر دانش آموزي در يك آزمون رياضي كه نرم آن 10 سال پيش تهيه شده است رتبه 50 درصدي را به دست آوردة چنان چه با نرم امروز سنجيده شود، ممكن است رتبه درصدي وي با اين نرم كاملا متفاوت باشد. به همين دليل است كه اجرا كنندگان آزمون ها بايد تاريخ تنظيم جداول نرم آزمون را مورد توجه قرار داده و در تعبير و تفسير نتايج آزمون ها محدوديت هاي مربوط به آن را مد نظر قرار دهند.

نيمرخ هاي رواني

نيم رخ رواني آزمودني به صورت نموداري ارائه مي گردد كه در آن نتايج اجراي چند آزمون بر اساس نرم يا مقياس واحد نشان داده مي شود. در نيم رخ رواني، نمره هاي آزمودني در آزمون هاي مختلف و يا در آزمون هاي فرعي يك آزمون، ممكن است به صورت رتبه هاي درصدي، نمره هاي تراز شده و يا هوشبهر انحرافي نشان داده شود.

نيم رخ رواني را مي توان به صورت نمودار ستوني يا نمودار چند ضلعي ترسيم كرد. براي رسم نيم رخ رواني، ابتدا دو محور عمود بر هم رسم مي كنيم و سپس روي محور افقي خصايص مورد اندازه گيري و روي محور عمودي نمره تراز شده يا نمره هنجاري خصايص اندازه گيري شده مشخص مي شود.

نيمرخ هاي رواني

براي تهيه نيم رخ ستوني كافي است نام صفت مورد اندازه گيري رسم گردد. در نيم رخ هاي چند ضلعي نيز به همين ترتيب عمل مي شود. در نيم رخ هاي رواني، براي سهولت تفسير نتايج آزمون ها، خطي كه حد متوسط يا بهنجار را نشان مي دهد كشيده مي شود تا نمره هاي بالاتر و يا پايين تر از حد بهنجار مشخص شوند.

براي روشن تر شدن مطالب بالا به دو نمونه از نيم رخ هاي رواني مربوط به دو آزمودني همراه با تفسير نتايج آن در كتاب(شريفي، ص 245 و 246 ) توجه كنيد.

ساختن آزمون هاي استانداد شده

ساختن و استاندارد كردن آزمون، عملي پيچيده و فني بوده و مستلزم دانش و مهارت سطح بالاي تخصص در همه زمينه هاي روان سنجي است. سازندگان آزمون علاوه بر داشتن صلاحيت علمي و تخصصي و دانش نظري در روان سنجي، بايد در مورد انواع آزمون هاي مختلف نيز از تجارب عملي كافي برخوردار باشند

اقدام به ساختن و استاندارد كردن آزمون در هر زمينه منوط به برقراري شرايط زير است:

1) آزمون هاي معتبر و استاندارد شده كافي در آن زمينه موجود نباشد.

2) سازندگان آزمون علاوه بر داشتن نيروي تخصصي در زمينه هاي مختلف روان سنجي از منابع مالي كافي برخوردار باشند.

3) آزموني كه ساخته مي شود در مورد تعداد زيادي از آزمودني ها و براي مدت نسبتا طولاني براي هدف هاي تحصيلي و شغلي، تشخيص هاي باليني و ساير مقاصد آموزشي و درماني به كار بسته شود.

مراحل ساختن آزمون هاي استانداد شده

1) تعيين هدف هاي تهيه آزمون:

سازندگان آزمون ابتدا بايد هدف هاي آزموني كه قصد ساختن آن را دارند تعيين كنند. براي اين كار لازم است به پرسش هاي زير توجه شود.

1- آزمون براي كدام يك از مقاصد روان سنجي مانند ارزشيابي آموزشي، راهنمايي تحصيلي، راهنمايي شغلي، گزينش و يا هدف هاي تشخيصي ساخته مي شود؟

2- آزمون مورد نظر براي سنجش كدام يك از خصايص آزمودني ها مانند پيشرفت تحصيلي، هوش، استعداد و يا صفات شخصيت آنان به كار خواهد رفت؟

اگر آزمون پيشرفت تحصيلي است، براي سنجش پيشرفت تحصيلي آزمودني ها در چه سطحي و در مورد كدام درس ساخته مي شود؟

مراحل ساختن آزمون هاي استانداد شده

1) تعيين هدف هاي تهيه آزمون(ادامه):

4- اگر آزمون از نوع آزمون هوش، استعداد و يا صفات شخصيتي است، بر اساس كدام يك از نظريه هاي روان شناسي و روان سنجي ساخنه مي شود؟

5- محتواي آزمون مورد نظر چيست و نوع سوال هاي آن كلامي است يا غير كلامي،چند گزينه اي است و يا كوته پاسخ؟

6- آزمون در مورد كدام گروه سني و يا كلاسي اجرا مي شود و براي چه نوع نرمي تهيه خواهد شد؛ نرم محلي، نرم منطقه اي و يا نرم ملي؟

مراحل ساختن آزمون هاي استانداد شده

2- تهيه محتواي فرم تجربي آزمون

پاسخ هاي دقيق سازندگان آزمون به پرسش هاي بالا و انجام بررسي هاي لازم در اين مورد با آن ها امكان مي دهد كه نسبت به تدوين محتواي آزمون به صورت فرم تجربي اقدام كنند. نظرخواهي از متخصصان موضوعي . روان شناسيان و مرور آزمون هاي مشابه كه در ساير كشورها به كار بسته شده است، سازندگان آزمون را در تدوين محتواي آزمون كمك خواهد كرد.

مراحل ساختن آزمون هاي استانداد شده

2- تهيه محتواي فرم تجربي آزمون(ادامه)

پس از تعيين هدف ها و محتواي آزمون، پرسش هاي آزمون نوشته مي شوند. تعداد پرسش هايي كه در فرم اوليه آزمون گنجانده مي شود، بايد بيش از تعداد پرسش هايي باشد كه در فرم نهايي يا فرم اصلي آزمون وجود خواهد داشت. علت اين امر آن است كه در مراحل تجديد نظر در پرسش ها و يا تجزيه و تحليل آن ها احتمالا برخي پرش ها حذف خوهند شد. پرسش هاي تدوين شده بايد توسط تعدادي از متخصصان موضوعي، روان شناسان و متخصصان روان سنجي مورد بررسي قرار گيرند و تجديد نظر لازم در آن ها به عمل آيد. پس از تجديد نظر در پرسش ها، فرم تجربي آزمون  تنظيم و به تعداد مورد نياز چاپ و تكثير مي شود.

مراحل ساختن آزمون هاي استانداد شده

2- تهيه محتواي فرم تجربي آزمون(ادامه)

در بعضي موارد سازندگان آزمون تصميم مي گيرند آزموني را كه در ساير كشورها استاندارد شده است در ايران هنجاريابي كنند. براي اين كار نخست بايد آزمون مورد نظر به فارسي ترجمه شود. ترجمه آزمون بايد به گونه اي باشد كه اگر مترجم ديگري كه به زبان فارسي و زبان اصلي آزمون مورد بحث تسلط كامل دارد، آن را به زبان اصلي(زبان خارجي) ترجمه كند، محتواي اين ترجمه با محتواي آزمون به زبان اصلي كاملا يكسان باشد. 

پس از ترجمه آزمون، سازندگان آزمون ممكن است بعضي از موارد آن را كه با فرهنگ ايراني كاملا بيگانه است حذف و به جاي آن ها ماده هاي ديگري كه از نظر اصول روان سنجي همان فرايند ذهني را اندازه مي گيرند قرار دهند. پس از انجام اين كار و پس از بررسي و تجديد نظرهاي لازم، فرم تجربي آزمون تدوين و به تعداد مورد نياز چاپ و تكثير مي شود.

مراحل ساختن آزمون هاي استانداد شده

3 ) اجراي فرم تجربي آزمون

از جامعه هدف يعني جامعه اي كه سرانجام آزمون استاندارد شده براي سنجش خصايص آنان به كار بسته خواهد شد، با روش نمونه گيري تصادفي، يك گروه نمون انتخاب و آزمون در مورد افراد اين گروه اجرا مي شود. سپس پاسخ خاي آزمودني ها به هر يك از پرسش ها بر اساس دستوالعمل آزمون تصحيح و نمره گذاري مي شود. 

مراحل ساختن آزمون هاي استانداد شده

4) تجزيه و تحليل سوال هاي آزمون

سوال هاي فرم تجربي آزمون كه در مورد گروه نمونه تصادفي از آزمودني ها اجرا شده است، مورد تجزيه و تحليل قرار مي گيرند(فصل 5). شخص هاي آماري هر يك از سوال ها، ضرايب همبستگي آن ها با يكديگر، با نمره كل آزمون و با ساير ملاك هاي خارجي محاسبه مي شود. سوال هاي نامناسب يعني سوال هايي كه فاقد ضريب تشخيص و اعتبار لازم بوده اند حذف مي شوند. سپس ضريب اعتبار (همساني دروني) آزمون پس از حذف سوال هاي نامناسب با استفاده از روش دو نيمه كردن، روش كودر- ريچادسون و يا ساير روش هاي مناسب برآورد مي شود. آن گاه ميانگين، انحراف معيار، خطاي معيار اندازه گيري و ساير شاخص هاي آماري آزمون محاسبه مي گردد.

مراحل ساختن آزمون هاي استانداد شده

4) تجزيه و تحليل سوال هاي آزمون(ادامه)

در صورتي كه ازمون داراي پرسش هاي چند گزينه اي است، اين پرسش ها نيز مورد تجزيه و تحليل قرار مي گيرند و در صورت لزومة تجديد نظر در گزينه ها و يا سوال هاي آزمون به عمل مي آيد.

پس از انجام مراحل بالا، سوال هاي آزمون بر حسب سطح دشواري محاسبه شده به ترتيب از آسان به مشكل تنظيم و فزم جديد آزمون تدوين مي شود.

مراحل ساختن آزمون هاي استانداد شده

5) وارسي تجزيه و تحليل سوال هاي آزمون

ازموني كه بر اساس تجزيه و تحليل مرحله قبل تدوين شده است مجددا در مورد يك گروه نمونه از آزمودني ها كه به روش تصادفي از جامعه هدف انتخاب شده است اجرا مي شود. نتايج حاصل از اين آزمايش بر اساس آن چه در مرحله قبلي گفته شد، مورد تجزيه و تحليل قرار مي گيرد. با مقايسه نتايج حاصل از دو آزمايش مي توان اعتبار يافته هاي مرحله قبل را از روي نتايج اين مرحله مورد بررسي و قضاوت قرار داد. در هر حال، در اين مرحله نيز پس از حذف سوال هاي نامناسب، شاخص هاي آماري آزمون محاسبه و سوال هاي آن از آسان به مشكل تنظيم و فرم نهايي آزمون تدوين مي شود.

مراحل ساختن آزمون هاي استانداد شده

6) تهيه و تنظيم جدول هاي نرم آزمون

چنان چه گروه نمونه اي كه آزمون فرم تجربي در مرحله دوم در باره آن اجرا شده است به قدر كافيزياد و در سطح اطمينان لازم آماري معرف جامعه هدف بوده و هيچ يك از سوال هاي آزمون در اين مرحله حذف يا تعديل نشده باشد، مي توان از روي نمره هاي خام آزمودني ها جدول هاي نرم آزمون را تنظيم كرد. اما در هر حال بهتر است آزمون فرم نهايي بار ديگر در مورد گروه نمونه بزرگ آماري از افراد جامعه هدف اجرا شود.

پس از اجراي مجدد و نمره گذاري نتايج آزمون، مي توان با استفاده از روش هاي مطرح شده در بخش اول اين فصل، پس از محاسبه ميانگين و انحراف معيار نمره هاي خام، به تهيه و تنظيم جدول هاي نرم آزمون اقدام كرد.

مراحل ساختن آزمون هاي استانداد شده

6) مطالعه در مورد روايي ملاكي و روايي سازه آزمون

گر چه در مراحل استاندارد كردن آزمون برخي از شواهد روايي آزمون مانند روايي محتوايي، همبستگي هر يك از سوال ها با كل نمره ازمون(همساني دروني) به عنوان يكي از شواهد روايي سازه، و در پاره اي موارد همبستگي سوال ها با برخي ملاك هاي خارجي مورد مطالعه قرار مي گيرند، اما انجام مطالعه مستمر براي برآورد روايي ملاكي و روايي سازه آزمون تدوين شده امري اساسي است.

مراحل ساختن آزمون هاي استانداد شده

6) مطالعه در مورد روايي ملاكي و روايي سازه آزمون(ادامه)

براي اين منظور، سازندگان آزمون بايد با در نظر گرفتن ملاك هاي خارجي و با مطالعه در مورد شواهد سازه آزمون، در آزمون هاي تدوين شده مي توان همبستگي نمره هاي آن ها را با نمره هاي آزمون هاي مشابهي كه قبلا در مورد جامعه هدف استاندارد شده است به عنوان يكي از شاخص هاي روايي آزمون مورد بررسي قرار داد. همبستگي بين نمره هاي آزمون هوش و استعداد و نمره هاي پيشرفت تحصيلي آزمودني ها نيز شاخص ديگري از روايي آزمون را به دست خواهد داد.


مراحل ساختن آزمون هاي استانداد شده

6) مطالعه در مورد روايي ملاكي و روايي سازه آزمون(ادامه)

در آزمون هاي علايق تحصيلي، تفاوت ميانگين نمره هاي تحصيلي افراد موفق با افراد ناموفق در رشته هاي تحصيلي و هم چنين همبستگي بين نمره هاي آزمون علايق تحصيلي و درجه بندي علايق توسط معلمان مي تواند به عنوان شاهدي از روايي سازه و يا روايي ملاكي آزمون تلقي شود.

در آزمون هاي شخصيت، همبستگي بين نمره هاي آزمون و صفات شخصيتي ازمودني ها كه توسط دوستان شان درجه بندي مي شود و هم چنين توافق بين نمره هاي آزمون هاي تشخيصي و باليني مانند آزمون سنجش اضطراب با درجه بندي اضطراب آزمودني ها توسط روان پزشكان و روان شناسان باليني شواهدي از روايي سازه آزمون هاي مذكور را به دست مي دهند.

نكات اساسي در تهيه و استاندارد كردن آزمون ها

ا) راهنماي اجراي آزمون

راهنماي اجراي آزمون بايد استاندازد شده و كاملا روشن باشد. در راهنما بايد نوع كاري كه آزمودني بايد انجام دهد و چگونگي انجام آن به گونه روشن شرح داده شود. لازم است كه براي آشنا شدن آزمودني ها با نوع سوال ها و چگونگي پاسخ دادن به آن ها، چند سوال نمونه در راهنماي آزمون مطرح و طرز پاسخ دادن به آن ها توضيح داده شود.

نكات اساسي در تهيه و استاندارد كردن آزمون ها

ا) راهنماي اجراي آزمون

در آزمون هايي كه به پاسخ هاي غلط نمره منفي داده مي شود، بايد اين نكته در راهنماي اجراي آزمون ذكر گردد. اگر قرار است به پاسخ هاي غلط نمره منفي داده نشود، اين نكته نيز بايد در راهنماي اجراي آزمون به گونه صريح مطرح شده و به آزمودني ها گفته شود كه اگر پاسخ سوالي را نمي دانند، از بين پاسخ هاي پيش نهادي يا گزينه هاي آزمون بهترين پاسخي را كه به نظرشان درست است انتخاب كنند. هم چنين در راهنماي آزمون بايد زمان استاندارد شده براي پاسخ دادن به پرسش هاي آزمون به آزمودني ها گفته شود. زمان استاندارد براي هر آزمون عبارت از ميانگين زمان صرف شده توسط 75 درصد آزمودني ها براي كامل كردن آزمون در مراحل اجراي فرم تجربي است.

نكات اساسي در تهيه و استاندارد كردن آزمون ها

2- نمره گذاري آزمون

آزمون بايد به گونه اي طراحي شود كه نمره گذاري پاسخ هاي آزمودني ها به آساني و به سرعت امكان پذير باشد و تا جايي كه امكان دارد نمره گذاري پاسخ ها به صورت عيني انجام گيرد. اعتبار و پايايي آزمون نبايد به سبب ناپايايي نمره گذاري آن كاهش يابد. وزن يا نمره اي كه براي هر سوال در نظر گرفته مي شود بهتر است با سطح دشواري سوال متناسب باشد. بدين معنا كه براي سوال هاي آسان وزن كمتر و براي س.ال هاي دشوار وزن بيشتري منظور شود.

نكات اساسي در تهيه و استاندارد كردن آزمون ها

3- تعداد سوال هاي آزمون

هر چه تعداد سوال هاي آزمون بيشتر باشد، اعتبار و پايايي آن بيشتر است. آزمون يا بايد داراي تعداد زيادي سوال باشد كه به هر يك از آن ها نمره جداگانه اي داده مي شود و يا شامل تعداد كمتري از تكاليف باشد كه به هر يك از آن ها نمره خاصي تعلق مي گيرد. گنجاندن يك سوال محاسبه اي كه يافتن پاسخ درست آن مستلزم صرف وقت زياد است سوال نامناسبي به شمار مي رود. زيرا آزمودني در ازاي چندين دقيقه وقتي كه براي پاسخ دادن به آن صرف مي كند، نمره اي برابر پاسخ درست سوال هايي مي گيرد كه با صرف چند ثانيه پاسخ درست آن ها را پيدا مي كند.بنابراين بايد زمان و سطح مهارت لازم براي پاسخ دادن به همه سوال ها در هر بخش آزمون تقريبا يكسان باشد يا نمره هر سوال با سطح دشواري و زمان لازم براي يافتن پاسخ درست آن متناسب باشد.

نكات اساسي در تهيه و استاندارد كردن آزمون ها

4- سطح دشواري سوال هاي آزمون

آزمون بايد با پرسش هايي شروع شود كه همه آزمودني ها به راحتي بتوانند به آن ها پاسخ درست بدهند. سوال هاي اول آزمون نبايد دشوار بوده و موجب دلسردي آزمودني ها شوند. بهد از چند سوال خيلي آسان كه در ابتداي آزمون گنجانده مي شوند، سطح دشواري سوال هاي بعدي آزمون بايد به تدريج افزايش يابد. بايد بين عملكرد آزمودني ها در هر يك از سوال ها و عملكرد آنان در كل آزمون همبستگي مثبت موجود باشد. اگر همبستگي بين يك سوال با نمره كل آزمون منفي و يا خيلي كم باشد، احتمالا بدان معناست كه آن سوال خصيصه اي را اندازه مي گيرد كه با ان چه كه به وسيله كل آزمون سنجيده مي شود تفاوت دارد.


نكات اساسي در تهيه و استاندارد كردن آزمون ها

5- سوال هاي چند گزينه اي

پرسش هاي چندگزينه اي به سبب آن كه نمره گذاري آن ها به آساني و به سرعت امكان پذير است، در اغلب آزمون هاي مداد- كاغذي مورد استفاده قرار مي گيرند. اما، نمره هاي حاصل از اين نوع سوال ها ممكن است تا حدي با نمره واقعي آزمودني ها متفاوت باشد. به همين دليل بعضي از سازندگان آزمون، پرسش هايي را ترجيح مي دهند كه آزمودني پاسخ ها را از خزانه حافظه خود بازيابي و آن ها را توليد كند.

در آزمون هايي كه با پرسش هاي چند گزينه اي ساخته مي شوند، مي توان در ازاي هر پاسخ غلط،..... نمره (n تعداد گزينه هاي پاسخ هاست) از نمره  هاي پاسخ هاي درست آزمودني كم كرد و بدين ترتيب عامل حدس و گمان را از بين برد. البته اين در صورتي است كه براي هر پاسخ درست يك نمره در نظر گرفته شده باشد. 

در آزمون هايي كه با سوال هاي 5 يا 6 گزينه اي ساخته مي شوند، احتمال يافتن تصادفي پاسخ هاي درست كمتر از سوال هاي 3 يا 4 گزينه اي است. چنان چه در مراحل استاندارد كردن آزمون از فرمول تصحيح براي حذف عامل حدس و گمان استفاده شده است، در اجرا و نمره گذاري آزمون فرم نهايي نيز بايد نمره گذاري آزمون بر همين اساس انجام گيرد.

نكات اساسي در تهيه و استاندارد كردن آزمون ها

6- دامنه تغيير سوال ها

آزمون ها معمولا با سوال هاي متعدد و گوناگون ساخته مي شوند. سازندگان آزمون بايد به اين نكته توجه داشته باشند كه در هر يك از بخش هاي آزمون سوال هايي را بگنجانند كه همه آن ها توانايي واحدي را بسنجند. بنابراين، در هر يك از بخش هاي فرعي آن از گنجاندن سوال هاي نامربوط به آن بخش بايد اجتناب كنند.

نكات اساسي در تهيه و استاندارد كردن آزمون ها

7- محتواي آزمون

در آزمون هايي كه براي اندازه گيري استعداد و توانايي شغلي به كار مي روند، بايد پرسش هايي در محتواي آزمون گنجانيده شوند كه به طور مستقيم يا غير مستقيم در موفقيت آن شغل موثر باشند. بنابراين از طرح سوال هايي كه به محفوظات، دانش نظري محض و يا آموخته هاي كلاسيك مربوطند و اغلب افراد آن ها را فراموش مي كنند بايد اجتناب شود.

نكات اساسي در تهيه و استاندارد كردن آزمون ها

8- توجه به كل محتوا

در ساختن آزمون هاي پيشرفت تحصيلي، سازندگان آزمون اغلب بخش هايي از محتواي درس را مورد توجه قرار مي دهند كه ساختن پرسش هاي آزمون در مورد آن ها آسان تر است. بدين ترتيب، ممكن است بعضي از جنبه هاي موضوع مورد اندازه گيري ناديده گرفته شود. اما بايد دانست روايي آزمون بسته به اين است كه محتواي آزمون تمامي جنبه هاي مهم زمينه مورد اندازه گيري را شامل شود. آزموني كه سوال هاي آن همه زمينه هاي مهم را شامل نباشد فاقد روايي محتوايي است.

روش اجراي آزمون هاي ميزان شده:آزمون هاي گروهي

اجراي بعضي آزمون هاي گروهي با گذراندن يك دوره كوتاه كارآموزي ميسر است. اما اجراي بعضي ديگر از آزمون ها به مهارت و تجربه طولاني تري نياز دارد. معمولا اجراي آزمون هاي گروهي در مقايسه با آزمون هاي فردي با كارآموزي كوتاه تري امكان پذير است.

آزنايش كننده بايد آزمايش را چنان ماهرانه و طبق دستورالعمل استاندارد شده برگزار كند كه به هر يك از افراد آزمايش شونده امكان داده شود تا حداكثر استعداد و توانايي خود را در پاسخ دادن به پرسش هاي آزمون نشان دهد.

آزمايش كننده بايد قبلا در مورد محتواي آزمون، دستورالعمل اجراي آن و ساير شرايطي كه بايد رعايت شود آگاهي لازم را به دست آورد.

اجراي آزمون هاي گروهي

نكات مهم در اجراي آزمون هاي استاندارد شده : 

شرايطي مشابه با شرايط تهيه و استاندازد آزمون براي كليه آزمايش شوندگان فراهم شود.

رعايت كامل دستورالعمل آزمون

كوشش در برقراري رابطه مطلوب بين آزمايش شونده و آزمايش كننده به منظور جلب اعتماد آنان(به ويژه در آزمون هاي فردي)

گذرانده دوره هاي كارآموزي عملي(علاوه بر فراگيري دانش هاي نظري)

اجراي آزمون هاي گروهي

1- شرايط اجراي آزمون:

1- ايجاد شرايط فيزيكي مناسب در جلسه آزمايش(از نظر نور، تهويه، درجه گرما، راحت بودن محل نشستن) نارسايي در هر يك از عواما مذكور موجب مي شود كه ميزان كارآيي آزمايش شوندگان كاهش يابد. اين مساله در مورد آزمون هاي سرعت بيش از آزمون هاي قدرت اثر نامطلوب بر جاي مي گذارد.

2- آزمون شوندگان به راحتي صداي مجري آزمون و راهنمايي هاي او را به راحتي بشنوند.

3- اتاق آزمايش از هر نوع عامل حواس پرتي مانند سر و صدا، تابلوهاي نقاشي، زنگ تلفن، آمد و رفت افراد و صحبت هاي مراقبان جلسه و هر عامل ديگري كه باعث عدم تمركز فكري و كاهش دقت آزمايش شوتدگان مي شود، به دور باشد.

اجراي آزمون هاي گروهي

1- شرايط اجراي آزمون:

4- وضعيت روحي و جسمي آزمون شونده نتيجه آزمون را تحت تاثير قرار مي دهد. بنابراين، اجراي آزمون در مورد افراد خسته، عصباني، بي ميل، بيمارو غيره موجب مي شود كه نتيجه آزمون بيانگر نمونه اي از رفتارهاي واقعي آنان نباشد.

5- نحوه برخورد و رفتار آزمايش كننده و حالات روحي او( مانند خستگي،عصبانيت صداي نارسا) مي تواند تا حد زيادي نتيجه آزمون را تحت تاثير قرار دهد.



اجراي آزمون هاي گروهي

- اقدامات قبل از توزيع دفترچه آزمون:

1- پيش بيني لوازم مورد نياز

2- معرفي مجري و بيان هدف كلي از اجراي آزمون به زبان ساده

3- اجتناب از به كار بردن اصطلاحات فني


اجراي آزمون هاي گروهي

3- اداره جلسه آزمايش و اجراي آزمون(وظيفه مجري)

ايجاد شرايط استاندارد و همراه با احساس اطمينان براي انجام آزمايش برابر دستورالعمل آزمون

در نظر گرفتن يك دستيار براي هر 15 تا 20  نفر آزمايش شونده

در مورد آزمايش شوندگان خردسال مانند دانش آموزان دبستان يا دوره راهنمايي توضيحات لازم مطابق دستورالعمل آزمون توسط مجري داده مي شود.

اگر آزمايش شونده اي از مجري آزمون سوالي بپرسد، او نبايد در دادن پاسخ مطلبي اضافه بر آن چه كه در دستورالعمل ذكر شده است، بيان كند.

اگر به پاسخ هاي غلط نمره منفي تعلق نمي گيرد، اين امر به آزمون شوندگان اعلام شود تا اگر پاسخ سوالي را نمي دانند، بهترين پاسخ را حدس بزنند.

كنترل وقت آغاز و پايان جلسه با كرونومتر





اجراي آزمون هاي گروهي

نمره گذاري پاسخ نامه ها

قبل از تصحيح و نمره گذاري پاسخ نامه ها با توجه به سه نكته زير مورد بررسي قرار گيرند.

1- نبايد بيش از يك گزينه به عنوان پاسخ صحيح انتخاب شده باشد.

2- براي مواردي كه پاسخ در محل مناسب قرار داده نشده، تصميم گيري شود.

3- در صورتي كه آزمودني از روي اشتباه، پاسخ سوال بعدي را در محل سوالي قبلي كه جواب ان را نمي دانسته علامت زده باشد، پاسخ نامه وي با در نظر گرفته اشتباه در جابه جايي پاسخ ها تصحيح شود.

بعد از تعيين تعداد پاسخ هاي صحيح، غلط و سفيد نمره خام آزمودني با احتساب يا بدون احتساب نمره منفي محاسبه شود.

اجراي آزمون هاي فردي

نكات اساسي در اجراي آزمون هاي انفرادي

1- رعايت كامل دستورالعمل آزمون

2- ايجاد شرايط فيزيكي مطلوب در اتاق آزمايش

3- ايجاد همدلي با آزمودني

4- تكرار پرسش ها( به جز آزمون هاي حافظه)

5- مرتب كردن وسايل آزمايش

6- توجه  به حالات بدني آزمودني

7- كاوش پاسخ هاي مبهم آزمودني

8- مشاهده رفتار آزمودني

9- ارزشيابي پاسخ ها (با توجه به ملاك هاي دستورالعمل)

10- جلب اعتماد آزمودني خردسال

11- آزمايش آزمودني هاي داراي عقب ماندگي ذهني در بخش هاي زماني كوتاه

عوامل موثر در نتايج آزمون ها

1- تاثير آزمايش كننده ( جنسيت، سن، نژاد، سطح مهارت، برخورد اجتماعي، پايگاه حرفه اي، و پايگاه اجتماعي- اقتصادي).

پژوهش نشان داده است كه رابطه گرم يا سرد آزمايش كننده در نتايج آزمايش گروهي از آزمودني ها تفاوت معني دار ايجاد كرده است.

2- تجارب پيش از آزمايش آزمودني ها.

مك كارتي گروهي از دانش آموزان دبستان را دو بار با تست آدمك مورد آزمايش قرار داد. بار اول آزمودني ها پيش از آمدن به جلسه آزمايش، انشايي در باره «بهترين تجارب زندگي خود» و بار دوم انشايي در باره «بدترين تجارب زندگي خود» نوشته بودند. در آزمايش دوم هوشبهر كودكان 4 الي 5 نمره كمتر از آزمايش اول بود. اين تفاوت ممكن است به سبب آشفتگي هاي هيجاني كودكان در مرتبه دوم باشد كه در آن انشايي در باره «بدترين تجارب زندگي خود» نوشته بودند.


عوامل موثر در نتايج آزمون ها

3- تمرين ها و آمادگي قبلي آزمودني ها:

آشنايي آزمودني ها با نمونه هايي از آزمون ها و تمرين هاي قبلي آنان مي تواند تا حدي در نتيجه آزمايش اثر بگذارد. دليل اين تمرين، يادآوري برخي از پاسخ ها، يادگيري راه حل ها و كسب بينش نسبت به مواد آزمايش بوده است.

هم چنين كساني كه در پاشخ دادن به آزمو ن ها ي مختلف تجربه زيادي دارند، اين تجربه آمادگي بيشتري براي پاسخ دادن به آزمون ها در آنان بخ وجود مي آورد. علت اين امر غالبا اعتماد به نفسي است كه اين افراد نسبت به انجام آزمون ها پيدا مي كنن كه ضمن كاهش اضطراب آنان موقعيت بهتري را بريشان فراهم مي كند.

ملاحظات اخلاقي و اجتماعي در كاربرد آزمون ها

مراحل ساختن آزمون هاي استانداد شده

1

مراحل ساختن آزمون هاي استانداد شده

مراحل ساختن آزمون هاي استانداد شده

مقياس سازي

الن- پيمايش در علوم اجتماعي

مقياس هاي درجه بندي رفتار

اقدام پژوهي

اجراي آزمون ها

تبديل و معادل سازي نمره هاي آزمون

بيان نتايج آزمون

اماري

نيمرخ

گنجي- پيام نور

نرم يا هنجار: نرم هاي سني و كلاسي

نرم يا هنجار: نرم هاي سني و كلاسي

نرم يا هنجار: نرم هاي سني و كلاسي

نرم يا هنجار: نرم هاي سني و كلاسي

نرم يا هنجار: نرم هاي سني و كلاسي

نرم يا هنجار: نرم هاي سني و كلاسي