روان سنجيفهرست منابع 1- سيف, علی اکبر(1386). اندازه گيری , سنجش و ارزشيابی پيشرفت تحصيلی. تهران: انتشارات دوران. 2- شريفی, حسن پاشا(1379). اصول روان سنجی و روان آزمايی. تهران: انتشارات رشد. 3- مارنات، گري گراث(ويرايش 2003).راهنماي سنجش رواني: براي روان شناسان باليني، مشاوران و روان پزشكان.(ترجمه حسن پاشا شريفي و محمد رضا نيكخو(1387). تهران: انتشارات رشد، انتشارات سخن. 4- آناستازي، ا. (؟). روان آزمايي. ترجمه محمد نقي براهني(1382). تهران: انتشارات دانشگاه تهران. 5- الن، مري جي.(؟). مقدمه اي بر نظريه هاي اندازه گيري(روانسنجي). ترجمه علي دلاور(1374). تهران: انتشارات سمت.رئوس مطالب به تفكيك جلساتتعريف اصطلاحات تعريف اندازه گيري: (Measurement) تعريف آزمون: (Test) تعريف آزمودن: (Testing) تعريف سنجش: ((Assessment تعريف ارزشيابي: (Evaluation)تعريف اندازه گيري اندازه گيري فرايندي است كه طي آن ويژگي ها و صفات اشيا و افراد بر طبق قواعدي معين به صورت عدد يا رقم گزارش مي شود.نكات مهم در تعريف اندازه گيري 1- اندازه گيري مي تواند به شكل هاي مختلفي صورت گيرد: از كاربست ابزارهاي پيشرفته و پيچيده الكترونيك تا امتحانات كاغذ و مدادي، مقياسهاي درجه بندي و فهرست هاي وارسي. 2- ويژگي يا صفتي كه اندازه گيري مي شود به صورت عدد و رقم گزارش مي شود. مثال: به جاي اين كه بگوييم پروين از زهرا باهوش تر است، مي گوييم هوشبهر پروين 125 و هوشبهر زهرا 109 است. 3- اندازه گيري فرايند يا شيوه اي نظام دار است زيرا در برگيرنده كاربرد قواعدي معين است(مثال). فايده كاربرد معين اين است كه كمك مي كند تا افراد مختلفي كه مي خواهند وسيله اندازه گيري را مورد استفاده قرار دهند آن را يكسان به كار مي بندند.تعريف آزمون اندازه گيري يك فرايند است و اين فرايند نياز به وسيله اي دارد كه آن را وسيله اندازه گيري مي ناميم. براي اندازه گيري ويژگي هاي فيزيكي( مانند طول، وزن، يا قد و وزن افراد) و رفتارهاي آشكار(مانندتعداد لغات به درستي ترجمه شده) از وسايل اندازه گيري مستقيم استفاده مي كنيم. بر خلاف ويژگي هاي فيزيكي و رفتارهاي آشكار، ويژگي ها  يا صفات رواني(مانند هوش، خلاقيت، انگيزش، نگرش و...) را به صورت غير مستقيم اندازه گيري مي كنيم؛ زيرا هيچ كس به طور مستقيم به آن ها دست رسي ندارد. معمول ترين وسيله اندازه گيري ويژگي ها يا صفات رواني، آزمون است.نكات مهم در تعريف آزمون اندازه گيري ويژگي هاي رواني از طريق اندازه گيري رفتارهايي انجام مي شود كه گمان مي رود معرف آن ويژگي ها هستند. از آن جا كه رفتارهاي معرف ويژگي هاي رواني متنوع اند، نمي توانيم همه آن ها را اندازه گيري كنيم. پس بنا به تعريف آزمون وسيله اي  است عيني و استاندارد شده كه به صورت نظام دار براي اندازه گيري نمونه اي از رفتار به كار مي رود. تعريف آزمودن بنا به تعريف: وقتي كه براي اندازه گيري يكي از ويژگي هاي رواني يا تربيتي يك فرد يا گروهي از افراد از آزمون استفاده مي شود، به اين فعاليت آزمودن مي گويند. اما هر نوع اندازه گيري الزاما آزمودن نيست؛ ممكن است اندازه گيري با استفاده از وسيله ديگري به جز آزمون انجام شود. بدين ترتيب اندازه گيري از آزمودن مفهوم وسيع تري دارد.تعريف سنجش سنجش فرايندي است كه براي جمع آوري اطلاعات مورد نياز تصميم گيري در باره دانش آموزان، برنامه هاي درسي و سياست هاي آموزشي مورد استفاده قرار مي گيرد(نيتكو، 2002). بدين ترتيب سنجش، مفهوم گسترده تري نسبت به اندازه گيري و ازمودن دارد. اندازه گيري و آزمودن عموما با كميت سر و كار دارند اما سنجش الزاما به كميت منحصر نمي شود.يعني نتيجه سنجش مي تواند به صورت غير كمي(توصيفي) گزارش شود. براي مثال، مي توانيم رفتار يك دانش آموز را با عنوان هاي پرخاشگر، سازگار و.. توصيف كنيم كه جنبه كيفي دارند.تعريف سنجش در سنجش از وسايل و فنون مختلفي براي جمع آوري اطلاعات به كار مي روند. از جمله: آزمون، پرسش نامه، مقياس درجه بندي، فهرست وارسي، كار آزمايشگاهي، پروژه تحقيقي، امتحان شفاهي، تكليف درسي، مصاحبه، و مشاهده عملكرد و رفتار دانش آموزان در موقعيت هاي مختلف. سنجش تنها به جمع آوري داده ها يا اطلاعات خلاصه نمي شود بلكه به جمع آوري داده ها همراه با قصد يا منظور گفته مي شود(سالويا و يسل دايك، 1991). به عقيده متخصصان فوق، سنجش در آموزش و پرورش به دو منظور انجام مي شود: 1) تعيين وتشخيص مشكلات دانش آموزان و 2) تصميم گيري در باره آنانتعريف ارزشيابي ارزشيابي فرايندي است كه طي آن در باره موضوع مورد ارزشيابي اطلاعاتي جمع آوري، تحليل و تفسير مي شوند و در باره آن نوعي داوري ارزشي(تعيين ارزش) به عمل مي آيد. بدين ترتيب در سنجش صرفا به جمع آوري اطلاعاتي در باره يك يا چند ويژگي اكتفا مي شود اما در ارزشيابي به داوري يا قضاوت در باره ارزش آن ويژگي ها يا داوري در باره مقدار آن منجر مي شود.  به سخن كوتاه، ارزشيابي يعني داوري در باره كيفيت يا ارزش اطلاعات به دست آمده از سنجش هاي مختلف.مقياس هاي اندازه گيري مقياس اسمي: (Nominal) مقياس ترتيبي: (Ordinal) مقياس فاصله اي: (Interval) مقياس نسبتي: (Ratio)مقياس اسمي - بيانگر پايين ترين سطح يا ساده ترين نوع اندازه گيري است - اين مقياس به دو صورت مورد استفاده قرار مي گيرد: براي اسم گذاري و براي طبقه بندي 1- اسم گذاري: در اين مقياس از ارقام و اعداد براي اسم گذاري يا نام گذاري و تشخيص اشيا و افراد استفاده مي شود. اين اعداد هيچ گونه مفهوم و معناي رياضي ندارند.مثال: شماره هاي روي پيراهن بازيكنان، شماره خيابان هاي شهر 2- طبقه بندي: در مقياس اسمي، علاوه بر نام گذاري، از اعداد و ارقام براي طبقه بندي اشيا و افراد نيز استفاده مي شود. در اين جا نيز اعداد مفهوم و معناي رياضي ندارند و تنها براي مشخص كردن طبقه هاي مختلف به كار مي روند. مثال: طبقه بندي افراد به دو طبقه مرد و زن. عمليات مجاز آماري: شمارش فراواني موردهاي هر طبقه، تعيين نما، عمليات مجاز رياضي: انجام هيچ كدام از چهار عمل اصلي جمع، تفريق، ضرب و تقسم ميسر نيست.مقياس ترتيبي - اين مقياس مجموعه اي از رتبه ها است؛ به طوري كه: 1- دسته اي از افراد يا اشيا، با توجه به يك صفت، از بزرگ به كوچك(يا بالعكس) مرتب مي شوند. 2- معلوم نيست كه هر يك از افراد يا اشيا به مفهوم مطلق، چقدر از آن صفت را دارد 3- مشخص نيست كه اين اشيا(يا افراد) از لحاظ صفت مورد اندازه گيري، چه مقدار از يكديگرفاصله دارند(نانالي، 1978). مثال:... عمليات مجاز آماري: شمارش فراواني ها، تعيين نما، محاسبه ميانه، محاسبه درصدها، و محاسبه ضريب همبستگي رتبه اي اسپيرمن. عمليات مجاز رياضي: انجام هيچ كدام از چهار عمل اصلي جمع، تفريق، ضرب و تقسيم ميسر نيست.مقياس فاصله اي مقياسي است كه در آن: 1- رتبه اشيا(يا افراد) با توجه به يك صفت مشخص است. 2- معلوم است كه اشيا يا (افراد)، از لحاظ صفت مورد اندازه گيري چه مقدار از يكديگر فاصله دارند. 3- اما هيچ اطلاعي راجع به مقدار مطلق صفت مورد نظر براي هيچ يك از اشيا(يا افراد) در دست نيست(نانالي، 1978). مثال:... عمليات مجاز آماري: محاسبه نما، ميانه، ميانگين، انحراف معيار، ضريب همبستگي رتبه اي اسپيرمن، ضريب همبستگي گشتاوري پيرسون. عمليات مجاز رياضي: جمع و تفريق مجاز است؛ ضرب و تقسيم مجاز نيست.مقياس نسبتي مقياسي است كه در آن: 1- رتبه اشخاص، با توجه به يك صفت معلوم است. 2- فاصله بين اشخاص معلوم است. 3- علاوه بر اين ها، فاصله حداقل يكي از اشخاص از يك صفر منطقي نيز معلوم است (نانالي، 1978). - اندازه گيري طول، حجم، و ساير صفات فيزيكي اشيا با مقياس نسبتي عملي است، اما اندازه گيري متغيرهاي رواني و پرورشي با اين مقياس به ندرت ميسر است. عمليات مجاز آماري و رياضي: همه عمليات آماري و رياضي مجاز است.خلاصه ويژگي هاي مهم مقياس هاي چهارگانه اندازه گيرينمونه سوال از مقياس هاي اندازه گيري براي روشن شدن تمايز بين مقياس هاي مختلف اندازه گيري، فرض كنيد مي خواهيم نظر بينندگان تلويزيون را در باره سريال ها بپرسيم. هر كدام از سوال هاي زير بيانگر مقياس اندازه گيري معيني هستند. اسمي:  كدام يك از سريال هاي تلويزيوني را تماشا مي كنيد؟(نام سريال ها) ترتيبي: سريال هاي تلويزيوني تا چه حد منعكس كننده واقعيت هاي زندگي هستند؟ خيلي زياد               زياد      متوسط          كم        خيلي كم فاصله اي: هوشبهر(IQ) قهرمان سريال مورد علاقه خود را حدس بزنيد.(هوشبهر) نسبتي: هفته اي چند ساعت سريال تلويزيوني تماشا مي كني؟(تعداد)دسته بندي آزمون هاي مورد استفاده در روان شناسي و آموزش و پرورش 1- آزمون هاي توانايي(شناختي، حركتي)آزمون هاي توانايي حداكثر عملكرد آزمون شونده را اندازه گيري مي كنند و نشان مي دهند كه آزمون شونده در بهترين شرايط قادر به انجام چه كاري است. آزمون هاي توانايي به طور عمده براي مقاصد پيش بيني موفقيت هاي تحصيلي و شغلي به كار مي روند. 2- آزمون هاي عاطفي آزمون هاي عاطفي، وضع موجود آزمون شونده را از نظر ويژگي هاي عاطفي و شخصيتي اندازه گيري مي كنند و براي مقاصد مشاوره به كار مي روند.انواع آزمون هاي توانايي 1- آزمون هاي توانايي(توانايي شناختي، توانايي حركتي)            - پيشرفت:            آزمون رياضي،آزمون فيزيك، و....           - استعداد:  آزمون هاي استعداد ناظر به آينده اند و براي پيش بيني موفقيت هاي آينده افراد به كار مي روند، در حالي كه ازمون هاي پيشرفت تحصيلي ناظر به گذشته اند و براي تعيين مقدار آموخته ها يا توانايي هاي موجود آزمون شوندگان به كار مي روند.                                            - استعداد كلي (هوش)                                     _ استعداد هاي ويژه:                                                      -آزمون استعداد موسيقي                                                        - آزمون استعداد رياضي                                                      - آزمون استعداد فني                                                       - و ....انواع آزمون هاي عاطفي 2- آزمون هاي عاطفي:  - شخصيت : (اندازه گيري متغيرهاي انگيزش، مزاج، سازگاري، منش و...)                                               -پرسش نامه هاي گزارش شخصي                                                                         - پرسش نامه هاي جامعه سنجي                                                                   - فنون مشاهده اي                                              - فنون فرافكن      - علاقه                                  - نگرش                                  - و ...ساير تقسيم بندي ها ي آزمون ها 1--  آزمون هاي ميزان شده در برابر آزمون هاي معلم ساخته 2- آزمون هاي گروهي در برابر آزمون هاي فردي 3- آزمون هاي سرعت در برابر آزمون هاي قدرت 4- آزمون هاي عملي در برابر آزمون هاي كاغذ- مدادي 5- آزمون هاي عيني در برابر آزمون هاي ذهني 6- آزمون هاي ملاك مرجع در برابر آزمون هاي گروه مرجع 7- آزمون هاي وابسته به فرهنگ در برابر آزمون هاي نابسته به فرهنگ 8- آزمون هاي كلامي در برابر آزمون هاي غير كلاميانواع ارزشيابي پيشرفت تحصيلي الف: از نظر هدف:                      1- ارزشيابي آغازين ( ورودي، پيش آزمون): پيش از انجام فعاليت هاي آموزشي به اجرا در مي آيد و به دو منظور انجام مي شود.                     2- ارزشيابي تكويني: در ضمن آموزش و همراه با فعاليت هاي يادگيري دانش آموزان انجام مي شود  و به منظور آگاهي از ميزان تحقق يا عدم تحقق هدف هاي آ، رفع نواقص آموزشي  و كسب اطلاع از مشكلات روش هاي آموزشي انجام مي شود.                     3- ارزشيابي تشخيصي: اين نوع سنجش با هدف تشخيص دقيق مشكلات يادگيري دانش آموزان به كار مي رود                     4- ارزشيابي تراكمي: به منظور ارزشيابي از تمامي آموخته هاي دانش آموزان و دانش جويان كه  در طول يك ترم يا يك دوره آموزشي آموخته اند استفاده مي شود و هدف آن نمره دادن  به آنان و قضاوت در باره اثر بخشي كار معلم و برنامه درسي يا مقايسه برنامه هاي مختلف درسي با يكديگر به كار مي رود.                     5- ارزشيابي تحقيقي ب: از نظر ماهيت موضوع:                      1- كتبي                     2- شفاهي                     3- عملينتايج احتمالي زيا ن بخش استفاده از آزمون ها نتايج آزمون ها ممكن است:  1- برچسب هاي هميشگي در مورد سطح توانايي افراد به جا بگذارد و از اين راه موقيت هاي اجتماعي افراد را در دوره هاي بعدي رشد از پيش تعيين كند. 2- به مفهوم بسيار محدودي از توانايي ها منجر شود و فرد را در جهت نيل به هدف هاي محدود يا يك هدف منحصر به فرد تشويق كند و در نتيجه شكوفايي ساير استعدادها را كه مي تواند در خدمت جامعه باشد، محدود كند. 3- ضمن غني كردن تجارب تهيه و اجرا كنندگان آزمون ها، آن ها را در موقعيتي قرار دهد كه نظام آموزش و پرورش جامعه را زير كنترل خود در آورند و تعيين سرنوشت افراد جامعه را به دست گيرند. 4- روش هاي غير انساني، انعطاف ناپذير و ماشيني را در ارزشيابي و تصميم گيري تشويق كند و در نتيجه آزادي هاي اساسي انسان را محدود سازد و يا به كلي از بين ببرد. 5- رقابت و موفقيت فردي در برابر همكاري هاي اجتماعي را بي جهت مورد تاكيد قرار دهد. 6- به جاي پرورش خلاقيت افراد، آنان را وادار سازد كه تعبدا خود را با امكانات و شرايط موجود آموزشي تطبيق دهند. 7- علاوه بر موارد فوق كاربرد آزمون ها ممكن است مسايلي از قبيل: سوگيري هاي فرهنگي، مداخله در امور شخصي و محرمانه افراد، پاداش دادن به برخي مهارت ها ي آزمون شوندگان و تنبيه كردن آنان براي فقدان بعضي مهارت هاي ديگر را موجب شود.هدف هاي كلي كاربرد آزمون ها آزمون هاي رواني در موقعيت هاي اموزشي، راهنمايي تحصيلي و شغلي، در موقعيت هاي باليني و كلينيك ها، توسط معلمان، مشاوران راهنمايي، روان شناسان باليني و ساير متخصصان براي هدف هاي مختلف مورد استفاده قرار مي گيرند.هدف هاي كلي كاربرد آزمون ها كرانباخ در كتاب « اصول كاربرد ازمون هاي رواني» موارد استفاده از آزمون ها را به شرح زير مطرح كرده است: 1- پيش بيني: آزمون ها براي اندازه گيري توانايي پيشرفت تحصيلي و ساير ويژگي هاي افراد كه پايه تصميم گيري است به كار مي رود.  تصميم گيري مستلزم آن است كه فرد بتواند ميزان موفقيت خود را در آينده در زمينه معيني پيش بيني كند. پيش بيني مبتني بر داده هاي كمي، معتبرتر و دقيق تر از تفكر واهي است.هدف هاي كلي كاربرد آزمون ها 2- گزينش: در برخي از موسسات و سازمان ها مانند دانشكده ها و سازمان هاي استخدام كننده، آزمون ها براي گزينش يا رد بعضي از افراد مورد استفاده قرار مي گيرند. تصميم گيري در مورد استخدام يك فرد و يا پذيرش يك دانشجو، تصميم در مورد گزينش افراد به شمار مي رود.هدف هاي كلي كاربرد آزمون ها 2- طبقه بندي: طبقه بندي شامل قرار دادن افراد در گروه هاي مختلف بر اساس ملاك هاي معين است. با طبقه بندي ممكن است به انتخاب روش هاي درمان يا آموزش براي افراد منجر شود.هدف هاي كلي كاربرد آزمون ها 4- ارزشيابي: در اين زمينه آزمون ها را به منظور قضاوت و ارزشيابي در مورد برنامه ها، روش ها، تدابير درماني و مانند اين ها به كار مي برند.استفاده معلمان از آزمون ها 1- قضاوت در باره استعداد و ظرفيت يادگيري 2- راهنمايي و هدايت جريان تدريس 3- بررسي ميزان پيشرفت يادگيري دانش آموزان 4- كشف مشكلات و نا رسايي هاي يادگيري دانش آموزان 5- پيشرفت و بهبود روش هاي تدريس 6- ارزشيابي و قضاوت در  مورد بازدهي فعاليت هاي آموزشياستفاده مديران از آزمون ها 1- شناخت نيازهاي دانش آموزان تصميم گيري در مورد برنامه هاي آموزشي 2- تعيين نقاط قوت و ضعف برنامه هاي آموزشي 3- گروه بندي و جايگزيني دانش آموزان در برنامه ها و موضوعات مختلف درسي و انطباق آنان با سطوح مختلف آموزشي 4- شناخت زمينه هايي كه معلمان نياز به راهنمايي و دوره هاي باز آموزي دارند. 5- تعيين بازدهي و موثر بودن كلي برنامه هاي مدارسكاربرد آزمون ها در مشاوره تحصيلي و رواني مشاوران تحصيلي و رواني از آزمون ها براي رسيدن به اهداف زير استفاده مي كنند. 1- به دست اوردن اطلاعات دقيق و معتبر در باره توانايي ها، استعدادها، علائق، خصايص شخصيتي و مشكلات شخصي به منظور كمك به خود شناسي مراجعان. 2- كمك به مراجعان براي پيش بيني موفقيت هاي آينده در امور تحصيلي و شغلي. 3- كمك به تصميم گيري مراجعان خود براي برنامه ريزي آينده تحصيلي و شغلي. 4- تشخيص مشكلات درمان جويان. مانند دشواري و ناتواني در سازگاري با شرايط محيطي، مسايل مربوط به رشد و تكامل، نارسايي هاي تحصيلي، و ديگر مسايل شخصي و رواني. 5- ارزشيابي از ميزان اثر بخشي فرايند راهنمايي و روش هاي درماني كه در مورد مراجعان خود به كار بسته اند.تجزيه و تحليل نتايج امتحانات به طور كلي امتحانات- به ويژه امتحانات مرحله اي- براي رسيدن به هدف هاي زير انجام مي شوند: 1- كشف  نقاط قوت و ضعف فراگيران به منظور هدايت يادگيري آنان. 2- كشف نارسايي هاي احتمالي در مواد و وسايل آموزشي و كوشش براي رفع آن ها. 3- ارزشيابي سطح كارايي روش هاي تدريس و كوشش براي اصلاح نارسايي ها و افزايش مهارت مدرس در تدريس. براي رسيدن به اهداف فوق صرف رجوع به نمره امتحاني فراگيران كفايت نمي كند بلكه نتايج امتحان بايد بر اساس روش هاي آماري تجزيه و تحليل شود.تجزيه و تحليل نتايج امتحانات تجزيه و تحليل نتايج امتحانات براي پاسخ دادن به پرسش هاي اساسي زير صورت مي گيرد: 1- هر يك از فراگيران به كدام يك از هدف هاي آموزشي رسيده و به كدام هدف ها نرسيده اند؟ پاسخ به اين پرسش را مي توان از روي پاسخ هر فراگير به هر يك از پرسش هاي امتحان به دست آورد. نتيجه اين كار را در اصطلاح، عملكرد هر فراگير در هر يك از برايندهاي يادگيري مي ناميم. زيرا هر پرسش امتحاني يكي از برايندهاي يادگيري را اندازه گيري مي كند.تجزيه و تحليل نتايج امتحانات 2- به طور كلي هر يك از فراگيران تا چه اندازه به هدف هاي آموزشي رسيده اند؟ براي پاسخ به اين پرسش لازم است سطح عملكرد هر فرد در كل آزمون تعيين شود. عملكرد هر فرد در كل آزمون نشان مي دهد كه او به چند درصد هدف هاي آموزشي رسيده است. 3- به طور متوسط فراگيران كلاس، تا چه اندازه به هر كدام از هدف هاي آموزشي رسيده اند. پاسخ به اين پرسش نشان خواهد داد كه چند درصد فراگيران كلاس، به هر پرسش امتحاني پاسخ درست داده اند. نتيجه حاصل از اين بررسي عملكرد كلاس در هر يك از برآيندهاي يادگيري است.تجزيه و تحليل نتايج امتحانات 4- به طور كلي فراگيران كلاس، تا چه اندازه به هدف هاي آموزشي رسيده اند. براي پاسخ دادن به اين پرسش لازم است تعيين شود كه چند درصد فراگيران كلاس، به همه هدف هاي مورد نظر دست يافته اند. نتيجه اي را كه از اين بررسي به دست مي آيد، عملكرد كلاس در كل آزمون مي ناميم.تجزيه و تحليل نتايج امتحانات بنا بر اين، تجزيه و تحليل نتايج امتحان مستلزم تعيين چهار شاخص است كه مي توان با يك روش ساده آماري آن ها را مشخص كرد. اين چهار شاخص عبارتند از: 1- درصدعملكرد هر فراگير در هر يك از برآيندهاي يادگيري. 2- درصد عملكرد هر فراگير در كل آزمون(همه برآيندهاي يادگيري). 3- درصد عملكرد كلاس در هر يك از برآيندهاي يادگيري. 4- درصد عملكرد كلاس در آزمون.تجزيه و تحليل نتايج امتحانات عيني - تهيه جدول كار و وارد كردن نتيجه پاسخ هر دانش آمور به هر سوال جدول كار براي تجزيه و تحليل يك آزمون 8 سوالي در مورد 16 دانش آموز فرضيتجزيه و تحليل نتايج امتحانات عيني ملاك هاي به دست آمده در جدول كار را مي توانيم با توجه به يكي از درجه هاي توصيفي مانند خيلي خوب، خوب، رضايت بخش، ضعيف و خيلي ضعيف درجه بندي كنيم.محاسبه شاخص هاي آماري آزمون الف- ميانگين نمره هاي خام 1-                                                                       M=∑P 2-                                                       M=(∑Pu+ ∑Pl)/2 ب- انحراف معيار نمره هاي خام: پ- ضريب اعتبار و پايايي: ت- خطاي معيار اندازه گيري:محاسبه شاخص هاي آماري آزمون ث- شاخص اندازه سنجي شاخص اندازه سنجي نقشي دوگانه دارد. 1- نخست اين كه شاخصي از ثبات و پايايي آزمون است. هر چه تعداد واحدهاي اتدازه سنجي بيشتر باشد، آزمون پايايي بيشتري دارد. به علاوه اگر تعداد واحدهاي اندازه سنجي در يك آزمون 12 و در آزمون ديگر 6 باشد، مي توان گفت كه اعتبار آزمون اول دو برابر آزمون دوم است.(ناتال و اسكورنيك، 1974). اين رابطه خطي كه در مقياس اندازه سنجي وجود دارد، در مورد ضريب همبسنگس گشتاوري صدق نمي كند. به عنوان مثال اگر همبستگي دو بار اجراي يك ازمون 0/83 و همين همبستگي در مورد آزمون ديگر 0/43 باشد، نمي توان گفت كه اعتبار و پايايي ازمون اول دو برابر آزمون دوم است. 2- دومين نقش شاخص اندازه سنجي اين است كه براساس آن مي توان توزيع نمره هاي خام آزمودني ها را درجه بندي كرد. در اين درجه بندي حاشيه خطاي درجه بندي به علاوه و منهاي يك است.محاسبه شاخص هاي آماري آزمون مثال: درجه بندي آزمودني ها بر حسب شاخص درجه بندي آزمون توزيع نمره هاي آزمون: بين 10تا 83. تعداد واحدهاي مقياس اندازه سنجي: 7 دامنه تغيير نمره ها: 73= 10-83 دامنه تغيير نمره هاي هر يك از 7 درجه: بنا براين، با اين آزمون مي توان آزمودني ها را به 7 طبقه تقسيم و براي هر طبقه درجاتي در نظر گرفت. حدود نمره هاي خام اين 7 درجه در جدول زير نشان داده شده است.محاسبه شاخص هاي آماري آزمونتجزيه و تحليل پرسش هاي آزمون - استفاده از روشي كه در اين جا برای تجزيه و تحليل پرسش های آزمون ارائه مي شود، تنها براي آزمون هاي قدرت كه همه يا بيشتر آزمودني ها فرصت كافي براي پاسخ دادن به همه پرسش ها را داشته اند مجاز است. نمره گذاري اين آزمون ها نيز بايد به صورت نمره(1) براي پاسخ درست و نمره(0) براي پاسخ غلط باشد. هدف از تجزيه و تحليل پرسش هاي آزمون آن است كه: (1) با حذف پرسش هاي نامناسب و يا تجديد نظر در آن ها، كيفيت آزمون بهتر و بر كارايي آن در سنجش خصيصه مورد نظر افزوده شود.(2)براي تعيين سطح توانايي آزمودني ها يك معيار تشخيصي به دست آيد.مراحل تجزيه و تحليل پرسش هاي آزمون 1- انتخاب گروه نمونه به روش تصادفي و اجراي آزمون 2- تصحيح و نمره گذاري پاسخ نامه ها 3- مرتب كردن پاسخ نامه ها از پايين ترين به بالاترين نمره 4- انتخاب 27 درصد پاسخ نامه ها از نمره هاي بالا و 27 درصد ديگر از نمره هاي پايين 5- استخراج اطلاعات مطابق جدول كار پيشنهاد شده روش تجزيه و تحليل پرسش هاي آزمون جدول تجزيه و تحليل پرسش هاي آزمونشاخص هاي تجزيه و تحليل پرسش هاي آزمون 1-  =Puضريب دشواري در گروه قوي 2- Pl  =ضريب دشواري در گروه ضعيف 3-P =ضريب دشواري در کل گروه 4- Pq = واریانس 5- D= ضريب تميز 6- X2= آزمون معني داري ضريب تميز 7- محدوديت اندازه D( با توجه به سطح دشواري سوال) 8- معرفي جدول فلانگال 9- معرفي جدول معني دار بودن ضرايب تشخيص Dروش تجزيه و تحليل پرسش هاي آزمونبررسي سطح دشواري سوال هاي آزمون 1- سطح دشواري سوال در يك آزمون خوب چقدر بايد باشد؟ به هدف هاي كاربردي و نوع سوال بستگي دارد: اگر قرار است آزموني ساخته شود كه مثلا 20 درصد افراد بالاي يك جامعه را از سايرين متمايز كند، در اين صورت لازم است سطح دشواري سوال هاي آزمون حدود 0/20 باشد. اما اگر قرار است آزموني ساخته شود كه سطح توانايي هاي آزمودني ها را بر حسب احتمال توزيع نمره ها در يك توزيع بهنجار نشان دهد، در اين صورت سطح دشواري آزمون نيز بايد از منحني توزيع بهنجار پيروي كند.شاخص هاي تجزيه و تحليل پرسش هاي آزمون 2- سطح دشواري مطلوب براي انواع سوال هاي عيني براي تعيين سطح دشواري مطلوب براي يك سوال لازم است كه سازنده آزمون احتمال يافتن پاسخ درست سوال را توسط افراد بي اطلاع يا يافتن پاسخ درست بر اساس تصادف صِرف را در نظر بگيرد.  احتمال يافتن پاسخ درست تصادفي يك سوال صحيح- غلط 50 درصد و پاسخ درست تصادفي يك پرسش 3، 4، و 5 گزينه اي به ترتيب 0/33، 25 و 20 درصد است. بنا بر اين سطح دشواري 0/50 براي پرسش هاي صحيح- غلط، و سطح دشواري 0/33، 0/25 و 0/20 به ترتيب براي پرسش هاي 3، 4 و 5 گزينه اي مناسب نيست. زيرا درصد احتمال پاسخ تصادفي درست براي آزمودني هاي بي اطلاع همين اندازه است. از سوي ديگر، پرسش هايي كه سطح دشواري آن ها صفر و يا 1 است، نيز پرسش هاي مناسبي نيستند؛ زيرا افراد گروه بالا را از  پايين تفكيك نمي كنند. شاخص هاي تجزيه و تحليل پرسش هاي آزمون 3- تعيين سطح دشواري مطلوب براي انواع سوال هاي عيني حد مطلوب سطح دشواري براي هر سوال معمولا برابر ميانگين 100 درصد پاسخ هاي درست(p=1) و احتمال پاسخ تصادفي سوال است(كاپلان و ساكوزو، 1989). بنا بر اين، حد مطلوب دشواري براي يك سوال 4 گزينه اي برابر با 0/625 است.}0/625=2/(0/25+1){.سطح دشواري مطلوب براي پرسش هاي صحيح- غلط 0/75}0/75=2/(0/5+1).{ و براي پرسش هاي كوتاه پاسخ برابر با 0/50 است. }0/50=2/(0+1).{ شاخص هاي تجزيه و تحليل پرسش هاي آزمون 4- محاسبه حدود اطمينان براي سطح مطلوب دشواري سوال براي اين كه سطح دشواري سوال هاي آزمون در حد مطلوب يا سطح بهينه باشند، لازم است بين سطح دشواري محاسبه شده براي سوال هاي آزمون و سطح بهينه، از نظر آماري تفاوت معني دار وجود نداشته باشد. براي اين كه معلوم شود آيا تفاوت سطح دشواري سوال هاي آزمون با سطح بهينه معني دار است يا نه، كافي است براي سطح بهينه سوالات با در نظر گرفتن تعداد گزينه ها حدود اطميناني در سطح 95 يا 99 درصد در نظر گرفته شود. چنانچه سطح دشواري مشاهده شده براي هر سوال در محدوده سطح بهينه برآورد شده قرار گيرد، مي توان گفت كه آن سوال داراي سطح دشواري در حد مطلوب يا در سطح بهينه است.شاخص هاي تجزيه و تحليل پرسش هاي آزمون حدود اطمينان سطح دشواري بهينه براي سوال هاي آزمون از فرمول زير محاسبه مي شود: P=Popt +_ tSp  P =حدود اطمينان سطح دشواري بهينه Popt =سطح دشواري بهينه محاسبه شده با توجه به نوع سوال Sp =خطاي معيار نسبت براي سطح دشواري بهينه t =اندازه(t) در درجه آزادي (N-1) در جدول (t مبين) است( Nمجموع افراد گروه هاي بالا و پايين). خطاي معيار نسبت از فرمول زير محاسبه مي شود:شاخص هاي تجزيه و تحليل پرسش هاي آزمون حدود اطمينان براي يك سوال چهار گزينه اي در نمونه اي به حجم 26 نفر( دو گروه 13 نفري) به شرح زير است. P=0/625 ± 0/095 * 2/878 = 0/625 ± 0/2648  0/36 < p < 0/89 بدين ترتيب حدود اطمينان سطح دشواري بهينه در سطح اطمينان 99 درصد بين 0/36 و 0/89 است.هر يك از پرسش هاي ازمون كه بين اين دو حد قرار بگيرد داراي سطح دشواري مطلوب است. پرسش هايي كه سطح دشواري ان ها پايين تر از سطح دشواري بهينه باشند، به عنوان پرسش هاي دشوار و آن هايي كه بالاتر از سطح دشواري بهينه باشند به عنوان پرسش هاي اسان محسوب مي شوند.شاخص هاي تجزيه و تحليل پرسش هاي آزمون تمرين: حدود اطمينان براي سطح دشواري بهينه انواع سوالات 3 و 2 گزينه اي و سوالات كوتاه جواب را در دو سطح معني داري 95 و 99 درصد محاسبه كنيد.شاخص هاي تجزيه و تحليل پرسش هاي آزمون در بسياري از آزمون هاي رواني، سازنده آزمون علاقه مند است آزموني بسازد كه تفاوت هاي فردي ازمودني ها را اندازه گيري كند. آزمون مناسب آزموني است كه به دقت اين تفاوت ها را نشان دهد. در چنين مواردي لازم نيست كه همه سوال هاي آزمون داراي سطح دشواري در فاصله بين دو حد سطح دشواري بهينه باشند، بلكه آزمون بايد سوال هاي اسان و دشوار را نيز شامل شود.تجزيه و تحليل گزينه هاي انحرافي در آزمون هاي كه به صورت پرسش چند گزينه اي تهيه مي شوند، علاوه بر آن كه ضريب تشخيص و سطح دشواري پرسش ها بايد با هدف هاي ازمون هماهنگ باشند، گزينه هاي انحرافي هر پرسش نيز بايد از كارايي لازم برخوردار باشند. گزينه هاي انحرافي هر پرسش چند گزينه اي در صورتي داراي كارايي است كه دو ويژگي زير را دارا باشند: 1- توجه افراد بي اطلاع از موضوع مورد اندازه گيري را به اندازه گزينه درست به خود جلب كنند. 2- براي آزمودني هايي كه در مورد موضوع مورد اندازه گيري توانايي و مهارت كافي دارند، گول زننده نباشند. اگر گزينه هاي انحرافي مناسبي طراحي شوند، انتظار مي رود كه اولا درصد انتخاب گزينه هاي انحرافي توسط افراد گروه پايين بيشتر از درصد انتخاب گروه بالا باشد. ثانيا بين درصد انتخاب گزينه هاي غلط توسط افراد دو گروه تفاوت معني دار وجود داشته باشد.تجزيه و تحليل گزينه هاي انحرافي مثال:تجزيه و تحليل گزينه هاي انحرافي سوال شماره 1: به اين سوال 86 درصد افراد گروه پاسخ داده اند، بنا براين سوال آساني است. گزينه انحرافي الف براي هيچ يك از افراد گروه بالا جادبه اي نداشته اما توجه 8 درصد افراد گروه پايين را به خود جلب كرده است(5=2:25). چون بين درصد پاسخ هاي دوگروه بالا و پايين به اين گزينه از نظر آماري تفاوت معني دار وجود دارد (                           )، بنابراين گزينه الف از كارايي لازم برخوردار است. تفاوت نسبت انتخاب گزينه هاي ج و د توسط افراد دو گروه به ترتيب در سطح 0/05 و 0/01 معني دار است. بنابراين مي توان گفت كه اين سوال با وجود اسان بودن داراي گزينه هاي انحرافي مناسب و موثر است.تجزيه و تحليل گزينه هاي انحرافي سوال شماره 2: سطح دشواري اين سوال 0/28 و لذا سوال دشواري است. همه گزينه هاي انحرافي نتيجه افراد را به خود جلب كرده و لذا گزينه هاي موثري بوده اند. در همه موارد، فراواني و درصد انتخاب گزينه هاي انحرافي توسط افراد گروه ضعيف بيش از افراد گروه قوي بوده و تفاوت بين نسبت انتخاب ها معني دار است. بنابراين گزينه هاي انحرافي از كارايي لازم برخوردار بوده اند.تجزيه و تحليل گزينه هاي انحرافي سوال شماره 3: اين سوال با سطح دشواري 0/20، سوال دشواري است. اما چون درصد پاسخ هاي درست افراد گروه ضعيف بيش از درصد پاسخ هاي درست گروه قوي است، لذا سوال ضريب تشخيصي مناسبي ندارد. علت اين امر احتمالا از آن جا ناشي مي شود كه گزينه انحرافي ب براي گروه قوي جاذبه زيادي داشته است. به طوري كه 60 درصد افراد اين گروه(0/60=15:25) آن را به عنوان گزينه درست انتخاب كرده اند. بنابراين گزينه ب گول زننده است. با وجودي كه گزينه هاي الف و د از كارايي كافي برخوردارند، اما چون سوال فاقد قوه تميز است بايد در آن تجديد نظر كلي به عمل آيد يا به كلي از آزمون حذف شود. تجزيه و تحليل گزينه هاي انحرافي سوال شماره 4: سطح دشواري اين سوال 0/70 است كه از اين نظر با وجود آسان بودن، سوال مناسبي است و گزينه انحرافي(د) از كارايي لازم برخوردار است. اما هيچ يك از گزينه هاي الف و ج كارايي لازم را نداشته است.، زيرا توجه هيچ يك از آزمودني ها، حتي آزمودني هاي گروه ضعيف را نيز به خود جلب نكرده اند. چنان چه لازم باشد كه اين سوال در آزمون گنجانده شود، بايد در گزينه هاي الف و ج تجديد نظر شود تا به قدر كافي توجه افراد گروه ضعيف را به خود جلب كنند.تجزيه و تحليل گزينه ها سوال شماره 5: سوال شماره 5 با داشتن سطح دشواري 0/54 سوال مناسبي است. به ويژه ان كه همه گزينه هاي  انحرافي از كارايي لازم برخوردار بوده اند. زيرا اين گزينه بيشتر توجه افراد گروه پايين را به خود جلب كرده اند. اين سوال را به همين صورت مي توان در آزمون فرم اصلي به كار بست. ساير روش هاي تجزيه و تحليل سوال هاي آزمون 1- همبستگي دو رشته اي نقطه اي 2- ضريب همبستگي دو رشته اي 3- ضريب فاي(ф) 4- ضريب همبستگي تتراكوريك 5- ضريب همبستگي فاي به عنوان شاخص همبستگي دو سوال 6- منحني خصيصه سوال 7- نظريه سوال- پاسخساير روش هاي تجزيه و تحليل سوال هاي آزمون 1- همبستگي دو رشته اي نقطه اي يكي ديگر از روش هاي بررسي ضريب تشخيص سوال ها، محاسبه همبستگي بين عملكرد آزمودني ها در هر سوال با عملكرد آنان در كل آزمون است. در اين همبستگي يكي از متغيرها(عملكرد آزمودني ها در هر سوال) دو ارزشي و متغير ديگر(عملكرد آزمودني ها در كل آزمون) متغير پيوسته است. همبستگي دو رشته اي نقطه اي بين سوال و نمره كل آزمون از فرمول زير محاسبه مي شود:ساير روش هاي تجزيه و تحليل سوال هاي آزمون 1- همبستگي دو رشته اي نقطه اي شرح علائم: = Rpbis ضريب همبستگي دو رشته اي نقطه اي = mp ميانگين نمره هاي خام ازمودني هايي كه به سوال مورد نظر پاسخ درست داده اند = mtميانگين نمره هاي خام همه آزمودني ها = pi نسبت كساني كه به سوال مورد نظر پاسخ درست داده اند به كل ازمودني هاساير روش هاي تجزيه و تحليل سوال هاي آزمون 1- همبستگي دو رشته اي نقطه اي مثال: فرض كنيد ميانگين و انحراف معيار نمره هاي خام يك آزمون 70 سوالي كه در مورد يك گروه نمونه 50 نفري اجرا شده است، به ترتيب 54/3 و 9/7 و ميانگين نمره هاي 29 نفر كه به سوال  مورد نظر پاسخ درست داده اند، 57/6 باشد. در اين صورت خواهيم داشت: پس بين موفقيت در اين سوال و نمره كل آزمون 0/40 همبستگي وجود دارد.ساير روش هاي تجزيه و تحليل سوال هاي آزمون آزمون معني دار بودن همبستگي دو رشته اي نقطه اي براي آزمون معني دار بودن اين همبستگي، دو روش وجود دارد: 1- اگر تعداد آزمودني ها زياد باشد،(30 نفر و يا بيشتر) ابتدا خطاي معيار ضريب همبستگي دو رشته اي نقطه اي را از فرمول   محاسبه مي كنيم.  براي آزمون معني دار بودن ضريب محاسبه شده در يكي از دو سطح 0/05 و 0/01 ، خطاي معيار ضريب همبستگي دو رشته اي نقطه اي را در اندازه هاي 0/05     Z(1/96) و يا 0/01 Z )2/58) ضرب مي كنيم تا تفاوت ضريب همبستگي محاسبه شده از صفر در سطح 0.05 يا 0.01 به دست ايد. ضريب همبستگي محاسبه شده در صورتي معتبر خواهد بود كه در سطح 0.01 و يا 0/05 معني دار باشد. به عبارت ديگر اگر داشته باشيم: 1/96 * Srbis  > rbis > 2/58 * Srbis، در اين صورت ضريب محاسبه شده در سطح 0/01 معني دار است. هر گاه داشته باشيم: 2/58 * Srbis rbis > ، در اين صورت ضريب محاسبه شده در سطح 0.01 معني دار است. اما اگر ضريب محاسبه شده از 1/96 * Srbis كوچك تر و يا با آن برابر باشد، ضريب همبستگي محاسبه شده در هيچ سطحي معني دار نيست.ساير روش هاي تجزيه و تحليل سوال هاي آزمون آزمون معني دار بودن همبستگي دو رشته اي نقطه اي 2- اگر تعدا آزمودني ها كم باشد(N<30) براي ازمون معني دار بودن ضريب همبستگي دو رشته اي نقطه اي محاسبه شده براي هر سوال، تفاوت 1/96 * Srbis را از راه آزمون t بررسي مي كنيم. تذكر: در آزمون هايي كه تعداد سوال هاي آن كم است، استفاده از همبستگي دو رشته اي نقطه اي براي تعيين ضريب تشخيص سوال ها با اشكال مواجه خواهد بود، زيرا موفقيت در سوالي كه قرار است ضريب همبستگي ان با نمره كل آزمون محاسبه شود، پاسخ هاي درست آزمودني ها به سوالي كه قرار است همبستگي آن با نمره كل آزمون محاسبه شود، موجب افزايش نمره كل آزمون مي شود. در نتيجه ضريب همبستگي محاسبه شده افزايش مي يابد.بريا اجتناب از اين اشكال لازم است كه نمره هر سوال از نمره كل ازمون حذف شود.ساير روش هاي تجزيه و تحليل سوال هاي آزمون تمرين: در جدول زير پاسخ 10 آزمودني به 6 سوال تستي داده شده است. ضريب همبستگي دو رشته اي نقطه اي  سوال 1 با نمرات كل آزمون را محاسبه كنيد و معني دار بودن آن را آزمون كنيد.ساير روش هاي تجزيه و تحليل سوال هاي آزمون محاسبه ضريب همبستگي بين نمره هاي سوال 1 و نمره هاي كل آزمون ميانگين نمره هاي همه آزمودني ها در كل آزمون با حذف نمره سوال 1 به ترتيب برابر با 5  4  4  4  4  5  0  2  2  و  4  است كه ميانگين آن ها برابر با 3/4 (Mt)و انحراف معيار آن ها (St)برابر 1/58 است. نسبت پاسخ هاي درست آزمودني ها به سوال شماره 1 (Pi)برابر با 0/8 است. نمره اي خام آزمودني ها كه به سوال اول پاسخ درست داده اند با حذف نمره سوال شماره 1 به ترتيب برابر با 5 4 4 4 5 2 2 4 و ميانگين آن ها (Mp)برابر 3/75 و انحراف معيار آن ها برابر 1/16 است. بنابراين داريم:ساير روش هاي تجزيه و تحليل سوال هاي آزمون محاسبه ضريب همبستگي بين نمره هاي سوال 1 و نمره هاي كل آزمون براي آزمون معني دار بودن ضريب همبستگي محاسبه شده تفاوت Mp-Mt را از فرمول زير بررسي مي كنيم:  چون t محاسبه شده از t مبين جدول در سطح 0.5 (1/746) كمتر است، لذا فرض همبستگي صفر بين سوال شماره 1 و نمره كل ازمون را نمي توان رد كرد. بنابر اين ضريب همبستگي محاسبه شده معني دار نيست و اين سوال با ساير سوالات ازمون همساني دروني ندارد.ساير روش هاي تجزيه و تحليل سوال هاي آزمون ضريب همبستگي دو رشته اي نقطه اي به طور كلي ضريب همبستگي دو رشته اي نقطه اي، همبستگي بين يك متغير دو ارزشي و يك متغير پيوسته را نشان مي دهد. بر خلاف ضريب همبستگي پيرسون كه شرط استفاده از اين همبستگي آن است كه توزيع نمره ها بايد در هر دو متغير نرمال باشد، در كاربرد ضريب همبستگي دو رشته اي نقطه اي شرط نرمال بودن توزيع متغير دو ارزشي لازم نيست.  به عنوان مثال، اگر بخواهيم بين جنسيت و قد همبستگي محاسبه كنيم، مي توانيم بين اين دو متغير همبستگي دو رشته اي نقطه اي را به كار ببنديم. در اين مثال، قد يك متغير پيوسته است، اما جنسيت(زن يا مرد بودن) يك متغير دو ارزشي است كه توزيع اين صفت در جامعه نرمال نيست.ساير روش هاي تجزيه و تحليل سوال هاي آزمون ضريب همبستگي دو رشته اي نقطه اي نكته ديگري كه در استفاده از همبستگي دو رشته اي نقطه اي بايد به خاطر داشت اين است كه اگر St, Mt,Mp از روي نمره هاي ملاك خارجي محاسبه شده باشد، در اين صورت همبستگي محاسبه شده شاخص روايي ملاكي سوال است. هر گاه اندازه هاي مذكور از روي نمره هاي آزمون محاسبه شود، همبستگي به دست آمده شاخص همساني دروني سوال با ساير سوال ها و كل آزمون است. بديهي است چنانچه آزمون داراي روايي باشد، در اين صورت همبستگي محاسبه شده شاخصي از روايي آزمون نيز خواهد بود.روايي سوال هاي آزمون مقدمه: به منظور سنجش كارايي هر سوال به عنوان شاخصي از تفاوت هاي فردي براي اندازه گيري توانايي و يا ويژگي هاي شخصيتي، دسترسي به يك ملاك خارجي معتبر به عنوان شاخصي از توانايي يا ويژگي مورد اندازه گيري ضروري است. اگر قرار است آزموني براي پيش بيني موفقيت در يك شغل و يا پيشرفت تحصيلي ساخته شود، در اين صورت به عنوان ملاك خارجي مناسب مي توان از شاخص موفقيت شغلي( مثلا درجه بندي توسط سرپرستان)، يا پيشرفت تحصيلي(نمره هاي امتحان هاي رسمي) استفاده كرد.روايي سوال هاي آزمون ضريب همبستگي دو رشته اي نقطه اي بدينسان روايي يك سوال براي پيش بيني ميزان يك ملاك خارجي را مي توان با محاسبه همبستگي نمره آن سوال(نمره هاي 1 براي پاسخ هاي درست و نمره هاي صفر براي پاسخ هاي غلط) با نمره ملاك برآورد كرد. متداول ترين ضريب همبستگي براي اين منظور همبستگي دو رشته اي نقطه اي است. ضريب همبستگي دو رشته اي نقطه اي به عنوان شاخصي از روايي يك سوال براي پيش بيني احتمال موفقيت آزمودني در يك سوال خارجي را به صورت زير نيز مي توان مطرح كرد.روايي سوال هاي آزمون ضريب همبستگي دو رشته اي نقطه اي N= تعداد كل آزمودني ها N1= تعداد آزمودني هايي كه به سوال مورد نظر پاسخ درست داده اند. Ϋ= ميانگين نمره هاي خام همه آزمودني ها در متغير ملاك Ϋ1= ميانگين نمره هاي خام متغير ملاك در مورد آزمودني هايي كه به سوال مورد نظر پاسخ درست داده اند. S= انحراف معيار نمره هاي خام همه آزمودني ها در متغير ملاك نكته: فرمول فوق را براي تعيين همبستگي سوال با كل آزمون نيز مي توان به كار برد. در اين صورت متغير ملاك نمره هاي كل آزمون براي آزمودني ها خواهد بود. مثال عددي: ص. 162 شريفيروايي سوال هاي آزمون آزمون  معني داري ضريب همبستگي دو رشته اي نقطه اي براي آزمون معني دار بودن اي ضريب مي توان از روشي كه پيش از اين در مورد همبستگي دو رشته اي نقطه اي توضيح داده شد، استفاده كرد. بديهي است هر قدر اين همبستگي به 1 نزديك تر باشد، قدرت پيش بيني عملكرد آزمودني ها در متغير ملاك به وسيله سوال مورد نظر بيشتر خواهد بود. هم چنين سوال هايي كه داراي روايي پيش بيني يالاتري هستند، هر چند همبستگي آن ها با ساير سوال هاي آزمون كمتر باشد، براي گنجاندن در آزمون فرم نهايي مناسب تر خواهند بود.روايي سوال هاي آزمون ضريب همبستگي دو رشته اي ضريب همبستگي دو رشته اي از رابطه زير به دست مي آيد: Mp= ميانگين نمره هاي آزمون يا نمره هاي ملاك كساني كه به سوال پاسخ درست داده اند. Mtو St = به ترتيب ميانگين و انحراف معيار نمره هاي آزمون يا نمره هاي ملاك همه آزمودني ها P= نسبت كساني كه به سوال پاسخ درست داده اند Y= عرض نقطه تفكيك معادل P در منحني توزيع نرمال به مساحت 1 واحد است مثال عددي: ص. 163 شريفيروايي سوال هاي آزمون آزمون معني داربودن ضريب همبستگي دو رشته اي براي آزمون معني دار بودن ضريب همبستگي دو رشته اي كافي است خطاي معيار همبستگي محاسبه شده را از رابطه زير به دست آوريم: حال اگر داشته باشيم ضريب همبستگي محاسبه شده در سطح 0/05 معني داراست. اگر داشته باشيم  همبستگي در سطح 0.01 معني دار است چنانچه داشته باشيم در اين صورت همبستگي محاسبه شده در هيچ سطحي معني دار نيست. تمرين خطاي معيار همبستگي و معني دار بودن مثال ص. 163 را محاسبه و بررسي كنيد.روايي سوال هاي آزمون محاسبه ضريب همبستگي دو رشته اي از راه ديگر روش ديگر محاسبه همبستگي دو رشته اي، مقايسه نسبت پاسخ هاي درست افراد 27 درصد بالا و 27 درصد پايين آزمودني ها است. براي اين كار مي توان نسبت پاسخ هاي درست افراد 27 درصد بالا را در رديف افقي و بالاي جدول(شريفي، ص. 164) و نسبت پاسخ هاي درست 27 درصد پايين را از بين اعداد ستون سمت چپ جدول پيدا كرد و سپس از تقاطع آن ها ضريب همبستگي دو رشته اي را در داخل جدول به دست آورد. ضريب همبستگي دو رشته اي نيز مانند ضريب همبستگي دو رشته اي نقطه اي براي برآورد ضريب همبستگي سوال با نمره كل آزمون يا يك نمره ملاك خارجي به كار مي رود. در حالت اول، ضريب محاسبه شده شاخصي از همساني سوال با كل آزمون و در حالت دوم شاخصي از روايي ملاكي سوال خواهد بود.روايي سوال هاي آزمونروايي سوال هاي آزمون ضريب فاي(ф):  شاخص همبستگي سوال با نمره هاي كل آزمون ضريب فاي يكي از شاخص هايي است كه براي بررسي همبستگي هر سوال با كل آزمون و به عبارت ديگر براي بررسي ثبات و همساني دروني بين يك سوال با سوال هاي ديگر آزمون به كار مي رود.گيلفورد(1954) براي محاسبه ضريب فاي فرمول ساده زير را ارائه كرده است كه بر اساس ازمون مجذور خي(   ) استوار است. Pu و Pl به ترتيب نسبت افراد گروه بالا و پايين است كه به سوال پاسخ درست داده اند و P نسبت پاسخ هاي درست آزمودني ها به سوال مورد نظر است. چون اين فرمول  اساسا بر پايه آزمون مجذور خي استوار است، لذا بين آن ها رابطه زير بر قرار است:روايي سوال هاي آزمون آزمون معني دار بودن ضريب فاي(ф) براي آزمون معني دار بودن ضريب همبستگي فاي محاسبه شده مي توان مقدار     را از فرمول اسلايد قبلي محاسبه كرد. هر گاه           محاسبه شده از مجذور خي مبين براي يك درجه ازادي يعني 3/841 بزرگتر باشد، ضريب فاي محاسبه شده در سطح 0/05 . چون از 6/635 بزرگ تر باشد، در سطح 0/01 معني دار خواهد بود. براي آزمون معني دار بودن ضريب فاي در سطح 0/05 و 0/01 به ترتيب مي توان از فرمول هاي زير نيز استفاده كرد(هومن، 1366).  در همه اين فرمول ها N برابر مجموع افراد گروه بالا و  گروه پايين است.روايي سوال هاي آزمون آزمون معني دار بودن ضريب فاي(ф) شرط استفاده از ضريب فاي اين است كه بايد تعداد افراد گروه بالا و گروه پايين برابر باشد. يكي از محاسن اين روش آن است كه گروه هاي بالا و پايين را مي توان به هر نسبت دلخواه مثلا N0/50 ، N0/33 ، N0/27 ، N0/25 و غيره انتخاب كرد. به مثال عددي ص. 166 شريفي(1377) مراجعه كنيد.روايي سوال هاي آزمون ضريب همبستگي تتراكوريك همبستگي تتراكوريك براي نشان دادن رابطه بين دو متغير دو ارزشي به كار مي رود. ضريب همبستگي تتراكوريك به ويژه هنگامي به كار مي رود كه بخواهيم همبستگي بين دو متغير را كه نمي توان با مقياس پيوسته آن ها را اندازه گيري كرد، محاسبه كنيم. همبستگي بين يك سوال با سوال ديگر را كه هر دو متغير دو ارزشي هستند از راه ضريب همبستگي تتراكوريك مي توان محاسبه كرد.روايي سوال هاي آزمون ضريب همبستگي تتراكوريك براي محاسبه ضريب همبستگي بين دو سوال آزمون مي توان يك جدول 2 در 2 مطابق جدول زير تهيه كرد:روايي سوال هاي آزمون ضريب همبستگي تتراكوريك محاسبه ضريب همبستگي تتراكوريك روش پيچيده اي دارد كه بحث در باره آن از هدف اين كتاب خارج است. اما خوشبختانه روش ساده اي وجود دارد كه با استفاده از آن مي توان مقدار تقريبي ضريب همبستگي تتراكوريك را كه براي بسياري از مقاصد روان سنجي از دقت نسبتا كافي برخوردار است، محاسبه كرد. بر اساس اين روش ضريب همبستگي تتراكوريك از رابطه زير به دست مي آيد: به مثال عددي ص. 167 شريفي(1377) مراجعه كنيد.روايي سوال هاي آزمون ضريب همبستگي تتراكوريك هر گاه مقدار BC كوچك تر از AD باشد، ضريب همبستگي بين دو سوال منفي و اگر BC بزرگ تر از AD  باشد، ضريب محاسبه شده مثبت خواهد بود. چون در مثال عددي مورد نظر، مقدار BC (1050) بزرگ تر از AD است، بنابراين همبستگي محاسبه شده مثبت است. يكي از محدوديت هاي فرمول بالا اين است كه اين فرمول در صورتي معتبر است كه حجم نمونه مورد مطالعه بزرگ و نسبت افراد در هر يك از دو قسمت بين 0/40 و 0/60 باشد. در مثال بالا اين نسبت ها 0/60 و 0/45 است. براي اين كه ضريب همبستگي تتراكوريك از پايايي كافي برخوردار باشد، تعداد افراد نمونه اي كه ضريب همبستگي سوال ها در مورد آنان محاسبه شود نبايد از 150 تا 200 نفر كمتر باشد(گارت، 1954).روايي سوال هاي آزمون ضريب همبستگي تتراكوريك موزير و مك كيتي(نقل از هومن، 1366) براي تجزيه و تحليل سوال ها با استفاده از گروه هاي انتهايي( 27 درصد بالا و 27 درصد پايين) يك نموگراف محاسباتي ساخته اند كه با در دست داشتن نسبت پاسخ هاي درست افراد گروه بالا و پايين به راحتي مي توان ضريب همبستگي تتراكوريك را با دقت نسبي به دست آورد. شرط استفاده از نوموگراف آن است كه حجم نمونه مورد مطالعه از 400 نفر كمتر نباشد( به شريفي، 1377، ص. 169 مراجعه شود).روايي سوال هاي آزمونروايي سوال هاي آزمون آزمون معني دار بودن ضريب همبستگي تتراكوريك خطاي معيار ضريب همبستگي تتراكوريك از رابطه زير به دست مي آيد( هومن، 1366).  طرز استفاده از خطاي معيار ضريب همبستگي تتراكوريك براي آزمون معني دار بودن ضريب محاسبه شده همانند روشي است كه در مورد ضريب همبستگي دو رشته اي و دو رشته اي نقطه اي شرح داده شد.روايي سوال هاي آزمون 5- ضريب همبستگي فاي به عنوان شاخص همبستگي دو سوال هنگامي كه در متغيرهاي دو ارزشي فرض توزيع نرمال صادق نيست، مانند پاسخ به سوالي كه فقط به دو طبقه درست و غلط طبقه بندي مي شود و نمره بينابيني وجود ندارد، مي توان از همبستگي فاي استفاده كرد. ضريب فاي احتمالا در تجزيه و تحليل سوال ها يكي از شاخص هاي مفيد براي تعيين ضريب همبستگي يك سوال با سوال ديگر است.روايي سوال هاي آزمون ضريب همبستگي فاي به عنوان شاخص همبستگي دو سوال ضريب فاي از رابطه زير به دست مي آيد: عناصر اين فرمول به شرح زير است:  Ø= ضريب همبستگي فاي Pc= نسبت افرادي كه به هر دو سوال پاسخ درست داده اند. Px= نسبت افرادي كه به سوال 1 درست پاسخ داده اند Py= نسبت افرادي كه به سوال 2 درست پاسخ داده اند آزمون فرض صفر در مورد ضريب همبستگي فاي به همان روشي كه در مورد ضريب فاي به عنوان همبستگي سوال با كل آزمون گفته شد انجام مي گيردروايي سوال هاي آزمون مقايسه ضريب همبستگي فاي با ضريب همبستگي تتراكوريك اين دو شاخص براي تعيين همبستگي بين دو متغير دو ارزشي به كار مي روند، با وجود اين تفاوت هايي با هم دارند. اگر حجم نمونه و فرض نرمال بودن توزيع نمره ها در مقياس هاي دو ارزشي صادق باشد، بهتر است از همبستگي تتراكوريك استفاده شود. اما اگر فرض نرمال بودن در مورد توزيع متغيرهاي دو ارزشي صدق نكند، به ويژه در مورد بررسي همبستگي بين دو سوال، ضريب فاي مناسب تر از همبستگي تتراكوريك است(گارت، 1954).منحني خصيصه سوال منحني خصيصه سوال روش مناسبي براي شناخت ويژگي هاي سوال است. براي ترسيم منحني خصيصه سوال مي توان نمره هاي خام آزمودني ها را با فواصل مساوي روي محور x ها و درصد فراواني پاسخ هاي درست سوال را روي محور y ها نشان داد. از تقاطع خط هاي عمد رسم شده از محل طبقات نمره ها بر محور x ها با خطوط عمد استخراج شده از نقاط درصد پاسخ هاي درست افرادي كه نمره هاي آن ها در هر طبقه از نمره ها قرار دارد، نقطه هايي به دست مي آيد كه از وصل كردن اين نقطه ها به يكديگر منحني خصيصه سوال ترسيم مي شود.منحني خصيصه سوال در نمودار شماره 1 منحني خصيصه يك سوال مناسب نشان داده شده است. در اين نمودار ملاحظه مي شود كه درصد پاسخ هاي درست كساني كه نمره هاي بالاتري از آن آزمون گرفته اند، اغلب بالاتر از درصد پاسخ هاي درست افرادي است كه نمره هاي كمتري گرفته اند.منحني خصيصه سوالمنحني خصيصه سوال در اين نمودار افزايش تدريجي شيب منحني نشانگر آن است كه با افزايش نمره هاي خام آزمون، درصد كساني كه به سوال پاسخ درست داده اند افزايش مي يابد. اين بدان معني ست كه سوال در همه سطوح عملكرد آزمودني ها از ضريب تشخيص كافي برخوردار است.منحني خصيصه سوال نمودار شماره 2 نشان مي دهد كه اين سوال در سطح عملكرد پايين، آزمودني هاي قوي و ضعيف را از هم تفكيك مي كند. اما تقريبا همه كساني كه نمره بالاتر از متوسط گرفته اند، به آن پاسخ درست داده اند. بنابراين چنين سوالي در سطح عملكرد بالاتر از متوسط فاقد ضريب تشخيص است.منحني خصيصه سوالمنحني خصيصه سوال در نمودار شماره 3 منحني خصيصه 5 سوال نشان داده شده است. سطح دشواري سوال A در همه سطوح عملكرد در آزمودني ها يكسان است. لذا اين سوال فاقد قدرت تفكيك است.  سوال شماره B داراي ضريب تشخيص منفي است. زيرا درصد پاسخ هاي درست با افزايش سطح عملكرد آزمودني ها كاهش مي يابد. سوال C تا سطح عملكرد متوسط داراي ضريب تشخيص است، اما از آن به بعد، افارد قوي و ضعيف را از هم تفكيك نمي كند. سوال D تا سطح نمره 11 ازمودني ها را در سطوح مختلف عملكرد از هم تفكيك مي كند اما از آن به بعد فاقد قوه تميز است. قوه تميز سوال E در سطح پايين عملكرد كم است ولي از نمره 6 به بالا ضريب تشخيص آن افزايش مي يابد.منحني خصيصه سوالمنحني خصيصه سوال نمودار شماره 4 نشان مي دهد كه آزمودني ها در همه سطوح توانايي، به نسبت يكسان به اين سوال پاسخ درست داده اند. بديهي است اين سوال فاقد تميز لازم براي تفكيك آزمودني ها در سطوح مختلف عملكرد است.منحني خصيصه سوالمنحني خصيصه سوال نمودار شماره 5 مشخصه سوالي را نشان مي دهد كه درصد پاسخ هاي درست با افزايش سطح عملكرد آزمودني ها تا نمره معيني افزايش مي يابد، اما از آن به بعد سير نزولي پيدا مي كند. اين امر نشانگر آن است كه اين سوال تا سطح معيني از عملكرد حساس است و از آن به بعد آزمودني هاي قوي تر نتوانسته اند متناسب با سطح توانايي خود به آن پاسخ دهند.منحني خصيصه سوالمنحني خصيصه سوال در نمودار شماره 6 نيز نمونه ديگري از خصايص سوال ها نشان داده شده است. در اين نمودار محل هر سوال بر حسب سطح دشواري(درصد پاسخ هاي درست) و ضريب تشخيص( همبستگي دو رشته اي نقطه اي سوال با نمره كل آزمون) تعيين شده است. سوال شماره 12 كه دور آن خط كشيده شده است، داراي ضريب تشخيص 0/60 و سطح دشواري 0/46 است. چنان كه پيش تر از اين گفته شد، سطح دشواري ومطلوب براي سوال هاي آزمون بين 0/30 تا 0/70 است. قسمتي از اين نمودار كه سياه شده است منطقه اي را نشان مي دهد كه سطح دشواري سوال ها بين دو حد مزبور و ضريب تشخيص ان ها بالاتر از 0/30 است. بنابراين سوال هايي كه در اين منطقه قرار دارند سوال هاي مناسبي خواهند بود.منحني خصيصه سوالنظريه سوال- پاسخ(item- response theory) رويكرد هاي جديد به تجزيه و تحليل سوال هاي آزمون، الگوهاي جديدي از روان آزمايي را مطرح كرده است. يكي از رويكردهاي جديد، نظريه سوال- پاسخ است. در اين الگو تجزيه و تحليل سوال ها، براي هر سوال يك منحني سوال- پاسخ ساخته مي شود. همه نمودارهايي كه در اين فصل مورد بررسي قرار گرفتند نمونه هايي از منحني هاي سوال- پاسخ هستند. چنان كه ملاحظه شد، منحني از به هم پيوستن نقطه هايي به دست مي آيد كه مشخص كننده درصد پاسخ هاي درست آزمودني ها با سطح عملكرد آن ها است. سطح عملكرد ممكن است بر اساس ملاك دروني(نمره كل آزمون) و يا ملاك بيروني(نمره يك متغير ملاك خارجي) تعريف شود. پس از رسم منحني، مي توان سطح دشواري و شاخص تفكيك يا ضريب تشخيص سوال را تعيين كرد.  نظريه سوال- پاسخ(item- response theory) سطح دشواري كه با حرف b نشان داده مي شود، نمره اي از ملاك است كه 50 درصد آزمودني هايي كه اين نمره  را گرفته اند پاسخ درست به سوال داده باشند. شاخص تفكيك سوال كه با حرف a نشان داده مي شود، همان شيب منحني سوال- پاسخ است. هر گاه توزيع صفت مورد اندازه گيري(خصيصه مكنون) نرمال و ميانگين و انحراف معيار آن به ترتيب برابر صفر و يك باشد، شاخص تفكيك يا سطح تشخيص سوال(ag) از رابطه زير به دست مي آيد. در اين فرمول،            ضريب همبستگي دو رشته اي سوال است( با نمره كل آزمون يا با نمره يك ملاك خارجي)نظريه سوال- پاسخ(item- response theory) دامنه تغيير شيب منحني سوال- پاسخ بين 0/50 تا 2/5 تغيير مي كند. شيب 1 = ag در بيشتر موارد سطح تشخيص قابل قبول براي بيشتر سوال هاي آزمون است. شيب كمتر از 0/50 نشانگر آن است كه سوال فاقد قوه تميز كافي است. در نمودار شماره 7 منحني سوال- پاسخ در مورد دو سوال از يك آزمون داده شده است. سطح دشواري سوال A (% 71/67) پايين تر از سطح دشواري سوال B (% 76/43) است. در صورتي كه شيب سوال A تندتر از شيب سوال B است، و اين بدان معني است كه سطح تشخيص سوال A بالاتر از سوال B است.  نظريه سوال- پاسخ(item- response theory)نظريه سوال- پاسخ(item- response theory) اگر همبستگي دو رشته اي سوال A با نمره كل آزمون برابر 0/60 و همين همبستگي در مورد سوال B برابر 0/45 باشد، شاخص تشخيص اين دو سوال به شرح زير خواهد بود: ملاحظه مي شود كه هر دو سوال داراي سطح تشخيص قابل قبل هستند، با وجود اين سطح تشخيص سوال A بهتر از سوال B است.نظريه سوال- پاسخ(item- response theory) رابطه اين دو شاخص با شاخص هاي P و D ، كاملا آشكار است، اما بايد دانست بر اساس منحني سوال- پاسخ، يك تصوير جامع از رابطه تابعي بين درصد پاسخ هاي درست و نمره هاي ملاك به دست مي ايد كه از داده هاي حاصل از تجزيه و تحليل ساده سوال ها فراتر مي رود. در رويكردهاي جديد تجزيه و تحليل سوال هاي ازمون، منحني هاي سوال- پاسخ بر اساس درصد پاسخ هاي درست ازمودني ها در ارتباط با برآوردهايي از توانايي آنان كه از تابع رياضياتي خاص به دست مي ايد، ترسيم مي شود. اين رويكردها را كه بر حسب فرض هاي زيربنايي و روش هايي كه براي برآورد متغيرها به كار مي بندند، نظريه صفت مكنون، نظريه منحني ويژه سوال، يا الگوي راش ناميده مي شوند. در اين رويكردها، عملكرد آزمودني ها در سوال هاي ازمون(درصد پاسخ هاي درست) به موقعيت برآورد شده آن ها روي يك پيوستار فرضي صفت مكنون ربط داده مي شود.اصلاح سطح دشواري سوال ها براي حذف عامل حدس و گمان در آزمون هاي چندگزينه اي همواره اين احتمال وجود دارد كه بعضي از آزمودني ها براي يافتن پاسخ هاي درست سوال ها آن ها را حدس بزنند. براي حذف عامل حدس و گمان لازم است سطح دشواري سوال ها اصلاح شود. اصلاح حدس و گمان بر دو فرضيه استوار است: 1) پاسخ غلط به سبب بي اطلاعي آزمودني از موضوع مورد اندازه گيري و گرايش وي به حدس زدن است 2) جاذبه همه گزينه هاي پرسش ها براي ازمودني هاي بي اطلاع از موضوع يكسان است. با قبول اين دو فرضيه مي توان سطح دشواري سوال ها را با استفاده از فرمول  زير براي حذف عامل حدس و گمان اطلاح كرد.اصلاح سطح دشواري سوال ها براي حذف عامل حدس و گمان بعضي از عناصر اين فرمول  كه تا كنون معرفي نشده اند، به شرح زير است: Pc = درصد كساني كه واقعا پاسخ درست سوال را مي دانند HR= تعداد كساني كه فرصت پاسخ دادن به سوال ها را نداشته و آن ها را بدون پاسخ گذاشته اند N = تعداد كل آزمودني ها به عنوان مثال، اگر از يك گروه 300 نفري، 150 نفر به يك سوال 5 گزينه اي پاسخ درست، 120 نفر پاسخ غلط داده و 30 نفر بقيه فرصت پاسخ دادن به آن را نداشته  و ان را بي جواب گذاشته باشند، سطح دشواري اصلاح شده سوال به شرح زير خواهد بود:ويژگي هاي يك آزمون الف: ويژگي هاي اصلي: پايايي روايي نرم يا هنجار حساسيت ب: ويژگي هاي فرعي: سهولت اجرا سهولت نمره گذاري صرفه جويي در وقت صرفه جويي در هزينهاعتبار و پايايي آزمون مباني نظري نمره آزمون از آن جا كه ابزارهاي اندازه گيري خصيصه هاي رواني كاملا دقيق نيستند، نمره هاي كه فرد از يك ازمون مي گيرد با توانايي يا خصيصه واقعي او تفاوت دارد. تفاوت بين نمره واقعي و نمره مشاهده شده از خطاي اندازه گيري ناشي مي شود. بنابراين مي توان گفت كه نمره مشاهده شده(X) تركيبي از نمره واقعي(T) و خطاي اندازه گيري اس(E) است. X=T+E به عبارت ديگر، تفاوت بين نمره به دست آمده و نمره واقعي برابر خطاي اندازه گيري است. يعني: E=X-T ابزارهاي اندازه گيري هاي رواني را مي توان به خط كش لاستيكي تشبيه كرد كه فواصل درجه هاي آن به طور تصادفي كم يا زياد مي شود. با استفاده از خط كش لاستيكي براي اندازه گيري طول، در كوشش هاي مختلف ممكن است اندازه هاي متفاوت به دست ايد كه توزيع آن ها نرمال است. در اندازه گيري هاي رواني نيز چنين است. هر نمره مشاهده شده تركيبي از نمره واقعي و نمره خطاست. اعتبار و پايايي آزمون بر اساس نظريه نمونه گيري تصادفي، توزيع خطاهاي اندازه گيري شكلي زنگوله اي دارد. بدينسان نمره واقعي آزمودني برابر ميانگين توزع و پراكندگي نمره ها در دو طرف ميانگين توزيع خطاهاي نمونه گيري را نشان مي دهد. اين گفته بدان معناست كه نمره حاصل از يك بار اجراي آزمون ممكن است با نمره واقعي آزمودني يكسان باشد يا نباشد. اما با تكرار آزمايش مي توان با به دست آوردن ميانگين نمره ها، نمره واقعي را برآورد كرد.اعتبار و پايايي آزمون در نمودار شماره 1( شريفي، 1377:186) سه توزيع مختلف نشان داده شده است. در توزيع اول پراكندگي نمره ها در دو طرف نمره واقعي(ميانگين توزيع) خيلي زياد است. در اين مورد با اجراي يك بار آزمون اين احتمال وجود دارد كه نمره به دست آمده با نمره واقعي تفاوت زيادي داشته باشد.  در سومين توزيع سمت راست، پراكندگي اندازه ها حول ميانگين خيلي كم است. در اين مورد بيشتر نمره هاي مشاهده شده به نمره واقعي خيلي نزديك خواهند بود، بنابراين با مشاهدات كمتري مي توان به نتايج دقيق دست يافت.اعتبار و پايايي آزمون پراكندگي اندازه مشاهده ها حول نمره واقعي، ميزان خطاي اندازه گيري را نشان مي دهد. بر اساس نظريه كلاسيك روان سنجي اين فرض وجود دارد كه نمره واقعي شخص در يك ازمون با تكرار آزمايش تغيير نمي كند، بلكه تغيير نمره فرد در اجراي آزمون در دفعه هاي مختلف از خطاي تصادفي اندازه گيري ناشي مي شود. به طور نظري، انحراف معيار توزيع خطاها در مورد هر شخص، بزرگي خطاي اندازه گيري را نشان مي دهد. گر چه اين نظريه فقط به توزيع نمره هاي خطا در مورد يك فرد مربوط است، اما معمولا چنين فرض مي شود كه توزيع خطاهاي تصادفي براي همه افراد يكسان است. بدينسان در نظريه كلاسيك روان آزمايية انحراف معيار خطا به عنوان پايه اي براي سنجش خطاي اندازه گيري به كار بسته مي شود كه معمولا به خطاي معيار اندازه گيري معروف است و آن را با علامت اختصاريSE نشا ن مي دهيم.اعتبار و پايايي آزمون فرض كنيم مي خواهيم ارتفاع يك ميز را كه اندازه واقعي آن 80 سانتي متر است با يك خط كش لاستيكي اندازه گيري كنيم.... ميانگين اندازه هاي به دست آمده برآوردي از ارتفاع ميز و انحراف معيار اندازه ها، خطاي معيار اندازه گيري خواهد بود. خطاي معيار اندازه گيري متوسط انحراف اندازه هاي به دست آمده از ميانگين را نشان مي دهد. در عمل، انحراف معيار نمره هاي مشاهده شده و ضريب اعتبار آزمون به عنوان ملاك هايي براي برآورد خطاي معيار اندازه گيري به كار مي روند.مفهوم اعتبار آزمون و الگوهاي آن اعتبار آزمون به دقت اندازه گيري و ثبات و پايايي آن مربوط است و دو معناي متفاوت دارد. يك معناي اعتبار، ثبات و پايايي نمره هاي آزمون در طول زمان است. بدين معنا كه اگر يك آزمون چند بار در باره يك آزمودني اجرا شود، نمره وي در همه موارد يكسان باشد. معناي دوم اعتبار به همساني دروني اشاره دارد و مفهوم آن اين است كه سوال هاي آزمون تا چه اندازه با يكديگر همبستگي متقابل دارند. اگر ضريب اعتبار دروني ازمون كم باشد، بدان معناست كه سوال هاي مختلف ازمون متغير واحدي را اندازه گيري نمي كنند. به عبارت ديگر آزمون ممكن است داراي نوعي اشكال باشد. بنابراين، آزموني كه بين سوال هاي آن تشابه و هماهنگي وجود داشته باشد از همساني دروني بالايي برخوردار است. اما بايد دانست گاهي بالا بودن همساني دروني آزمون به بهاي كاهش روايي تمام مي شود.مفهوم اعتبار آزمون و الگوهاي آن به طور كلي، آزمون در صورتي داراي اعتبار است كه عاري از خطاي اندازه گيري غير نظام دار باشد. خطاهاي اندازه گيري غير نظام دار كه بر نمره هاي آزمون تاثير مي گذارند، غير قابل پيش بيني بوده و اعتبار تست را كاهش مي دهند. از سويي ديگر، خطاهاي اندازه گيري نظام دار، گر چه نمره هاي ازمون را تحت تاثير قرار مي دهند، اما چون اثر آن ها نسبتا ثابت و قابل پيش بيني است، لذا اعتبار آزمون را كاهش نمي دهند(ايكن، 1985). خطاهاي غير نظام دار عمدتا به متغيرهايي مانند نمونه خاص سوال هاي آزمون، شرايط اجرا، و انگيزه ازمودني در پاسخ دادن به سوال هاي ازمون مربوط است.مفهوم اعتبار آزمون و الگوهاي آن اعتبار آزمون را مي توان به عنوان خارج قسمت واريانس نمره هاي واقعي بر واريانس نمره هاي مشاهده شده تعريف كرد كه به صورت رابطه زير نشان داده مي شود: در اين رابطه،         اعتبار نظري آزمون،          واريانس نمره هاي واقعي، و          واريانس نمره هاي مشاهده شده است. بايد دانست كه منظور از اين دو واريانس، واريانس جامعه است و نه واريانس گروه نمونه. نسبت ئاريانس نمره هاي واقعي به نمره هاي مشاهده شده را مي توان به صورت درصد در نظر گرفت. در اين صورت، اعتبار عبارت است از درصد تغييرات نمره مشاهده شده كه مي توان ان را به تغييرات نمره واقعي نسبت داد. اگر اين نسبت را از 100 كم كنيم، درصد تغييرات مربوط به خطاي تصادفي به دست مي ايد.مفهوم اعتبار آزمون و الگوهاي آن فرض كنيد ضريب اعتبار يك آزمون 0.60 باشد. اين ضريب بدان معناست كه 60 درصد تغييرات به تغييرات واقعي بين آزمودني ها مربوط است و 40 درصد بقيه به خطاهاي تصادفي بستگي دارد. بنابراين اگر آزموني كه ضريب اعتبار آن 0/60 است در مورد گروهي از داوطلبان استخدام براي يك شغل اجرا شود، 60 درصد تغييرات بين داوطلبان به تفاوت هاي واقعي آنان در صفتي كه ازمون اندازه مي گيرد مربوط است و 40 درصد ديگر به عوامل تصادفي بستگي دارد.اعتبار آزمون: منابع خطا براي اين كه چرا نمره مشاهده شده با نمره واقعي تفاوت مي كند دلايل زيادي وجود دارد. از جمله: 1- شرايط نامناسب اجراي آزمون(مانند سر و صدا، خيلي گرم يا سرد بودن محل آزمون 2- وضعيت سلامتي آزمودني ها به طور كلي عوامل بيروني خطا به شرايط اجراي آزمون بستگي دارند. با استفاده از الگوي نمونه گيري زماني مي توان حدود اين خطا را برآورد كرد. 3- ناهمساني و عدم تجانس بين سوال هاي ازمون( اندازه گيري متغر هاي ديگر) 4- ناكافي بودن تعداد سوال هاي آزمون از عوامل فوق به عنوان منابع دروني خطا ياد مي شود. با استفاده از الگوي نمونه گيري حيطه، مي توان خطاي ناشي از عوامل دروني را برآورد كرد.  اعتبار آزمون: روش هاي برآورد الف: نمونه گيري زماني در الگوي نمونه گيري زماني خطاهاي ناشي از شرايط اجراي آزمون ( عوامل بيروني خطا) بررسي مي شود. براي برآورد خطاهاي ناشي از عوامل بيروني دو روش اعتباريابي وجود دارد : 1) اعتبار بازآزمايي(آزمون- آزمون مجدد) براي برآورد خطاي وابسته به زمان،  2) اعتبار آزمون هاي همتاروش هاي برآورد اعتبار آزمون: اعتبار بازآزمايي(Test-retest) در اين روش، آزمون را در باره گروه نمونه واحدي از آزمودني ها در دو زمان متفاوت اجرا و ضريب عمبستگي بين نمره هاي حاصل از دو بار اجراي آزمون محاسبه مي شود. ضريب همبستگي كه از اين روش به دست مي آيد، حالت خاصي از ضريب اعتبار است كه در اصطلاح با آن ضريب ثبات يا پايايي آزمون گفته مي شود. در اين روش خطاي ناشي از تفاوت شرايط وابسته به دو موقعيت زماني برآورد مي شود. با اين روش خطاي ناشي از منابع خطاي دروني به حساب نمي آيد.روش هاي برآورد اعتبار آزمون: اعتبار بازآزمايي اين روش براي اندازه گيري صفات و خصايصي مناسب است كه معمولا در طول زمان تغيير نمي كنند(مانند هوش افراد از 16 سال به بالا). بنابراين اگر بين نمره هاي هوش آزمودني ها در دو آزمايش همبستگي ضعيفي به دست ايد نمي توان گفت كه آنان در فاصله بين دو آزمايش باهوش تر يا كم هوش تر شده اند. بلكه بايد چنين نتيجه گرفت كه پايين بودن ضريب همبستگي بين نمره هاي دو آزمايش از خطاي اندازه گيري ناشي شده است. بنابراين روش بازآزمايي در مورد آزمون هايي كه صفات پايدار شخصيت آدمي را اندازه گيري مي كنند، مناسب است. بدينسان استفاده از اين روش در مورد ازمون هاي پيشرفت تحصيلي ممكن است چندان مناسب نباشد.