Love addiction: Based on Network Approach

اLove addiction is a type of behavioral addiction that has recently attracted the attention of many researchers in psychology and psychiatry.This phenomenon causes suffering, distress, mal-adaptiveness and risks for the affected person and others. The purpose of the present study was to use network analysis as one of the psychometric approaches and to apply it in the study of network structure of love addiction symptoms.Network analysis is a powerful way to analyze the relationships among network elements (questionnaire items).The method of this study was descriptive-correlational and the statistical population consisted of all Iranian females and males with at least one experience of falling in love. A total of 148 questions were formulated using an 8point Likert scale and two questions were omitted form the questionnaire during the question analysis. Data were collected by electronically administering a researcher made questionnaire on 1149 individuals and analyzed in two distinct stages using MIRT software package in R software. Graphical representation based on the data collected through network analysis (graph theory)and Fruchterman and Reingold algorithm was performed using graphs, boothnet software packages in Rsoftware. The results of the network analysis showed that the items of the questionnaire, each of which indicating a symptom of love addiction based on studies in this area, were placed in a coherent network.The most important symptoms in the love addiction network were reported to be obsessiveness,fantasy,impulsivity, physical and emotional dependence, as well as high emotion seeking, while the least important symptoms were suicidal tendencies, extreme selfsacrifice and sexual attractions.

 

  • Behavioral Addiction 
  •  
  • Love Addiction 
  •  
  • Network analysis 
  •  
  • Love Addiction Questionnaire 
  •  
  • R software

اعتیاد به عشق مطالعه مبتنی بر رویکرد تحلیل شبکه

اعتیاد به عشق نوعی اعتیاد رفتاری است که به‌تازگی توجه پژوهشگران حوزه روانشناسی و روانپزشکی را به خود جلب کرده است. این پدیده موجب رنج و پریشانی، ناساز‌‌گاری و مخاطره برای فرد مبتلا و دیگران می‌شود. هدف از اجرای این پژوهش، استفاده از تحلیل شبکه به‌عنوان یکی از رویکردهای اندازه‌گیری روانی و کاربرد آن درمطالعه ساختار شبکه‌ای نشانگان اعتیاد به عشق بود. تحلیل شبکه روش قدرتمندی برای تحلیل روابط میان عناصر شبکه (گویه‌های پرسشنامه) می‌باشد. روش پژوهش اکتشافی ـ توصیفی از نوع همبستگی و جامعه‌ آماری تمام مردان و زنان ایرانی با تجربه حداقل یک‌بار عاشق شدن بود. تعداد 148 سوال با مقیاس لیکرت 8 ارزشی تدوین و در تحلیل سوال، دو سوال حذف شد. داده‌ها از اجرای الکترونیکی پرسشنامه‌ محقق ساخته روی 1149 نفر اجرا و در دو مرحله‌ی مجزا با استفاده از بسته‏ی نرم افزاری MIRT در نرم افزار R تحلیل شدند. نمایش گرافیکی بر اساس داده های جمع‌آوری شده از طریق تحلیل شبکه (نظریه گراف) و الگوریتم فروترمن ـ رینگولد با استفاده از بسته‌های نرم‌افزاری qgraph , boothnet در نرم افزار R انجام شد. نتایج تحلیل شبکه نشان داد سوالات پرسشنامه که هر کدام به نشانه‌ای از نشانگان اعتیاد به عشق مبتنی بر مطالعات این حوزه می‌باشند، دریک شبکه منسجم قرارمی‌گیرند. مهمترین نشانگان درشبکه نشانگان اعتیاد به عشق وسواس، خیال‌پردازی، تکانشگری، وابستگی جسمی و هیجانی و هیجان‌خواهی بالا و کم‌اهمیت‌ترین نشانگان میل‌به‌خودکشی، فداکاری بیش‌ازحد و جذابیت‌های جنسی گزارش شد.

 مقاله مربوط به پایان نامه ی ارشد خانم زهره آقاخانی (راهنما:دکتر محمد حسین ضرغامی)

مراحل ساخت پرسشنامه

برای ساختن یک پرسشنامه لازم است مراحل زیر طی شود و گزارش شود:

  1. پروتکل مطالعه مشخص گردد: این مرحله در برگیرنده ی آشنایی با جامعه ی هدف، مطالعه ی ادبیات و پیشینه به صورت نظامند، تعریف و تعیین اهداف، فرمول بندی مفروضات و تعریف اطلاعات اصلی که برای فرض آزمایی آزمون نیاز است.
  2. طرح نقشه تحلیل: در این گام اطلاعات گام اول باید تحلیل شود. نقشه تحلیل باید در برگیرنده ی اندازه هایی از ارتباط و آزمون های آماری باشد که شما قصد دارید استفاده کنید. نقشه ی تحلیل باید به شما کمک کند تا نوع نتایجی که شما می توانید بدست آورید را مشخص کند.
  3. ارائه ی لیستی از اطلاعات مورد نیاز: در این بخش لازم است نوع و فرمت متغیرهای مورد نیاز مشخص شوند.
  4. طرح بخش های مختلف پرسشنامه: لازم است بخش های مختلف پرسشنامه مشخص گردد.
  5. نوشتن سوالات: نوشتن سوالات لازم است مبتنی بر اصول طراح سوال باشد.
  6. کامل کردن پرسشنامه و مشخص کردن ترتیب سوالات تعیین جایگاه سوالات حساس و مهم و نمای ظاهری پرسشنامه
  7. کنترل اهداف و موضوعات با سوالات.
  8. اجرای مقدماتی
  9. اصلاح سوالات و تحلیل اولیه
  10. اجرای اصلی و تحلیل اصلی و تعیین شاخص های روانسنجی
  11. ارائه ی هنجار و منوال.

مراحل کلی در ساخت و هنجاریابی آزمون یا پرسشنامه

به منظور ساخت یک پرسشنامه یا آزمون لازم است مراحل زیر طی شود:

  1. احاطه به حوزه ی محتوایی (دانش درباره ی سازه های مورد اندازه گیری)
  2. طراحی سوالات یا گزاره های پرسشنامه بر اساس اسلوب نگارش سوال. قواعد مربوط به نگارش سوال هم دربرگیرنده قواعد ساختاری (مانند شفافیت، روشن بودن، دوپاره یا چند پاره نبودن، در نظر گرفتن یک سازه در پاسخ دهی و....) و هم در نظرگرفتن ملاحظات جامعه ی هدف است (تعداد سوالات و گزاره ها باید بیشتر از آنچیزی باشد که بر اساس قواعد سوال نویسی لازم است)
  3. بررسی روایی صوری یا ظاهری (بر اساس مصاحبه با چند نفر از جامعه هدف)
  4. بررسی روایی محتوایی بر اساس الگوی مناسب (نظر خبرگان، جداول هدف و محتوا، تحلیل محتوا، تحلیل مبتنی بر شاهد) با مسئله پژوهش و تحلیل نتایج به روش های کیفی و کمی.
  5. اجرای مقدماتی روی تعداد مکفی.
  6. تحلیل اولیه سوالات و محاسبه ی شاخص های کلاسیک در تحلیل سوال (مانند روش حذف سوال)
  7. اجرای دوم سوالات تصحیح شده و تغییر یافته حاصل از مرحله ششم به منظور تحلیل سازه و دستیابی به پارامترهای سوالات.
  8. استفاده از شیوه های مناسب وابسته به بافت پژوهش برای اثبات روایی سوالات.
  9. تحلیل سوالات و دستیابی به سوالات نهایی.
  10. ارائه ی جداول هنجار و ارائه ی پارامترهای سوالات

بعضی از یافته های نهایی، شیوه های تحلیل، نتیجه گیری و هنجاریابی مبتنی بر نظریه کلاسیک با نظریه سوال پاسخ متفاوت است. 

کاربرد تحلیل داده های شبکه ای محتوای شبکه های اجتماعی موبایلی، به منظور سنجش ویژگی های  شخصیتی، توان

نویسنده و مسول مقاله: محمد حسین ضرغامی (دکتری سنجش و اندازه گیری)

یکی از مهمترین موانع جدی تصمیم گیری برای کسانی که لازم است دست به قضاوت و ارزشیابی بزنند- مثلا روانشناسان، مشاوران، مدیران و غیره- اطلاعاتی است که عموما از طریق روش های خودگزارش دهی[1] جمع آوری می‏ شوند. روش های خودگزارش دهی عمدتا از طریق مصاحبه، پرسشنامه، چک لیست و یا مشاهده صورت می پذیرند. به نظر می رسد استفاده از داده های فیزیولوژیکی مانند نتایج بدست آمده از EEG، MRI، FMRI، Eye tracking و ... بتواند بر بعضی از مشکلات ناشی از روش های خودگزارش دهی فائق آید. با این وجود استفاده از این روش ها علاوه بر این که نیازمند ابزار و هزینه های خاص است، میزان موفقیت آنها در بیشتر مقالات گزارش شده، تفاوت معناداری با نتایج بدست آمده از روش های خودگزارش دهی ندارد. شایان ذکر است که مساله ی اعتباریابی این روش ها، به همان اندازه‏ ی روش های خودگزارشی سوال برانگیز است.

ظهور شبکه های اجتماعی آنلاین[2] یکی از حوزه های پر هیجان دهه‏ ی اخیر مخصوصا در روابط اجتماعی به شمار می رود. شبکه های اجتماعی موبایل مانند وایبر[3]، تلگرام[4]، واتس اپ[5]، تانگو و سایر شبکه های اجتماعی در بین کاربران به سرعت محبوب شده اند. چنین شبکه هایی به لحاظ محتوایی فوق العاده غنی اند و حجم بسیار بالایی از محتوا و داده های ارتباطی را در بر می گیرند که برای دستیابی به اهداف مختلف مورد تحلیل قرار می گیرند. امروزه داده های چنین شبکه هایی به عنوان طلای سیاه در نظر گرفته می شوند(هان و کامبر، 2011).

 

 

 

 

 

 

ساختار اطلاعات[6] موجود در شبکه های اجتماعی با مولفه های نظریه گراف[7] همخوان است. دو مولفه ی اساسی تئوری گراف، رآس[8]  و یال[9] است. راس یا گره در شبکه های اجتماعی متون، تصاویر و سایر چند رسانه‏ای‏ها است و یال یا ارتباط بین رئوس، ویژگی یا چیزی است که به عنوان رابط بین گره ها در نظر گرفته می شود. غنای چنین شبکه هایی فرصت های بی سابقه ای را برای تحلیل‏گران داده در حوزه های مختلف، از فلسفه تا علم[10] فراهم می آورد.

 

 

 

 

 

 

 

شبکه اجتماعی می تواند بر اساس اهداف مختلف به شیوه های گوناگون تعریف شود. به عنوان مثال یک گروه دوستی می تواند به عنوان یک شبکه ی اجتماعی مقصود اصلی مطالعه باشد. البته پر واضح است که اگر صرف ارتباط، مورد نظر باشد؛ هر گروه دوستی در شبکه های اجتماعی موبایل، در برگیرنده ی تمام افراد جهان می شود که برنامه ی مربوط به آن شبکه را روی موبایل خود نصب کرده و از آن استفاده می کند. از این منظر شما خواننده عضو تمام گروههای دوستی موجود در جهان می باشید و در صورت فائق آمدن بر موانع سخت افزاری و نرم افزاری می توانید ارتباط دلخواهتان را برقرار نمایید. به لحاظ نظری و تجربی این موضوع سال ها قبل از پیدایش موبایل و اینترنت توسط میلگرام در مقاله ای با عنوان جهان کوچک[11] مطرح و به لحاظ تجربی ثابت شده است(https://en.wikipedia.org/wiki/Small-world_experiment). بنابراین تعیین حد و مرز و تعریف شبکه ی مورد مطالعه بسیار اهمیت دارد و این مهم، از طریق الگوریتم های مبتنی بر مدل های آماری گراف و داده های شبکه ای[12] امکان پذیر است.

شخصيت را شايد بتوان اساسی ترين موضوع علم روان شناسی دانست؛ زيرا محور اساسی بحث در زمينه هايی مانند يادگيری، انگيزش، ادراک، تفکر، عواطف و احساسات، هوش و مواردی از اين قبيل است. از طرف ديگــر، در مطالعــه ی بيماری هــای روانی کنشی، مانند انواع ســايکوزهای کنشی، اختلالات شخصيت و منش، تمام نوروزها، رفتارهای ضد اجتماعــی و ضد اخلاقی، اعتياد و انحراف ها، شخصيت نقش محوری و اساسی دارد. در رابطه با جايگاه و اهميت شخصيت در روان شناسی، گفته شده است که شخصيت مانند ديگی است که همه ی مخلفات روان شناسی در آن پخته می شود (شاملو، ۱۳۷۷). از این رو سنجش ویژگی های شخصیتی و توانمندی های هوشی در حوزه ی منابع انسانی[13] و روانشناسی غیر قابل انکار است به طوری که بخش عظیمی از فعالیت ها و تلاش های روانسنجان در گذشته و در زمان حال را به خود اختصاص داده است.

 

 

 

 

 

 

تشخیص بالینی مهمترین و پایه ‏ای ترین گام درمان به شمار می رود که توسط روانشناسان و روانپزشکان و عمدتا بر اساس نشانگان بالینی مراجع صورت می پذیرد. با وجود آموزش های مختلفی که این متخصصان دریافت می کنند، تشخیص های بالینی می تواند از سوگیری های فردی[14]، فرافکنی شخصی[15]، اثر معیار سرایت، اثر هاله ای[16]، نقاب های اجتماعی[17] و سایر عوامل مختل کننده که ناشی از ارتباط بین فردی[18] است؛ متاثر شود. علاوه بر این فرد می تواند در خود اظهاری به خاطر مجموعه‏ ی کلانی از عوامل فردی و اجتماعی در روند تشخیص و درمان اختلال ایجاد نماید. در کنار تجارب و پیشینه ی مراجع و درمانگر، کلیه ‏ی مولفه های فضا-زمان[19] و تعاملات بین آنها نقش تعیین کننده ای در فرآیند تشخیص، درمان و درمان پذیری دارد.

به کارگیری و استفاده از شیوه های سنجش غیر مستقیم[20] در تشخیص بیماری های روانی و یا برآورد ویژگی های شخصیتی افراد بسیار ضروری است. استفاده از روش های کشف دانش[21] مبتنی بر شبکه ‏های اجتماعی (مانند شبکه های اجتماعی موبایل) می تواند در خدمت کسانی باشد که هدف آنها سنجش ویژگی های شخصیتی، توانمندی های هوشی و تشخیص بیماری های روانی است. خود ابرازگری افراد در این روش ها نسبت به موارد گفته شده بیشتر است، موانع اجتماعی به حداقل رسیده و شبکه ی ارتباطی فرد، امکان اعتباریابی تشخیص ها را فراهم می آورد. بنابراین از نگاه درمانی علاوه بر فرد، شبکه ی بسیار وسیعی از جهان ارتباطی وی و دیتای قابل توجهی از محتوای کلام در قالب نشانه –متن و تصویر و سایر ابزار چند رسانه ای- در دسترس است که می تواند شخصیت، توانمندی های شناختی و غربالگری روانی را به صورت غیر مستقیم سنجش نماید و درمان را به لحاظ ساختاری، به صورت همزمان، فردی و گروهی نماید.

 

  1.  شاملو، سعید، «مکتب ها و نظریه ها در روانشناسی شخصیّت»، تهران، رشد، انتشارات رشد، 1390.

Han, J., Kamber, M., & Pei, J. (2011). Data mining: concepts and techniques: concepts and techniques. Elsevier.



[1]. Self-report

[2]. Online social networks

[3]. viber

[4]. telegram

[5]. What’s up

[6]. Information structure

[7]. Graph theory

[8]. node

[9]. edge

[10]. science

[11]. the small world

[13]. Human Rescores

[14]. Individual biases

[15]. Personal projection

[16]. Halo effect

[17]. Social persona

[18]. Intra individual

[19]. time-space components

[20]. Indirect assessment

[21]. Knowledge discovery

آزمون کاربرد تحلیل داده‏های شبکه ‏ای در فرآیند تحلیل سوال

آزمون کاربرد تحلیل داده‏های شبکه ‏ای در فرآیند تحلیل سوال

چکیده

زمینه: روش تحلیل شبکه در حوزه‌ی روانسنجی به این دلیل که بنیان آن مبتنی بر تئوری و مفروضات هستی‏ شناختی و روش‏ شناختی خاصی است، می‌تواند به عنوان پارادایمی[1] مستقل تلقی شود که بر اساس آن تکنیک‌ها و فنون ویژه‏ای برای جمع آوری، تحلیل داده‌ها و برازش مدل‌های نظری پیشنهاد می‌دهد. این روش می‏ تواند در کاربست روش‏ های روانسنجی که ماهیت شبکه ‏ای دارند (مانند تحلیل سوالات)، استفاده شود. هدف: هدف این پژوهش معرفی تحلیل داده‏ های شبکه‏ ای به عنوان یک تکنیک روانسنجی-ریاضیاتی، و استفاده از آن در فرآیند تحلیل سوالات پرسشنامه، می‏ باشد. در این پژوهش برای نمونه، نتایج تحلیل سوال از این روش با شاخص‏های روانسنجی مرسوم مقایسه می ‏شود. روش: داده ‏های مربوط به این مطالعه، از اجرای پرسشنامه رغبت شغلی بدست آمده که مبتنی بر نظریه شخصیتی- شغلی هالند ساخته شده است. این پرسشنامه روی 1000 نفر از دانش آموزان دبیرستانی استان تهران اجرا شده است. دانش آموزان بر اساس نمونه‏گیری خوشه‏ای و با اخذ مجوز لازم از اداره آموزش و پرورش استان تهران، انتخاب شدند. این داده‏ ها با هدف تحلیل سوالات پرسشنامه رغبت ‏سنج و قبل از مرحله ‏ی هنجاریابی پرسشنامه اتخاذ شدند. یافته‏ ها: معرفی تکنیک تحلیل داده ‏های شبکه ‏ای و الگوریتم‏ های مربوط به آن و استفاده از آنها به منظور فرآیند تحلیل سوال، یکی از دستاوردهای این مقاله است. مقایسه‏ ی نتایج بدست‏آمده از بکار بردن تکنیک تحلیل داده ‏های شبکه ‏ای و روش‏های مرسوم روانسنجی (مانند ضریب پایایی، ضریب تمیز، مقدار آگاهی بر اساس نظریه سوال پاسخ و تحلیل عاملی سوالات) نشاندهنده ‏ی انطباق و هماهنگی آنها در تحلیل سوالات پرسشنامه رغبت سنج است. به بیان دیگر، سوالاتی که با استفاده از شیوه ‏های مرسوم تحلیل سوال، مناسب و یا نامناسب تشخیص داده می‏ شوند، همان سوالاتی هستند که در گراف ترسیم شده از طریق تکنیک شبکه‏ ای مناسب و یا نامناسب اند.  بحث و نتیجه‏ گیری: نتایج بدست آمده از این پژوهش نشان می‏دهد که می‏توان از تکنیک تحلیل داده‏های شبکه‏ ای به خوبی در حوزه‏ ی تحلیل سوالات چه به صورت مستقل و چه در کنار شیوه‏ های مرسوم تحلیل سوال استفاده نمود. مزایای کاربرد چنین تکنیکی علاوه و بر سادگی فهم، تفسیر و شناسایی سوالات مناسب و نامناسب، نقشه‏ ی ارتباطی بین سوالات است که می‏ تواند در تحلیل ابعاد زیر بنایی سوالات، مانند تکنیک مقیاس ‏گذاری چند بعدی[2] استفاده شود و تمام نتایج تحلیلی را به صورت یکپارچه و یکجا ارائه دهد.

کلید واژه‏ها: تحلیل داده ‏های شبکه ‏ای، تحلیل سوال، ویژگی‏های روانسنجی، دیداری سازی، نقشه سوالات، نظریه هالند، رغبت شغلی.

Study of applying network data analysis in item analysis

Abstract: The foundation of network data analysis in psychometrics rests on particular theory, special ontological assumptions and particular methodology. Therefore it is possible to call network analysis as an independent paradigm with given techniques for data gathering and data analysis. This study introduces the analysis of network data as a psychometric-mathematical technique, and its use in questionnaire item analysis. To achieve this goal, data gathered from implementation of a self-made questionnaire on 1000 Tehran's high school students. The questionnaire was made based on occupational-personality Holland theory. Researchers analyzed questionnaire’s items according to conventional methods (classical test theory, item response theory and factor analysis) and proposed method (network data analysis). Comparison of the results shows that a complete conformity between conventional methods final outputs and the outputs from network data analysis. Therefore, psychometricians can use network data analysis independently or alongside conventional methods to analyze questionnaires items. Advantages of such a method are simplicity, accuracy, being virtually and integrity.

M***

***

Keywords: Network data analysis, item analysis, psychometrical properties, visualization, item map, Holland theory, job interest.



[1] . Paradigm

[2]. Multidimensional scaling

مدل معادلات ساختاری فازی

مدل هاي ساختاري فازي در علوم انسانی

مدل هاي ساختاري فازي به منظور تبيين پديده ها تبيين مي شوند. مدل هاي ساختاري در قالب مدل سازي معادله ي ساختاري اغلب بدليل مشكلاتي نظير سنجش دقيق سازه ها، همخطي چندگانه ميان متغييرهاي پنهان مستقل، مشكلات مربوط به تشخيص مدل در صورت پيچيده شدن و همچنين برآوردهاي نامناسب پارامترها در چنين وضعيتي (نظير واريانس هاي منفي يا ضرايب استاندارد گاما و بتاي بالاتر از 1 و يا بارهاي عاملي بزرگتر از 1) به صورتي نسبتا ساده  طرح مي شوند. به اين معنا كه تعداد سازه هاي پنهان بيروني و دروني كمتر از آنچه در واقعيت اجتماعي دخالت دارند به مدل وارد مي شوند.

اگر فرض شود پژوهشگري مدل معادلات ساختاري تدوين كرده است كه بر اساس يك سازه ي پنهان مي خواهد سه سازه ي ديگري را تبيين نمايد شكلي مانند زير خواهد داشت:

  

مدل ساختاري فازي به پژوهشگران اين امكان را مي دهند كه در وارد كردن سازه هاي پنهان با كمتر محدوديتي به لحاظ دقت در سنجش مواجه شويم. از آنجا كه منبع اصلي داده ها در تدوين مدل هاي ساختاري فازي ديدگاه كارشناسان و خبرگان مرتبط با موضوع است انتظار مي رود متغييرهاي بكار رفته در تحليل هاي ارائه شده از طرف آنها تا حد زيادي به لحاظ مفهومي داراي فضاي مشتركي باشند. بنابراين اگر اين گروه از افراد از مفاهيمي نظير دمكراسي توسعه ي اقتصادي، مشاركت، دين داري و .. استفاده مي كنند انتظار داريم كه هر مفهوم نزد كارشناسان مختلف سنجه ها يا معرف هاي كم و بيش يكساني داشته باشند. تبيين يك سازه بر مبناي تركيب علي سه سازه ديگر در يك مدل ساختاري فازي مي تواند مانند شكل زير نمايش داده شود.


انجام تحليل عاملي غير خطي با اطلاعات كامل full information تحت نظريه ي سوال پاسخ

تحليل عاملي كه اكنون در بسياري از پژوهش ها و تحقيقات و مطالعات انجام مي شود مشكلات جدي دارد كه اجتناب از آنها امكان پذير نيست . مهمترين مشكل اين تحليل عاملي ها استفاده از تحليل عاملي هاي خطي است كه مشكل جدي در تحليل عاملي به شمار مي رود. در انجام اين تحليل عاملي فرض مي شود كه رابطه ي خطي بين صفت مكنون يا عامل و متغيرهاي مشاهده شده وجود دارد. اين فرض در بيشتر يا قريب به اتفاق تمام مطالعات واقعي نيست. علاوه بر اين تحليل عاملي مبتني بر ماتريس همبستگي انجام مي شود و اطلاعات كامل مطالعه استفاده نمي كند. به منظور استفاده از كليه ي اطلاعات نمي توان از روش هاي تحليل عاملي موجود استفاده نمود. به منظور تحليل عاملي غير خطي با اطلاعات كامل يا فول اينفورميشن مي توان از نظريه ي سوال پاسخ استفاده نمود. مبتني بر مدل هاي چندبعدي نظريه ي سوال پاسخ مي توان تحليل عاملي انجام داد كه هم غير خطي باشند و هم از كليه ي اطلاعات استفاده شود. علاوه بر اين روش هاي چند بعدي به پارامتري كردن سئوالات در ابعاد مختلف مي پردازند. 

به منظور انجام تحليل عاملي غير خطي با اطلاعات كامل و در صورت سوال مي توانيد با شماره ي 

09122263167 يا ايميل 

zar100@gmail.com

تماس بگيريد.

برنامه اي به منظور برآورد تتاي افراد بر اساس مدل پاسخ مدرج سوال پاسخ(زماني كه پارامترهاي سوالات موجو

يكي از مشكلات موجود در نرم افزارهاي بر آورد تتاي افراد يا توانايي افراد بر اساس مدل هاي مختلف سوال پاسخ اين است كه نرم افزارهايي مانند بايلوگ و مالتي لوگ و ساير نرم افزارهاي موجود پارامترهاي سوالات و افراد را به طور همزمان بدست مي آورند( منظور از همزمان در اينجا روش برآورد پارامتر نيست) يعني شما زماني كه بانك سوال مدرجي داشته باشيد و بخواهيد از تتاي فرد را برآورد سازيد نمي توانيد از اين نرم افزارها استفاده كنيد به اين منظور بنده برنامه اي به زبان آر نوشته ام كه در صورت نياز مي توانيد ايميل زده و از آن استفاده كنيد.

ZAR100@GMAIL.COM

تحليل عاملي3

5.  مفاهیم کلیدی در تحلیل عاملی

قبل از پرداختن به این تکنیک آماری، لازم است برخی از مفاهیم کلیدی این روش معرفی گردند.

اشتراک : میزان واریانس مشترک بین یک متغیر با سایر متغیرهای بکار گرفته شده در تحلیل.

مقدار خاص :میزان واریانس تبیین شده بوسیله هر عامل را بیان می کند. یکی از ضوابط پرکاربرد در تعیین تعداد عاملها ، مقدار ویژه است که آن را معیار راکد نیز می گویند. در تحلیل عاملی مقدار ویژه برابر1می باشد ولی ما می توا نیم در بسته آماری این مقدار را زیاد کنیم . در تحلیل عاملی مولفه های اصلی آنها هستند، که مقدار ویژه آنان بیشتر از 1 باشد. ولی اگر این مقدار کمتر از 1 باشد، عاملهای مورد نظر از لحاظ اماری  معنی دار نیست و باید از تحلیل کنار گذاشته شود .

عامل :عبارتست ترکیب خطی متغیرهای اصلی،که نشان دهنده خلاصه ای از متغیرهای مشاهده شده است.

بار عاملی : همبستگی بین متغیرهای اصلی و عوامل. مجذور مقادیر بار عاملی ،نشان می دهند که چند درصد از واریانس در یک متغیر توسط آن عامل تبیین می شود.

ماتریس عاملی : جدولی است که بارهای عاملی کلیه متغیرها را در هر عامل نشان می دهد.

چرخش عاملی : فرآیندی برای تعدیل محور عامل به منظود دستیابی به عاملهای معنی دار وساده است. یکی از مفاهیم مهم در تحلیل عاملی ‏‏‏‏ چرخش  عاملهاست. که این مفهوم دقیقا به همان معنا دلالت دارد که در فرآیند چرخش عاملی ، محورهای مختصات عاملها را به دور مبدا چرخش داده است تا اینکه موقعیت جدیدی را بدست آورد ما در اینجا دونوع چرخش داریم :

1- چرخش متعامد  

2- چرخش متمایل  

چرخش متعامد: عاملها مستقل از یکدیگر هستند.

چرخش متمایل: عاملها بایکدیگر همبستگی دارند. 


تحليل عاملي 2

3.  تعریف تحلیل عاملی

برای تحلیل عاملی، تعاریف مختلفی ارائه شده است که از آن میان می توان به موارد ذیل اشاره کرد:

تحلیل عاملی نامی است عمومی برای برخی از روشهای چند متغیره که هدف اصلی آن خلاصه کردن داده هاست. این روش به بررسی همبستگی درونی تعداد زیادی از متغیرها می پردازد و در نهایت آنها را در قالب عاملهای عمومی محدودی دسته بندی کرده تبیین می کند. در این تکنیک تمام متغیرها به عنوان متغیر وابسته قرار می گیرد.

تحلیل عاملی روشی به هم وابسته بوده که در آن کلیه متغیرها بطور همزمان مد نظر قرار می گیرد. در این تکنیک، هریک از متغیرها به عنوان یک متغیر وابسته لحاظ می گردد.

تحلیل عاملی یک شیوه آماری است که می تواند جهت تحلیل روابط متقابل میان گروه بزرگی از متغیــرها و برای توصیف این متغیرها براساس ابعاد مشترک پنهان میان عوامل به کار رود.این شیوه آماری به یافتن راهی جهت تلخیص اطلاعات موجود در تعدادی متغیرهای اصلی می پردازد و آنها را به یک سری عامل های کوچکتر با کمترین میزان ریزش اطلاعات تبدیل  می کند.

4.  درك مفهومي تحليل عاملي و كاربرد آن

بنا بر آنچه گفته شد، تحليل عاملي تكنيكي است كه كاهش تعداد زيادي از متغيرهاي وابسته به هم را به صورت تعداد كوچكتري از ابعاد پنهان يا مكنون امكان پذير مي سازد. هدف عمده آن رعايت اصل اقتصاد و صرفه جويي از طريق كاربرد كوچكترين مفاهيم تبيين كننده به منظور تبيين بيشينه مقدار واريانس مشترك در ماتريس همبستگي است. مفروضه اساسي تحليل عاملي اين است كه عامل هاي زيربنايي متغيرها را مي توان براي تبيين پديده هاي پيچيده به كاربرد و همبستگي هاي مشاهده شده بين متغيرها ،حاصل اشتراك آنها در اين عامل ها است. هدف تحليل عاملي تشخيص اين عامل هاي مشاهده ناپذير بر پايه مجموعه اي از متغيرهاي مشاهده پذير است. عامل، متغير جديدي است كه از طريق تركيب خطي نمره هاي اصلي متغيرهاي مشاهده شده بر پايه فرمول زير برآورد مي شود:

Fj=∑WjiXi=Wj1X1+Wj2X2+…+WjpXp

كه در آن W ها بيانگر ضرايب نمره عاملي و P معرف تعداد متغيرها است. اين عامل ها، في نفسه، سازه هاي فرضي يا نظري هستند كه به تفسير ثبات و هماهنگي در مجموعه داده ها كمك مي كنند. بنابراين ارزش تحليل عاملي اين است كه طرح سازماني مفيدي ارائه مي دهد كه مي توان آن را براي تفسير انبوهي از رفتار با بيشترين صرفه جويي در سازه هاي تبيين كننده، به كار برد.

اميد اين است كه تعداد كمي از اين عامل ها (يعني تركيب هاي خطي نمره هاي اصلي متغيرهاي مشاهده شده) بتواند تقريبا همه اطلاعاتي را كه توسط مجموعه بزرگتري از متغيرها به دست مي آيد در برگرفته در نتيجه توصيف ويژگي هاي فرد را ساده سازد. از اين گذشته اميدوار هستيم كه با توسعه صحيح عامل ها، متغيرهايي به وجود آوريم كه دلالت بر يك سازه روشن و با معناي روان شناختي داشته باشد به گونه اي كه توصيف ما از شخص نه فقط ساده تر، بلكه روشن تر و قاطع تر باشد. 


تحليل عاملي 1

تحلیل عاملی یکی از فنون پیشرفته امار چند متغیری است که در جهت دستیابی به بسیاری از هدفهای علمی و پژوهشی مانند مدلسازی ،فرضیه سازی،رواسازی تست ها،تشخیص پاره تست ها، وفراهم ساختن زمینه اجرای سایر روشهای پیشرفته اماری مانند رگرسیون چند متغیری و معادلات ساختاری به کار می رود.اما پیچیدگی و دشواری درک ،اجرا تفسیر نتایج تحلیل عاملی موجب شده است بسیاری از کاربران بدون اشنایی با منطق زیر بنایی ،محدودیتها ونیز دامنه کاربرد آن ،به اجرا و بکارگیری یافته های حاصل از ان بپردازند و بدین ترتیب زمینه ساز تفسیر های نامعتبر و ناروا ونیز تعمیم های نادرست از پدیده ها ومتغیرهای مورد مطالعه گردند. تحقیق حاضر، به معرفی این تکنیک، کاربردها و روشهای پیاده سازی آن می پردازد.

2.  مقدمه

نخستين كار درباره تحليل عاملي، توسط چارلز اسپيرمن (1940) صورت گرفت، كه به گونه كلي « پدر» اين روش شناخته شده است. بعد از او كارل پيرسن)1901(، روش «محورهاي اصلي» را پيشنهاد كرد و هتلينگ (1933) آن را به گونه كاملتري توسعه داد.

بسياري از كارهاي نخستين در تحليل عاملي، يعني در طول سال هاي 1900 تا 1930، به كاربرد مدل اسپيرمن در بسياري از مسايل عملي و بررسي شرايط مناسب براي استفاده از آن مدل اختصاص يافته است. در طول اين دوره، علاوه بر خود اسپيرمن، دانشمندان ديگري مانند سيريل برت، كارل هليزينگر، ترومن كلي، كارل پيرسن و گادفري تامسون، كمك هاي شاياني به ادبيات تحليل عاملي كرده اند. در اوايل سال 1930، آشكار شد كه مدل تك عاملي عمومي اسپيرمن براي توصيف روابط بين متغيرهاي يك مجموعه هميشه كافي نيست.

ترستون احتمالا برجسته ترين تحليلگر عاملي نوين بوده و نفوذ قابل ملاحظه اي در توسعه اين روش از سال هاي 1930 تا كنون داشته است. مسئوليت توسعه روش «سانتروئيد» با اوست كه در مقياس گسترده اي قبل از ظهور كامپيوترهاي پر سرعت به كار رفته است. او همچنين مسئول مفهوم ساختار ساده است كه توسط بيشتر تحليلگران به عنوان معرف يك راه حل تحليل عاملي ايده آل در نظر گرفته شده است.

كارهاي اوليه در تحليل عاملي  كه توسط دانشمندان ياد شده انجام گرفته ، بيشتر توجيه نظري دارد، هر چند هيچ يك از آن ها آماده براي آزمون هاي آماري فرضيه هاي خاص درباره ساختارهاي عاملي مجموعه هاي معيني از متغيرها نبوده است. اما، وقتي كامپيوترهاي پر سرعت در اختيار قرار گرفت در اواسط تا اواخر سال هاي 1950، حركتي از تئوري گرائي به سوي آنچه تحليل عاملي اكتشافي ناميده مي شود، به وجود آمد. اين حركت به گونه آشكار از طريق تئوري عامل مشترك ترستون تشويق، و از طريق فرمول بندي عمومي هتلينگ (1993)، درباره عمليات رياضي مولفه هاي اصلي كه قبل از آن به دليل محاسبات فوق العاده پيچيده و پرزحمت آن ، به كار نرفته بود تسهيل شد. چنين به نظر مي رسد كه در طول سال هاي 1950 و 1960، تقريبا هر كس، هر چيزي را تحليل عاملي مي كرده است، به اين اميد كه روابط پيچيده ظاهري بين متغيرهاي يك مجموعه را مي توان ساده كرد و به گونه ساده تري تفسير نمود (ليندمن و همكاران، 1980). در طول اين دوره همچنين تعداد روشهاي تحليل عاملي با ابداع تحليل تصوير (گاتمن، 1953)، تحليل عاملي بنيادي (رائو، 1955) و (هريس،1962)، تحليل عاملي آلفا (كيسر و كافري، 1965) و روش كمترين پس ماند (هامن و جونز، 1966)، به گونه قابل توجهي توسعه يافت. با اين وجود، روشهاي تحليل اكتشافي نتوانست آن گونه كه انتظار مي رفت، كمك موثري براي آزمون و پالايش تئوري روان شناختي باشد. 

مقاله هتلينگ (1933) درباره تحليل مولفه هاي اصلي نخستين كمك قابل توجه يك آماردان را به تحليل عاملي معرفي كرد، و اين وضعيت تا موقعي ادامه داشت كه مقاله لاولي (1940) درباره روش بيشينه احتمال (ML) منتشر شد. لاولي نشان داد كه تحليل عاملي مي تواند به عنوان يك تكنيك آماري جالب در بسياري از موقعيت هاي پژوهشي كاربرد داشته باشد. واكنش هاي له و عليه اين روشها نيز تا وقتي كه آزمون فرضيه هاي خاص درباره پارامترهاي مدل تحليل عاملي مورد توجه قرار گرفت (مثلا جارزكاگ، 1984)، همچنان ادامه داشت. هر چند كارهاي جارزكاگ اساسا مبتني بر روش ML لاولي بود، اما بسياري از مسايل محاسباتي و تفسيري را كه لاولي با آن مرتبط نبود، روشهاي باك و بارگمن (1966) و جارزكاگ (1984) به سبب تاكيد بر آزمون فرضيه، به عنوان روشهاي تحليل عاملي تاييدي طبقه بندي مي شود. هر چند توليد فرضيه هايي كه بايد آزمون شود اغلب دشوار است، اما اين روشها به وضوح بر تحليل عامل اكتشافي به سبب توسعه و آزمون تئوري مزيت دارد. البته براي تدوين چنين فرضيه هايي مي توان ابتدا تحليل عاملي اكتشافي را اجرا كرد و سپس اين فرضيه ها را از طريق تحليل عاملي تاييدي آزمود.


رگرسيون لوژستيك (لوجستيك)

رگرسيون لوژستيك (لوجستيك)

زماني كه متغيير وابسته ي ما دو وجهي است و مي خواهيم از طريق تركيبي از متغييرهاي پيش بين دست به پيش بيني بزنيم بايد از رگرسيون لوجستيك استفاده كنيم. چند مثال از كاربردهاي رگرسيون لوژستيك در زير ارائه مي گردد.

1. در فرايند همه گير شناسي ما مي خواهيم ببينيم آيا يك فرد بيمار است يا خير. اگر به عنوان مثال بيماري مورد نظر بيماري قلبي باشد پيش بيني كننده ها عبارتند از سن، وزن، فشار خون سيستوليك، تعداد سيگارهاي كشيده شده و سطح كلسترول.

2. در بازاريابي ممكن است بخواهيم بدانيم آيا افراد يك ماشين جديدي را مي خرند يا خير. در اينجا متغييرهايي مانند درآمد سالانه، مقدار پول رهن، تعداد وابسته ها، متغيرهاي پيش بين مي باشند. 

3. در تعليم و تربيت فرض كنيد مي خواهيم بدانيم يك فرد در امتحان نمره مي آورد يا خير.

4. در روانشناسي مي خواهيم بدانيم آيا فرد يك تكليف را انجام مي دهد يا خير.

در تمام موارد گفته شده متغيير وابسته يك متغيير دو حالتي است كه دو ارزش دارد. زماني كه متغيير وابسته دو حالتي است مسايل خاصي مطرح مي شود.

1. خطا داراي توزيع نرمال نيست.

2. واريانس خطا ثابت نيست.

3. محدوديت هاي زيادي در تابع پاسخ وجود دارد.

مشكل سوم مطرح شده مشكل جدي است. مي توان از روش حداقل مجذورات وزني براي حل مشكل مربوط به واريانس هاي نابرابر خطا استفاده نمود. بعلاوه زماني كه حجم نمونه بالا باشد مي توان روش حداقل مجذورات برآوردگرهايي را ارائه مي دهد كه به طور مجانبي و تحت موقعيت هاي نسبتا عمومي نرمال مي باشند.

ما در رگرسيون لوژستيك به طور مستقيم احتمال وقوع يك رخداد را محاسبه  مي كنيم. چرا كه فقط دو  حالت ممكن براي متغيير وابسته ي ما وجود دارد. اين احتمال براي زماني كه چند متغيير مستقل وجود دارد به صورت زير محاسبه مي شود:

 

كه در آن z تركيب خطي زير است:


دو مساله ي مهم كه بايد در ارتباط با رگرسيون لوجستيك در نظر داشته باشيم عبارتند از:

1. رابطه ي بين پيش بيني كننده ها و متغيير وابسته غير خطي است.

2. ضرايب رگرسيوني از طريق روش ماكزيمم درستنمايي برآورد مي شود.

رگرسيون لوژستيك از لحاظ محاسبات آماري شبيه رگرسيون چند گانه است اما از لحاظ كاركرد مانند تحليل تشخيصي مي باشد. در اين روش عضويت گروهي بر اساس مجموعه اي از متغييرهاي پيش بين انجام مي شود دقيقا مانند تحليل تشخيصي. مزيت عمده اي كه تحليل لوجستيك نسبت به تحليل تشخيصي دارد اين است كه در اين روش با انواع متغييرها به كار مي رود و بنابراين بسياري از مفروضات در مورد داده ها را به كار ندارد. در حقيقت آنچه در رگرسيون لوژستيك پيش بيني مي شود يك احتمال است كه ارزش آن بين 0 تا 1 در تغيير است. 

ضرايب رگرسيوني مربوط به معادله ي رگرسيون لجستيك اطلاعاتي را راجع به شانس هر مورد خاص براي تعلق به گروه صفر يا يك ارائه مي دهد. شانس به صورت احتمال موفقيت در برابر شكست تعريف مي شود. ولي بدليل ناقرينگي و امكان وجود مقادير بي نهايت براي آن تبديل به لگاريتم شانس مي شود. هر يك از وزن ها را مي توان از طريق مقدار خي دو كه به آماره ي والد مشهور است به لحاظ معناداري آزمود. لگاريتم شانس، شانسي را كه يك متغيير به طور موفقيت آميزي عضويت گروهي را براي هر مورد معين پيش بيني مي كند را نشان مي دهد. 

به طور كلي در روش رگرسيون لجستك رابطه ي بين احتمال تعلق به گروه 1 و تركيب خطي متغييرهاي پيش بين بر اساس توزيع سيگمودال تعريف مي شود.

 

 براي دستيابي به معادله ي رگرسيوني و قدرت پيش بيني بايد به نحوي بتوان رابطه اي بين متغييرهاي پيش بين و وابسته تعريف نمود. براي حل اين مشكل از نسبت احتمال تعلق به گروه يك به احتمال تعلق به گروه صفر استفاده مي شود. به اين نسبت شانس گويند. به خاطر مشكلات شانس از لگاريتم شانس استفاده مي شود. لگاريتم شانس با متغييرهاي پيش بيني كننده ارتباط خطي دارد. بنابراين ضرايب بدست آمده براي آن بايد بر اساس رابطه ي خطي كه با لگاريتم شانس دارند تفسير گردند. بنابراين اگر بخواهيم تفسير را بر اساس احتمال تعلق به گروهها انجام دهيم بايد لگاريتم شانس را به شانس و شانس را به اجزاي زير بنايي آن كه احتمال تعلق است تبديل نماييم. آماره ي والد كه از توزيع خي دو پيروي مي كند نيز براي بررسي معناداري ضرايب استفاده مي شود. از آزمون هوسمر و لمشو نيز براي بررسي تطابق داده ها با مدل استفاده مي شود معنادار نبودن اين آزمون كه در واقع نوعي خي دو است به معناي عدم تفاوت داده ها با مدل يعني برازش داده با مدل است. 


ارزش يابي آزمون نظري آزمون گواهينامة رانندگي بر اساس

ارزش يابي آزمون نظري آزمون گواهينامة رانندگي بر اساس
نظرية سؤال  پاسخ و مقايسة آن با نظرية كلاسيك آزمون
اسماعيل مام شريفي 1
علي دلاور 2
آزاده بلوكي 3
سميه شعباني 4
چكيده
زمينه: اين پژوهش با هدف بررسي ويژگي هاي روان سنجي سؤالات آزمون نظري آزمون گواهينامة رانندگي انجام و
اجرا شده است. نمونة مورد مطالعه را 350 نفر از پاسخ دهندگان آزمون تشكيل دادند كه به روش نمونه گيري خوشه
اي چند مرحله اي انتخاب شده بودند و تعداد 30 سؤال از سؤالات آزمون نظري آزمون گواهينامة رانندگي، كه به
روش تصادفي ساده استخراج شده بودند، به عنوان نمونه سوالات مورد بررسي قرار گرفتند. براي بررسي ويژگي هاي
روان سنجي سؤالات آزمون، از دو نظرية كلاسيك آزمون و سؤال - پاسخ استفاده گرديده و نتايج به دست آمده از
آنها با هم مقايسه و بررسي شده است. روش پژوهش توصيفي بوده و در مرحلة اول صحت نمونه گيري بررسي
گرديد. جهت تعيين تك بعدي بودن آزمون از روش آلفاي كرانباخ و تحليل عاملي استفاده شد. سپس تجزيه و تحليل
سؤالات آزمون با نظرية كلاسيك و نظرية سؤال - پاسخ انجام گرفت و پارامترهاي سؤال (دشواري، تشخيص و
حدس) و توانايي به دليل نامعلوم بودن به روش برآورد همزمان مورد انداز هگيري قرار گرفت.
يافته ها: نتايج، بيان كنندة تك بعدي بودن آزمون و استقلال موضعي آن است. پس از تعيين مفروضه هاي اصلي
برازش مدل - داده ها مورد بررسي قرار گرفت كه نتايج نشان داد مدل دو پارامتري برازش بهتري با ،IRT نظرية
وابسته مورد بررسي قرار T مجموعة داده ها دارد. در مرحلة بعد معناداري پارامترهاي سؤال و توانايي توسط آزمون
گرفت. نتايج نشان داد كه رابطة معناداري بين دقت برآورد پارامترهاي دشواري، شيب و توانايي در دو نظرية
كلاسيك و سؤال - پاسخ وجود ندارد. به منظور بررسي پايايي و ثبات نتايج آزمون در اجراي اول، بر روي نمونه اي
به حجم 30 نفر، بازآزمايي بعمل آمد. از آنجائيكه آزمون مورد نظر از نوع ملاك مرجع مي باشد، براي بررسي توافق
بين تصميم ها از ضريب پايايي كاپا استفاده شد. نتايج نشان داد كه رابطة معناداري بين اجراي اول و اجراي دوم وجود
دارد و آزمون مورد نظر از پايايي و ثبات كافي در اجراهاي مختلف برخوردار است.
بحث و نتيجه گيري: تحليل پارامترهاي سؤال و آزمودني ها، نشان دهندة سادگي آزمون و قدرت جداسازي
خوب توانايي آزمون شوندگان بوده و بر اين اساس مي توان نتيجه گرفت كه سؤالات آزمون براي آزمودني هايي با
توانايي پايين از مناسبت و دقت بيشتري برخوردار است. ميزان توانايي برآورد شده در نظرية سؤال - پاسخ در مقايسه با
نمرة آزمودني در نظرية كلاسيك به ميزان واقعي نزديك تر است. با توجه به توانايي هاي برآورد شده مي توان
سؤالات متناسب با توانايي آزمودني ها را انتخاب نمود و اين مي تواند به ايجاد بانك سؤال منجر شود.
واژگان كليدي: ارزش يابي، آزمون، آزمون گواهينامه رانندگي، نظرية سؤال - پاسخ، نظرية كلاسيك آزمون.
Esmaeil.sharifi@gmail.com ( 1. دانشجوي كارشناسي ارشد (نويسندة مسئول
2. استاد دانشگاه علامه طباطبائي
3. دانشجوي كارشناسي ارشد
4. دانشجوي كارشناسي ارشد
90/8/ تاريخ وصول: 3
91/2/ تاريخ پذيرش: 23
2 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
مقدمه
امروزه در بسياري از جوامع از سه عامل انسان، راه و وسيلة نقليه به عنوان تعيين كننده هاي
اصلي تصادفات نام برده مي شود كه در اين ميان عامل انساني نقش اصلي را به خود
اختصاص داده است. يعقوبي ( 1379 ) نيز در علت شناسي تصادف هاي رانندگي از 4 عامل
انساني، جاده، وسيلة نقليه و محيط نام مي برد كه در 90 تا 95 درصد تصادفات رانندگي در
ايران، عامل انساني را داراي نقش اصلي و اول در حوادث رانندگي دانسته است.
1 ميليون نفر در دنيا به علت تصادفات رانندگي جان خود را از دست / ساليانه بيش از 26
2004 )، و اغلب مرگ و ميرهاي ناشي از حوادث ، مي دهند ( پدين، اسكار فيلد و سليت 1
رانندگي، در كشورهاي با درآمد كم و متوسط و براي جوانان اتفاق م ي افتد (كوپيتز و
2005 ). سازمان بهداشت جهاني پيش بيني كرده است كه در سال 2020 ، مرگ و ، كروپر 2
.(2004 ، 2 ميليون نفر خواهد رسيد (رومانا 3 / مير ناشي از حوادث رانندگي به 34
بر اساس آمارها سالانه حدود 25 هزار نفر نيز در جاده هاي ايران كشته م ي شوند و
سوانح رانندگي پس از بيماري ها ي قلبي - عروقي، دومين عامل مرگ و مير در ايران
12 ميليون مصدوم و معلول، از پيامد هاي 7 سال / محسوب مي شود. 141 هزار كشته، 5
تصادفات در كشور است و خسارات جاني و مالي 7 سال تصادفات رانندگي در ايران ب ا
پيامد هاي يك جنگ يا چند زلزلة مهيب برابري م ي كند . موثق تر ين آمار تصادفات
رانندگي در كشور از كشته شدن 140 هزار و 933 نفر طي 7 سال گذشته (ابتداي 77 تا
انتهاي 83 ) حكايت دارد و اين در حالي است كه وقوع اين حوادث بيش از 12 ميليون
مصدوم و 500 هزار معلول مادام العمر بر جاي گذارده است. مرگ ناشي از تصادفات يك
ساله در كشور با تلفات انساني ناشي از زلزلة بم برابر بوده، اما چون اين حوادث ناگهاني
نيست چندان مشهود به نظر نمي رسد. با وجود اينكه ايران كمتر از يك صدم جمعيت جهان
1. Peden, Scufield, & Sleet
2. Kopits & Cropper
3. Romana
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 3
را دارد بيش از يك چهلم ( 3 درصد) از حوادث ترافيكي را به خود اختصاص داده است
.( (خبرگزاري فارس، 1385
2 درصد از كل تصادفات جاده اي در ايران اتفاق / بر اساس آمارهاي سازمان يونيسف 5
مي افتد و اين به آن معنا است كه آمار تصادفات جادهاي در ايران 20 برابر ديگر كشورهاي
جهان است. در واقع، ميزان كشته شدگان تصادفات جاده اي در دنيا، به ازاي هر ده هزار
خودرو 3 نفر بوده، در حالي كه در ايران به ازاي هر ده هزار خودرو حدود 33 نفر بوده است
(سوري و همكاران، 1388 ). آلمان كمتر از يك چهارم ايران مساحت دارد و تعداد
اتومبيل هايش بيش از 4 برابر ايران است. با اين همه شمار قربانيان حوادث رانندگي در ايران
بيش از 10 برابر آلمان است (بيمة ايران، 2008 ). همچنين انگلستان نيز با وجود 6 برابر بودن
.( تعداد وسايل نقليهاش، 32 باركمتر از ايران تلفات جادهاي دارد (سلماني و همكاران، 1387
در پيامدهاي ناشي از حوادث، پديدة كوه يخ، يك فرايند واقعي است. قلة كوه يخ كه
معمولاً مورد توجه قرار مي گيرد و به ظاهر كوچك است شامل موارد مرگ ناشي از
حوادث است، ولي بدنة عظيم اين كوه از بستري شدگان، آسيب ديدگان نيازمند خد مات
سرپايي و درمان هاي خانگي توأم با ناتوا ني ها ي گذرا يا ماندگار تشكيل شده است و
عواقب رواني، اجتماعي و اقتصادي حوادث نيز بر اين بزرگي مي افزايد.
پايين بودن سطح فرهنگ صحيح ترافيك و عدم توجه كافي به قوانين و مقررات و حقوق
سايرين و رعايت نشدن آيين نامة رانندگي، ناشي از ناكافي بودن آموزش نظري و عملي
رانندگي، قبل و بعد از صدور گواهينامه، موجب شده است آمار تصادفات رانندگي در ايران
شمار كشته ها و مجروحين ناشي از آن افزايش پيدا كرده و بالاترين رتبه را در بين ملل جهان
كسب كند و اين يعني مواجه شدن با پيامدهاي جبران ناپذير از دست رفتن سرماية انساني.
اگرچه در يك برنامه پيشگيرانة جامع براي كاهش تصادفات و تلفات، بايد به هر 4 عامل
انساني، جاده، وسيلة نقليه و محيط پرداخت (آيتي، 1371 ، نقل از يعقوبي، 1379 )، اما به نظر
مي رسد كه مداخله در عامل انساني (با توجه به نقش زياد آن در تصادفات رانندگي در ايران)
4 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
اثربخش تر باشد. چرا كه نتايج مطالعات انجام شده نيز نشان ميدهد كه مي توان از 98 درصد
حوادث پيشگيري نمود (عراقي و واحديان، 1384 ). مراد از عامل انساني عابرين، سرنشين ها،
رانندگان و عوامل رواني، رفتاري، فرهنگي و اجتماعي مؤثر بر آن ها مي باشد.
امروزه نقش آموزش در افزايش كارآيي، بهرهوري و توسعة اقتصادي كشورها بيش از
پيش اهميت يافته است، چرا كه در دنياي كنوني داشتن كارخانهها، زمين، ابزار و ماشين -
.( آلات سرمايه محسوب نمي شود، بلكه ثروت در منابع انساني نهفته است (خالدي، 1387
آموزش اين توانايي را دارد تا براي بهبود و پيشرفت كشورهاي كمتر توسعه يافته زمينة
لازم را فراهم سازد و سياست هاي لازم براي مقابله با اين بحران جهاني را اتخاذ نمايد
(لوئيز، 1990 ، نقل از سهرابي، 1384 ). بسياري از كشورهاي در حال توسعه دربارة مرگ و
مير در كشور خود اطلاعات محدو دي دارند (خي و وانگ 2004،1 ). با مطالعات
اپيدميولوژيك در علوم پزشكي، علوم اجتماعي و علوم رفتاري مي توان در جهت كاهش
حوادث و عواقب ناشي از آن ها گام برداشت، چرا كه آس يب ها ي ناشي از حوادث
.(2005 ، رانندگي يك مشكل بزرگ بهداشتي در دنيا به شمار مي آيد (پدن و تورويان 2
قاعدتاً زماني يك جامعه به كمال رسيده است كه آموزش به گونه اي صحيح در آن
انتقال يافته باشد و اين نيز نمي تواند محقق شود مگر با يك برنامه ريزي فراگير و مستمر به
منظور تدوين و آموزش اصول صحيح رانندگي براي سنين مختلف و با روش هاي متنوع و
مورد قبول (احمدي، 1385 ). به هنگام توجه به روند تكاملي كشورهاي توسعه يافته،
همواره شاهد ارتباط نزديك بين آموزش، پژوهش، ارزش يابي و رشد فناوري از يك سو و
پيشرفت اقتصادي و اجتماعي از سوي ديگر مي باشيم.
يكي از اين فعاليت ها در زمينة كاستن از رخدادهاي مرتبط با رانندگي، توجه وي ژه و
مجدد به آزمون نظري گواهينامة رانندگي از زواياي مختلف و مقايسة آن با ديگر كشورها
است كه مي تواند به عنوان اقدامي پيشگيرانه در جهت كاستن از رخداد حوادث رانندگي به
1. Chi & Wang
2. Peden & Toroyan
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 5
شمار آيد. آزمون نظري، آزمون استاندارد شده اي است كه براي تصميم گيري در مورد
رسيدن فرد به دانش نظري كافي و ساختن راننده اي ايمن و بي خطر از فرد طراحي شده
.(2004 ، است (ويبرگ 1
در حال حاضر آزمون نظري گواهينامة رانندگي در ايران شامل مجموعه اي از
پرسشنامه هاي 30 سؤالي است كه تعدادي از سؤالات آن به صورت تصويري و رنگي
مي باشد . هر سؤال داراي 4 گزينه است كه يكي از گزينه ها صحيح و بقيه انحرافي
مي باشند. زمان پاسخگويي به آزمون محدود، و 20 دقيقه مي باشد. با توجه به اينكه آزمون
از نوع ملاك مرجع و دو ارزشي است، ملاك قبولي در آن پاسخگويي صحيح به 26
86 ) مي باشد. / سؤال از 30 سؤال (نمرة برش 67
امروزه پس از گذشت چندين سال از برگزاري اين آزمون و فعاليت مراكز آموزشي
مربوطه در كشور، بايد پرسيد كه:
اين آزمون تا چه اندازه توانسته است به نيازهاي فرد و جامعه پاسخ دهند؟ 
آيا اين آزمون به اهداف طرح شدة اولية خود رسيده است؟ 
مواد (سؤالات) اين آزمون تا چه اندازه از معيارهاي روان سنجي و استاندارد هاي 
مربوطه برخوردارند؟
پاسخ به اين سؤال ها و سؤال هاي مشابه مستلزم استفاده از سازوكار ارزشيابي آزمون از
بعد روان سنجي است.
متوليان امر بايد به موازات گسترش آموزش هاي ترافيكي، به نتايج آنچه تاكنون در اين
زمينه هزينه شده، بپردازند. چرا كه با هزينه هاي بسياري كه براي اين آموزش ها صرف
مي شود ايجاد اصلاحات در آن ضروري به نظر مي رسد. اصلاحاتي كه مي توان از آن به
ياد كرد. « نوگرايي 2 » عنوان
يكي از مسائل كليدي، در دورنماي آزمون نظري گواهينامة رانندگي، بازسازي مداوم آن
1. Weberg
2 . modernization
6 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
از طريق فرايند ارزش يابي است. يك نظام آموزشي ايستا پاسخگوي ماهيت پوياي توسعه
نيست، چرا كه نيازها و اولويت هاي يك دهه، مسلماً با نيازهاي دهة بعد متفاوت است، گرچه
دانش و مهارت هاي بنيادين معيني ممكن است همچنان با اهميت باقي بمانند، با اين حال
مسائلي كه براي نسل گذشته مهم بوده، امروزه كاملاً بي اهميت است (حسيني، 1380 ). بر اين
1997 ) هم عقيده بود و اين گفته را تأييد كرد كه اگر نظام آموزشي ) اساس مي توان با پاتون 1
.( به سازوكار ارزشيابي مجهز باشد، نتايج مطلوب حاصل خواهد شد (نقل از بازرگان، 1386
بنابراين، ارزشيابي آزمون نظري گواهينامة رانندگي از اهميت حياتي برخوردار است.
در اين ميان علم روان سنجي به عنوان شاخه اي از روان شناسي كاربردي، در پي يافتن
شيوه هايي است كه به كمك آن بتواند صفات رواني انسان را به صورت كمي و مقايسه
پذير ارائه دهد و در اين راه اغلب از محاسبات آماري كه در خيلي از موارد بسيار پيچيده و
1982 ، ترجمة هومن، 1375 ). به نظر مي - ، پيشرفته نيز مي شود، سود مي جويد (ثرندايك 2
رسد كه فعلاً در ايران، جز درموارد استثنايي، ساختن آزمون محدود به تهية سؤال است و
كمتر كسي به خصوصيات علمي آزمون ها و سؤالات توجه دارد. اين عدم توجه به مباني
علمي آزمون سازي در سازمان هاي خارج از دانشگاه ها بيشتر نمايان است تا جايي كه
بعضي از اين سازمان ها در ظرف چند روز آزمون به خصوصي را آمادة اجرا م ي كنند كه
براي ساختن آن در كشوري مثل آمريكا، شايد يكي دو سال وقت لازم باشد (مگنوسون،
.( 1966 ، ترجمة براهني، 1370
استفاده كنندگان آزمون در انتخاب، اجرا، نمره گذاري يا تفسير يك آزمون بايد
هدف ها، راه هاي وصول به آن ها و نتايج احتمالي را بدانند. داشتن هدف هاي مطلوب كافي
نيست؛ استفاده كنندگان بايد روش هاي ضروري به حداكثر رساندن كارايي و به حداقل
رساندن عوامل نامطلوب را بدانند. شايستگي در استفاده از آزمون، تركيبي است از شناخت
اصول روان سنجي، اطلاع از موقعيت مشكل زا كه در آن آزمون انجام مي شود و مهارت
1. Patton
2. Thorndike
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 7
فني. اگر آزمون ها درست به كار برده شوند، ابزار مفيدي هستند؛ در غير اين صورت به
.( 1979 ، ترجمة دلاور، 1384 ، ابزار خطرناكي تبديل مي شوند (آلن و ين 1
نظريههاي آزمون در علم روان سنجي به دو مقوله تقسيم مي شوند: اول: نظرية كلاسيك
كه قدمت آن به مفهوم اسپيرمن 2 از نمرة مشاهده شده، كه شامل مؤلفه ها ي ،(CTT) آزمون
يا نظرية صفت مكنون كه در ،(IRT) حقيقي و خطا است مي رسد. دوم: نظرية سؤال  پاسخ
در جهت توسعه IRT حيطه و قلمرو آزمودن نقش مهمي را ايفا مي نمايد. مدل هاي مشتق از
و بسط آزمون ها، همتراز سازي نمرات آزمون ها ي غير موازي، بررسي تورش سؤال و
.(1982 ، گزارش نمرات مورد استفاده قرارمي گيرند ( همبلتون و واندرليندن 3
در واقع، يك آزمون مي تواند از زواياي مختلف مورد مطالعه واقع شده و سؤالا ت آن
از لحاظ دقت IRT نيز بر طبق نظريات متفاوت ارزش گذاري شود . مقايسة مدل ها ي
برآورد پارامترهاي مدل، مورد توجه محققان بسيار طي سال هاي اخير بوده است . يكي از
تحقيقات قابل توجه در زمينة بررسي آزمون نظري آزمون گواهينامة رانندگي، پژو هشي
است كه توسط ماري ويبرگ در سال 2004 و در دانشگاه يومي سوئد انجام گرفته است .
آزمون نظري گواهينامة رانندگي در سوئد شامل 65 سؤال چند گزينه اي ( 2 تا 6 گزين ه) و
80 درصد) است. نمونة مورد بررسي در اين پژوهش ) از نوع ملاك مرجع با نمرة برش 52
شامل 5404 نفر آزمون شونده بوده كه به 65 سؤال مذكور پاسخ داده اند. برآورد
پارامترهاي سؤال و توانايي از طريق روش بيشينة درست نمايي حاشيه اي صورت گرفته
است. هدف اين پژوهش ارزش يابي آزمون نظري گواهينامة رانندگي با استفاده از نظرية
سؤال  پاسخ و همچنين مقايسة مدل ها ي سه گانة اين نظريه با همديگر در برآورد
پارامترهاي آزمون مورد بررسي، بوده است. نتايج پژوهش وي نشان م ي دهد كه نظرية
سؤال  پاسخ ، ابعاد متفاوت و اطلاعات ارزشمندي به دست مي دهد . با مقايسه مدل ها ي
1. Allen & Yen
2. Spearman
3. Hambleton & Vanderlinden
8 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
يك، دو و سه پارامتري در برآورد پارامترها مشخص شده است كه مدل سه پارامتري به
برآورد دقيقتري در مقايسه با مدل هاي يك و دو پارامتري منجر شده است.
1983 )، با مقايسة اين مدل ها از طريق شبيه سازي كامپيوتري نشان ) همبلتون و كوك 1
دادند كه، مدل منطقي سه پارامتري نسبت به مدل هاي يك و دو پارامتري با آزمون هاي 20
سؤالي داراي قدرت بيشتري در برآورد جايگاه افراد در صفت مكنون و رتبه بندي
1993 ) با هدف مقايسة ) آزمودني ها براساس صفت مورد سنجش بوده است . رايد 2
و با استفاده از تحليل خرده آزمون هاي محاسبات عددي، تجسم فضايي سه IRT مدل هاي
بعدي، خزانة لغات و استدلال رياضي، نتيجه گرفت كه هر 4 خرده آزمون از لحا ظ سطح
دشواري سؤالات و قدرت تشخيص بين افراد در سطوح مختلف توانايي تفاوت داشته اند .
بنابراين مدل هاي يك و دو پارامتري از لحاظ برآورد پارامترها تفاوت معني دار نشان
داده اند. ليكن به دليل تأثير نداشتن عامل حدس در پاسخگويي به سؤالات، مدل ها ي دو و
سه پارامتري تفاوت معني داري در برآورد پارامترها نداشته اند.
نتايج مقايسة مدل هاي مختلف از نظر برآورد پارامترهاي سؤال و توانايي در پژوهش
برآوردهاي متفاوتي براي IRT فراهاني ( 1375 ) نشان داد كه، مدل كلاسيك و مدل ها ي
به و ي ژه IRT پارامترهاي سؤال بدست مي دهند و برآورد پارامترهاي سؤال بر پاية مدل ها ي
مدل سه پارامتري، دقيق تر از برآورد پارامترهاي سؤال بر اساس مدل كلاسيك و مدل ها ي
است. همچنين مقايسة مدل ها از نقطه نظر برآورد توانايي آزمود ني ها نشان داد IRT ساده تر
كه مدل سه پارامتري برآورد متفاوت و دقيقتري از مدل كلاسيك و حتي مدل هاي يك و
ارائه مي دهد. در پژوهش محمد زاده ( 1375 )، نيز مشخص شد كه IRT دو پارامتري
مشخصه هاي آماري سؤالات در مدل كلاسيك وابسته به نمونه بوده و برآورد توانايي
آزمودني هم، وابسته به سؤالات آزمون است، اما در مدل ها ي جديد اندازه گيري اين
برآوردها مستقل از هم مي باشند. مقايسة مدل ها از لحاظ ميزان دخالت پارامتر حدس، اعتبار
1. Cook
2. Reid
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 9
اندازهگيري و آگاهي دهندگي، برتري مدل هاي جديد اندازهگيري را نشان داده است.
نشان داد كه نظرية سؤال  پاسخ در IRT و CTT صالحي ( 1376 ) با مقايسة دو نظرية
مقايسه با نظرية كلاسيك توانمندتر و كارآمد تر بوده و با خطاي استاندارد اندازه گيري
كمتر، آگاهي دهندگي و دقت بيشتري پارامترهاي سؤال و توانايي را برآورد نموده است .
همچنين اين نظريه در سطوح بالاي توانايي داراي بيشترين ميزان آگاهي بوده است. يونسي
نيز ( 1385 ) با بررسي ويژگي هاي روان سنجي سؤالات آزمون هاي فراگير رشتة
روان شناسي بر اساس نظرية سؤال  پاسخ ، به اين نتيجه رسيد كه مدل دو پارامتري نسبت به
مدل سه پارامتري برازش بهتري با مجموعة داده ها داشته است و اين نشان دهندة كم اثر
بودن عامل حدس در پاسخگويي به سؤالات، تلقي شده است.
امروزه با مدرن شدن آموزش، ارزش يابي به عنوان يكي از مؤلفه ها ي آموزش مورد
استفاده قرار گرفته و نوآوري هايي در زمينة آن پديد آمده است. يكي از اين نوآور ي ها
مربوط به بكارگيري كامپيوتر در فرايند سنجش و ارزي ابي و آزمون متقاضيان گواهينامة
رانندگي در كشورهاي اروپايي مي باشد به طوريكه بسياري از مراكز آموزشي به برگزاري
آزمون هاي كامپيوتري اقدام مي كنند. يكي از مهم ترين كاربردهاي تجزيه و تحليل روان
سنجي سؤالات، ايجاد يك مجموعه (بانك) سؤال استاندارد از سؤالات موجود م ي باشد
كه اين خود مقدمه اي است براي ايجاد و گسترش آزمون هاي انطباقي كامپيوتري.
در ايران، آزمون گواهينامة رانندگي شامل يك آزمون نظر ي و يك آزمون عملي
است، كه در اين پژوهش بر آزمون نظري تأكيد شده است . در آزمون نظري گواهينامة
رانندگي از نسخه هاي ثابت و متعددي جهت آزمون استفاده مي شود. اما در ايران، تاكنون
تحقيقات منسجمي در ارتباط با ارزش يابي سؤالات اين آزمون صورت نگرفته و به همين
دليل و نيز اهميت اين آزمون ها در تأثيرگذاري بر پيشگيري از رخداد رانندگي از طريق
آموزش هاي قبل از صدور گواهينامة رانندگي، ضروري به نظر مي رسد تحقيقاتي انجام
گيرد تا ميزان دستيابي به اهداف از پيش تعيين شده در زمينة مؤلفه ها ي روان سنجي يك
10 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
آزمون استاندارد، مشخص گردد. بنابراين هدف از پژوهش حاضر ارزش يابي و بررسي
و (IRT) ويژگي هاي سؤالات آزمون نظري گواهينامة رانندگي طبق نظرية سؤال  پاسخ
با IRT در كنار بررسي برازش مدل ها ي ،(CTT) مقايسة آن با نظرية كلاسيك آزمون
مجموعه داده هاي آزمون بوده است.
روش
در پژوهش حاضر جامعه آماري مورد مطالعه، شامل كلية سؤالات ( 194 سؤال ) آزمون
نظري گواهينامة رانندگي در شهر تهران و در سال 1388 بوده است.
به منظور كسب اطلاعات دقيق در مورد جامعه، بررسي يكايك عناصر جامعه مطلوب
به نظر مي رسد. اما معمولاً اين كار غير ممكن يا غير عملي است. با توجه به اينكه، نظريه
هاي روان سنجي، نظريه هاي نمونه هاي بزرگ هستند. قانون كلي در اين مورد بزرگ ترين
اندازة ممكن را تصويب مي كند. رايت و استون براي مدل يك پارامتري حداقل حجم
نمونة آزمودني ها را 200 نفر ذكر كرده اند. بعضي از محققان هم براي مدل دو پارامتري
500 نفر و براي مدل سه پارامتري 1000 نفر را لازم دانسته اند تا به برآورد هاي نامتغير و
.(1993 ، نااريب از پارامترهاي مدل منجر نشود (همبلتون، جونز و راجرز 1
بنابراين با توجه به نتايج تحقيقات صورت گرفته، حجم نمونة سؤالات مور د بررسي،
تعداد 30 سؤال بوده كه به روش كاملاً تصادفي انتخاب گرديد. همچنين در اين پ ژوهش
به منظور انتخاب حجم نمونة آزمودنيها، با استفاده از روش نمونه گيري خوشه اي چ ند
مرحله اي، پاسخ هاي يك نمونة 350 نفري به آزمون محقق ساخته انتخاب شده است .
انتخاب حجم 30 سؤالي به دليل رعايت شكل صوري آزمون هاي برگزار شده توسط راهور
ناجا بوده است.
روش پژوهش نيز با توجه به اهداف پژوهش و بر حسب نحوة گردآوري داده ها ،
توصيفي بوده است.
1 . Hambleton, Jones & Rogers
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 11
SPSS جهت تجزيه و تحليل داده هاي جمع آوري شده، با استفاده از نرم افزارهاي
از بررسي هاي مرتبط با سنجش مؤلفه هاي روان سنجي آزمون، از قبيل؛ ،BILOG – MG و
ضريب دشواري، ضريب تمييز، واريانس سؤالات، ضريب هبستگي دو رشته اي نقطه اي
استفاده گرديد. تك بعدي بودن آزمون با محاسبة آلفاي كرونباخ و انجام تحليل عاملي
بررسي و سپس استقلال موضعي آزمون بدست آمد. با استفاده از آزمون خي دو (
 2 ) در
مورد برازش مدل با داده ها قضاوت شد و پس از اينكه معلوم شد كدام مدل بهترين برازش را
با داده هاي آزمون دارد، پارامترهاي برآورد شدة سؤال (دشواري، تشخيص و حدس ) و
توانايي آزمودني ها با استفاده از روش ها ي برآورد همزمان پ ارامترهاي سؤال و توانايي،
استخراج گرديد. سپس منحني ويژگي تمامي سؤالات براي رسم نمودارها، تابع آگاهي
سؤالات براي مقايسة تفاوت مدل ها، تابع آگاهي آزمون، منحني خطاي استاندارد آزمون و
منحني تواناييهاي آزمودنيها ترسيم گرديد. در ادامه، بيشينة آگاهي به همراه سط ح توانايي
سؤالات، بيشينة آگاهي آزمون و همچنين نقطه اي كه بيشينة آگاهي در آنها به وجود مي آيد،
محاسبه و نقطه اي كه بيشترين ميزان آگاهيدهندگي آزمون ها در آن دامنه قرار دارد و نيز
توزيع بيشينة آگاهي و خطاي استاندارد توانايي آزمون نيز آورده شد.
2 با PL و مدل CTT در مرحلة بعد همبستگي بين پارامترهاي دشواري و تمييز در مدل
استفاده از ضريب همبستگي پيرسون محاسبه و در ادامه به منظور بررسي معناداري
وابسته T پارامترهاي سؤال و توانايي در نظرية كلاسيك و سؤال  پاسخ از آزمون معناداري
استفاده گرديد.
همچنين به منظور بررسي پايايي و ثبات نتايج آزمون نظري گواهينامة رانندگي در اجراي
اول، مجدداً اين آزمون با همان شرايط اوليه، پس از يك هفته سپري شدن از اجراي اول، بر
روي 30 نفر از همان نمونة اوليه اجرا گرديد. از آنجائيكه آزمون مورد نظر از نوع ملاك
مرجع مي باشد، جهت بررسي توافق بين تصميم ها از ضريب پايايي به روش كاپا استفاده شد.
داده هاي اوليه و اصلي جهت استفاده در تجزيه و تحليل سؤالات آزمون نظري
12 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
گواهينامه رانندگي، پاسخ هاي اولية كلية شركت كنند گان به آزمون مذكور در مراكز
آموزش و آزمون گيري مي باشد كه در مراحل مختلف جمع آوري شده است . جهت
انتخاب سؤالات پرسشنامه، از كتاب "آموزش جامع قوانين و مقررات راهنمايي و
رانندگي" (از انتشارات معاونت راهور ناجا و منبع اصلي آزمون نظري). استفاده گرديد. آن
شامل 10 بخش محتوايي با سؤالات اختصاصي در هر بخش بوده و در مجموع 194 سؤال
را در بر مي گيرد. در مرحلة اول از ميان اين سؤالات، 30 سؤال به شيوة كاملاً تصادفي و با
در نظر داشتن ميزان نسبت در هر بخش محتوايي، انتخاب شد . از ميان سؤالات انتخابي
تعدادي سؤال تصويري و رنگي نيز در نظر گرفته شد. در انتها گزينه هاي انحرافي و گزينة
صحيح سؤالات به شيوة تصادفي براي سؤالات آزمون در نظر گرفته شد.
يافته ها
34 درصد بقيه زن / 65 درصد افراد مرد و 3 / در ميان حجم نمونة ( 350 نفر) مورد بررسي 7
24/ بوده اند، كه ميانگين و انحراف استاندارد نمرات افراد در آزمون نظري برگزار شده، 55
4 بوده و با توجه به ملاك قبولي در آزمون (كسب نمرة 26 از 30 ) تعداد 169 نفر قبول / و 4
48/28 درصد) و 181 نفر مردود شده اند. اين نشان مي دهد بيش از نصف افراد گروه، به )
.( ملاك مورد نظر، جهت قبولي در آزمون نرسيده اند (نمودار 1
5 10 15 20 25 30 35
Frequency
40
30
20
10
0
36
39 39
36
19
22
30
22 21
25
17
15
2
9
6
4
1
2 2 3
Mean =24.55
Std. Dev. =4.395
N =350
SCORE
نمودار 1 . منحني توزيع فراواني نمرات آزمون گواهينامة رانندگي
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 13
در مرحلة اول، جهت تجزيه و تحليل سؤالات آزمون بر طبق نظرية كلاسيك آزمون،
درجة دشواري، ضريب تميز و انحراف استاندارد سؤالات محاسبه گرديد كه نتايج آن در
جدول 1 ارائه گرديده است.
(CTT) جدول 1- پارامترهاي سؤالات آزمون گواهينامة رانندگي بر اساس نظرية كلاسيك
سئوال
ضريب دشواري
(P)
ضريب تميز
) (rpbis
انحراف
استاندارد
سئوال
ضريب دشواري
(P)
ضريب تمييز
) (rpbis
انحراف
استاندارد
. /50 . /24 . /55 16 . /17 . /23 . /97 1
. /38 . /35 . /82 17 . /45 . /39 . /71 2
. /24 . /28 . /93 18 . /31 . /29 . /89 3
. /32 . /35 . /88 19 . /35 . /31 . /86 4
. /42 . /39 . /77 20 . /23 . /17 . /94 5
. /43 . /38 . /74 21 . /47 . /33 . /66 6
. /45 . /51 . /72 22 . /22 . /37 . /94 7
. /49 . /32 . /58 23 . /24 . /39 . /94 8
. /27 . /21 . /92 24 . /38 . /44 . /82 9
. /47 . /42 . /66 25 . /20 . /33 . /95 10
. /36 . /29 . /85 26 . /41 . /4 . /78 11
. /38 . /37 . /82 27 . /25 . /4 . /93 12
. /50 . /30 . /52 28 . /27 . /32 . /92 13
. /45 . /28 . /72 29 . /41 . /37 . /79 14
. /22 . /17 . /95 30 . /28 . /32 . /91 15
0 (سؤال / سؤالات آزمون بين 52 (P) نتايج نشان مي دهد كه؛ دامنة ضريب دشواري
،16 ، 0 (سؤال 1) در نوسان بوده است. بنابراين بر اساس اين نتايج، سؤالات 6 / 28 ) و 97
25 و 28 سؤالات مناسبي محسوب شده و بقية سؤالات نيز به دليل ضرايب دشواري ،23
بالا، سؤالات آساني محسوب م ي شوند . ميانگين و انحراف استاندارد پارامتر دشواري
0 است كه در مجموع نشاندهندة آسان بودن كل آزمون م ي باشد . / 0 و 12 / سؤالات 81
( 0 (سؤال 22 / 0 (سؤالات 5 و 30 ) و 51 / سؤالات آزمون بين 17 (rpbis) دامنة ضريب تمييز
29 و 30 كه دار اي ،26 ،24 ،18 ،16 ،5 ،3 ، در نوسان بوده است . به استثناي سؤالات 1
( 0 / ضرايب تمييز پاييني مي باشند، بقية سؤالات از ضرايب تمييز نسبتاً خوبي (بالاتر از 3
14 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
0 است كه / 0 و 08 / برخوردارند. ميانگين و انحراف استاندارد پارامتر تمييز سؤالات 33
نشاندهندة قدرت تمييز نسبتاً مناسب كل آزمون در جداسازي افراد قوي و ضعيف
مي باشد. بر طبق نتايج جدول بالا، ارتباط خاصي ميان سؤالات با ضرايب دشواري بالا و
پايين مشاهده نمي شود.
ابتدا ،(IRT) در مرحلة بعد جهت انجام تحليل سؤالات با استفاده از نظرية سؤال  پاسخ
يعني مفروضه هاي تك بعدي بودن و استقلال ، IRT مفروضه هاي اساسي و اولية نظرية
موضعي بررسي گرديد. مفروضة اول با استفاده از ضريب پايايي و تحليل عاملي مورد
بررسي قرار گرفت.
براي بررسي پايايي سؤالات آزمون به روش لوپ، ابتدا ضريب پايايي كلية سؤالات و
ميزان پايايي تك تك سؤالات تعيين گرديد. سپس با استفاده از فرمول آلفاي كرانباخ
بدست آمد، كه نشاندهندة همساني دروني بالاي α = . / ضريب پايايي كل آزمون 82
سؤالات آزمون مي باشد.
قبل از انجام تحليل عاملي بايد از اعتبار داده ها اطمينان داشته باشيم، براي اين منظور از
كه روشي براي بررسي صحت نمونه گيري (KMO) آزمون كايزر - ميجر - الكين
.( مي باشد، استفاده شده است (جدول 2
و آزمون كرويت بارتلت KMO جدول 2. اندازة
0 /767 (KMO) اندازة كفايت نمونهگيري كايزر- ميجر- الكين
آزمون كرويت بارتلت
1510/ مجذور كاي تقريبي 824
درجات آزادي 435
0 / سطح معناداري 001
برابر 789 / . بوده كه نشان دهندة كفايت نسبتاً بالاي KMO با توجه به جدول 2، مقدار
نمونه گيري و تناسب داده ها براي تحليل عاملي است، و از آنجايي كه داده هاي بالاتر از
بدست آمده رضايت بخش است . KMO 0/7 براي تحليل مناسب هستند، لذا مقدار
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 15
0، با درجات آزادي 435 و با مقدار مجذور / همچنين آزمون كرويت بارتلت در سطح 001
1510 معنادار بوده است و مي توان گفت كه داده ها براي اجراي تحليل عاملي از / كاي 824
تناسب قابل قبولي برخوردار بوده و نتايج تحليل عاملي قابل اعتماد مي باشد.
با توجه به نتايج بدست آمده، داده ها براي آزمون تحليل عاملي از تناسب برخوردار
بوده، و ماتريس همبستگي حاصل از تحليل عاملي نشان م ي دهد كه، عامل اول با ارزش
17 درصد واريانس عامل ها را تبيين كرده است . (سه / 5/21 حدود 36 (P-Value) ويژه
5 درصد واريانس). اين عامل غالب توسط نمودار / 1 و 57 / برابر عامل دوم با ارزش ويژه 67
اسكري (نمودار 2) بدست آمده نيز تأييد شده است.
Component Number
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
Eigenvalue
6
5
4
3
2
1
0
نمودار 2. منحني اسكري آزمون نظري گواهينامة رانندگي
بنابراين، مي توان نتيجه گرفت كه آزمون گواهينامة رانندگي تك بعدي بوده و يك
عامل غالب، عملكرد افراد را در آزمون تبيين مي كند. چنانچه فرض تك بعدي بودن برقرار
.( باشد، مفروضة استقلال موضعي نيز برقرار است (همبلتون، 1989
پس از اثبات تك بعدي بودن و استقلال موضعي آزمون (نمودار 2)، كه از پيش
است ،(IRT) فرض هاي مهم تجزيه و تحليل سؤالات آزمون بر طبق نظرية سؤال  پاسخ
(همبلتون و سواميناتان، 1985 ؛ نقل از ويبرگ، 2004 )، ضرايب د شواري، شيب، حدس،
نوعي آزمون مجذور خي به همراه سطح احتمال مربوطه، براي مدل ها ي يك، دو و سه
4 و 5 آورده شده است. ، پارامتري محاسبه گرديد كه نتايج آن در جداول 3
16 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
1) بر اساس PL) جدول 3. مقادير پارامترهاي تعدادي از سؤالات آزمون در مدل يك پارامتري
IRT نظرية
(p) معناداري χ خي دو 2 (b) سؤال دشواري
0/61 1 -3/49 1
*0/001 18/5 -0/24 16
*0/001 16/9 -1/03 22
-1/ ميانگين 82
-2 Log Likelihood =7982/8283
0/ انحراف استاندارد 93
0/ * عدم برازش سؤال با مدل در سطح 01
3) بر اساس PL) جدول 4. مقادير پارامترهاي تعدادي از سؤالات آزمون در مدل سه پارامتري
IRT نظرية
سئوال
دشواري
(b)
شيب
(a)
حدس
(c)
خي دو
χ2
معناداري
(p)
. /3 6 . /5 1/41 -. /65 4
. /41 5 . /5 . /59 -2/35 5
. /49 5/5 . /35 1/38 . /02 25
0/45 1/35 - . / ميانگين 76
-2 Log Likelihood =7865/ انحراف 2979
استاندارد
. /05 . /78 . /91
IRT 2) بر اساس نظرية PL) جدول 15 . مقادير پارامترهاي آزمون در مدل دو پارامتري
سئوال دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
سئوال (p) دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
(p)
. /49 7/6 . /4 -0/36 16 . /46 1/6 1 -2/7 1
. /54 5 . /79 -1/53 17 . /71 4/5 . /75 -0/96 2
. /98 . /4 0/94 -2/24 18 . /08 8/1 . /84 -1/95 3
. /91 1/5 0/87 -1/82 19 . /27 5/1 . /78 -1/76 4
. /43 7 . /8 -1/22 20 . /21 5/9 . /57 -3/26 5
. /62 5/3 0/76 -1/12 21 . /96 2/5 0/61 -0/79 6
. /93 1/8 1/17 -0/82 22 . /2 4/6 1/4 - 1/97 7
1. به دليل برازش يافتن مدل 2 پارامتري با مجموعة داده هاي آزمون، نتايج مقادير پارامترهاي آزمون در اين مدل به صورت كامل
آورده شده است.
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 17
سئوال دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
سئوال (p) دشواري
(b)
شيب
(a)
خي دو
χ2
معناداري
(p)
. /51 7/2 . /52 -0/49 23 . /95 . /3 1/59 -1/79 8
. /66 3/3 . /65 -2/63 24 . /98 . /7 1/07 - 1/28 9
. /87 3/1 . /8 -0/71 25 . /96 0/3 1/45 -2/03 10
. /46 5/6 . /64 -1/93 26 . /91 2/6 0/83 -1/25 11
. /76 2/6 . /87 -1/46 27 . /29 2/4 1/57 - 1/73 12
. /05 15 . /52 -0/12 28 . /28 5 . /96 -2/06 13
. /06 13/3 . /55 -1/19 29 . /76 3/4 . /77 -1/34 14
. /97 0/5 . /63 -3/19 30 . /98 0/4 . /99 -1/95 15
-2 Log Likelihood = 7889/2777
با توجه به نتايج بدست آمده، سؤالات 16 و 22 با مدل يك پارامتري برازش ندارند، اما
χ بقية سؤالات، با مدل هاي دو و سه پارامتري داراي برازش هستند. سطح معناداري مقادير 2
سئوالات نيز نشان مي دهد كه تمام سؤالات با مدل ها ي دو و سه پارامتري برازش دارند
بنابراين مي توان نتيجه گرفت كه مدل هاي دو و سه پارامتري برآورد دقيق تري .(P> 0/05)
از پارامترهاي سؤال، نسبت به مدل يك پارامتري بدست مي دهند.
اما جهت تعيين برازش مدل- داده ها 1 و اينكه كداميك از مدل ها ي يك، دو و سه
در  2loglikelihood پارامتري با اين مجموعه از داده ها برازش بهتري دارند، از مقدار
آخرين چرخش و آزمون خي دو براي مقايسة آنها به صورت زير استفاده گرديد:
براي مدل هاي يك و دو پارامتري و تعيين اينكه كداميك برازش بهتري با اين مجموعه
از داده ها دارد، نتيجة زير بدست آمد:
2 ( 2log 1 ) ( 2log 2 )
   likelihood L   likelihood L
= (7982/8283 - 7889/2777) = 93/5506 χ2
0 به / 0 و 01 / جدول در سطح 05 χ با توجه به اينكه درجه آزادي آزمون 30 مي باشد، 2
جدول در هر دو χ محاسبه شده از 2 χ 43 مي باشد و چون قدر مطلق 2 / 50 و 77 / ترتيب 89
1 . Model – Data Fit
18 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
سطح 95 و 99 درصد اطمينان بزرگ تر است، بنابراين فرض صفر رد مي شود و نتيجه گرفته
مي شود كه مدل دو پارامتري نسبت به مدل يك پارامتري برازش بهتري با اين مج موعه از
داده ها دارد.
براي مدل هاي دو و سه پارامتري و تعيين اينكه كداميك برازش بهتري با اين مجموعه
از داده ها دارد، نتيجة زير بدست آمد:
2 ( 2log 2 ) ( 2log 3 )
   likelihood L   likelihood L
= (7889/2777 – 7865/2979) = 23/9798 χ2
0 به / 0 و 01 / جدول در سطح 05 χ با توجه به اينكه درجة آزادي آزمون 30 مي باشد، 2
جدول در هر دو χ محاسبه شده از 2 χ 43 مي باشد. چون قدر مطلق 2 / 50 و 77 / ترتيب 89
سطح 95 و 99 درصد اطمينان كوچك تر است، بنابراين فرض صفر تأييد مي شود و نتيجه
گرفته مي شود كه مدل دو پارامتري نسبت به مدل سه پارامتري برازش بهتري با اين
مجموعه از داده ها دارد.
جدول، به لحاظ آماري بين برازش χ محاسبه شده از 2 χ البته به دليل كوچك تر بودن 2
مدل هاي دو و سه پارامتري تفاوت معناداري وجود ندارد، اما بنا بر اصل امساك (امبرتسون
2000 ؛ نقل از شريفي و همكاران، 1388 ) مدل دو پارامتري به دليل دارا بودن ، و رايس 1
پارامترهاي كمتر نسبت به مدل سه پارامتري، به عنوان مدلي كه بهترين برازش را با
مجموعة داده ها دارد، معرفي مي شود.
ها، نتيجه گرفته مي شود كه مدل دو χ بنابراين با توجه به نتايج بدست آمده از مقايسة 2
پارامتري نسبت به مدل هاي يك و سه پارامتري با داده هاي آزمون نظري آزمون گواهينامة
رانندگي برازش بهتري دارد.
آزمون گواهينامة (ICC) در نمودارهاي زير (نمودار 3) منحني هاي ويژگي سؤالات
رانندگي در مدل دو پارامتري آمده است. توجه كنيد كه سؤالات از سمت چپ به راست
شماره گذاري شده اند.
1. Embretson & Reise
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 19
1 - 6
7 - 12
13 - 18
19 - 24
25 - 30
آزمون گواهينامة رانندگي در مدل دو پارامتري (ICC) نمودار 3. منحني ويژگي سؤالات
با توجه به مقادير پارامترهاي سؤالات آزمون در مدل دو پارامتري (جدول 5)، و منحني
ويژگي سؤالات آزمون (نمودار 3)، براي آزمون گواهينامة رانندگي و در مدل دو پارامتري
25 و 28 كه داراي ضرا يب ،23 ،22 ،16 ،6 ، نتيجه مي گي ريم كه به استثناي سؤالات 2
دشواري متوسط مي باشند، بقية سؤالات آزمون داراي ضرايب دشواري منفي و پاييني بوده
و منحني ويژگي آنها به سمت چپ متمايل است و بنابراين سؤالات آساني محسوب
مي شوند. در اين ميان سؤال 5 آسان ترين سؤال است.
شيب تمام سؤالات نيز قابل قبول بوده و از قدرت تشخيص مناسب برخوردارند، تنها
سؤال 16 داراي شيب و قدرت تشخيص نسبتاً پايين و كمتر از 5/ . است . در اين ميان سؤال
12 از بالاترين شيب در بين سؤالات برخوردار است. همچنين بر اساس نتايج بدست آمده،
1 - و 77 / . است كه نشان دهندة / ميانگين و انحراف استاندارد پارامتر دشواري سؤالات 58
. / آسان بودن كل آزمون مي باشد. ميانگين و انحراف استاندارد پارامتر شيب سؤالات نيز 86
و 3/ . است كه نشاندهندة قدرت تمييز قابل قبول در جداسازي افراد قوي و ضعيف مي باشد.
در ادامه، بيشينة آگاهي سؤالات و سطوح توانايي مربوطه (جدول 6) و نيز منح ني
20 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
آگاهي و خطاي استاندارد آزمون گواهينامة رانندگي (نمودار 4) آورده شده است . بايد
توجه شود در نقاطي از منحني كه آگاهي به بالاترين حد مي رسد، خطاي استاندارد به صفر
ميل مي كند، در واقع با افزايش آگاهي آزمون، خطاي استاندارد كاهش مي يابد و بالعكس.
جدول 6 . بيشينة آگاهي و سطح توانايي تعدادي از سؤالات آزمون در مدل دو پارامتري
سؤال بيشينة آگاهي سطح توانايي سؤال بيشينة آگاهي سطح توانايي
-0/36 . /11 16 -2/7 . /73 1
-1/53 . /46 17 -0/96 . /4 2
-2/24 . /64 18 -1/95 . /51 3
-1/82 . /55 19 -1/76 . /44 4
-1/22 . /47 20 -3/26 . /23 5
-1/12 . /42 21 -0/79 . /27 6
-0/82 1 22 - 1/97 1/4 7
-0/49 . /19 23 -1/79 1/83 8
-2/63 . /31 24 - 1/28 . /82 9
-0/71 . /46 25 -2/03 1/53 10
-1/93 . /29 26 -1/25 . /5 11
-1/46 . /55 27 - 1/73 1/78 12
-0/12 . /19 28 -2/06 . /67 13
-1/19 . /22 29 -1/34 . /43 14
-3/19 . /28 30 -1/95 . /71 15
-3 -2 -1 0 1 2 3
0
5
10
15
20
Scale Score
I nformation
0
0.44
0.88
1.32
1.76
2.20
S tandard E rror
و خطاي استاندارد آزمون گواهينامة رانندگي در مدل دو پارامتري (TIF) نمودار 4. منحني تابع آگاهي
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 21
در منحني فوق خطوط پيوسته، منحني آگاهي، و خطوط نقطه چين، منحني خطاي
استاندارد آزمون گواهينامة رانندگي را نشان مي دهد. بيشتري ن ميزان آگاهي دهندگي در
1- است و اين بدان معني است كه اين آزمون براي افرادي كه داراي / 2- تا 4 / دامنة تتاي 2
اين سطوح از توانايي هستند بيشترين مناسبت و كاربرد را دارد . در واقع ميزان آگاهي
دهندگي آزمون در سطوح پايين توانايي، بالا مي باشد. بيشينة مقدار آگاهي آن نيز در سطح
15 مي باشد . از طرفي ميزان آگاهي دهندگي اين آزمون در / 1- و برابر 99 / توانايي 95
سطوح توانايي بالا، بسيار اندك است. توزيع بيشينة آگاهي و خطاي استاندارد نمودار 4، و
نيز توزيع فراواني و سطوح مختلف توانايي آزمودني ها، متعلق به نمودار 5 ، در جدول 7
آمده است.
جدول 7. توزيع بيشينة آگاهي و خطاي استاندارد توانايي آزمون گواهينامة رانندگي در مدل دو پارامتري
توانايي (تتا) فراواني بيشينة آگاهي خطاي استاندارد
1/04 8/44 0 -2/85
0 /64 11/3 2 -2/55
0 /36 14/2 4 -2/25
0 /23 15/99 1 -1/95
0 /25 15/7 12 -1/65
0 /4 13/77 33 -1/35
0 /63 11/36 16 -1/05
0 /94 9/08 26 -0/75
1/32 7/05 63 -0/45
1/8 5/34 25 -0/15
2/1 4/38 21 0/15
2/88 3/21 29 0/45
3/7 2/34 43 0/75
4/66 1/7 27 1/05
5/78 1/24 12 1/35
7/08 0 /91 36 1/65
8/58 0 /67 0 1/95
10/3 0 /49 0 2/25
12/26 0 /36 0 2/55
14/49 0 /27 0 2/85
22 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
-3 -2 -1 0 1 2 3
0
10
20
30
40
50
60
70
Ability
Frequency
نمودار 5. منحني توزيع توانايي آزمودني ها در آزمون گواهينامة رانندگي در مدل دو پارامتري
براي تعيين معناداري پارامترهاي سؤا ل و توانايي، در مرحلة اول ميانگين و انحراف
استاندارد اين پارامترها در مدل كلاسيك و مدل دو پارامتري بر اساس داده هاي بدست
.( آمدة اوليه (داده هاي خام) محاسبه گرديد (جدول 8
CTT و IRT جدول 8. مقايسة پارامترهاي سئوال و توانايي در آزمون گواهينامة رانندگي بر اساس نظرية
شاخص آماري
CTT IRT CTT IRT CTT IRT
توانايي (θ) توانايي (rpbis) تميز (a) تميز (P) دشواري (b) دشواري
. /0007 - . /005 . /33 . /86 . /82 -1 / ميانگين 58
. /99 1/01 . /07 . /3 . /13 . / انحراف استاندارد 77
--- . /49 - . / همبستگي پيرسون 9
2 با استفاده PL و مدل CTT سپس همبستگي بين پارامترهاي دشواري و تمييز در مدل
از ضريب همبستگي پيرسون محاسبه گرديد . ضرايب همبستگي بدست آمده به لحاظ
.( 0 معنادار هستند (جدول 8 / آماري در سطح 01
همچنين جهت سنجش تفاوت معناداري بين پارامترهاي سؤال در دو مدل، داده هاي
تبديل و از آن ها آزمون Z محاسبه شدة (داده هاي خام ) پارامترهاي سؤال، به نمرات
وابسته به عمل آمد. با توجه به نتايج بدست آمده (جدول 9) از مقايسة ميانگين T معناداري
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 23
بدست t پارامتر هاي دشواري، شيب و توانايي در دو مدل، نتيجه گرفته مي شود كه، مقادير
0 معنادار نبوده و بنابراين تفاوت معناداري بين دقت برآورد پارامترهاي / آمده در سطح 05
مذكور در دو نظرية كلاسيك و سؤال  پاسخ وجود ندارد.
و IRT جدو ل 9. مقايسة پارامترهاي سئوال و توانايي در آزمون گواهينامة رانندگي بر اساس نظرية
CTT
پارامترها شاخص
مدل ميانگين انحراف
استاندارد
Sig df T
1/05 . / دشواري كلاسيك 01
. /952 29 . / دو پارامتري 061 1 - . /01
. /97 . / تمييز كلاسيك 01
. /898 29 - . / دو پارامتري 129 1/03 . /03
. /99 . / توانايي كلاسيك 0007
. /963 349 . / دو پارامتري 047 1/01 - . /005
در انتها، به منظور بررسي پايايي و ثبات نتايج آزمون نظري گواهينامة رانندگي، مجدداً
آزمون مذكور با همان شرايط اوليه، پس از يك هفته سپري شدن از اجراي اول، بر روي
30 نفر از همان نمونة اوليه اجرا گرديد. از آنجائي كه آزمون مورد نظر از نوع ملاك مرجع
مي باشد، براي بررسي توافق بين تصميم ها از ضريب پايايي به روش كاپا استفاده شد . در
اين روش مقدار ضريب پايايي، نشان دهندة ميزان توافق تصم يم ها ي نمونة مورد نظر در
ارتباط با چگونگي پاسخگويي به سؤالات آزمون در دو بار اجراي آزمون است. نمرة حد
تسلط در اين آزمون كسب نمرة 26 در 30 سؤال مورد نظر است. در واقع مي توان گفت
86 مي باشد. / كه ملاك قبولي در آزمون و يا نقطة برش آزمون، 67
24 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
جدول 10 . طرح تعيين پايايي بر اساس توافق بين تصميم ها
آزمون اول
رسيده به حد تسلط نرسيده به حد تسلط
2 10
17 1
N = a + b + c + d
بر اساس داده هاي اخذ شده از اجراي دوم، مقدار ضريب كاپا برابر 79 / . بوده و با
در سطح 99 / . كمتر از 01 / . م ي باشد ، مي توان نتيجه P = (. / توجه به اينكه مقدار ( 001
گرفت كه رابطة معناداري بين اجراي اول و اجراي دوم در نمونة مورد نظر وجود دارد. اين
نتيجه نشان مي دهد كه آزمون مورد نظر از پايايي و ثبات كافي در اجراهاي مختلف
برخوردار بوده است.
بحث و نتيجه گيري
معمولاً در علت شناسي تصادف هاي رانندگي از 4 عامل انساني، جاده، وسيلة نقليه و محيط
نام برده مي شود. اما در 90 تا 95 درصد تصادفات رانندگي در ايران، عامل انساني نقش اصلي
1/ و اول را در حوادث رانندگي به عهده دارد (يعقوبي، 1379 ). با اينكه ساليانه بيش از 26
ميليون نفر در دنيا به علت تصادفات رانندگي جان خود را از دست م ي دهند (پدين، اسكار
فيلد و سليت، 2004 )، اما بسياري از كشورهاي در حال توسعه دربارة مرگ و مير در كشور
خود اطلاعات محدودي دارند (خي و وانگ، 2004 ). با مطالعات اپيدميولوژيك مي توان در
جهت كاهش حوادث و عواقب ناشي ازآنها گام برداشت، چرا كه آس يب ها ي ناشي از
.( حوادث رانندگي يك مشكل بزرگ بهداشتي در دنيا است (پدن و تورويان، 2005
رسيده به حد تسلط
آزمون دوم
نرسيده به حد تسلط
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 25
در واقع آموزش اين توانايي را دارد تا براي بهبود و پيشرفت كشورهاي كمتر توسعه يافته
زمينة لازم را فراهم سازد و سياست هاي لازم براي مقابله با اين بحران جهاني را اتخاذ نمايد (
لوئيز، 1990 ، نقل از سهرابي، 1384 ). نتايج مطالعات انجام شده نشان نيز مي دهد كه مي توان با
.( اقدامات پيشگيرانه از 98 درصد حوادث جلوگيري نمود (عراقي و واحديان، 1384
يكي از فعاليت ها در اين زمينه، توجه به آزمون هاي نظري گواهينامة رانندگي از زواياي
مختلف و مقايسة آن با ديگر كشورها است كه مي توان د به عنوان اقدامي پيشگيرانه در
كاهش رخداد حوادث رانندگي به شمار آيد. آزمون گواهينامة رانندگي در ايران شامل
يك آزمون نظري و يك آزمون عملي (شهري يا جاده ) است . آزمون نظري، آزمون
استاندارد شده اي است كه براي تصميم گيري در مورد رسيدن فرد به دانش نظري كافي و
ساختن راننده اي ايمن و بي خطر طراحي شده، و مي تواند از زواياي متفاوت مطالعه شده
.( و سؤالات آن نيز بر طبق نظريات مختلف ارزش گذاري شود (ويبرگ، 2004
هدف اين پژوهش، بررسي ويژگي هاي روان سنجي سؤالات آزمون نظري گواهينامة
در ايران (IRT) و نظرية سؤال  پاسخ (CTT ) رانندگي بر طبق نظرية كلاسيك آزمون
بوده است.
تحليل ويژگي روان سنجي سؤالات آزمون نظري گواهينامة رانندگي طبق نظرية
كلاسيك نشان داد كه، بيشتر سؤالات اين آزمون، سؤالات آساني محسوب شده و افرادي با
كمترين توانايي، قادر به پاسخگويي صحيح به تعدادي از سؤالات هستند . همچنين سؤالات
آسان داراي انحراف استاندارد و واريانس پاييني بوده و به واريانس كل آزمون كمك زيادي
نمي كنند و در واقع اطلاعات زيادي را دربارة تفاوت هاي آزمودني ها به ما نم ي دهند . بيشتر
سؤالات آزمون از ضرايب تمييز نسبتاً قابل قبولي برخوردارند. اين بدان معني است كه بيشتر
سؤالات آزمون قادر به جداسازي مناسب آزمودني هاي قوي و ضعيف مي باشند.
ضريب پايايي كل آزمون نيز نشان دهندة تجانس دروني نسبتاً بالاي سؤالات آزمون
مي باشد.
26 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
تحليل ويژگي هاي روان سنجي سؤالات آزمون نظري آزمون گواهينامة رانندگي طبق
نظرية سؤال  پاسخ نشان داد كه پس از برآورد پارامترها و با بررسي ميزان برازندگي
تك تك سؤالات با مدل هاي يك، دو و سه پارامتري، هيچ سؤالي وجود ندارد كه به
صورت همزمان با هر سه مدل برازش نداشته باشد . بنابراين هيچكدام از سؤالات حذف
نمي شوند. بررسي منحني ويژگي سؤالات نشان مي دهد كه بيشتر سؤالات آزمون داراي
ضرايب دشواري منفي و پاييني بوده و منحني ويژگي آنها به سمت چپ متمايل است و
بنابراين سؤالات آساني محسوب مي شوند. ميانگين و انحراف استاندارد پارامتر دشواري
1- و 77 / . است كه نشان دهندة آسان بودن كل آزمون مي باشد. شيب بيشتر / سؤالات 58
سؤالات آزمون قابل قبول بوده و از قدرت تشخيص مناسب در جداسازي آزمود ني ها ي
قوي و ضعيف برخوردارند. تنها سؤال 16 داراي شيب و قدرت تشخيص پايين و كمتر از
5/ . است. ميانگين و انحراف استاندارد پارامتر شيب سؤالات نيز 86 / . و 3/ . است كه
نشان دهندة قدرت تمييز قابل قبول در جداسازي افراد قوي و ضعيف مي باشد.
در مجموع مي توان نتيجه گرفت كه بيشتر سؤالات آزمون داراي ضرايب دشواري
پايين و ضرايب تمييز قابل قبولي مي باشند.
بررسي منحني آگاهي دهندگي نشان مي دهد كه بيشترين ميزان آگاهي دهندگي اين
1- بوده و بيشينة مقدار آگاهي آن نيز در سطح توانايي / 2- تا 4 / آزمون در دامنة توانايي 2
15 مي باشد. اين بدان معني است كه اين آزمون در سطوح پايين تتا / -1/95 و برابر 99
(توانايي) از آگاهي دهندگي بالايي برخوردار بوده و براي آزمودني هايي با توانايي پايين
-1/ 1، در سطح توانايي 79 / مناسب مي باشد . در اين ميان سؤال 8 با بيشينة آگاهي 83
بيشترين ميزان آگاهي دهندگي را در اين مجموعه از سؤالات به خود اختصاص داده است.
همچنين منحني توزيع توانايي آزمود ني ها نشان م ي دهد كه بيشتر ين فراواني آزمون
شوندگان با 63 نفر متعلق به سطح توانايي 45 / .- مي باشد.
تحليل ويژگي هاي روان سنجي سؤالات آزمون نظري گواهينامة رانندگي طبق نظرية
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 27
سؤال  پاسخ نشان داد كه اين آزمون تك بعدي مي باشد. اين نتيجه با تحليل عاملي سؤالات
آزمون بدست آمد. اثبات تك بعدي بودن آزمون به اين معنا است كه مفروضة استقلال
موضعي نيز برقرار است. در مرحلة بعد پارامترهاي سؤال و توانايي در مدل هاي يك، دو و سه
پارامتري بدست آمد. به منظور مقايسة مدل ها در برازش با داده هاي آزمون، از آزمون خي
دو استفاده گرديد. نتايج نشان داد كه مدل دو پارامتري نسبت به مدل هاي يك و سه پارامتري
برازش بهتري با داده هاي آزمون دارد. اين بدان معني است كه عامل حدس در پاسخگويي
آزمودني ها به سؤالات نقش زيادي نداشته است. همچنين با توجه به اطلاعات بدست آمده،
سؤالات 16 و 22 با مدل يك پارامتري برازش ندارند. اما تمام سؤالات با مدل ها ي دو و سه
پارامتري داراي برازش هستند. بنابراين مي توان با توجه به برازش تمام سؤالات آزمون، با
مدل هاي دو و سه پارامتري، نتيجه گرفت كه مدل هاي دو و سه پارامتري برآورد دقيق تر ي از
پارامترهاي سؤال نسبت به مدل يك پارامتري بدست مي دهد.
نتايج اين پژوهش از لحاظ تفاوت در دقت برآورد پارامترهاي سؤال و توانايي به روش
سؤال  پاسخ نسبت به روش كلاسيك، نشان م ي دهد كه، برآورد پارامترهاي سؤال و
توانايي به روش سؤال  پاسخ از واريانس و دامنة وس يع تر ي نسبت به روش كلاسيك
برخوردار بوده و برخلاف مدل كلاسيك، قاد ر به برآورد پارامترهاي سؤال و توانايي
تلقي CTT مستقل از همديگر مي باشد. به بيان ديگر آنچه به عنوان نقطة ضعف در نظرية
، مي شود، وابستگي پارامترهاي آن به نمونة مورد بررسي است (همبلتون و سواميناتان 1
ويژگي و ،IRT 2000 ). در واقع ثبات و استقلال پارامترها در نظرية ، 1985 ، نقل از استيج 2
1980 ، نقل از استيج، 2000 ). در اين رابطه ، مزيت مهم اين نظريه به شمار مي رود (لرد 3
IRT و CTT 2010 )، نيز نشان دادند كه اگرچه هر دو نظرية ) شاركنس و دي آنجلو 4
مي توانند در به دست آوردن اطلاعات يكسان در مورد مقدار سئوالات آزمون در رابطه با
1 . Hambleton & Swaminathan
2 . Stage
3 . Lord
4 . Sharkness & DeAngelo
28 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
صفت مكنون اندازه گيري شده، مفيد باشند، اما اين دو نظريه اندازه هاي متفاوتي از دقت
آزمون بدست مي دهند.
به منظور مقايسه و تعيين معناداري پارامترهاي سؤال و توانا يي در آزمون گواهينامة
رانندگي، در مرحلة اول ميانگين و انحراف استاندارد پارامترهاي دشواري، شيب و توانايي
در دو مدل كلاسيك و دو پارامتري بر اساس داده هاي بدست آمدة اوليه (داده هاي خام )
و مدل CTT محاسبه گرديد. سپس همبستگي بين پارامترهاي دشواري و تميز در مدل
2 با استفاده از ضريب همبستگي پيرسون محاسبه گرديد، كه ضرايب همبستگي بدست PL
0 معنادار بودند. در مرحلة بعد، داده هاي محاسبه شده / آمده به لحاظ آماري در سطح 01
تبديل و از آن ها Z (داده هاي خام) براي پارامترهاي سؤال و توانايي در دو مدل، به نمرات
محاسبه شده از مقايسة دو ميانگين و T وابسته به عمل آمد. با توجه به T آزمون معناداري
مندرج در جدول در سطح 95 / . ، نتيجه گرفته مي شود كه تفاوت معناداري بين دقت T
برآورد پارامترهاي دشواري، شيب و توانايي در دو نظرية كلاسيك و سؤال  پاسخ وجود
ندارد. با مقايسة نتايج متفاوت معنادار ي ها ي بدست آمده توسط آزمون ها ي رابطه
وابسته) مي توان نتيجه گرفت كه نظريه هاي كلاسيك و سؤال  T) (پيرسون) و تفاوت
پاسخ داراي رابطة معناداري بوده و هر دو نظريه از ميزان دقت تقريباً مشابه و يكساني در
برآورد پارامترهاي سؤال و توانايي برخوردارند و در واقع تفاوت معناداري بين دو نظريه در
برآورد پارامترها وجود ندارد.
پژوهش هاي انجام ،CTT بر IRT امروزه، با وجود مزيت هاي نظري شناخته شدة نظرية
يافته از طريق بررسي ويژگي هاي تجربي نيز به نتايج مشابه، متغير و بعضاً متناقضي منتهي
شده است.
به CTT و IRT بچگار 1 و همكاران ( 2003 ) در مطالعة خود با استفاده از نظريه هاي
اين نتيجه رسيدند كه؛ نظرية سئوال - پاسخ حالت گسترش يافتة نظرية كلاسيك است، و
1 . Bechger
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 29
مفاهيم هر دو نظريه به هم وابسته هستند. با اين حال ثابت شده است كه نظرية سئوال -
پاسخ در جايي كه نظرية كلاسيك ناتوان به نظر مي رسد مي تواند مفيد واقع شود.
بررسي پارامترهاي سئوال و توانايي با استفاده از تكنيك مونت كارلو و از طريق داده
2002 ) نشان داد كه، برآورد ) هاي شبيه سازي شده در مطالعة مكدونالد و پانونن 1
قابل مقايسه، مشابه و دقيق اند. همچنين CTT و IRT پارامترهاي سئوال و توانايي در نظرية
در اغلب شرايط تجربي IRT نتايج حاكي از آن بود كه برآورد پارامترهاي تمييز مبتني بر
در برخي از شرايط خاص از دقت CTT دقيق بوده، اما برآورد پارامترهاي تمييز مبتني بر
پايين تري برخوردار بوده است. پيامدهاي نتايج اين مطالعه براي تجزيه و تحليل روان سنجي
سئوالات و انتخاب سئوال مورد بحث قرار گرفته است. نتيجة پژوهش استيج ( 2000 ) نيز
نشان داد كه؛ نظريه هاي جديد و كلاسيك اندازه گيري به يك اندازه قادرند داده هاي
آزمون را به صورت منظم پيش بيني كنند. اما به دليل تفاوت قابل ملاحظه ي موجود بين دو
نظريه در تئوري و اجرا و در نتيجه برآورد دقيق تر پارامترهاي سئوال و توانايي توسط نظرية
IRT كه در برخي تحقيقات ب ه اثبات رسيده است، نظرية ،CTT نسبت به نظريه IRT
دارد. CTT برتري قابل ملاحظه اي بر نظرية
،(IRT) 2010 ) مشخص گرديد كه، مدل پاسخ مدرج ) در مطالعة سنكتاي و سنكتاي 2
براي برآورد پارامترهاي آماري در يك نمونة بزرگ و نيز تحليل مدل معادلات ساختاري
دقيق تر از مدل كلاسيك آزمون است. اما مدل كلاسيك آزمون نيز همچنان ابزار آماري
پايايي در تحليل رگرسيون و در نمونه هايي با اندازة كوچك محسوب مي شود . همچنين
هنگامي كه پارامترهاي فرد، ناشناخته فرض مي شود و پارامترهاي سئوال نيز به صورت
و IRT شناخته شده و يا شناخته نشده باشد، توان بدست آمده با استفاده از نظريه هاي
مشابه و يكسان، و هميشه پايين تر از توان مورد انتظار در نقطة انتهايي توزيع طبيعي CTT
1 . Macdonald & Paunonen
2 . Siengthai & Siengthai
30 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
.(2010 ، است. تعداد سئوالات نيز تأثير قابل توجهي بر توان در هر دو روش دارد (سبيل 1
تجزيه و تحليل نهايي پارامترهاي سؤال و آزمود ني ها در آزمون نظري گواهينامة
رانندگي كه توسط راهور ناجا برگزار مي شود، نشان داد كه سؤالات اين آزمون بر اساس
نظرية كلاسيك و نظرية سؤال  پاسخ ، براي آزمودني ها يي با توانايي پايين از مناسبت و
دقت بيشتري برخوردار است. اين بدان دليل است كه با توجه به ضرايب دشواري بدست
آمده، بيشتر سؤالات آزمون ساده و آسان مي باشند. اما از آنجائي كه آزمون مورد نظر از
نوع ملاك مرجع است، سؤالي كه از لحاظ محتوايي با ارزش است، لزوماً به دليل آسان
بودن از آزمون كنار گذاشته نمي شود (ويبرگ، 2004 ). پارامتر تمييز آزمون نيز در هر دو
نظريه از ضرايب قابل قبولي برخوردار بوده و نشان مي دهد كه اين آزمون تا حد زيادي از
قدرت جداسازي افراد قوي و ضعيف در سطوح پايين توانايي برخوردار م ي باشد . البته با
توجه به اينكه آزمون نظري گواهينامة رانندگي از نوع آزمون هاي ملاكي م ي باشد ، حتي
سئوال هايي با ضرايب تمييز پايين نيز كنار گذاشته نم ي شوند ، چرا كه چنين سئوالاتي
.( توانايي اندازه گيري هدف را نشان مي دهند (كيامنش، 1387
به منظور بررسي پايايي و ثبات نتايج آزمون نظري گواهينامة رانندگي، مجدداً آزمون
مذكور با همان شرايط اوليه، پس از يك هفته سپري شدن از اجراي اول، بر روي 30 نفر از
همان نمونة اوليه اجرا گرديد. بر اساس ضريب كاپاي بدست آمده مي توان نتيجه گرفت
كه رابطة معناداري بين اجراي اول و اجراي دوم در نمونة مورد نظر وجود دارد. اين نتيجه
نشان داد كه آزمون مورد نظر از پايايي و ثبات كافي در اجراهاي مختلف برخوردار است .
در واقع تغيير چنداني در تعداد و درصد افرادي كه در اجراي اول آزمون موفق و يا ناموفق
بوده اند، نسبت به اجراي دوم آزمون وجود نداشته و مي توان نتيجه گرفت كه، ثبات تصميم
گيري در دو بار اجراي آزمون وجود داشته است.
پايين بودن ميانگين نمرات آزمودنيها در اين پژوهش، نسبت به نمرة ملاك، با در نظر
1 . Sebille
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 31
گرفتن سادگي آزمون، نشاندهندة توانايي پايين آزمون شوندگان م ي باشد . البته ميز ان
توانايي برآورد شده در نظرية سؤال  پاسخ در مقايسه با نمرة آزمودني در نظرية كلاسيك،
به ميزان واقعي نزديك تر است و با توجه به توانايي ها ي برآورد شده، مي توان سؤالات
متناسب با توانايي آزمودني ها را انتخاب نمود و اين مي تواند به ايجاد بانك سؤال و توسعة
در آزمون نظري گواهينامة رانندگي منجر شود . ،(CAT) آزمون هاي انطباقي كامپيوتري
2002 ) نيز بدان اشاره شده است . وي با بررسي سئوالات ) مزيتي كه در بررسي هاروي 1
بر روش ها ي IRT مزي ت ها ي نظرية ،(MBTI) آزمون تجديد نظر شده مايرز - بريگز
را بدين گونه برشمرد: CTT مبتني بر نظرية
(الف) دادن شرح مفصل از عملكرد افراد در سئوالات آزمون
(ب) ثبات و تغيير ناپذيري شاخص هاي دقت سؤال و آزمون در سراسر طيف نمرات
(ج) امكان ارزيابي سوگيري سؤال و آزمون در رابطه با زير گروه هاي جمعيتي
(د) اندازه گيري كيفي و با ثبات از ويژگي هاي هر پاسخ دهنده
(ه) امكان تهية آزمون هاي انطباقي كامپيوتري با هدف كاهش زمان آزمايش، بدون فدا
كردن دقت اندازه گيري.
IRT يافته هاي ديگر (شاركنس و دي آنجلو، 2010 ) نيز نشان داد كه در مجموع نظرية
اطلاعات بسيار جامع تري در مورد دقت اندازه گيري و نيز نقشة راه واضح تر ي براي بهبود
براي ساخت مقياس و توسعة IRT مقياس فراهم مي كند. همچنين اين يافته ها ، از نظرية
زمينه يابي در آموزش عالي پشتيباني مي كنند.
1 . Harvey
32 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
منابع
آلن، مري. جي؛ و وندي، ام. ين ( 1384 ). مقدمه اي بر نظري ه هاي اندازه گيري (روان سنجي ).
.( 12 . (تاريخ انتشار به زبان اصلي، 1982 - ترجمة علي دلاور. تهران: سمت. صص 13
احمدي، فهيمه ( 1385 ). علل وقوع تصادفات در معابر شهري.
براي (IRT) امبرتسون، سوزان اي؛ و رايس، استيون پي ( 1388 ). نظريه هاي جديد روان سنجي
روان شناسان. ترجمة حسن پاشاشريفي، ولي الله فرزاد، مجتبي حبيبي عسگرآباد و بلال
.( ايزانلو. تهران: رشد. ص 490 . (تاريخ انتشار به زبان اصلي، 2000
بازرگان، عباس ( 1386 ). ارزشيابي آموزشي: مفاهيم، الگوها و فرآيند عملياتي. تهران: سمت.
.Http://www.bih.ir . بيمة ايران. ( 2008 ). تفاوت هاي حوادث رانندگي در آلمان و ايران
ثرندايك، آر، ال ( 1375 ). روان سنجي كاربردي. ترجمة حيدرعلي هومن. تهران : دانشگاه تهران .
.( (تاريخ انتشار به زبان اصلي، 1982
حسيني، ميرزا حسن ( 1380 ). لزوم توجه به نكته هاي مثبت آموزش از راه دور در دنيا.
خالدي، محمد ( 1387 ). ارزيابي اثربخشي آموزش هاي فني و حرفه اي، هنرستان ها و دوره هاي
علمي و كاربردي به تفكيك خصوصي و دولتي در اشتغال، مؤسسة كار و تأمين اجتماعي.
؛ خبرگزاري فارس ( 1385 ). گروه اجتماعي، حوزة قضايي و انتظامي. شمارة 8508010184
.1385/08/01
سلماني، محمد؛ رمضان زاده لسبويي، مهدي؛ دريكوند، مسلم و ثابتي، فرخ ( 1387 ). بررسي عوامل
مؤثر بر تصادفات جاده اي و ارائة راهكارهايي براي كاهش آن، مورد مطالعه : منظومة
، روستايي جنوب خور و بيابانك. پژوهش هاي جغرافياي انساني، شمارة 65 ، پاييز 1387
.87- صص 104
سهرابي، منيره ( 1384 ). بررسي تطبيقي سير تحولات آموزش از راه دور در توسعه كمي و كيفي
آموزش عالي به ويژه دانشگاه هاي مجازي در كشورهاي انگلستان، آمريكا و ايران، تهران:
پايان نامة كارشناسي ارشد، دانشگاه علامه طباطبائي.
سوري، حميد؛ عيني، الهه؛ موحدي نژاد، عباسعلي؛ محفوظ پور، سعاد؛ موحدي، محمد؛ رضا زاده
.( آذري، منصور؛ وفايي، رضا؛ حات مآبادي، حميدرضا و مسعودي نژاد، محمدرضا ( 1388
اراية الگوي عملي نقشة سياست گذاري در سوانح ترافيكي كشور در سال 1387 . مجلة
پژوهشي حكيم، پاييز 88 دورة دوازدهم، شماره سوم.
ارزشيابي آزمون نظري آزمون گواهينامة رانندگي بر اساس نظرية سؤال  پاسخ ... 33
صالحي، احمد ( 1376 ). بررسي مشخصه هاي روان سنجي آزمون پ ره بورد رشتة زنان و زايمان
پايان نامة كارشناسي ارشد، تهران : ، IRT كشور ايران بر اساس نظرية سؤال  پاسخ
دانشگاه علامه طباطبائي.
عراقي، عزت؛ و واحديان، محمد ( 1384 ). بررسي عوامل مستعد كننده و آس يب ها ي ناشي از
، تصادفات با موتورسيكلت در شهرستان مشهد سال 1384 . مجلة افق دانش (دوره 13
شماره 1). دانشكدة علوم پزشكي و خدمات بهداشتي ،درماني گناباد.
فراهاني، مهدي ( 1375 ). مقايسة مدل هاي اندازه گيري (كلاسيك و سؤال  پاسخ ) از لحاظ برآورد
پارامترهاي سؤال و توانايي. پايان نامة كارشناسي ارشد، تهران: دانشگاه علامه طباطبائي.
- كيامنش، عليرضا ( 1387 ). روش هاي ارزش يابي آموزشي. تهران: دانشگاه پيام نور . صص 119
.118
محمد زاده رومياني، مهري ( 1375 )، روش هاي گزينش سؤال در مدل كلاسيك اندازه گيري و
پايان نامة كارشناسي ارشد، تهران، دانشگاه علامه طباطبائي. ،IRT مدل هاي جديد
مگنوسون، داويد ( 1370 ). مباني نظري آزمون هاي رواني. ترجمة محمد نقي براهني . تهران : نشر
.( دانشگاه تهران. (تاريخ انتشار به زبان اصلي، 1966
يعقوبي، حميد ( 1379 ). بررسي نقش عوامل انساني در بروز تصادفات رانندگي در ايران . نشري ة
انديشه و رفتار، سال ششم، شماره يك.
يونسي، جليل ( 1385 )، بررسي ويژگي هاي روان سنجي سؤالات آزمون هاي فراگير رشته
روانشناسي دانشگاه پيام نور در سال 1385 ، پايان نامة كارشناسي ارشد، تهران، دانشگاه
علامه طباطبائي.
Bechger, T. M., Maris, Gunter., Verstralen, H. H. F. M. & Béguin, A, A. (2003).
Using Classical Test Theory in Combination with Item Response Theory.
Applied Psychological Measurement Vol. 27, No 5,pp 319–334.
Chi, GB., & Wang, sy. (2004). Pattern of road traffic injuries in china. Zhonghua lio
xing bing zue za zhi. (7):598-601.
Hambleton, R. K., & Vanderlinden, W. J. (1982). Advance in item response theory
and application: An introuduction applied psychological measurement,6,4,
372-378.
Hambleton, R. K., & Cook, L. L. (1983). The robustness of item rrsponse models
effects of test length and sample aize on the precision of ability estimates. In D
jweis(Ed.) New horizons in testing (pp.31- 49) New York: Academic press.
Hambleton, R. K. (1989). Principles and selected applications of item- response
theory. In R. Linn (Ed.) Educational measurement, (3rd Ed). New York:
Macmillan. 147-200.
34 فصلنامة انداز هگيري تربيتي شمارة 7، سال سوم، بهار 91
Hambleton, R. K., Jones, R. W. & Rogers, H. J. (1993). Independence of item
parameter etimtion errors in test development. Journal of Educational
Measurment,30,143 – 155.
Harvey, R. J., & Hammer, A. L. (2002). Item Response Theory. Virginia
Polytechnic Institute & State University & Consulting Psychologists Press, Inc.
Kopits, E., & Cropper, M. (2005). Traffic fatalities and economie growth,
Accidanalprev; 37(1):169-78.
Macdonald, P,. & Paunonen, S. V. (2002). A Monte Carlo Comparison of Item and
Person Statistics Based on Item Response Theory versus Classical Test
Theory. Educational and Psychological Measurement Vol. 62 No. 6, .pp 921-
943. University of Western Ontario.
Peden, M., & Toroyan, T. (2005). Counting road traffic deaths and injuries: poor
data should not detract from doing some thing. Annals of emergency
medicine.46(2):158-60.
Peden, M., Scufield, R., & Sleet, D. (2004). World report on road traffic injury
prevention. Geneva: world health organization.
Reid, C. A. (1993). Latent trait modeling of the general aptitude test battery used
with a rehabilitation client population: An investigation of Model – Data Fit.
Source: DAI – B 54/12 , P. 6497, JUN 1994.
Romana, E. (2004). World health day:road safety is no accident. Paris, Farance.
Sébille, V., Hardouin, JB., Le Néel, T., Kubis, G., Boyer, F., Guillemin, F., &
Falissard, B. (2010). Methodological issues regarding power of classical test theory
(CTT) and item response theory (IRT) -based approaches for the comparison
of patient-reported outcomes in two groups of patients- a simulation study.
BMC Medical Research Methodology.
Sharkness, J,. & DeAngelo, L. (2010). Measuring Student Involvement: A
Comparison of Classical Test Theory and Item Response Theory in the
Construction of Scales from Student Surveys. Res High Educ 52, pp 480–507.
Siengthai, Sukirno & Sununta. (2010). The comparison of graded response model
and classical test theory in human resource research: a model fitness test.
Research and Practice in Human Resource Management.18 (2), pp77-
90.Singapore, Human Resources Institute & Curtin University of Technology.
Stage, C. (2000). A Comparison Between Item Analysis Based on Item Response
Theory and Classical Test Theory. A Study of the SweSAT Subtest ERC.
Wiberg, M. (2004). Classical test theory vs.item response theory: An evaluation of
the theory test the Swedish Driving-License test. 1-27.

همتراز سازي آزمون ها test equating

در بسیاري از موقعیت هاي روانشناختی و آموزشی، چندین فرم از یک آزمون براي سنجش

توانایی پیشرفت عملکرد و مانند آن قابل استفاده است. وقتی چند فرم آزمون براي اندازه گیري

توانایی یکسانی اجرا می شود در حقیقت قادر به مقایسه نمرات آزمون افراد هستیم با آزمون هاي

موازي این کار به صورت مستقیم انجام می شود. آزمون هاي موازي محتواي یکسانی را اندازه می

گیرند و ویژگی آماري مشترکی دارند ( تساوي میانگین، انحراف استاندارد و پایایی).

نمره ها در آزمون هاي موازي کاملاً قابل تعویض بوده و هیچ مشکلی در زمینه مقایسه

نمرات در فرم هاي موازي آزمون پیش نمی آید. اغلب، چند فرم از یک آزمون که ویژگی

یکسانی را اندازه می گیرند موازي نبوده و مقایسه ي نمرات به راحتی انجام نمی شود چون

فرم هاي مختلف آزمون در چند خصوصیت با هم تفاوت دارند (عدم تساوي میانگین ها،

واریانس ها، پایایی ها و مانند آن) بنابر این قبل از مقایسه نمرات آزمودنی ها در چند فرم از

یک آزمون ایجاد تعادل بین نمرات خام در فرم هاي مختلف از یک آزمون لازم است این عمل

همتراز سازي 1 آزمون ها نام دارد. اگر چه نظریه پردازان و عمل کنندگان به نظریه ها با هم

اختلاف عقیده دارند براي نمره هاي همتراز شده شرایطی وجود دارد که باید به اتفاق نظ ر

برسند مانند شرایطی که بعد از اجراي روش هاي همتراز سازي نمرات بدست آمده است.

روش همتراز سازي نه فقط باید بتواند توانایی مبادله ي نمرات را داشته باشد بلکه باید

به محتواي آزمون و جامعه هدفی که آزمون براي آنها در نظر گرفته شده نیز مربوط باشد.

به منظور دقت بیشترچهار ویژگی لازم براي نمره هاي آزمون همتراز شده در زیر آمده

(2005 است. ( گراجتر و وندرکمپ 2

1.equating

2.Graijter & Vanmder Kamp

3

-1 توانایی یکسان 1: مثلاً فرم هاي مختلف آزمون بایستی ویژگی یکسانی ( توانایی، پیشرفت

عملکرد)اندازه بگیرند.

-2 برابري 2: براي هرگروه از آزمودنی ها توانایی یکسانی تعیین شود، توزیع فراوانی شرطی

بعد از تبدیل با توزیع فراوانی شرطی از نمره هاي آزمون (Y نمره ها از یک آزمون (مثلاً

یکسان است. (X دیگر (مثلاً

-3 جامعه ثابت 3: صرف نظر از اینکه نمونه یا گروه افراد چگونه استخراج شده اند تبدیل

نمرات یکسان است.

مانند انتقال نمره ها از Y به X -4 تقارن 4: تبدیل برگشت پذیر است انتقال نمره ها از فرم

است. در رابطه با ویژگی دوم گفته شده است که اگر برابري کامل بعد از X به فرم Y فرم

آزمون مشاهده شود، هر دو فرم آزمون بر Y و X همترازي یا تبدیل نمره هاي فرم هاي

.(1980 ، مبناي نظریه کلاسیک آزمون کاملاً موازي هستند (لرد

تعين نقطه ي برشي براي سنجش يك اختلال (تهيه ي پرسشنامه و تعيين نقطه برش)

دوستي قصد دارد نقطه ي برشي براي سنجش اختلالات صدا ویژه معلمان مقطع ابتدایی بسازد. براي انجام اين كار چه مسيري را لازم است طي نمايد؟

در مرحله ي روش و در قدم اول لازم است ابزار انجام اين كار را مشخص نمايند. يعني مشخص كنند كه سنجش اختلالات صدا از چه طريقي انجام خواهد شد. پاسخ ايشان تهيه ي پرسشنامه است و در ضمن قصد دارند ويژگي هاي روانسنجي آن را نيز بيابند. براي تهيه ي پرسشنامه لازم است كه ويژگي هاي پرسشنامه مشخص و تعيين شود يعني پرسشنامه بايد روايي و پايايي داشته باشد كه اين خود مبحث گسترده اي است. به منظور تعيين ويژگي هاي سوالات پرسشنامه بايد از نظريات اندازه گيري بهره برند. اين نظريات كه به تعيين ويژگيهاي سوال كمك مي كنند عبارتند از نظريه ي كلاسيك اندازه گيري و نظريه ي سوال پاسخ. بنابراين لازم است در گام اول اين نظريات شناخته شوند و نرم افزارهاي مربوطه فرا گرفته شود. لازم به ذكر است كه انجام كارهاي روانسنجي در تخصص دانشجويان و اساتيد آمار نمي باشد بلكه نياز به تخصص سنجش و اندازه گيري يا روانسنجي دارد كه اين موضوع براي دوستان علاقمند بعد از شروع به كار كاملا روشن مي شود.

بعد از تعيين ويژگي هاي روانسنجي و حدف اصلاح سوالات در نهايت سوالاتي باقي خواهند ماند كه بر اساس روش هاي علمي مي توان گفت پرسشنامه توانايي سنجش  اختلالات صدا را دارا است. بعد از اين مرحله لازم است نقطه ي برش تعيين شود. تعيين نقطه ي برش نيز مطالعات خاص خود را مي طلبد و از روش هايي مانند نمودارهاي راك تا روش هاي سوال پاسخ استفاده مي شود كه توصيه ي بنده استفاده از روش هاي سوال پاسخ است.

تئوري يا نظريه ي رويه FACET

نظريه ي FACET توسط لوئس گاتمن و به منظور يكپارچه كردن نظريه و تحقيق گسترش يافته است. بيشتر مفاهيم رواني و اجتماعي چند متغيري هستند و بنابراين مطالعه ي آنها نيازمند يك طرح سيستماتيك و منظم براي تعريف مشاهدات است. علاوه بر اين اگر طرح تعريف به نتايج تراكمي منجر شود، بايد در قالبي مطرح شود كه به درك روابط سيستماتيك و نظامند با داده هاي تجربي منجر شود. ايده ي ترسيم گاتمن به منظور ارتقاء هر دو هدف ارائه شده است: گزاره ي ترسيم كه ابزار پايه اي در نظريه ي FACET است در برگيرنده ي رويه هاي مختلفي است. هر رويه در گزاره ي ترسيم راهي است براي خوشه بندي كردن مفاهيم پژوهش و نقش مشخص هر رويه را تعيين مي كند. با توجه به نظر گاتمن، مفروضه ي اساسي و پايه اي نظريه ي FACET نقش رويه ها در گزاره ي ترسيم دليلي را براي مفروضه انطباق بين چهارچوب تعريف ( گزاره ي ترسيم) و يك وجه از داده هاي تجربي فراهم مي آورد. مثالهاي زيادي از با استفاده از رويكرد FACET و دستيابي به يك ساختار قانمونمند ارائه شده است كه دليلي است بر حمايت از مفروضه ي عمومي نظريه ي FACET.


 

اندازه گیری چند رویه ای راش (Many-facet rasch measurement)

نویسنده: محمد حسین ضرغامی(zar100@gmail.com) 09122263167

اندازه گیری چند رویه ای راش (Many-facet rasch measurement) :

این مدل اندازه گیری به سنجش عملکردی بسیار کمک کرده است. البته این مدل یکی از مدلهای تلفیقی دو نظریه ی تعمیم پذیری و نظریه ی سوال پاسخ است که به آنها GIRM گفته می شود. نظریه ی تعمیم پذیری نظریه ی نمونه گیری است که به پژوهشگر کمک می کند تا منابع خطای خود را به قسمت های مختلف تقسیم نماید. این تقسیم منابع خطا می تواند به شفاف شدن بهتر واریانس مورد مطالعه کمک نماید. از طرفی نظریه ی راش به عنوان یکی از نظریه های اندازه گیری که خود یک نظریه ی مقیاس گذاری است امکان سنجش و اندازه گیری تکالیف را فراهم می آورد. در سنجش عملکردی به جای سوالات و گزاره ها که در پرسشنامه ها و آزمون های شناختی استفاده می شوند از اصطلاح تکلیف استفاده می شود. بنابراین با استفاده از مدل سوال پاسخ می توان به مقیاس بندی و پارامتری کردن تکالیف و دستیابی به درجه دشواری و شیب تکالیف و همچنین عملکرد افتراقی سوالات دست یافت. حوزه ی کاربرد مدل چند رویه ای راش یا مدل های جیرم بیشتر در آموزش و آزمون سازی زبان و همچنین سنجش و اندازه گیری فعالیت های حرکتی در تربیت بدنی و ورزش وهمچنین استاندارد سازی رفتار و عملکرد بر می گردد که می تواند برای دانشجویان و دانش پژوهان در حوزه های مختلف مدیریت مورد نیاز باشد. استفاده از این رویکرد به منظور کالیبره کردن مصاحبه ها و امتحانات شفاهی مانند امتحانات قرائت کاربرد زیادی پیدا کرده است. حوزه های زبان آموزی و آِزمون سازی زبان مجموعه ی گسترده و متنوعی از روش ها را در بر می گیرد که هدف آنها اندازه گیری مهارت زبانی فرد یا چند جنبه مختلف این مهارت است. زمانی که رتبه دهنده یا امتیاز دهنده به دانش آموزان یا شرکت کننده گان رتبه می دهند نظرات آنها می تواند به عنوان یک رویه در کنار توانایی دانش آموزان و شرکت کنندگان و درجه ی سختی تکلیف ایجاد واریانس نماید که می تواند وابسته به هدف پژوهش واریانس خطا و یا واریانس مورد پژوهش قلمداد شوند. به این رویکرد اسامی مختلفی داده اند مانند

Many-facet rasch model, multi-facet rasch model,many faceted conjoint measurement, multi faceted rasch modeling

نرم افزارهای مختلفی برای اندازه گیری و سنجش در این حوزه استفاده شده اند که یکی از آنها FACET است که توسط گروه طراح نرم افزار WINSTEP  ایجاد شده است.

اندازه گیری رویکرد اندازه گیری چند رویه ای راش یا مدل های دیگر GIRM دارای سه گام مهم زیر می باشند.

گام اول: شکل دهی به مفروضات بر پایه ی رویه های مورد پژوهش که به یک سنجش مشخص مربوط می شود.

 

گام دوم: مشخص کردن مدل های اندازه گیری که برای مطالعه ی هر یک از رویه ها باید استفاده شود. در این بخش بحث گزینش مدل اندازه گیری مطرح است و بسیار به روانسنجی و سنجش و اندازه گیری مربوط است وباید به مدل های مختلف و روش های ترکیبی نظریات مختلف اندازه گیری آشنابود.

گام سوم: بکار بردن مدل برای در نظر گرفتن اثر هر رویه به صورت بهترین روش ممکن

Item response theory

Generalozabiltiy theory

Rasch model

FACET

Language testing

Sport

Performance assessment

task

 

نظريه ي تعميم پذيري (Generalizability theory) به عنوان نظريه اي براي مطالعه ي رويه ها(facet)ي موجود

نظريه ي تعميم پذيري يكي از نظريات اندازه گيري است كه با استفاده از تركيب نظريه ي كلاسيك سوال پاسخ و روش تحليل واريانس سعي در برآورد ضرايب اعتبار داشته است. قابليت هاي اين نظريه ي امكان مطالعه ي شرايط مختلف و مقايسه ي اعتبار امتيازات در شرايط مختلف را فراهم مي آورد. به مطالعاتي كه براي بررسي شرايط مختلف استفاده مي شوند، مطالعات تصميم گيري مي گويند. اين مطالعات امكان بررسي رويه ها(FACET) هاي مختلف به عنوان منابع مختلف واريانس يا پراكندگي در امتيازات را فراهم مي آورد. مشخص است كه هر چه پراكندگي بر اساس رويه يا FACET مورد مطالعه ( كه به آن رويه ي تفكيكي گويند) بيشتر باشد، بهتر و مناسب تر است (مانند آنچه در تحليل واريانس به عنوان واريانس بين آزمودني ها مطرح است) و هر چه واريانس ناشي از رويه هايي بجز رويه ي مورد مطالعه باشند، كمتر خواهد بود. 

به عنوان مثال زماني كه هدف پژوهش رتبه بندي پژوهشگران مختلف بر اساس كارهاي انجام داده ي آنها مي باشد و اين كار از طريق بررسي اقدامات علمي آنها توسط 5 نفر خبره انجام مي شود، تمايز پژوهشگران هدف اصلي مورد مطالعه و ساير رويه ها به عنوان رويه هاي مزاحم يا ابزاري instrumental facet شمرده مي شوند. 


جدول ماتریس همبستگی را ترسیم و انواع همبستگی را ذکر کنید؟

جدول ماتریس همبستگی را ترسیم و انواع همبستگی را ذکر کنید؟

قبل از پاسخ به سوال،شرح مختصری از تحلیل رابطه همزمانی متغیرها و ارائه تعریفی از رابطه متقارن و همزمانی لازم و مفید است.

*تحلیل رابطه همزمانی متغیرها:

به منظور پی بردن به رابطه بین تغییرات دو یا چند متغیر که همزمان اندازه گیری شده اند،تحلیل رابطه همزمانی مورد استفاده قرار می گیرد.برای پی بردن به میزان رابطه شاخص های همبستگی بکار برده می شود.این نوع شاخصها با توجه به مقیاس اندازه گیری متغیرها انتخاب می گردد.شاخص های رابطه میان متغیرها را به طور کلی می توان به دو دسته پارامتری و ناپارامتری تقسیم کرد.

محاسبه همبستگی برای تحقیقات پارامتری

چنانچه دو متغیر در مقیاس‏های فاصله‏ای یا نسبی اندازه گیری شده باشند، می‌توان برای تعیین رابطه بین آنها از ضریب همبستگی گشتاوری پیرسون استفاده کرد. در محاسبه ضریب همبستگی پیرسون پیش فرض اینست که دو متغیر دارای توزیع دومتغیری بهنجار باشد. درصورتی که این پیش فرض صادق نباشد از روش های دیگری استفاده می‏کنیم که به شرح ذیل می باشد(سرمد و همکاران،1390 ،ص222).


جدول1- ضریب های همبستگی دومتغیری در تحلیل های پارامتری

ضریب همبستگی نماد متغیر 1 متغیر 2 مقیاس اندازه گیری

ضریب همبستگی گشتاوری پیرسون r پیوسته پیوسته هر دو متغیر فاصله‏ای

ضریب همبستگی دورشته‏ای دو سطحی ساختگی پیوسته یک متغیر اسمی دو سطحی و دیگری فاصله‏ای

ضریب همبستگی دورشته‏ای نقطه‏ای دو سطحی واقعی پیوسته یک متغیر اسمی دو سطحی و دیگری فاصله‏ای

ضریب همبستگی تتراکوریک دو سطحی  ساختگی دو سطحی  ساختگی هر دو متغیر اسمی دو سطحی

حسین چهارباشلو دانشجوی دکتری دانشگاه خوارزمی

اهميت احاطه به آزمون سازي در زمان ساخت يا هنجاريابي به آزمون يا پرسشنامه

امروزه انواع آزمون های روانشناسی و دیگر ابزار سنجش علوم انسانی بصورت گسترده در زمینه های مختلف مورداستفاده قرار می گیرند، از جمله در مدارس، دانشکده ها، صنایع، کلینیک های روانشناسی، سازمان های دولتی و نظامی و غيره. از این رو در تمامي مراكز مهم دنيا روانسنجان و روانشناسان به خدمت گرفته مي شوند، تا ابزاري را براي سنجش اهداف مشخص و از قبل طرح شده، به روش هاي علمي تهيه نمايند.


آزمون ها به عنوان مهمترين ابزار سنجش بطور دقیق برای  سرند کردن متقاضیان مشاغل و پست هاي خدمتي، طبقه بندی و جایگزینی افراد در زمینه های مختلف، مشاوره و راهنمایی( شغلی،آموزشی و تربیتی)، ارتقاء، نگهداری یا اخراج، تشخیص و تجویز درمانهای روانی و داروئی، ارزیابی تغییرات شناختی درون فردی و بین فردی در اثر برنامه  های مداخله ای و اجرای تحقیق در باره رشد فردی در طول زمان و اثر بخشی برنامه مورد استفاده قرار می گیرند. همچنین آزمون ها جهت بررسی بسیاری از حوادث و اتفاقات روانی– اجتماعی به کار می روند(آیکن، 1991). 


اگر چه آزمون ها تصمیمات کاملا درست در باره ا فراد فراهم نمی کنند با این حال آکادمی ملی علوم در یک نشست اختصاصی به این نتیجه رسید که در کل، آزمون ها بهترین، عادلانه ترین و اقتصادی ترین روش بدست آوردن اطلاعات لازم جهت تصمیم گیری های مهم درباره افراد هستند(مورفی و دیوید شوفر، 1991). باتوجه به این که آزمون ها منشا و مقصد چنین تصمیم گیری هایی هستند، لازم است فرآیند سنجش و اندازه گیری با دقت هرچه بیشتر را انجام شوند. بنابراین بسیار مهم است زمانی که قصد استفاده از یک آزمون روانی را داریم خصوصا در اجراي با حجم بالا، تمام فرایند ساخت و هنجاریابی آن را مورد بازبینی قرار دهیم. 

فراخوان اولويت هاي پژوهشي سال 1391 پژوهشکده آمار  

به نظر من بيشتر پژوهشهاي مورد نياز توسط دانشجويان و اساتيد رشته هاي سنجش و اندازه گيري و دانشجويان جمعيت شناسي مي تواند انجام شود

در ادامه ليست اولويت هاي پژوهشي پژوهشكده ي آمار ارائه مي شود. 

باسمه تعالی

فراخوان اولويت هاي پژوهشي سال 1391 پژوهشکده آمار 



روش شناسی

1 روش تهیه تراز غذایی ایران

2 روش‌ پیش‌بینی مقدار تولید محصولات استراتژیک کشاورزی

3 محاسبه شاخص‌های اقتصادی خانوار در مناطق کوچک جغرافیایی با روش‌های برآورد نواحی کوچک

4 بررسی تفاوت‌های بین نظرسنجی با آمارگیری‌های رسمی

5 روش‌های کاهش خطاهای نمونه‌گیری در آمارگیری‌های چرخشی

6 تعدیل فصلی برآوردها در آمارگیری‌های مستمر

7 بررسی و مدل‌بندی خطای اندازه‌گیری در طرح‌های آمارگیری 

8 بررسی کاربرد داده‌کاوی در آمارهای رسمی

9 بررسی روش‌های آمارگیری از جوامع نادر

10 بررسی روش‌های آمارگیری از جوامع پنهان

11 روش برآورد سرمایه‌گذاری به تفکیک بخش‌های عمومی، خصوصی و تعاونی 

12 استفاده از آمارگيري تلفني در طرح‌های آمارگيري 

13 بررسي روش‌هاي برخورد با داده‌هاي دور افتاده در آمارگيري‌ها

14 بررسی سازگاری درونی و بیرونی نتایج آمارگیری‌ها

15 بررسی و تعیین روش جانهی و برآورد اطلاعات کارگاه‌های صنعتی برای جبران بی‌پاسخی

16 استفاده از چارچوب‌های چندگانه در آمارگیری‌ها

17 استفاده از چارچوب‌های ناحیه‌ای در آمارگیری‌ها

18 به‌کارگیری روش‌های نمونه‌گیری جدید در آمارگیری‌های نمونه‌ای با هدف بهبود برآورد

19 به‌کارگیری روش‌های انطباق رکوردها در پیوند دادگان آمارگیری‌ها

20 به‌کارگیری روش‌های هم گروه‌های ساختگی در پیوند دادگان آمارگیری‌ها

21 به‌کارگیری روش‌های چند سطحی در تحلیل نتایج آمارگیری‌ها

22 بررسی روش‌های جانهی واحد در آمارگیری‌ها

23 امکان‌سنجی استفاده از داده‌های فضایی در براوردهای کوچک ناحیه‌ای

24 بهبود دادن کیفیت سیستم گردآوری داده‌ها با استفاده از روش طرح آزمایش‌ها

25 اندازه‌گیری تأثیر عوامل مؤثر بر میزان بی‌پاسخی در آمارگیری‌های خانواری

26 ارائه‌ی براورد و پیش‌بینی جمعیت نیروهای مشمول خدمت نظام وظیفه تا سال ۱۴۰۰

27 جانهی چندگانه‌ی اقلام در آمارگیری‌ها با استفاده از سه رویکرد پارامتری، نیمه‌پارامتری و ناپارامتری

28 بررسی روش‌های ترکیب کردن داده‌های حاصل از آمارگیرهای احتمالی و نااحتمالی

29 کنترل کیفیت کدگذاری در آمارگیری‌ها با استفاده از نمونه‌گیری پذیرشی

30 روش‌های حفظ محرمانگی در انتشار داده‌ها

31 همسان‌سازی و یکپارچه کردن آدرس جغرافیایی در چارچوب‌های آماری سرشماری‌ها

32 بررسی ایجاد حوزه‌های سرشماری یکتا برای استفاده در تمامی طرح‌های آماری و سرشماری

33 تهیه نقشه کاربری اراضی برای آمارهای کشاورزی با استفاده از تصاویر ماهواره‌ای

34 بازسازی shapefile سرشماری‌های گذشته با مبنا قرار دادن نقشه‌های سال 1390

35 طرح تهیه کد شناسایی ملی آبادی‌های کشور در جهت بهبود آمارهای ثبتی

36 تطبیق جمعیت شهرهای کشور در سرشماری های 1335 تا 1390 براساس محدوده های جغرافیایی سرشماری 1390   

37 همانند سازی نتایج سرشماری 1385 و 1390 براساس تغییرات تقسیمات جغرافیایی

38 تولید آمار های مورد نیاز در زمینه مهاجرت داخلی براساس اطلاعات ثبت تغییر نشانی و کد پستی در پایگاه اطلاعات جمعیت کشور

39 توسعه آمار و اطلاعات ثبتی جمعیتی به صورت مکان محور (داده های مکانی جمعیتی)

40 بررسی روش های قابل استفاده برای سرشماری  1395

41 توسعه روش‌های ادیت و جانهی اتوماتیک برای داده‌های پیوسته در سرشماری‌ها

42 بررسی روش‌های کدگذاری اطلاعات باز


طراحی آمارگیری‌های جدید

1 طراحی آمارگیری ناتوانی در ایران

2 براورد شغل‌های ایجاد شده در کشور

3 طراحی آمارگیری مصرف دخانیات

4 طراحی آمارگیری طولی از ویژگی‌های اجتماعی- اقتصادی خانوار 

5 مطالعات تطبیقی برای اجرای سرشماری کشاورزی


محاسبه و تحلیل آمارها و شاخص‌ها

1 تهیه حساب‌های کار

2 برآورد اشتغال غیر رسمی در بازار کار ایران

3 بررسی وضعیت اشتغال در بین کودکان و نوجوانان

4 آینده‌نگری وضعیت بازار کار ایران با توجه به تحولات جمعیتی

5 تعیین و محاسبه شاخص‌های امنیت شغلی

6 بررسی شاخص‌های بازار کار در ایران طی سال‌های مختلف

7 بررسی تأثیر سرمایه‌ی انسانی (سن، تحصیلات و …) بر درآمد خانوار

8 بررسی رابطه بین تعداد افراد خانوار و درآمد خانوار

9 طراحی و ساخت جدول سالانه عمر در ایران 

10 گروه‌بندی خانوارها از نظر سطح زندگی بر اساس داده‌های طرح آمارگیری از هزینه و درآمد خانوار

11 بررسی رابطه بین سرمایه‌گذاری و ایجاد اشتغال

12 بررسی سازگاری شاخص‌های حاصل از آمارگیری نیروی کار با اطلاعات ثبتی

13 بررسی تأثیر افراد چند شغله در بازار کار کشور

14 بررسی روند نرخ مشارکت اقتصادی در کشور و متغیرهای مؤثر بر آن

15 بررسی رابطه مهاجرت با درآمد خانوار

16 برآورد تعداد خانوارهای کشور تا سال 1404

17 تعیین و محاسبه شاخص‌های نوآوری 

18 بررسی نسبت داده به ستانده در تعدیل نتایج طرح آمارگیری از کارگاه‌های صنعتی

19 پیش‌بینی تعداد واحدهای مسکونی مورد نیاز تا سال 1404

20 پیش‌بینی قیمت مسکن تا سال 1404

21 تعیین عوامل مؤثر بر تورم در سه دهه گذشته اقتصاد ایران

22 برآورد مهاجرین بین استانی در سال‌های بین دو سرشماری 1385 تا 1390

23 تقسيم‌بندي كشور به مناطق همگن كشاورزي

24 بررسی توزیع مشاغل در کشور

25 برآورد پس‌انداز و درآمد خانوار

26 بررسی روند سن ازدواج در ایران و عوامل موثر بر آن

27 بررسی رابطه شغل و درامد در کشور

28 تعیین شاخص‌های مناسب برای طبقه‌بندی کشور به مناطق همگن اجتماعی و اقتصادی 

29 بررسی جریان بازار کار دانش آموختگان مراکز آموزش عالی

30 شاخص‌های مسکن امن

31 بررسی وضعیت سواد و تحصیلات

32 بررسی وضعیت سالمندان

33 بررسی وضعیت اقتصادی و اجتماعی جوانان

34 تحلیل نتایج سرشماری عمومی نفوس و مسکن 1390 

35 شناسایی عوامل موثر بر ترک تحصیل در ایران

36 بررسی عوامل موثر بر افزایش شکاف ثروت با استفاده از روش تحلیل مولفه‌های اصلی

37 شناسایی مشخصه‌های مشترک برای تلفیق طرح نیروی کار و هزینه و درآمد خانوار

38 بررسی الگوی مصرف خانوارها پس از هدفمندسازی یارانه‌ها

39 براورد جمعیت شهرستان‌های کشور براساس تطبیق محدوده‌های جغرافیایی 1391

40 براورد مهاجرین در سال‌های بین سرشماری

41 بررسی رابطه‌ی تورم و نرخ بیکاری

42 بررسی روند و ترکیب صادرات و واردات کشور طی سال‌های متوالی

43 امکان‌سنجی پیش‌بینی رشد اقتصادی مبتنی بر مدل‌های آماری

44 بررسی هزینه‌های زندگی در کلان شهرها

45 بررسی اشتغال در ایران بر اساس تعداد ساعت کار


ارزیابی

1 ارزیابی داده‌های باروری در سرشماری‌های عمومی نفوس و مسکن با استفاده از روش‌های جمعیت شناسی

طراحی نرم‌افزارها و بانک‌های اطلاعاتی

1 طراحی نرم‌افزار بومی پیش‌بینی جمعیت

2 طراحی نرم‌افزار انطباق رکوردها در آمارگیری‌ها

3 روش‌های بررسی قابلیت اعتماد نرم‌افزارها در فرایند پردازش داده‌ها

4 امکان سنجی استفاده از نرم افزارCSPro در طرح‌های آمارگیری

5 توسعه نرم‌افزار پارس

6 تهیه نرم‌افزار شناسنامه آبادی‌های کشور

7 انطباق فایل سرشماری1390 با فایل ثبت‌ احوال

8 انطباق فایل سرشماری عشایری 1387 با فایل ثبت‌ احوال

9 تجزیه و تحلیل آمارهای ثبتی (وقایع چهارگانه حیاتی)



آمار


آمار علم و عمل توسعه دانش انسانی از طریق استفاده از داده‌های تجربی است. آمار بر نظریه‌ی آمار مبتنی است که شاخه‌ای از ریاضیات کاربردی است. در نظریه‌ی آمار، اتفاقات تصادفی و عدم قطعیت توسط نظریه احتمال مدل می‌شوند. عمل آماری، شامل برنامه‌ریزی، جمع‌بندی، و تفسیر مشاهدات غیر قطعی است. از آنجا که هدف آمار این است که از داده‌های موجود «بهترین» اطلاعات را تولید کند، بعضی مؤلفین آمار را شاخه‌ای از نظریه‌ی تصمیم‌گیری به شمار می‌آورند.

 

تاریخچه

سرآغاز اولیه آمار را باید در شمارش های آماری حوالی آغاز قرن اول میلادی یافت. اما ،تنها در قرن هجدهم بود که این علم ، با به کار رفتن در توصیف جنبه هایی که شرایط یک وضعیت را مشخص میکردند ، به عنوان رشته ای علمی و مستقل شروع به مطرح شدن کرد.

مفهوم از کلمه لاتینی ،به معنی شرط ، استخراج شده است. مدت های مدید ، این علم ، محدود به کار در این حوزه بود ، و تنها در دهه های اخیر از این انحصاری جدا شدو ، و به کمک نظریه احتمال ،شروع به بررسی روش های تحلیل داده های آماری و اثبات فرض های آماری کرد.

روش های این آمار ریاضی با آشکار کردن قوانین جدید ، به ابزاری موثر در علوم طبیعی و تکنولوژی تبدیل شد.

 

جامعه و نمونه

جامعه یک بررسی آماری دارای مشاهده ها یا آزمایش هایی تحت شرایطی یکسان ، به عنوان عنصرهای خود است. هر یک از این عنصرها را میتوان نسبت به مشخصه های متفاوتی بررسی کرد ، که می توانند به عنوان متغیرهای تصادفی XوY .... در نظر گرفته شوند.

اگر مشخصه تحت بررسی X ، دارای تابع توزیع F در جامعه مربوط باشد ، آنگاه گفته می شود که جامعه مورد بحث دارای توزیع F نسبت به مشخصه X است. در بررسی های آماری همواره زیر مجموعه ای متناهی از عناصر جامعه مورد تحقیق قرار می گیرد.این زیر مجموعه به نمونه موسوم است ، و n، تعداد عناصر موجود در آن ، اندازه نمونه نامیده می شود.

 

مثال

اگر وزن پسر بچه های ده ساله متغیر تصادفی x باشد ، در این صورت تمام پسر بچه های به این سن یک جامعه تشکیل می دهند . اندازه های وزن پسربچه های در شماری از مکان ها یک نمونه می سازند ، و هر پسر بچه عنصری از جامعه مزبور است . وزن مورد بحث مشخصه ای از عنصر های مزبور به شمار می رود ، و سایر مشخصه ها ، به عنوان مثال ، بلندی قد و اندازه سینه اند.

 

طرح آزمایش

در بررسی یک مسئله با روش های آماری ، باید نقشه آزمایش کشیده شود که شامل روش جمع آوری داده ها،اندازه نمونه مورد نظر و روش حل آن مسئله است. در این مورد هر چه نقشه آزمایش دقیق تر باشد ، نتایج به دست آمده از روش های آماری بهتر خواهند بود . بخصوص ، باید اطمینان حاصل شود که هیچ یک از اندازه گیری هایی که برای نتایج مورد نظر دارای اهمیت اند از قلم نیفتند یا ناقص نباشند . اما در این مورد همچنین می توان ، تنها به همان اندازه که می شود با بخش ناچیزی از هزینه ها به دست آورد قناعت و از دستاوردی با یک رشته آزمون بسیار پرخرج اجتناب کرد.

در این رابطه ، نکات زیر از اهمیت برخوردارند:

مواد یا اطلاعات بررسی شده باید همگن باشند ؛ یعنی ،روش آزمون ،در دوره بررسی ، باید یکسان باقی بماند. در وسایل یا شرایط تولید نباید تغییری داده شود ، و ابزارهای اندازه گیری با دقت های متفاوت نباید به کار روند.

بایدتا آنجا که امکان دارد خطاهای منظم یا عوامل موثر کنار گذاشته شوند . به عنوان مثال ، اگر مایل باشیم دو ماده را با هم مقایسه کنیم ، باید هر دو را در یک دستگاه تهیه کرده باشیم ، چه در غیر این صورت تفاوت دستگاه ها در نتایج بررسی وارد می شود ، و در کشاورزی ، در آزمون کودهای متفاوت ، باید زمین را ،به خاطر یکسان کردن تاثیر نوع خاک و موقعیت آن ، به باریکه های موازی تقسیم کرد.

باید نظارتی در نظر گرفته شود. در این مورد، یا برای مشخصه تحت بررسی مقادیر استانداردی موجودند ،که می توانند با نتایج آزمون مقایسه شوند ، یا آزمونهای نظارتی باید انجام گیرند . به عنوان مثال ، در آزمایش مربوط به کودها ، باید تاثیر یک کود از تفاوت بین گیاهانی که که با آن یا بدون آن ،تحت شرایط محیطی یکسان ،رشد کرده اند ، ارزیابی شود.

انتخاب نمونه باید تصادفی یا نماینده ای باشد . انتخاب تصادفی انتخابی است که در آن هر عنصر برای اینکه عضو آن نمونه باشد یا نباشد ، از احتمال یکسان برخوردار است. به عنوان مثال ، در یک محموله پیچ ، نمونه مورد آزمون نباید تماماَ از یک مکان انتخاب شود ،بلکه باید روی کل محموله توزیع شده باشد ، و در اندازه گیری ضخامت سیم ها نقاط اندازه گیری شده باید به طور تصادفی روی تمام طول سیم توزیع شده باشد.

انتخاب تصادفی عناصر را می توان به کمک جداول اعداد تصادفی انجام داد ، و انتخاب نماینده ای نمونه را می توان زمانی انجام داد که ماده تحت بررسی را بتوان به گونه ای یکتا به اجزایی تقسیم کرد . به عنوان مثال ، امکان پذیر است که یک محموله پیچ را به چنان طریقی تقسیم کنیم که هر جزء مزبور ، به تصادف انتخاب کرد ، ودر این صورت کل آنها نمونه مورد نظر را تشکیل می دهند. به این طریق تصویری از محموله ، بر مبنای مقیاسی کاهش یافته به دست می آید.

با توجه به اندازه نمونه مورد آزمون ، البته باید به بررسی مورد بزرگ تر و استنتاج بهتر ، درباره جامعه ای که از آن می توان ساخت ، پرداخت ،اما از طرف دیگر ، اندازه مزبور ، به دلایل زمانی و تلاش به کار رفته ، معمولاَ کوچک در نظر گرفته می شود، بنابر این باید انحرافی تصادفی از نتایج را نیز به حساب بیاوریم. هنگامی که ، با روش های آماری ، استنتاجاتی درباره جامعه ای به دست می آوریم باید اندازه نمونه مورد آزمون را نیز در نظر بگیریم.

از این گفته ها میتوان به اهمیت تحصیل در رشته آمار و نیاز جامعه به فارغ التحصیلان این رشته پی برد.  

منبع http://sciency.blogfa.com/post-48.aspx

اما در آرشيو اين وبلاگ تفاوت بين آمار و روانسنجي مطرح شده است

با دانش پيرامون اين تفاوت رشته ي سنجش و اندازه گيري جايگاه واقعي خود را مي يابد.

آلفاي كرونباخ چيست؟

ﺭﻭﺵ ﺁﻟﻔﺎﻱ ﻛﺮﻭﻧﺒﺎﺥ ﺑﺮﺍﻱ ﺗﻌﻴﻴﻦ ﭘﺎﻳﺎﻳﻲ ﭘﺮﺳﺸﻨﺎﻣﻪ

ﺩﺭ ﻋﻠﻭﻡ ﺍﻧﺳﺎﻧﯽ ﻭ ﺭﻓﺗﺎﺭی ﺑﻳﺷﺗﺭ ﺗﺣﻘﻳﻘﺎﺕ ﺑﺭ ﺍﺳﺎﺱ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺻﻭﺭﺕ ﻣﯽ ﮔﻳﺭﺩ. ﻣﻭﺿﻭﻉ ﮐﻧﺗﺭﻝ ﮐﻳﻔﻳﺕ ﻧﺗﺎﻳﺞ ﻳﮏ ﭘﺭﺳﺷﻧﺎﻣﻪ 

ﺩﺍﻣﻧﻪ ﻭﺳﻳﻌﯽ ﺍﺯ ﻣﻭﺿﻭﻋﺎﺕ ﻣﺧﺗﻠﻑ ﺭﺍ ﺩﺭ ﺑﺭ ﻣﯽ ﮔﻳﺭﺩ. ﺍﮔﺭ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺭﺍ ﻣﺎﻧﻧﺩ ﻳﮏ ﺁﺯﻣﻭﻥ ﻓﺭﺽ ﮐﻧﻳﻡ، ﺑﻪ ﻁﻭﺭ ﮐﻠﯽ ﻣﯽ ﺗﻭﺍﻥ 

ﮔﻔﺕ ﻳﮏ ﺁﺯﻣﻭﻥ ﺧﻭﺏ ﺑﺎﻳﺩ ﺍﺯ ﻭﻳژﮔﯽ ﻫﺎی ﻣﻁﻠﻭﺑﯽ ﻣﺎﻧﻧﺩ ﻋﻳﻧﻳﺕ، ﺳﻬﻭﻟﺕ ﺍﺟﺭﺍ، ﻋﻣﻠﯽ ﺑﻭﺩﻥ، ﺳﻬﻭﻟﺕ ﺗﻌﺑﻳﺭ ﻭ ﺗﻔﺳﻳﺭ، ﺭﻭﺍﻳﯽ ﻭ 

ﭘﺎﻳﺎﻳﯽ ﺑﺭﺧﻭﺭﺩﺍﺭ ﺑﺎﺷﺩ ﺗﺎ ﺑﻪ ﻧﺗﺎﻳﺞ ﺩﺭﺳﺗﯽ ﻣﻧﺟﺭ ﺷﻭﺩ. ﺩﺭ ﺑﻳﻥ ﺍﻳﻥ ﻭﻳژﮔﯽ ﻫﺎ ﺭﻭﺍﺋﯽ ﻭ ﭘﺎﻳﺎﺋﯽ ﺍﺯ ﺍﻫﻣﻳﺕ ﺑﻳﺷﺗﺭی ﺑﺭﺧﻭﺭﺩﺍﺭﻧﺩ. ﺩﺭ 

ﺯﻳﺭ ﺭﻭﺵ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺭﺍ ﮐﻪ ﺷﺎﻳﻊ ﺗﺭ ﺍﺯ ﺭﻭﺷﻬﺎی ﺩﻳﮕﺭ ﺍﺳﺕ، ﻣﻭﺭﺩ ﺑﺭﺭﺳﯽ ﻗﺭﺍﺭ ﺩﺍﺩﻩ ﺍﻳﻡ. 

ﺭﻭﺵ ﺍﺳﺗﻔﺎﺩﻩ ﺍﺯ ﺿﺭﻳﺏ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺭﺍ ﺑﺭﺍی ﺗﻌﻳﻳﻥ ﭘﺎﻳﺎﻳﯽ ﻳﮏ ﭘﺭﺳﺷﻧﺎﻣﻪ ﻳﺎ ﺁﺯﻣﻭﻥ ﺑﺎ ﺗﺎﮐﻳﺩ ﺑﺭ ﻫﻣﺑﺳﺗﮕﯽ ﺩﺭﻭﻧﯽ ﻣﯽ ﺗﻭﺍﻥ 

ﺍﺳﺗﻔﺎﺩﻩ ﮐﺭﺩ. ﺩﺭ ﺍﻳﻥ ﺭﻭﺵ ﺍﺟﺯﺍ ﻳﺎ ﻗﺳﻣﺕ ﻫﺎی ﭘﺭﺳﺷﻧﺎﻣﻪ ﺑﺭﺍی ﺳﻧﺟﺵ ﺿﺭﻳﺏ ﭘﺎﻳﺎﻳﯽ ﺁﺯﻣﻭﻥ ﺑﻪ ﮐﺎﺭ ﻣﯽ ﺭﻭﻧﺩ. ﺍﮔﺭ ﺳﻭﺍﻻﺕ ﺑﻪ 

ﺻﻭﺭﺕ ﺩﻭ ﺣﺎﻟﺗﯽ (ﺩﺭﺳﺕ =1 ﻭ ﻏﻠﻁ = ﺻﻔﺭ) ﺩﺭ ﻧﻅﺭ ﮔﺭﻓﺗﻪ ﺷﻭﻧﺩ، ﺿﺭﻳﺏ ﺁﻟﻔﺎ ﺍﺯ ﺭﺍﺑﻁﻪ ﺯﻳﺭ ﻗﺎﺑﻝ ﻣﺣﺎﺳﺑﻪ ﺧﻭﺍﻫﺩ ﺑﻭﺩ. 

α =

𝑘𝑘

𝑘𝑘−1

(1 −

∑ 𝑝𝑝𝑝𝑝

𝑠𝑠

2

)

 ﮐﻪ ﺩﺭ ﺁﻥ k ﺗﻌﺩﺍﺩ ﺳﻭﺍﻻﺕ ، p ﺗﻌﺩﺍﺩ ﭘﺎﺳﺦ ﻫﺎی ﺩﺭﺳﺕ، q ﺗﻌﺩﺍﺩ ﭘﺎﺳﺦ ﻫﺎی ﻏﻠﻁ ﻭ �𝑠�

2

 ﻭﺍﺭﻳﺎﻧﺱ ﮐﻝ ﺳﻭﺍﻻﺕ ﺍﺳﺕ ﻭ ﺍﮔﺭ ﺳﻭﺍﻻﺕ 

ﺑﻪ ﺻﻭﺭﺕ ﺍﺭﺯﺷﯽ ﺑﺎﺷﻧﺩ (ﻫﺭ ﺳﻭﺍﻝ ﺍﺭﺯﺵ ﻣﺭﺑﻭﻁ ﺧﻭﺩ ﺭﺍ ﺩﺍﺷﺗﻪ ﺑﺎﺷﺩ) ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺍﺯ ﺭﺍﺑﻁﻪ ﺯﻳﺭ ﻣﻳﺯﺍﻥ ﭘﺎﻳﺎﻳﯽ ﺁﺯﻣﻭﻥ ﺭﺍ 

ﻣﺣﺎﺳﺑﻪ ﻣﯽ ﮐﻧﺩ.

α =

𝑘𝑘

𝑘𝑘−1

�1 −

∑ 𝑠𝑠

𝑖𝑖

𝑘𝑘 2

𝑖𝑖=1

𝑠𝑠

2

� (1)

ﮐﻪ ﺩﺭ ﺁﻥ k ﺗﻌﺩﺍﺩ ﺳﻭﺍﻻﺕ، �𝑠�

𝑖𝑖

2

 ﻭﺍﺭﻳﺎﻧﺱ ﻫﺭ ﺳﻭﺍﻝ ﻭ �𝑠�

2

  ﻭﺍﺭﻳﺎﻧﺱ ﮐﻝ ﺳﻭﺍﻻﺕ ﺍﺳﺕ.

ﭘﺎﻳﺎﻳﯽ ﭘﺭﺳﺷﻧﺎﻣﻪ: ﺍﺯ ﺁﻧﺟﺎ ﮐﻪ ﻳﮏ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺑﺎ ﺗﻌﺩﺍﺩی ﺳﻭﺍﻝ (ﻣﺎﻧﻧﺩ ﻁﻳﻑ 5 ﮔﺯﻳﻧﻪ ﺍی ﻟﻳﮑﺭﺕ) ﻣﺎﻧﻧﺩ ﻳﮏ ﺁﺯﻣﻭﻥ ﺍﺳﺕ، ﻣﯽ ﺗﻭﺍﻥ ﺍﺯ 

ﺭﺍﺑﻁﻪ (1) ﻣﻘﺩﺍﺭ ﭘﺎﻳﺎﻳﯽ ﺭﺍ ﺑﻪ ﮐﻣﮏ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺑﻪ ﺩﺳﺕ ﺁﻭﺭﺩ. 

ﺍﻣﺎ ﺍﮔﺭ ﺑﻪ ﺟﺎی ﺳﻭﺍﻻﺕ ﻳﺎ ﻣﺎﺩﻩ ﻫﺎ، ﺁﺯﻣﻭﻥ ﺍﺯ ﺑﺧﺵ ﻫﺎ ﻳﺎ ﻗﺳﻣﺕ ﻫﺎﻳﯽﺗﺷﮑﻳﻝ ﺷﺩﻩ ﺑﺎﺷﺩ ﻣﺛﻝ ﺯﻣﺎﻧﯽ ﮐﻪ ﻳﮏ ﺁﺯﻣﻭﻥ ﺍﺯ ﺗﻌﺩﺍﺩی ﺧﺭﺩﻩ 

ﺁﺯﻣﻭﻥ ﺗﺷﮑﻳﻝ ﺷﺩﻩ ﺍﺳﺕ ﻭ ﺑﺧﻭﺍﻫﻳﻡ ﺍﺯ ﺁﻥ ﻫﺎ ﺩﺭ ﻣﺣﺎﺳﺑﻪ ﺿﺭﻳﺏ ﭘﺎﻳﺎﻳﯽ ﮐﻝ ﺁﺯﻣﻭﻥ ﺍﺳﺗﻔﺎﺩﻩ ﮐﻧﻳﻡ، ﺑﺎﺯ ﻫﻡ ﻣﯽ ﺗﻭﺍﻥ ﺍﺯ ﺭﻭﺵ ﺁﻟﻔﺎی 

ﮐﺭﻭﻧﺑﺎﺥ ﻣﻁﺎﺑﻕ ﺑﺎ ﺭﺍﺑﻁﻪ (1) ﺍﺳﺗﻔﺎﺩﻩ ﮐﺭﺩ.

 ﺭﻭﺵ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﻧﻪ ﺗﻧﻬﺎ ﺑﺭﺍی ﮔﺯﻳﻧﻪ ﻫﺎی ﺩﻭ ﺍﺭﺯﺷﯽ ﺻﻔﺭ ﻭ ﻳﮏ، ﺑﻠﮑﻪ ﺑﺭﺍی ﮔﺯﻳﻧﻪ ﻫﺎی ﭼﻧﺩ ﺍﺭﺯﺷﯽ (ﻣﺎﻧﻧﺩ ﻣﺎﻧﻧﺩ ﻁﻳﻑ 5

ﮔﺯﻳﻧﻪ ﺍی ﻟﻳﮑﺭﺕ) ﻧﻳﺯ ﻗﺎﺑﻝ ﺍﺳﺗﻔﺎﺩﻩ ﺍﺳﺕ. ﺍﮔﺭ ﺑﺧﺵ ﻫﺎی ﺁﺯﻣﻭﻥ ﻳﺎ ﺧﺭﺩﻩ ﺁﺯﻣﻭﻥ ﻫﺎﻳﯽ ﮐﻪ ﺍﺯ ﻣﺟﻣﻭﻉ ﺁﻧﻬﺎ ﺁﺯﻣﻭﻥ ﮐﻠﯽ ﺗﺷﮑﻳﻝ ﺷﺩﻩ  

ﺍﺳﺕ ﺑﻪ ﻁﻭﺭ ﺟﺩﺍﮔﺎﻧﻪ ﻧﻣﺭﻩ ﮔﺫﺍﺭی ﺷﻭﻧﺩ، ﺩﺭ ﺁﻥ ﺻﻭﺭﺕ ﺿﺭﻳﺏ ﺁﻟﻔﺎ ﻣﺳﺗﻠﺯﻡ ﺍﻳﻥ ﻧﻳﺳﺕ ﮐﻪ ﺗﮏ ﺗﮏ ﺳﻭﺍﻻﺕ ﺑﻪ ﺻﻭﺭﺕ ﺻﺣﻳﺢ ﻭ 

ﻏﻠﻁ ﺑﺎﺷﻧﺩ.

ﺑﺭﺍی ﺗﻭﺿﻳﺢ ﺑﻳﺷﺗﺭ ﺩﺭ ﻣﻭﺭﺩ ﭼﮕﻭﻧﮕﯽ ﺍﺳﺗﻔﺎﺩﻩ ﺍﺯ ﺿﺭﻳﺏ ﺁﻟﻔﺎ، ﻓﺭﺽ ﮐﻧﻳﺩ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺍی ﺟﻬﺕ ﺁﺯﻣﻭﻥ ﺳﻪ ﻓﺭﺿﻳﻪ ﻁﺭﺍﺣﯽ ﺷﺩﻩ 

ﺍﺳﺕ ﮐﻪ ﺳﻭﺍﻻﺕ ﻣﺭﺑﻭﻁ ﺑﻪ ﻫﺭ ﻓﺭﺿﻳﻪ ﻳﮏ ﺧﺭﺩﻩ ﺁﺯﻣﻭﻥ ﻣﺣﺳﻭﺏ ﻣﯽ ﺷﻭﺩ. 

ﻓﺭﺽ ﮐﻧﻳﺩ ﻭﺍﺭﻳﺎﻧﺱ 3 ﺧﺭﺩﻩ ﺁﺯﻣﻭﻥ ﺑﺭﺍﺑﺭ ﺑﺎ:

    ﻭ ﻭﺍﺭﻳﺎﻧﺱ ﮐﻝ ﺁﺯﻣﻭﻥ ﺑﺭﺍﺑﺭ ﺍﺳﺕ ﺑﺎ �𝑠�

2

ﺑﺎﺷﺩ

ﺑﺎ ﺗﻭﺟﻪ ﺑﻪ ﺍﻳﻥ ﮐﻪ k=3 ﺍﺳﺕ، ﺿﺭﻳﺏ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺑﻪ ﺻﻭﺭﺕ ﺯﻳﺭ ﻣﺣﺎﺳﺑﻪ ﻣﯽ ﺷﻭﺩ:

ﮔﻔﺗﻪ ﻣﯽ ﺷﻭﺩ ﺍﮔﺭ ﺿﺭﻳﺏ ﺁﻟﻔﺎ ﺑﻳﺷﺗﺭ ﺍﺯ 0.7 ﺑﺎﺷﺩ، ﺁﺯﻣﻭﻥ ﺍﺯ ﭘﺎﻳﺎﻳﯽ ﻗﺎﺑﻝ ﻗﺑﻭﻟﯽ ﺑﺭﺧﻭﺭﺩﺍﺭ ﺍﺳﺕ. ﻣﺛﻼ ﺁﺯﻣﻭﻥ ﻓﻭﻕ ﭘﺎﻳﺎﻳﯽ ﻗﺎﺑﻝ 

ﻗﺑﻭﻟﯽ ﺩﺍﺭﺩ. 

ﺗﻣﺭﻳﻥ ﺯﻳﺭ ﻳﮏ ﺗﻣﺭﻳﻥ ﻋﻣﻠﯽ ﺍﺯ ﻧﺣﻭﻩ ﺑﻪ ﺩﺳﺕ ﺁﻭﺭﺩﻥ ﻣﻳﺯﺍﻥ ﭘﺎﻳﺎﻳﯽ ﻳﮏ ﭘﺭﺳﺷﻧﺎﻣﻪ (ﺑﺎ 10 ﺳﻭﺍﻝ 5 ﮔﺯﻳﻧﻪ ﺍی ﻟﻳﮑﺭﺕ) ﺑﺭ ﺍﺳﺎﺱ 

ﺷﺎﺧﺹ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺩﺭ spss ﺍﺳﺕ. 

ﺗﻣﺭﻳﻥ ﻋﻣﻠﯽ ﺍﺯ ﺗﺣﻠﻳﻝ ﭘﺎﻳﺎﻳﯽ ﻭ ﺗﺷﺧﻳﺹ ﺳﻭﺍﻻﺕ ﺯﺍﺋﺩ ﭘﺭﺳﺷﻧﺎﻣﻪ

ﺍﮔﺭ ﺳﻭﺍﻻﺕ ﻳﮏ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺭﺍ ﺩﺭ ﺍﺧﺗﻳﺎﺭ ﺩﺍﺭﻳﺩ، ﺩﺭ ﻧﺭﻡ ﺍﻓﺯﺍﺭ spss ﺑﻪ ﭘﻧﺟﺭﻩ  Data Editor ﺑﺭﻭﻳﺩ. ﻫﺭ ﺳﻭﺍﻝ ﺭﺍ ﺑﻪ ﻋﻧﻭﺍﻥ 

ﻳﮏ ﻣﺗﻐﻳﺭ ﺗﻌﺭﻳﻑ ﮐﻧﻳﺩ ﻭ ﻣﻘﺎﺩﻳﺭ ﺁﻥ ﺭﺍ ﺩﺭ ﺍﻳﻥ ﭘﻧﺟﺭﻩ ﻭﺍﺭﺩ ﻧﻣﺎﻳﻳﺩ. (ﺑﻪ ﺷﮑﻝ ﺯﻳﺭ ﺗﻭﺟﻪ ﮐﻧﻳﺩ) ﺳﭘﺱ ﻣﺭﺍﺣﻝ ﺯﻳﺭ ﺭﺍ ﺩﻧﺑﺎﻝ ﮐﻧﻳﺩ:  

• ﺍﺯ ﻣﻧﻭی ﺁﻧﺎﻟﻳﺯ (Analyze) ﺑﻪ ﻣﻧﻭی Scale ﺑﺭﻭﻳﺩ . ﺳﭘﺱ ﺯﻳﺭ ﻣﻧﻭی Reliability Analysis ﺭﺍ ﺍﻧﺗﺧﺎﺏ ﮐﻧﻳﺩ ﺗﺎ 

ﮐﺎﺩﺭ ﻣﺣﺎﻭﺭﻩ ﺗﺣﻠﻳﻝ ﭘﺎﻳﺎﻳﯽ ﺑﺎﺯ ﺷﻭﺩ.2 ﻣﻳﺭﺯﺍﺩﻩ ﻣﺣﻣﺩﺭﺿﺎ ﺗﻭﺳﻁ ﺷﺩﻩ ﺗﻬﻳﻪ  | www.M-Mirzadeh.Blogfa.com

ﮐﺎﺩﺭ ﻣﺣﺎﻭﺭﻩ ﺗﺣﻠﻳﻝ ﭘﺎﻳﺎﻳﯽ ﻣﺎﻧﻧﺩ ﺷﮑﻝ ﺯﻳﺭ ﺍﺳﺕ

• ﻫﺭ ﻳﮏ ﺍﺯ ﻣﺗﻐﻳﺭﻫﺎی ﻣﻁﺎﻟﻌﻪ  ﺭﺍ ﺑﻪ ﭼﻬﺎﺭﮔﻭﺵ :Items ﻣﻧﺗﻘﻝ ﮐﻧﻳﺩ. (ﭼﻭﻥ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺍی ﮐﻪ ﻣﻥ ﺑﺭﺍی ﺍﻳﻥ ﺗﻣﺭﻳﻥ ﺩﺭ 

ﺍﺧﺗﻳﺎﺭ ﺩﺍﺭﻡ  ﺷﺎﻣﻝ ﺩﻩ ﺳﻭﺍﻝ ﺍﺳﺕ، ﻣﻥ ﺑﺎﻳﺩ 10 ﻣﺗﻐﻳﺭ ﺩﺍﺷﺗﻪ ﺑﺎﺵﻡ ﻭ ﺁﻧﻬﺎ ﺭﺍ ﺑﻪ ﺳﻣﺕ ﺭﺍﺳﺕ ﻣﻧﺗﻘﻝ ﮐﻧﻡ.)

• ﺑﺭﺭﺳﯽ ﮐﻧﻳﺩ ﺩﺭ ﺑﺧﺵ :model (ﭘﺎﻳﻳﻥ ﮐﺎﺩﺭ ﻣﺣﺎﻭﺭﻩ) ﮔﺯﻳﻧﻪ Alpha ﺍﻧﺗﺧﺎﺏ ﺷﺩﻩ ﺑﺎﺷﺩ.

• OK ﺭﺍ ﮐﻠﻳﮏ ﮐﻧﻳﺩ ﻭ ﺩﺭ ﺧﺭﻭﺟﯽ ﻧﺗﺎﻳﺞ ﺭﺍ ﻣﺷﺎﻫﺩﻩ ﮐﻧﻳﺩ. 

ﺍﮔﺭ ﺿﺭﻳﺏ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ 0/7 ﻳﺎ ﺑﻳﺷﺗﺭ ﺍﺳﺕ، ﭘﺭﺳﺷﻧﺎﻣﻪ ﺍﺯ ﭘﺎﻳﺎﻳﯽ ﻣﻁﻠﻭﺑﯽ ﺑﺭﺧﻭﺭﺩﺍﺭ ﺍﺳﺕ ﻭ ﻣﯽ ﺗﻭﺍﻧﻳﺩ ﺍﺯ ﺑﺎﺑﺕ ﻫﻣﺑﺳﺗﮕﯽ 

ﺩﺭﻭﻧﯽ ﺳﻭﺍﻻﺕ ﻣﻁﻣﺋﻥ ﺑﺎﺷﻳﺩ. ﻭﻟﯽ ﺍﮔﺭ ﻣﻘﺩﺍﺭ ﺁﻟﻔﺎ ﮐﻣﺗﺭ ﺍﺯ 0/7 ﺍﺳﺕ (ﻣﺎﻧﻧﺩ ﻧﺗﺎﻳﺟﯽ ﮐﻪ ﻣﻥ ﺍﺯ ﻧﻣﻭﻧﻪ 10 ﺳﻭﺍﻟﯽ ﮔﺭﻓﺗﻡ) ﺑﻬﺗﺭ 

ﺍﺳﺕ ﺳﻭﺍﻻﺗﯽ ﺭﺍ ﮐﻪ ﺑﺎ ﺳﺎﻳﺭ ﺳﻭﺍﻻﺕ ﻫﻣﺑﺳﺗﮕﯽ ﮐﻣﺗﺭی ﺩﺍﺭﻧﺩ ﺷﻧﺎﺳﺎﻳﯽ ﻭ ﺍﺯ ﻣﺟﻣﻭﻋﻪ ﺳﻭﺍﻻﺕ ﺣﺫﻑ ﮐﻧﻳﺩ ﺗﺎ ﻣﻘﺩﺍﺭ ﺁﻟﻔﺎ ﺍﻓﺯﺍﻳﺵ 

ﭘﻳﺩﺍ ﮐﻧﺩ. ﻫﺭﭼﻧﺩ ﺍﮔﺭ ﺿﺭﻳﺏ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺑﻳﻥ (0/5 ﺗﺎ 0/7) ﺑﺎﺷﺩ ﺍﻋﺗﺑﺎﺭ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺩﺭ ﺣﺩ ﻣﺗﻭﺳﻁ ﺍﺭﺯﻳﺎﺑﯽ ﻣﯽ ﺷﻭﺩ. ﺑﺭﺍی 

ﺷﻧﺎﺳﺎﻳﯽ ﻭ ﺣﺫﻑ ﺳﻭﺍﻻﺕ ﻧﺎﻫﻣﺑﺳﺗﻪ، ﻣﺭﺍﺣﻝ ﺯﻳﺭ ﺭﺍ ﺩﻧﺑﺎﻝ ﮐﻧﻳﺩ:

• ﻣﺟﺩﺩﺍ ﺑﻪ ﮐﺎﺩﺭ ﻣﺣﺎﻭﺭﻩ ﭘﺎﻳﺎﻳﯽ ﺑﺭﻭﻳﺩ ﻭ ﺍﺯ ﮔﺯﻳﻧﻪ Statistics ﺑﻪ ﮐﺎﺩﺭ ﻣﺣﺎﻭﺭﻩ ﺷﮑﻝ ﺯﻳﺭ ﻣﻧﺗﻘﻝ ﺷﻭﻳﺩ.

  3 ﻣﻳﺭﺯﺍﺩﻩ ﻣﺣﻣﺩﺭﺿﺎ ﺗﻭﺳﻁ ﺷﺩﻩ ﺗﻬﻳﻪ  | www.M-Mirzadeh.Blogfa.com

ﺍﮔﺭ ﭘﺎﻳﺎﻳﯽ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺩﺭ ﺣﺩ ﻣﻁﻠﻭﺏ ﻧﺑﺎﺷﺩ ﺑﺎ ﺗﺷﺧﻳﺹ ﺳﻭﺍﻻﺕ ﺯﺍﺋﺩ، ﺑﺎﻳﺩ ﻣﻘﺩﺍﺭ ﭘﺎﻳﺎﻳﯽ ﺭﺍ ﺑﻪ ﺣﺩ ﻣﻁﻠﻭﺏ ﺑﺭﺳﺎﻧﯽ ﺩ . ﺍﻳﻥ ﺍﻣﮑﺎﻥ ﺩﺭ 

ﻧﺭﻡ ﺍﻓﺯﺍﺭ spss ﻭﺟﻭﺩ ﺩﺍﺭﺩ ﮐﻪ ﺑﺗﻭﺍﻥ ﻭﺿﻌﻳﺕ ﻫﺭ ﺳﻭﺍﻝ ﺭﺍ ﺍﺯ ﻧﻅﺭ ﭘﺎﻳﺎﻳﯽ ﺩﺭ ﻣﺟﻣﻭﻋﻪ ﺳﻭﺍﻻﺕ ﺑﺭﺭﺳﯽ ﮐﺭﺩ. 

• ﺑﺭﺍی ﺍﻳﻥ ﮐﻪ ﺑﺧﻭﺍﻫﻳﺩ ﺍﺛﺭ ﺣﺫﻑ ﻫﺭ ﺳﻭﺍﻝ ﺭﺍ ﺑﺭ ﺿﺭﻳﺏ ﺁﻟﻔﺎ ﻣﻌﻳﻥ ﮐﻧﻳﺩ ﻭ ﺩﺭ ﻣﻭﺭﺩ ﺣﺫﻑ ﺳﻭﺍﻻﺕ ﺍﺿﺎﻓﻪ ﺗﺻﻣﻳﻡ ﺑﮕﻳﺭﻳﺩ، 

ﺩﺭ ﮐﺎﺩﺭ ﻣﺣﺎﻭﺭﻩ Reliability Analysis: statistics ﮔﺯﻳﻧﻪ Scale if item delete ﺭﺍ ﺍﻧﺗﺧﺎﺏ ﻧﻣﺎﻳﻳﺩ.

• ﮐﻠﻳﺩ ﻫﺎی Continue ﻭ Ok ﺭﺍ ﺑﻪ ﺗﺭﺗﻳﺏ ﮐﻠﻳﮏ ﮐﻧﻳﺩ ﻭ ﻧﺗﺎﻳﺞ ﺭﺍ ﺩﺭﺧﺭﻭﺟﯽ ﻣﺷﺎﻫﺩﻩ ﻧﻣﺎﻳﻳﺩ.

ﺩﺭ ﺧﺭﻭﺟﯽ spss ﺳﻪ ﺟﺩﻭﻝ ﮐﻪ ﻣﻬﻣﺗﺭ ﺍﺯ ﺑﻘﻳﻪ ﻫﺳﺗﻧﺩ، ﺑﻪ ﺻﻭﺭﺕ ﺯﻳﺭ ﻣﺷﺎﻫﺩﻩ ﺧﻭﺍﻫﻳﺩ ﮐﺭﺩ: 

ﺟﺩﻭﻝ ﺍﺻﻠﯽ ﺟﺩﻭﻝ Reliability Statistics ﺍﺳﺕ ﮐﻪ ﺩﺭ ﺁﻥ ﻣﻘﺩﺍﺭ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺭﺍ ﺑﺭﺍی ﺳﻭﺍﻻﺗﯽ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺍی ﮐﻪ ﻣﻥ ﺩﺍﺭﻡ 

ﺑﺭﺍﺑﺭ 660. ﻣﺷﺎﻫﺩﻩ ﻣﯽ ﮐﻧﻳﺩ. 

ﺩﺭ ﺟﺩﻭﻝ Item Statistics ﺷﻣﺎ ﻣﺗﻐﻳﺭﻫﺎ، ﻣﻳﺎﻧﮕﻳﻥ ﻭ ﺍﻧﺣﺭﺍﻑ ﻣﻌﻳﺎﺭ ﻫﺭ ﻳﮏ ﺍﺯ ﺳﻭﺍﻻﺕ ﻭ ﺗﻌﺩﺍﺩ ﻧﻣﻭﻧﻪ ﻫﺎ ﺭﺍ ﻣﺷﺎﻫﺩﻩ ﻣﯽ ﮐﻧﻳﺩ. 

ﻫﺭ ﭼﻪ ﻣﻘﺩﺍﺭ ﺁﻟﻔﺎ ﺑﻪ ﻳﮏ ﻧﺯﺩﻳﮑﺗﺭ ﺑﺎﺷﺩ ﻧﺷﺎﻥ ﺍﺯ ﭘﺎﻳﺎﻳﯽ ﺑﻳﺷﺗﺭ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺩﺍﺭﺩ . ﺍﮔﺭ ﻣﻘﺩﺍﺭﺁﻟﻔﺎ ﺑﻳﺷﺗﺭ ﺍﺯ  0.7 ﺑﺎﺷﺩ ﭘﺎﻳﺎﻳﯽ ﺧﻭﺏ ﻭ 

ﺍﮔﺭ ﺑﻳﻥ 0.5 ﺗﺎ 0.7 ﺑﺎﺷﺩ ﭘﺎﻳﺎﻳﯽ ﻣﺗﻭﺳﻁ ﻭ ﺍﮔﺭ ﮐﻣﺗﺭ ﺍﺯ 0.5 ﺑﺎﺷﺩ ﭘﺭﺳﺷﻧﺎﻣﻪ ﻓﺎﻗﺩ ﭘﺎﻳﺎﻳﯽ ﻻﺯﻡ ﺍﺳﺕ. 

ﺩﺭ ﺍﻳﻥ ﻣﺛﺎﻝ ﻣﻘﺩﺍﺭ ﺁﻟﻔﺎ ﻧﺷﺎﻥ ﻣﯽ ﺩﻫﺩ ﮐﻪ ﻣﻳﺯﺍﻥ ﭘﺎﻳﺎﻳﯽ ﭘﺭﺳﺷﻧﺎﻣﻪ ﺩﺭ ﺣﺩ ﻣﺗﻭﺳﻁ ﺍﺳﺕ. 

Reliability Statistics

Cronbach's Alpha

Cronbach's Alpha 

Based on 

Standardized Items

N of Items

.660 .673 10

Item Statistics

Mean Std. Deviation N

x1 3.67 1.209 48

x2 2.85 1.148 48

x3 4.35 .911 48

x4 1.98 .978 48

x5 3.02 1.158 48

x6 4.33 .724 48

x7 2.81 1.045 48

x8 2.79 1.304 48

x9 2.73 .917 48

x10 3.00 1.149 484 ﻣﻳﺭﺯﺍﺩﻩ ﻣﺣﻣﺩﺭﺿﺎ ﺗﻭﺳﻁ ﺷﺩﻩ ﺗﻬﻳﻪ  | www.M-Mirzadeh.Blogfa.com

Item-Total Statistics

Scale Mean if 

Item Deleted

Scale Variance if 

Item Deleted

Corrected ItemTotal 

Correlation

Cronbach's Alpha if Item Deleted

ﻣﻘﺪﺍﺭ ﺁﻟﻔﺎی ﮐﺮﻭﻧﺒﺎﺥ، ﭘﺲ ﺍﺯ ﺣﺬﻑ ﺳﻮﺍﻝ

x1 27.88 27.346 -.061 .717

x2 28.69 25.326 .121 .678

x3 27.19 24.709 .276 .645

x4 29.56 24.719 .243 .651

x5 28.52 22.297 .403 .618

x6 27.21 25.105 .332 .638

x7 28.73 21.606 .550 .589

x8 28.75 21.128 .435 .609

x9 28.81 22.751 .509 .604

x10 28.54 20.722 .574 .579

ﺩﺭ ﺟﺩﻭﻝ Item-Total Statistics ﺩﺭ ﺳﺗﻭﻥ ﺍﻭﻝ ﻧﺎﻡ ﻣﺗﻐﻳﺭﻫﺎ (ﺳﻭﺍﻻﺕ) ﻭ ﺷﺎﺧﺹ ﻫﺎی ﺳﺗﻭﻥ ﻫﺎی ﺑﻌﺩی ﺩﺭ ﺻﻭﺭﺕ ﺣﺫﻑ ﺍﻳﻥ 

ﻣﺗﻐﻳﺭ ﺁﻣﺩﻩ ﺍﺳﺕ. ﺩﺭ ﺳﺗﻭﻥ ﺩﻭﻡ ﻣﻳﺎﻧﮕﻳﻥ ﺍﻣﺗﻳﺎﺯﺍﺕ ﻫﺭ ﺳﻭﺍﻝ ﭘﺱ ﺍﺯ ﺣﺫﻑ ﺳﻭﺍﻝ ﻣﻭﺭﺩ ﻧﻅﺭ، ﺩﺭ ﺳﺗﻭﻥ ﺳﻭﻡ ﻭﺍﺭﻳﺎﻧﺱ ﺍﻣﺗﻳﺎﺯﺍﺕ، ﺩﺭ 

ﺳﺗﻭﻥ ﭼﻬﺎﺭﻡ ﻫﻣﺑﺳﺗﮕﯽ ﺑﻳﻥ ﻣﺗﻐﻳﺭﻫﺎ ﻭ ﺩﺭ ﺳﺗﻭﻥ ﭘﻧﺟﻡ ﻣﻘﺩﺍﺭ ﺁﻟﻔﺎی ﮐﺭﻭﻧﺑﺎﺥ ﺭﺍ ﺑﺎ ﺗﻭﺟﻪ ﺑﻪ ﺣﺫﻑ ﻣﺗﻐﻳﺭ ﻣﻭﺭﺩ ﻧﻅﺭ ﺭﺍ ﺷﺎﻫﺩ ﻫﺳﺗﻳﺩ. 

ﺑﺎ ﺗﻭﺟﻪ ﺑﻪ ﺍﻳﻥ ﮐﻪ ﺑﺎ ﺣﺫﻑ ﺳﻭﺍﻝ ﻳﮏ، ﺿﺭﻳﺏ ﺁﻟﻔﺎ ﺑﻪ ﻣﻘﺩﺍﺭ 0.717 ﺍﻓﺯﺍﻳﺵ ﭘﻳﺩﺍ ﻣﯽ ﮐﻧﺩ، ﻣﯽ ﺗﻭﺍﻥ ﺳﻭﺍﻝ ﻳﮏ ﺭﺍ ﺍﺯ ﻣﺟﻣﻭﻋﻪ 

ﺳﻭﺍﻻﺕ ﺣﺫﻑ ﮐﺭﺩ. 

ﺍﻳﻥ ﺭﻭﻧﺩ ﺭﺍ ﺑﻪ ﻫﻣﻳﻥ ﺗﺭﺗﻳﺏ ﻭ ﺗﺎ ﻭﻗﺗﯽ ﮐﻪ ﺣﺫﻑ ﺳﻭﺍﻻﺕ ﻧﺎﻫﻣﺑﺳﺗﻪ ﻣﻧﺟﺭ ﺑﻪ ﻣﻘﺩﺍﺭ ﻣﻁﻠﻭﺏ ﺁﻟﻔﺎ ﻣﯽﺷﻭﺩ، ﺍﺩﺍﻣﻪ ﺩﻫﻳﺩ.

ضريب آلفاي کرونباخ؛ مفاهيم، کارکرد و شيوه هاي نوين آن  

دکترامير تيمور پاينده1، دکتر مريم اميدي نجف آبادی2، فهيمه مسعودي فر3

1و 3: دانشگاه شهيد بهشتي، دانشکده علوم رياضي، گروه آمار

2: دانشگاه آزاد اسلامي واحد علوم وتحقيقات، گروه ترويج و آموزش کشاوزي

amirtpayandeh@sbu.ac.ir 

چکيده :

بي شک همه ي ما درطول دوران زندگي خود حداقل يکبار پرسشنامه پرکرده ايم. تا بحال ازخود پرسيده ايد که اين پرسشنامه ها چگونه تهيه مي شوند و نيز معياري براي بررسي ميزان قابليت اطمينان آنها وجود دارد يا خير؟ بديهي است که چنين مقياسي وجود دارد، چرا که بسياري از بررسي ها ي آماري درسطوح وسيع ابتدا درقالب پرسش نامه پايه گذاري مي شوند، پس مي بايست ملاکي براي نظارت  بر قابليت  اعتماد  آنها  وجود داشته باشد.

در اين مقاله، ابتدا به مفهوم ضريب آلفاي کرونباخ و کارکرد آن، شيوه محاسبه آن با استفاده از نرم افزارهاي آماري مي پردازد. نهايتا به معرفي تتاي ترتيبي  و ارائه برنامه ای جهت محاسبه آن (با استفاده از نرم افزار R)خواهيم پرداخت.

مفهوم ضريب آلفاي کرونباخ:

ضريب آلفاي کرونباخ توسط کرونباخ ابداع شده و يکي ازمتداولترين روشهاي اندازه گيري اعتماد پذيري و يا پايائي پرسش نامه هاست. منظور از اعتبار يا پايايي پرسش نامه اين است که اگر صفت هاي مورد سنجش با همان وسيله و تحت شرايط مشابه و در زمانهاي مختلف مجددا اندازه گيري شوند، نتايج تقريبا يکسان حاصله شود.

 ضريب آلفاي کرونباخ، براي سنجش ميزان تک بعدي بودن نگرشها، عقايد و ... بکار مي رود. در واقع مي خواهيم ببينيم تا چه حد برداشت پاسخگويان از سوالات يکسان بوده است. اساس اين ضريب بر پايه مقياسهاست. مقياس عبارتند از دسته اي از اعداد که بر روي يک پيوستار به افراد، اشيا يا رفتارها در جهت به کميت کشاندن کيفيت ها اختصاص داده مي شود. رايج ترين مقياس که در تحقيقات اجتماعي بکار مي رود مقياس ليکرت است. در مقياس ليکرت اساس کار بر فرض هم وزن بودن گويه ها استوار است. بدين ترتيب به هر گويه نمراتي (مثلا از1 تا 5 براي مقياس ليکرت 5 گويه اي) داده مي شود که مجموع نمراتي که هر فرد از گويه ها مي گيرد نمايانگر گرايش او خواهد بود. 

آلفاي کرونباخ بطورکلي با استفاده از يکي روابط  زيرمحاسبه مي شود.

  يا   

که دراين روابط  k تعداد سوالات،   واريانس سوال i ام،   واريانس مجموع کلي سوالات،  ميانگين کواريانس بين سوالات، و   واريانس ميانگين سوالات مي باشند (برگرفته شده از آلن و ين، 2002). 

با استفاده از تعريف آلفاي کرونباخ مي توان نتيجه گرفت: (1) هرقدرهمبستگي مثبت بين سوالات بيشتر شود، ميزان آلفاي کرونباخ بيشتر خواهد شدو بالعکس، (2) هر قدر واريانس ميانگين سوالات بيشتر شود آلفاي کرونباخ کاهش پيدا خواهد کرد، (3) افزايش تعداد سوالات تاثيرمثبت و يا منفي (بسته به نوع همبستگي بين سوالات) بر ميزان آلفاي کرونباخ خواهد گذاشت، (4) افزايش حجم نمونه باعث کاهش واريانس ميانگين سوالات در نتيجه باعث افزايش آلفاي کرونباخ خواهد شد. 

بديهي است هرقدر شاخص آلفاي کرونباخ به 1نزديکترباشد، همبستگي دروني بين سوالات بيشتر و در نتيجه پرسشها همگن ترخواهند بود. کرونباخ ضريب پايايي %45 را کم، %75 را متوسطو قابل قبول، و ضريب %95 را زياد پيشنهاد کرده (کرونباخ، 1951). بديهي است درصورت پايين بودن مقدارآلفا، بايستي بررسي شود که با حذف کدام پرسشها مقدارآن را مي توان افزايش داد. 

تتاي ترتيبي:

در سال 1974 آمارداني به نام آمور در مورد استفاده از آلفاي کرونباخ آماردانان ديگر را به چالش کشيد. استدلال او اين بود که آلفاي کرونباخ بر علاوه بر نارايب بوده (نارايبي مثبت)، بر اساس شاخص هاي تعريف و محاسبه مي گردنند که مربوط به داده هاي با مقياس فاصله اي و يا نسبتي هستند، بنابراين استفاده از آلفاي کرونباخ براي محاسبه اي ميزان پايائي پرسش نامه هاي که حاوي سوالات ترتيبي هستند دقيق به نظر نمي رسد. او براي رفع اين مشکل شاخص جديدي تحت عنوان تتاي ترتيبي به صورت زير ارائه داد.

 

که   بيشترين مقدار ويژه در تحليل مولفه اي اصلي مي باشد. اخيرا زامبو، گادرومن، و زيسر (2007) به مطالعه اين شاخص پرداخته و با چندين مثال شبيه سازي شده نشان دادند که ضريب آلفاي کرونباخ هميشه مقدار پاياي را کم برآورد مي کند. بنابراين توصيه مي شود که در هنگامي که داده ها ترتيبي هستنند به جاي آلفاي کرونباخ از تتاي ترتيبي استفاده شود.

چگونگي محاسبه به همراه مثال عملي:

بسياري از نرم افزارهاي آماري قادر به محاسبه آلفاي کرونباخ هستند. در اين قسمت از مقاله چگونگي محاسبه ي آلفاي کرونباخ را توسط دو نرم افزار SPSS و SAS شرح داده، سپس با ارائه يک برنامه به زبان R  چگونگي محاسبه ي آلفاي کرونباخ و تتاي ترتيبي را توسط نرم افزار R نشان مي دهيم. در ادامه با استفاده از سوالات نمونه گيري مقدماتي اميدي (1387) چگونگي سنجش آلفاي کرونباخ و تتاي ترتيبي را نشان مي دهيم.

براي محاسبه آلفاي کرونباخ  به کمک نرم افزار SPSS مسير زيررا دنبال مي کنيم :

Analyze> Scale> Reliability Analysis…

چنانچه مايل باشيم بررسي کنيم که حذف هرسوال چه ميزان روي ضريب آلفاي کرونباخ تاثير مي گذارد، بعد از باز شدن پنجره “Reliability Analysis Reliability Analysis” روي گزينه Statistics کليک کرده و در قسمت “Descriptive for” گزينه “Scale if item deleted”  را انتخاب کنيم.

خروجي نرم افزارSPSS براي داده هاي اميدي (1387) به صورت زيرخواهد بود:

جدول1) خروجی نرم افزار شامل ضريب آلفا و تعداد سوالات

Reliability Statistics

Cronbach's Alpha N of Items

.855 13





جدول2) خروجی نرم افزار

Item-Total Statistics

Scale Mean if Item Deleted Scale Variance if Item Deleted Corrected Item-Total Correlation Cronbach's Alpha if Item Deleted

V1 48.159 45.067 .470 .848

V2 48.500 44.488 .517 .845

V3 47.977 46.162 .484 .847

V4 48.318 43.989 .660 .838

V5 48.045 44.230 .495 .846

V6 49.227 45.808 .147 .890

V7 47.864 44.074 .690 .837

V8 48.136 43.283 .653 .837

V9 48.000 45.442 .515 .846

V10 48.068 43.646 .616 .839

V11 47.841 43.532 .680 .836

V12 48.318 43.106 .597 .840

V13 48.545 41.323 .671 .834


همانطوريکه ملاحظه مي شود مقدارآلفاي محاسبه شده برابر85 درصد است، که مقدار قابل قبولي است. همانطور که جدول شماره 2 نشان مي دهد حذف سوال ششم (v6) باعث افزايش آلفاي کرونباخ به 89 درصد خواهد شد.   

آلفاي کرونباخ در نرم افزار SAS با استفاده از دستور 

proc corr alpha nocorr nomiss; Variables; run;

محاسبه مي گردد. که به دلايل مشابه بودن خروجي با نرم افزار SPSS از ذکر جزئيات آن خوداري مي کنيم. 

دو نرم افزار SPSS  و SAS قادر به محاسبه ي تتاي ترتيبي نمي باشند و نرم افزار S-plus و R توانائي محاسبه آلفاي کرونباخ را ندارند.

در ادامه با ارائه تابعي (پيوست الف) چگونگي محاسبه آلفاي کرونباخ و تتاي ترتتيبي را توسط R  نشان مي دهيم. 

خروجي برنامه بالا تحت نرم افزار R  براي داده هاي اميدي (1387) در جدول 3 خلاصه شده است.

جدول 3) خروجی برنامه پيوست الف

New_Theta $` Ordinal Theta if a Question Deleted` New_Alpha $`Alpha if a Question Deleted`

0.8849911 Without Question 1 0.8476305 Without Question 1

0.8840719 Without Question 2 0.8448156 Without Question 2

0.8867511 Without Question 3 0.8474065 Without Question 3

0.8765560 Without Question 4 0.8377251 Without Question 4

0.8854676 Without Question 5 0.8461963 Without Question 5

0.8949432 Without Question 6 0.8899667 Without Question 6

0.8737700 Without Question 7 0.8368503 Without Question 7

0.8754874 Without Question 8 0.8368983 Without Question 8

0.8834650 Without Question 9 0.8455129 Without Question 9

0.8782972 Without Question 10 0.8390775 Without Question 10

0.8741109 Without Question 11 0.8361389 Without Question 11

0.8814010 Without Question 12 0.8395971 Without Question 12

0.8775920 Without Question 13 0.8338930 Without Question 13

$`Ordinal Theta for all Question=`  0.8895967 $`Cronbach's Alpha for all Question=` 0.8551825


نتيجه آلفاي کرونباخ جدول بالا مشابه با نرم افزار SPSS مي باشد. همچنين تتاي ترتيبي نيز نتيجه مشابه با آلفاي کرونباخ ارائه مي دهد با اين تفاوت که تتاي ترتيبي برآوردگر دقيق تر نسبت به آلفاي کرونباخ براي پايائي سوالات ارائه مي کند.

نتيجه گيري:

با توجه به کم برآورد پايائي توسط آلفاي کرونباخ توصيه مي شود پايائي سوالات ترتيبي با استفاده از تتاي ترتيبي سنجيده شود.


منابع :

1- Armor, D. J. (1974). Theta reliability and factor scaling. Sociological methodology, 17-50.

2- Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika. 16, 297-334.

3- Diener, E , Emmons, R. A., Larsen, R. J., & Griffin, S. (1985). The satisfaction with life scale. Journal of Personality Assessment, 49, 71-75 .

4- Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading MA: Addison-Wesley Publishing Company.

5- Zumbo, D. B., Gadermann, A. M., and Zeisser, C. (2007). Ordinal versions of coefficient alpha and theta for Likert rating scales. Journal of modern applied statistical methods, 6, 21-29.

6- اميدي، م. (1387). طراحی نظام فناوری اطلاعات و ارتباطات به منظور آموزش کارگزاران خصوصی بيمه کشاورزی ايران. رساله دکتری واحد علوم و تحقيقات دانشگاه آزاد اسلامی. 

  

پيوست الف  (برنامه محاسباتي آلفاي کرونباخ و تتاي ترتيبي توسط نرم افزار R)

Alpha<-function(all_data){

N<-ncol(all_data)

  D<-c()  

Q<-c()

# Cronbach’s alpha calculation

Alpha_Cronbach<-function(data){

k<-ncol(data)  

s<-cov(data)  

A<-c()

sumcov<-sum(s) 

for(i in 1:k){

A<-c(A,s[i,i]) }

sumcov<-sumcov-sum(A)

alpha<-1/((k-1)*mean(A)/sumcov+(1-1/k))

return(alpha) }

 # Ordinal’s theta calculation

theta_ordinal<-function(data){

p<-ncol(data)

p/(p-1)*(1-1/max(eigen(cor(data))$value)) }

for (j in 1: N){

D<-c(D,Alpha_Cronbach(all_data[-j]))

Q<-c(Q,theta_ordinal(all_data[-j])) }

D<-c(D)

list("Alpha if a Question Deleted" = data.frame("New "=""," Alpha"=D, row.names=paste("Without Question.",1:N))

,"Cronbach's Alpha for all Question="=Alpha_Cronbach(all_data),

"Ordinal Theta if a Question Deleted"=data.frame("New "="","Theta"=Q, row.names=paste("Without Question.",1:N))

,"Ordinal Theta for all Question="=theta_ordinal(all_data)) }


مقايسهاي اندازه گيري :


1-مقياس ليكرت 2-مقياس افتراق معنايي 3-مقياس ثرستون  4-مقياس گاتمن 5-مقياس فاصله اجتماعي بوگاردوس


1-مقياس ليكرت:


 ين مقياس از مجموعه اي منظم از گويه ها كه به ترتيب خاصي تدوين شده است ساخته ميشود. اين گويه ها حالات خاصي از پديده مورد اندازه گيري را بصورت گويه هايي كه از لحاظ ارزش اندازه گيري داراي فاصله هاي مساوي است عرضه مي كند.  براي تدوين اين گويه ها معمولا از عبارات مساعد و نامساعد درباره پديده مورد اندازه گيري به تعداد مساوي استفاده ميشود.  پاسخ دهنده ميزان موافقت خود را با هر يك از اين عبارات در يك مقيياس درجه بندي شده كه معمولا از يك تا پنج ياهفت درجه است نشان مي دهد.  سپس ازمودني به هريك از گويه ها از نظر عددي(رتبه) ارزش گذاري مي شود.  حاصل جمع عددي اين ارزشها نمره ازمودني را در اين مقياس بدست مي دهد. در ساختن مقياس ليكرت بايد 6مرحله به شرح زيررا رعايت كرد:


1-      انتخاب مقوله هاي تشكيل دهنده مقياس اندازه گيري وتدوين گويه هاي مساعد و نامساعد مربوط به موضوع


2-      اجراي مقدماتي گويه ها در يك نمونه تصادفي ازپاسخ دهنده ها


3-      محاسبه نمره كل براي هر پاسخ دهنده


4-      تعين توان افتراقي گويه ها


5-      انتخاب گويه هاي برگزيده


6-      تعيين ضريب قابليت اعتماد مقياس


2-مقیاس افتراق معنایی


افتراق معنايي روش كمي براي اندازه گيري معنايي مفاهيم نزد افراد است وعكس العمل افراد نسبت به يك مفهوم يا شيء را توصيف ميكند. در اين مقياس از پاسخ دهنده خواسته مي شود تا مفهومي ررا روي يك مقياس دو قطبي هفت درجه اي علامت گذاري كند. در دو قطب مقياس دو صفت متضاد با هم قرار دارند.  معمولا پاسخهاي ازمودني را مي توان به شيوه هاي مختلف تحليل كرد.  براي تحليل كمي مي توان به درجه بنديهاي هر مقياس نمره هايي از 1تا 7 يا از3- تا3+ داده و سپس با محاسبه جمع يك نمره هاي هر مفهوم در هر يك از مقياسها، مشخص ساخت كه دو مفهوم از نظر يك فرد يا يك گروه تا چه اندازه به يگديگر شبيه هستند. مقياس افتراق معنايي ، ابزاري است كه در مدت زمان كوتاه ، اطلاعات بسيار مفيدي را درباره نگرش افراد بدست مي دهد.  با كمك اين مقياس مي توان نيمرخ نتايج را ترسيم نموده وبا مقايسه نيمرخها اختلاف نگرش نسبت به مفاهيم را نشان داد. مقياس افتراق معنايي بررسي تغيير در نگرش فرد را نسبت به يك موضوع ا مكان پذيرميكند ازاين مقياس در پژوهش هاي روان – درماني نيز استفاده مي شود. خاطر نشان مي شود كه تفسير نتايج حاصله از اين مقياس به آساني صورت نمي گيرد واين خطر هميشه وجود دارد كه درك افراد نسبت به معناي مفاهيم متفاوت از يكديگر باشد.


مراحل ساخت مقياس:


1-      مفاهيم موردنظر را انتخاب كند.اين مفاهيم بايد با مساله تحقيق مرتبط بوده و نسبت به تفاوتها و شباهت هاي گروه مورد مطالعه حساس باشد.


2-      زوج صفت هايي را براي مقياس انتخا كند.وقتي هدف اندازه گيري طرز فكر باشد از صفتهايي كه بيشترين وزنه ارزشي را دارد بايد استفاده كرد


3-      صفت هاي متضاد را بايد طوري در دو انتهاي مقياس قرار داد كه ترتيب خاصي وجود نداشته باشد.براي مثال در يك انتها فقط صفت هاي نشان دهنده قدرت ،فعاليت يا مطلوبيت قرار نگرفته باشد.


3-مقياس ثرستون:


. این مقیاس شامل مجموعه ای از گویه ها است که برای سنجش برخی از مفاهیم به کار می رود. در مقیاس ثرستون از پاسخ دهنده خواسته می شود ، تا تمام مواردی را که با آنها موافق است علامت بزند .  امتیاز هر فرد در این مقیاس به وسیله تعداد گویه هایی که با آن موافق است تعیین می شود.


مراحل ساختن مقیاس ترستون :


1-       تهییه مجموعه ای از گویه هایی کوتاه و دقیق راکه نشانگر طیفی از طرز فکر نسبت به شيئي یا حادثه خاصی باشد.


2-       طبقه بندی گویه ها روی یک مقیاس از یک تا یازده ( از قوی ترین تا ضعیف ترین ) به وسیله یک گروه داور


3-       در نظر گرفتن توزیع ارزشهای مقیاسی ( 1 تا 11 ) هر گویه و محاسبه میانه این توزیع


4-     گویه هایی که ارزش نیم دامنه چارکی (  ) نصف دامنه بین ربع اول و سوم خیلی زیاد است باید حذف شود . دامنه بزرگ نشانگر اختلاف زیاد بین داوران است .


5-       گویه های باقی مانده رابه نمونه اي از آزمودني ها عرضه كرده و از آنان خواسته شود تا گويه هايي را که با آن موافق هستند علامت بگذارند. گویه هایی که از لحاظ آماری دارای هماهنگی درونی پایین است ، حذف مي شود.


6-      از میان گویه های باقی مانده آنهایی که نیم فاصله چارکی آنها فواصل یکسانی را نشان می دهد ، یکی انتخاب کرد.


مقياس گاتمن


این مقیاس شامل مجموعه ای از گویه هاست که در رابطه با نگرش فرد نسبت به یک موضوع تنظیم شده است .


گویه ها بر حسب دشواری ، پیچیدگی یا ارزش وزنی مرتب می شوند و موافقت یا تاکید یک گویه ، مو افقت با سایر گویه ها ی کم وزن تر را به دنبال دارد.   اين ويژگي تراكمي بودن مقياس گاتمن امكن مي دهد تا با داشتن امتياز كلي فرد نمره فرد را در هر گويه اي پيش بيني نماييم.


مراحل ساخت مقياس گاتمن


1-       انتخاب وتدوين گويه هاي مناسب درباره نگرش نسبت به موضوع مورد نظر .براي انتخاب گويه ها مي توان به برخي منابع از قبيل روزنامه ها ، كتابها،مقاله هاي علمي،نتايج تحقيات و مصاحبه با افراد متخصص مراجعه كرد.


2-       اجراي مقدماتي گويه هاي تدوين شده


3-       تجزيه و تحليل پاسخهاي بدست آمده


4-       محاسبه ضريب بازيابي (cr)


ساختن مقياس گاتمن مستلزم طي مراحل دشواريست ولي در مقايسه بامقياس ليكرت وثرستون مزايايي به قرار زير دارد:


الف) امكان تعيين نيمرخ پاسخهاي فرد را فراهم مي كند.


ب) با توجه به ماهيت تراكمي مقياس براي ارزيابي تغييرات نگرش مناسبتر است.


 


مقياس فاصله اجتماعي بوگاردوس


 


نوعي مقياس سنجش نگرش است كه در بررسي نگرش نسبت به گروهاي قومي – نژادي طبقات اجتماعي ،گروه هاي مذهبي و حرفه اي مورد استفاده قرار مي گيرد .  پيش فرض اين مقياس آن است كه فرد پيشداوري بيشتر در مورد يك گروه ويژه داشته باشد ، فاصله اجتماعي بين او و اعضاي آن گروه بيشتر خواهد بود .  در اين مقياس گويه ها به صورت موقعيت هاي فرضي به ترتيبي كه معرف فاصله اجتماعي باشد ارائه مي شود.


 


منبع : سرمد ،بازرگان،حجازي، روشهاي تحقيق در علوم رفتاري ،انتشارات آگاه


 مقیاسی است که به‌وسیله "رنسیس لیکرت" طراحی شده و نوعی مقیاس نگرش‌سنج است که در آن آزمودنی باید میزانی را که برای هر جنبه صحه می‌گذارد ، ابراز کند. مقیاس‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌های لیکرت معمولاً پنج تا هفت پاسخ محتمل را با یک وضعیت خنثی ، ارائه می‌کند مانند کاملاً موافق ، موافق ، بی‌نظر ، مخالف ، و کاملاً مخالف. 

مقیاس‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌های لیکرت می‌توانند نظریات کلی دانش‌آموزان را درباره نظام آموزشی مشخص کنند ، از این مقیاس‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌ها می‌توان برای مقایسه استفاده کرد مانند مقایسه آزمون آغاز و پایان دوره و یا مقایسه یک گروه آزمایشی با گروه گواه.


سوالات آزمون جامع دکترا سنجش-22 تیر 1391- ساعت 8:45 الی 1:15.  نظریه کلاسیک

سوالات آزمون جامع دکترا سنجش-22 تیر 1391- ساعت 8:45 الی 1:15.

نظریه کلاسیک

1. اعتبار چند صفتی-چند روشی را تعریف کنید.

2. تصحیح برای کاهش را تعریف کنید و دلایل اتفاق آن را شرح دهید.

3. اگر بخواهید برای پیش بینی موفقیت شغلی در یک شغل مدلی را تدوین کنید چه مراحلی را پشت سر می گذارید؟ به طور مختصر توضیح دهید.

4. در جدول زير مجموع مجذورات و  مضروبات يك آزمون 6 سؤالي داده شده است كه 100 نفر به آن پاسخ داده اند. ضريب اعتبار را براي كل آزمون و براي دو بخش و براي سه بخش حساب كنيد(بخش ها را به دلخواه انتخاب كنيد) و در پايان در مورد موازي بودن آن ها بحث كنيد. (ص. 42 کتاب گراجتر ترجمه کامکار و دکتر اسکندری مشابه این سوال به نقل از لرد و ناویک هست!)

X1      X2        X3      X4       X5        X6         

X1

X2

X3

X4

X5

X6 79      85        32      62         81       65

85      62        54      36         42       72

32      54

62      36

81      42

65      72


5. دو ارزياب مقالات 5 دانشجو را ارزيابي كرده اند. داده ها در زير آمده است. نمرات بهتر نشان دهنده مقالات بهتر است.

الف) مؤلفه هاي واريانس را محاسبه كنيد؟

ب) ضريب تعميم پذيري و ضريب اتكاپذيري را محاسبه كنيد.

ج) چنان چه سؤالات در ارزيابان آشيانه كنند چه تغييراتي در ضرايب بالا به وجود مي آيد.

ارزيابان

ارزياب 2                                   ارزياب   1

مقاله 2     مقاله 1                  مقاله 2       مقاله  1

1 8            6                          6             4

2

3

4

5

با تشکر از خانم دکتر مقدم azam.moghadam@gmail.com

مزاياي اجراي آزمون به كمك رايانه

 مزاياي اجراي آزمون به كمك رايانه


1.        يكسان سازي


2.        اجراي سنجيده ي متوالي فردي


3.        دقت پاسخ هاي زمانبندي شده


4.        آسودگي آزمونگر انساني براي وظايف ديگر


5.        كنترل سوگيري


6.        سوالات را مي توان به هر ترتيبي ارائه شوند يا يك ترتيب تصادفي براي هر آزمودني ارائه داد.


7.        عيني تر و مقرون به صرفه ترند


8.        كنترل آزمايشي بيشتري را نسبت به ساير روش ها اعمال مي كنند.


9.        كنترل دقيق زمان آزمون و زمان پاسخگويي به سوال


10.     مانع شدن آزمودني در برگشت به سوالاتي كه پاسخ داده شده است


11.     لذت بخش تر بودن نسبت به آزمون هاي مداد كاغذي


12.     قدرت بيشتر در مانع شدن تقلب


13.     آشكار سازي بهتر اطلاعاتي كه از طريق مصاحبه قابل دستيابي نيست (صادق بودن بيشتر آزمودني)


14.     انعطاف پذيري


15.     بازخورد سريع نمره به كاربر هم در حين پاسخگويي به سوالات و هم در انتهاي آزمون


16.     توانايی ارائه آزمون بر اساس نياز در زمان مناسب برای آزمون ها.


17.     اين آزمون ها از طريق اينترنت در تمام نقاط دنيا به سرعت قابل اجرا هستند.


18.     زمان اجرا و نمره گذاری آزمون ها به شدت کاهش می يابد و نياز به گزارش رسمی وجود ندارد.


19.     بازخورد تشخيصی فوری از توانايی های آزمودنی ها.


20.     کار آمدی .


21.     سرعت بالا در اجرا، تصحیح و نمره گزاری سبب افزایش قدرت تصمیم گیری می شود.


22.     امنيت: احتمال گم شدن مواد يا دفتر چه ها، قبل از آزمون ، زمان آزمون و يا بعد از آزمون کاهش پیدا می کند.


23.     انعطاف پذيری: آزمون با ويژگی های آزمونی منطبق می شود.


24.     عملکرد يکپارچه : قدرت يکپارچه سازی اطلاعات بدست آمده از آزمون را دارا است.


25.     آزمون به بهترين شکل استفاده و تفسير می شود (واینر، 2004).


26.     بررسي فرآيندهاي شناختي


 

استفاده از نظريه سوال پاسخ براي مقايسه ي نمرات افتراقي مانند نمرات پيش آزمون و پس آزمون

يكي از دغدغه هاي پژوهش هايي كه پيش آزمون و پس آزمون دارند، اثري است كه پيش آزمون بر نمرات پس آزمون مي گذارد و روشهاي مختلفي در ادبيات طرح هاي آزمايشي و روش تحقيق براي كنترل آن در نظر گرفته شده است. يك آزمون پيشرفت را در نظر بگيريد. در آزمون هاي پيشرفت مشاهده عملكرد پايين در پيش آزمون نسبت به پس آزمون معمول است. با آگاهي از اين آزمون ساز ممكن است سوالات آسان تري براي پيش آزمون و سوالات دشوارتري را براي پس آزمون بر گزيند. در هر موقعيت تستي دقت اندازه گيري در ناحيه اي از توانايي كه به احتمال بيشتر آزمودني ها در آنجا قرار گرفته اند، بيشينه مي شود. از اين گذشته، بخاطر آن كه هر دو آزمون توانايي واحدي را اندازه مي گيرند، و برآوردهاي توانايي به گروه خاصي از سوالات بستگي ندارد، مي توان رشد را از طريق كم كردن برآورد توانايي پيش آزمون از برآورد هاي توانايي پس آزمون اندازه گيري كرد.

ضريب آلفاي کرونباخ؛ مفاهيم، کارکرد و شيوه هاي نوين آن

ضريب آلفاي کرونباخ؛ مفاهيم، کارکرد و شيوه هاي نوين آن  

دکترامير تيمور پاينده1، دکتر مريم اميدي نجف آبادی2، فهيمه مسعودي فر3

1و 3: دانشگاه شهيد بهشتي، دانشکده علوم رياضي، گروه آمار

2: دانشگاه آزاد اسلامي واحد علوم وتحقيقات، گروه ترويج و آموزش کشاوزي

amirtpayandeh@sbu.ac.ir 

چکيده :

بي شک همه ي ما درطول دوران زندگي خود حداقل يکبار پرسشنامه پرکرده ايم. تا بحال ازخود پرسيده ايد که اين پرسشنامه ها چگونه تهيه مي شوند و نيز معياري براي بررسي ميزان قابليت اطمينان آنها وجود دارد يا خير؟ بديهي است که چنين مقياسي وجود دارد، چرا که بسياري از بررسي ها ي آماري درسطوح وسيع ابتدا درقالب پرسش نامه پايه گذاري مي شوند، پس مي بايست ملاکي براي نظارت  بر قابليت  اعتماد  آنها  وجود داشته باشد.

در اين مقاله، ابتدا به مفهوم ضريب آلفاي کرونباخ و کارکرد آن، شيوه محاسبه آن با استفاده از نرم افزارهاي آماري مي پردازد. نهايتا به معرفي تتاي ترتيبي  و ارائه برنامه ای جهت محاسبه آن (با استفاده از نرم افزار R)خواهيم پرداخت.

مفهوم ضريب آلفاي کرونباخ:

ضريب آلفاي کرونباخ توسط کرونباخ ابداع شده و يکي ازمتداولترين روشهاي اندازه گيري اعتماد پذيري و يا پايائي پرسش نامه هاست. منظور از اعتبار يا پايايي پرسش نامه اين است که اگر صفت هاي مورد سنجش با همان وسيله و تحت شرايط مشابه و در زمانهاي مختلف مجددا اندازه گيري شوند، نتايج تقريبا يکسان حاصله شود.

 ضريب آلفاي کرونباخ، براي سنجش ميزان تک بعدي بودن نگرشها، عقايد و ... بکار مي رود. در واقع مي خواهيم ببينيم تا چه حد برداشت پاسخگويان از سوالات يکسان بوده است. اساس اين ضريب بر پايه مقياسهاست. مقياس عبارتند از دسته اي از اعداد که بر روي يک پيوستار به افراد، اشيا يا رفتارها در جهت به کميت کشاندن کيفيت ها اختصاص داده مي شود. رايج ترين مقياس که در تحقيقات اجتماعي بکار مي رود مقياس ليکرت است. در مقياس ليکرت اساس کار بر فرض هم وزن بودن گويه ها استوار است. بدين ترتيب به هر گويه نمراتي (مثلا از1 تا 5 براي مقياس ليکرت 5 گويه اي) داده مي شود که مجموع نمراتي که هر فرد از گويه ها مي گيرد نمايانگر گرايش او خواهد بود. 

آلفاي کرونباخ بطورکلي با استفاده از يکي روابط  زيرمحاسبه مي شود.

  يا   

که دراين روابط  k تعداد سوالات،   واريانس سوال i ام،   واريانس مجموع کلي سوالات،  ميانگين کواريانس بين سوالات، و   واريانس ميانگين سوالات مي باشند (برگرفته شده از آلن و ين، 2002). 

با استفاده از تعريف آلفاي کرونباخ مي توان نتيجه گرفت: (1) هرقدرهمبستگي مثبت بين سوالات بيشتر شود، ميزان آلفاي کرونباخ بيشتر خواهد شدو بالعکس، (2) هر قدر واريانس ميانگين سوالات بيشتر شود آلفاي کرونباخ کاهش پيدا خواهد کرد، (3) افزايش تعداد سوالات تاثيرمثبت و يا منفي (بسته به نوع همبستگي بين سوالات) بر ميزان آلفاي کرونباخ خواهد گذاشت، (4) افزايش حجم نمونه باعث کاهش واريانس ميانگين سوالات در نتيجه باعث افزايش آلفاي کرونباخ خواهد شد. 

بديهي است هرقدر شاخص آلفاي کرونباخ به 1نزديکترباشد، همبستگي دروني بين سوالات بيشتر و در نتيجه پرسشها همگن ترخواهند بود. کرونباخ ضريب پايايي %45 را کم، %75 را متوسطو قابل قبول، و ضريب %95 را زياد پيشنهاد کرده (کرونباخ، 1951). بديهي است درصورت پايين بودن مقدارآلفا، بايستي بررسي شود که با حذف کدام پرسشها مقدارآن را مي توان افزايش داد. 

تتاي ترتيبي:

در سال 1974 آمارداني به نام آمور در مورد استفاده از آلفاي کرونباخ آماردانان ديگر را به چالش کشيد. استدلال او اين بود که آلفاي کرونباخ بر علاوه بر نارايب بوده (نارايبي مثبت)، بر اساس شاخص هاي تعريف و محاسبه مي گردنند که مربوط به داده هاي با مقياس فاصله اي و يا نسبتي هستند، بنابراين استفاده از آلفاي کرونباخ براي محاسبه اي ميزان پايائي پرسش نامه هاي که حاوي سوالات ترتيبي هستند دقيق به نظر نمي رسد. او براي رفع اين مشکل شاخص جديدي تحت عنوان تتاي ترتيبي به صورت زير ارائه داد.

 

که   بيشترين مقدار ويژه در تحليل مولفه اي اصلي مي باشد. اخيرا زامبو، گادرومن، و زيسر (2007) به مطالعه اين شاخص پرداخته و با چندين مثال شبيه سازي شده نشان دادند که ضريب آلفاي کرونباخ هميشه مقدار پاياي را کم برآورد مي کند. بنابراين توصيه مي شود که در هنگامي که داده ها ترتيبي هستنند به جاي آلفاي کرونباخ از تتاي ترتيبي استفاده شود.

چگونگي محاسبه به همراه مثال عملي:

بسياري از نرم افزارهاي آماري قادر به محاسبه آلفاي کرونباخ هستند. در اين قسمت از مقاله چگونگي محاسبه ي آلفاي کرونباخ را توسط دو نرم افزار SPSS و SAS شرح داده، سپس با ارائه يک برنامه به زبان R  چگونگي محاسبه ي آلفاي کرونباخ و تتاي ترتيبي را توسط نرم افزار R نشان مي دهيم. در ادامه با استفاده از سوالات نمونه گيري مقدماتي اميدي (1387) چگونگي سنجش آلفاي کرونباخ و تتاي ترتيبي را نشان مي دهيم.

براي محاسبه آلفاي کرونباخ  به کمک نرم افزار SPSS مسير زيررا دنبال مي کنيم :

Analyze> Scale> Reliability Analysis…

چنانچه مايل باشيم بررسي کنيم که حذف هرسوال چه ميزان روي ضريب آلفاي کرونباخ تاثير مي گذارد، بعد از باز شدن پنجره “Reliability Analysis Reliability Analysis” روي گزينه Statistics کليک کرده و در قسمت “Descriptive for” گزينه “Scale if item deleted”  را انتخاب کنيم.

خروجي نرم افزارSPSS براي داده هاي اميدي (1387) به صورت زيرخواهد بود:

جدول1) خروجی نرم افزار شامل ضريب آلفا و تعداد سوالات

Reliability Statistics

Cronbach's Alpha N of Items

.855 13





جدول2) خروجی نرم افزار

Item-Total Statistics

Scale Mean if Item Deleted Scale Variance if Item Deleted Corrected Item-Total Correlation Cronbach's Alpha if Item Deleted

V1 48.159 45.067 .470 .848

V2 48.500 44.488 .517 .845

V3 47.977 46.162 .484 .847

V4 48.318 43.989 .660 .838

V5 48.045 44.230 .495 .846

V6 49.227 45.808 .147 .890

V7 47.864 44.074 .690 .837

V8 48.136 43.283 .653 .837

V9 48.000 45.442 .515 .846

V10 48.068 43.646 .616 .839

V11 47.841 43.532 .680 .836

V12 48.318 43.106 .597 .840

V13 48.545 41.323 .671 .834


همانطوريکه ملاحظه مي شود مقدارآلفاي محاسبه شده برابر85 درصد است، که مقدار قابل قبولي است. همانطور که جدول شماره 2 نشان مي دهد حذف سوال ششم (v6) باعث افزايش آلفاي کرونباخ به 89 درصد خواهد شد.   

آلفاي کرونباخ در نرم افزار SAS با استفاده از دستور 

proc corr alpha nocorr nomiss; Variables; run;

محاسبه مي گردد. که به دلايل مشابه بودن خروجي با نرم افزار SPSS از ذکر جزئيات آن خوداري مي کنيم. 

دو نرم افزار SPSS  و SAS قادر به محاسبه ي تتاي ترتيبي نمي باشند و نرم افزار S-plus و R توانائي محاسبه آلفاي کرونباخ را ندارند.

در ادامه با ارائه تابعي (پيوست الف) چگونگي محاسبه آلفاي کرونباخ و تتاي ترتتيبي را توسط R  نشان مي دهيم. 

خروجي برنامه بالا تحت نرم افزار R  براي داده هاي اميدي (1387) در جدول 3 خلاصه شده است.

جدول 3) خروجی برنامه پيوست الف

New_Theta $` Ordinal Theta if a Question Deleted` New_Alpha $`Alpha if a Question Deleted`

0.8849911 Without Question 1 0.8476305 Without Question 1

0.8840719 Without Question 2 0.8448156 Without Question 2

0.8867511 Without Question 3 0.8474065 Without Question 3

0.8765560 Without Question 4 0.8377251 Without Question 4

0.8854676 Without Question 5 0.8461963 Without Question 5

0.8949432 Without Question 6 0.8899667 Without Question 6

0.8737700 Without Question 7 0.8368503 Without Question 7

0.8754874 Without Question 8 0.8368983 Without Question 8

0.8834650 Without Question 9 0.8455129 Without Question 9

0.8782972 Without Question 10 0.8390775 Without Question 10

0.8741109 Without Question 11 0.8361389 Without Question 11

0.8814010 Without Question 12 0.8395971 Without Question 12

0.8775920 Without Question 13 0.8338930 Without Question 13

$`Ordinal Theta for all Question=`  0.8895967 $`Cronbach's Alpha for all Question=` 0.8551825


نتيجه آلفاي کرونباخ جدول بالا مشابه با نرم افزار SPSS مي باشد. همچنين تتاي ترتيبي نيز نتيجه مشابه با آلفاي کرونباخ ارائه مي دهد با اين تفاوت که تتاي ترتيبي برآوردگر دقيق تر نسبت به آلفاي کرونباخ براي پايائي سوالات ارائه مي کند.

نتيجه گيري:

با توجه به کم برآورد پايائي توسط آلفاي کرونباخ توصيه مي شود پايائي سوالات ترتيبي با استفاده از تتاي ترتيبي سنجيده شود.


منابع :

1- Armor, D. J. (1974). Theta reliability and factor scaling. Sociological methodology, 17-50.

2- Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika. 16, 297-334.

3- Diener, E , Emmons, R. A., Larsen, R. J., & Griffin, S. (1985). The satisfaction with life scale. Journal of Personality Assessment, 49, 71-75 .

4- Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading MA: Addison-Wesley Publishing Company.

5- Zumbo, D. B., Gadermann, A. M., and Zeisser, C. (2007). Ordinal versions of coefficient alpha and theta for Likert rating scales. Journal of modern applied statistical methods, 6, 21-29.

6- اميدي، م. (1387). طراحی نظام فناوری اطلاعات و ارتباطات به منظور آموزش کارگزاران خصوصی بيمه کشاورزی ايران. رساله دکتری واحد علوم و تحقيقات دانشگاه آزاد اسلامی. 

  

پيوست الف  (برنامه محاسباتي آلفاي کرونباخ و تتاي ترتيبي توسط نرم افزار R)

Alpha<-function(all_data){

N<-ncol(all_data)

  D<-c()  

Q<-c()

# Cronbach’s alpha calculation

Alpha_Cronbach<-function(data){

k<-ncol(data)  

s<-cov(data)  

A<-c()

sumcov<-sum(s) 

for(i in 1:k){

A<-c(A,s[i,i]) }

sumcov<-sumcov-sum(A)

alpha<-1/((k-1)*mean(A)/sumcov+(1-1/k))

return(alpha) }

 # Ordinal’s theta calculation

theta_ordinal<-function(data){

p<-ncol(data)

p/(p-1)*(1-1/max(eigen(cor(data))$value)) }

for (j in 1: N){

D<-c(D,Alpha_Cronbach(all_data[-j]))

Q<-c(Q,theta_ordinal(all_data[-j])) }

D<-c(D)

list("Alpha if a Question Deleted" = data.frame("New "=""," Alpha"=D, row.names=paste("Without Question.",1:N))

,"Cronbach's Alpha for all Question="=Alpha_Cronbach(all_data),

"Ordinal Theta if a Question Deleted"=data.frame("New "="","Theta"=Q, row.names=paste("Without Question.",1:N))

,"Ordinal Theta for all Question="=theta_ordinal(all_data)) }


ضریب آلفا و روشهاي برگرفته از مدل معادلات  à ساختاري د ر برآورد اعتبار

ضریب آلفا و روشهاي برگرفته از مدل معادلات

à ساختاري د ر برآورد اعتبار

A Comparison between Alpha Coefficient and Structural Equation

Modeling Methods to Estimation of Reliabilityà

àà مسعود کبیري

Masoud Kabiri,*

چکیده

هدف این مطالعه، مقایسه بین ضریب آلفا و

روشهاي برگرفته از مدل معادلات ساختاري در

برآورد اعتبار آزمون است. انطباق با مدل اندازه گیري

اساساً معادل-تاو و عدم همبستگی بین خطاهاي

اندازهگیري مهمترین پی شفرض هاي ضریب آلفا

است. در مقابل، روشهاي برگرفته از مدل معادلات

ساختاري علاوه بر عدم الزام در رعایت چنین

پیشفرضهایی امکان بررسی و آزمون هریک از

آنها و قابلیت وزنبندي گویهها جهت تشکیل

ترکیب بهینه براي تشکیل مقیاس را نیز بهدست

میدهد. در این مقاله چهار روش برآورد اعتبار در

روشهاي مجذور » مدل معادلات ساختاري، شامل

استفاده از ،« اعتبار مرکب » ،« همبستگی چندگانه

مورد بحث « اعتبار بیشینهاي » و « متغیرهاي خیالی »

قرار گرفت. هر یک از این روش ها بر روي داده هاي

حاصل از مقیاس ادراك نسبت به نگرش معلم

ریاضی از مجموعه مقیاسهاي نگرش نسبت به

ریاضی فنما و شرمن بهکار برده شد. دادههاي این

مقیاس از نمونه 340 نفري دانشآموزان سال اول

متوسطه بهدست آمد. نتایج کاربرد هر یک از این

روشهاي برگرفته از مدل معادلات ساختاري نشان

دادکه روشهاي معرفی شده مقادیر بالاتري از اعتبار

مقیاس نسبت به ضریب آلفا را نشان میدهند. کاهش

ضریب آلفا ممکن است به علت عدم انطباق مقیاس

با مدل اساساً معادل-تاو باشد. به طو ر کلی بحث

پیشینهاي بههمراه نتایج مطالعه نشان داد که رو ش

هاي برگرفته از مدل معادلات ساختاري برآوردهاي

دقیقتري براي اندازهگیري اعتبار آزمون هستند.

Abstract

The purpose of this study is comparison

between alpha coefficient and given methods of

structural equation modeling to estimate

reliability of a scale. Due to necessity of

restricted assumptions, that is, fitting to

essentially τ-equivalence measurement model

and uncorrelated measurement errors. Alpha

coefficient may be an inaccurate estimator, In

contrast, methods of structural equation

modeling does not require considering this

assumptions, also there are some possibilities to

test assumptions and weighting items to

construct an optimal scale. In this article, we

discuss four estimators of reliability in structural

equation modeling: square multiple coefficient,

composite reliability, phantom variable and

maximal reliability. Each of them was analyzed

on perception of math teacher' attitude scale- a

scale of Modified Fennema and Sherman's

mathematics attitude scales. Data gathered from

340 ninth grad students. The results reveal these

methods have higher values of reliability scale

rather than alpha. The reduction of alpha may be

due to miss-fit of scale to essentially τ-

equivalent model. In general, the results of this

study along with literature review show that

given methods of structural equation modeling

are more accurate estimators to measurement of

reliability.

Keywords: alpha coefficient, reliability,

structural equation modeling,estimate reliability,

square multiple coefficient, composite phantom

variable, maximal reliability, phantom variable,

maximal reliability.

کلیدواژهها: مدل معادلات ساختاري، ضریب

آلفا، اعتبار مرکب، اعتبار بیشینهاي، متغیر خیالی،

مجذور همبستگی چندگان

1388/6/ 1387 تصویب نهایی : 1 /3/ دریافت مقاله : 4 à

پژوهشگاه مطالعات وزارت آموزش و پرورش àà

à Rresearch Institute for Education of Education ministry, I,R.Iran

*Eٍmail: mkabiri@rie, ir, Tel: (+98)21 88 95 2003, 09102123787

40 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 40

مقدمه —

به عنوان رابطه واریانس واقعی به واریانس « اعتبار » ، در نظریۀ کلاسیک آزمون

مشاهده شده (رایکوف، 2004 ) و ضریب اعتبار به عنوان سهم واریانس نمره مشاهده

شدهاي که توسط واریانس نمره واقعی تبیین می شو د (گراهام، 2006 ) درنظر گرفته

میشود. بر این اساس ضریب اعتبار به عنوان شاخص کلی دقت اندازه گیر ي ملاحظه

می شود (رایکوف، 2004 ) که در نقطۀ مقابل خطاي اندازه گیر ي است . علاو ه براین،

را به عنوان تجانس نمرات یا ثبات درونی نیز تعریف نمود (آناستازي، « اعتبار » می توان

1379 ). این تعریف که یکی از رایج ترین مبانی محاسبات اعتبار را تشکیل میدهد، بر

روش ب هدست آوردن اعتبار بر اساس یکبار اجراي آزمون استوار است که در مقابل

سایر روشهاي محاسبۀ اعتبار مثل بازآزمایی و فرمهاي همتا قرار دارد. معرو فترین

روش محاسبه اعتبار در این مبنا، ضریب آلفا است که توسط کرونباخ پیشنهاد شده

است. بحث این مقاله بر روي این روش از محاسبه اعتبار متمرکز شده است.

بررسی پیشینه پژوهشی نشان میدهد که ضریب آلفا داراي پیشفرضهاي مهم و

جدي است که عدم توجه به آن ها میتواند بر برآورد اعتبار اثر داشته باشد. این

١ گویه ها و عدم همبستگی بین « بودن (τ) معادل-تا و » پیشفرضها شامل اساساً

؛ خطاهاي اندازهگیري گویه ها میباشند (بیکون، سائور و یونگ، 1995 ؛ رایکوف ، 2001

2004 ؛ رایکوف و شراوت، 2002 ؛ کوماروف، 1997 ؛ گراهام، 2006 ؛ گرین و هرشبرگر،

2000 ). اساساً معادل-تاو بودن گویهها به یکسانی نمرات مشاهده شدة گویه ها یا

تساوي بار گویهها مرتبط است. عدم رعایت این پیشفرضباعث می شود که آلفا داراي

اعتبار کمتري باشد. به این دلیل در برخی مواقع اعتبار به عنوان مرز پائین اعتبار شناخته

.( میشود (رایکوف و شراوت، 2002 ؛ گراهام، 2006

و یا اندازه گیر ي در مقیاس یکسان) ) « معادل-تاو بودن گوی هه ا » براي بررسی

می توان انحراف معیار گویه ها را ملاحظه نمود. در صورتیکه انحراف معیار نمرات

گویههاي تشکیل دهندة یک آزمون از یکدیگر تفاوت زیادي داشته باشند، میتوان

چنین نتیجهگیري کرد که این گویهها احتمالاً در مقیاس متفاوتی اندازهگیري می شون د،

در غیر اینصورت، وجود مقیاس یکسان محتمل است. چنین بررسی میتواند توسط

41 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 41

ایجاد فواصل اطمینان پیرامون انحراف معیار انجام شود. به ای نصورت که با ایجاد

فواصل اطمینان حدود انحراف معیار، میتوان معادل بودن آنها را از نظر دیداري

بررسی کرد (گراهام، 2006 ). با این حال، رعایت نکات دیگر ي م یتواند اطمینان از

معادل-تاو بودن گویهها را حاصل کند. بهطور مثال، در صورتیکه از اشکال متفاوتی

براي دریافت پاسخ استفاده کنیم، احتمال معادل-تاو نبودن گویه ها زیاد خواهد بود

(گراهام، 2006 ). به عبارت دیگر، اگر در مقیاسی هم گویههاي صحیح و غلط و هم

گویههاي 5 درجهاي طیف لیکرت وجود داشته باشد، احتمالاً نمی توان این گویه ها را

گویههایی معادل دانست. وزنبندي یکسان گویه ها نیز از عوامل بهدست آوردن

گویههاي معادل-تا و است (بیکون، سائور و یونگ، 1995 ). در بیشتر مطالعات،

گویههاي آزمون با وزن یکسانی با همدیگر ترکیب می شوند . اگر گویه ها وزنهاي

یکسانی براي ترکیب و ایجاد یک متغیر ترکیبی نداشته باشند، احتمالاً مقیاس معادل-تاو

را نخواهیم داشت. از عوامل دیگري که بر معادل-تا و بودن اثر میگذارد، تعداد

٢ ضریب آلفا در آزمونهایی که تعداد « ک م برآورده شدن » ، گویههاست. به طوري که

گویههاي بیشتري دارند، کمتر اتفاق میافتد (گراهام، 2006 ). به این دلیل که با معاد ل-

تاو نبودن یک گویه مقدار کمی از سهم واریانس نمره واقعی تغییر می کن د و بنابراین

کم تر در معادل-تاو بودن مقیاس تأثیر می گذا رد. از طرف دیگر، در مقیاس هاي

کوچک تر، معادل-تاو نبودن یک گویه سهم بیشتري بر معادل-تاو بودن مقیاس دارد. با

اینحال، نتایج برخی از مطالعات نشان میدهد که وجود حتی یک گویه غیر معادل-تاو

میتواند بر دقت ضریب آلفا موثر باشد (رایکوف، 1997 ). با وجود اهمیت این نکات

هیچ روش دقیق و مشخصی بر اساس روشهاي مرسوم اندازه گیر ي براي بررسی

معادل-تاو بودن گویهها وجود ندارد.

٤« متجانس » ٣، معادل-تاو، اساساً معادل-تاو و « مدل موازي » بهطور کلی چهار نوع

وجود دارند که بسته به مفاهیم و عناصر محدود شده آن تعریف میگردند.

محدود ترین مدل اندازهگیري در تعریف نمرات واقعی است. در « مدل موازي » ¨

این مدل علاوه بر آن که همه گویههاي آزمون متغیر نهفتۀ یکسانی را میسنجند (مفهوم

تکوجهی بودن که در تمام آزمون هاي ثبات درونی فرض میشود)، فرضمیشود که

همه گویههاي آزمون دقیقاً معادل یکدیگر هستند. علاوهبرآن، همه گویه ها باید متغیر

42 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 42

نهفته را در مقیاس مشابهی اندازهگیري کرده که با درجه یکسانی از دقت و مقدار

یکسانی از خطا همراه باشند (گراهام، 2006 ). به عبارت دیگر، مقیاس اندازه گیر ي،

دقت و خطاي اندازهگیري همه گویهها یکسان در نظر گرفته می شود . این مطلب را

میتوان با استفاده از معادلهاي ریاضی آن به ترتیب به این صورت نشان داد:

(1) bi= … = bk = ۱

(2) ai=…= ak = ۰

(3) Var (E i) =…= Var (Ek)

ضریب بین متغیرهاي مشاهده و متغیر نهفته (بارهاي عاملی)، bi در این عبارت ها

(4) Ti = aij + bij Tj ضریب ثابت درمعادله ai واریانس خطاي اندازهگیري، و Var (Ei)

.( را نشان میدهد (رایکوف، 1997 Tj و Ti است. این معادله رابطه خطی بین نمرات

دارد به جز آنکه در این « مدل موازي » نیز ساختاري همانند « مدل معادل- تاو » ¨

مدل، خطاهاي واریانس گویهها میتوانند از همدیگر متفاوت باشند. این موضوع دلالت

بر این دارد که تکتک گویهها، متغیر نهفته یکسانی را در مقیاس یکسان و با درجه

دقت یکسانی اندازهگیري می کنند ولی احتمالاً میزان خطاي متفاوتی وجود دارد

1998 ؛ گراهام، 2006 ). معناي مفهومی این مدل آن است که اگرچه همه a ، (رایکوف

نمرات واقعیِ گویهها معادل هستند ولی هر گویه عبارتهاي خطاي منحصر به فردي

( دارد. بر حسب عبارات ریاضی پیشین میتوان گفت که در مدل معادل- تاو عبارت ( 3

درنظر گرفته نمیشود.

فرضمیکند که هر گویه، متغیر نهفته یکسانی را در « مدل اساساً معادل- تاو » ¨

یک مقیاس یکسان ولی با دقت احتمالاً متفاوتی اندازهگیري میکند. علاوهبراین، در این

مدل همانند مدل معادل-تاو احتمالاً خطاهاي اندازهگیري نیز متفاوت هستند (رایکوف،

1997 ). در این تعریف تفاوت بین دقت و مقیاس گویه برجسته شده است. در مدل

معادل- تاو فرض میشود که نمرات واقعی گویهها معادل هستند، ولی در مدل اساساً

معادل- تاو نمره واقعی گویه میتواند توسط ترکیب با یک ضریب یگانه اضافی به هر

زوج از متغیر ها متفاوت باشد. این پیشفرضبهشکل ریاضی اینگونه نوشته میشود:

(۵) Xik = (αk + Ti) + Eik

43 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 43

عبارت فوق این حقیقت را منعکس میکند که اگرچه نمرات واقعی گویهها در

مقیاس یکسانی اندازهگیري میشوند (یعنی واریانس مشابهی دارند)، ولی ممکن است

دقت متفاوتی (میانگینهاي متفاوت) داشته باشند. گنجانیدن ضریب اضافی تنها بر

میانگین گویهها تأثیر میگذارد، ولی بر واریانس و کوواریانس آنها متفاوت نیست

(گراهام، 2006 ). بر حسب عبارتهاي مشخص شده در مدل موازي، میتوان مدلی را

دانست که عبارت هاي ( 2) و ( 3) را رعایت نکرده باشد. براي « مدل اساساً معاول-تاو »

استفاده از ضریب آلفاي کرونباخ لازم است که اندازهگیري حداقل بر مبناي مدل اساساً

معادل-تاو استوار شده باشد. به این معنا که مقیاس و نمرات واقعی گویه ها یکسان

باشد.

در نهایت کمترین محدودیت در آن وجود دارد و به همین دلیل « مدل متجانس » ¨

است. در این مدل فرضمیشود که « اعتبار » عمومی ترین مدل براي استفاده در برآورد

تک تک گویهها متغیر نهفته یکسانی را با مقیاس، دقت و میزان خطاي احتمالاً متفاوت

مدل » اندازهگیري میکنند (آدامسون، شولین، لوید و لوئیس، 2000 ؛ گراهام، 2006 ). در

مدل اساساً » در این است که در « مدل با مدل اساساً معادل-تاو » تفاوت این « متجانس

٥با همدیگر متفاوت « جم عپذیر ي » نمرات واقعی گویهها توسط ضریب « معادل-تاو

هستند، در حالیکه در مدل متجانس بین نمرات واقعی گویهها رابطه خطی فرض شده

و بین هر زوج از آن ها، ضریب جم عپذیر یگانهاي وجود دارد که میتوان آنرا به این

:(1998a ، صورت نشان داد (رایکوف

(۶) Xj = aj + bj T۱

عموم یترین مدل « مدل متجانس » بهطوري که در عبارت ( 6) ملاحظه میشود

اندازهگیري است، زیرا میتوان با رعایت هریک از پیشفرضهاي مدلهاي قبلی، مدل

متجانس را به یکی از مدل هاي محدودتر تبدیل کرد. بنابراین، سه مدل مورد اشاره در

هستند و به همین دلیل است که برخی از « مدل متجانس » بالا زیر مجموعه هاي

صاحبنظران سایر مد لهاي اندازهگیري را یکی از حالتهاي مدل متجانس می دانند

.( (رایکوف و هانکوك، 2005

براي تطبیق داده هاي حاصل از اندازهگیري با هر یک از مدلها از ویژگی سلسله ¨

مراتبی مدل هاي اندازهگیري استفاده میشود. به عبارت دیگر، براي انتخاب بهترین

44 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 44

مدل، از نامحدودترین و غیراقتصاديترین مدل بهسوي محدودترین و اقتصاديترین

مدل حرکت می شود تا بهینهترین مدل انتخاب گردد (گراهام، 2006 ). بدین منظور از

٦ استفاده میشود، یعنی ابتدا از مدل متجانس شروع شده و برازش « مدلهاي آشیانهاي »

این مدل با دادهها آزمون میشود. در صورت معنیداري، مدل معادل-تا و و یا اساساً

معادل-تاو آزمون میشود، یعنی مدلی که بارهاي عاملی آن برابر با یک درنظر گرفته

میشود. در صورتیکه تفاوت در مقادیر آمارة خیدو بین این دو مدل از نظر آماري

معنیدار نبود مدل محدودتر انتخاب شده و در غیر اینصورت مدل اولی و محدودتر به

عنوان مدل مناسب برگزیده میشود. در صورتیکه مدل معادل -تاو پذیرفته ش ود، مدل

موازي آزمون میگردد و خطاهاي اندازهگیري گویهها برابر فرضم یگردند . پس از

آزمودن مدل، تفاوت مقادیر خیدو (آماره تفاوت خیدو) بررسی می گردند . همانند

مرحله قبلی، در صورت معنیدار نبودن آماره تفاوت خیدو مدل محدودتر و در غیر

این صورت مدل نامحدودتر انتخاب می گردد (رایکوف، 1997 ). بنابراین، با توجه به

٧ در اندازهگیري، اگر دو مدل بهطور منطقی برازش پیدا کنند، برآورد « بهینه بودن » اصل

مدل محدودتر از مدل با محدودیت کم تر ترجیح داده خواهد شد. به این دلیل توصیه

شده است که قبل از انجام ه رگونه عمل اندازهگیري، پیش فرض هاي برآورد اعتبار

آزمون شده و مناسبترین مدل در رابطه با دادهها انتخاب گردد.

نیز از جمله شرایط استفاده از ضریب « خطاي اندازهگیري ناهمبسته » پیشفرض ¨

آلفا است. مطالعات نشان دادهاند که همبستگی بین خطاهاي اندازهگیري بر روي برآورد

2004 ؛ کوماروف، 1997 ؛ گرین و هرشبرگر، ؛ ضریب آلفا موثر است (رایکوف، 2001

2000 ؛ لوك، 2005 ). عمده مطالعات در این زمینه نشان میدهند که انحراف از

پیشفرض خطاهاي مستقل میتواند ضریب آلفا را متورم ساخته و در نتیجه ضرایب

آلفا بیش از مقدار واقعی آن برآورد گردند (کوماروف ، 1997 ؛ گرین و هرشبرگر،

2000 ). با اینحال، برخی از نوشتهها حاکی از کم برآورد کردن اعتبار در هنگام همبسته

2004 ). ولی بهطور کلی با توجه به ؛ بودن خطاهاي اندازه گیري دارد (رایکوف، 2001

پژوهشهایی که بهطور منظم این موضوع را بررسی کردهاند، میتوان چنین برداشت

کرد که چنانچه بین خطاهاي اندازهگیري در یک آزمون، همبستگی و به خصوص

٨ میکند (زیمرمن، زومبو « بیشبرآورد » همبستگی مثبت وجود داشته باشد، آلفا اعتبار را

45 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 45

و لالونده، 1993 ). این موضوع در مطالعه دیگري نیز تأئید شد و بر اساس آن مشخص

گردید که وجود خطاي همبسته میتواند تا اندازه اي، مقداري از کمبرآورد شدن اعتبار

به علت معادل-تاو نبودن را کاهش دهد (کوماروف، 1997 ) که معر ف تعامل رعایت

نکردن هر دو پیشفرضاست. مقدار سوگیري آلفا در هنگام بروز خطاهاي همبسته

قابل محاسبه خواهد بود (رایکوف، 2001 ). ناهمبستگی بین خطاهاي اندازه گیر ي از

٩ بهدست میآید. استقلال آماري به دو موضوع اشاره « استقلال آماري » طریق اجراي

دارد: اول آنکه مقدار مشاهده شدة افراد در یک گویه مستقل از مقادیر آنها در

گویههاي دیگر باشد و دوم اینکه مقدار مشاهده شدهي افراد در گویه بهطور آزمایشی

از مقدار مشاهده شده ي هر فرد دیگر در آن گویه یا گویه ها ي دیگر متفاوت باشد

(کوماروف، 1997 ). بنابراین پیشفرض استقلال آماري در هنگامیکه آزمون مشابه

باشند یا گویههاي مقیاس، تقریب همزمان نزدیکی داشته باشند، غیر قابل دفاع خواهد

بود. همبستگی بین خطاهاي اندازهگیري به دلایل متفاوتی رخ میدهد که از آن جمله

وجود یک نظم مشخص بین گویهها خواهد بود. در نتیجه براي پرهیز از بروز چنین

مشکلی میتوان براي به حداقل رساندن ثبات تصنعی، نظم گویهها را بهصورت تصادفی

تنظیم کرد. به عبارت دیگر با اینکار میتوان امیدوار بود که پاسخ افراد به نمره واقعی

آنها وابسته است و نه به پاس خهاي آنان در گویههاي قبلی. علاوهبراین، مواردي چون

اجرا شدن همه گویهها در یک مقیاس بهطور متوالی و در یک وضعیت یکسان، داشتن

عبارتپردازي یکسان و نمرهگذاري در یک جهت نیز از مواردي است که همبستگی

بین گویهها و خطاها را افزایش داده و در نتیجه ضریب آلفا را بیشبرآورد خواهد کرد

.( (گرین و هرشبرگر، 2000

دشواري رعایت پیشفرض ها به همراه فقدان قابلیت بررسی و آزمون آنها در ¨

روشهاي مرسوم اندازهگیري، ابهاماتی را در دقیق بودن ضریب آلفا بهوجود میآورد. به

همین خاطر معمولاً از ضریب آلفا به عنوان برآورد غیردقیق اعتبار یاد م یشو د. با

اینحال، در مواقعی که تعداد نسبتاً زیادي از مولفهها وجود داشته باشند (بیشتر از 6)، یا

0) و خطاهاي / بارها بهطور بالایی در یک سازة نهفتۀ مشترك بار داشته باشند (حداقل 6

اندازهگیري ناهمبستهاي وجود داشته باشند استفاده از آلفا مجاز خواهد بود (رایکوف ،

.(2004 ؛2001

46 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 46

با توجه به مطالبی که گفته شد میتوان نتیجه گرفت که در استفاده از ضریب ¨

حداقل دو مشکل وجود دارد. مشکل اول برآورده کردن « شاخص اعتبار » آلفا به عنوان

پیشفرضهاي لازم براي استفاده از ضریب آلفا و مشکل دوم آزمون کردن هر یک این

پیشفرضها در رابطه با دادههاي در دسترس میباشد. براي حل مشکل اول روشهاي

جايگزین ضریب آلفا پیشنهاد شده است. به عنوان نمونه در پیشفرض ناهمبسته بودن

خطاهاي اندازهگیري گویهها، در مدل معادلات ساختاري خطاهاي اندازه گیر ي را به

خطاي همبستۀ تولید شده توسط عامل و خطاي همبسته تولید شده توسط خطاي

اندازهگیري تفکیک میکنند. خطاي همبستهاي که توسط عاملها تولید م یشود واریانس

معتبر را مورد توجه قرار میدهد، در حالیکه خطاهاي همبسته تولید شده توسط خطاي

.( را درنظر میگیرند (گرین و هرشبرگر، 2000 « نامعتبر » اندازهگیري تصادفی واریانس

براي مواقعیکه مدل اساساً معادل-تاو نیست نیز روشهاي دیگري جايگزین ضریب

آلفا شدهاند که از آن جمله روش امگا یا معادل آن روش اعتبار سازه (بیکون، سائور و

یونگ، 1995 ؛ رایکوف و شراوت، 2002 ؛ زینبرگ، رول و یوول، 2007 )، روش امگ اي

وزنبندي شده (بیکون، سائور و یونگ، 1995 ) و روش ه اي موجود در روش مدل

معادلات ساختاري هستند. براي حل مشکل دوم (عدم توانایی براي آزمون کردن

پیشفرضها) مناسبترین و رایجترین روش، استفاده از مدل معادلات ساختاري است.

در این مقاله سعی میشود که جنبه هاي استفاده از شاخص ها و روشهاي ویژه موجود

در مدل معادلات ساختاري براي برآورد اعتبار و همچنین آزمون پیش فرض ها مورد

بررسی قرار گیرند. همچنین برخی مطالعات نشان دادهاند که ضریب آلفا نسبت به

( وجود نقاط پرت تأثیرپذیر است (لیو و زومبو، 2007

کاربرد روش مدل معادلات ساختاري در برآورد اعتبار ابزار به علت قابلیت ها و ¨

مزایاي استفاده از آن رواج یافته است. مهمترین دلیل استفاده از این روش عدم اجبار

براي رعای تکردن پیشفرض هاي سخت و جدي است که در روش آلفا وجود دارد. در

این روش امکان آن وجود دارد که از مدل اندازهگیري کمتر محدودشده اي همانند مدل

متجانس استفاده شود و در نتیجه الزام استفاده از مدل اساساً معادل -تاو از بین می رود

(آدامسون و همکاران، 2000 ؛ رایکوف، 1997 ؛ رایکوف و شراوت، 2002 ). خطاهاي

ناهمبسته نیز از جمله پیشفرضهاي اساسی در ضریب آلفاست که به عنوان همبستگی

47 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 47

خطاي اندازهگیري درنظر گرفته میشود، ولی در روش مدل معادلات ساختاري کاملاً

١٠ درنظر گرفته نمیشود بلکه به عنوان « خالصیا ناب » به صورت خطاي اندازهگیري

عوامل باقیمانده مشخصنشده مورد توجه قرار میگیرند. این نمرات باقیمانده هم

مولفههاي تصادفی و هم مولفههاي غیرتصادفی را در بر می گیرند. خطاهاي همبسته

بهصورت همپراکندگی تولید شده توسط مولفههاي غیرتصادفی یا عواملی هستند که

لزوماً بهصورت نااعتبار ملاحظه نمیشوند (گرین و هرشبرگر، 2000 )، در نتیجه می توان

بین خطاهاي اندازهگیري گویهها همبستگی درنظر گرفت. به عبارت دیگر، دو گویه

می توانند تأثیرات تصادفی مشترکی را دربرگیرند که در نمرات خطاي مرتبط با آنها

مشترك بوده و به همبستگی بین این خطاها منجر شوند (رایکوف، 2001 ؛ کوماروف،

1997 ). علاوه بر مزیت آزاد بودن از رعایت پیش فرض ها، در روش هاي برگرفته از

مدل معادلات ساختاري امکان محاسبه اعتبار با استفاده از عملکرد وزنبندي کردن

گویهها نیز وجود دارد. استفاده از بارهاي غیر مساوي گویه ها براي برآورد اعتبار در

زمانی که گویهها بهطور مساوي بر برآورد ساز هها تأثیر نمیگذارند، مفید است (بیکون،

1998 ). همچنین به علت انعطاف بالاي روش مدل a ، سائور و یونگ، 1995 ؛ رایکوف

معادلات ساختاري امکان بررسی تفاوتهاي گروهی در اعتبار مرکب، بررسی تفاوت

اعتبار در نسخههاي متفاوت ابزار اندازه گیري (مثلاً نسخه قلم و کاغذي در مقابل نسخه

1998 )، به دست a ، رایانهاي) (رایکوف، 2004 )، استفاده از دادههاي مقوله اي (رایکوف

آوردن خطاهاي معیار و فواصل اطمینان براي اعتبار مرکب در حالتی که به پیش فرض

،( 1998 ؛ رایکوف و شراوت، 2004 a ، نرمال بودن مولفهها وابسته نباشند (رایکوف

فراهم میگردد. امکان محاسبه میزان سوگیري و کمبرآوردي ضریب آلفا نیز از دیگر

2001 ). به تمامی ؛1998b ؛ قابلیتهاي روش مدل معادلات است (رایکوف، 1997

مزایاي اشاره شده میتوان امکان آزمون کردن پیشفرضها را اضافه نمود که با سایر

روشها قابل انجام نیست.

با وجود مزایاي مدل معادلات ساختاري در برآورد اعتبار، ملاحظاتی در مورد

استفاده از این روش باید انجام پذیرد که مهمترین آن نیاز به نمونههاي بزرگ

مشارکتکنندگان است. این امر بهویژه در مورد دادههاي طبقهاي که تعداد محدودي

گزینه براي پاسخ دارد، از اهمیت خاصی برخوردار است زیرا در اینگونه مواقع روش

48 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 48

١١ براي آزمون مدل مورد نیاز بوده که این « مجذورات وزنبندي شده » برآورد حداقل

روش حساسیت زیادي در مورد استفاده از نمونههایی دارد که به طو ر بهینه بزرگ

2004 ). لذا در این موقعیتها استفاده از ؛2001 ؛ شناخته میشوند (رایکوف، 1997

نمونههاي کوچک براي برآورد اعتبار مرکب گمراهکننده است. علاو ه بر ای ن، تعداد

گویهها ملاحظه قابل توجهی در آزمون مدل هاي اندازهگیري بهشمار میرود. در مواقعی

که تنها دو گویه وجود داشته باشد، روشهاي محاسبه اعتبار تنها براي مدل هاي موازي

یا معادل -تاو قابل کاربرد هستند زیرا براي حالت آزمون موازي، مدل دو پارامتر آزاد

١٢ است (درجه آزادي برابر با یک است). در این « بیششناساییشده » دارد و بنابراین

موقعیت با افزودن محدودیتهاي اضافی همچون برابري بارهاي شاخص(مدل معادل-

تاو) و یا برابري واریانس خطا (مدل موازي) مدل در حالت قابل برازشی قرار میگیرد

(رایکوف و هنکوك، 2005 ). براي مدل معادل -تاو، این مدل سه پارامتر آزاد دارد و

١٣ است (درجه آزادي برابر با صفر است). مدل متجانس در این « کاملاً شناساییشده »

وضعیت کم شناساییشده بوده (درجه آزادي آن منفی است) و بنابراین کاربرد عملی

ندارد (یورسکاگ و سوربوم، 1993 ). در زمانی که سه گوی ه وجود دارد، مدل متجانس

١٤« مدل اشبا عشد ه » کاملاً شناساییشده و قابل برآورد میشود ولی نمی توان آن را با

.( مقایسه کرد زیرا هر دوي این مدلها داراي درجه آزادي صفر هستند (رایکوف، 1997

با گویههاي بالاتر از چهار، تمامی مدلها کم شناسای ی شد ه بوده و در مقابل مدل

اشباعشده قابل دفاع خواهند بود.

در استفاده از مدل معادلات ساختاري براي برآورد اعتبار روشهاي مختلفی ¨

پیشنهاد شده است. بهطور کلی می توان این روشها را به دو دستهي روش ه اي مبتنی

بر تک تک گویهها یا متغیرهاي مشاهده شده و روشهاي مبتنی بر ترکیب متغیرهاي

مشاهده شده تقسیم نمود. گرایش بیشتر پژوهشگران و صاحبنظران بر استفاده از

روشهاي مبتنی بر ترکیب گویه هاست تا به این وسیله بتوانند جایگزینهاي مناسبی را

براي روشهاي مرسومی همچون آلفا پیشنهاد دهند. با این وجود در ابتدا روش ه اي

مبتنی بر تک تک گویهها معرفی میگردند.

مشخصشد که اعتبار قسمتی از اندازهگیري است که مشمول « اعتبار » در مفهوم ¨

اعتبار به عنوان ،« مدل معادلات ساختاري » خطاي تصادفی نمیشود. بنابه تعریف در

49 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 49

تعریف میشود (راین س- « واریانسی که به وسیله خطاي اندازهگیري تبیین نمیشود »

128 ). مشهورترین شاخصی که بر مبناي بررسی ت کتک گویه ها معرفی ، اودي، 2000

١٥ نام دارد که نشا ندهند ه مقدار « ضریب مجذور همبستگی چندگانه » ، شده است

توسط متغیر نهفته است (راینس- اودي، 2000 ؛ قاضی x واریانس تبیین شده در متغیر

طباطبایی، 1377 ؛ یورسکاگ و سوربوم، 1993 ). این شاخص به عنوان حد پائین اعتبار

مورد توجه قرار میگیرد، به این معنی که اعتبار هر گویه حداقل برابر x براي متغیرهاي

با مجذور همبستگیهاي چندگانه است (قاضی طباطبایی، 1377 ؛ یورسکاگ و سوربوم،

1993 ). مقادیر این شاخص از طریق خروجیهاي برنام ههاي رایانه اي مدل معادلات

بهدست میآیند و مقدار آن بین صفر و یک است. جهت LISREL ساختاري همچون

0 به عنوان ضرایب مناسب درنظر گرفته / تفسیر این شاخص ها، مقادیر بالاتر از 5

میشوند (راینس- اودي، 2000 ). همچنین جداي از این شاخص، همبستگی هر گویه

با متغیر نهفته در هر زیرمقیاس نیز به عنوان ضریبی براي ثبات درونی هر گویه معرفی

.( شده است (عابدي، 2002

راهبرد دوم ترکیب متغیرها که رواج زیادي پیدا کرده است، ترکیب همه گویه ها ي

١٦ یاد می شو د. این « اعتبار مرکب » یک عامل با همدیگر است که از آن روش به عنوان

روش بر اساس مفهوم اصلی اعتبار در نظریه کلاسیک آزمون بنا شده است که اعتبار را

به عنوان سهم واریانس نمره واقعی به واریانس نمره مشاهده شده درنظر میگیرد. بدین

منظور لازم است که برآوردهایی براي واریانس نمره واقعی و واریانس نمره مشاهده

شده داشته باشیم. واریانس نمره مشاهده شدهي یک اندازه میتواند توسط ایجاد یک

متغیر مشاهده شده ترکیبی در دسترس قرار گیرد که توسط جمع واریانسهاي تکتک

متغیرهاي مشاهده شده بهوجود میآید (گراهام ، 2006 ). در این روش یک شاخص

آماري براي برآورد اعتبار مجموعه اي از گویهها که در یک عامل قرار دارند ارائه

میشود. با توجه به نوع ترکیب گویهها و وضعیت خطاهاي آنها (با خطاي همبسته و

بدون خطاي همبسته) فرمولهاي چندگانهاي پیشنهاد شده است که قابل تبدیل به

یکدیگر میباشند. در حالت کلی و مدلهاي متجانس و ه مچنین گویه ها ي وزنبندي

، نشده، اعتبار مرکب بهوسیله این فرمول بهدست می آی د (آدامسو ن و همکارا ن، 2000

:(345 ، 973 ؛ رایکوف، 2004

50 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 50

å å

å

= =

=

+ k

i 1 ii

k

i 1

2

i

k

i 1

2

i

( )

( )

b

b θ ( = اعتبار مرکب ( 7

å= دراین عبارت

k

مجموع ضرایب بین متغیرهاي مشاهده شده و نهفته i 1bi

å= گویه و k ( (بارعاملی

k

i 1 ii گویه را نشان م یده د. در k مجموع واریانس هاي خطاي θ

صورتیکه بین خطاهاي اندازهگیري همبستگی وجود داشته باشد، از فرمول زیر استفاده

:(344 ، میشود (رایکوف، 2004

å å å

å

= = £ < £

=

+ +

1 i j k jj

k

i 1 ii

k

i 1

2

i

k

i 1

2

i

( ) θ 2 θ

( )

b

( اعتبار مرکب ( 8 = b

کوواریانس خطاي غیرصفر است. qjj(1£i< j£k) در این عبارت

این دو فرمول قابل تبدیل به وضعی ت گوی ه ها ي وزنبندي شده هستند. در

این حالت، گویهها با وزنهاي خاصی با همدیگر ترکیب شده و نمره مرکبی را بهوجود

میآورند. نمره مرکب از طریق عبارت زیر بهدست میآید:

(9)Y = w1y1 + w2y2 + ... + wkyk

از پیش مشخصهستند (چگونگی بهدست wk ،... ،w2 ،w دراین عبارت وزن هاي 1

آوردن وزنها در قسمت هاي بعدي توضیح داده خواهد شد). اعتبار مرکب یک آزمون

:(344 ، وزنبندي شده از طریق فرمول زیر محاسبه میگردد (رایکوف، 2004

å å

å

= =

=

+ k

i 1 ii

2i

k

i 1

2

i

k

i 1

2

i

( i ) θ

( i )

w b w

( اعتبار مرکب ( 10 = w b

:(345 ، در حالت خطاهاي همبسته (رایکوف، 2004

å å å

å

£ < £

= =

=

+ +

1 i j k

i j jj

k

i 1 ii

2i

k

i 1

2

i

k

i 1

2

i

( i ) θ 2 w w θ

( i )

w b w

( اعتبار مرکب ( 11 = w b

روش هایی که در بالا توضیح داده شد، برآورد نقطه اي اعتبار مرکب را نشان

میدهند. میتوان با استفاده از روشهایی برآورد فاصله اي اعتبار مرکب را نیز محاسبه

کرد. برآورد فاصلهاي در مطالعات اعتبار میتواند مفید باشد. بر پایه چنین روشهایی

نتایج حاصل از برآورد اعتبار به فواصل مشخصی تعریف میشود (رایکوف و شراوت،

.(2002

51 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 51

علاوه بر روش بالا م یتوان اعتبار مرکب را از طریق تعریف پارامترهاي جدید در

١٧ در مدلها محاسبه نمود. این کار از طریق تعریف « برازش شده » یک مدل از قبل

١٨ امکانپذیر است. در این روش با محدود کردن ضرایب در نمرات « متغیر خیالی »

مشاهده شده، نمرههاي مشاهده شده به مجموع نمرات خطا و نمره واقعی تجزیه

نامیده میشوند، با همدیگر ترکیب میگردند تا نمره Xi میشوند. سپس این نمرات که

به وجود آید. مجذور همبستگی متغیر خیالی با متغیر نهفته اعتبار مرکب (F) متغیر خیالی

آزمون را نشان خواهد داد (رایکوف ، 1997 ؛ گراهام ، 2006 ). شکل نمادین ساخت

متغیر خیالی در شکل 1 مشخصشده است.

.(176 ، شکل 1- چگونگی ساخت متغیر خیالی (منبع: رایکوف، 1997

می توان بهجاي محدود کردن پارامترها در عدد یک، از وزنهاي شناخته شدهاي

براي هریک از مسیرها استفاده کرد. در انتخاب این وزنها (wk ،... ،w2 ،w (همچون 1

میتوان یا از پژوه شهاي قبلی و یا از دانش نظري توسط صاحبنظران استفاده کرد.

T

X٢ X٣ … Xk

F

E٢ E٣

Ek

١

١ ١

٭ ٭ ٭

٭٭٭

١ ١

52 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 52

همچنین با توجه به قابلیت عدم الزام براي تشخیص دقیق ضرایب مسیر، میتوان از

به عنوان وزن استفاده نمود (رایکوف ، 1997 ). بنابراین با (λi) برآوردهاي بار عاملی

میتوان متغیر خیالی را بهوجود wi=λi محدود کردن ضرایب نمرات مشاهده شده در

آورده و از طریق آن برآوردي از اعتبار مرکب وزنبندي شده را بهدست آورد. به طور

کلی کاربرد این روش با استفاده از نرمافزارهاي آماري مدل معادلات ساختاري قابل

انجام است. دراستفاده از این روش باید بهخاطر داشت که از مدلهایی استفاده گردد که

قبلاً ساختار آنان برازش یافته باشد.

١٩« اعتبار بیشینهاي » در نهایت، روش آخري که مورد بحث قرار می گیرد، ضریب ¨

است که به عنوان شاخص اعتبار سازه تعریف میشود که میتوان سازه نهفته را

توسط شاخصهاي سازه درنظر « لحاظ شده » بهصورت مقداري تعریف شده و یا

گرفت (رایکوف و هنکوك، 2005 ). اعتبار بیشینهاي به عنوان آخرین شاخص براي

برآورد اعتبار در روش مدل معادلات ساختاري پیشنهاد شده است. این شاخص از

ترکیب مجموعهي از پیش تعریف شدهاي از مولفههاي متجانس با عبارتهاي خطاي

ناهمبسته تشکیل شده است. این روش میتواند در ساخت، توسعه و تجدید نظر مقیاس

بهینه به کار آید. قابلیت مهم آن در سنجش تغییرات اعتبار بیشینهاي در نتیجه حذف و یا

افزودن یک یا چند اندازه است. همچنین با استفاده از ترکیب خطی وزنبندي شده

می توان اعتبار مرکبی را بهوجود آورد که داراي بالاترین درجه تفکیکپذیري در جنبه

نهفته مورد نظر بوده و حداقل واریانس خطاي نسبی ممکن را داشته باشد. با این

ترکیب وزنبندي شده آماره رضایتبخشی از نمره توانایی نهفته بهدست م یآید .

بررسیهاي تجربی نشان میدهند هنگامیکه نمرات عامل با روش برآورد حداقل

٢٠ در یک مدل تکعاملی برآورد م یشود، اعتبار بیشین هاي با « مجذورات عمومی شده »

روش متغیر خیالی (مجذور همبستگی بین عامل و ترکیب برآورد کننده ه ا) مساوي

.( است (رایکوف و هنکوك، 2005

تعیین وزن ها از اهمیت خاصی برخوردار است. « اعتبار بیشینهاي » در روش ¨

روشهاي متفاوتی براي اینکار پیشنهاد شده که در قبل به چند مورد از آنها اشاره شد.

در تکمیل این بحث دو روش دیگر نیز معرفی میشود که اولی به صورت نسبت بار

53 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 53

عاملی به خطاي آن است که میتوان آنرا بهصورت زیر نوشت (کانجر، 1980 ، به نقل

:( از رایکوف و هنکوك، 2005

(i , ,...,m) θ

w β

i

* i

i (12) = =12

دومین روش که کاربرد زیادي در اعتبار بیشینهاي دارد به نسبت مجذور بارهاي

به خطاي مرتبط با آن تعریف میگردد که به این صورت (η اندازهها در جنبه مشترك ( 1

آنرا میتوان نشان داد:

( ,..., ) * i m

i

i

wi 1,2

2

= = q

(13) b

(ρi با ملاحظه چگونگی محاسبه وزن ها، ضریب اعتبار بیشینه اي جامعه

(* به این

:(68 ، صورت محاسبه میشوند (رایکوف و هنکوك، 2005

å

å

=

=

+

= m

i 1 i i

m

* i 1 i i

(m) ( )

( )

θˆ

βˆ

θˆ

βˆ

ρˆ 2

2

1

(14)

آزمون تغییرات در اعتبار بیشینهاي به عنوان نتیجهاي از حذف و افزودن متغیرها ¨

یکی ازجنبههاي مهم این روش است. بنابر این روش، اگر بخواهیم که ابزاري با

اندازه متجانس m بالاترین اعتبار بیشینه اي را از طریق مجموعه از پیشتعریف شده اي با

باید بالاترین نسبتهاي مجذور بار ،(m>k) ،( اندازه k در اندازه معینی بسازیم (مثلاً

شاخص در واریانس خطاي مرتبط ( )

θ

β

i

i

2 را انتخاب کنیم. در نمونههاي معین از جامعه

مورد علاقه، ترتیب رتبه و انتخاب باید بر حسب نسبتهاي

q

b

ˆ

ˆ

i

از (i = 1,2,...,m) ، i

مولفه انجام میشود. پس از انتخاب m پارامترهاي برآورد شده در هنگام برازش مدل با

مولفه، برآورد بیشینهاي مجموعه کوچکتر محاسبه میشود و سپس آزمون معنی داري k

تغییرات در اعتبار بیشینهاي انجام میشود. فرضصفر در این آزمون به این صورت

است:

r r*

( )

*

H0 (m) = k (15) =

c2 c2 c آماره آزمون بر اساس 2

m k m k

D = -

( , ) محاسبه شده که براي نمونههاي بزرگ

درجه آزادي پیروي میکند. اگر خیدو تفاوت معن یدار m-k از توزیع خیدو مرکزي با

بود، فرض صفر رد می شود و نتیجه گرفته می شود که اعتبار بیشینهاي به عنوان نتیجه اي

m-k اندازه، کاهش خواهد یافت و یا با افزودن m مولفه از مجموعه اولیه m-k از حذف

54 / مجلۀ روانشناسی 53 / مقایسه ضریب آلفا و روشهاي ... / 54

اندازه اعتبار افزایش خواهد یافت (رایکو ف و هنکوك، k اندازه در مجموعه اولیه

2005 ). ذکر این نکته لازم است چنان چه در اعتبار بیشین هاي فرضمیشود هنگام

حذف اندازهها از مجموعه اولیه اندازههاي متجانس، هیچ گاه اعتبار بیشین هاي بالاتري

بهدست نمیآید و تنها میتوان بررسی کرد که آیا کاهش چندین اندازه میتواند از نظر

آماري بر کاهش اعتبار بیشینهاي موثر باشد یا نه؟ برآورد نقطهاي میزان تغییرا ت اعتبار

بیشینهاي نیز میتواند با استفاده از فرمول مربوطه و همچنین متغیر خیالی بهدست آید.

توجه به ملاحظاتی لازم است؛ از جمله آنکه « اعتبار بیشینهاي » در استفاده از ¨

و همراه با رعای ت k= تعداد اندازهها در کوتاهترین ابزار مورد بررسی باید به میزا ن 2

باشد. همچنین براي کاربرد این روش با نرمافزارهاي موجود کنونی، باید m>k

مولفه هاي (تقریباً) پیوستهاي را مورد بررسی قرار داد، در غیر اینصورت میتوان از

٢١ استفاده نمود. علاو ه بر ای ن، این « ساخت بسته » ماتریس همبستگی پلیکوریک و یا

روش بر اساس مولفههاي متجانس و خطاي اندازهگیري ناهمبسته استوار شده است.

بنابراین، اگر حداقل یکی از این پیشفرضها رعایت نشود، مدل توصیف شده ممکن

٢٢ باش د « زیربهینهاي » است نتایج گمراه کنندهاي را بهبار آورده و مستلزم ترکیب ابزار

(رایکوف و هنکوك، 2005 ). بنابراین قبل از اینکه از این روش استفاده شود، باید مدل

تکعاملی در همه مولفهها برازش شده و برازش آن براي قابل دفاع بودن و مناسب

بودن شاخصهاي اصلاح در کوواریانس خطا مشخصشود.

مقدمه اي بر همتراز سازي (equating) كه معادل سازي يا برابرسازي نيز ترجمه شده است

در بسیاري از موقعیت هاي روانشناختی و آموزشی، چندین فرم از یک آزمون براي سنجش

توانایی پیشرفت عملکرد و مانند آن قابل استفاده است. وقتی چند فرم آزمون براي اندازه گیري

توانایی یکسانی اجرا می شود در حقیقت قادر به مقایسه نمرات آزمون افراد هستیم با آزمون هاي

موازي این کار به صورت مستقیم انجام می شود. آزمون هاي موازي محتواي یکسانی را اندازه می

گیرند و ویژگی آماري مشترکی دارند ( تساوي میانگین، انحراف استاندارد و پایایی).

نمره ها در آزمون هاي موازي کاملاً قابل تعویض بوده و هیچ مشکلی در زمینه مقایسه

نمرات در فرم هاي موازي آزمون پیش نمی آید. اغلب، چند فرم از یک آزمون که ویژگی

یکسانی را اندازه می گیرند موازي نبوده و مقایسه ي نمرات به راحتی انجام نمی شود چون

فرم هاي مختلف آزمون در چند خصوصیت با هم تفاوت دارند (عدم تساوي میانگین ها،

واریانس ها، پایایی ها و مانند آن) بنابر این قبل از مقایسه نمرات آزمودنی ها در چند فرم از

یک آزمون ایجاد تعادل بین نمرات خام در فرم هاي مختلف از یک آزمون لازم است این عمل

همتراز سازي 1 آزمون ها نام دارد. اگر چه نظریه پردازان و عمل کنندگان به نظریه ها با هم

اختلاف عقیده دارند براي نمره هاي همتراز شده شرایطی وجود دارد که باید به اتفاق نظ ر

برسند مانند شرایطی که بعد از اجراي روش هاي همتراز سازي نمرات بدست آمده است.

روش همتراز سازي نه فقط باید بتواند توانایی مبادله ي نمرات را داشته باشد بلکه باید

به محتواي آزمون و جامعه هدفی که آزمون براي آنها در نظر گرفته شده نیز مربوط باشد.

به منظور دقت بیشترچهار ویژگی لازم براي نمره هاي آزمون همتراز شده در زیر آمده

(2005 است. ( گراجتر و وندرکمپ 2

خانم دكتر اكبري