سنجش و اندازه گیری

سنجش و اندازه گیری سازه های انسانی و رفتاری و زمینه های وابسته به آن (ضرغامی09122263167)

استفاده از ROC در تعیین نقطه ی برش

ROC،  مخفف Receiver Operating Characteristics می باشد. ROC یک ابزار مدل سازی قوی است که در تصمیم گیری های پژشکی، روانشناسی، مخابرات و در زمانی که نیاز به ارزش های آستانه ای مد نظر است استفاده می شود. منحنی ROC یک نمودار پراگندگی از حساسیت (Sensitivity)  برای یک سیستم طبقه بندی کننده ی باینری است که آستانه ی تمییز آن متغییر است. برای تشکیل نمودارهای ROC به دو طبقه بندی نیاز است. یکی طبقه بندی واقعی و دیگری طبقه بندی پیش بینی شده بر اساس مدل. مثلا در مورد چند سوال که یک بیماری روانی را می سنجد آستانه تعریف می کند، طبقه بندی ها عبارتند از: 1. نظر متخصصان روانشناسی و روان پژشکی در جداسازی افراد بیمار و غیر بیمار. این طبق بندی طبقه بندی ملاک یا واقعی ما به شمار می آید. و 2. طبقه بندی افراد بر اساس پرسشنامه طرح شده.

این طبقه بندی ها منجر به تشکیل یک جدول 2*2 می شود که به صورت زیر است.

   

بر اساس این جدول آماره هایی تعریف می شود. این آماره ها عبارتند از:

TPR = TP / P = TP / (TP + FN)

FPR = FP / N = FP / (FP + TN)

ACC = (TP + TN) / (P + N)

SPC = TN / N = TN / (FP + TN) = 1 − FPR

PPV = TP / (TP + FP)

NPV = TN / (TN + FN)

FDR = FP / (FP + TP)

F1 = 2TP / (P + P')

نام آماره ها به ترتیب عبارتند از: حساسیت یا فراخواننده یا نرخ موفقیت، فرونشست، صحت، اختصاصی بودن، ارزش پیش بینی مثبت، ارزش پیش بینی منفی، نرخ کشف غلط، ضرییب همبستگی متیوز و نمره ی F1. اگر فرض کنیم نداشتن بیماری حالت نرمال باشد و داشتن بیماری حالت نرمال با میانگین متفاوت از توزیع نرمال به این صورت نمودار زیر را داریم:

 

برای ترسیم نمودار ROC باید محورهای افقی و عمودی تعریف شوند. محورx در این نمودار عبارت است فرونشست محور عمودی عبارت است از حساسیت.  نمودار  ROC دارای شکل زیر است:

 

 

هر چه نقاط به سمت بالا و چپ نزدیک تر باشد مناسب تر است و مدل پیش بینی به حالت ایده آل خود نزدیک تر است. مختصات نقطه ی (1و0) حالت ایده آل است. این نقطه نشان می دهد که آنچه مدل پیش بینی ارائه می دهد انطباق کامل بر مدل واقعی دارد. نقطه ی مقابل آن دارای مختصات (0و1) است و به این معنا است که هر چه مدل پیش بینی ارائه داده عکس مدل واقعی است. این قسمت از فضای نمودار ROC نیز جالب توجه است و باید نتیجه ی سوالاتی که منجر به این حالت شده را عکس کرد. اما در صورتی که مدل تصادفی عمل کند نقاط در اطراف خط y=x قرار می گیرند. طبقه سازهایی مثل درخت تصمیم گیری که منجر به طبقات گسسته می شوند و بیزین ساده و شبکه های عصبی که ارزش های احتمالی تولید می کنند، می توانند دارای یک مقدار آستانه شوند و در این صورت یک نقطه در نمودار ROC پیدا خواهند کرد یعنی برای آنها جدول وابستگی (Contingency ) یا  جدول گم گشتگی(Confusion) تعریف می شود. مساحت زیر منحنی های ROC بیانگر عملکرد خوب پارامتر در تمایز بین دو گروه تشخیص است مثل دو گروه نرمال و بیمار.

برای استفاده از نرم افزارهایی که ROC را انجام می دهند باید پارامتری داشته باشید که می خواهید آنرا بسنجید و یک تشخیص مستقل که گروه مورد مطالعه ی شما را به دو بخش جداگانه تبدیل می کند. باید ابزار مورد اندازه گیری و تشخیص انجام شده کاملا مستقل از یکدیگر باشند. بنابراین برای سوالات دروغ سنج به خاطر عدم وجود تشخیص مستقل امکان استفاده از تحلیل های ROC  وجود ندارد. اما در مواردی مثل بی تصمیمی در صورتی که ما یک گروه بالینی یا هر معیار دیگری داشته باشیم که بتواند افراد را به طور جداگانه به دو دسته ی بی تصمیم و تصمیم گیرنده ی شغلی تقسیم کند می توانیم از این ابزار یعنی از تحلیل های ROC برای یافتن بهترین نقطه ی برش برای پرسشنامه مان استفاده نماییم. به دلیل همین ویژگی این تحلیل ها به طور گسترده در پژشکی، روانپزشکی و روانشناسی استفاده می شود.

زمانی که نقطه برش متفاوت انتخاب می شود مقادیر FPT و TPF متفاوت می شود. بر اساس مساحت بین منحنی ROC و خط y=x قدرت منحنی های ROC مشخص می شود. هر چه این مساحت کمتر شود نشان می دهد که مدل پیش بینی قدرت ضعیف تری دارد و هرچه مساحت افزایش یابد نشان از قدرت مدل پیش بینی و نزدیکی آن به مدل حقیقی است. سوالی که مطرح است این است که نقطه ی برش چگونه مشخص می شود؟ نقطه ی برش یکی از استفاده ها ی تحلیل های ROC است، یک کاربرد دیگر آن تحلیل اقتصادی برای کمک به تصمیم گیری درباره ی آستانه ی آزمون است. نمودارهای ROC سود و زیان را سبک و سنگین می کنند. نمودارهای ROC، موفقیت در برابر زنگ شکست است و متخصص بر اساس جمع بندی های خود به نتیجه می رسد که چه نقطه ای برای آستانه مناسب است.

ارزش میانگین هزینه ها در استفاده از آزمون تشخیصی به صورت زیر محاسبه می شود:

Cavg = C0 + CTP*P(TP) + CTN*P(TN) + CFP*P(FP) + CFN*P(FN)

C0 هزینه ی اضافی در هر آزمون است

CTP هزینه ی در ارتباط با یک نتیجه ی نثبت درست است و

P(TN) احتمال نتیجه ی مثبت درست است. و مقدار آن برابر است با:

یا P(TP) = P(D+) x P(T+|D+)

P(TP) = P(D+) x TPF

بنابراین داریم:

Cavg = Co + CTP*P(D+)*P(T+|D+) + CTN*P(D-)*P(T-|D-) + CFP*P(D-)*P(T+|D-) +

CFN*P(D+)*P(T-|D+)

یا

Cavg = Co + CTP*P(D+)*TPF + CTN*P(D-)*TNF + CFP*P(D-)*FPF + 

 CFN*P(D+)*FNF

ما می توانیم به جای TNF از و FNF به ترتیب از 1 – FPF و 1 – TPF استفاده کنیم. بنابراین دو معادله ی زیر را خواهیم داشت:

Cavg = Co + CTP*P(D+)*TPF + CTN*P(D-)*(1-FPF) + CFP*P(D-)*FPF +

            CFN*P(D+)*(1-TPF)

 

Cavg = TPF * P(D+) * { CTP - CFN } +FPF * P(D-) * { CFP - CTN } + Co +

           CTN*P(D-) + CFN*P(D+)

 

بنابراین در نهایت هزینه ی متوسط به  TPF و FPF وابسته است.

Cavg بر اساس آستانه های متفاوت مقادیر متفاوت می گیرد . بنابراین بر مبنای زوج مرتب های مختلف cavg و مقادیر مختلف آستانه منحنی بدست می آید. جایی که منحنی کمترین مقدار را دارد یعنی شیب آن برابر با صفر است به عنوان مناسب ترین نقطه ی برش در نظر گرفته می  شود. در شکل زیر نمونه ای ارائه شده است.

 

نرم افزارهایی که می توان از طریق آن مقدار نقطه ی برش را برآورد کرد عبارتند از:

Spss, matlab, excel, medcal, sas

+ نوشته شده در  شنبه 4 اردیبهشت1389ساعت   توسط محمد حسین ضرغامی  |