رگرسيون لجستيك
رگرسيون لوژستيك (لوجستيك)
زماني كه متغيير وابسته ي ما دو وجهي است و مي خواهيم از طريق تركيبي از متغييرهاي پيش بين دست به پيش بيني بزنيم بايد از رگرسيون لوجستيك استفاده كنيم. چند مثال از كاربردهاي رگرسيون لوژستيك در زير ارائه مي گردد.
1. در فرايند همه گير شناسي ما مي خواهيم ببينيم آيا يك فرد بيمار است يا خير. اگر به عنوان مثال بيماري مورد نظر بيماري قلبي باشد پيش بيني كننده ها عبارتند از سن، وزن، فشار خون سيستوليك، تعداد سيگارهاي كشيده شده و سطح كلسترول.
2. در بازاريابي ممكن است بخواهيم بدانيم آيا افراد يك ماشين جديدي را مي خرند يا خير. در اينجا متغييرهايي مانند درآمد سالانه، مقدار پول رهن، تعداد وابسته ها، متغيرهاي پيش بين مي باشند.
3. در تعليم و تربيت فرض كنيد مي خواهيم بدانيم يك فرد در امتحان نمره مي آورد يا خير.
4. در روانشناسي مي خواهيم بدانيم آيا فرد يك تكليف را انجام مي دهد يا خير.
در تمام موارد گفته شده متغيير وابسته يك متغيير دو حالتي است كه دو ارزش دارد. زماني كه متغيير وابسته دو حالتي است مسايل خاصي مطرح مي شود.
1. خطا داراي توزيع نرمال نيست.
2. واريانس خطا ثابت نيست.
3. محدوديت هاي زيادي در تابع پاسخ وجود دارد.
مشكل سوم مطرح شده مشكل جدي است. مي توان از روش حداقل مجذورات وزني براي حل مشكل مربوط به واريانس هاي نابرابر خطا استفاده نمود. بعلاوه زماني كه حجم نمونه بالا باشد مي توان روش حداقل مجذورات برآوردگرهايي را ارائه مي دهد كه به طور مجانبي و تحت موقعيت هاي نسبتا عمومي نرمال مي باشند.
ما در رگرسيون لوژستيك به طور مستقيم احتمال وقوع يك رخداد را محاسبه مي كنيم. چرا كه فقط دو حالت ممكن براي متغيير وابسته ي ما وجود دارد. اين احتمال براي زماني كه چند متغيير مستقل وجود دارد به صورت زير محاسبه مي شود:
كه در آن z تركيب خطي زير است:
دو مساله ي مهم كه بايد در ارتباط با رگرسيون لوجستيك در نظر داشته باشيم عبارتند از:
1. رابطه ي بين پيش بيني كننده ها و متغيير وابسته غير خطي است.
2. ضرايب رگرسيوني از طريق روش ماكزيمم درستنمايي برآورد مي شود.
رگرسيون لوژستيك از لحاظ محاسبات آماري شبيه رگرسيون چند گانه است اما از لحاظ كاركرد مانند تحليل تشخيصي مي باشد. در اين روش عضويت گروهي بر اساس مجموعه اي از متغييرهاي پيش بين انجام مي شود دقيقا مانند تحليل تشخيصي. مزيت عمده اي كه تحليل لوجستيك نسبت به تحليل تشخيصي دارد اين است كه در اين روش با انواع متغييرها به كار مي رود و بنابراين بسياري از مفروضات در مورد داده ها را به كار ندارد. در حقيقت آنچه در رگرسيون لوژستيك پيش بيني مي شود يك احتمال است كه ارزش آن بين 0 تا 1 در تغيير است.
ضرايب رگرسيوني مربوط به معادله ي رگرسيون لجستيك اطلاعاتي را راجع به شانس هر مورد خاص براي تعلق به گروه صفر يا يك ارائه مي دهد. شانس به صورت احتمال موفقيت در برابر شكست تعريف مي شود. ولي بدليل ناقرينگي و امكان وجود مقادير بي نهايت براي آن تبديل به لگاريتم شانس مي شود. هر يك از وزن ها را مي توان از طريق مقدار خي دو كه به آماره ي والد مشهور است به لحاظ معناداري آزمود. لگاريتم شانس، شانسي را كه يك متغيير به طور موفقيت آميزي عضويت گروهي را براي هر مورد معين پيش بيني مي كند را نشان مي دهد.
به طور كلي در روش رگرسيون لجستك رابطه ي بين احتمال تعلق به گروه 1 و تركيب خطي متغييرهاي پيش بين بر اساس توزيع سيگمودال تعريف مي شود.
براي دستيابي به معادله ي رگرسيوني و قدرت پيش بيني بايد به نحوي بتوان رابطه اي بين متغييرهاي پيش بين و وابسته تعريف نمود. براي حل اين مشكل از نسبت احتمال تعلق به گروه يك به احتمال تعلق به گروه صفر استفاده مي شود. به اين نسبت شانس گويند. به خاطر مشكلات شانس از لگاريتم شانس استفاده مي شود. لگاريتم شانس با متغييرهاي پيش بيني كننده ارتباط خطي دارد. بنابراين ضرايب بدست آمده براي آن بايد بر اساس رابطه ي خطي كه با لگاريتم شانس دارند تفسير گردند. بنابراين اگر بخواهيم تفسير را بر اساس احتمال تعلق به گروهها انجام دهيم بايد لگاريتم شانس را به شانس و شانس را به اجزاي زير بنايي آن كه احتمال تعلق است تبديل نماييم. آماره ي والد كه از توزيع خي دو پيروي مي كند نيز براي بررسي معناداري ضرايب استفاده مي شود. از آزمون هوسمر و لمشو نيز براي بررسي تطابق داده ها با مدل استفاده مي شود معنادار نبودن اين آزمون كه در واقع نوعي خي دو است به معناي عدم تفاوت داده ها با مدل يعني برازش داده با مدل است.
رگرسيون چند متغييري
در اين رگرسيون هدف اين است كه از طريق مجموعه اي از متغييرهاي پيش بين به پيش بيني چند متغيير وابسته پرداخته شود در واقع اتفاقي كه در رگرسيون كانوني مي افتد.
+ نوشته شده در چهارشنبه ۱ آذر ۱۳۹۱ ساعت توسط
|