تحليل درستنمايي ماکزيمم مدل رگرسيون لجستيک در حالتي که داده هاي متغيرهاي پيشگو کامل نيستند ولي متغي
مجله اپيدميولوژي ايران
?? - دوره 1 شماره 2 و 1 پاييز 1384 صفحات 72
تحليل درستنمايي ماکزيمم مدل رگرسيون لجستيک در حالتي که داده هاي
متغيرهاي پيشگو کامل نيستند ولي متغيرهاي کمکي وجود دارند
محمد امين پورحسينقلي : دانشجوي کارشناسي ارشد آمار زيستي, گروه آمار زيستي دانشکده پيراپزشکي , دانشگاه علوم پزشکي
amin_phg@yahoo.com شهيدبهشتي : نويسنده رابط
دکتر حميد علوي مجد : استاديار, گروه آمار زيستي , دانشکده پيراپزشکي , دانشگاه علوم پزشکي شهيدبهشتي
دکتر عليرضا ابدي : استاديار گروه پزشکي اجتماعي و بهداشت , دانشکده پزشکي , دانشگاه علوم پزشکي شهيدبهشتي
سيمين پروانه وار: دانش آموخته کارشناسي ارشد مامايي , دانشگاه علوم پزشکي شهيدبهشتي
84/5/ ?? پذيرش : 21 /?/ دريافت : ?
چكيده :
مقدمه و هدف: داده هاي گمشده در بسياري از مطالعات آماري از جمله مدلهاي رگرسيوني وجود دارند و باعث كاهش دقت برآورد
مي شوند. تا كنون روشهاي گوناگوني براي مقابله با مشكل داده هاي گمشده ابداع شده كه عموما بر داده هاي گمشدة متغير پاسخ
متمركز بوده است حال آنكه متغيرهاي پيشگو نيز مي توانند دستخوش تغيير و از دست رفتن اطلاعات شوند.
و متغير کمکي, نتايج حاصل EM مواد و روشها: در اين تحقيق ضمن برر ? سي روش جان ِ هي داده ه?اي گمشده با استفاده از الگوريتم
از اين روش را با روش تحليل مورد کامل در يک مدل رگرسيون لجستيک پيرامون عوامل مؤثر بر انتخاب نوع زايمان مقايسه
مي کنيم.
يافته ها: داده ه?اي مورد استفاده در اين مقاله از يک مطالعه توصي?في پيرامون عوامل مرتبط با انتخاب نوع زايمان در زنان مراجعه
کننده به مراکز بهداش?تي و درماِني شهر تهران بدست آمده است. حجم نمونه در?اين تح?قيق ??? نفر بوده و از روش نمونه ? گي ِ ري چند
مرحله ?اي انتخاب شدندو مشخصات فر?دي، سوابق مام?اِيي، نوع نگرش و عوامل اجتما ? عي نمونه ها از ط ِ ريق پرسشنامه ثبت شدند .
بر?اي مقايسه ميزان کاراِيي دو روش، برآورد انحراف معيار پارامترها مورد استناد قرار گرفت.
در مقايسه با روش مورد کامل کارايي EM بحث و نتيجه گيري : نتايج حاصل نشان مي دهد روش تحليل درستنمايي با الگوريتم
بهت ِ ري دارد. مشکل داده ه?اي گمشده در بسيا ِ ري از مطالعات آما ِ ري وجود دارد و موجب اريبي و كاهش كارايي مي شوند . در اين
بر?اي جان ِ هي گمشده هادر يک مدل رگرسيون لجستيک با متغيره?اي توضي ? حي گسسته EM برر ? سي نشان داده ايم استفاده از الگوريتم
و سپس تحليل مدل، از روش مورد کامل که مستلزم حذف گمشده ها به همراه قسمتهايي از اطلاعات است کاراتر است . از سوي
ديگر اگر متغير توضي ? حي ناکامل پيوسته باشد بدست آوردن مدل، روشي متفاوت مي طلبد و يا مي توان با تبديل آن به متغيري گسسته
از روش قبل استفاده كرد.
تحليل مورد کامل، داده گمشده، متغير كمكي، سزارين ، EM کليد واژه ها : مدل رگرسيون لجستيك، الگوريتم
مقدمه
در بسياري از تحقيقات پزشكي با متغيرهايي
مواجه مي شويم كه قسمتي از اطلاعاتشان به دلايل
مختلفي چون عدم پاسخ، ناكامل بودن چارچوب بررسي،
ازدست رفتن اطلاعات موجود در پرونده ها و … از
دست رفته اند. به اين گونه داده ها در آمار داده گمشده
گويند و در صورت ناديده گرفتن آنها استنباط آماري را
دچار مشكل مي كنند و بخصوص در برآورد به روش
درستنمايي، ايجاد اريبي كرده و كارايي را كاهش
مي دهند( ?,?,? ). روشهاي گوناگوني براي مقابله با
مشكل داده هاي گمشده ابداع شده كه بر اساس آنها
گمشده ها جانهي مي شوند. يكي از اين روشها استفاده
يك روش EM است( ?). الگوريتم EM از الگوريتم
تكرار شونده است كه در هر تكرار دو گام را شامل
گام اميد رياضي ) كه داده گمشده به )E مي شود. گام
/ محمدامين پورحسينقلي و همکاران
شرط داده هاي مشاهده شده محاسبه مي شوند اين
اميدهاي رياضي را به جاي داده هاي گمشده قرار
مي دهند و پارامترهاي مورد نظر برآورد مي شوند. در
گام ماكزيمم كردن ) بعد از ) M گام بعدي يعني گام
جايگذاري اعداد اوليه بجاي داده هاي گمشده به شرط
داده هاي مشاهده شده لگاريتم تابع درستنمايي را
حداكثر مي كنيم. اين مكانيسم آنقدر تكرار مي شود تا
به همگرايي ميان پارامترهاي برآورد شده در تكرارها
برسيم.
با اين حال بيشترين روشه?اي جانهي متوجه
داده هاي گمشده در متغير پاسخ بوده است حال آنكه
متغيرهاي پيشگو نيز مي توانند دستخوش تغيير و
گمشدگي شوند. از اينرو داده هاي گمشده در متغيرهاي
پيشگو نيز مورد توجه برخي آمار دانان قرار گرفته است.
ابراهيم روش درستنمايي ماكزيمم را براي
مدلهاي عمومي رگرسيوني پيشنهاد مي كندكه با بهره
گمشده هاي متغيرهاي مستقل EM گيري از الگوريتم
.( گسسته برآورد مي شوند( ?
در اكثرمطالعات آماري معمولا متغيرهايي بيش
از آنچه براي طراحي مدل مورد نياز است در مورد
آزمودني ها جمع آوري مي شوند. به اين متغيرها كه
مقادير آنها جمع آوري و ثبت شده ولي به عنوان يك
متغير پيشگو در مدل استفاده نشده اند متغيرهاي كمكي
گويند. در حالي كه متغير پيشگو كامل نيست اين متغيرها
ممكن است كاملا مشاهده شده باشند. استفاده از
متغيرهاي كمكي كه داده هايشان كامل است در حالتي كه
متتغيرهاي پيشگو كامل نيستند مي تواند موجب افزايش
كارايي آناليز مدل شود.
در اين تحقيق، برآورد درستنمايي را در مدل
رگرسيون لجستيك بررسي مي كنيم كه متغيرهاي مستقل
گسسته آن ناكامل اند ولي متغيركمكي گسسته آن كامل
است( ?)و با استفاده از داده هاي تحقيقي كه درباره علل
تمايل زنان باردار به نوع زايمان است ( ?) کارايي اين
روش را براساس انحراف معيار برآوردها با روش تحليل
مورد کامل مقايسه ?مي کنيم.
?- تحليل مورد کامل: در اين روش همه واحدهايي که
داراي مقادير گمشده اند کنار گذاشته مي شوند. شايد اين
متداول ترين روش براي حل مشکل داده هاي گمشده
باشد و?لي در کل شيوه خوِبي تلقي نمي شود زيرا با
حذف همه واحدهاي داراي داده ه?اي گمشده، اندازه
نمونه به صورتي قابل ملاحظه کوچک شده و منجر به
کاهش دقت مي شود. همچنين اگر واحدهايي که از
تحليل حذف مي شوند با آنهايي که باقي مي مانند تفاوت
زيا?دي داشته باشند، ممکن است برآوردهاي حاصل به
.( شدت اريب شوند( ?,?
و متغير EM ?- تحليل درستنمايي با استفاده از الگوريتم
کمکي
ي ? ک ي از روش هايي كه براي : EM ?- الگوريتم -?
است. EM برآورد داده هاي گمشده ابداع شده الگوريتم
يك روش محاسباتي عمومي براي EM الگوريتم
برآوردهاي حداكثر درستنمايي تحت داده هاي
به سال ???? و مقاله EM ناكامل است. تاريخچة
ايي از مك كندريك باز مي گردد ولي اولين بار
بوسيله دمپستر و همکاران ابداع شد( ?). نام اين
الگوريتم بر گرفته از دو گام اين الگوريتم است: گام
كه محاسبة مقادير مورد انتظار براي (E)
كه محاسبة برآوردهاي (M) گمشده هاست و گام
حداكثر درستنمايي پارامترها با فرض كامل بودن
داده هاست كه براساس دو مرحلة پايه گذاري شد.
الف ) اگر ما مقادير گمشده را بدانيم مي توانيم پارامترها
را برآورد كنيم.
ب ) اگر پارامترها را بدانيم مي توانيم مقادير گمشده را
با مقادير مورد انتظار جايگذاري كنيم.
?- مدل رگرسيون لجستيك با داده هاي كمكي -?
و ماتريس y1, y2,..., yn براي مشاهدات دو حالتي
كه مجموعه ايي از متغيرهاي گسسته مستقل است x
مدل لجستيك زير را داريم.
log it(E[Yi xi ]) = xi1b (1)
است . حداكثر درستنمايي P × ، 1 b كه بعد
بدست مي آيد f (Y X ,b ) براساس احتمال شرطي
ML دچار داده هاي گمشده باشد روش x ولي اگر
مؤثر نيست. ابراهيم روش درستنمايي ماكزيمم را
انجام EM پيشنهاد مي كند كه با استفاده از الگوريتم
از X به شرط Y شده و بجاي مدل سازي احتمال
.( احتمال توأم آنها نيز استفاده مي كند( ?
تحليل درستنمايي رگرسيون لجستيک…/
f (Y , X W ) = f (Y X , b ) f (X g ) (2)
W = (b ,g ) كه
به طور كامل مشاهده شده باشد x اگر
شركت b دردرستنمايي براي f (X;Y )
b باشد برآورد x نمي كند و اگر داده گمشده در
ممكن است دچار اريبي و كاهش كارايي شود . از
سوي ديگر معمولا محققين مجموعه ايي از متغيرهاي
مستقل را در شروع تحقيق بررسي و اطلاعات آنها را
ثبت مي كنند ولي فقط
زير مجموعه ايي از اين متغيرها را وارد مدل مي كنند و
عموما تعدادي از متغيرها علي رغم گردآوري
اطلاعاتشان، در مدل استفاده نمي شوند. به اين گونه
.( متغيرها، متغيرهاي كمكي گويند( ?
موجود باشد مي توانيم تابع A اگر متغيركمكي
درستنمايي داده هاي كامل را به صورت زير بنويسيم:
f (Y , X , A W * ) = f (Y X , A , b * ) f (X , A g * ) (3)
W * = (b ,* g *) كه
بكار A و* را براي نشان دادن وابستگي به توزيع
مي بريم .
اگر فرض كنيم
يعِني ) f (Y X , A , b * ) = f (Y X , b )
روش ابراهيم را ( x تحت A و y استقلال شرطي
براي مدل مي توان بكار برد.
واچ اين برآوردگر را وقتي متغير كمكي براي بهبود
بخشيدن به مدل استفاده مي شود پيشنهاد كرده است و
.( زماني بكار مي رود كه استقلال شرطي برقرار باشد ( ?
اما استقلال شرطي هميشه برقرار نيست. اگر استقلال
شرطي برقرار نباشد فاكتور بندي رابطة ( ?) طبيعي نيست
E(Y X , A) در x زيرا ضرايب رگرسيوني براي
در مدل ( ?) نيستند . b عمومًا برابر
روش پيشنهاد شده ديگري كه به وسيله واچ براي
:( داده هاي كامل بكار رفته بصورت زير است( ??
f (Y , X , Aq ) = f (A Y , X ,a ) f (Y X , b ) f (X g ) (4)
مجموعه اين از پارامترهاي درستنمايي لگاريتمي تابع q = (a ,b ,g )
{a y x ( i i i ) y x ( i i ) x ( i )} (?)
i
a y x i i i
i
Sl (q a , y , x ) = S l a a , y , x + l b y , x + l g x , , , است .
?- برآورد درستنمايي ماكزيمم تحت متغيرهاي -?
مستقل ناكامل و اطلاعات كمكي
? f (Yi X i , b ) اگر داده ها كامل باشند
براحتي ماكزيمم مي شود. در اين b براي برآورد
با رگرسيون لجستيك g و a جداي از b حالت
هاي گمشده باشند هر Xi برآورد مي شود. اما اگر
سه قسمت درستنمايي بايد برآورد شوند . با فرض
اينكه گمشده ها به صورت تصادفي حادث شده اند
:( درستنمايي لگاريتمي زير را داريم( ?
( ) ( ) } y x i i x i × L b y , x L g x ( ) { ( ) a y x i i i
i xmissx
a y x L log L a , y , x ,
0
, , q = S S a
است كه xi نشان دهندة قسمتهايي از Xmiss,i كه
xmiss,i گمشده اند و
S
مجموع مكان نمونه ايي
miss i X , است.
بدست مي آوريم b بوسيلة اين تابع برآوردهاي براي
كه تحت متغير كمكي و بدون فرض استقلال شرطي
ماكزيمم شده است.
بر اساس روش ابراه يم ( ?) متغيرهاي پيشگو
( ) p X x , x ,..., x 1 2 متغيرهاي گسسته تصادفي با =
توزيع چندگانه تحت پارامتر
/