به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك
Archive of SID
به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك براي ... / 41
.41- مجله تخصصي اپيدميولوژي ايران؛ 1384 ، دوره 1، شماره 2: صفحات 45
مقاله پژوهشي
به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك براي حذف اثر
هم خطي چندگانه در تحليل برخي عوامل مرتبط با سرطان پستان
محمد امين پورحسينقلي 1، يدا... محرابي 2، حميد علوي مجد 3، پروين ياوري 4
1كارشناس ارشد آمار زيستي، دانشگاه علوم پزشكي شهيد بهشتي، تهران.
2دانشيار آمار زيستي، دانشگاه علوم پزشكي شهيد بهشتي، تهران.
3استاديار آمار زيستي، دانشگاه علوم پزشكي شهيد بهشتي، تهران.
4استاد اپيدميولوژي، دانشگاه علوم پزشكي شهيد بهشتي، تهران.
،021-23872567- نويسنده ي رابط: دكتر يدا... محرابي، گروه پزشكي اجتماعي و بهداشت دانشكده پزشكي، دانشگاه علوم پزشكي شهيد بهشتي، تهران، اوين، كد پستي 19395 ، تلفن: 8
mehrabi@sbmu.ac.ir ; ymehrabi@gmail.com : 021 ، پست الكترونيك - نمابر: 22414108
85/2/ 84 ، پذيرش: 3 /10/ تاريخ دريافت: 26
مقدمه و اهداف : رگرسيون لجستيك يكي از كاربرد يترين مدل هاي خطي تعمي ميافته براي تحليل رابط هي يك يا چند متغير توضيحي بر
متغير پاسخ رسته اي است . زماني كه بين متغيرهاي توضيحي همبستگي هاي نسبتا قوي وجود داشته باشد هم خطي چندگانه ايجاد شده،
ممكن است به كاهش كارآيي مدل منجر شود . هدف اين تحقيق استفاده از متغيرهاي پنها ن براي كاهش اثر هم خطي چندگانه در تحليل
يك مطالعه مورد شاهدي است.
روش كار: داده هاي مورد استفاده در اين تحقيق متعلق به يك مطالعه مورد شاهدي است كه در آن 300 نفر زن مبتلا به سرطان پستان
با 300 زن شاهد از نظر عوامل خطر مورد مقايسه قرار گرفتند . براي بررسي اثر هم خطي، پنج متغير كمي كه بين آن ها همبستگي بالايي
وجود داشت، در نظر گرفته شدند . ابتدا مدل لجستيك به متغيرهاي فوق برازش داده شد . سپس به منظور حذف اثر ه م خطي، دو متغير
پنهان با استفاده از هركدام از دو روش تحليل عاملي و تحليل مؤلفه هاي اصلي ب ه دست آورده ، بر مبناي آ ن ها پارامترهاي مد ل هاي
لجستيك مجدداً محاسبه شدند. كارآيي مدل ها، با استفاده از خطاي استاندارد پارامترها مقايسه گرديد.
نتايج: مدل رگرسيون لجستيك براساس متغيرهاي اوليه حاكي از مقادير غيرعادي نسبت شانس براي سن در اولين زايمان زنده ( 453503
بود. درحالي كه پارامترهاي مدل هاي لجستيك حاصل از (OR=0/ و سن در اولين حاملگي ( 000029 (OR= و 67960 CI95%== و 10184
و خطاي (p<0/ متغيرهاي پنهان به دست آمده از هر دو روش تحليل عامل و تحليل مؤلفه هاي اصلي، از نظر آماري معني دار ( 003
استاندارد همه ي آن ها كوچك تر از خطاي استاندارد مربوط به رگرسيون لجستيك معمولي بود . فاكتورها و مولفه هاي اصلي توليد شده
توسط دو روش حداقل 85 درصد كل واريانس را تبيين كردند.
نتيجه گيري: تحقيق نشان داد انحراف استاندارد پارامترهاي برآورد شده در رگرسيون لجستيك براساس متغيرهاي پنهان از رگرسيون
لجستيك براساس مشاهدات اوليه كوچكتر بوده و در نتيجه اي ن گونه مدل بندي در تحليل برخي عوامل خطر سرطان پستان كه ه م خطي
دارند كارآتر است.
واژگان كليدي: هم خطي چندگانه، متغير پنهان، تحليل عاملي، تحليل مؤلفه هاي اصلي، رگرسيون لجستيك، سرطان پستان.
مقدمه
رگرسيون لجس تيك يكي از كاربردي ترين مدل هاي خطي
تعميم يافته است كه براي تحليل رابطه ي يك يا چند متغير
توضيحي بر متغير پاسخ رسته اي به كار مي رود ( 1). زماني كه
تعداد متغيرهاي توضيحي افزايش مي يابد، مدل سازي مشكل شده
و كارآيي آن نيز كاهش مي يابد ؛ به خصوص اگر برخي از متغ يرها
علي رغم فرض استقلال در مدل سازي، با يك ديگر هم بستگي قوي
www.SID.ir
Archive of SID
42 / محمدامين پورحسينقلي و همكاران
داشته باشند و به عبارت ديگر هم خطي چندگانه
ايجاد شده باشد ( 2). هم خطي چندگانه يكي (Multicollinearity)
از دلايل افزايش خطاي استاندارد برآورد ضرايب رگرسيوني و
درنتيجه كاهش كارآيي مدل بوده و ممكن است منجر به
.( پيش بيني هايي خارج از دامنه ي مورد انتظار شود ( 3
مسئله ي هم خطي در مدل هاي رگرسيون خطي مورد توجه
بسياري از محققان قرار گرفته و رو ش هاي گوناگوني براي مقابله با
اثرات نامطلوب آن ابداع شده است ( 2). از جمله اين روش ها،
Latent ) كاهش ابعاد مدل با استفاده از متغيرهاي پنهان
است. اين نوع متغيرها مستقيماً مشاهده نمي شوند؛ (Variables
بلكه از تركيب ساير متغيرهاي مشاهده شده قابل دستيابي بوده، به
عنوان نماينده ي برخي از متغيرهاي همبسته در مدل به كار
.( مي روند ( 4
اگر چه استفاده از متغيرهاي پنهان براي كاهش اب عاد مدل، در
عمل بيشترين كاربرد را در مطالعات مربوط به علوم اجتماعي و
روانشناسي داشته است، ولي به دليل نوع مطالعات انجام شده در
علوم پزشكي و بهداشت كه مستلزم جمع آوري تعداد قابل توجهي
متغيرهاي مرتبط با يك ديگر است، مشكل هم خطي در بسياري از
مدل هاي آماري اين مطالعات قابل انتظار است ( 5) و علي رغم
اين كه هم خطي چندگانه در مدل رگرسيون لجستيك نيزايجاد
مشكل مي كند ( 6،7 )، تاكنون توجه محققان بيشتر بر رگرسيون
خطي با متغير پاسخ داراي توزيع نرمال متمركز بوده است.
(Principal Component Analysis) تحليل مؤلفه هاي اصلي
يكي از كاربردي ترين روش هاي كاهش ابعاد در روش هاي چند
متغيري است . تاريخچه ي ابداع اين روش به ابداعات پيرسن
در برازش حداقل مربعات متعامد برمي گردد؛ ولي بسط (Pearson)
انجام شده است (Hotteling) عمده ي تئوري ب ه وسيله ي هتلينگ
8). مؤلفه هاي اصلي با توجه به خصوصيات ي كه دارند براي مقابله )
با مشكل هم خطي و كاهش ابعاد مدل در رگرسيون هاي خطي
مورد استفاده قرار مي گيرند ( 2،9 ). در اين روش با استفاده از
10 )، مؤلفه هاي اصلي به ) (Eigen Values) ماتريس مقادير ويژه
صورت تركيب خطي از متغيرهاي اوليه و مستقل از يكديگر
ساخته مي شوند و در آناليز داده ها، به جاي متغيرهاي اوليه مورد
.( استفاده قرار مي گيرند ( 11
از ديگر روش هاي كاهش ابعاد (Factor Analysis) تحليل عاملي
(Spearman) داده ها است، كه نخستين بار توسط اسپيرمن
معرفي شد . در اين روش با فرض وجود يك مدل مبنايي مشخص
براي كل داده ها، و براساس ماتريس واريانس كوواريانس يا
ماتريس ضرايب همبستگي، عامل هاي مستقل از يكديگر، از روي
.( متغيرهاي اوليه به دست مي آيند ( 12
در اين تحقيق، براي كاهش ابعاد مدل رگرسيون لجستيك با
متغيرهاي توضيحي هم خط، در تحليل داده هاي يك مطالعه مورد
شاهدي پيرامون عوام ل خطرسرطان پستان از دو روش تحليل
عاملي و تحليل مؤلف ههاي اصلي استفاده شده است.
روش ها
براي بررسي نحوه ي كاربرد دو روش تحليل مؤلفه هاي اصلي و
تحليل عاملي در كاهش ابعاد مدل و ايجاد متغيرهاي پنهان، از
داده هاي مطالع هي مورد شاهدي مربوط به عوامل خطر سرطان
پستان استفاده شد ( 13 ). در مطالعه ي مذكور كه در فاصل ه ي
زماني بهمن 82 تا آذر 83 در مركز پزشكي آموزشي، درماني
شهداي تجريش انجام شد گروه مورد، بيماراني بودند كه بيماري
سرطان پستان آن ها با استفاده از آزماي شهاي پاتولوژيك،
تشخيص قطعي داده شده و يا براي درمان يا پي گيري به درمانگاه
بيمارستان شهداي تجريش مراجعه كرده بودند . گروه شاهد زناني
بودند كه به دلايل ديگري غير از سرطان پستان و به طور هم زمان
در بخش هاي ديگرِ بيمارستان شهداء، مثل جراحي، پوست، داخلي
و غيره بستري و يا براي پي گيري يا درمان به درمانگاه بيمارست ان
مراجعه كرده بودند و از نظر سني با گروه مورد با حداكثر 2 سال
اختلاف مشابه سازي شدند . با اطمينان 95 درصد و توان آزمون 80
.( درصد، تعداد نمونه براي هر گروه 300 نفر انتخاب شد ( 14
متغيرهاي مختلفي به عنوان عوامل خطر يا متغير كنترل
جمع آوري شدند كه در اين مقاله ، پنج متغير كه بين آن ها
هم بستگي بالايي وجود داشت در نظر گرفته شدند . اين متغيرها
تعداد ،(NP: Number of Pregnancy) عبارتند از: تعداد حاملگي
كل ،(NLB: Number of Live Birth) فرزندان زنده به دنيا آورده
TLBF: Total Length of Breast ) طول مدت شيردهي به فرزندان
AFP: Age at First ) سن در اولين حاملگي ،(Feeding
AFLB: Age at First ) و سن در اولين زايمان زنده (Pregnancy
براي بررسي ميزان بروز ه مخطي در اين مشاهدات از .(Live Birth
.( ماتريس ضرايب ه مبستگي استفاده است ( 2
ابتدا بدون در نظر گرفتن وجود هم خطي، مدل رگرسيون
لجستيك به داده ها برازش داده شد . سپس با تركيب پنج متغير
مورد بررسي، يك بار با روش تحليل مؤلفه هاي اصلي و بار ديگر به
طريق تحليل عاملي، دو متغير پنهان به دست آمد و بر اساس آن ها،
پارامترهاي مدل رگرسيون لجستيك برآورد شد . مدل هاي حاصل،
www.SID.ir
Archive of SID
به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك براي ... / 43
براساس واريانس هاي تبيين شد ه به وسيله ي دو روش و خطاي
استاندارد پارامترهاي برآورد شده، مورد مقايسه قرار گرفتند.
يافته ها
جدول يك نشان مي دهد بين سه متغير تعداد حاملگي، تعداد
فرزندان زنده به دنيا آورده و كل طول مدت شيردهي به فرزندان
و نيز بين دو متغير سن در اولين حاملگي و سن در اولي ن زايمان
زنده هم بستگي خطي بالايي مشاهده مي شود . هم چنين مقادير
نيز كه (VIF: Variance Inflation Factor) عامل تورم واريانس
ميزان بروز هم خطي را نشان مي دهد، محاسبه شد كه همه ي
مقادير بيشتر از يك و نشان دهنده ي وجود هم خطي در
متغيرهاست. به ويژه اين كه دو مت غير سن دراولين حاملگي و سن
بيشتر از 15 بوده و بنابراين VIF در اولين زايمان زنده داراي
براساس اين معيار هم خطي شديدي دارند . آزمون بارتلت نيز نشان
داد ماتريس ضرايب هم بستگي متغيرهاي توضيحي با صفر اختلاف
بنابراين بين متغيرهاي توضيحي .(P<0/ معني داري دارد ( 001
مورد بررسي هم خطي چندگانه وجود دارد.
نتايج حاصل از رگرسيون لجستيك بدون در نظر گرفتن وجود
اين هم خطي (جدول 2)، نشان مي دهد كه فقط دو متغير سن در
اولين حاملگي و سن در اولين زايمان زنده معني دار شده اند
هم چنين نسبت شانس به دست آمده براي سن در .(P<0,001)
و CI95%=10184- اولين زايمان زنده بسياربزرگ ( 453503
و برعكس براي سن در اولين حاملگي بسيار كوچك (OR=67960
بود كه هردو غيرعادي هستند . در مرحله ي (OR=0/000029)
بعد با روش تحليل عاملي دو عامل به صورت تركيب خطي زير از
متغيرهاي اوليه بدست آمد:
Factor1= 0/85NP+0/97NLB+0/68TLBF-0/26AFP-0/26AFLB.
Factor2= 0/21NP-0/23NLB-0/25TLBF+0/94AFP+0/95AFLB
45 %) و عامل / 84 % واريانس توسط عامل اول ( 67 / در مجموع 79
39 %) تبيين شده است . وارد كردن عوامل فوق به عنوان / دوم ( 12
متغيرهاي توضيحي در مدل رگرسيون لجستيك، نشان داد كه
هر دو تاثير (P<0/ و عامل دوم ( 001 (P<0/ عامل اول ( 002
معني داري بر متغير وابسته دارند (جدول 3). در مرحله ي سوم، با
روش تحليل مؤلفه هاي اصلي دو مؤلفه به صورت تركيب خطي زير
از متغيرهاي اوليه بدست آمد:
Component1=0/90NP+0/92NLB+0/82TLBF-0/25AFP
-0/24AFLB.
Component2=-0/21NP-0/25NLP-0/25TLBF+0/96AFP
+0/96AFLB
%89/ 49 % و مؤلفه ي دوم 40 % و در مجموع 26 / مؤلفه ي اول 26
كل واريانس را تبيين مي كنند . در برآورد پارامترهاي رگرسيون
لجستيك براساس اين مؤلفه هاي اصلي، نتايج مشابهي حاصل شد .
و مؤلفه دوم با (P<0/ به عبارت ديگر مؤلفه اول با ( 002
معني دار شدند و نسبت شانس ها نيز تقريباً مشابه (P<0/003)
جدول 2- برآورد پارامترهاي مدل رگرسيون لجستيك بدون درنظر گرفتن همخطي بين متغيرهاي توضيحي
متغيرهاي اصلي
ضرايب
رگرسيوني
خطاي
استاندارد
P-value
نسبت شانس
(% (فاصله اطمينان 95
عامل تورم واريانس
(VIF) *
(10184-453503) 0/62 0/20 0/ عرض از مبداء 10
4/57 1/06 (0/89-1/27) 0/50 0/09 0/06 (NP) تعداد حاملگي
5/83 0/84 (0/50-1/40) 0/51 0/26 -0/17 (NLB) تعداد فرزندان زنده به دنيا آورده
2/13 0/80 (0/59-1/08) 0/14 0/15 -0/22 (TLBF) كل طول مدت شيردهي به فرزندان
15/41 0/000029 <0/001 0/92 -10/46 (AFP) سن در اولين حاملگي
<0/001 0/97 11/13 (AFLB) سن در اولين زايمان زنده 67960
(10184-453503)
15/34
Variance Inflation Factor :VIF*
جدول 1- ماتريس ضرايب همبستگي متغيرهاي توضيحي
NP NLB TLBF AFP AFLB
1 0/90 0/67 -0/44 -0/42 NP
1 0/75 0/47 -0/047 NLB
1 -0/42 -0/41 TLBF
1 0/97 AFP
1 AFLB
كل طول مدت :TLBF ؛ تعداد فرزندان زنده به دنيا آورده :NLB ؛ تعداد حاملگي :NP
سن در اولين زايمان زنده :AFLB ؛ سن در اولين حاملگي :AFP ؛ شيردهي به فرزندان
www.SID.ir
Archive of SID
44 / محمدامين پورحسينقلي و همكاران
.( روش تحليل عاملي به دست آمدند (جدول 3
بحث
هدف پژوهش حاضر استفاده از متغيرهاي پنهان در مدل
رگرسيون لجستيك به منظور كاهش اثر در حالت بروز هم خطي
چندگانه بود . نتايج حاصل نشان داد برآورد پارامترهاي مدل در هر
دو روش تحليل مؤلفه هاي اصلي و تحليل عامل، مشابه هستند و
خطاي استاندارد آن ها نسبت به مدل اصلي بسيار كوچك تر است .
بنابراين دو روش به كار رفته براي توليد متغيرهاي پنهان نسبت به
مدل رگرسيون لجستيك براساس مشاهدات اوليه، در تحليل برخي
عوامل مرتبط با سرطان پستان ازكارايي بالاتري برخوردار هستند .
در مدل اوليه به دليل وجود هم خطي و بالا بودن خطاي استاندارد
برآوردها، تعدادي از متغيرها معني دار نشده اند و از بين دو متغير
معني دار، متغير سن در اولين زايمان زنده، نسبت شانس بسيار
بزرگ و غير معمول و متغير سن در اولين حاملگي، نسبت شانسي
نزديك به صفر را نشان داد.
Aguilera & ) يافته هاي اين تحقيق با نظر آگويلرا و اسكابياس
كه در مقاله ي خود نشان داده اند استفاده از تحليل (Escabias
مؤلفه هاي اصلي در رگرسيون لجستيك با داد ه هاي هم خط
مي تواند برآورد پارامترها را بهبود ب خشد، مطابق است ( 15 ). اين
روش در مقاله ي كاربردي اسكابياس، آگويلرا و والدراما
كه در مورد مدل سازي داده هاي هواشناسي بود (Valderrama)
نيز مورد استفاده قرار گرفته است . آنان در اين مطالعه بر نحوه ي
انتخاب مؤلفه هاي اصلي براي بهبود برآورد پارامترها تأكيد كرده اند
.(16)
در مطالعه اي كه براساس متغيرهاي (Wall & Li) وال و لي
توصيفي ميزان مرگ و مير بيماري هاي تنفسي بود، نتايج حاصل
از دو روش تحليل عامل و معادله ي مدل سازي ساختاري
را با رگرسيون كلاسيك (Structural Equation Modeling)
براساس متغيرهاي اوليه هم خط مقايسه ك رده نشان دادند كه
متغيرهاي پنهان، پارامترهايي با خطاهاي استاندارد كوچكتر توليد
مي كنند ( 17 ). نتايج تحقيق حاضر از اين لحاظ با مطالعه ي آنان
هم خواني دارد.
ايده ي استفاده از متغيرهاي پنهان به جاي متغيرهاي اصلي، با
هدف كاهش ابعاد داده ها از اين حقيقت ناشي مي شود كه اين
متغيرها مي توانند بازتاب دهنده ي ارتباط بين مشاهدات باشند
18 ). با اين حال استفاده از مدل هاي دربرگيرند ه ي متغيرهاي )
پنهان تبعاً مزايا و محدوديت هايي دارد . يكي از اهداف اصلي در
ساختن مدل هاي آماري تفسير مدل با توجه به پارامترهاي
برآوردشده مي باشد؛ ولي تفسير مدل هايي كه براساس عامل ها يا
تحليل مؤلفه هاي اصلي به دست مي آيند قدري پيچيده است
11،19 ). براي اين كار استفاده از روش تحليل مؤلفه هاي اصلي )
بهتر از تحليل عاملي است؛ زيرا مؤلفه هاي اصلي صرفاً تركيبي
خطي از متغيرهاي اوليه هستند و بر خلاف روش تحلي ل عامل،
مدلي براي داده ها فرض نمي كند ( 11،20،19 ). در نتيجه از طريق
معكوس ماتريس دوران م ي توان برآوردهاي تصحيح شده
پارامترهاي متغيرهاي اوليه را ب هدست آورد ( 11 ). هم چنين
روش هايي نيز براي تفسير اين مؤلفه ها در مدل كاهش يافته
پيش نهاد شده است ( 21 ). به هر حال سودمندي هاي حاصل از
كاهش ابعاد مدل و كاستن تعداد متغيرها آن چنان قابل ملاحظه
است كه علي رغم مشكلات حاصل در تفسير پارامتر، برخي
تكنيك هاي جديد علاوه بر توليد متغيرهاي پنهان براي متغيرهاي
توضيحي، اكنون بر توليد اين متغيرها براي متغيرهاي پاسخ توجه
.( دارند ( 22
نتيجه گيري
براساس يافته هاي اين تحقيق مي توان نتيجه گيري كرد كه در
بررسي برخي عوامل خطر سرطان پستان، دو روش تحليل عاملي و
تحليل مؤلفه هاي اصلي نتايج مشابهي داشته، نسبت به مدل
لجستيك با متغيرهاي هم خط اوليه از كارآيي بالاتري برخوردار
هستند.
تشكر و قدرداني
در اين مقاله از داده هاي طرح تحقيقاتي عوامل خطر سرطان
جدول 3- برآورد پارامترهاي رگرسيون لجستيك بر اساس متغيرهاي پنهان
ايجاد شده ب هوسيله روش تحليل عاملي و مؤلف ههاي اصلي
متغيرهاي
پنهان
ضرايب
رگرسيوني
خطاي
استاندارد
P value
نسبت شانس
(% (فاصله اطمينان 95
روش تحليل عاملي
0/96 0/64 0/08 -0/ عرض از مبداء 04
0/76 (0/64-0/91) 0/002 0/09 -0/27 عامل 1
1/33 (1/12-1/59) 0/001 0/09 0/29 عامل 2
روش تحليل مؤلفه هاي اصلي
0/96 0/64 0/09 -0/ عرض از مبداء 04
0/77 (0/65-0/91) 0/002 0/09 -0/26 مؤلفه 1
1/31 (1/10-1/56) 0/003 0/09 0/27 مؤلفه 2
www.SID.ir
Archive of SID
به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك براي ... / 45
پستان، مصوب دانشگاه علوم پزشكي شهيد بهشتي استفاده شده
است كه به اين وسيله از كليه همكاران طرح مذكور و نيز از
معاونت پژوهشي دانشكده پزشكي سپا سگزاري به عمل مي آيد.
منابع
1. Myers R.H., Montgomery D.C. and Vining G.G., Generalized
linear models with application in engineering and sciences,
2002, John Wiley & Sons.
2. Chattergee, S., Hadi, A.S. and Price, B. (2000). Regression
analysis by example, 2002, John Wiley & Sons, USA. PP:
225-258.
3. Myers, R.H. (1990). Classical and modern regression with
applications., 1990, Pws-Kent publishing company. PP: 123-
129.
4. Van Eye, A., Clogg, C.C., Latent variables analysis;
application for developing research. 1994, SAGE publication.
PP: 3-35.
5. Hazard munro, B. Statistical methods for health care research.,
2001, Philadelphia: Lippincott. PP: 287-288.
6. Kleinbaum, D. Logistic Regression., 1994, Springer, New York.
PP: 168.
7. Hosmer, D.W., Lemeshow, S. Applied logistic regression.,
1989, John Wiley & Sons.
8. Morrison, D. F. Multivariate statistical methods. 2002, John
Wiley & Sons. PP: 312-398.
9. Rawlings, J. O. Applied regression analysis: A research tools.,
1988, Belmont: Wadsworth. PP: 327-356.
10. Schott, J. R. Matrix analysis for statistics., 1997, John Wiley &
Sons. PP: 84-131.
11. Jollife, I.T. PrinCI95%pal component analysis., 1986, Springer.
PP: 129-141.
12. Srivastava, M. S. Methods of multivariate statistics, 2002, John
Wiley & Sons. New York. PP: 397-450.
13. Yavari, P., Mousavizadeh, M., Sadrol-Hafezi, B. and Mehrabi,
Y., Reproductive characteristics and the risk of breast cancer,
A case-control study. Asian PaCI95%fic J Cancer Prev, 2005,
6, 370-375.
14. Lemeshow, S., Hosmer, D. W. and Klar, J. Adequacy of sample
size in Health studies. World Health Organization, 1998, John
Wiley & Sons. PP: 19.
15. Aguilera, A.M. and Escabias, M., PrinCI95%pal component
logistic regression. Proceedings in computational statistics,
2000, 175-180. Physica-Verlag.
16. Escabias, M., Aguilera, A. M. and Valderrama, M. J.,
Modeling climatological data by functional logistic regression.
The ISI International Conference on Environmental Statistics
and Health, 2003.
17. Wall. M. M. and Li, R., Comparison of multiple regression to
two latent variable techniques for estimation and prediction.
Statistics in Medicine; 2003, 22:3671-3685.
18. Sobel, M. E. Causal inference in latent variable models. In
Latent variables analysis; application for developing
research. By Van Eye, A., Clogg, 1994, C.C SAGE publication.
PP: 3-35.
19. Rencher, A. C. Methods of multivariate analysis, 2002, John
Wiley & Sons.
20. Armitage, P. and Colton, T., Encyclopedia of Biostatistics.
Volume 2. Chichester: 1998, John Wiley & Sons. PP: 1480-
1481.
21. Chipman HA and Gu H. Interpretable dimension reduction.
2002, http://ace.acadiau.ca/math/chipmanh/
publications.html.
22. Guo, J., Wall, M. M. and Amemiya Y. Latent class regression
on latent factors to appear in Biostatistics.
www.SID.irArchive of SID
به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك براي ... / 41
.41- مجله تخصصي اپيدميولوژي ايران؛ 1384 ، دوره 1، شماره 2: صفحات 45
مقاله پژوهشي
به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك براي حذف اثر
هم خطي چندگانه در تحليل برخي عوامل مرتبط با سرطان پستان
محمد امين پورحسينقلي 1، يدا... محرابي 2، حميد علوي مجد 3، پروين ياوري 4
1كارشناس ارشد آمار زيستي، دانشگاه علوم پزشكي شهيد بهشتي، تهران.
2دانشيار آمار زيستي، دانشگاه علوم پزشكي شهيد بهشتي، تهران.
3استاديار آمار زيستي، دانشگاه علوم پزشكي شهيد بهشتي، تهران.
4استاد اپيدميولوژي، دانشگاه علوم پزشكي شهيد بهشتي، تهران.
،021-23872567- نويسنده ي رابط: دكتر يدا... محرابي، گروه پزشكي اجتماعي و بهداشت دانشكده پزشكي، دانشگاه علوم پزشكي شهيد بهشتي، تهران، اوين، كد پستي 19395 ، تلفن: 8
mehrabi@sbmu.ac.ir ; ymehrabi@gmail.com : 021 ، پست الكترونيك - نمابر: 22414108
85/2/ 84 ، پذيرش: 3 /10/ تاريخ دريافت: 26
مقدمه و اهداف : رگرسيون لجستيك يكي از كاربرد يترين مدل هاي خطي تعمي ميافته براي تحليل رابط هي يك يا چند متغير توضيحي بر
متغير پاسخ رسته اي است . زماني كه بين متغيرهاي توضيحي همبستگي هاي نسبتا قوي وجود داشته باشد هم خطي چندگانه ايجاد شده،
ممكن است به كاهش كارآيي مدل منجر شود . هدف اين تحقيق استفاده از متغيرهاي پنها ن براي كاهش اثر هم خطي چندگانه در تحليل
يك مطالعه مورد شاهدي است.
روش كار: داده هاي مورد استفاده در اين تحقيق متعلق به يك مطالعه مورد شاهدي است كه در آن 300 نفر زن مبتلا به سرطان پستان
با 300 زن شاهد از نظر عوامل خطر مورد مقايسه قرار گرفتند . براي بررسي اثر هم خطي، پنج متغير كمي كه بين آن ها همبستگي بالايي
وجود داشت، در نظر گرفته شدند . ابتدا مدل لجستيك به متغيرهاي فوق برازش داده شد . سپس به منظور حذف اثر ه م خطي، دو متغير
پنهان با استفاده از هركدام از دو روش تحليل عاملي و تحليل مؤلفه هاي اصلي ب ه دست آورده ، بر مبناي آ ن ها پارامترهاي مد ل هاي
لجستيك مجدداً محاسبه شدند. كارآيي مدل ها، با استفاده از خطاي استاندارد پارامترها مقايسه گرديد.
نتايج: مدل رگرسيون لجستيك براساس متغيرهاي اوليه حاكي از مقادير غيرعادي نسبت شانس براي سن در اولين زايمان زنده ( 453503
بود. درحالي كه پارامترهاي مدل هاي لجستيك حاصل از (OR=0/ و سن در اولين حاملگي ( 000029 (OR= و 67960 CI95%== و 10184
و خطاي (p<0/ متغيرهاي پنهان به دست آمده از هر دو روش تحليل عامل و تحليل مؤلفه هاي اصلي، از نظر آماري معني دار ( 003
استاندارد همه ي آن ها كوچك تر از خطاي استاندارد مربوط به رگرسيون لجستيك معمولي بود . فاكتورها و مولفه هاي اصلي توليد شده
توسط دو روش حداقل 85 درصد كل واريانس را تبيين كردند.
نتيجه گيري: تحقيق نشان داد انحراف استاندارد پارامترهاي برآورد شده در رگرسيون لجستيك براساس متغيرهاي پنهان از رگرسيون
لجستيك براساس مشاهدات اوليه كوچكتر بوده و در نتيجه اي ن گونه مدل بندي در تحليل برخي عوامل خطر سرطان پستان كه ه م خطي
دارند كارآتر است.
واژگان كليدي: هم خطي چندگانه، متغير پنهان، تحليل عاملي، تحليل مؤلفه هاي اصلي، رگرسيون لجستيك، سرطان پستان.
مقدمه
رگرسيون لجس تيك يكي از كاربردي ترين مدل هاي خطي
تعميم يافته است كه براي تحليل رابطه ي يك يا چند متغير
توضيحي بر متغير پاسخ رسته اي به كار مي رود ( 1). زماني كه
تعداد متغيرهاي توضيحي افزايش مي يابد، مدل سازي مشكل شده
و كارآيي آن نيز كاهش مي يابد ؛ به خصوص اگر برخي از متغ يرها
علي رغم فرض استقلال در مدل سازي، با يك ديگر هم بستگي قوي
www.SID.ir
Archive of SID
42 / محمدامين پورحسينقلي و همكاران
داشته باشند و به عبارت ديگر هم خطي چندگانه
ايجاد شده باشد ( 2). هم خطي چندگانه يكي (Multicollinearity)
از دلايل افزايش خطاي استاندارد برآورد ضرايب رگرسيوني و
درنتيجه كاهش كارآيي مدل بوده و ممكن است منجر به
.( پيش بيني هايي خارج از دامنه ي مورد انتظار شود ( 3
مسئله ي هم خطي در مدل هاي رگرسيون خطي مورد توجه
بسياري از محققان قرار گرفته و رو ش هاي گوناگوني براي مقابله با
اثرات نامطلوب آن ابداع شده است ( 2). از جمله اين روش ها،
Latent ) كاهش ابعاد مدل با استفاده از متغيرهاي پنهان
است. اين نوع متغيرها مستقيماً مشاهده نمي شوند؛ (Variables
بلكه از تركيب ساير متغيرهاي مشاهده شده قابل دستيابي بوده، به
عنوان نماينده ي برخي از متغيرهاي همبسته در مدل به كار
.( مي روند ( 4
اگر چه استفاده از متغيرهاي پنهان براي كاهش اب عاد مدل، در
عمل بيشترين كاربرد را در مطالعات مربوط به علوم اجتماعي و
روانشناسي داشته است، ولي به دليل نوع مطالعات انجام شده در
علوم پزشكي و بهداشت كه مستلزم جمع آوري تعداد قابل توجهي
متغيرهاي مرتبط با يك ديگر است، مشكل هم خطي در بسياري از
مدل هاي آماري اين مطالعات قابل انتظار است ( 5) و علي رغم
اين كه هم خطي چندگانه در مدل رگرسيون لجستيك نيزايجاد
مشكل مي كند ( 6،7 )، تاكنون توجه محققان بيشتر بر رگرسيون
خطي با متغير پاسخ داراي توزيع نرمال متمركز بوده است.
(Principal Component Analysis) تحليل مؤلفه هاي اصلي
يكي از كاربردي ترين روش هاي كاهش ابعاد در روش هاي چند
متغيري است . تاريخچه ي ابداع اين روش به ابداعات پيرسن
در برازش حداقل مربعات متعامد برمي گردد؛ ولي بسط (Pearson)
انجام شده است (Hotteling) عمده ي تئوري ب ه وسيله ي هتلينگ
8). مؤلفه هاي اصلي با توجه به خصوصيات ي كه دارند براي مقابله )
با مشكل هم خطي و كاهش ابعاد مدل در رگرسيون هاي خطي
مورد استفاده قرار مي گيرند ( 2،9 ). در اين روش با استفاده از
10 )، مؤلفه هاي اصلي به ) (Eigen Values) ماتريس مقادير ويژه
صورت تركيب خطي از متغيرهاي اوليه و مستقل از يكديگر
ساخته مي شوند و در آناليز داده ها، به جاي متغيرهاي اوليه مورد
.( استفاده قرار مي گيرند ( 11
از ديگر روش هاي كاهش ابعاد (Factor Analysis) تحليل عاملي
(Spearman) داده ها است، كه نخستين بار توسط اسپيرمن
معرفي شد . در اين روش با فرض وجود يك مدل مبنايي مشخص
براي كل داده ها، و براساس ماتريس واريانس كوواريانس يا
ماتريس ضرايب همبستگي، عامل هاي مستقل از يكديگر، از روي
.( متغيرهاي اوليه به دست مي آيند ( 12
در اين تحقيق، براي كاهش ابعاد مدل رگرسيون لجستيك با
متغيرهاي توضيحي هم خط، در تحليل داده هاي يك مطالعه مورد
شاهدي پيرامون عوام ل خطرسرطان پستان از دو روش تحليل
عاملي و تحليل مؤلف ههاي اصلي استفاده شده است.
روش ها
براي بررسي نحوه ي كاربرد دو روش تحليل مؤلفه هاي اصلي و
تحليل عاملي در كاهش ابعاد مدل و ايجاد متغيرهاي پنهان، از
داده هاي مطالع هي مورد شاهدي مربوط به عوامل خطر سرطان
پستان استفاده شد ( 13 ). در مطالعه ي مذكور كه در فاصل ه ي
زماني بهمن 82 تا آذر 83 در مركز پزشكي آموزشي، درماني
شهداي تجريش انجام شد گروه مورد، بيماراني بودند كه بيماري
سرطان پستان آن ها با استفاده از آزماي شهاي پاتولوژيك،
تشخيص قطعي داده شده و يا براي درمان يا پي گيري به درمانگاه
بيمارستان شهداي تجريش مراجعه كرده بودند . گروه شاهد زناني
بودند كه به دلايل ديگري غير از سرطان پستان و به طور هم زمان
در بخش هاي ديگرِ بيمارستان شهداء، مثل جراحي، پوست، داخلي
و غيره بستري و يا براي پي گيري يا درمان به درمانگاه بيمارست ان
مراجعه كرده بودند و از نظر سني با گروه مورد با حداكثر 2 سال
اختلاف مشابه سازي شدند . با اطمينان 95 درصد و توان آزمون 80
.( درصد، تعداد نمونه براي هر گروه 300 نفر انتخاب شد ( 14
متغيرهاي مختلفي به عنوان عوامل خطر يا متغير كنترل
جمع آوري شدند كه در اين مقاله ، پنج متغير كه بين آن ها
هم بستگي بالايي وجود داشت در نظر گرفته شدند . اين متغيرها
تعداد ،(NP: Number of Pregnancy) عبارتند از: تعداد حاملگي
كل ،(NLB: Number of Live Birth) فرزندان زنده به دنيا آورده
TLBF: Total Length of Breast ) طول مدت شيردهي به فرزندان
AFP: Age at First ) سن در اولين حاملگي ،(Feeding
AFLB: Age at First ) و سن در اولين زايمان زنده (Pregnancy
براي بررسي ميزان بروز ه مخطي در اين مشاهدات از .(Live Birth
.( ماتريس ضرايب ه مبستگي استفاده است ( 2
ابتدا بدون در نظر گرفتن وجود هم خطي، مدل رگرسيون
لجستيك به داده ها برازش داده شد . سپس با تركيب پنج متغير
مورد بررسي، يك بار با روش تحليل مؤلفه هاي اصلي و بار ديگر به
طريق تحليل عاملي، دو متغير پنهان به دست آمد و بر اساس آن ها،
پارامترهاي مدل رگرسيون لجستيك برآورد شد . مدل هاي حاصل،
www.SID.ir
Archive of SID
به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك براي ... / 43
براساس واريانس هاي تبيين شد ه به وسيله ي دو روش و خطاي
استاندارد پارامترهاي برآورد شده، مورد مقايسه قرار گرفتند.
يافته ها
جدول يك نشان مي دهد بين سه متغير تعداد حاملگي، تعداد
فرزندان زنده به دنيا آورده و كل طول مدت شيردهي به فرزندان
و نيز بين دو متغير سن در اولين حاملگي و سن در اولي ن زايمان
زنده هم بستگي خطي بالايي مشاهده مي شود . هم چنين مقادير
نيز كه (VIF: Variance Inflation Factor) عامل تورم واريانس
ميزان بروز هم خطي را نشان مي دهد، محاسبه شد كه همه ي
مقادير بيشتر از يك و نشان دهنده ي وجود هم خطي در
متغيرهاست. به ويژه اين كه دو مت غير سن دراولين حاملگي و سن
بيشتر از 15 بوده و بنابراين VIF در اولين زايمان زنده داراي
براساس اين معيار هم خطي شديدي دارند . آزمون بارتلت نيز نشان
داد ماتريس ضرايب هم بستگي متغيرهاي توضيحي با صفر اختلاف
بنابراين بين متغيرهاي توضيحي .(P<0/ معني داري دارد ( 001
مورد بررسي هم خطي چندگانه وجود دارد.
نتايج حاصل از رگرسيون لجستيك بدون در نظر گرفتن وجود
اين هم خطي (جدول 2)، نشان مي دهد كه فقط دو متغير سن در
اولين حاملگي و سن در اولين زايمان زنده معني دار شده اند
هم چنين نسبت شانس به دست آمده براي سن در .(P<0,001)
و CI95%=10184- اولين زايمان زنده بسياربزرگ ( 453503
و برعكس براي سن در اولين حاملگي بسيار كوچك (OR=67960
بود كه هردو غيرعادي هستند . در مرحله ي (OR=0/000029)
بعد با روش تحليل عاملي دو عامل به صورت تركيب خطي زير از
متغيرهاي اوليه بدست آمد:
Factor1= 0/85NP+0/97NLB+0/68TLBF-0/26AFP-0/26AFLB.
Factor2= 0/21NP-0/23NLB-0/25TLBF+0/94AFP+0/95AFLB
45 %) و عامل / 84 % واريانس توسط عامل اول ( 67 / در مجموع 79
39 %) تبيين شده است . وارد كردن عوامل فوق به عنوان / دوم ( 12
متغيرهاي توضيحي در مدل رگرسيون لجستيك، نشان داد كه
هر دو تاثير (P<0/ و عامل دوم ( 001 (P<0/ عامل اول ( 002
معني داري بر متغير وابسته دارند (جدول 3). در مرحله ي سوم، با
روش تحليل مؤلفه هاي اصلي دو مؤلفه به صورت تركيب خطي زير
از متغيرهاي اوليه بدست آمد:
Component1=0/90NP+0/92NLB+0/82TLBF-0/25AFP
-0/24AFLB.
Component2=-0/21NP-0/25NLP-0/25TLBF+0/96AFP
+0/96AFLB
%89/ 49 % و مؤلفه ي دوم 40 % و در مجموع 26 / مؤلفه ي اول 26
كل واريانس را تبيين مي كنند . در برآورد پارامترهاي رگرسيون
لجستيك براساس اين مؤلفه هاي اصلي، نتايج مشابهي حاصل شد .
و مؤلفه دوم با (P<0/ به عبارت ديگر مؤلفه اول با ( 002
معني دار شدند و نسبت شانس ها نيز تقريباً مشابه (P<0/003)
جدول 2- برآورد پارامترهاي مدل رگرسيون لجستيك بدون درنظر گرفتن همخطي بين متغيرهاي توضيحي
متغيرهاي اصلي
ضرايب
رگرسيوني
خطاي
استاندارد
P-value
نسبت شانس
(% (فاصله اطمينان 95
عامل تورم واريانس
(VIF) *
(10184-453503) 0/62 0/20 0/ عرض از مبداء 10
4/57 1/06 (0/89-1/27) 0/50 0/09 0/06 (NP) تعداد حاملگي
5/83 0/84 (0/50-1/40) 0/51 0/26 -0/17 (NLB) تعداد فرزندان زنده به دنيا آورده
2/13 0/80 (0/59-1/08) 0/14 0/15 -0/22 (TLBF) كل طول مدت شيردهي به فرزندان
15/41 0/000029 <0/001 0/92 -10/46 (AFP) سن در اولين حاملگي
<0/001 0/97 11/13 (AFLB) سن در اولين زايمان زنده 67960
(10184-453503)
15/34
Variance Inflation Factor :VIF*
جدول 1- ماتريس ضرايب همبستگي متغيرهاي توضيحي
NP NLB TLBF AFP AFLB
1 0/90 0/67 -0/44 -0/42 NP
1 0/75 0/47 -0/047 NLB
1 -0/42 -0/41 TLBF
1 0/97 AFP
1 AFLB
كل طول مدت :TLBF ؛ تعداد فرزندان زنده به دنيا آورده :NLB ؛ تعداد حاملگي :NP
سن در اولين زايمان زنده :AFLB ؛ سن در اولين حاملگي :AFP ؛ شيردهي به فرزندان
www.SID.ir
Archive of SID
44 / محمدامين پورحسينقلي و همكاران
.( روش تحليل عاملي به دست آمدند (جدول 3
بحث
هدف پژوهش حاضر استفاده از متغيرهاي پنهان در مدل
رگرسيون لجستيك به منظور كاهش اثر در حالت بروز هم خطي
چندگانه بود . نتايج حاصل نشان داد برآورد پارامترهاي مدل در هر
دو روش تحليل مؤلفه هاي اصلي و تحليل عامل، مشابه هستند و
خطاي استاندارد آن ها نسبت به مدل اصلي بسيار كوچك تر است .
بنابراين دو روش به كار رفته براي توليد متغيرهاي پنهان نسبت به
مدل رگرسيون لجستيك براساس مشاهدات اوليه، در تحليل برخي
عوامل مرتبط با سرطان پستان ازكارايي بالاتري برخوردار هستند .
در مدل اوليه به دليل وجود هم خطي و بالا بودن خطاي استاندارد
برآوردها، تعدادي از متغيرها معني دار نشده اند و از بين دو متغير
معني دار، متغير سن در اولين زايمان زنده، نسبت شانس بسيار
بزرگ و غير معمول و متغير سن در اولين حاملگي، نسبت شانسي
نزديك به صفر را نشان داد.
Aguilera & ) يافته هاي اين تحقيق با نظر آگويلرا و اسكابياس
كه در مقاله ي خود نشان داده اند استفاده از تحليل (Escabias
مؤلفه هاي اصلي در رگرسيون لجستيك با داد ه هاي هم خط
مي تواند برآورد پارامترها را بهبود ب خشد، مطابق است ( 15 ). اين
روش در مقاله ي كاربردي اسكابياس، آگويلرا و والدراما
كه در مورد مدل سازي داده هاي هواشناسي بود (Valderrama)
نيز مورد استفاده قرار گرفته است . آنان در اين مطالعه بر نحوه ي
انتخاب مؤلفه هاي اصلي براي بهبود برآورد پارامترها تأكيد كرده اند
.(16)
در مطالعه اي كه براساس متغيرهاي (Wall & Li) وال و لي
توصيفي ميزان مرگ و مير بيماري هاي تنفسي بود، نتايج حاصل
از دو روش تحليل عامل و معادله ي مدل سازي ساختاري
را با رگرسيون كلاسيك (Structural Equation Modeling)
براساس متغيرهاي اوليه هم خط مقايسه ك رده نشان دادند كه
متغيرهاي پنهان، پارامترهايي با خطاهاي استاندارد كوچكتر توليد
مي كنند ( 17 ). نتايج تحقيق حاضر از اين لحاظ با مطالعه ي آنان
هم خواني دارد.
ايده ي استفاده از متغيرهاي پنهان به جاي متغيرهاي اصلي، با
هدف كاهش ابعاد داده ها از اين حقيقت ناشي مي شود كه اين
متغيرها مي توانند بازتاب دهنده ي ارتباط بين مشاهدات باشند
18 ). با اين حال استفاده از مدل هاي دربرگيرند ه ي متغيرهاي )
پنهان تبعاً مزايا و محدوديت هايي دارد . يكي از اهداف اصلي در
ساختن مدل هاي آماري تفسير مدل با توجه به پارامترهاي
برآوردشده مي باشد؛ ولي تفسير مدل هايي كه براساس عامل ها يا
تحليل مؤلفه هاي اصلي به دست مي آيند قدري پيچيده است
11،19 ). براي اين كار استفاده از روش تحليل مؤلفه هاي اصلي )
بهتر از تحليل عاملي است؛ زيرا مؤلفه هاي اصلي صرفاً تركيبي
خطي از متغيرهاي اوليه هستند و بر خلاف روش تحلي ل عامل،
مدلي براي داده ها فرض نمي كند ( 11،20،19 ). در نتيجه از طريق
معكوس ماتريس دوران م ي توان برآوردهاي تصحيح شده
پارامترهاي متغيرهاي اوليه را ب هدست آورد ( 11 ). هم چنين
روش هايي نيز براي تفسير اين مؤلفه ها در مدل كاهش يافته
پيش نهاد شده است ( 21 ). به هر حال سودمندي هاي حاصل از
كاهش ابعاد مدل و كاستن تعداد متغيرها آن چنان قابل ملاحظه
است كه علي رغم مشكلات حاصل در تفسير پارامتر، برخي
تكنيك هاي جديد علاوه بر توليد متغيرهاي پنهان براي متغيرهاي
توضيحي، اكنون بر توليد اين متغيرها براي متغيرهاي پاسخ توجه
.( دارند ( 22
نتيجه گيري
براساس يافته هاي اين تحقيق مي توان نتيجه گيري كرد كه در
بررسي برخي عوامل خطر سرطان پستان، دو روش تحليل عاملي و
تحليل مؤلفه هاي اصلي نتايج مشابهي داشته، نسبت به مدل
لجستيك با متغيرهاي هم خط اوليه از كارآيي بالاتري برخوردار
هستند.
تشكر و قدرداني
در اين مقاله از داده هاي طرح تحقيقاتي عوامل خطر سرطان
جدول 3- برآورد پارامترهاي رگرسيون لجستيك بر اساس متغيرهاي پنهان
ايجاد شده ب هوسيله روش تحليل عاملي و مؤلف ههاي اصلي
متغيرهاي
پنهان
ضرايب
رگرسيوني
خطاي
استاندارد
P value
نسبت شانس
(% (فاصله اطمينان 95
روش تحليل عاملي
0/96 0/64 0/08 -0/ عرض از مبداء 04
0/76 (0/64-0/91) 0/002 0/09 -0/27 عامل 1
1/33 (1/12-1/59) 0/001 0/09 0/29 عامل 2
روش تحليل مؤلفه هاي اصلي
0/96 0/64 0/09 -0/ عرض از مبداء 04
0/77 (0/65-0/91) 0/002 0/09 -0/26 مؤلفه 1
1/31 (1/10-1/56) 0/003 0/09 0/27 مؤلفه 2
www.SID.ir
Archive of SID
به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك براي ... / 45
پستان، مصوب دانشگاه علوم پزشكي شهيد بهشتي استفاده شده
است كه به اين وسيله از كليه همكاران طرح مذكور و نيز از
معاونت پژوهشي دانشكده پزشكي سپا سگزاري به عمل مي آيد.
منابع
1. Myers R.H., Montgomery D.C. and Vining G.G., Generalized
linear models with application in engineering and sciences,
2002, John Wiley & Sons.
2. Chattergee, S., Hadi, A.S. and Price, B. (2000). Regression
analysis by example, 2002, John Wiley & Sons, USA. PP:
225-258.
3. Myers, R.H. (1990). Classical and modern regression with
applications., 1990, Pws-Kent publishing company. PP: 123-
129.
4. Van Eye, A., Clogg, C.C., Latent variables analysis;
application for developing research. 1994, SAGE publication.
PP: 3-35.
5. Hazard munro, B. Statistical methods for health care research.,
2001, Philadelphia: Lippincott. PP: 287-288.
6. Kleinbaum, D. Logistic Regression., 1994, Springer, New York.
PP: 168.
7. Hosmer, D.W., Lemeshow, S. Applied logistic regression.,
1989, John Wiley & Sons.
8. Morrison, D. F. Multivariate statistical methods. 2002, John
Wiley & Sons. PP: 312-398.
9. Rawlings, J. O. Applied regression analysis: A research tools.,
1988, Belmont: Wadsworth. PP: 327-356.
10. Schott, J. R. Matrix analysis for statistics., 1997, John Wiley &
Sons. PP: 84-131.
11. Jollife, I.T. PrinCI95%pal component analysis., 1986, Springer.
PP: 129-141.
12. Srivastava, M. S. Methods of multivariate statistics, 2002, John
Wiley & Sons. New York. PP: 397-450.
13. Yavari, P., Mousavizadeh, M., Sadrol-Hafezi, B. and Mehrabi,
Y., Reproductive characteristics and the risk of breast cancer,
A case-control study. Asian PaCI95%fic J Cancer Prev, 2005,
6, 370-375.
14. Lemeshow, S., Hosmer, D. W. and Klar, J. Adequacy of sample
size in Health studies. World Health Organization, 1998, John
Wiley & Sons. PP: 19.
15. Aguilera, A.M. and Escabias, M., PrinCI95%pal component
logistic regression. Proceedings in computational statistics,
2000, 175-180. Physica-Verlag.
16. Escabias, M., Aguilera, A. M. and Valderrama, M. J.,
Modeling climatological data by functional logistic regression.
The ISI International Conference on Environmental Statistics
and Health, 2003.
17. Wall. M. M. and Li, R., Comparison of multiple regression to
two latent variable techniques for estimation and prediction.
Statistics in Medicine; 2003, 22:3671-3685.
18. Sobel, M. E. Causal inference in latent variable models. In
Latent variables analysis; application for developing
research. By Van Eye, A., Clogg, 1994, C.C SAGE publication.
PP: 3-35.
19. Rencher, A. C. Methods of multivariate analysis, 2002, John
Wiley & Sons.
20. Armitage, P. and Colton, T., Encyclopedia of Biostatistics.
Volume 2. Chichester: 1998, John Wiley & Sons. PP: 1480-
1481.
21. Chipman HA and Gu H. Interpretable dimension reduction.
2002, http://ace.acadiau.ca/math/chipmanh/
publications.html.
22. Guo, J., Wall, M. M. and Amemiya Y. Latent class regression
on latent factors to appear in Biostatistics.
www.SID.ir
به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك براي ... / 41
.41- مجله تخصصي اپيدميولوژي ايران؛ 1384 ، دوره 1، شماره 2: صفحات 45
مقاله پژوهشي
به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك براي حذف اثر
هم خطي چندگانه در تحليل برخي عوامل مرتبط با سرطان پستان
محمد امين پورحسينقلي 1، يدا... محرابي 2، حميد علوي مجد 3، پروين ياوري 4
1كارشناس ارشد آمار زيستي، دانشگاه علوم پزشكي شهيد بهشتي، تهران.
2دانشيار آمار زيستي، دانشگاه علوم پزشكي شهيد بهشتي، تهران.
3استاديار آمار زيستي، دانشگاه علوم پزشكي شهيد بهشتي، تهران.
4استاد اپيدميولوژي، دانشگاه علوم پزشكي شهيد بهشتي، تهران.
،021-23872567- نويسنده ي رابط: دكتر يدا... محرابي، گروه پزشكي اجتماعي و بهداشت دانشكده پزشكي، دانشگاه علوم پزشكي شهيد بهشتي، تهران، اوين، كد پستي 19395 ، تلفن: 8
mehrabi@sbmu.ac.ir ; ymehrabi@gmail.com : 021 ، پست الكترونيك - نمابر: 22414108
85/2/ 84 ، پذيرش: 3 /10/ تاريخ دريافت: 26
مقدمه و اهداف : رگرسيون لجستيك يكي از كاربرد يترين مدل هاي خطي تعمي ميافته براي تحليل رابط هي يك يا چند متغير توضيحي بر
متغير پاسخ رسته اي است . زماني كه بين متغيرهاي توضيحي همبستگي هاي نسبتا قوي وجود داشته باشد هم خطي چندگانه ايجاد شده،
ممكن است به كاهش كارآيي مدل منجر شود . هدف اين تحقيق استفاده از متغيرهاي پنها ن براي كاهش اثر هم خطي چندگانه در تحليل
يك مطالعه مورد شاهدي است.
روش كار: داده هاي مورد استفاده در اين تحقيق متعلق به يك مطالعه مورد شاهدي است كه در آن 300 نفر زن مبتلا به سرطان پستان
با 300 زن شاهد از نظر عوامل خطر مورد مقايسه قرار گرفتند . براي بررسي اثر هم خطي، پنج متغير كمي كه بين آن ها همبستگي بالايي
وجود داشت، در نظر گرفته شدند . ابتدا مدل لجستيك به متغيرهاي فوق برازش داده شد . سپس به منظور حذف اثر ه م خطي، دو متغير
پنهان با استفاده از هركدام از دو روش تحليل عاملي و تحليل مؤلفه هاي اصلي ب ه دست آورده ، بر مبناي آ ن ها پارامترهاي مد ل هاي
لجستيك مجدداً محاسبه شدند. كارآيي مدل ها، با استفاده از خطاي استاندارد پارامترها مقايسه گرديد.
نتايج: مدل رگرسيون لجستيك براساس متغيرهاي اوليه حاكي از مقادير غيرعادي نسبت شانس براي سن در اولين زايمان زنده ( 453503
بود. درحالي كه پارامترهاي مدل هاي لجستيك حاصل از (OR=0/ و سن در اولين حاملگي ( 000029 (OR= و 67960 CI95%== و 10184
و خطاي (p<0/ متغيرهاي پنهان به دست آمده از هر دو روش تحليل عامل و تحليل مؤلفه هاي اصلي، از نظر آماري معني دار ( 003
استاندارد همه ي آن ها كوچك تر از خطاي استاندارد مربوط به رگرسيون لجستيك معمولي بود . فاكتورها و مولفه هاي اصلي توليد شده
توسط دو روش حداقل 85 درصد كل واريانس را تبيين كردند.
نتيجه گيري: تحقيق نشان داد انحراف استاندارد پارامترهاي برآورد شده در رگرسيون لجستيك براساس متغيرهاي پنهان از رگرسيون
لجستيك براساس مشاهدات اوليه كوچكتر بوده و در نتيجه اي ن گونه مدل بندي در تحليل برخي عوامل خطر سرطان پستان كه ه م خطي
دارند كارآتر است.
واژگان كليدي: هم خطي چندگانه، متغير پنهان، تحليل عاملي، تحليل مؤلفه هاي اصلي، رگرسيون لجستيك، سرطان پستان.
مقدمه
رگرسيون لجس تيك يكي از كاربردي ترين مدل هاي خطي
تعميم يافته است كه براي تحليل رابطه ي يك يا چند متغير
توضيحي بر متغير پاسخ رسته اي به كار مي رود ( 1). زماني كه
تعداد متغيرهاي توضيحي افزايش مي يابد، مدل سازي مشكل شده
و كارآيي آن نيز كاهش مي يابد ؛ به خصوص اگر برخي از متغ يرها
علي رغم فرض استقلال در مدل سازي، با يك ديگر هم بستگي قوي
www.SID.ir
Archive of SID
42 / محمدامين پورحسينقلي و همكاران
داشته باشند و به عبارت ديگر هم خطي چندگانه
ايجاد شده باشد ( 2). هم خطي چندگانه يكي (Multicollinearity)
از دلايل افزايش خطاي استاندارد برآورد ضرايب رگرسيوني و
درنتيجه كاهش كارآيي مدل بوده و ممكن است منجر به
.( پيش بيني هايي خارج از دامنه ي مورد انتظار شود ( 3
مسئله ي هم خطي در مدل هاي رگرسيون خطي مورد توجه
بسياري از محققان قرار گرفته و رو ش هاي گوناگوني براي مقابله با
اثرات نامطلوب آن ابداع شده است ( 2). از جمله اين روش ها،
Latent ) كاهش ابعاد مدل با استفاده از متغيرهاي پنهان
است. اين نوع متغيرها مستقيماً مشاهده نمي شوند؛ (Variables
بلكه از تركيب ساير متغيرهاي مشاهده شده قابل دستيابي بوده، به
عنوان نماينده ي برخي از متغيرهاي همبسته در مدل به كار
.( مي روند ( 4
اگر چه استفاده از متغيرهاي پنهان براي كاهش اب عاد مدل، در
عمل بيشترين كاربرد را در مطالعات مربوط به علوم اجتماعي و
روانشناسي داشته است، ولي به دليل نوع مطالعات انجام شده در
علوم پزشكي و بهداشت كه مستلزم جمع آوري تعداد قابل توجهي
متغيرهاي مرتبط با يك ديگر است، مشكل هم خطي در بسياري از
مدل هاي آماري اين مطالعات قابل انتظار است ( 5) و علي رغم
اين كه هم خطي چندگانه در مدل رگرسيون لجستيك نيزايجاد
مشكل مي كند ( 6،7 )، تاكنون توجه محققان بيشتر بر رگرسيون
خطي با متغير پاسخ داراي توزيع نرمال متمركز بوده است.
(Principal Component Analysis) تحليل مؤلفه هاي اصلي
يكي از كاربردي ترين روش هاي كاهش ابعاد در روش هاي چند
متغيري است . تاريخچه ي ابداع اين روش به ابداعات پيرسن
در برازش حداقل مربعات متعامد برمي گردد؛ ولي بسط (Pearson)
انجام شده است (Hotteling) عمده ي تئوري ب ه وسيله ي هتلينگ
8). مؤلفه هاي اصلي با توجه به خصوصيات ي كه دارند براي مقابله )
با مشكل هم خطي و كاهش ابعاد مدل در رگرسيون هاي خطي
مورد استفاده قرار مي گيرند ( 2،9 ). در اين روش با استفاده از
10 )، مؤلفه هاي اصلي به ) (Eigen Values) ماتريس مقادير ويژه
صورت تركيب خطي از متغيرهاي اوليه و مستقل از يكديگر
ساخته مي شوند و در آناليز داده ها، به جاي متغيرهاي اوليه مورد
.( استفاده قرار مي گيرند ( 11
از ديگر روش هاي كاهش ابعاد (Factor Analysis) تحليل عاملي
(Spearman) داده ها است، كه نخستين بار توسط اسپيرمن
معرفي شد . در اين روش با فرض وجود يك مدل مبنايي مشخص
براي كل داده ها، و براساس ماتريس واريانس كوواريانس يا
ماتريس ضرايب همبستگي، عامل هاي مستقل از يكديگر، از روي
.( متغيرهاي اوليه به دست مي آيند ( 12
در اين تحقيق، براي كاهش ابعاد مدل رگرسيون لجستيك با
متغيرهاي توضيحي هم خط، در تحليل داده هاي يك مطالعه مورد
شاهدي پيرامون عوام ل خطرسرطان پستان از دو روش تحليل
عاملي و تحليل مؤلف ههاي اصلي استفاده شده است.
روش ها
براي بررسي نحوه ي كاربرد دو روش تحليل مؤلفه هاي اصلي و
تحليل عاملي در كاهش ابعاد مدل و ايجاد متغيرهاي پنهان، از
داده هاي مطالع هي مورد شاهدي مربوط به عوامل خطر سرطان
پستان استفاده شد ( 13 ). در مطالعه ي مذكور كه در فاصل ه ي
زماني بهمن 82 تا آذر 83 در مركز پزشكي آموزشي، درماني
شهداي تجريش انجام شد گروه مورد، بيماراني بودند كه بيماري
سرطان پستان آن ها با استفاده از آزماي شهاي پاتولوژيك،
تشخيص قطعي داده شده و يا براي درمان يا پي گيري به درمانگاه
بيمارستان شهداي تجريش مراجعه كرده بودند . گروه شاهد زناني
بودند كه به دلايل ديگري غير از سرطان پستان و به طور هم زمان
در بخش هاي ديگرِ بيمارستان شهداء، مثل جراحي، پوست، داخلي
و غيره بستري و يا براي پي گيري يا درمان به درمانگاه بيمارست ان
مراجعه كرده بودند و از نظر سني با گروه مورد با حداكثر 2 سال
اختلاف مشابه سازي شدند . با اطمينان 95 درصد و توان آزمون 80
.( درصد، تعداد نمونه براي هر گروه 300 نفر انتخاب شد ( 14
متغيرهاي مختلفي به عنوان عوامل خطر يا متغير كنترل
جمع آوري شدند كه در اين مقاله ، پنج متغير كه بين آن ها
هم بستگي بالايي وجود داشت در نظر گرفته شدند . اين متغيرها
تعداد ،(NP: Number of Pregnancy) عبارتند از: تعداد حاملگي
كل ،(NLB: Number of Live Birth) فرزندان زنده به دنيا آورده
TLBF: Total Length of Breast ) طول مدت شيردهي به فرزندان
AFP: Age at First ) سن در اولين حاملگي ،(Feeding
AFLB: Age at First ) و سن در اولين زايمان زنده (Pregnancy
براي بررسي ميزان بروز ه مخطي در اين مشاهدات از .(Live Birth
.( ماتريس ضرايب ه مبستگي استفاده است ( 2
ابتدا بدون در نظر گرفتن وجود هم خطي، مدل رگرسيون
لجستيك به داده ها برازش داده شد . سپس با تركيب پنج متغير
مورد بررسي، يك بار با روش تحليل مؤلفه هاي اصلي و بار ديگر به
طريق تحليل عاملي، دو متغير پنهان به دست آمد و بر اساس آن ها،
پارامترهاي مدل رگرسيون لجستيك برآورد شد . مدل هاي حاصل،
www.SID.ir
Archive of SID
به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك براي ... / 43
براساس واريانس هاي تبيين شد ه به وسيله ي دو روش و خطاي
استاندارد پارامترهاي برآورد شده، مورد مقايسه قرار گرفتند.
يافته ها
جدول يك نشان مي دهد بين سه متغير تعداد حاملگي، تعداد
فرزندان زنده به دنيا آورده و كل طول مدت شيردهي به فرزندان
و نيز بين دو متغير سن در اولين حاملگي و سن در اولي ن زايمان
زنده هم بستگي خطي بالايي مشاهده مي شود . هم چنين مقادير
نيز كه (VIF: Variance Inflation Factor) عامل تورم واريانس
ميزان بروز هم خطي را نشان مي دهد، محاسبه شد كه همه ي
مقادير بيشتر از يك و نشان دهنده ي وجود هم خطي در
متغيرهاست. به ويژه اين كه دو مت غير سن دراولين حاملگي و سن
بيشتر از 15 بوده و بنابراين VIF در اولين زايمان زنده داراي
براساس اين معيار هم خطي شديدي دارند . آزمون بارتلت نيز نشان
داد ماتريس ضرايب هم بستگي متغيرهاي توضيحي با صفر اختلاف
بنابراين بين متغيرهاي توضيحي .(P<0/ معني داري دارد ( 001
مورد بررسي هم خطي چندگانه وجود دارد.
نتايج حاصل از رگرسيون لجستيك بدون در نظر گرفتن وجود
اين هم خطي (جدول 2)، نشان مي دهد كه فقط دو متغير سن در
اولين حاملگي و سن در اولين زايمان زنده معني دار شده اند
هم چنين نسبت شانس به دست آمده براي سن در .(P<0,001)
و CI95%=10184- اولين زايمان زنده بسياربزرگ ( 453503
و برعكس براي سن در اولين حاملگي بسيار كوچك (OR=67960
بود كه هردو غيرعادي هستند . در مرحله ي (OR=0/000029)
بعد با روش تحليل عاملي دو عامل به صورت تركيب خطي زير از
متغيرهاي اوليه بدست آمد:
Factor1= 0/85NP+0/97NLB+0/68TLBF-0/26AFP-0/26AFLB.
Factor2= 0/21NP-0/23NLB-0/25TLBF+0/94AFP+0/95AFLB
45 %) و عامل / 84 % واريانس توسط عامل اول ( 67 / در مجموع 79
39 %) تبيين شده است . وارد كردن عوامل فوق به عنوان / دوم ( 12
متغيرهاي توضيحي در مدل رگرسيون لجستيك، نشان داد كه
هر دو تاثير (P<0/ و عامل دوم ( 001 (P<0/ عامل اول ( 002
معني داري بر متغير وابسته دارند (جدول 3). در مرحله ي سوم، با
روش تحليل مؤلفه هاي اصلي دو مؤلفه به صورت تركيب خطي زير
از متغيرهاي اوليه بدست آمد:
Component1=0/90NP+0/92NLB+0/82TLBF-0/25AFP
-0/24AFLB.
Component2=-0/21NP-0/25NLP-0/25TLBF+0/96AFP
+0/96AFLB
%89/ 49 % و مؤلفه ي دوم 40 % و در مجموع 26 / مؤلفه ي اول 26
كل واريانس را تبيين مي كنند . در برآورد پارامترهاي رگرسيون
لجستيك براساس اين مؤلفه هاي اصلي، نتايج مشابهي حاصل شد .
و مؤلفه دوم با (P<0/ به عبارت ديگر مؤلفه اول با ( 002
معني دار شدند و نسبت شانس ها نيز تقريباً مشابه (P<0/003)
جدول 2- برآورد پارامترهاي مدل رگرسيون لجستيك بدون درنظر گرفتن همخطي بين متغيرهاي توضيحي
متغيرهاي اصلي
ضرايب
رگرسيوني
خطاي
استاندارد
P-value
نسبت شانس
(% (فاصله اطمينان 95
عامل تورم واريانس
(VIF) *
(10184-453503) 0/62 0/20 0/ عرض از مبداء 10
4/57 1/06 (0/89-1/27) 0/50 0/09 0/06 (NP) تعداد حاملگي
5/83 0/84 (0/50-1/40) 0/51 0/26 -0/17 (NLB) تعداد فرزندان زنده به دنيا آورده
2/13 0/80 (0/59-1/08) 0/14 0/15 -0/22 (TLBF) كل طول مدت شيردهي به فرزندان
15/41 0/000029 <0/001 0/92 -10/46 (AFP) سن در اولين حاملگي
<0/001 0/97 11/13 (AFLB) سن در اولين زايمان زنده 67960
(10184-453503)
15/34
Variance Inflation Factor :VIF*
جدول 1- ماتريس ضرايب همبستگي متغيرهاي توضيحي
NP NLB TLBF AFP AFLB
1 0/90 0/67 -0/44 -0/42 NP
1 0/75 0/47 -0/047 NLB
1 -0/42 -0/41 TLBF
1 0/97 AFP
1 AFLB
كل طول مدت :TLBF ؛ تعداد فرزندان زنده به دنيا آورده :NLB ؛ تعداد حاملگي :NP
سن در اولين زايمان زنده :AFLB ؛ سن در اولين حاملگي :AFP ؛ شيردهي به فرزندان
www.SID.ir
Archive of SID
44 / محمدامين پورحسينقلي و همكاران
.( روش تحليل عاملي به دست آمدند (جدول 3
بحث
هدف پژوهش حاضر استفاده از متغيرهاي پنهان در مدل
رگرسيون لجستيك به منظور كاهش اثر در حالت بروز هم خطي
چندگانه بود . نتايج حاصل نشان داد برآورد پارامترهاي مدل در هر
دو روش تحليل مؤلفه هاي اصلي و تحليل عامل، مشابه هستند و
خطاي استاندارد آن ها نسبت به مدل اصلي بسيار كوچك تر است .
بنابراين دو روش به كار رفته براي توليد متغيرهاي پنهان نسبت به
مدل رگرسيون لجستيك براساس مشاهدات اوليه، در تحليل برخي
عوامل مرتبط با سرطان پستان ازكارايي بالاتري برخوردار هستند .
در مدل اوليه به دليل وجود هم خطي و بالا بودن خطاي استاندارد
برآوردها، تعدادي از متغيرها معني دار نشده اند و از بين دو متغير
معني دار، متغير سن در اولين زايمان زنده، نسبت شانس بسيار
بزرگ و غير معمول و متغير سن در اولين حاملگي، نسبت شانسي
نزديك به صفر را نشان داد.
Aguilera & ) يافته هاي اين تحقيق با نظر آگويلرا و اسكابياس
كه در مقاله ي خود نشان داده اند استفاده از تحليل (Escabias
مؤلفه هاي اصلي در رگرسيون لجستيك با داد ه هاي هم خط
مي تواند برآورد پارامترها را بهبود ب خشد، مطابق است ( 15 ). اين
روش در مقاله ي كاربردي اسكابياس، آگويلرا و والدراما
كه در مورد مدل سازي داده هاي هواشناسي بود (Valderrama)
نيز مورد استفاده قرار گرفته است . آنان در اين مطالعه بر نحوه ي
انتخاب مؤلفه هاي اصلي براي بهبود برآورد پارامترها تأكيد كرده اند
.(16)
در مطالعه اي كه براساس متغيرهاي (Wall & Li) وال و لي
توصيفي ميزان مرگ و مير بيماري هاي تنفسي بود، نتايج حاصل
از دو روش تحليل عامل و معادله ي مدل سازي ساختاري
را با رگرسيون كلاسيك (Structural Equation Modeling)
براساس متغيرهاي اوليه هم خط مقايسه ك رده نشان دادند كه
متغيرهاي پنهان، پارامترهايي با خطاهاي استاندارد كوچكتر توليد
مي كنند ( 17 ). نتايج تحقيق حاضر از اين لحاظ با مطالعه ي آنان
هم خواني دارد.
ايده ي استفاده از متغيرهاي پنهان به جاي متغيرهاي اصلي، با
هدف كاهش ابعاد داده ها از اين حقيقت ناشي مي شود كه اين
متغيرها مي توانند بازتاب دهنده ي ارتباط بين مشاهدات باشند
18 ). با اين حال استفاده از مدل هاي دربرگيرند ه ي متغيرهاي )
پنهان تبعاً مزايا و محدوديت هايي دارد . يكي از اهداف اصلي در
ساختن مدل هاي آماري تفسير مدل با توجه به پارامترهاي
برآوردشده مي باشد؛ ولي تفسير مدل هايي كه براساس عامل ها يا
تحليل مؤلفه هاي اصلي به دست مي آيند قدري پيچيده است
11،19 ). براي اين كار استفاده از روش تحليل مؤلفه هاي اصلي )
بهتر از تحليل عاملي است؛ زيرا مؤلفه هاي اصلي صرفاً تركيبي
خطي از متغيرهاي اوليه هستند و بر خلاف روش تحلي ل عامل،
مدلي براي داده ها فرض نمي كند ( 11،20،19 ). در نتيجه از طريق
معكوس ماتريس دوران م ي توان برآوردهاي تصحيح شده
پارامترهاي متغيرهاي اوليه را ب هدست آورد ( 11 ). هم چنين
روش هايي نيز براي تفسير اين مؤلفه ها در مدل كاهش يافته
پيش نهاد شده است ( 21 ). به هر حال سودمندي هاي حاصل از
كاهش ابعاد مدل و كاستن تعداد متغيرها آن چنان قابل ملاحظه
است كه علي رغم مشكلات حاصل در تفسير پارامتر، برخي
تكنيك هاي جديد علاوه بر توليد متغيرهاي پنهان براي متغيرهاي
توضيحي، اكنون بر توليد اين متغيرها براي متغيرهاي پاسخ توجه
.( دارند ( 22
نتيجه گيري
براساس يافته هاي اين تحقيق مي توان نتيجه گيري كرد كه در
بررسي برخي عوامل خطر سرطان پستان، دو روش تحليل عاملي و
تحليل مؤلفه هاي اصلي نتايج مشابهي داشته، نسبت به مدل
لجستيك با متغيرهاي هم خط اوليه از كارآيي بالاتري برخوردار
هستند.
تشكر و قدرداني
در اين مقاله از داده هاي طرح تحقيقاتي عوامل خطر سرطان
جدول 3- برآورد پارامترهاي رگرسيون لجستيك بر اساس متغيرهاي پنهان
ايجاد شده ب هوسيله روش تحليل عاملي و مؤلف ههاي اصلي
متغيرهاي
پنهان
ضرايب
رگرسيوني
خطاي
استاندارد
P value
نسبت شانس
(% (فاصله اطمينان 95
روش تحليل عاملي
0/96 0/64 0/08 -0/ عرض از مبداء 04
0/76 (0/64-0/91) 0/002 0/09 -0/27 عامل 1
1/33 (1/12-1/59) 0/001 0/09 0/29 عامل 2
روش تحليل مؤلفه هاي اصلي
0/96 0/64 0/09 -0/ عرض از مبداء 04
0/77 (0/65-0/91) 0/002 0/09 -0/26 مؤلفه 1
1/31 (1/10-1/56) 0/003 0/09 0/27 مؤلفه 2
www.SID.ir
Archive of SID
به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك براي ... / 45
پستان، مصوب دانشگاه علوم پزشكي شهيد بهشتي استفاده شده
است كه به اين وسيله از كليه همكاران طرح مذكور و نيز از
معاونت پژوهشي دانشكده پزشكي سپا سگزاري به عمل مي آيد.
منابع
1. Myers R.H., Montgomery D.C. and Vining G.G., Generalized
linear models with application in engineering and sciences,
2002, John Wiley & Sons.
2. Chattergee, S., Hadi, A.S. and Price, B. (2000). Regression
analysis by example, 2002, John Wiley & Sons, USA. PP:
225-258.
3. Myers, R.H. (1990). Classical and modern regression with
applications., 1990, Pws-Kent publishing company. PP: 123-
129.
4. Van Eye, A., Clogg, C.C., Latent variables analysis;
application for developing research. 1994, SAGE publication.
PP: 3-35.
5. Hazard munro, B. Statistical methods for health care research.,
2001, Philadelphia: Lippincott. PP: 287-288.
6. Kleinbaum, D. Logistic Regression., 1994, Springer, New York.
PP: 168.
7. Hosmer, D.W., Lemeshow, S. Applied logistic regression.,
1989, John Wiley & Sons.
8. Morrison, D. F. Multivariate statistical methods. 2002, John
Wiley & Sons. PP: 312-398.
9. Rawlings, J. O. Applied regression analysis: A research tools.,
1988, Belmont: Wadsworth. PP: 327-356.
10. Schott, J. R. Matrix analysis for statistics., 1997, John Wiley &
Sons. PP: 84-131.
11. Jollife, I.T. PrinCI95%pal component analysis., 1986, Springer.
PP: 129-141.
12. Srivastava, M. S. Methods of multivariate statistics, 2002, John
Wiley & Sons. New York. PP: 397-450.
13. Yavari, P., Mousavizadeh, M., Sadrol-Hafezi, B. and Mehrabi,
Y., Reproductive characteristics and the risk of breast cancer,
A case-control study. Asian PaCI95%fic J Cancer Prev, 2005,
6, 370-375.
14. Lemeshow, S., Hosmer, D. W. and Klar, J. Adequacy of sample
size in Health studies. World Health Organization, 1998, John
Wiley & Sons. PP: 19.
15. Aguilera, A.M. and Escabias, M., PrinCI95%pal component
logistic regression. Proceedings in computational statistics,
2000, 175-180. Physica-Verlag.
16. Escabias, M., Aguilera, A. M. and Valderrama, M. J.,
Modeling climatological data by functional logistic regression.
The ISI International Conference on Environmental Statistics
and Health, 2003.
17. Wall. M. M. and Li, R., Comparison of multiple regression to
two latent variable techniques for estimation and prediction.
Statistics in Medicine; 2003, 22:3671-3685.
18. Sobel, M. E. Causal inference in latent variable models. In
Latent variables analysis; application for developing
research. By Van Eye, A., Clogg, 1994, C.C SAGE publication.
PP: 3-35.
19. Rencher, A. C. Methods of multivariate analysis, 2002, John
Wiley & Sons.
20. Armitage, P. and Colton, T., Encyclopedia of Biostatistics.
Volume 2. Chichester: 1998, John Wiley & Sons. PP: 1480-
1481.
21. Chipman HA and Gu H. Interpretable dimension reduction.
2002, http://ace.acadiau.ca/math/chipmanh/
publications.html.
22. Guo, J., Wall, M. M. and Amemiya Y. Latent class regression
on latent factors to appear in Biostatistics.
www.SID.irArchive of SID
به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك براي ... / 41
.41- مجله تخصصي اپيدميولوژي ايران؛ 1384 ، دوره 1، شماره 2: صفحات 45
مقاله پژوهشي
به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك براي حذف اثر
هم خطي چندگانه در تحليل برخي عوامل مرتبط با سرطان پستان
محمد امين پورحسينقلي 1، يدا... محرابي 2، حميد علوي مجد 3، پروين ياوري 4
1كارشناس ارشد آمار زيستي، دانشگاه علوم پزشكي شهيد بهشتي، تهران.
2دانشيار آمار زيستي، دانشگاه علوم پزشكي شهيد بهشتي، تهران.
3استاديار آمار زيستي، دانشگاه علوم پزشكي شهيد بهشتي، تهران.
4استاد اپيدميولوژي، دانشگاه علوم پزشكي شهيد بهشتي، تهران.
،021-23872567- نويسنده ي رابط: دكتر يدا... محرابي، گروه پزشكي اجتماعي و بهداشت دانشكده پزشكي، دانشگاه علوم پزشكي شهيد بهشتي، تهران، اوين، كد پستي 19395 ، تلفن: 8
mehrabi@sbmu.ac.ir ; ymehrabi@gmail.com : 021 ، پست الكترونيك - نمابر: 22414108
85/2/ 84 ، پذيرش: 3 /10/ تاريخ دريافت: 26
مقدمه و اهداف : رگرسيون لجستيك يكي از كاربرد يترين مدل هاي خطي تعمي ميافته براي تحليل رابط هي يك يا چند متغير توضيحي بر
متغير پاسخ رسته اي است . زماني كه بين متغيرهاي توضيحي همبستگي هاي نسبتا قوي وجود داشته باشد هم خطي چندگانه ايجاد شده،
ممكن است به كاهش كارآيي مدل منجر شود . هدف اين تحقيق استفاده از متغيرهاي پنها ن براي كاهش اثر هم خطي چندگانه در تحليل
يك مطالعه مورد شاهدي است.
روش كار: داده هاي مورد استفاده در اين تحقيق متعلق به يك مطالعه مورد شاهدي است كه در آن 300 نفر زن مبتلا به سرطان پستان
با 300 زن شاهد از نظر عوامل خطر مورد مقايسه قرار گرفتند . براي بررسي اثر هم خطي، پنج متغير كمي كه بين آن ها همبستگي بالايي
وجود داشت، در نظر گرفته شدند . ابتدا مدل لجستيك به متغيرهاي فوق برازش داده شد . سپس به منظور حذف اثر ه م خطي، دو متغير
پنهان با استفاده از هركدام از دو روش تحليل عاملي و تحليل مؤلفه هاي اصلي ب ه دست آورده ، بر مبناي آ ن ها پارامترهاي مد ل هاي
لجستيك مجدداً محاسبه شدند. كارآيي مدل ها، با استفاده از خطاي استاندارد پارامترها مقايسه گرديد.
نتايج: مدل رگرسيون لجستيك براساس متغيرهاي اوليه حاكي از مقادير غيرعادي نسبت شانس براي سن در اولين زايمان زنده ( 453503
بود. درحالي كه پارامترهاي مدل هاي لجستيك حاصل از (OR=0/ و سن در اولين حاملگي ( 000029 (OR= و 67960 CI95%== و 10184
و خطاي (p<0/ متغيرهاي پنهان به دست آمده از هر دو روش تحليل عامل و تحليل مؤلفه هاي اصلي، از نظر آماري معني دار ( 003
استاندارد همه ي آن ها كوچك تر از خطاي استاندارد مربوط به رگرسيون لجستيك معمولي بود . فاكتورها و مولفه هاي اصلي توليد شده
توسط دو روش حداقل 85 درصد كل واريانس را تبيين كردند.
نتيجه گيري: تحقيق نشان داد انحراف استاندارد پارامترهاي برآورد شده در رگرسيون لجستيك براساس متغيرهاي پنهان از رگرسيون
لجستيك براساس مشاهدات اوليه كوچكتر بوده و در نتيجه اي ن گونه مدل بندي در تحليل برخي عوامل خطر سرطان پستان كه ه م خطي
دارند كارآتر است.
واژگان كليدي: هم خطي چندگانه، متغير پنهان، تحليل عاملي، تحليل مؤلفه هاي اصلي، رگرسيون لجستيك، سرطان پستان.
مقدمه
رگرسيون لجس تيك يكي از كاربردي ترين مدل هاي خطي
تعميم يافته است كه براي تحليل رابطه ي يك يا چند متغير
توضيحي بر متغير پاسخ رسته اي به كار مي رود ( 1). زماني كه
تعداد متغيرهاي توضيحي افزايش مي يابد، مدل سازي مشكل شده
و كارآيي آن نيز كاهش مي يابد ؛ به خصوص اگر برخي از متغ يرها
علي رغم فرض استقلال در مدل سازي، با يك ديگر هم بستگي قوي
www.SID.ir
Archive of SID
42 / محمدامين پورحسينقلي و همكاران
داشته باشند و به عبارت ديگر هم خطي چندگانه
ايجاد شده باشد ( 2). هم خطي چندگانه يكي (Multicollinearity)
از دلايل افزايش خطاي استاندارد برآورد ضرايب رگرسيوني و
درنتيجه كاهش كارآيي مدل بوده و ممكن است منجر به
.( پيش بيني هايي خارج از دامنه ي مورد انتظار شود ( 3
مسئله ي هم خطي در مدل هاي رگرسيون خطي مورد توجه
بسياري از محققان قرار گرفته و رو ش هاي گوناگوني براي مقابله با
اثرات نامطلوب آن ابداع شده است ( 2). از جمله اين روش ها،
Latent ) كاهش ابعاد مدل با استفاده از متغيرهاي پنهان
است. اين نوع متغيرها مستقيماً مشاهده نمي شوند؛ (Variables
بلكه از تركيب ساير متغيرهاي مشاهده شده قابل دستيابي بوده، به
عنوان نماينده ي برخي از متغيرهاي همبسته در مدل به كار
.( مي روند ( 4
اگر چه استفاده از متغيرهاي پنهان براي كاهش اب عاد مدل، در
عمل بيشترين كاربرد را در مطالعات مربوط به علوم اجتماعي و
روانشناسي داشته است، ولي به دليل نوع مطالعات انجام شده در
علوم پزشكي و بهداشت كه مستلزم جمع آوري تعداد قابل توجهي
متغيرهاي مرتبط با يك ديگر است، مشكل هم خطي در بسياري از
مدل هاي آماري اين مطالعات قابل انتظار است ( 5) و علي رغم
اين كه هم خطي چندگانه در مدل رگرسيون لجستيك نيزايجاد
مشكل مي كند ( 6،7 )، تاكنون توجه محققان بيشتر بر رگرسيون
خطي با متغير پاسخ داراي توزيع نرمال متمركز بوده است.
(Principal Component Analysis) تحليل مؤلفه هاي اصلي
يكي از كاربردي ترين روش هاي كاهش ابعاد در روش هاي چند
متغيري است . تاريخچه ي ابداع اين روش به ابداعات پيرسن
در برازش حداقل مربعات متعامد برمي گردد؛ ولي بسط (Pearson)
انجام شده است (Hotteling) عمده ي تئوري ب ه وسيله ي هتلينگ
8). مؤلفه هاي اصلي با توجه به خصوصيات ي كه دارند براي مقابله )
با مشكل هم خطي و كاهش ابعاد مدل در رگرسيون هاي خطي
مورد استفاده قرار مي گيرند ( 2،9 ). در اين روش با استفاده از
10 )، مؤلفه هاي اصلي به ) (Eigen Values) ماتريس مقادير ويژه
صورت تركيب خطي از متغيرهاي اوليه و مستقل از يكديگر
ساخته مي شوند و در آناليز داده ها، به جاي متغيرهاي اوليه مورد
.( استفاده قرار مي گيرند ( 11
از ديگر روش هاي كاهش ابعاد (Factor Analysis) تحليل عاملي
(Spearman) داده ها است، كه نخستين بار توسط اسپيرمن
معرفي شد . در اين روش با فرض وجود يك مدل مبنايي مشخص
براي كل داده ها، و براساس ماتريس واريانس كوواريانس يا
ماتريس ضرايب همبستگي، عامل هاي مستقل از يكديگر، از روي
.( متغيرهاي اوليه به دست مي آيند ( 12
در اين تحقيق، براي كاهش ابعاد مدل رگرسيون لجستيك با
متغيرهاي توضيحي هم خط، در تحليل داده هاي يك مطالعه مورد
شاهدي پيرامون عوام ل خطرسرطان پستان از دو روش تحليل
عاملي و تحليل مؤلف ههاي اصلي استفاده شده است.
روش ها
براي بررسي نحوه ي كاربرد دو روش تحليل مؤلفه هاي اصلي و
تحليل عاملي در كاهش ابعاد مدل و ايجاد متغيرهاي پنهان، از
داده هاي مطالع هي مورد شاهدي مربوط به عوامل خطر سرطان
پستان استفاده شد ( 13 ). در مطالعه ي مذكور كه در فاصل ه ي
زماني بهمن 82 تا آذر 83 در مركز پزشكي آموزشي، درماني
شهداي تجريش انجام شد گروه مورد، بيماراني بودند كه بيماري
سرطان پستان آن ها با استفاده از آزماي شهاي پاتولوژيك،
تشخيص قطعي داده شده و يا براي درمان يا پي گيري به درمانگاه
بيمارستان شهداي تجريش مراجعه كرده بودند . گروه شاهد زناني
بودند كه به دلايل ديگري غير از سرطان پستان و به طور هم زمان
در بخش هاي ديگرِ بيمارستان شهداء، مثل جراحي، پوست، داخلي
و غيره بستري و يا براي پي گيري يا درمان به درمانگاه بيمارست ان
مراجعه كرده بودند و از نظر سني با گروه مورد با حداكثر 2 سال
اختلاف مشابه سازي شدند . با اطمينان 95 درصد و توان آزمون 80
.( درصد، تعداد نمونه براي هر گروه 300 نفر انتخاب شد ( 14
متغيرهاي مختلفي به عنوان عوامل خطر يا متغير كنترل
جمع آوري شدند كه در اين مقاله ، پنج متغير كه بين آن ها
هم بستگي بالايي وجود داشت در نظر گرفته شدند . اين متغيرها
تعداد ،(NP: Number of Pregnancy) عبارتند از: تعداد حاملگي
كل ،(NLB: Number of Live Birth) فرزندان زنده به دنيا آورده
TLBF: Total Length of Breast ) طول مدت شيردهي به فرزندان
AFP: Age at First ) سن در اولين حاملگي ،(Feeding
AFLB: Age at First ) و سن در اولين زايمان زنده (Pregnancy
براي بررسي ميزان بروز ه مخطي در اين مشاهدات از .(Live Birth
.( ماتريس ضرايب ه مبستگي استفاده است ( 2
ابتدا بدون در نظر گرفتن وجود هم خطي، مدل رگرسيون
لجستيك به داده ها برازش داده شد . سپس با تركيب پنج متغير
مورد بررسي، يك بار با روش تحليل مؤلفه هاي اصلي و بار ديگر به
طريق تحليل عاملي، دو متغير پنهان به دست آمد و بر اساس آن ها،
پارامترهاي مدل رگرسيون لجستيك برآورد شد . مدل هاي حاصل،
www.SID.ir
Archive of SID
به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك براي ... / 43
براساس واريانس هاي تبيين شد ه به وسيله ي دو روش و خطاي
استاندارد پارامترهاي برآورد شده، مورد مقايسه قرار گرفتند.
يافته ها
جدول يك نشان مي دهد بين سه متغير تعداد حاملگي، تعداد
فرزندان زنده به دنيا آورده و كل طول مدت شيردهي به فرزندان
و نيز بين دو متغير سن در اولين حاملگي و سن در اولي ن زايمان
زنده هم بستگي خطي بالايي مشاهده مي شود . هم چنين مقادير
نيز كه (VIF: Variance Inflation Factor) عامل تورم واريانس
ميزان بروز هم خطي را نشان مي دهد، محاسبه شد كه همه ي
مقادير بيشتر از يك و نشان دهنده ي وجود هم خطي در
متغيرهاست. به ويژه اين كه دو مت غير سن دراولين حاملگي و سن
بيشتر از 15 بوده و بنابراين VIF در اولين زايمان زنده داراي
براساس اين معيار هم خطي شديدي دارند . آزمون بارتلت نيز نشان
داد ماتريس ضرايب هم بستگي متغيرهاي توضيحي با صفر اختلاف
بنابراين بين متغيرهاي توضيحي .(P<0/ معني داري دارد ( 001
مورد بررسي هم خطي چندگانه وجود دارد.
نتايج حاصل از رگرسيون لجستيك بدون در نظر گرفتن وجود
اين هم خطي (جدول 2)، نشان مي دهد كه فقط دو متغير سن در
اولين حاملگي و سن در اولين زايمان زنده معني دار شده اند
هم چنين نسبت شانس به دست آمده براي سن در .(P<0,001)
و CI95%=10184- اولين زايمان زنده بسياربزرگ ( 453503
و برعكس براي سن در اولين حاملگي بسيار كوچك (OR=67960
بود كه هردو غيرعادي هستند . در مرحله ي (OR=0/000029)
بعد با روش تحليل عاملي دو عامل به صورت تركيب خطي زير از
متغيرهاي اوليه بدست آمد:
Factor1= 0/85NP+0/97NLB+0/68TLBF-0/26AFP-0/26AFLB.
Factor2= 0/21NP-0/23NLB-0/25TLBF+0/94AFP+0/95AFLB
45 %) و عامل / 84 % واريانس توسط عامل اول ( 67 / در مجموع 79
39 %) تبيين شده است . وارد كردن عوامل فوق به عنوان / دوم ( 12
متغيرهاي توضيحي در مدل رگرسيون لجستيك، نشان داد كه
هر دو تاثير (P<0/ و عامل دوم ( 001 (P<0/ عامل اول ( 002
معني داري بر متغير وابسته دارند (جدول 3). در مرحله ي سوم، با
روش تحليل مؤلفه هاي اصلي دو مؤلفه به صورت تركيب خطي زير
از متغيرهاي اوليه بدست آمد:
Component1=0/90NP+0/92NLB+0/82TLBF-0/25AFP
-0/24AFLB.
Component2=-0/21NP-0/25NLP-0/25TLBF+0/96AFP
+0/96AFLB
%89/ 49 % و مؤلفه ي دوم 40 % و در مجموع 26 / مؤلفه ي اول 26
كل واريانس را تبيين مي كنند . در برآورد پارامترهاي رگرسيون
لجستيك براساس اين مؤلفه هاي اصلي، نتايج مشابهي حاصل شد .
و مؤلفه دوم با (P<0/ به عبارت ديگر مؤلفه اول با ( 002
معني دار شدند و نسبت شانس ها نيز تقريباً مشابه (P<0/003)
جدول 2- برآورد پارامترهاي مدل رگرسيون لجستيك بدون درنظر گرفتن همخطي بين متغيرهاي توضيحي
متغيرهاي اصلي
ضرايب
رگرسيوني
خطاي
استاندارد
P-value
نسبت شانس
(% (فاصله اطمينان 95
عامل تورم واريانس
(VIF) *
(10184-453503) 0/62 0/20 0/ عرض از مبداء 10
4/57 1/06 (0/89-1/27) 0/50 0/09 0/06 (NP) تعداد حاملگي
5/83 0/84 (0/50-1/40) 0/51 0/26 -0/17 (NLB) تعداد فرزندان زنده به دنيا آورده
2/13 0/80 (0/59-1/08) 0/14 0/15 -0/22 (TLBF) كل طول مدت شيردهي به فرزندان
15/41 0/000029 <0/001 0/92 -10/46 (AFP) سن در اولين حاملگي
<0/001 0/97 11/13 (AFLB) سن در اولين زايمان زنده 67960
(10184-453503)
15/34
Variance Inflation Factor :VIF*
جدول 1- ماتريس ضرايب همبستگي متغيرهاي توضيحي
NP NLB TLBF AFP AFLB
1 0/90 0/67 -0/44 -0/42 NP
1 0/75 0/47 -0/047 NLB
1 -0/42 -0/41 TLBF
1 0/97 AFP
1 AFLB
كل طول مدت :TLBF ؛ تعداد فرزندان زنده به دنيا آورده :NLB ؛ تعداد حاملگي :NP
سن در اولين زايمان زنده :AFLB ؛ سن در اولين حاملگي :AFP ؛ شيردهي به فرزندان
www.SID.ir
Archive of SID
44 / محمدامين پورحسينقلي و همكاران
.( روش تحليل عاملي به دست آمدند (جدول 3
بحث
هدف پژوهش حاضر استفاده از متغيرهاي پنهان در مدل
رگرسيون لجستيك به منظور كاهش اثر در حالت بروز هم خطي
چندگانه بود . نتايج حاصل نشان داد برآورد پارامترهاي مدل در هر
دو روش تحليل مؤلفه هاي اصلي و تحليل عامل، مشابه هستند و
خطاي استاندارد آن ها نسبت به مدل اصلي بسيار كوچك تر است .
بنابراين دو روش به كار رفته براي توليد متغيرهاي پنهان نسبت به
مدل رگرسيون لجستيك براساس مشاهدات اوليه، در تحليل برخي
عوامل مرتبط با سرطان پستان ازكارايي بالاتري برخوردار هستند .
در مدل اوليه به دليل وجود هم خطي و بالا بودن خطاي استاندارد
برآوردها، تعدادي از متغيرها معني دار نشده اند و از بين دو متغير
معني دار، متغير سن در اولين زايمان زنده، نسبت شانس بسيار
بزرگ و غير معمول و متغير سن در اولين حاملگي، نسبت شانسي
نزديك به صفر را نشان داد.
Aguilera & ) يافته هاي اين تحقيق با نظر آگويلرا و اسكابياس
كه در مقاله ي خود نشان داده اند استفاده از تحليل (Escabias
مؤلفه هاي اصلي در رگرسيون لجستيك با داد ه هاي هم خط
مي تواند برآورد پارامترها را بهبود ب خشد، مطابق است ( 15 ). اين
روش در مقاله ي كاربردي اسكابياس، آگويلرا و والدراما
كه در مورد مدل سازي داده هاي هواشناسي بود (Valderrama)
نيز مورد استفاده قرار گرفته است . آنان در اين مطالعه بر نحوه ي
انتخاب مؤلفه هاي اصلي براي بهبود برآورد پارامترها تأكيد كرده اند
.(16)
در مطالعه اي كه براساس متغيرهاي (Wall & Li) وال و لي
توصيفي ميزان مرگ و مير بيماري هاي تنفسي بود، نتايج حاصل
از دو روش تحليل عامل و معادله ي مدل سازي ساختاري
را با رگرسيون كلاسيك (Structural Equation Modeling)
براساس متغيرهاي اوليه هم خط مقايسه ك رده نشان دادند كه
متغيرهاي پنهان، پارامترهايي با خطاهاي استاندارد كوچكتر توليد
مي كنند ( 17 ). نتايج تحقيق حاضر از اين لحاظ با مطالعه ي آنان
هم خواني دارد.
ايده ي استفاده از متغيرهاي پنهان به جاي متغيرهاي اصلي، با
هدف كاهش ابعاد داده ها از اين حقيقت ناشي مي شود كه اين
متغيرها مي توانند بازتاب دهنده ي ارتباط بين مشاهدات باشند
18 ). با اين حال استفاده از مدل هاي دربرگيرند ه ي متغيرهاي )
پنهان تبعاً مزايا و محدوديت هايي دارد . يكي از اهداف اصلي در
ساختن مدل هاي آماري تفسير مدل با توجه به پارامترهاي
برآوردشده مي باشد؛ ولي تفسير مدل هايي كه براساس عامل ها يا
تحليل مؤلفه هاي اصلي به دست مي آيند قدري پيچيده است
11،19 ). براي اين كار استفاده از روش تحليل مؤلفه هاي اصلي )
بهتر از تحليل عاملي است؛ زيرا مؤلفه هاي اصلي صرفاً تركيبي
خطي از متغيرهاي اوليه هستند و بر خلاف روش تحلي ل عامل،
مدلي براي داده ها فرض نمي كند ( 11،20،19 ). در نتيجه از طريق
معكوس ماتريس دوران م ي توان برآوردهاي تصحيح شده
پارامترهاي متغيرهاي اوليه را ب هدست آورد ( 11 ). هم چنين
روش هايي نيز براي تفسير اين مؤلفه ها در مدل كاهش يافته
پيش نهاد شده است ( 21 ). به هر حال سودمندي هاي حاصل از
كاهش ابعاد مدل و كاستن تعداد متغيرها آن چنان قابل ملاحظه
است كه علي رغم مشكلات حاصل در تفسير پارامتر، برخي
تكنيك هاي جديد علاوه بر توليد متغيرهاي پنهان براي متغيرهاي
توضيحي، اكنون بر توليد اين متغيرها براي متغيرهاي پاسخ توجه
.( دارند ( 22
نتيجه گيري
براساس يافته هاي اين تحقيق مي توان نتيجه گيري كرد كه در
بررسي برخي عوامل خطر سرطان پستان، دو روش تحليل عاملي و
تحليل مؤلفه هاي اصلي نتايج مشابهي داشته، نسبت به مدل
لجستيك با متغيرهاي هم خط اوليه از كارآيي بالاتري برخوردار
هستند.
تشكر و قدرداني
در اين مقاله از داده هاي طرح تحقيقاتي عوامل خطر سرطان
جدول 3- برآورد پارامترهاي رگرسيون لجستيك بر اساس متغيرهاي پنهان
ايجاد شده ب هوسيله روش تحليل عاملي و مؤلف ههاي اصلي
متغيرهاي
پنهان
ضرايب
رگرسيوني
خطاي
استاندارد
P value
نسبت شانس
(% (فاصله اطمينان 95
روش تحليل عاملي
0/96 0/64 0/08 -0/ عرض از مبداء 04
0/76 (0/64-0/91) 0/002 0/09 -0/27 عامل 1
1/33 (1/12-1/59) 0/001 0/09 0/29 عامل 2
روش تحليل مؤلفه هاي اصلي
0/96 0/64 0/09 -0/ عرض از مبداء 04
0/77 (0/65-0/91) 0/002 0/09 -0/26 مؤلفه 1
1/31 (1/10-1/56) 0/003 0/09 0/27 مؤلفه 2
www.SID.ir
Archive of SID
به كارگيري متغيرهاي پنهان در مدل رگرسيون لجستيك براي ... / 45
پستان، مصوب دانشگاه علوم پزشكي شهيد بهشتي استفاده شده
است كه به اين وسيله از كليه همكاران طرح مذكور و نيز از
معاونت پژوهشي دانشكده پزشكي سپا سگزاري به عمل مي آيد.
منابع
1. Myers R.H., Montgomery D.C. and Vining G.G., Generalized
linear models with application in engineering and sciences,
2002, John Wiley & Sons.
2. Chattergee, S., Hadi, A.S. and Price, B. (2000). Regression
analysis by example, 2002, John Wiley & Sons, USA. PP:
225-258.
3. Myers, R.H. (1990). Classical and modern regression with
applications., 1990, Pws-Kent publishing company. PP: 123-
129.
4. Van Eye, A., Clogg, C.C., Latent variables analysis;
application for developing research. 1994, SAGE publication.
PP: 3-35.
5. Hazard munro, B. Statistical methods for health care research.,
2001, Philadelphia: Lippincott. PP: 287-288.
6. Kleinbaum, D. Logistic Regression., 1994, Springer, New York.
PP: 168.
7. Hosmer, D.W., Lemeshow, S. Applied logistic regression.,
1989, John Wiley & Sons.
8. Morrison, D. F. Multivariate statistical methods. 2002, John
Wiley & Sons. PP: 312-398.
9. Rawlings, J. O. Applied regression analysis: A research tools.,
1988, Belmont: Wadsworth. PP: 327-356.
10. Schott, J. R. Matrix analysis for statistics., 1997, John Wiley &
Sons. PP: 84-131.
11. Jollife, I.T. PrinCI95%pal component analysis., 1986, Springer.
PP: 129-141.
12. Srivastava, M. S. Methods of multivariate statistics, 2002, John
Wiley & Sons. New York. PP: 397-450.
13. Yavari, P., Mousavizadeh, M., Sadrol-Hafezi, B. and Mehrabi,
Y., Reproductive characteristics and the risk of breast cancer,
A case-control study. Asian PaCI95%fic J Cancer Prev, 2005,
6, 370-375.
14. Lemeshow, S., Hosmer, D. W. and Klar, J. Adequacy of sample
size in Health studies. World Health Organization, 1998, John
Wiley & Sons. PP: 19.
15. Aguilera, A.M. and Escabias, M., PrinCI95%pal component
logistic regression. Proceedings in computational statistics,
2000, 175-180. Physica-Verlag.
16. Escabias, M., Aguilera, A. M. and Valderrama, M. J.,
Modeling climatological data by functional logistic regression.
The ISI International Conference on Environmental Statistics
and Health, 2003.
17. Wall. M. M. and Li, R., Comparison of multiple regression to
two latent variable techniques for estimation and prediction.
Statistics in Medicine; 2003, 22:3671-3685.
18. Sobel, M. E. Causal inference in latent variable models. In
Latent variables analysis; application for developing
research. By Van Eye, A., Clogg, 1994, C.C SAGE publication.
PP: 3-35.
19. Rencher, A. C. Methods of multivariate analysis, 2002, John
Wiley & Sons.
20. Armitage, P. and Colton, T., Encyclopedia of Biostatistics.
Volume 2. Chichester: 1998, John Wiley & Sons. PP: 1480-
1481.
21. Chipman HA and Gu H. Interpretable dimension reduction.
2002, http://ace.acadiau.ca/math/chipmanh/
publications.html.
22. Guo, J., Wall, M. M. and Amemiya Y. Latent class regression
on latent factors to appear in Biostatistics.
www.SID.ir
+ نوشته شده در یکشنبه ۱۵ آبان ۱۳۹۰ ساعت توسط
|