استفاده از نظريه سوال پاسخ در مدل بندي داده هاي بيان ژن
تحت شرايط خاص پژوهشي موقعيت هايي پيش مي آيد كه در آن تعداد متغيرهاي مشاهده شده بيشتر از تعداد متغيرهاي مكنون يا پنهان مي باشند. مثلا در بيان ژني (gene expression) تعداد ژن ها كه متغيرهاي پنهان اند بيشتر از تعداد موقعيت هاي زيستي كه مشاهده شده هستند مي باشند، در اين مواقع تحليل داده ها با استفاده از رورش هاي كلاسيك آماري يا استفاده از الگوهاي يادگيري ماشين غير ممكن است. در اين حالت براي پيش بيني طبقه ها نمي توان از روش هايي كه در داده كاوي استفاده مي شود استفاده كرد. به عنوان مثال كاربرد تحليل تشخيصي يا تحليل تمييز منجر به over-fitting شدن مدل مي شود. در اين حالت مدل پيش بيني شده با داده هاي اصلي به خوبي برازش پيدا مي كند اما ممكن است پيش بيني خوبي براي داده ها ارائه ندهد. راه معمول براي حل اين مشكل كاهش تعداد متغيرها است اين كار از طريق روش ها گزينش و يا فرافكني متغيرها به ابعاد كمتر امكان پذير است. اگر چه تحليل هاي آماري كه براي داده هاي microarray استفاده مي شود از حوزه هاي مهمي پژوهشي است اما مقالات كمي به اين مورد پرداخته اند. دانشمندان معتقداند كه تحليل داده هاي با ابعاد بالا يكي از مهمترين موضوعات پژوهشي است كه در آينده به آن بيشتر پرداخته مي شود.
دو راه مهمي كه براي مديريت كردن اين مشكل وجود دارد يكي اين است كه متغيرهاي نامرتبط و تكراري حذف شود و متغيرهايي باقي بمانند كه در ژن هاي بيان شده بيشترين تمايز را ايجاد كنند. استفاده از روش هاي چند متغيري آماري نيز مي تواند براي حل اين مشكل استفاده شود. مثلا استفاده از روش تحليل عاملي خطي و غير خطي و يا تحليل خوشه اي. در مورد مثال بالا يعني داده هاي بيان ژن روش تحليل خوشه اي يك راه حل معمول است.
هدف تحليل خوشه اي آشكارسازي ساختار مكنون و شناسايي الگوهاي جالب زير بنايي داده هاي مشاهده شده است. پيش بيني طبقه يكي از جنبه هاي مهم مربوط به مطالعات microarray است. بر اساس اين پيش بيني مي توان براي يك نمونه ي زيستي (متغيرهاي مشاهده شده) و بر اساس نيمرخ بيان شده ي آنها طبقه شان را مشخص نمود. اگر چه تحليل خوشه اي ابزار مهمي در پيدا كردن خوشه ها و كشف الگوهاي مربوط به داده هاي بيان ژن است اما پيش بيني با اين روش امكان ندارد. خروجي تحليل خوشه اي گروههايي است كه داراي مقياس اسمي اند و بنابراين مثلا با روش تحليل مولفه هاي اصلي كه در آن متغيرهاي خروجي پيوسته اند و مي توان براي پيش بيني از آن استفاده كرد متفاوتند. تحليل خوشه اي اطلاعات كمي مناسبي براي خوشه ژن ها مهيا نمي كند مخصوصا مشخص نمي كند كه هر خوشه چقدر از خوشه ي ديگر روي پيوستار مقياس اندازه گيري متفاوت است. در عين حال خوشه بندي سلسله مراتبي اطلاعاتي در مورد اين كه در هر سطح چه دسته ژن هايي با يكديگر قرار دارند مهيا مي كند ولي همانطور كه گفته شد تحليل خوشه اي اطلاعات كمي معتبر آماري در مورد هر خوشه ي ژن مشخص نمي كند.
بر مبناي نظريه ي سوال پاسخ هر ژن را مي توان يك سوال در نظر گرفت و هر نمونه ي زيستي را يك فرد و بنابراين امكان استفاده از نظريه ي سوال پاسخ براي داده هاي بيان ژن مهيا مي شود. در اين صورت سطح بيان به عنوان پاسخ يك نمونه بيولوژيكي خاص به يك ژن خاص تعريف مي شود. در يك نمونه ي خاص با استفاده از نيمرخ بيان ژن ها در يك خوشه مشخص مي توانيم با بيان يك متغير مكنون از طريق برازش با مدل راش احتمال سطح بيان بالا را بدست آوريم. فرض كنيد كه ما i متغير مشاهده شده و j نمونه داريم. در اين مثال ژن ها متغيرهاي مشاهده شده اند و Uij اگر برابر با يك باشد به اين معني است كه سطح بيان ژن در نمونه ي j بالا است و در صورتي كه مقدار آن صفر باشد سطح بيان ژن در نمونه ي j پايين است. مدل راش احتمال سطح بالاي بيان ژن را براي نمونه ي j پيش بيني مي كند. پارامترهاي مدل راش در اين انطباق برابرند با
تتا: پارامتر نمونه است كه بيانگر متغير مكنون مربوط به نمونه مي باشد كه از طريق ژن i اندازه گيري مي شود.
درجه دشواري: در اين مثال درجه ي دشواري پارامتر مربوط به ژن است. نمونه ها براي ژن هايي كه پارامتر آنها بالا است، به نسبت كمتري سطح بيان بالا ارائه مي دهند.
در ضمن در اين مثال از روش برآورد درستنمايي شرطي براي براورد پارامترها استفاده مي شود.
+ نوشته شده در شنبه ۱۵ بهمن ۱۳۹۰ ساعت توسط
|