تحلیل داده های شبکه ای، مدلبندی آماری و نرم افزار

"ما در جهان شبکه ای زندگی می کنیم" جمله ای تکراری که به خوبی توصیف کننده ی جهانی (imaginary بعد ) است که در آن زندگی می کنیم و دلیلی برای علاقمندی به علم شبکه در سال های اخیر. نقش شبکه های اجتماعی و اینترنت و شیوه ی تعامل افراد با یکدیگر در این گرایش را نمی توان نادیده گرفت. شبکه در فرهنگ لغت اکسفورد به صورت مجموعه ای از اشیاء مرتبط با هم تعریف شده است. موضوع دیگر گرایش به این حوزه ی دانشی، تحلیل و مدلسازی سیستم های پیچیده است. یکی از پیچیده ترین سیستم های موجود در عالم امکان، سیستم روانی انسان ها است اگر چه این پیچیدگی ناممکن بودن مدلبندی رو نیز تحت شعاع خود قرار می دهد اما حداقل در حوزه ی رفتارشناسی انسان ها به صورت جزء قابل کاربست است. وقتی مسئله ی مطالعه و تحلیل رفتار انسانی موضوع مطالعه ی چنین دسیپلینی می باشد، مشخص است که در مورد شاخه های ساده تر مانند الکترونیک، برق، مهندسی های مختلف، اقتصاد، پزشکی، زیست شناسی، گیاه شناسی، کشاورزی، زمین شناسی، فیزیک و ... بسیار کاربرد پذیرتر و مطالعات آن دارای راندمان بیشتر است. علم شبکه مانع کاهش گرایی می شود که ویژگی اصلی قرن گذشته است و تسهیل کننده ی خوبی برای مدیریت، ذخیره و جمع آوری داده های با توان بالا است.

یکی از مسائل مهم در علم شبکه ایجاد گزاره های خبری مبتنی بر علم آمار است. به عبارت مبانی علم آمار در ایجاد گزاره های خبری بکار گرفته می شوند. منظور از گزاره ی خبری همان استخراج نتایج استنباطی از داده ها است. با این وجود در مدلسازی شبکه دو کلاس مدلبندی مختلف وجود دارد مدل بندی یا مدلسازی ریاضیاتی و مدلسازی آماری. در مدلسازی ریاضیاتی از قواعد احتمالاتی برای تصویر کردن شبکه استفاده می شود تا یک مکانیسم خاص یا فرضیه ی مشخص بررسی شو و در مدل سازی آماری یک مدل خاص آماری با داده های تجربی بدست آمده برازش داده می شود تا مشخص شود آیا داده ها با مدل برازش دارند یا خیر. در ادبیات مدلبندی آماری مدل های مختلفی وجود دارد به عنوان مثال مدل های گراف تصادفی توانی که با مدل های خطی تعمیم یافته همتا هستند بر مبنای شکلی از خانواده ی توانی اند. به طور مشابه مدل های شبکه ی پنهان در پیدا کردن یال هایی که ممکن است حداقل در بخشی از یک متغیر یا متغییرهای اندازه گیری نشده و ناشناخته، نقش دارند. این متغییرهای پنهان در عمل مثل استفاده متغییرهای پنهان در مدل های آمیخته است. مدل های بلوکی تصادفی ممکن است به عنوان شکلی از مدل های آمیخته محسوب شوند. با این وجود  مشخصات و ویژگی های این مدل ها و شرایط برازش آنها چندان فرم استانداردی ندارد و به ماهیت بعد بالای داده ها و ماهیت وابسته ی آنها بر می گردد. نکته ی دیگر داینامیک بودن ذاتی شبکه ها است به عبارتی در واقعیت شبکه ها در حال تغییرند تا در حال ثبات. مثلا شبکه ی بیماری کرونا را می توان در نظر گرفت که هر روز وضعیت آن متفاوت می شود. روش های مدل سازی ریاضیاتی و آماری غیر از شبکه ناتوان در مطالعه ی چنین رویدادهایی هستند یا ابزار انها بسیار اولیه است اما استفاده از مدل های شبکه ای آماری در حال حاضر بسیار زیاد است.

چرا باید از نرم افزار آر R در مدل بندی شبکه استفاده شود؟

ابزارهای گوناگونی برای تحلیل شبکه در دسترس هستند. بعضی از این ابزار تنها مبتنی بر ویندوزند مانند پژک (پجک Pajek) یا مبتنی بر زبان جاوا هستند مانند گیفی Gephi سایر دیگر نرم افزارها درون محیط برنامه نویسی قرار می گیرند. مثالهایی از این بسته ها را می توان به بسته ی NetworkX در پایتون و igraph در محیط R.

توسعه ی برنامه های آمار در حال حاضر در زبان آر به شدت بیشتر از سایر زبان ها است این موضوع در مورد تحلیل داده های شبکه ای هم صادق است. بسته های مختلف آماری و الگوهای مختلفی برای تحلیل های شبکه و تغییر و دستکاری و شبیه سازی در آر برنامه نویسی شده است. به لحاظ گرافیکی نیز این نرم افزار یک نرم افزا قوی محسوب می شود. تعداد بسته های نرم افزاری آر به صورت تصاعدی در حال افزایش است. آی گرف یکی از بسته های تحلیل گراف در آر است در حالی که بسته های مختلف دیگری نیز با اهداف مختلف برنامه نویسی شده است. به عنوان مثال کیو گراف qgraph یک بسته با کاربردهای روانسنجی علم شبکه است یا بسته های مختلف دیگر که در زبانشناسی و تحلیل وب استفاده می شود.

برگفته از کولازیک 2014

بسته ی نرم افزاری bnlearn یادگیری شبکه های بیزی (تحت نرم افزار آر)

در سال های اخیر شبکه های بیزی در حوزه های مختلفی استفاده شده است: از پردازش تحلیلی آنلاین با هدف گسترش عملکرد گرفته تا تحلیل عملکرد خدمات پزشکی، تا تحلیل بیان ژن، تا تشخیص شیوع شناسی و تشخیص زودهنگام سرطان سینه. در حوزه ی روانسنجی نیز این رویکرد شبکه قابلیت های نظری  و عملی فراوانی دارد. در حوزه ی زبان شناسی برای پیدا کردن مسیر ارتباط بین کلمات مختلف و ریشه شناسی و در حوزه ی باستان شناسی و گیاه شناسی برای پیدا کردن شجرنامه ی نمونه های مورد مطالعه  و مطالعات سیستماتیک. به دلیل تعداد ابعاد بالا در چنین مطالعاتی نیاز به الگوریتم هایی است که پیچیدگی های محاسباتی را کاهش دهد تا شبکه ی درست آموخته شود. به عنوان مثال الگوریتم grow-shrink مارگاریتی، الگوریتم انجمن افزایشی و مشتقات این الگوریتم که ساماردینوس و همکارانش به آن اشاره کرده اند، یا الگوریتم sparse candidate فریدمن و ورود مجدد بهینه مور و وانگ یا جستجوی معادل پیگیرانه چیرکرینگ.

بسته ی نرم افزاری bnlearn تحت نرم افزار R بعضی از این الگوریتم ها را از طریق آزمون های استقلال شرطی و نمرات شبکه با هدف اجرایی کردن ساختارهای شبکه بیزی بکار گرفته است که هم داده های گسسته و هم داده های پیوسته را در بر می گیرد. الگوریتم های یادگیری می توانند به صورت جداگانه از ملاک های آماری که مبتنی بر آنها هستند انتخاب شوند و بهترین ترکیب از داده های مورد مطالعه می تواند استفاده شود.

بیشتر متن برگرفته از مقدمه ی بسته ی نرم افزاری bnleaern