تحلیل خوشه ای
تحلیل خوشه ای :
خوشه بندی (تحلیل خوشه ای) برای حل مسئله ای طرح می شود که در آن با در دست داشتن نمونه ای از n مشاهده و اندازه گیری P متغیر بر روی هر مشاهده، می توان مشاهدات (افراد) را در کلاس هایی(خوشه هایی) گروه بندی نمود که افراد مشابه در داخل یک کلاس قرار گیرند. این روش باید کاملاً عددی باشد و کلاس های آن از قبل مشخص نباشد
چرا تحلیل خوشه ای ارزشمند است ؟
1. خوشه بندی می تواند در یافتن گروه های واقعی کمک ساز باشد (مانندگروه بندی بیماران افسرده که در مورد آنها اختلاف نظر زیاد است)،
2. برای کاهش داده ها می تواند مفید باشد (مانند انتخاب یک شهر از میان شهرهای مشابه برای بازاریابی)
اما ممکن است:
گروه های غیرقابل انتظاری ایجاد کند که احتمالاً بیانگر روابط جدیدی خواهد بود و باید مورد بررسی دقیق تری قرار گیرند.
انواع تحلیل خوشه ای
1. تحلیل خوشه ای دو مرحله ای
T-SCA
Two-Step Cluster Analysis))
2. تحلیل خوشه ای -Kمیانگین
K-MCA
K-Means Cluster Analysis))
3. تحلیل خوشه ای سلسله مراتبی
HCA
(Hierarchical Cluster Analysis)
تحلیل خوشه ای دو مرحله ای (T-SCA)
این رویه (Procedure)، ابزاری اکتشافی است که برای آشکار نمودن گروه ها (خوشه ها)ی ذاتی و طبیعی موجود در مجموعه داده که به طور معمول دیده نمی شوند، طراحی شده است.
وجه تمایز الگوریتم موجود در این رویه با فنون سنتی خوشه بندی :
· قابلیت خوشه بندی بر اساس متغیرهای گسسته (رسته ای) و پیوسته
· انتخاب خودکار تعداد خوشه ها
· قابلیت تحلیل کارآمد فایل داده های بسیار بزرگ
رویه T-SCA برای پیدا کردن گروه های واقعی موجود در مشاهدات یا متغیرها بسیار مفید است. همزمان با متغیرهای پیوسته وگسسته به خوبی کار می کند. همچنین،می تواند فایل داده های بسیار بزرگ را تحلیل نماید.
رویه K-MCA) محدود به متغیرهای قابل اندازه گیری (Scale) است؛ اما برای کار با داد ه های بزرگ مناسب است و امکان ذخیره سازی فاصله ها از مرکز خوشه را فراهم می نماید.
اگر تعداد مشاهدات کم باشد، و انتخاب بین چندین روش مختلف سازماندهی خوشه ها، تبدیل متغیرها و اندازه گیری عدم شباهت بین خوشه ها مطرح باشد، رویه HCA پیشنهاد می شود.
روشهاي خوشهبندي سلسله مراتبي
همان گونه که بيان شد، در روش خوشه بندي سلسله مراتبي، به خوشههاي نهايي بر اساس ميزان عموميت آنها ساختاري سلسله مراتبي، معمولا به صورت درختي نسبت داده ميشود. به ا ين درخت سلسله مراتبي دندوگرام (dendogram) ميگويند. روشهاي خوشهبندي بر اساس ساختار سلسله مراتبي توليدي توسط آنها معمولا به دو دستة زير تقسيم ميشوند:
بالا به پايين (Top-Down) يا تقسيم کننده (Divisive): در اين روش ابتدا تمام دادهها به عنوان يک خوشه در نظر گرفته ميشوند و سپس در طي يک فرايند تکراري در هر مرحله دادههايي شباهت کمتري به هم دارند به خوشههاي مجزايي شکسته ميشوند و اين روال تا رسيدن به خوشههايي که داراي يک عضو هستند ادامه پيدا ميکند.
پايين به بالا (Bottom-Up) يا متراکم شونده (Agglomerative): در اين روش ابتدا هر دادهها به عنوان خوشهاي مجزا در نظر گرفته ميشود و در طي فرايندي تکراري در هر مرحله خوشههايي که شباهت بيشتري با يکديگر با يکديگر ترکيب ميشوند تا در نهايت يک خوشه و يا تعداد مشخصي خوشه حاصل شود. از انواع الگوريتمهاي خوشهبندي سلسله مراتبي متراکم شونده رايج ميتوان از الگوريتمهاي Single-Link، Average-Link و Complete-Link نام برد. تفاوت اصلي در بين تمام اين روشها به نحوة محاسبة شباهت بين خوشهها مربوط ميشود.
منبع:http://moshaveramari.com/site/detail.asp?page=11&id=7