تحلیل خوشه ای :

خوشه بندی (تحلیل خوشه ای) برای حل مسئله ای طرح می شود که در آن با در دست داشتن نمونه ای از n مشاهده و اندازه گیری P متغیر بر روی هر مشاهده، می توان مشاهدات (افراد) را در کلاس هایی(خوشه هایی) گروه بندی نمود که افراد مشابه در داخل یک کلاس قرار گیرند. این روش باید کاملاً عددی باشد و کلاس های آن از قبل مشخص نباشد

چرا تحلیل خوشه ای ارزشمند است ؟

1. خوشه بندی می تواند در یافتن گروه های واقعی کمک ساز باشد (مانندگروه بندی بیماران افسرده که در مورد آنها اختلاف نظر زیاد است)،

2. برای کاهش داده ها می تواند مفید باشد (مانند انتخاب یک شهر از میان شهرهای مشابه برای بازاریابی)

اما ممکن است:

گروه های غیرقابل انتظاری ایجاد کند که احتمالاً بیانگر روابط جدیدی خواهد بود و باید مورد بررسی دقیق تری قرار گیرند.

 

انواع تحلیل خوشه ای

1.       تحلیل خوشه ای دو مرحله ای

 T-SCA

Two-Step Cluster Analysis))

2.       تحلیل خوشه ای -Kمیانگین

K-MCA

K-Means Cluster Analysis))

3.       تحلیل خوشه ای سلسله مراتبی

HCA

(Hierarchical Cluster Analysis)

تحلیل خوشه ای دو مرحله ای (T-SCA)

این رویه (Procedure)، ابزاری اکتشافی است که برای آشکار نمودن گروه ها (خوشه ها)ی ذاتی و طبیعی موجود در مجموعه داده که به طور معمول دیده نمی شوند، طراحی شده است.

وجه تمایز الگوریتم موجود در این رویه با فنون سنتی خوشه بندی :

·        قابلیت خوشه بندی بر اساس متغیرهای گسسته (رسته ای) و پیوسته

·        انتخاب خودکار تعداد خوشه ها

·     قابلیت تحلیل کارآمد فایل داده های بسیار بزرگ

رویه T-SCA برای پیدا کردن گروه های واقعی موجود در مشاهدات یا متغیرها بسیار مفید است. همزمان با متغیرهای پیوسته وگسسته به خوبی کار  می کند. همچنین،می تواند فایل داده های بسیار بزرگ را تحلیل نماید.

رویه K-MCA) محدود به متغیرهای قابل اندازه گیری (Scale) است؛ اما برای کار با داد ه های بزرگ مناسب است و امکان ذخیره سازی فاصله ها از مرکز خوشه را فراهم می نماید.

اگر تعداد مشاهدات کم باشد، و انتخاب بین چندین روش مختلف سازماندهی خوشه ها، تبدیل متغیرها و اندازه گیری عدم شباهت بین خوشه ها مطرح باشد، رویه HCA پیشنهاد می شود.

   روشهاي خوشه‌بندي سلسله مراتبي

همان گونه که بيان شد، در روش خوشه بندي سلسله مراتبي، به خوشه‌هاي نهايي بر اساس ميزان عموميت آنها  ساختاري سلسله‌ مراتبي، معمولا به صورت درختي نسبت داده مي‌شود. به ا ين درخت سلسله مراتبي دندوگرام (dendogram) مي‌گويند. روشهاي خوشه‌بندي بر اساس ساختار سلسله مراتبي توليدي توسط آنها معمولا به دو دستة زير تقسيم مي‌شوند:

 

بالا به پايين (Top-Down) يا تقسيم کننده (Divisive): در اين روش ابتدا تمام داده‌ها به عنوان يک خوشه در نظر گرفته مي‌شوند و سپس در طي يک فرايند تکراري در هر مرحله داده‌هايي شباهت کمتري به هم دارند به خوشه‌هاي مجزايي شکسته مي‌شوند و اين روال تا رسيدن به خوشه‌هايي که داراي يک عضو هستند ادامه پيدا مي‌کند.

 

پايين به بالا (Bottom-Up) يا متراکم شونده (Agglomerative): در اين روش ابتدا هر داده‌ها به عنوان خوشه‌اي مجزا در نظر گرفته مي‌شود و در طي فرايندي تکراري در هر مرحله خوشه‌هايي که شباهت بيشتري با يکديگر با يکديگر ترکيب مي‌شوند تا در نهايت يک خوشه و يا تعداد مشخصي خوشه حاصل شود. از انواع الگوريتمهاي خوشه‌بندي سلسله مراتبي متراکم شونده رايج مي‌توان از الگوريتمهاي Single-Link، Average-Link و Complete-Link نام برد. تفاوت اصلي در بين تمام اين روشها به نحوة محاسبة شباهت بين خوشه‌ها مربوط مي‌شود.

منبع:http://moshaveramari.com/site/detail.asp?page=11&id=7