(۳-۱)  

در فرمول بالا X نشان‌دهنده مقدار متغیر است.
۳-۲-۴- تعیین تعداد بهینه خوشه‌ها
یکی از مهم‌ترین مسایل در خوشه‌بندی انتخاب تعداد خوشه‌های مناسب می‌باشد. تعداد خوشه‌ای مناسب می‌باشد که:
نمونه‌های موجود در یک خوشه تا حد امکان شبیه به یکدیگر باشند.
نمونه‌های متعلق به خوشه‌های متفاوت تا حد امکان با یکدیگر نامشابه باشند.
عبارات فوق را بدین صورت نیز بیان می‌کنند که خوشه‌ها باید بیشینه فشردگی داشته باشند و تا حد امکان جدایی آن‌ها نیز زیاد باشد. برای یک خوشه‌بندی مناسب هر دو معیار باهم باید ارضا شوند چرا که اگر تنها معیار فشردگی مورد استفاده قرار گیرد در آن صورت هر داده می‌تواند به صورت یک خوشه در نظر گرفته شود چرا که هیچ خوشه‌ای فشرده‌تر از خوشه‌ای با یک داده نیست و اگر تنها معیار جدایی در نظر گرفته شود در آن صورت بهترین خوشه‌بندی این است که کل داده‌ها را یک خوشه بگیریم با این توضیح که فاصله هر خوشه از خودش صفر است. بنابراین باید از ترکیب دو معیار فوق استفاده شود.
پایان نامه - مقاله - پروژه
به منظور تعیین تعداد بهینه خوشه‌ها می­توان از روش­هایی چون شاخص Davis-Bouldin، روش Two Step، تعیین تعداد بهینه خوشه‌ها به کمک روش‌های مبتنی بر گراف و یا نظرات خبرگان استفاده نمود.
۳-۲-۵- خوشه‌بندی
خوشه‌بندی یا گروه­بندی، تقسیم اقلام موجود در یک مجموعه داده است که به طور طبیعی باهم شباهت دارند. داده­هایی که با این معیار به صورت خوشه­هایی تفکیک می­گردند، با داده‌های موجود در خوشه­ای که در آن قرار می­گیرند، بیش‌ترین شباهت را دارند؛ و با داده‌های موجود در سایر خوشه‌ها متفاوت­اند.
در خوشه‌بندی موضوعات زیر مورد توجه است:

 

    • چه تعداد از خوشه‌ها می ­تواند دانش نهفته در داده‌ها را کشف نماید؟ مسئله تعداد خوشه‌ها معمولاً به صورت جداگانه مورد بررسی قرار می­گیرد.

 

    • معیارهای شباهت و تفاوت داده‌ها چیست؟ این معیارها خود به واسطه روش‌های مختلفی محاسبه می­گردد، اما در بیشتر روش‌های خوشه‌بندی موجود از معیار فاصله فضایی دو داده از یکدیگر، استفاده می­ شود. فاصله فضایی می ­تواند با روش‌های مختلفی چون فاصله اقلیدسی[۱۳۸]، فاصله مینکوفسکی[۱۳۹] و یا فاصله مانهاتان[۱۴۰] محاسبه شود.

 

    • بعد از تعیین تعداد خوشه‌ها و معیار شباهت یا فاصله داده‌ها، داده‌ها با بهره گرفتن از چه روشی در تعداد خوشه­های معین جای گیرند [۱۱].

 

خوشه‌بندی یک الگوریتم بدون ناظر[۱۴۱] در داده‌کاوی است، زیرا هیچ صفتی منفردی برای هدایت فرایند Training استفاده نمی­ شود و همه صفات ورودی ارزش یکسان دارند [۲].
تفاوت این روش با طبقه ­بندی در این است که در طبقه‌بندی هر داده به یک طبقه (کلاس) از پیش مشخص‌شده تخصیص می‌یابد ولی در خوشه‌بندی هیچ اطلاعی از کلاس­های موجود درون داده‌ها وجود ندارد و به عبارتی خود خوشه‌ها نیز از داده‌ها استخراج می‌شوند.
با مطالعه و بررسی روش‌های داده‌کاوی موجود جهت خوشه‌بندی داده‌ها، الگوریتم‌های K-Means، WK- Means و A-H-Means برای اعمال بر روی مجموعه داده‌ها انتخاب شده ­اند.
۳-۲-۵-۱- انواع خوشه‌بندی
امروزه الگوریتم‌های متنوعی در زمینه خوشه‌بندی معرفی شده ­اند. این الگوریتم­ها به طور کلی به سه دسته تقسیم می­شوند [۱]:
۱- خوشه‌بندی سلسله‌مراتبی[۱۴۲]
در این نوع خوشه‌بندی خوشه‌ها به صورت متوالی به دو شیوه انباشتی[۱۴۳] و یا تقسیم­کنندگی[۱۴۴] توسعه می­یابند. در روش انباشتی، هر یک از نقاط به عنوان خوشه در نظر گرفته شده و سپس خوشه­های مشابه باهم ادغام می­گردند. در شیوه تقسیم­کنندگی در ابتدا کل داده‌ها به عنوان یک خوشه در نظر گرفته شده و تقسیمات متوالی تا رسیدن به تعداد مناسب خوشه‌ها ادامه می­یابد.
۲- خوشه‌بندی مبتنی بر مدل[۱۴۵]
در این روش یک مدل احتمالی مشخص برای داده‌ها در نظر گرفته شده و سپس پارامترها برآورد می­شوند. در این گروه از الگوریتم­ها یک مدل چگالی آمیخته مطرح می­ شود و فرض می­ شود که داده‌ها از مخلوط شدن تعدادی منبع داده به وجود آمده­اند. هر یک از این منابع یک خوشه بالقوه در نظر گرفته می­ شود.
۳- خوشه‌بندی مبتنی بر بخش‌بندی[۱۴۶]
نام دیگر این روش خوشه‌بندی بر مبنای تابع هدف است که در آن اساس کار فرمول­بندی تابع هدف است. تابع هدف حاصل باید طبیعت مسئله را به خوبی نشان دهد تا بتوان از طریق کمینه سازی آن، ساختار معنی­داری (خوشه‌ها) را در داده‌های مفروض آشکار ساخت. معروف­ترین و ساده­ترین الگوریتم خوشه‌بندی مبتنی بر بخش‌بندی، الگوریتم K-means است. این الگوریتم به خاطر سادگی اجرا، سادگی برنامه و کارایی آن استفاده فراوانی دارد [۱]. عملکرد کلی این روش به این صورت است که هدف ایجاد K خوشه است، بدین ترتیب که عناصر درون هر خوشه نسبت به میانگین رکوردهای آن خوشه که مرکز نامیده می­ شود بیش‌ترین شباهت و با مراکز دیگر خوشه‌ها بیش‌ترین عدم شباهت را داشته باشند.
۳-۲-۵-۲- خوشه‌بندی به روش K-Means
این روش، یک روش خوشه‌بندی مبتنی بر بخش‌بندی است که در آن هر خوشه به یک مرکز وابسته است. هر نقطه بسته فاصله خود باهر یک از مراکز، به خوشه­ای که نزدیک­ترین فاصله را با مرکز آن دارد مرکز تخصیص می­یابد. تعداد خوشه‌ها که همان تعداد مراکز است باید از قبل تعیین شده باشد. الگوریتم پایه این روش بسیار ساده است.
۱- الگوریتم با انتخاب K مرکز آغاز می­ شود. این مراکز می ­تواند به طور حدسی یا تصادفی انتخاب گردد.
۲- محاسبه مقدار تابع هدف به صورت زیر است:

 

(۳-۲)  

۳- برای هر داده xi، عضویت m(cjǀxi) به ازای هر مرکز cj و وزن مربوط به آن (w(xi)) محاسبه می­ شود.
تابع عضویت به صورت زیر محاسبه می­ شود:

موضوعات: بدون موضوع
[دوشنبه 1400-08-10] [ 10:41:00 ق.ظ ]