دانلود مقاله ISI انگلیسی شماره 78953
ترجمه فارسی عنوان مقاله

رویکردی جدید برای مقداردهی اولیه الگوریتم خوشه بندی K-میانگین کروی

عنوان انگلیسی
A novel approach for initializing the spherical K-means clustering algorithm
کد مقاله سال انتشار تعداد صفحات مقاله انگلیسی
78953 2015 15 صفحه PDF
منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)

Journal : Simulation Modelling Practice and Theory, Volume 54, May 2015, Pages 49–63

فهرست مطالب ترجمه فارسی
چکیده

کلمات کلیدی

1.مقدمه

2. خوشه بندی سند با استفاده از K-میانگین کروی

3. روشهای مقداردهی اولیه برای الگوریتم K-میانگین

4. روش پیشنهادی مقداردهی اولیه و تابع هدف

4.1. فرایند مقداردهی اولیه

4.2. فشردگی خوشه

شکل 1. K-میانگین کروی مقداردهی شده

شکل 2 تصویر کردن بردار روی مرکز هندسی.

5. آنالیز آزمایش و نتایج الگوریتم پیشنهادی

5.1 مجموعه داده ها

5.2. پیش پردازش و نمایش داده ها

5.3. آزمایشات

5.3.1. مقایسه های عملکرد

5.3.2 مقایسه فشردگی

شکل 3. مقادیر تابع هدف به ازای مجموعه داده 1

شکل 4 مقادیر تابع هدف برای 20 مجموعه داده ی گروه های خبری.

شکل 5 مقادیر واریانس جهتی برای مجموعه داده ها 1.

شکل 6  مقادیر واریانس جهتی برای مجموعه داده 20 گروه خبری

شکل 7 زمان های اجرا برای مجموعه داده 1 (به ثانیه).  

شکل 8 زمان های اجرا برای مجموعه داده 1 (به ثانیه).

5.4. ملاحظات نهایی 

6. نتیجه گیری 
ترجمه کلمات کلیدی
خوشه بندی K-means کروی؛ مقدار دهی اولیه K-means؛ مجموعه خوشه؛ فشردگی خوشه
کلمات کلیدی انگلیسی
Spherical K-means clustering; K-means initialization; Intra-cluster similarity; Cluster compactness
ترجمه چکیده
در این مقاله، یک روش جدید برای مقداردهی اولیه الگوریتم K -میانگین کروی پیشنهاد شده است. این امر بر اساس محاسبه دانه های با توزیع خوب در فضای ورودی است. همچنین، یک معیار جدید برای محاسبه واریانس جهتی بردار ها به شکل فرمول بیان میشود تا به عنوان معیار تراکم خوشه استفاده شود. روش مقداردهی اولیه پیشنهاد شده با K -میانگین کلاسیک مقایسه می شود - که در آن دانه اولیه به طور تصادفی یا اختياري (دلبخواه) در دو مجموعه داده تعیین می شوند. ارزیابی بر اساس سه معیار انجام شد: تابع هدفی که تشابه درون‌ خوشه ای، تراکم خوشه و زمان همگرایی را اندازه گیری می کند. الگوریتم پیشنهادی (به نام K-میانگین با مقداردهی اولیه) عملکرد بهتری نسبت به K -میانگین کلاسیک (تصادفی) دارد، در صورتیکه تشابه خوشه های درون خوشه ای و تراکم خوشه برای چندین مقدار k (تعداد خوشه ها) در نظر گرفته شده باشد. تا آنجا که به زمان همگرایی مربوط می شود، مقدار K -میانگین با مقداردهی اولیه سریعتر از روش K-میانگین تصادفی برای تعداد کمی از خوشه ها همگرا می شود. برای تعداد زیادی از خوشه ها، زمان لازم برای محاسبه دانه های خوشه های اولیه، بتدریج (در زمان) از معیار همگرایی مهمتر می شود (پیشی می گیرد). تعداد دقیق خوشه ها که در آنجا الگوریتم پیشنهادی شروع به تغییر رفتار می کند، وابسته به داده ها است برای مجموعه داده 1 برابر 11 و برای مجموعه داده 2 برابر 15.
ترجمه مقدمه
در این مقاله، یک روش جدید برای مقداردهی اولیه الگوریتم K -میانگین کروی پیشنهاد شده است. این امر بر اساس محاسبه دانه های با توزیع خوب در فضای ورودی است. همچنین، یک معیار جدید برای محاسبه واریانس جهتی بردار ها به شکل فرمول بیان میشود تا به عنوان معیار تراکم خوشه استفاده شود. روش مقداردهی اولیه پیشنهاد شده با K -میانگین کلاسیک مقایسه می شود - که در آن دانه اولیه به طور تصادفی یا اختياري (دلبخواه) در دو مجموعه داده تعیین می شوند. ارزیابی بر اساس سه معیار انجام شد: تابع هدفی که تشابه درون‌ خوشه ای، تراکم خوشه و زمان همگرایی را اندازه گیری می کند. الگوریتم پیشنهادی (به نام K-میانگین با مقداردهی اولیه) عملکرد بهتری نسبت به K -میانگین کلاسیک (تصادفی) دارد، در صورتیکه تشابه خوشه های درون خوشه ای و تراکم خوشه برای چندین مقدار k (تعداد خوشه ها) در نظر گرفته شده باشد. تا آنجا که به زمان همگرایی مربوط می شود، مقدار K -میانگین با مقداردهی اولیه سریعتر از روش K-میانگین تصادفی برای تعداد کمی از خوشه ها همگرا می شود. برای تعداد زیادی از خوشه ها، زمان لازم برای محاسبه دانه های خوشه های اولیه، بتدریج (در زمان) از معیار همگرایی مهمتر می شود (پیشی می گیرد). تعداد دقیق خوشه ها که در آنجا الگوریتم پیشنهادی شروع به تغییر رفتار می کند، وابسته به داده ها است برای مجموعه داده 1 برابر 11 و برای مجموعه داده 2 برابر 15.
پیش نمایش مقاله
پیش نمایش مقاله  رویکردی جدید برای مقداردهی اولیه الگوریتم خوشه بندی K-میانگین کروی

چکیده انگلیسی

In this paper, a novel approach for initializing the spherical K-means algorithm is proposed. It is based on calculating well distributed seeds across the input space. Also, a new measure for calculating vectors’ directional variance is formulated, to be used as a measure of clusters’ compactness. The proposed initialization scheme is compared with the classical K-means – where initial seeds are specified randomly or arbitrarily – on two datasets. The assessment was based on three measures: an objective function that measures intra cluster similarity, cluster compactness and time to converge. The proposed algorithm (called initialized K-means) outperforms the classical (random) K-means when intra cluster similarity and cluster compactness were considered for several values of k (number of clusters). As far as convergence time is concerned, the initialized K-means converges faster than the random K-means for small number of clusters. For a large number of clusters the time necessary to calculate the initial clusters’ seeds start to outweigh the convergence criterion in time. The exact number of clusters at which the proposed algorithm starts to change behavior is data dependent (=11 for dataset1 and = 15 for dataset2).