دانلود مقاله ISI انگلیسی شماره 156600
ترجمه فارسی عنوان مقاله

چگونه می توان یک اندازه گروهی را در جریان داده کاوی تنظیم کرد؟

عنوان انگلیسی
How to adjust an ensemble size in stream data mining?
کد مقاله سال انتشار تعداد صفحات مقاله انگلیسی
156600 2017 16 صفحه PDF
منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)

Journal : Information Sciences, Volume 381, March 2017, Pages 46-54

ترجمه کلمات کلیدی
داده های جریان، داده کاوی، طبقه بندی، روش های گروهی،
کلمات کلیدی انگلیسی
Stream data; Data mining; Classification; Ensemble methods;
ترجمه چکیده
در این مقاله، یک رویکرد جدید برای طراحی گروهی به منظور طبقه بندی داده ها ارائه می شود. رویکرد ما توسط دو قضیه پشتیبانی می شود که نشان می دهد چگونه تصمیم می گیریم که آیا یک مولفه جدید باید به گروه اضافه شود یا خیر، بر اساس این فرض که چنین اقدام باید دقت مجموعه را افزایش دهد نه فقط برای بخش فعلی مشاهدات بلکه برای جریان کامل (بی نهایت) داده. نتیجه گیری این قضیه با یک احتمال معقول (اعتماد) تعیین شده توسط کاربر صورت می گیرد. از طریق شبیه سازی کامپیوتری، در میان دیگران، ما نشان می دهد که کاهش اعتماد به نفس که تصمیم بر اساس بخش محدود از جریان همان است که بر اساس کل (بی نهایت) جریان داده ها تنها کمی بهبود دقت در هزینه مصرف حافظه قابل توجه است. علاوه بر این، ما یک روش جدید را برای ارزیابی اجزای سازنده، یعنی درخت تصمیم گیری، با تعیین وزن برای هر برگ درخت معرفی خواهیم کرد. در رویکردهای قبلی وزن به کل مولفه گروه اختصاص داده شد. رویکرد جدید مبتنی بر مشاهدات است که احتمال نتیجه درست درخت در بخش های مختلف درخت متفاوت است.
پیش نمایش مقاله
پیش نمایش مقاله  چگونه می توان یک اندازه گروهی را در جریان داده کاوی تنظیم کرد؟

چکیده انگلیسی

In this paper we propose a new approach for designing an ensemble applied to stream data classification. Our approach is supported by two theorems showing how to decide whether a new component should be added to the ensemble or not, based on the assumption that such an action should increase the accuracy of the ensemble not only for the current portion of observations but also for the whole (infinite) data stream. The conclusions of these theorems hold with a certain probability (confidence) set by the user. Through computer simulations, among others, we show that decreasing the confidence that decision based on the finite portion of the stream is the same as based on the whole (infinite) data stream only slightly improves the accuracy at the expense of significant memory consumption. Moreover, we will introduce a novel procedure of weighting ensemble components, i.e. decision trees, by assigning a weight to each leaf of the tree. In previous approaches a weight was assigned to the whole ensemble component. The new approach is based on the observation that probability of the correct tree outcome is different in various tree sections.