دانلود مقاله ISI انگلیسی شماره 107973
ترجمه فارسی عنوان مقاله

بررسی پیش پردازش اطلاعات برای معدن جریان داده: وضعیت فعلی و جهت آینده

عنوان انگلیسی
A survey on data preprocessing for data stream mining: Current status and future directions
کد مقاله سال انتشار تعداد صفحات مقاله انگلیسی
107973 2017 19 صفحه PDF
منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)

Journal : Neurocomputing, Volume 239, 24 May 2017, Pages 39-57

ترجمه کلمات کلیدی
داده کاوی، جریان داده ها، مفهوم رانش پیش پردازش اطلاعات، کاهش اطلاعات، انتخاب ویژگی، انتخاب نمونه، اختیار داده ها، یادگیری آنلاین،
کلمات کلیدی انگلیسی
Data mining; Data stream; Concept drift; Data preprocessing; Data reduction; Feature selection; Instance selection; Data discretization; Online learning;
ترجمه چکیده
پیش پردازش داده ها و کاهش آنها تکنیک های ضروری در حال حاضر سناریوهای کشف دانش هستند، که به وسیله مجموعه های داده های به طور فزاینده ای تحت سلطه قرار می گیرند. این روش ها به کاهش پیچیدگی ذاتی مجموعه داده های دنیای واقعی کمک می کند تا با استفاده از راه حل های داده کاوی به راحتی پردازش شوند. مزایای چنین رویکردهایی شامل، از جمله، یک فرایند یادگیری سریع تر و دقیق تر و ساختار قابل درک تر از داده های خام است. با این حال، با توجه به تکنیک های پیش پردازش داده ها برای جریان داده ها، راه های طولانی در پیش روی آنها وجود دارد، به رغم آموزش آنلاین، با توجه به توسعه اینترنت و فن آوری برای جمع آوری داده های وسیع، در حال افزایش است. در طول این نظرسنجی، ما با جمع آوری، طبقه بندی و تجزیه و تحلیل این سهم در پیش پردازش اطلاعات که مقابله با داده های جریان است. این کار همچنین روابط موجود بین خانواده های مختلف روش ها (انتخاب ویژگی و نمونه و تقسیم بندی) را در نظر می گیرد. برای غنی سازی مطالعه ما آزمایش های کامل را با استفاده از مشارکت های مرتبط انجام می دهیم و تجزیه و تحلیل عملکرد پیش بینی شده، نرخ های کاهش، زمان محاسبات و استفاده از حافظه ارائه می کنیم. در نهایت، ما پیشنهادات کلی در مورد الگوریتم های پیش پردازش جریان داده ها را ارائه می دهیم و همچنین در مورد آینده ی چالش های پیش رو که در زمینه پیش پردازش داده ها مواجه هستیم، بحث می کنیم.
پیش نمایش مقاله
پیش نمایش مقاله  بررسی پیش پردازش اطلاعات برای معدن جریان داده: وضعیت فعلی و جهت آینده

چکیده انگلیسی

Data preprocessing and reduction have become essential techniques in current knowledge discovery scenarios, dominated by increasingly large datasets. These methods aim at reducing the complexity inherent to real-world datasets, so that they can be easily processed by current data mining solutions. Advantages of such approaches include, among others, a faster and more precise learning process, and more understandable structure of raw data. However, in the context of data preprocessing techniques for data streams have a long road ahead of them, despite online learning is growing in importance thanks to the development of Internet and technologies for massive data collection. Throughout this survey, we summarize, categorize and analyze those contributions on data preprocessing that cope with streaming data. This work also takes into account the existing relationships between the different families of methods (feature and instance selection, and discretization). To enrich our study, we conduct thorough experiments using the most relevant contributions and present an analysis of their predictive performance, reduction rates, computational time, and memory usage. Finally, we offer general advices about existing data stream preprocessing algorithms, as well as discuss emerging future challenges to be faced in the domain of data stream preprocessing.