دانلود مقاله ISI انگلیسی شماره 46039
ترجمه فارسی عنوان مقاله

مدل داده کاوی هیبریدی برای الگوریتمهای انتخاب ویژگی و طبقه بندهای یادگیری ترکیبی بمنظور امتیازدهی اعتباری

عنوان انگلیسی
A hybrid data mining model of feature selection algorithms and ensemble learning classifiers for credit scoring
کد مقاله سال انتشار تعداد صفحات مقاله انگلیسی
46039 2015 13 صفحه PDF
منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)

Journal : Journal of Retailing and Consumer Services, Volume 27, November 2015, Pages 11–23

فهرست مطالب ترجمه فارسی
چکیده
کلید واژه ها
1. مقدمه
2. پیش زمینه
2.1. امتیازدهی اعتباری
2.2 الگوریتم های انتخاب ویژگی
2.3 الگوریتم های طبقه بندی پایه (تک)
2.4. الگوریتم های طبقه بندی ترکیبی
3. طراحی تجربی
3.1 شرح داده ها و داده ها قبل از پردازش
3.2 سنجش عملکرد
شکل 1 ماتریس درهم ریختگی (وانگ و همکاران، 2011؛ لیانگ و همکاران، 2015).
4. نتایج تجربی و بحث
4.1 الگوریتم ژنتیکی و تنظیم پارامترها
شکل 2 نمودار بلوک مدل پیشنهادی.
4.2 روش تسکین و تنظیم پارامترها
جدول 1. تنظیم پارامترها در FS بر اساس GA.
جدول 2. تنظیم پارامترها در FS بر اساس روش تسکین.
جدول 3. تنظیم پارامترها در FS بر اساس نسبت بدست آوردن اطلاعات.
جدول 4. تنظیم پارامترها در FS بر اساس PCA.
4.3. روش نسبت به دست آوردن اطلاعات و تنظیم پارامترها
4.4 روش تحلیل مولفه اصلی و تنظیم پارامترها
شکل 3 نتایج الگوریتم های FS.
شکل 4 نتایج الگوریتم های FS از طریق میانگین دقت و میانگین اندازه گیری های AUC در تمام الگوریتم های طبقه بندی.
جدول 5. بهترین مدل بیز ساده
جدول 6. بهترین مدل CART
جدول 7. بهترین مدل ANN
جدول 8. بهترین مدل SVM.
جدول 9. بهترین مدل AdaBoost
جدول 10. بهترین مدل های bagging
جدول 11. بهترین مدل جنگل تصادفی
جدول 12. بهترین مدل انباشتن
شکل 5 نتایج الگوریتم های طبقه بندی با توجه به دقت و اندازه گیری های AUC.
 شکل 6 نتایج الگوریتم های طبقه بندی با توجه به اندازه گیری دقت.
شکل 7. نتایج الگوریتم های طبقه بندی با توجه به اندازه گیری AUC.
شکل 8: نتایج الگوریتم های طبقه بندی با میانگین مقادیر دقت و اندازه گیری AUC (رتبه بندی از چپ به راست).
5. نتیجه گیری و توصیه های آینده
ترجمه کلمات کلیدی
امتیازدهی اعتباری، طبقه بندی، انتخاب ویژگی، یادگیری ترکیبی،داده کاوی
کلمات کلیدی انگلیسی
Credit scoring; Classification; Feature selection; Ensemble learning; Data mining
ترجمه چکیده
تکنیک های داده کاوی در زمینه امتیازدهی اعتباری مشتریان در حوزه بانکی کاربرد فراوانی دارند. یکی از محبوب ترین تکنیک های داده کاوی، روش طبقه بندی است. تحقیقات قبلی نشان داده است که استفاده از الگوریتم های انتخاب ویژگی (FS) و طبقه بندی های ترکیبی می تواند عملکرد بانک ها را در مشکلات امتیازدهی اعتباری بهبود بخشد. در این زمینه، مسئله اصلی استفاده همزمان و چندگانه از چندین FS و الگوریتم طبقه بندی یادگیری ترکیبی با توجه به تنظیم پارامترهای آن است تا بتوان عملکرد بالاتر در مدل پیشنهادی را به دست آورد. در نتیجه، در مقاله حاضر، یک مدل داده کاوی هیبریدی از انتخاب ویژگی ها و الگوریتم های دسته بندی یادگیری ترکیبی بر اساس سه مرحله ایجاد شده است. مرحله اول، همانطور که انتظار می رود، با جمع آوری داده ها و پیش پردازش سروکار دارد. در مرحله دوم، چهار الگوریتم FS مورد استفاده قرار می گیرد، از جمله تجزیه و تحلیل مولفه اصلی (PCA)، الگوریتم ژنتیک (GA)، نسبت به دست آوردن اطلاعات و تابع ارزیابی ویژگی تسکین. در اینجا تنظیمات پارامترهای روش FS بر پایه دقت طبقه بندی ناشی از اجرای الگوریتم طبقه بندی دستگاه بردار پشتیبانی (SVM) است. پس از انتخاب مدل مناسب برای هر ویژگی انتخاب شده، آنها را به الگوریتم های طبقه بندی پایه و ترکیبی اعمال می کنند. در این مرحله، بهترین الگوریتم FS با تنظیم پارامترهای آن برای مرحله مدل سازی مدل پیشنهادی نشان داده شده است. در مرحله سوم، الگوریتم های طبقه بندی برای داده های آماده شده از هر الگوریتم FS مورد استفاده قرار می گیرند. نتایج نشان داد که در مرحله دوم، الگوریتم PCA بهترین الگوریتم FS است. در مرحله سوم، نتایج طبقه بندی نشان داد که روش شبکه عصبی مصنوعی(ANN) تقویت انطباق (AdaBoost) دارای دقت طبقه بندی بالاتر است. در نهایت، مقاله تایید شده و مدل هیبریدی را به عنوان یک مدل عملی و قوی برای انجام امتیازدهی اعتباری ارائه کرد.
پیش نمایش مقاله
پیش نمایش مقاله  مدل داده کاوی هیبریدی برای الگوریتمهای انتخاب ویژگی و طبقه بندهای یادگیری ترکیبی بمنظور امتیازدهی اعتباری

چکیده انگلیسی

• We present a data mining model to increase the confidence of the credit scoring.• Accuracy and AUC measures are considered for evaluation.• PCA has the best performance Among feature selection algorithms.• ANN–AdaBoost has the best performance than other learning algorithms.Data mining techniques have numerous applications in credit scoring of customers in the banking field. One of the most popular data mining techniques is the classification method. Previous researches have demonstrated that using the feature selection (FS) algorithms and ensemble classifiers can improve the banks' performance in credit scoring problems. In this domain, the main issue is the simultaneous and the hybrid utilization of several FS and ensemble learning classification algorithms with respect to their parameters setting, in order to achieve a higher performance in the proposed model. As a result, the present paper has developed a hybrid data mining model of feature selection and ensemble learning classification algorithms on the basis of three stages. The first stage, as expected, deals with the data gathering and pre-processing. In the second stage, four FS algorithms are employed, including principal component analysis (PCA), genetic algorithm (GA), information gain ratio, and relief attribute evaluation function. In here, parameters setting of FS methods is based on the classification accuracy resulted from the implementation of the support vector machine (SVM) classification algorithm. After choosing the appropriate model for each selected feature, they are applied to the base and ensemble classification algorithms. In this stage, the best FS algorithm with its parameters setting is indicated for the modeling stage of the proposed model. In the third stage, the classification algorithms are employed for the dataset prepared from each FS algorithm. The results exhibited that in the second stage, PCA algorithm is the best FS algorithm. In the third stage, the classification results showed that the artificial neural network (ANN) adaptive boosting (AdaBoost) method has higher classification accuracy. Ultimately, the paper verified and proposed the hybrid model as an operative and strong model for performing credit scoring.