دانلود مقاله ISI انگلیسی شماره 76880
ترجمه فارسی عنوان مقاله

تشخیص ناهنجاری در مقیاس بزرگ و با ابعاد بالا با استفاده از SVM تک کلاسه‌ی خطی با یادگیری عمیق

عنوان انگلیسی
High-dimensional and large-scale anomaly detection using a linear one-class SVM with deep learning
کد مقاله سال انتشار تعداد صفحات مقاله انگلیسی
76880 2016 14 صفحه PDF
منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)

Journal : Pattern Recognition, Volume 58, October 2016, Pages 121–134

فهرست مطالب ترجمه فارسی
چکیده

کلمات کلیدی

1.مقدمه

2-پیش زمینه

2-1-معماری‌های کم عمق و عمیق

2-2- 1SVM، DBN و DBN-1SVM ترکیبی

3-مدل ترکیبی DBN-1SVM

شکل1: معماری مدل AE، DBN و DBN-1SVM ترکیبی پیشنهادی

 

شکل 2: مقایسه‌ی SVDD و PSVM. شکل سمت چپ نشانگر مجموعه داده‌ی ساده در فضای ورودی است. رکوردهای نرمال با نقطه‌های توپر نشان داده شده‌اند و ناهنجاری‌ها با علامت ضربدر نشان داده شده‌اند. شکل سمت راست نشانگر داده‌ای است که به فضای ابعاد بالاتر با استفاده از دو رویکرد 1SVM مختلف نگاشت شده است. 



3.1. شبکه‌های باور عمیق (DBN)

3.2 SVM تک کلاسه

4-ارزیابی و بحث

4.1 روش تجربی

جدول 1: نتایج عملکرد، زمان‌های آموزش و تست در واحد تست به جز سطر زمان تست که با a* مشخص شده است و در واحد میلی ثانیه است. نتایج روش‌هایی که زیر آنها خط کشیده شده است تنها در بخش 4.2 مدنظر قرار گرفته‌اند و در تست‌های بعدی در بخش‌های آخر استفاده نشدند. مقدار AUCstd برای هر روش نشانگر انحراف معیار AUC مربوطه در 1000 تکرار است.

4.2 انتخاب کرنل

4.3 اثر کاهش ابعاد

جدول 2: آزمون Wilcoxon برای مقایسه عملکرد روش‌های مبتنی بر PSVM و SVDD با توجه به انتخاب کرنل. R+ مربوط به مجموع رتبه‌ها برای روش در سمت چپ و R برای سمت راست است.

شکل 3: مقایسه‌ی رتبه بندی روش‌های تشخیص ناهنجاری برای 3 معیار. میله‌ها نشانگر رتبه‌بندی میانگین بر اساس آزمون فریدمن هستند و اعداد بالای میله‌ها نشانگر رتبه بندی الگوریتم از بهترین (1) تا بدترین (7) برای هر معیار مورد نظر هستند و اگر گره (tie) رخ دهد، بهترین نتیجه‌ی میانگین در نظر گرفته می‌شود. رتبه بندی برای تمامی مجموعه داده‌ها تعیین شده و در نهایت یک میانگین به عنوان میانگین تمام رتبه بندی‌ها در نظر گرفته شده است.

4-4-اثر تعداد لایه‌های پنهان

جدول 3: آزمون Shaffer برای مقایسه مقادیر AUC

جدول 4: آزمون Shaffer برای مقایسه زمان آموزش

جدول 5: آزمون Shaffer برای مقایسه زمان‌های تست

جدول 6: آزمون Wilcoxon برای مقایسه عملکرد روش‌های مبتنی بر DBN از نظر مقادیر p آزمون Wilcoxon. R+ مربوط به مجموع رتبه‌ها برای روش سمت چپ و R- برای سمت راست است.

جدول 8: آزمون Wilcoxon برای تعیین اثر تعداد لایه‌های پنهان بر عملکرد روش‌های مبتنی بر DBN. R+ مربوط به مجموع رتبه‌ها برای روش سمت چپ و R برای سمت راست است.

جدول 7: نتایج عملکرد شبکه‌های مبتنی بر DBN عمیق و کم عمق. زمان‌های آموزش و تست در واحد ثانیه ارائه شدند به استثنای سطرهای زمان تست که با علامت a* مشخص شدند و در واحد میلی ثانیه هستند

شکل 4: نمایش اثر تعداد لایه‌های پنهان بر تفکیک پذیری رکوردهای نرمال و غیرنرمال. چنین تصویری خروجی روش iVAT برای تجسم سازی تمایل خوشه است.

شکل 5: مقایسه دقت روش‌های تشخیص ناهنجاری از آنجاییکه تعداد رکوردهای آموزش متغیر است

4.5 اثر تعداد رکوردهای آموزش

4.6کارایی و مقیاس پذیری

جدول 9: مقایسه پیچیدگی زمان و حافظه

شکل 6: مقایسه‌ی زمان آموزش و تست AE و DPSVM روی مجموعه داده‌های بزرگ. در این آزمایش، مجموعه داده‌های Adult و Forest شامل 40000 رکورد هستند و مجموعه داده‌ی Smiley شامل 1.1 میلیون رکورد است.

شکل 7: مقایسه‌ی نتایج عملکرد روش‌های تشخیص ناهنجاری پیشنهادی و مطالعه شده

5-نتیجه‌گیری
ترجمه کلمات کلیدی
تشخیص ناهنجاری؛ تشخیص نقاط دورافتاده - داده ابعاد بالا؛ خالص اعتقاد عمیق؛ یادگیری عمیق؛ SVM-یک کلاس؛ استخراج ویژگی
کلمات کلیدی انگلیسی
Anomaly detection; Outlier detection; High-dimensional data; Deep belief net; Deep learning; One-class SVM; Feature extraction
ترجمه چکیده
حوزه‌های مسائل با ابعاد بالا، چالش‌های قابل توجهی را برای تشخیص ناهنجاری ایجاد کردند. وجود ویژگی‌های نامرتبط می‌تواند وجود ناهنجاری را پنهان کند. این مسئله که «نفرین ابعاد» نامیده می‌شود مانعی برای بسیاری از روش‌های تشخیص ناهنجاری است. ساخت یک مدل تشخیص ناهنجاری قوی برای استفاده در فضاهای با ابعاد بالا مستلزم ترکیب استخراج کننده‌ی ویژگی بدون ناظر و تشخیص دهنده‌ی ناهنجاری است. با وجود اینکه ماشین‌های بردار پشتیبان تک کلاسه در تولید سطوح تصمیم از بردارهای ویژگی خوش رفتار موثر هستند، ممکن است در مدلسازی تنوع (تغییرات) در مجموعه داده‌های با ابعاد بالا و بزرگ، ناکارآمد باشند. معماری‌هایی چون شبکه‌های باور عمیق (DBN) روشهای امیدوارکنندهای برای یادگیری ویژگی‌های قوی هستند. ما مدل ترکیبی ارائه می‌دهیم که در آن یک DBN بدون نظارت آموزش داده می‌شود تا ویژگی‌های پایه و عمومی را استخراج کند و یک SVM تک کلاسه از ویژگی‌های یادگرفته شده توسط DBN آموزش می‌بیند. از آنجاییکه در این مدل ترکیبی می‌توان بدون از دست رفتن دقت، کرنل خطی را جایگزین کرنل‌های غیرخطی کرد، مدل مقیاس پذیر بوده و از نظر محاسباتی کارآمد است. نتایج تجربی نشان می‌دهند که مدل پیشنهادی ما عملکرد تشخیص ناهنجاری قابل مقایسه با ی خودرمزنگار عمیق ارائه می‌دهد ضمن اینکه زمان آموزش و آزمایش آن را به ترتیب با فاکتور 3 و 100 کاهش می‌دهد.
ترجمه مقدمه
رشد زیرساخت‌های شبکه‌ای فراگیر مانند اینترنت اشیا (IoT) این امکان را بوجود آورده است که بتوان بر طیف وسیعی از اشیا فیزیکی و محیط‌ها با جزئیات مکانی و زمانی دقیق نظارت کرد [1,2]. یکی از چالش‌های اصلی در توسعه‌ی برنامه‌های کاربردی IoT این است که چگونه حجم زیادی از داده‌های با ابعاد بالا را که در چنین حوزه‌هایی تولید شده‌اند، مدلسازی کرده و تفسیر کنیم [2]. علاوه بر نبود حقیقت مبنا (برچسب‌ها) در داده‌هایی که از شبکه‌های مقیاس بزرگ در IoT گردآوری شده‌اند، آنها به الگوریتم‌های بدون نظارت نیاز دارند تا داده را پردازش کنند. هدف تشخیص ناهنجاری، تشخیص رفتارهای غیرمعمول ناشی از دستگاه‌های معیوب یا رویدادهای موردنظر در محیط نظارت است و بنابراین در برنامه‌های کاربردی IoT بسیار اهمیت دارند. با این حال یکی از چالش‌های عمده برای تشخیص ناهنجاری در چنین حوزه‌هایی این است که چگونه با پایگاه داده‌های نویزی، مقیاس بزرگ مقابله کنیم [3-6]. در این مقاله ما با ارائه‌ی یک معماری ترکیبی بدون نظارت برای تشخیص ناهنجاری در حوزه‌های مسائل و در مقیاس بزرگ و با ابعاد بالا به این چالش پرداخته‌ایم. یکی از چالش‌های اصلی در تشخیص ناهنجاری که آن را از سایر مسائل دسته بندی متمایز می‌کند آن است که در بسیاری از موارد، الگوریتم‌های تشخیص ناهنجاری باید با رکوردهای بدون برچسب آموزش داده شوند برای مثال به شیوه‌ی بدون نظارت آموزش دیده باشند. بدست آوردن یک مجموعه آموزش بزرگ از داده‌های تمیز و برچسب زده شده معمولاً کار زمان‌بر و پرزحمتی است. علاوه بر این تشخیص ناهنجاری زمانی چالش برانگیزتر می‌شود که به مجموعه داده‌های با ابعاد بالا اعمال می‌شود که متشکل از تعداد زیادی رکورد هستند. بسیاری از روش‌های موجود برای شناسایی ناهنجاری‌ها، مجموعه داده‌های کوچک با تعداد ویژگی کم را در نظر می‌گیرند. مجموعه داده‌های با ابعاد بالا برای تشخیص ناهنجاری با توجه به عوامل زیر، چالش‌هایی ایجاد می‌کنند [7]: 1)فضای جستجوی نمایی-تعداد زیرفضاهای ویژگی نمایی که با افزایش ابعاد ورودی رشد می‌کنند و به فضای جستجوی نمایی منجر می‌شوند. 2) بایاس جاسوسی داده -هر نقطه در یک فضای با ابعاد بالا به عنوان ناهنجاری به نظر می‌رسد. با توجه به زیرفضاهای جایگزین کافی، حداقل یک زیرفضای ویژگی را می‌توان برای هر نقطه یافت که به عنوان ناهنجاری در نظر گرفته شود. 3)ویژگی‌های نامرتبط-بخش زیادی از ویژگی‌های نامرتبط به طور موثر در داده‌ی ورودی، نویز ایجاد می‌کنند که ناهنجاری‌های واقعی را می‌پوشانند. چالش اصلی انتخاب زیرفضایی از داده است که ویژگی‌های مربوطه را برجسته کند. هدف ما یافتن یک الگوریتم تشخیص ناهنجاری با ابعاد بالا، مقیاس بزرگ و قوی است به گونه‌ای که برای مثال مدلی دقیق برای داده‌های حاصل از طیف وسیعی از توزیع‌های احتمال تولید می‌کند و به طور نامناسب تحت تأثیر انحراف‌های کوچک مدل آموزش داده قرار نمی‌گیرد. علاوه بر این مطلوب است که الگوریتم از نظر پیچیدگی زمانی، پیچیدگی حافظه و تعداد مورد نیاز رکوردهای برچسب گذاری شده، کارا باشد ماشین‌های بردار پشتیبان تک کلاسه (1SVMs) [8-10] روشی محبوب برای تشخیص ناهنجاری بدون نظارت هستند. به طور کلی هدف آنها مدلسازی توزیع پایه داده‌ی نرمال است در حالیکه به نویز یا ناهنجاری در رکوردهای آموزش حساس نباشد. یک تابع کرنل به طور ضمنی فضای ورودی را به فضای ویژگی با ابعاد بالاتری نگاشت می‌کند تا تفکیک واضح‌تری بین داده‌های نرمال و ناهنجار ایجاد کند. زمانی که روش مبتنی بر کرنل به درستی اعمال شود می‌تواند هر الگوی غیرخطی از رفتار نرمال را مدلسازی کند. برای روشنی بیشتر در ادامه‌ی مقاله، نماد 1SVM برای نشان دادن SVM تک کلاسه (بدون نظارت) استفاده می‌شود و ISVMs که خلاصه شده‌ی SVM برچسب گذاری شده است برای نشان دادن دسته بندهای SVM چندکلاسه و باینری (با ناظر) استفاده می‌شوند و SVMs زمانی استفاده می‌شود که هر دوی 1SVMs و ISVMs در نظر گرفته می‌شود. SVMها از نظر تئوریکی و به دلایل زیر جذاب هستند [11,12]: زمانی که پارامترها به خوبی ساختاردهی شده‌اند، تعمیم دهی خوبی دارند حتی اگر مجموعه آموزش کمی بایاس داشته باشد و این روش راه حل منحصر به فردی ارائه می‌دهد زیرا تابع زیان محدب است و در اصل اگر کرنل مناسبی انتخاب شود این روش می‌تواند هر مجموعه آموزشی را مدلسازی کند. با این حال در عمل آموزش SVMs، عملی حافظه بر و زمان بر است. SVMها مدل‌های یادگیری غیرپارامتری هستند که پیچیدگی آنها به تدریج با افزایش یافتن تعداد رکوردها، رشد می‌کند [13]. این روش‌ها برای مجموعه داده‌های کوچک با تعداد زیادی ویژگی مناسب هستند و همچنین آموزش در مقیاس بزرگ برای رکوردهای با ابعاد بالا (برای مثال 106*104) با SVMها محدود شده‌اند [14]. تعداد زیاد ویژگی‌های ورودی به پدیده‌ی نفرین ابعاد منجر می‌شوند که باعث می‌شوند خطای تعمیم معماری‌های کم عمق (که در بخش 2.1 مورد بحث قرار گرفته) مانند SVMs با تعداد ویژگی‌های نامرتبط و افزونه، افزایش پیدا کنند. نفرین ابعاد به این معنی است که برای دستیابی به تعمیم خوب، تعداد نمونه‌های آموزش باید به طور نمایی با افزایش تعداد ویژگی‌ها رشد کنند [14,4,15]. علاوه بر این معماری‌های کم عمق برای نمایش کارآمد انواع خاصی از خانواده‌های عملکردی، محدودیت‌های عملی دارند [16]. برای جلوگیری از بروز این مشکلات، لازم است مدلی تولید کنیم که بتواند درجه بالای تغییرات که در الگوهای داده‌ی پایه رخ می‌دهد را ثبت کند بدون اینکه مجبور به شمارش همه‌ی آنها باشد. بنابراین یک بازنمایی فشرده از داده که تمامی تغییرات را ثبت می‌کند می‌تواند نفرین ابعاد و همچنین پیچیدگی محاسباتی الگوریتم را کاهش دهد [16,17]. یک کلاس جایگزین از الگوریتم‌های دسته بندی که در سال‌های اخیر به ظهور رسیده‌اند شبکه‌های باور عمیق (DBN) هستند که به عنوان دسته‌بند چندکلاسه و ابزار کاهش ابعاد پیشنهاد شده‌اند [18-20]. DBNها مدل‎‌های تولیدی هستند که هر بار، یک لایه از ویژگی‌ها را از داده‌های بدون برچسب یاد می‌گیرند. ویژگی‌های استخراج شده سپس به عنوان ورودی برای آموزش لایه‌ی بعد استفاده می‌شوند. این یادگیری کارآمد و حریصانه را می‌توان با میزان سازی دقیق وزن‌ها پیش گرفت تا عملکرد مولد یا تفکیک آمیز کل شبکه را بهبود داد. DBNها یک معماری عمیق دارند که از چندین لایه از ماژول‌های غیرخطی پارامتر بندی شده، تشکیل شدند. طیف وسیعی از ویژگی‌های مفید وجود دارند که برای DBNها شناسایی شدند [16]: آنها می‎توانند از ویژگی‌های سطح بالاتر یاد بگیرند که دقت دسته‌بندی خوبی تولید می‌کنند؛ آنها مدل‌های پارامتری هستند که زمان آموزش آنها به طور خطی با تعداد رکوردها مقیاس پذیر می‌شود؛ آنها می‎توانند از داده‌های بدون برچسب برای یادگیری از مجموعه داده‌های پیچیده و با ابعاد بالا استفاده کنند. یکی از محدودیت‌های عمده‌ی DBNها این است که تابع زیان آنها غیرمحدب است بنابراین اغلب اوقات، مدل روی مینی مم محلی همگرا می‌شود و هیچ تضمینی وجود ندارد که مینی مم کل پیدا خواهد شد. علاوه بر این طبقه بندهای DBN الگوریتم‌های نیمه نظارتی هستند و به نمونه‌های برچسب گذاری شده برای میزان سازی دقیق تفکیکی نیاز دارند از این رو مدل مولد بدون نظارت DBN به نام خود رمزنگار برای تشخیص ناهنجاری استفاده شده است. مسئله‌ی پژوهش همچنان در حال بررسی که به آن پرداختیم این است که چگونه می‌توان بر محدودیت‌های معماری‌های SVM تک کلاسه در مجموعه داده‌های پیچیده و با ابعاد بالا غلبه کرد. ما استفاده از DBNها را به عنوان مرحله کاهش ویژگی برای SVMهای تک کلاسه پیشنهاد می‌کنیم تا یک معماری تشخیص ناهنجاری ترکیبی ایجاد شود. در حالیکه انواع مختلف روش‌های کاهش ویژگی یعنی انتخاب ویژگی و استخراج ویژگی برای SVMs در نظر گرفته شده‌اند (برای مثال [21-25]، [26] را بررسی بیشتر ببینید) هیچ یک از آنها کاربرد DBN را به عنوان روشی برای ساخت ویژگی عمیق در زمینه‌ی تشخیص ناهنجاری به عنوان مثال با SVM یک کلاسه مورد مطالعه قرار نداده‌اند. در این مقاله یک معماری جدید برای تشخیص ناهنجاری را در حوزه‌های با ابعاد بالا طراحی و ارزیابی کردیم. تا آن جایی که می‌دانیم، این اولین روش پیشنهادی برای ترکیب DBNها با SVMهای تک کلاسه برای بهبود عملکرد آنها در تشخیص ناهنجاری است. مشارکت این مقاله دو بخش است. عملکرد DBNها در برابر SVMهای تک کلاسه ارزیابی شده است تا ناهنجاری‌ها در داده‌های با ابعاد بالای پیچیده شناسایی شوند. در مقابل نتایج گزارش شده در ادبیات موضوعی از عملکرد طبقه بندی DBN تنها طبقه بندی چندکلاسه را پوشش می‌دهد برای مثال [14,27-29]. یک مدل تشخیص ناهنجاری بدون نظارت جدید نیز پیشنهاد شده است که مزایای شبکه‌های باور عمیق را با SVMهای تک کلاسه ترکیب می‌کند. در مدل پیشنهادی ما یک DBN بدون نظارت آموزش دیده است تا ویژگی‌هایی را استخراج کند که از نظر منطقی نسبت به تغییرات نامرتبط در ورودی حساس نیستند و یک 1SVM روی بردارهای ویژگی تولید شده توسط DBN آموزش دیده است. به طور خاص برای تشخیص ناهنجاری نشان دادیم که ماشین‌های کرنل غیرخطی زمانی که با یک DBN جمع می‌شوند، با محاسبات پرهزینه می‌توانند با ماشین‌های خطی جایگزین شوند. با توجه به دانش موجود، این اولین باری است که این معیارها به این صورت با یکدیگر ترکیب شده‌اند. نتیجه‌ی آزمایشات انجام شده روی چندین مجموعه داده‌ی معیار نشان داد که مدل ترکیبی ما، بهبود عملکردی قابل توجهی نسبت به سیستم های مستقل قبلی دارد. ترکیب DBN-1SVM ترکیبی از پیچیدگی ماشین‌های کرنل غیرخطی اجتناب می‌کند و به دقت پیشرفته‌ترین خودرمزنگارهای موجود می‌رسد در حالیکه زمان آموزش و تست آن را به طور قابل توجهی پایین می‌آورد. ادامه‌ی مقاله به شرح زیر است. بخش دوم با معرفی معماری‌های عمیق و نقاط قوت و ضعف آنها در مقایسه با همتایان کم عمق آنها آغاز می‌شود. سپس برخی از روش‌های 1SVM پیشرو مورد مطالعه قرار می‌گیرد و با مدنظر قرار دادن نقاط ضعف SVMs برای پردازش مجموعه داده‌های بزرگ، الزامات مدل ترکیبی را معرفی می‌کند. بخش سوم DBN-1SVM رویکرد تشخیص ناهنجاری بدون نظارت پیشنهادی ما را ارائه می‌دهد. بخش چهارم تحلیل تجربی را ارائه می‌دهد و مقایسه‌ی آماری دقیقی از عملکرد مدل‌های خودرمزنگار، 1SVM و DBN1SVM در مجموعه داده‌های مصنوعی و واقعی مختلف ارائه می‌دهد. این بخش مزایای معماری DBN-1SVM را از نظر دقت و راندمان محاسباتی نشان می‌دهد. بخش 5 خلاصه‌ای از مقاله ارائه می‌دهد و پژوهش‌های آینده را شرح می‌دهد.
پیش نمایش مقاله
پیش نمایش مقاله  تشخیص ناهنجاری در مقیاس بزرگ و با ابعاد بالا با استفاده از SVM تک کلاسه‌ی خطی با یادگیری عمیق

چکیده انگلیسی

High-dimensional problem domains pose significant challenges for anomaly detection. The presence of irrelevant features can conceal the presence of anomalies. This problem, known as the ‘curse of dimensionality’, is an obstacle for many anomaly detection techniques. Building a robust anomaly detection model for use in high-dimensional spaces requires the combination of an unsupervised feature extractor and an anomaly detector. While one-class support vector machines are effective at producing decision surfaces from well-behaved feature vectors, they can be inefficient at modelling the variation in large, high-dimensional datasets. Architectures such as deep belief networks (DBNs) are a promising technique for learning robust features. We present a hybrid model where an unsupervised DBN is trained to extract generic underlying features, and a one-class SVM is trained from the features learned by the DBN. Since a linear kernel can be substituted for nonlinear ones in our hybrid model without loss of accuracy, our model is scalable and computationally efficient. The experimental results show that our proposed model yields comparable anomaly detection performance with a deep autoencoder, while reducing its training and testing time by a factor of 3 and 1000, respectively.