ترجمه فارسی عنوان مقاله
آشکارسازی ناهنجاری با استفاده از ساختار دو لایه مبتنی بر خوشهبندی با قابلیت رشد تدریجی
عنوان انگلیسی
Incremental anomaly detection using two-layer cluster-based structure
کد مقاله | سال انتشار | تعداد صفحات مقاله انگلیسی |
---|---|---|
117976 | 2018 | 17 صفحه PDF |
منبع
Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)
Journal : Information Sciences, Volume 429, March 2018, Pages 315-331
فهرست مطالب ترجمه فارسی
چکیده
کلمات کلیدی
1-مقدمه
۲- پیشینه پژوهش
۲-۱- روشهای قاعده محور
۲-۲- روشهای آماری
۲-۳- روشهای مبتنی بر مجاورت
۲-۴- سیستمهای ایمنی مصنوعی (AIS) برای آشکارسازی ناهنجاری
۲-۵- رویکردهای نظارت شده
۲-۶- رویکردهای نظارت نشده
۲-۷- بحث و انگیزه تحقیقاتی
۳- معماری کلی خوشهبندی تدریجی پیشنهادی و آشکارسازی ناهنجاری
۳-۱- خوشهبندی رفتار هنجار
۴- خلاصهسازی بر اساس GMM یا همان (SGMM)
۴-۱- یافتن نقاط مرکزی
۴-۲- جذب و استخراج ویژگی خوشهبندی
۵- بروزرسانی خوشهبندی بر اساس GMM
۵-۱- معیار فاصله GMM بهبودیافته بر مبنای فاصله کولبک-لیبلر
۵-۲- ادغام دو GMM
۶ - ساختار دو لایه
۶-۱- سطوح ضخیم و ظریف در ساختار دو لایه
۶-۲- حذف نمونههای مازاد
۶-۳- تنظیم مقادیر آستانهای
۷- نتایج آزمایش
۷-۱- نرخهای هشدار اشتباه و آشکارسازی
۷-۲- پیچیدگی محاسباتی
۸- نتیجهگیری
کلمات کلیدی
1-مقدمه
۲- پیشینه پژوهش
۲-۱- روشهای قاعده محور
۲-۲- روشهای آماری
۲-۳- روشهای مبتنی بر مجاورت
۲-۴- سیستمهای ایمنی مصنوعی (AIS) برای آشکارسازی ناهنجاری
۲-۵- رویکردهای نظارت شده
۲-۶- رویکردهای نظارت نشده
۲-۷- بحث و انگیزه تحقیقاتی
۳- معماری کلی خوشهبندی تدریجی پیشنهادی و آشکارسازی ناهنجاری
۳-۱- خوشهبندی رفتار هنجار
۴- خلاصهسازی بر اساس GMM یا همان (SGMM)
۴-۱- یافتن نقاط مرکزی
۴-۲- جذب و استخراج ویژگی خوشهبندی
۵- بروزرسانی خوشهبندی بر اساس GMM
۵-۱- معیار فاصله GMM بهبودیافته بر مبنای فاصله کولبک-لیبلر
۵-۲- ادغام دو GMM
۶ - ساختار دو لایه
۶-۱- سطوح ضخیم و ظریف در ساختار دو لایه
۶-۲- حذف نمونههای مازاد
۶-۳- تنظیم مقادیر آستانهای
۷- نتایج آزمایش
۷-۱- نرخهای هشدار اشتباه و آشکارسازی
۷-۲- پیچیدگی محاسباتی
۸- نتیجهگیری
ترجمه چکیده
الگوریتمهای آشکارسازی ناهنجاری چندین چالش را پیش روی خود میبینند؛ از جمله سرعت پردازش، تطبیقپذیری با تغییرات در محیطهای دینامیک و مدیریت نویز موجود در دادهها. در این مقاله ساختاری برای آشکارسازی ناهنجاری معرفی میشود که مبتنی بر خوشهبندی دو لایه است و سریع بوده، در برابر نویز مقاوم است و به صورت تدریجی رشد میکند. ساختار پیشنهادی از سه مرحله اصلی تشکیل شده است. در گام اول دادهها خوشهبندی میشوند. گام دوم نمایش هر خوشهبندی به صورتی است که مدل را قادر به دستهبندی نمونههای جدید میسازد. خلاصهسازی مبتنی بر مدل مخلوط گاوسی (SGMM) پیشنهادی در این مقاله هر خوشهبندی را به صورت یک مدل مخلوط گاوسی (GMM) ارائه میکند. در گام سوم، ساختاری دو لایه به شکلی کارآمد خوشهبندیها را با استفاده از GMM بروزرسانی میکند و در عین حال نمونههای مازاد را شناسایی کرده و از آنها صرف نظر میکند. رویکرد جدیدی که برچسبگذاری احتمالی جمعی (CPL) نام دارد برای بروزرسانی تدریجی خوشهبندیها ارائه میشود. این رویکرد به مرحله بروزرسانی سرعت میبخشد و آن را در برابر نویز مقاوم میکند. یک گام مهم در بروزرسانی ادغام خوشهبندیهای جدید با خوشهبندیهای موجود است. برای انجام اینکار، معیار جدیدی برای اندازهگیری فاصله پیشنهاد شده است که فاصله کولبک-لیبلر اصلاح شده بین دو GMM است.
در اکثر کاربردهای آشکارسازی ناهنجاری به صورت لحظهای، نمونههای ورودی اغلب مشابه با نمونههای قبلی هستند. در این موارد، هیچ نیازی به بروزرسانی خوشهبندیها بر اساس این نسخههای تکراری نیست چون مدل این نمونهها در توزیع خوشهبندی وجود دارد. ساختار دو لایه مسئول تشخیص نمونههای مازاد است. رد کردن این نمونههای مازاد که در اکثراً در دادهها حضور دارند، سبب تسریع در انجام مرحله آشکارسازی میشود.
مشخص شده که روش پیشنهادی نرخ هشدارهای نادرست را کاهش میدهد، این مورد یکی از مشکلات اساسی روش SVM تک کلاس است. آزمایشات نشان میدهند که نرخ هشدارهای نادرست در میان مجموعه دادههای مختلف از ۵٪ تا ۱۵٪ کاهش داشته است و در عین حال نرخ آشکارسازی در مجموعه دادههای مختلف با ساختار دو لایه از ۵٪ تا ۱۰٪ افزایش داشته است. میزان مصرف حافظه در ساختار دو لایه نسبت به SVM تک کلاس ۲۰ تا ۵۰ برابر کمتر است. SVM تک کلاس از بردارهای پشتیبان در برچسبگذاری نمونههای جدید استفاده میکند در حالیکه برچسبگذاری ساختار دو لایه به تعداد GMM-ها بستگی دارد. آزمایشات نشان میدهند که ساختار دو لایه نسبت به SVM تک کلاس در برچسبگذاری نمونههای جدید ۲۰ تا ۵۰ برابر سریعتر عمل میکند. علاوه بر آن، زمان بروزرسانی ساختار دو لایه نسبت به ساختار تک لایه دو تا سه برابر کمتر است. این کاهش حاصل استفاده از ساختار دو لایه و صرف نظر کردن از نمونههای مازاد است.
ترجمه مقدمه
سیستمهای آشکارسازی ناهنجاری هم باید ناهنجاریهای شناخته شده قبلی را تشخیص دهند و هم باید الگوهای ناهنجاری ناشناخته جدید شناسایی کنند [۶]. اکثر رویکردهای آشکارسازی ناهنجاری مبتنی بر یک نشانه یا امضا هستند که این روش قادر به شناسایی حملات جدید نیست. یکی از مسائل در آشکارسازی ناهنجاری عدم برچسبگذاری دادهها است. در تمامی کاربردها، عمدتاً رفتارهای هنجار شناخته شدهای وجود دارند که در کنار آنها تعداد محدودی هم رفتارهای ناهنجار به وجود میآیند. به خاطر همین محدودیت نمیتوان از روشهای نظارت شده استفاده کرد؛ در عوض، روشهای نظارت نشده و نیمه نظارت شده گزینههای جایگزین بهتری هستند.
در رویکردهای مبتنی بر خوشهبندی برای آشکارسازی ناهنجاری، رفتارهای هنجار به صورت مجموعهای از خوشهبندیها مدل میشوند که هیچ نیازی به دانش قبلی درباره نمونههای ناهنجاری ندارند. چالش کار در تشخیص دستهبندی هنجار بودن یا ناهنجار بودن نمونههای جدید ورودی است. در کاربردهای زیادی هم یافتن یک مرز مشخص برای کلاس هنجار دشوار است و رویکردهای حاضر نیز شکل و یا حتی تقریب خوبی از خوشهبندی ندارند. علاوه بر آن، الگوهای هنجار طی زمان تغییر میکنند و ممکن است دستهای از الگوهایی که هنجار در نظر گرفته شدهاند در آینده معتبر نباشند. این مورد نیاز به وجود ساختاری با رشد تدریجی را نشان میدهد که قابلیت بروزرسانی الگوهای هنجار را دارد. چالش دیگر در این حوزه وجود نویز است. گرچه نمونههای ناهنجار با نمونههای هنجار تفاوت دارند اما رفتار تصادفی نمونههای نویزی را نشان نمیدهند. نویز رفتاری تصادفی در دادهها است که از هیچ الگویی پیروی نمیکند، در حالیکه رفتارهای ناهنجار تصادفی نیستند و الگوهای خاصی را دنبال میکنند [۱۲]. یکی از مسئولیتهای مهم روشهای آشکارسازی ناهنجاری کاهش تأثیر نویز بر روی عملکرد سیستم است.
در این مقاله ساختاری مبتنی بر خوشهبندی دو لایه به منظور حل مشکلات بیان شده ارائه میشود. ساختار این مقاله به صورت زیر است. در بخش ۲ روشهای آشکارسازی ناهنجاری و پیشرفتهای اخیر تحقیقاتی در این حوزه بررسی میشوند. این روشها در شش دسته گروهبندی میشوند و قدرتمندترین رویکردها در هر دسته به صورت دقیق تشریح میگردند. در بخش ۳ ساختار کلی و مولفههای روش آشکارسازی ناهنجاری مبتنی بر خوشهبندی دو لایه معرفی میشود. در بخش ۴ خلاصهسازی مبتنی بر مدل مخلوط گاوسی به صورت دقیق تشریح میشود. بخش ۵ نرحله برچسبگذاری جمعی را توضیح میدهد، مرحلهای که برای برچسبگذاری و بروزرسانی خوشهبندیها استفاده میشود و یکی از بخشهای مهم ساختار دو لایه است. برچسبگذاری جمعی رویکرد با رشد تدریجی مبتنی بر GMM برای بروزرسانی خوشهبندیها است. مسائل و مشکلاتی هم که با برچسبگذاری جمعی ارتباط دارند در این بخش بحث میشوند. بخش ۶ مولفههای ساختار دو لایه را ترکیب میکند و ساختار دو لایه کلی را بر اساس رویکردهای پیشنهادی از بخشهای قبلی ارائه میکند. قابلیت صرف نظر کردن از نمونههای اضافی و حذف اثرات نویز هم در این بخش بحث میشوند. نتایج آزمایشات که در بخش ۷ ارائه شده نیز تست گسترده ساختار دو لایه را پوشش میدهد. در آخر نیز نتیجهگیری و پیشنهادات برای کارهای تحقیقاتی در آینده در بخش ۸ ارائه میشود.