دانلود مقاله ISI انگلیسی شماره 117976
ترجمه فارسی عنوان مقاله

آشکارسازی ناهنجاری با استفاده از ساختار دو لایه مبتنی بر خوشه‌بندی با قابلیت رشد تدریجی

عنوان انگلیسی
Incremental anomaly detection using two-layer cluster-based structure
کد مقاله سال انتشار تعداد صفحات مقاله انگلیسی
117976 2018 17 صفحه PDF
منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)

Journal : Information Sciences, Volume 429, March 2018, Pages 315-331

فهرست مطالب ترجمه فارسی
چکیده

کلمات کلیدی

1-مقدمه

 ۲- پیشینه پژوهش

 ۲-۱- روش‌های قاعده محور

 ۲-۲- روش‌های آماری

 ۲-۳- روش‌های مبتنی بر مجاورت

 ۲-۴- سیستم‌های ایمنی مصنوعی (AIS) برای آشکارسازی ناهنجاری

۲-۵- رویکردهای نظارت شده 

 ۲-۶- رویکردهای نظارت نشده

 ۲-۷- بحث و انگیزه تحقیقاتی

 ۳- معماری کلی خوشه‌بندی تدریجی پیشنهادی و آشکارسازی ناهنجاری

 ۳-۱- خوشه‌بندی رفتار هنجار

 ۴- خلاصه‌سازی بر اساس GMM یا همان (SGMM)

 ۴-۱- یافتن نقاط مرکزی

 ۴-۲- جذب و استخراج ویژگی خوشه‌بندی

 ۵- بروزرسانی خوشه‌بندی بر اساس GMM

 ۵-۱- معیار فاصله GMM بهبودیافته بر مبنای فاصله کولبک-لیبلر

 ۵-۲- ادغام دو GMM 

 ۶ - ساختار دو لایه

 ۶-۱- سطوح ضخیم و ظریف در ساختار دو لایه

  ۶-۲- حذف نمونه‌های مازاد

 ۶-۳- تنظیم مقادیر آستانه‌ای

 ۷- نتایج آزمایش

 ۷-۱- نرخ‌های هشدار اشتباه و آشکارسازی

 ۷-۲- پیچیدگی محاسباتی

 ۸- نتیجه‌گیری
ترجمه چکیده
الگوریتم‌های آشکارسازی ناهنجاری چندین چالش را پیش روی خود می‌بینند؛ از جمله سرعت پردازش، تطبیق‌پذیری با تغییرات در محیط‌های دینامیک و مدیریت نویز موجود در داده‌ها. در این مقاله ساختاری برای آشکارسازی ناهنجاری معرفی می‌شود که مبتنی بر خوشه‌بندی دو لایه است و سریع بوده، در برابر نویز مقاوم است و به صورت تدریجی رشد می‌کند. ساختار پیشنهادی از سه مرحله اصلی تشکیل شده است. در گام اول داده‌ها خوشه‌بندی می‌شوند. گام دوم نمایش هر خوشه‌بندی به صورتی است که مدل را قادر به دسته‌بندی نمونه‌های جدید می‌سازد. خلاصه‌سازی مبتنی بر مدل مخلوط گاوسی (SGMM) پیشنهادی در این مقاله هر خوشه‌بندی را به صورت یک مدل مخلوط گاوسی (GMM) ارائه می‌کند. در گام سوم، ساختاری دو لایه به شکلی کارآمد خوشه‌بندی‌ها را با استفاده از GMM بروزرسانی می‌کند و در عین حال نمونه‌های مازاد را شناسایی کرده و از آن‌ها صرف نظر می‌کند. رویکرد جدیدی که برچسب‌گذاری احتمالی جمعی (CPL) نام دارد برای بروزرسانی تدریجی خوشه‌بندی‌ها ارائه می‌شود. این رویکرد به مرحله بروزرسانی سرعت می‌بخشد و آن را در برابر نویز مقاوم می‌کند. یک گام مهم در بروزرسانی ادغام خوشه‌بندی‌های جدید با خوشه‌بندی‌های موجود است. برای انجام اینکار، معیار جدیدی برای اندازه‌گیری فاصله پیشنهاد شده است که فاصله کولبک-لیبلر اصلاح شده بین دو GMM است. در اکثر کاربردهای آشکارسازی ناهنجاری به صورت لحظه‌ای، نمونه‌های ورودی اغلب مشابه با نمونه‌های قبلی هستند. در این موارد، هیچ نیازی به بروزرسانی خوشه‌بندی‌ها بر اساس این نسخه‌های تکراری نیست چون مدل این نمونه‌ها در توزیع خوشه‌بندی وجود دارد. ساختار دو لایه مسئول تشخیص نمونه‌های مازاد است. رد کردن این نمونه‌های مازاد که در اکثراً در داده‌ها حضور دارند، سبب تسریع در انجام مرحله آشکارسازی می‌شود. مشخص شده که روش پیشنهادی نرخ هشدارهای نادرست را کاهش می‌دهد، این مورد یکی از مشکلات اساسی روش SVM تک کلاس است. آزمایشات نشان می‌دهند که نرخ هشدارهای نادرست در میان مجموعه داده‌های مختلف از ۵٪ تا ۱۵٪ کاهش داشته است و در عین حال نرخ آشکارسازی در مجموعه داده‌های مختلف با ساختار دو لایه از ۵٪ تا ۱۰٪ افزایش داشته است. میزان مصرف حافظه در ساختار دو لایه نسبت به SVM تک کلاس ۲۰ تا ۵۰ برابر کمتر است. SVM تک کلاس از بردارهای پشتیبان در برچسب‌گذاری نمونه‌های جدید استفاده می‌کند در حالیکه برچسب‌گذاری ساختار دو لایه به تعداد GMM-ها بستگی دارد. آزمایشات نشان می‌دهند که ساختار دو لایه نسبت به SVM تک کلاس در برچسب‌گذاری نمونه‌های جدید ۲۰ تا ۵۰ برابر سریعتر عمل می‌کند. علاوه بر آن، زمان بروزرسانی ساختار دو لایه نسبت به ساختار تک لایه دو تا سه برابر کمتر است. این کاهش حاصل استفاده از ساختار دو لایه و صرف نظر کردن از نمونه‌های مازاد است.
ترجمه مقدمه
سیستم‌های آشکارسازی ناهنجاری هم باید ناهنجاری‌های شناخته شده قبلی را تشخیص دهند و هم باید الگوهای ناهنجاری ناشناخته جدید شناسایی کنند [۶]. اکثر رویکردهای آشکارسازی ناهنجاری مبتنی بر یک نشانه یا امضا هستند که این روش قادر به شناسایی حملات جدید نیست. یکی از مسائل در آشکارسازی ناهنجاری عدم برچسب‌گذاری داده‌ها است. در تمامی کاربردها، عمدتاً رفتارهای هنجار شناخته شده‌ای وجود دارند که در کنار آن‌ها تعداد محدودی هم رفتارهای ناهنجار به وجود می‌آیند. به خاطر همین محدودیت نمی‌توان از روش‌های نظارت شده استفاده کرد؛ در عوض، روش‌های نظارت نشده و نیمه نظارت شده گزینه‌های جایگزین بهتری هستند. در رویکردهای مبتنی بر خوشه‌بندی برای آشکارسازی ناهنجاری، رفتارهای هنجار به صورت مجموعه‌ای از خوشه‌بندی‌ها مدل می‌شوند که هیچ نیازی به دانش قبلی درباره نمونه‌های ناهنجاری ندارند. چالش کار در تشخیص دسته‌بندی هنجار بودن یا ناهنجار بودن نمونه‌های جدید ورودی است. در کاربردهای زیادی هم یافتن یک مرز مشخص برای کلاس هنجار دشوار است و رویکردهای حاضر نیز شکل و یا حتی تقریب خوبی از خوشه‌بندی ندارند. علاوه بر آن، الگوهای هنجار طی زمان تغییر می‌کنند و ممکن است دسته‌ای از الگوهایی که هنجار در نظر گرفته شده‌اند در آینده معتبر نباشند. این مورد نیاز به وجود ساختاری با رشد تدریجی را نشان می‌دهد که قابلیت بروزرسانی الگوهای هنجار را دارد. چالش دیگر در این حوزه وجود نویز است. گرچه نمونه‌های ناهنجار با نمونه‌های هنجار تفاوت دارند اما رفتار تصادفی نمونه‌های نویزی را نشان نمی‌دهند. نویز رفتاری تصادفی در داده‌ها است که از هیچ الگویی پیروی نمی‌کند، در حالیکه رفتارهای ناهنجار تصادفی نیستند و الگوهای خاصی را دنبال می‌کنند [۱۲]. یکی از مسئولیت‌های مهم روش‌های آشکارسازی ناهنجاری کاهش تأثیر نویز بر روی عملکرد سیستم است. در این مقاله ساختاری مبتنی بر خوشه‌بندی دو لایه به منظور حل مشکلات بیان شده ارائه می‌شود. ساختار این مقاله به صورت زیر است. در بخش ۲ روش‌های آشکارسازی ناهنجاری و پیشرفت‌های اخیر تحقیقاتی در این حوزه بررسی می‌شوند. این روش‌ها در شش دسته گروه‌بندی می‌شوند و قدرتمندترین رویکردها در هر دسته به صورت دقیق تشریح می‌گردند. در بخش ۳ ساختار کلی و مولفه‌های روش آشکارسازی ناهنجاری مبتنی بر خوشه‌بندی دو لایه معرفی می‌شود. در بخش ۴ خلاصه‌سازی مبتنی بر مدل مخلوط گاوسی به صورت دقیق تشریح می‌شود. بخش ۵ نرحله برچسب‌گذاری جمعی را توضیح می‌دهد، مرحله‌ای که برای برچسب‌گذاری و بروزرسانی خوشه‌بندی‌ها استفاده می‌شود و یکی از بخش‌های مهم ساختار دو لایه است. برچسب‌گذاری جمعی رویکرد با رشد تدریجی مبتنی بر GMM برای بروزرسانی خوشه‌بندی‌ها است. مسائل و مشکلاتی هم که با برچسب‌گذاری جمعی ارتباط دارند در این بخش بحث می‌شوند. بخش ۶ مولفه‌های ساختار دو لایه را ترکیب می‌کند و ساختار دو لایه کلی را بر اساس رویکردهای پیشنهادی از بخش‌های قبلی ارائه می‌کند. قابلیت صرف نظر کردن از نمونه‌های اضافی و حذف اثرات نویز هم در این بخش بحث می‌شوند. نتایج آزمایشات که در بخش ۷ ارائه شده نیز تست گسترده ساختار دو لایه را پوشش می‌دهد. در آخر نیز نتیجه‌گیری و پیشنهادات برای کارهای تحقیقاتی در آینده در بخش ۸ ارائه می‌شود.
پیش نمایش مقاله
پیش نمایش مقاله  آشکارسازی ناهنجاری با استفاده از ساختار دو لایه مبتنی بر خوشه‌بندی با قابلیت رشد تدریجی

چکیده انگلیسی

The proposed method is found to lower the false alarm rate, which is one of the basic problems for the one-class SVM. Experiments show the false alarm rate is decreased from 5% to 15% among different datasets, while the detection rate is increased from 5% to 10% in different datasets with two-layer structure. The memory usage for the two-layer structure is 20 to 50 times less than that of one-class SVM. The one-class SVM uses support vectors in labeling new instances, while the labeling of the two-layer structure depends on the number of GMMs. The experiments show that the two-layer structure is 20 to 50 times faster than the one-class SVM in labeling new instances. Moreover, the updating time of the two-layer structure is two to three times less than for a one-layer structure. This reduction is the result of using two-layer structure and ignoring redundant instances.