ترجمه فارسی عنوان مقاله
تشخیص ناهنجاری مبتنی بر توزیع از طریق آزمون نسبت درستنمایی تعمیم یافته: رویکرد کلی آنتروپی حداکثر
عنوان انگلیسی
Distribution-based anomaly detection via generalized likelihood ratio test: A general Maximum Entropy approach
کد مقاله | سال انتشار | تعداد صفحات مقاله انگلیسی |
---|---|---|
76932 | 2013 | 17 صفحه PDF |
منبع
Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)
Journal : Computer Networks, Volume 57, Issue 17, 9 December 2013, Pages 3446–3462
فهرست مطالب ترجمه فارسی
چکیده
کلمات کلیدی
1-مقدمه
2- پژوهشهای مرتبط
3- چارچوب تشخیص ناهنجاری
شکل 1- نمایش سطح بالای گردش کار برای AD چند مقیاس/ چند متغیر
شکل 2- طرح کلی برای AD چند متغیر- چند مقیاس از طریق آزمون فرض، با شناسایی مجموعه مرجع دینامیک.
4- رویکرد آنتروپی حداکثر
4-1- اصل آنتروپی حداکثر
4-2- ساخت مدل توزیع ME
4-3- انتخاب ویژگی
4-4- تخمین پارامتر
5- آشکارساز مبتنی بر GLRT بر روی بردارهای مشخصه
شکل 3- منحنیهای ROC برای دادههای هندسی و تنظیمات مختلف ϵ (محور افقی: نرخ هشدار کاذب؛ محور عمودی: نرخ تشخیص صحیح)
6- ارزیابی عملکرد بر روی دادههای مصنوعی
6-1- راهاندازی شبیهسازی
6-2- حالت پارامتر ثابت
شکل 4-AUC برای ناهنجاریهای مختلف: {17، 12، 8} μ ϵ
6-3- حالت پارامتر متغیر
7- تنظیم عملیاتی
7-1- تنظیم دقت مدل ϵ
شکل 5- الف) CCDF برای مرجع هندسی (θ) با 25/0=θ ثابت، به علاوۀ دو توزیع نمونه تحت H0 و H1 (ب) منحنیهای ROC برای آشکارسازهای g-GLRT و m-GLRT(در نمودار b، محور افقی: نرخ هشدار کاذب؛ محور عمودی: نرخ تشخیص صحیح)
شکل 6- الف) CCDF برای مرجع هندسی (θ) با متغیرθ ، به علاوۀ دو توزیع نمونه تحت H0 و H1 (ب) منحنیهای ROC برای آشکارسازهای g-GLRT و m-GLRT(در نمودار b، محور افقی: نرخ هشدار کاذب؛ محور عمودی: نرخ تشخیص صحیح)
شکل 7- AUC در مقابل ϵ برای سطوح تغییرپذیری مختلفDL . خطوط افقی AUC m-GLRT را محدود میکند
7-2- محاسبه آستانه تشخیص η
شکل 8- واگرایی KL بین توزیعهای مجموعه مرجع (محور افقی: زمان؛ محور عمودی: واگرایی KL)
شکل 9- تعداد بستههای SYN آپلینک در مقیاس زمانی 1 ساعته
8- اعتبارسنجی دادههای ترافیک شبکه واقعی
شکل 10- تعداد پورتهای مقصد مجزا بستههای SYN آپلینک در مقیاس زمانی 1 ساعته
شکل 11- تعداد کل بستههای SYN در آپلینک، مجموعه داده مشابه شکل 10 (الف)
شکل 12- نتایج آشکارساز مبتنی بر ENKL برای همان مجموعه داده تحلیل شده در شکل 9 (الف)
شکل 13- مقایسه عملکرد بین آشکارسازهای ENKL و GLRT
9- نتیجهگیری
پیوست A. اثبات گزاره 4- 1
پیوست B. اثبات گزاره 4- 2
پیوست C. مشتق m-GLRT
کلمات کلیدی
1-مقدمه
2- پژوهشهای مرتبط
3- چارچوب تشخیص ناهنجاری
شکل 1- نمایش سطح بالای گردش کار برای AD چند مقیاس/ چند متغیر
شکل 2- طرح کلی برای AD چند متغیر- چند مقیاس از طریق آزمون فرض، با شناسایی مجموعه مرجع دینامیک.
4- رویکرد آنتروپی حداکثر
4-1- اصل آنتروپی حداکثر
4-2- ساخت مدل توزیع ME
4-3- انتخاب ویژگی
4-4- تخمین پارامتر
5- آشکارساز مبتنی بر GLRT بر روی بردارهای مشخصه
شکل 3- منحنیهای ROC برای دادههای هندسی و تنظیمات مختلف ϵ (محور افقی: نرخ هشدار کاذب؛ محور عمودی: نرخ تشخیص صحیح)
6- ارزیابی عملکرد بر روی دادههای مصنوعی
6-1- راهاندازی شبیهسازی
6-2- حالت پارامتر ثابت
شکل 4-AUC برای ناهنجاریهای مختلف: {17، 12، 8} μ ϵ
6-3- حالت پارامتر متغیر
7- تنظیم عملیاتی
7-1- تنظیم دقت مدل ϵ
شکل 5- الف) CCDF برای مرجع هندسی (θ) با 25/0=θ ثابت، به علاوۀ دو توزیع نمونه تحت H0 و H1 (ب) منحنیهای ROC برای آشکارسازهای g-GLRT و m-GLRT(در نمودار b، محور افقی: نرخ هشدار کاذب؛ محور عمودی: نرخ تشخیص صحیح)
شکل 6- الف) CCDF برای مرجع هندسی (θ) با متغیرθ ، به علاوۀ دو توزیع نمونه تحت H0 و H1 (ب) منحنیهای ROC برای آشکارسازهای g-GLRT و m-GLRT(در نمودار b، محور افقی: نرخ هشدار کاذب؛ محور عمودی: نرخ تشخیص صحیح)
شکل 7- AUC در مقابل ϵ برای سطوح تغییرپذیری مختلفDL . خطوط افقی AUC m-GLRT را محدود میکند
7-2- محاسبه آستانه تشخیص η
شکل 8- واگرایی KL بین توزیعهای مجموعه مرجع (محور افقی: زمان؛ محور عمودی: واگرایی KL)
شکل 9- تعداد بستههای SYN آپلینک در مقیاس زمانی 1 ساعته
8- اعتبارسنجی دادههای ترافیک شبکه واقعی
شکل 10- تعداد پورتهای مقصد مجزا بستههای SYN آپلینک در مقیاس زمانی 1 ساعته
شکل 11- تعداد کل بستههای SYN در آپلینک، مجموعه داده مشابه شکل 10 (الف)
شکل 12- نتایج آشکارساز مبتنی بر ENKL برای همان مجموعه داده تحلیل شده در شکل 9 (الف)
شکل 13- مقایسه عملکرد بین آشکارسازهای ENKL و GLRT
9- نتیجهگیری
پیوست A. اثبات گزاره 4- 1
پیوست B. اثبات گزاره 4- 2
پیوست C. مشتق m-GLRT
ترجمه کلمات کلیدی
تشخیص ناهنجاری؛ حداکثر آنتروپی (ME)؛ ترافیک شبکه؛ آزمون نسبت احتمال تعمیم یافته (GLRT)؛ حداکثر احتمال (ML)؛ شبکه سلولی 3G
کلمات کلیدی انگلیسی
Anomaly detection; Maximum Entropy (ME); Network traffic; Generalized Likelihood Ratio Test (GLRT); Maximum Likelihood (ML); 3G cellular networks
ترجمه چکیده
مشکل شناسایی "ناهنجاری" در ترافیک شبکه تولید شده توسط جمعیت زیادی از کاربران نهایی را با روش تشخیص تغییر مبتنی بر توزیع بررسی میکنیم. در سناریوی مورد نظر، متغیرهای مختلف ترافیک در سطوح مختلف تجمع زمانی (مقیاس زمانی) بررسی میشوند، که به شبکهای از گرههای متغیر/ مقیاس زمانی منجر میشود. برای هر گره، مجموعهای از شمارندههای ترافیک به ازای هر کاربر برقرار و سپس در هر فاصله هم اندازه (bin) زمانی در نمودار خلاصه میشوند و یک سری زمانی از توزیع تجربی (گسسته) برای هر گره متغیر/ مقیاس زمانی بدست میآید. در این چارچوب، ما به حل مسئله طراحی یک آشکارساز تغییر مبتنی بر توزیع (DCD) که قادر به شناسایی انحرافات آماری معنادار از رفتار گذشته هر سری زمانی مجزا باشد، اقدام کردیم.
برای شناسایی، روشی جدید مبتنی بر مدلسازی آنتروپی حداکثر (ME) ارائه میدهیم. هر توزیع تجربی (مشاهده نمونه) با مجموعهای از پارامترهای مدل ME به نام "بردار مشخصه"، توسط فرم بسته تخمین درستنمایی بیشینه (ML) ترسیم میشود. این کار اجازه میدهد تا قاعدهای برای آشکارسازی مبتنی بر آزمون فرض صوری (تست نسبت درستنمایی تعمیم یافته، GLRT) برای اندازهگیری انسجام مشاهده فعلی نسبت به مرجع معین، استنتاج شود. مرجع معین با در نظر گرفتن غیرثابت بودن معمول که با ترافیک شبکه واقعی نمایش داده میشود، بصورت دینامیکی مشخص میشود. نتایج عددی دادههای مصنوعی، توانمندی آشکارساز ما را نشان میدهد، و ارزیابی مجموعه دادههای برچسبدار از یک شبکه سلولی 3G عملیاتی، توانایی روش پیشنهادی را در شناسایی ناهنجاریهای ترافیک واقعی تأیید میکند.
ترجمه مقدمه
شبکههای داده و ارتباطات مدرن در معرض مشکلات و تهدیدهای امنیتی بسیاری قرار دارند. برای پاسخگویی سریع و به حداقل رساندن تخریب سرویس، اپراتورهای شبکه به ابزارهایی نیاز دارند که بتوانند بهسرعت شرایط ترافیکی "غیر طبیعی" را شناسایی کنند، یعنی ناهنجاریها. این مسئله در شبکههای سلولی نسل سوم (3G)، که بسیار ناهمگن، پیچیده و مداوم در حال تحول هستند، و به این ترتیب در معرض انواع مشکلات و تهدیدات غیرقابل پیشبینی هستند، بسیار ضروری است ]3-1[. تشخيص ناهنجاري (AD) در ترافيك شبكه زمینهای است که به خوبی بررسی و روشهای مختلف برای آن ارائه شده است (رای مثال [5-4] و منابع موجود در آنها).
بهطور کلی، رویکرد AD آماری به دنبال شناسایی مرجعی حاکی از رفتار "طبیعی" و سپس به دنبال هرگونه انحراف "معنیدار" از آن است. به عبارت دیگر، ناهنجاری به معنای هر چیزی است که از رفتار مورد انتظار انحراف داشته باشد – در اینجا انتظار مفهوم اصلی در است ]6[. بنابراین، طرح کامل AD بهطور منطقی از روش شناسایی مرجع و قاعده تشخیص برای آزمایش تطابق بین دادههای مشاهده شده و مرجع تشکیل شده است. با تغییر وضعیت شبکه و رفتار کاربران آن (برای مثال با پیگیری چرخه روزانه و هفتگی، و روند طولانی مدت)، مفهوم رفتار "طبیعی" و انحراف "معنیدار " را درک میکنید. بنابراین سیستم AD باید تطبیقی باشد: شناسایی مرجع و همچنین قاعده تشخیص باید بهطور پویا به روزرسانی شود تا بتواند تغییرات فیزیولوژیکی در الگوهای ترافیکی را ردیابی کند.
روش AD آماری تقریبا میتواند برای هر نوع داده ترافیکی با ساختار زمانی، یا نمایش ترافیک، از سری زمانی عددی درشت (مثلا از حجم کلی یا آنتروپی) تا نمایشهای چند بعدی ریز (برای مثال بردارها، طرحها، هیستوگرامها) از فرآیند ترافیک اصلی، اعمال شود. فرآیند ترافیک اصلی توسط برخی از روشهای کم و بیش درگیر که معمولا مستلزم انتخاب ویژگی، تجمع و ردیابی حالتهای هستند، استخراج میشود [7]. بهعلاوه، برای تشخیص ناهنجاریهای رخ داده در بازههای زمانی مختلف، سیستم AD باید دادههای ترافیکی را در سطوح مختلف تجمع زمانی (تحلیل چند تفکیکی) در نظر بگیرد. اپراتورهای شبکه دسترسی بهویژه نگران ناهنجاریهای کلان هستند، یعنی رویدادهایی که بر بسیاری از کاربران شبکه (یعنی "مشتریان" آنها) تأثیر میگذارند و نه ناهنجاریهای کوچک با تأثیر محدود بر یک یا چند کاربر. ناهنجاریهای کلان به مشکلی در زیربنای شبکه اشتراکی یا سرویس اشاره دارد. این مسئله باعث شد رویکرد مبتنی بر توزیع را در نظر بگیریم، که در آن ترافیک شبکه با (مجموعهای از) توزیع ترافیک در بین کاربران نشان داده میشود. در این روش، بهطور کلی قصد داریم رفتار تجمعی کل کاربران را به جای کاربران منفرد، پروفایل سازی کنیم که مطابق با هدف بهدست آوردن ناهنجاریهای کلان منطبق است. بهطور خاص، یک سناریوی مرجع در نظر میگیریم که در آن یک سیستم نظارت منفعل چندین متغیر ترافیک را اندازهگیری میکند - برای مثال تعداد بستههای یک نوع خاص، مانند "تعداد بستههای TCP SYN ارسال شده در آپلینک به پورت 80'' یا '' تعداد آدرسهای IP در تماس" یا "حجم ترافیک در پورت 25" و غیره (فرمولسازی را در بخش 3 به تفصیل شرح خواهیم کرد) - برای هر کاربر منفرد و در مقیاسهای مختلف تجمع زمانی، از 1 دقیقه تا 1 روز. برای هر متغیر و مقیاس زمانی، دادههای مشاهده شده در هر فاصله هم اندازه زمانی در یک نمودار فاصلهگذاری شده (binned) خلاصه می شوند؛ که در آن binها فواصل زمانی هستند که گستره متغیر را تفکیک میکنند -که نشاندهنده توزیع تجربی آن متغیر در بین کاربران است. بنابراین، مجموعهای از سریهای زمانی توزیع را بهدست میآوریم که هر یک به متغیر ترافیک و مقیاس زمانی متفاوتی اشاره دارد. سپس هر سری زمانی با یک آشکارساز تغییر توزیع (DCD) مجزا پردازش میشود که پروفایل مرجع "نرمال" را میخواند و تشخیص میدهد که آیا مشاهده فعلی انحراف "معنیدار" نسبت به مرجع دارد یا خیر.
در سناریوی مرجع، تعداد ترکیبهای متغیر/ مقیاس زمانی بزرگ است و هر یک از پروفایل خاص و الگوی زمانی متفاوت از دیگری تبعیت میکنند. سازگار کردن طراحی و پارامترسازی ماژول DCD به تک تک سریهای زمانی، غیر عملی خواهد بود، بنابراین یک DCD مناسب باید شرایط زیر را برآورده کند:
- تغییرپذیری: برای مدلسازی متغیرهای مختلف ترافیک در مقیاس زمانی و تجمع مختلف، بدون نیاز به تنظیم دستی.
- انطباقپذیری: برای تنظیم شناسایی مرجع و قاعده تشخیص تغییرات فیزیولوژیکی در ترکیب ترافیک.
پیچیدگی کم: اجازه اجرای آنلاین برای تعداد به اندازه کافی بزرگ متغیرها را بدهد.
هدف این مقاله استخراج DCD با چنین ویژگیهایی با پیروی از یک روش نظری است.
روشهای AD آماری موجود در مقالات را میتوان به دو دسته اصلی طبقهبندی کرد: مبتنی بر مدل (پارامتری) و بدون مدل (غیر پارامتری). اولی (برای مثال روش متداول CUSUM و سایر روشهای تست فرضی کلاسیک) بر اساس پیش فرضهای دقیق در مورد ویژگیهای آماری دادهها است، که اجازه میدهد اجراهای دست یافتنی بهتر کنترل شوند (برای مثال احتمال هشدار اشتباه (PFA) )، اما تغییرپذیر نیست. از طرف دیگر، روشهای بدون مدل مبتنی بر تکنیکهای غیر پارامتری عمومی (برای مثالPCA فقط برای یک مولفه) یا ابتکاری ساده (مرجع ]7[) انعطافپذیرتر اما فاقد چارچوب تست فرضی رسمی هستند و باید از قوانین تشخیص ابتکاری که کنترل آنها دشوار است، استفاده کنند. در مقاله حاضر، هدف ما حذف چنین تنشی بین نیاز به یک مدل آماری قابل کنترل و ویژگیهای مبهم دادههای تجربی است. روش پیشنهادی به نوعی "روش سوم" بین روشهای مبتنی بر مدل و بدون مدل است. برای آگاهی از دادههای تجربی مدل آماری با بالاترین احتمال نزدیکی به توزیع اصلی از مجموعه گستردهای از توزیعها، یعنی توزیع گیبز ، از روش حداکثر آنتروپی (ME) استفاده میکنیم. مجموعه پارامترهای مدل ME که از طریق درستنمایی حداکثر (ML) تعیین میشوند، نمایانگر "بردار مشخصه" مرتبط با توزیع تجربی است. براساس روش بدون مدل، برای بررسی اینکه آیا نمونه فعلی با مرجع استخراج شده از مشاهدات گذشته "سازگار" است یا خیر، یک تست فرضی رسمی را استخراج میکنیم.
برای مسئله مورد نظر، آزمون صوری با بکارگیری تئوری آزمون نسبت درستنمایی تعمیم یافته (GLRT) بهدست میآید. این یک روش کلی برای آزمایش فرضی در دادههای چند بعدی است، که منجر به آزمونی بسیار دقیق و صوری میشود مشروط بر اینکه یک مدل آماری پیشین احتمالا به فرم بسته برای پیچیدگی محاسباتی معقول برای دادهها دردسترس باشد و بتواند درستنمایی بیشینه (ML) پارامترهای آن را تعیین کند. این امر روش GLRT را بسیار قدرتمند اما برای نتیجهگیری دشوار میکند، مگر اینکه مدلهای بسیار قابل کنترل پیشنهاد شوند (مانند گاوسی). در واقع، ترافیک شبکه واقعی رفتار آماری ساده نشان نمیدهد و غیر ثابت است، یعنی مدلسازی آن به روشی ساده دشوار است. ما ایده کلی GLRT را برای تشخیص ناهنجاری ترافیک شبکه در [11] معرفی کردیم، بدون اینکه الگوریتم خاصی برای مدلسازی ارائه دهیم. در حدود دانش ما، تنها تلاش برای استفاده از GLRT برای تشخیص ناهنجاری در ترافیک شبکه [12] است، و به دادههایی محدود است که میتوانند با توزیع آلفا- پایدار مدلسازی شوند. اشکال دیگر این روش این است که چنین مدلی هیچ فرم بستهای برای توزیع ندارد، بنابراین روشهای عددی قدرتمند برای تخمین پارامتر مورد نیاز است. بهعلاوه، فقدان فرم تحلیلی مانع استخراج یک آشکارساز GLRT با پیچیدگی کم میشود. برعکس، روش ما کلی است زیرا هیچ فرضی در مورد دادهها ندارد. ایده اصلی استفاده از روش آنتروپی حداکثر (ME) برای بهدست آوردن یک مدل پارامتری کلی است، که فرصتی برای آزمایش فرضی صوری، یعنیGLRT ، ایجاد میکند. بهعلاوه، در نتیجۀ مشتقگیری فرم بسته برآوردگر ML بردار مشخصه، ساختار نهایی آشکارساز پیچیدگی بسیار کمی دارد. بهطور کلی، روش ما نیازهای عملیاتی تغییرپذیر، سازگار و با پیچیدگی کم را برآورده میکند. در حدود دانش ما، این اولین کار روش شناختی است که تمام این خصوصیات را در یک چارچوب آزمایش فرضی صوری ترکیب میکند.
این مقاله دستاوردهای زیر را ارائه میدهد:
- استخراج برآوردگر درستنمایی بیشینه (ML) فرم بسته بردارهای مشخصه ME (بخش 4)؛
- استخراج آشکارساز مبتنی بر GLRT با پیچیدگی کم بر اساس بردارهای مشخصه (بخش 5)؛
- ارزیابی عملکردهای تئوری آشکارساز در شبیهسازیهای کنترل شده (بخش 6)؛
معیارهای عملیاتی برای کاربرد عملی در دادههای دنیای واقعی نیز ارائه شده است (بخش 7). درنهایت، اعتبارسنجی مجموعه داده برچسبدار از یک شبکه عملیاتی (بخش 8) نشان میدهد که طرح پیشنهادی قادر به شناسایی ناهنجاریهای ترافیکی واقعی است.