دانلود مقاله ISI انگلیسی شماره 76932
ترجمه فارسی عنوان مقاله

تشخیص ناهنجاری مبتنی بر توزیع از طریق آزمون نسبت درست‌نمایی تعمیم یافته: رویکرد کلی آنتروپی حداکثر

عنوان انگلیسی
Distribution-based anomaly detection via generalized likelihood ratio test: A general Maximum Entropy approach
کد مقاله سال انتشار تعداد صفحات مقاله انگلیسی
76932 2013 17 صفحه PDF
منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)

Journal : Computer Networks, Volume 57, Issue 17, 9 December 2013, Pages 3446–3462

فهرست مطالب ترجمه فارسی
چکیده

کلمات کلیدی

1-مقدمه

2- پژوهش‌های مرتبط

3- چارچوب تشخیص ناهنجاری

شکل 1- نمایش سطح بالای گردش کار برای AD چند مقیاس/ چند متغیر

شکل 2- طرح کلی برای AD چند متغیر- چند مقیاس از طریق آزمون فرض، با شناسایی مجموعه مرجع دینامیک.

4- رویکرد آنتروپی حداکثر

4-1- اصل آنتروپی حداکثر

4-2- ساخت مدل توزیع ME

4-3- انتخاب ویژگی

4-4- تخمین پارامتر

5- آشکارساز مبتنی بر GLRT بر روی بردارهای مشخصه

شکل 3- منحنی‌های ROC برای داده‌های هندسی و تنظیمات مختلف ϵ (محور افقی: نرخ هشدار کاذب؛ محور عمودی: نرخ تشخیص صحیح)

6- ارزیابی عملکرد بر روی داده‌های مصنوعی

6-1- راه‌اندازی شبیه‌سازی

6-2- حالت پارامتر ثابت

شکل 4-AUC  برای ناهنجاری‌های مختلف: {17، 12، 8} μ ϵ

6-3- حالت پارامتر متغیر

7- تنظیم عملیاتی

7-1- تنظیم دقت مدل ϵ

شکل 5- الف) CCDF برای مرجع هندسی (θ) با 25/0=θ  ثابت، به علاوۀ دو توزیع نمونه تحت H0 و H1 (ب) منحنی‌های ROC  برای آشکارسازهای g-GLRT و m-GLRT(در نمودار b، محور افقی: نرخ هشدار کاذب؛ محور عمودی: نرخ تشخیص صحیح)

شکل 6- الف) CCDF برای مرجع هندسی (θ) با متغیرθ ، به علاوۀ دو توزیع نمونه تحت H0 و H1 (ب) منحنی‌های ROC  برای آشکارسازهای g-GLRT و m-GLRT(در نمودار b، محور افقی: نرخ هشدار کاذب؛ محور عمودی: نرخ تشخیص صحیح)

شکل 7- AUC در مقابل ϵ برای سطوح تغییرپذیری مختلفDL . خطوط افقی AUC  m-GLRT را محدود می‌کند

7-2- محاسبه آستانه تشخیص η

شکل 8- واگرایی KL بین توزیع‌های مجموعه مرجع (محور افقی: زمان؛ محور عمودی: واگرایی KL)

شکل 9- تعداد بسته‌های SYN آپلینک در مقیاس زمانی 1 ساعته

8- اعتبارسنجی داده‌های ترافیک شبکه واقعی

شکل 10- تعداد پورت‌های مقصد مجزا بسته‌های SYN آپلینک در مقیاس زمانی 1 ساعته

شکل 11- تعداد کل بسته‌های SYN در آپلینک، مجموعه داده مشابه شکل 10 (الف)

شکل 12- نتایج آشکارساز مبتنی بر ENKL برای همان مجموعه داده تحلیل شده در شکل 9 (الف)

شکل 13- مقایسه عملکرد بین آشکارسازهای ENKL و GLRT

9- نتیجه‌گیری

پیوست A. اثبات گزاره 4- 1

پیوست B. اثبات گزاره 4- 2

پیوست C. مشتق  m-GLRT
ترجمه کلمات کلیدی
تشخیص ناهنجاری؛ حداکثر آنتروپی (ME)؛ ترافیک شبکه؛ آزمون نسبت احتمال تعمیم یافته (GLRT)؛ حداکثر احتمال (ML)؛ شبکه سلولی 3G
کلمات کلیدی انگلیسی
Anomaly detection; Maximum Entropy (ME); Network traffic; Generalized Likelihood Ratio Test (GLRT); Maximum Likelihood (ML); 3G cellular networks
ترجمه چکیده
مشکل شناسایی "ناهنجاری" در ترافیک شبکه تولید شده توسط جمعیت زیادی از کاربران نهایی را با روش تشخیص تغییر مبتنی بر توزیع بررسی می‌کنیم. در سناریوی مورد نظر، متغیرهای مختلف ترافیک در سطوح مختلف تجمع زمانی (مقیاس زمانی) بررسی می‌شوند، که به شبکه‎ای از گره‌های متغیر/ مقیاس زمانی منجر می‌شود. برای هر گره، مجموعه‌ای از شمارنده‌های ترافیک به ازای هر کاربر برقرار و سپس در هر فاصله هم اندازه (bin) زمانی در نمودار خلاصه می‌شوند و یک سری زمانی از توزیع تجربی (گسسته) برای هر گره متغیر/ مقیاس زمانی بدست می‌آید. در این چارچوب، ما به حل مسئله طراحی یک آشکارساز تغییر مبتنی بر توزیع (DCD) که قادر به شناسایی انحرافات آماری معنادار از رفتار گذشته هر سری زمانی مجزا باشد، اقدام کردیم. برای شناسایی، روشی جدید مبتنی بر مدل‌سازی آنتروپی حداکثر (ME) ارائه می‎دهیم. هر توزیع تجربی (مشاهده نمونه) با مجموعه‌ای از پارامترهای مدل ME به نام "بردار مشخصه"، توسط فرم بسته تخمین درست‌نمایی بیشینه (ML) ترسیم می‌شود. این کار اجازه می‎دهد تا قاعده‌ای برای آشکارسازی مبتنی بر آزمون فرض صوری (تست نسبت درست‌نمایی تعمیم یافته، GLRT) برای اندازه‌گیری انسجام مشاهده فعلی نسبت به مرجع معین، استنتاج شود. مرجع معین با در نظر گرفتن غیرثابت بودن معمول که با ترافیک شبکه واقعی نمایش داده می‌شود، بصورت دینامیکی مشخص می‌شود. نتایج عددی داده‌های مصنوعی، توانمندی آشکارساز ما را نشان می‌دهد، و ارزیابی مجموعه داده‌های برچسب‌دار از یک شبکه سلولی 3G عملیاتی، توانایی روش پیشنهادی را در شناسایی ناهنجاری‌های ترافیک واقعی تأیید می‌کند.
ترجمه مقدمه
شبکه‌های داده و ارتباطات مدرن در معرض مشکلات و تهدیدهای امنیتی بسیاری قرار دارند. برای پاسخگویی سریع و به حداقل رساندن تخریب سرویس، اپراتورهای شبکه به ابزارهایی نیاز دارند که بتوانند به‌سرعت شرایط ترافیکی "غیر طبیعی" را شناسایی کنند، یعنی ناهنجاری‌ها. این مسئله در شبکه‌های سلولی نسل سوم (3G)، که بسیار ناهمگن، پیچیده و مداوم در حال تحول هستند، و به این ترتیب در معرض انواع مشکلات و تهدیدات غیرقابل پیش‌بینی هستند، بسیار ضروری است ]3-1[. تشخيص ناهنجاري (AD) در ترافيك شبكه زمینه‌ای است که به خوبی بررسی و روش‌های مختلف برای آن ارائه شده است (رای مثال [5-4] و منابع موجود در آنها). به‌طور کلی، رویکرد AD آماری به دنبال شناسایی مرجعی حاکی از رفتار "طبیعی" و سپس به دنبال هرگونه انحراف "معنی‌دار" از آن است. به عبارت دیگر، ناهنجاری به معنای هر چیزی است که از رفتار مورد انتظار انحراف داشته باشد – در اینجا انتظار مفهوم اصلی در است ]6[. بنابراین، طرح کامل AD به‌طور منطقی از روش شناسایی مرجع و قاعده تشخیص برای آزمایش تطابق بین داده‎های مشاهده شده و مرجع تشکیل شده است. با تغییر وضعیت شبکه و رفتار کاربران آن (برای مثال با پیگیری چرخه روزانه و هفتگی، و روند طولانی مدت)، مفهوم رفتار "طبیعی" و انحراف "معنی‌دار " را درک می‌کنید. بنابراین سیستم AD باید تطبیقی باشد: شناسایی مرجع و همچنین قاعده تشخیص باید به‌طور پویا به روزرسانی شود تا بتواند تغییرات فیزیولوژیکی در الگوهای ترافیکی را ردیابی کند. روش AD آماری تقریبا می‌تواند برای هر نوع داده ترافیکی با ساختار زمانی، یا نمایش ترافیک، از سری زمانی عددی درشت (مثلا از حجم کلی یا آنتروپی) تا نمایش‌های چند بعدی ریز (برای مثال بردارها، طرح‌ها، هیستوگرام‌ها) از فرآیند ترافیک اصلی، اعمال شود. فرآیند ترافیک اصلی توسط برخی از روش‌های کم و بیش درگیر که معمولا مستلزم انتخاب ویژگی، تجمع و ردیابی حالت‌های هستند، استخراج می‌شود [7]. به‌علاوه، برای تشخیص ناهنجاری‌های رخ داده در بازه‌های زمانی مختلف، سیستم AD باید داده‌های ترافیکی را در سطوح مختلف تجمع زمانی (تحلیل چند تفکیکی) در نظر بگیرد. اپراتورهای شبکه دسترسی به‌ویژه نگران ناهنجاری‌های کلان هستند، یعنی رویدادهایی که بر بسیاری از کاربران شبکه (یعنی "مشتریان" آنها) تأثیر می‌گذارند و نه ناهنجاری‌های کوچک با تأثیر محدود بر یک یا چند کاربر. ناهنجاری‌های کلان به مشکلی در زیربنای شبکه اشتراکی یا سرویس اشاره دارد. این مسئله باعث شد رویکرد مبتنی بر توزیع را در نظر بگیریم، که در آن ترافیک شبکه با (مجموعه‌ای از) توزیع ترافیک در بین کاربران نشان داده می‌شود. در این روش، به‌طور کلی قصد داریم رفتار تجمعی کل کاربران را به جای کاربران منفرد، پروفایل سازی کنیم که مطابق با هدف به‎دست آوردن ناهنجاری‌های کلان منطبق است. به‌طور خاص، یک سناریوی مرجع در نظر میگیریم که در آن یک سیستم نظارت منفعل چندین متغیر ترافیک را اندازه‌گیری می‌کند - برای مثال تعداد بسته‌های یک نوع خاص، مانند "تعداد بسته‌های TCP SYN ارسال شده در آپلینک به پورت 80'' یا '' تعداد آدرس‌های IP در تماس" یا "حجم ترافیک در پورت 25" و غیره (فرمول‌سازی را در بخش 3 به تفصیل شرح خواهیم کرد) - برای هر کاربر منفرد و در مقیاس‌های مختلف تجمع زمانی، از 1 دقیقه تا 1 روز. برای هر متغیر و مقیاس زمانی، داده‌های مشاهده شده در هر فاصله هم اندازه زمانی در یک نمودار فاصله‌گذاری شده (binned) خلاصه می شوند؛ که در آن binها فواصل زمانی هستند که گستره متغیر را تفکیک می‌کنند -که نشان‌دهنده توزیع تجربی آن متغیر در بین کاربران است. بنابراین، مجموعه‌ای از سری‌های زمانی توزیع را به‎دست می‌آوریم که هر یک به متغیر ترافیک و مقیاس زمانی متفاوتی اشاره دارد. سپس هر سری زمانی با یک آشکارساز تغییر توزیع (DCD) مجزا پردازش می‌شود که پروفایل مرجع "نرمال" را می‌خواند و تشخیص می‎دهد که آیا مشاهده فعلی انحراف "معنی‎دار" نسبت به مرجع دارد یا خیر. در سناریوی مرجع، تعداد ترکیب‎های متغیر/ مقیاس زمانی بزرگ است و هر یک از پروفایل خاص و الگوی زمانی متفاوت از دیگری تبعیت می‌کنند. سازگار کردن طراحی و پارامترسازی ماژول DCD به تک تک سری‌های زمانی، غیر عملی خواهد بود، بنابراین یک DCD مناسب باید شرایط زیر را برآورده کند: - تغییرپذیری: برای مدل‌سازی متغیرهای مختلف ترافیک در مقیاس زمانی و تجمع مختلف، بدون نیاز به تنظیم دستی. - انطباق‌پذیری: برای تنظیم شناسایی مرجع و قاعده تشخیص تغییرات فیزیولوژیکی در ترکیب ترافیک. پیچیدگی کم: اجازه اجرای آنلاین برای تعداد به اندازه کافی بزرگ متغیرها را بدهد. هدف این مقاله استخراج DCD با چنین ویژگی‌هایی با پیروی از یک روش نظری است. روش‌های AD آماری موجود در مقالات را می‌توان به دو دسته اصلی طبقه‌بندی کرد: مبتنی بر مدل (پارامتری) و بدون مدل (غیر پارامتری). اولی (برای مثال روش متداول CUSUM و سایر روش‌های تست فرضی کلاسیک) بر اساس پیش فرض‌های دقیق در مورد ویژگی‌های آماری داده‌ها است، که اجازه می‌دهد اجراهای دست یافتنی بهتر کنترل شوند (برای مثال احتمال هشدار اشتباه (PFA) )، اما تغییرپذیر نیست. از طرف دیگر، روش‌های بدون مدل مبتنی بر تکنیک‌های غیر پارامتری عمومی (برای مثالPCA فقط برای یک مولفه) یا ابتکاری ساده (مرجع ]7[) انعطاف‌پذیرتر اما فاقد چارچوب تست فرضی رسمی هستند و باید از قوانین تشخیص ابتکاری که کنترل آنها دشوار است، استفاده کنند. در مقاله حاضر، هدف ما حذف چنین تنشی بین نیاز به یک مدل آماری قابل کنترل و ویژگی‌های مبهم داده‌های تجربی است. روش پیشنهادی به نوعی "روش سوم" بین روش‌های مبتنی بر مدل و بدون مدل است. برای آگاهی از داده‌های تجربی مدل آماری با بالاترین احتمال نزدیکی به توزیع اصلی از مجموعه گسترده‌ای از توزیع‌ها، یعنی توزیع گیبز ، از روش حداکثر آنتروپی (ME) استفاده می‌کنیم. مجموعه پارامترهای مدل ME که از طریق درست‌نمایی حداکثر (ML) تعیین می‌شوند، نمایانگر "بردار مشخصه" مرتبط با توزیع تجربی است. براساس روش بدون مدل، برای بررسی اینکه آیا نمونه فعلی با مرجع استخراج شده از مشاهدات گذشته "سازگار" است یا خیر، یک تست فرضی رسمی را استخراج می‌کنیم. برای مسئله مورد نظر، آزمون صوری با بکارگیری تئوری آزمون نسبت درست‌نمایی تعمیم یافته (GLRT) به‌دست می‌آید. این یک روش کلی برای آزمایش فرضی در داده‌های چند بعدی است، که منجر به آزمونی بسیار دقیق و صوری می‌شود مشروط بر اینکه یک مدل آماری پیشین احتمالا به فرم بسته برای پیچیدگی محاسباتی معقول برای داده‌ها دردسترس باشد و بتواند درست‌نمایی بیشینه (ML) پارامترهای آن را تعیین کند. این امر روش GLRT را بسیار قدرتمند اما برای نتیجه‌گیری دشوار می‌کند، مگر اینکه مدل‌های بسیار قابل کنترل پیشنهاد شوند (مانند گاوسی). در واقع، ترافیک شبکه واقعی رفتار آماری ساده نشان نمی‌دهد و غیر ثابت است، یعنی مدل‌سازی آن به روشی ساده دشوار است. ما ایده کلی GLRT را برای تشخیص ناهنجاری ترافیک شبکه در [11] معرفی کردیم، بدون اینکه الگوریتم خاصی برای مدل‌سازی ارائه دهیم. در حدود دانش ما، تنها تلاش برای استفاده از GLRT برای تشخیص ناهنجاری در ترافیک شبکه [12] است، و به داده‌هایی محدود است که می‌توانند با توزیع آلفا- پایدار مدل‌سازی شوند. اشکال دیگر این روش این است که چنین مدلی هیچ فرم بسته‌ای برای توزیع ندارد، بنابراین روش‌های عددی قدرتمند برای تخمین پارامتر مورد نیاز است. به‌علاوه، فقدان فرم تحلیلی مانع استخراج یک آشکارساز GLRT با پیچیدگی کم می‌شود. برعکس، روش ما کلی است زیرا هیچ فرضی در مورد داده‌ها ندارد. ایده اصلی استفاده از روش آنتروپی حداکثر (ME) برای به‌دست آوردن یک مدل پارامتری کلی است، که فرصتی برای آزمایش فرضی صوری، یعنیGLRT ، ایجاد می‌کند. به‌علاوه، در نتیجۀ مشتق‌گیری فرم بسته برآوردگر ML بردار مشخصه، ساختار نهایی آشکارساز پیچیدگی بسیار کمی دارد. به‌طور کلی، روش ما نیازهای عملیاتی تغییرپذیر، سازگار و با پیچیدگی کم را برآورده می‌کند. در حدود دانش ما، این اولین کار روش شناختی است که تمام این خصوصیات را در یک چارچوب آزمایش فرضی صوری ترکیب می‌کند. این مقاله دستاوردهای زیر را ارائه می‌دهد: - استخراج برآوردگر درست‌نمایی بیشینه (ML) فرم بسته بردارهای مشخصه ME (بخش 4)؛ - استخراج آشکارساز مبتنی بر GLRT با پیچیدگی کم بر اساس بردارهای مشخصه (بخش 5)؛ - ارزیابی عملکردهای تئوری آشکارساز در شبیه‌سازی‌های کنترل شده (بخش 6)؛ معیارهای عملیاتی برای کاربرد عملی در داده‌های دنیای واقعی نیز ارائه شده است (بخش 7). درنهایت، اعتبارسنجی مجموعه داده برچسب‌دار از یک شبکه عملیاتی (بخش 8) نشان می‌دهد که طرح پیشنهادی قادر به شناسایی ناهنجاری‌های ترافیکی واقعی است.
پیش نمایش مقاله
پیش نمایش مقاله  تشخیص ناهنجاری مبتنی بر توزیع از طریق آزمون نسبت درست‌نمایی تعمیم یافته: رویکرد کلی آنتروپی حداکثر

چکیده انگلیسی

For the detection task we propose a novel methodology based on a Maximum Entropy (ME) modeling approach. Each empirical distribution (sample observation) is mapped to a set of ME model parameters, called “characteristic vector”, via closed-form Maximum Likelihood (ML) estimation. This allows to derive a detection rule based on a formal hypothesis test (Generalized Likelihood Ratio Test, GLRT) to measure the coherence of the current observation, i.e., its characteristic vector, to the given reference. The latter is dynamically identified taking into account the typical non-stationarity displayed by real network traffic. Numerical results on synthetic data demonstrates the robustness of our detector, while the evaluation on a labeled dataset from an operational 3G cellular network confirms the capability of the proposed method to identify real traffic anomalies.