دانلود مقاله ISI انگلیسی شماره 76905
ترجمه فارسی عنوان مقاله

ADMIRE: روش تشخیص ناهنجاری با استفاده از آنالیز مؤلفه اصلی (PCA) مبتنی بر آنتروپی با طرح‌های سه مرحله ای

عنوان انگلیسی
ADMIRE: Anomaly detection method using entropy-based PCA with three-step sketches
کد مقاله سال انتشار تعداد صفحات مقاله انگلیسی
76905 2013 14 صفحه PDF
منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)

Journal : Computer Communications, Volume 36, Issue 5, 1 March 2013, Pages 575–588

فهرست مطالب ترجمه فارسی
چکیده

کلمات کلیدی

1.مقدمه

2. کار مرتبط

3. روش شناسی

3-1 تجزیه و تحلیل مؤلفه اصلی (PCA) و روش زیر فضایی

3-2 طرح های اولیه 

3-3 روش تشخیص ناهنجاری

3-4 روش طبقه بندی ناهنجاری

3-5 روش ارزیابی

4. مجموعه داده ها

5. ارزیابی

5-1 بررسی مقدماتی وابستگی پارامترها

5-2 طرح دو مرحله ای در مقابل طرح سه مرحله ای

5-3 تأثیر آنتروپی ورودی PCAها برای تشخیص ناهنجاری

5-4 مقایسه با سایر تشخیص دهنده های ناهنجاری

5-5 تعداد آدرس های IP منبع منحصر به فرد در مقابل اندازه طرح مناسب

5-6 پیچیدگی زمانی و مکانی ADMIRE

6. نتیجه گیری

پیوست A. دسته حملات
ترجمه کلمات کلیدی
PCA؛ Hash - طرح اولیه؛ تشخیص ناهنجاری؛ آنتروپی
کلمات کلیدی انگلیسی
PCA; Hash; Sketch; Anomaly detection; Entropy
ترجمه چکیده
اخیراً تشخیص ناهنجاری شبکه با استفاده از کاهش ابعاد به منظور غلبه بر ضعف تشخیص مبتنی بر امضا به خوبی مورد مطالعه قرار گرفته است. کارهای قبلی روشی را برای تشخیص جریان غیرعادی و خاص IP با استفاده از پروژه (طرح) تصادفی و آنالیز مؤلفه اصلی (PCA) ارائه داده اند. نتایج توانایی تشخیص بدون نیاز به پایگاه داده های ناهنجاری از پیش تعریف شده امیدوارکننده است. با این حال، روش تشخیص را نمی توان برای جریان ترافیک در یک نقطه اندازه گیری واحد بکار برد، و تنظیمات پارامتر مناسب (به عنوان مثال، رابطه بین اندازه طرح و تعداد آدرس های IP) هنوز به اندازه کافی مطالعه نشده است. در این مقاله الگوریتم تشخیص ناهنجاری مبتنی بر PCA را به نام ADMIRE برای تکمیل و گسترش کارهای قبلی پیشنهاد می کنیم. ایده اصلی ADMIRE، استفاده از طرح های سه مرحله ای و تنظیم پارامتر مناسب برای بهبود عملکرد تشخیص و سهولت استفاده از آن در عمل است. ما اثربخشی ADMIRE را با استفاده از رد ترافیک طولی، که از یک لینک فرامرزی گرفته شده است، ارزیابی می کنیم. یافته های اصلی این مقاله به شرح زیر است: (1) ما ارتباط بین تعداد آدرس های IP در ترافیک اندازه گیری شده و اندازه طرح مناسب را نشان می دهیم و از این رابطه برای تنظیم پارامتر اندازه طرح استفاده می کنیم. (2) ADMIRE در ردیاب سنتی مبتنی بر PCA و سایر ردیاب های مبتنی بر پیشینه های مختلف نظری عملکرد بهتری دارد. (3) انواع ناهنجاری های گزارش شده توسط ADMIRE به ویژگی های ترافیکی که به عنوان ورودی انتخاب می شوند بستگی دارد. علاوه بر این، ما دریافتیم که یک جمع بندی ساده از چندین ویژگی ترافیکی باعث کاهش عملکرد تشخیص می شود.
ترجمه مقدمه
تعداد ناهنجاری ها در ترافیک شبکه ارتباطی هم به طور مثبت و هم به طور منفی در حال افزایش است. اولی شامل اسکن شبکه، انتشار کرم، DDoS و مواردی از این قبیل است، که می تواند اثرات مخربی بر روی خدمات اینترنت داشته باشد. دومی شامل هجوم ناگهانی کاربران، تغییرات ناگهانی در تقاضا، خرابی تجهیزات و غیره است. برای عملکرد مداوم و ایمن شبکه های ارتباطی و برای استفاده مناسب از تعداد محدودی از منابع شبکه، به روش های تشخیص خودکار نیاز داریم که می توانند حوادث غیر طبیعی را پیدا کنند. از نظر تاریخی، دو روش برای تشخیص خودکار حوادث غیر طبیعی وجود دارد: تشخیص استفاده بد و تشخیص ناهنجاری. تشخیص استفاده بد مثل نفیر کشیدن ]2[، الگوهای بارگذاری بسته را با اطلاعات موجود در پایگاه داده از پیش تعریف شده مطابقت می دهد. اگرچه می تواند فعالیت های غیر عادی را با دقت تشخیص دهد، اما قادر به تشخیص انواع جدیدی از کرمها یا فعالیتهای ناشناخته بد استفاده شده ای که الگوهای بارگذاری آنها در پایگاه داده ها وجود ندارد نیست. از سوی دیگر، روش های تشخیص ناهنجاری با استفاده از رفتار آماری ترافیک اخیراً توجه بسیاری از محققان را به خود جلب کرده است زیرا آنها نیاز به پایگاه داده از پیش تعریف شده ندارند و پتانسیل تشخیص کرم های جدید با فرض این که آن حملات از رفتار عادی آماری منحرف شده اند را دارند. تمرکز ما در این مقاله، روشهای تشخیص ناهنجاری با استفاده از رفتار آماری ترافیک است. چند مثال از روش آماری استفاده شده برای تشخیص ناهنجاری را شرح می دهیم. روش آنتروپیایی برای تشخیص ناهنجاری، آنتروپی توزیع ویژگی بسته (آدرس های IP، پورت ها، و غیره) ]5[ را محاسبه می کند و اگر مقدار آنتروپی از استاندارد انحراف داشته باشد، ناهنجاری را گزارش می دهد. تشخیص ناهنجاری مبتنی بر آنتروپی، دیدگاه دقیق تری نسبت به مقدار سنتی آن ارائه می کند. ASTUTE مدلی را برای رفتار ترافیک به عنوان تعادل ترافیک غیر مرتبط با بازه زمانی کوتاه تعریف می کند. خاصیت تعادل در صورتی ثابت است که جریان ترافیک (مجموعه ای از بسته هایی که برای مجموعه مشخصی از ویژگی های ترافیک مانند منبع و مقصد آدرس های IP، پورت‌ها، و تعداد پروتکل مشابه هستند) تقریباً مستقل باشد و با تغییرات ترافیک ناشی از جریان‌های همبسته نقض شود. ASTUTE ناهنجاری ها را براساس چنین خاصیت تعادلی تشخیص می دهد با فرض اینکه تعداد زیادی از جریان ها یک پیوند غیر اشباع را طی می‌کنند. یک رویکرد مبتنی بر موجک [14،15] ناهنجاری ها را با استفاده از تفاوت بین سیگنالهای متغیر زمانی ترافیک عادی و ترافیک شبکه غیر عادی در باند فرکانس، در شرایطی که انرژی ترافیک غیر عادی از انرژی کل در باند فرکانس خاص بیشتر است، تشخیص می دهد. رویکرد مبتنی بر مدل سازی گاما در مقیاس چندگانه [10،11] ترافیک را با استفاده از توزیع گاما تقریب می زند و ترافیکی که از مرجع محاسباتی با آن فاصله دارد، به عنوان ناهنجاری تشخیص داده می شود. رویکرد کولبک- لیبلر (KL) ]19[، انواع مختلفی از هیستوگرام را ایجاد می کند که برای تشخیص تغییرات برجسته در ترافیک، از طریق واگرایی KL، بر ویژگی های ترافیکی متمایزی نظارت می کند. رویکرد مبتنی بر آنالیز مؤلفه اصلی(PCA) [6,4,7-9,21,22] ویژگی اصلی ترافیک را از طریق کاهش ابعاد توضیح می دهد و ترافیک باقیمانده را به عنوان ناهنجاری گزارش می کند. به نظر می رسد Defeat [9] جدیدترین و کاربردی ترین روش مبتنی بر PCA است زیرا به کمک آن می توان ناهنجاری های گسترده شبکه را در دانه بندی میزبان با ترکیب PCA آنتروپیایی با استفاده از تکنیک های طراحی [13] مشخص کرد (طرح تصادفی برای کاهش ابعاد داده ها). حتی اگر سهم بزرگی از Defeat را تحسین کنیم هنوز سه نکته برای بررسی دقیق تر باقی مانده است، از جمله اندازه طرح مناسب، که اطلاعات مربوط به هدر IP (آدرس ها یا پورت های منبع و مقصد IP) است که از آن به عنوان ترافیک اصلی آنتروپی و مقایسه توانایی با انواع دیگر تشخیص ناهنجاری با استفاده از یک مشاهده طولی استفاده می کنیم. اول، Defeat اصرار دارد که اندازه های بزرگ طرح، میزان تشخیص از دست رفته را کاهش و میزان تشخیص اضافه شده را افزایش می دهد. با این حال، هیچ توضیح نظری برای این داده نشده است و مجموعه داده هایی که آنها استفاده می کنند دو رد هفتگی استقامت برای یک دوره مشاهده محدود است که رشد توان عملیاتی و تعداد آدرس های IP منحصر به فرد در اینترنت را نشان نمی دهد. به نظر ما، تعداد آدرس های IP منحصر به فرد و همچنین توان عملیاتی در ردیابی با اندازه مناسب طرح ارتباط مثبت دارد. همچنین، تأثیر انتخاب آنتروپی Defeat هنوز بررسی نشده است. آنها فقط ناهنجاریهای تشخیص داده شده توسط آنتروپی چهارتایی را ادغام کردند (آدرس های منبع و مقصد IP و تعداد پورت). ادعا می کنیم که آنتروپی اطلاعات مربوط به هدر IP مختلف انواع مختلف ناهنجاری‌ها را ضبط می کند، و بدین ترتیب، مطالعه انواع ناهنجاریهای شناسایی شده با استفاده از انتخاب متفاوت آنتروپی باید اهمیت زیادی داشته باشد. سوم، Defeat فقط نتیجه را با سایر تشخیص دهنده های ناهنجاری مبتنی بر PCA مقایسه کرد. برای درک شایستگی و عدم شایستگی PCAها برای تشخیص ناهنجاری، لازم است ناهنجاریهای شناسایی‌شده PCA را با نوع دیگری از تشخیص‌دهنده‌های ناهنجاری مقایسه کنیم. سهم اصلی این مقاله چهارگانه است. اول، ADMIRE را پیشنهاد می کنیم که ترکیبی از طرح ها و PCAهای آنتروپیایی است، اما از یک جنبه مهم با Defeat متفاوت است، که برای مقابله با تأثیرات بسته اندازه گیری شده از یک لینک واحد از طرح های سه مرحله ای استفاده می کند. روش پیشنهادی با استفاده از طرح سه مرحله ای، از نظر میزان مثبت درست و نادرست بهتر از طرح های دو مرحله ای قبلی عمل می‌کند. ما مکانیسم و برتری طرح های سه مرحله ای را با جزئیات بیشتر در بخش 3-3 توصیف می کنیم. دوم، همبستگی بین تعداد آدرس های IP منحصر به فرد و اندازه طرح مناسب برای اثرات ترافیک اینترنت را برسی می کنیم. در نتیجه، می توانیم همبستگی مثبت بین آنها را مشاهده کنیم. در علم ما، این اولین تحقیق فشرده با استفاده از اثر استقامت برای تعیین همبستگی بین اندازه مناسب طرح برای تشخیص ناهنجاری و تعداد آدرس های IP منحصر به فرد است. این یافته برای بسیاری از تشخیص دهنده های ناهنجاری با استفاده از تکنیک طراحی مناسب است. سوم، با ارزیابی ADMIRE، دریافتیم که سری‌های زمانی مختلف آنتروپی برای تشخیص ناهنجاری PCA از انواع مختلف ناهنجاری ها استفاده کرده اند. طبق ]5[، به شدت معتقدیم که وقتی از آنتروپی برای تشخیص ناهنجاری استفاده می کنیم باید آن را با دقت انتخاب کنیم. در نهایت، توانایی تشخیص ADMIRE را با روش های گاما [10] و KL ]19[ با استفاده از تأثیر نه ساله مقایسه می کنیم. در نتیجه، ADMIRE از لحاظ توانایی تشخیص بهتر از سایر روش‌ها عمل می کند. از آنجا که هر روش انواع مختلف ناهنجاری ها را تشخیص می دهد، استفاده از آنها در ترکیب موثر خواهد بود.
پیش نمایش مقاله
پیش نمایش مقاله  ADMIRE: روش تشخیص ناهنجاری با استفاده از آنالیز مؤلفه اصلی (PCA) مبتنی بر آنتروپی با طرح‌های سه مرحله ای

چکیده انگلیسی

Network anomaly detection using dimensionality reduction has recently been well studied in order to overcome the weakness of signature-based detection. Previous works have proposed a method for detecting particular anomalous IP-flows by using random projection (sketch) and a Principal Component Analysis (PCA). It yields promising high detection capability results without needing a pre-defined anomaly database. However, the detection method cannot be applied to the traffic flows at a single measurement point, and the appropriate parameter settings (e.g., the relationship between the sketch size and the number of IP addresses) have not yet been sufficiently studied. We propose in this paper a PCA-based anomaly detection algorithm called ADMIRE to supplement and expand the previous works. The key idea of ADMIRE is the use of three-step sketches and an adaptive parameter setting to improve the detection performance and ease its use in practice. We evaluate the effectiveness of ADMIRE using the longitudinal traffic traces captured from a transpacific link. The main findings of this paper are as follows: (1) We reveal the correlation between the number of IP addresses in the measured traffic and the appropriate sketch size. We take advantage of this relation to set the sketch size parameter. (2) ADMIRE outperforms traditional PCA-based detector and other detectors based on different theoretical backgrounds. (3) The types of anomalies reported by ADMIRE depend on the traffic features that are selected as input. Moreover, we found that a simple aggregation of several traffic features degrades the detection performance.