دانلود مقاله ISI انگلیسی شماره 24847
ترجمه فارسی عنوان مقاله

مدل رگرسیون لجستیک تأثیرات تصادفی برای کشف ناهنجاری

عنوان انگلیسی
Random effects logistic regression model for anomaly detection
کد مقاله سال انتشار تعداد صفحات مقاله انگلیسی
24847 2014 5 صفحه PDF
منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)

Journal : Expert Systems with Applications, Volume 37, Issue 10, October 2010, Pages 7162–7166

فهرست مطالب ترجمه فارسی
چکیده


کلمات کلیدی


1.مقدمه


1. کشف ناهنجاری:


2. مدل رگرسیون لجستیک مربوط به تأثیرات اتفاقی


3. تحلیل تجربی:


جدول یک: تشریح متغیر های انتخابی.


جدول دو: تخمین احتمال حد اکثر از مدل رگرسیون لجستیک تأثیر ثابت برای تشخیص نابهنجاری:


جدول سه: نتایج دقت طبقه‌بندی برای مدل رگرسیون تأثیر ثابت.


4. نتیجه‌گیری:
ترجمه کلمات کلیدی
99 - تشخیص ناهنجاری - نفوذ - اثرات تصادفی -
کلمات کلیدی انگلیسی
Anomaly detection, Intrusion, Random effects, KDD-99,
ترجمه چکیده
درحالی‌که تأثیرات اینترنت به‌عنوان وسیله‌ای برای ارتباطات و تجارت گسترش می‌یابد؛ تهدید از جانب ارسال‌کنندگان هرزنامه‌ها، کسانی که سامانه‌ها را مورد هجوم قرار می‌دهند و سازمان‌های خلاف‌کار به همان نسبت توسعه‌یافته است. این مقاله یک مدل رگرسیون لجستیک تأثیرات تصادفی را به‌منظور پیش‌بینی و کشف ناهنجاری، پیشنهاد می‌کند. برخلاف مطالعات قبلی بر روی تشخیص ناهنجاری، یک مدل تأثیرات تصادفی به کار گرفته شد که نه‌تنها دارای عوامل احتمال خطر افشای اطلاعات است، بلکه عدم اطمینانی را که توسط عوامل احتمال خطر توضیح داده نشده را نیز در نظر می‌گیرد. عوامل خاص در رده‌بندی احتمالات خطر همانند اطلاعات مربوط به نوع پروتکل و اطلاعات ورود به سیستمی که ذخیره‌شده‌اند، در مدل پیشنهادی این مقاله منظور شده است. این تحقیق بر پایه نمونه‌ای از 49427 مشاهده تصادفی در مورد 42 متغیر در مجموعه اطلاعات KDD-Cup1999 (مسابقه کشف دانش و ابزار داده‌کاوی) است، که شامل اتصالات عادی و ناهنجار است. مدل پیشنهادی ضریب درستی 98.94 درصد برای مجموعه اطلاعات آموزشی و 98.68 درصد برای مجموعه اطلاعات راستی آزمایی را نشان می‌دهد.
ترجمه مقدمه
درحالی‌که پیشرفت‌های فنّاوری استفاده از اینترنت به ارتباط مردم در سراسر جهان کمک می‌کند، تأثیراتش را نیز به‌عنوان وسیله‌ای جهت ارتباطات و تجارت گسترش می‌دهد؛ به همان سرعت تهدید از جانب ارسال‌کنندگان هرزنامه‌ها و حمله‌کنندگان به سیستم و سازمان‌های خلاف‌کار به‌طور مداوم افزایش‌یافته است. سیستم‌های کشف نفوذ (IDS)، بررسی سوابق را به‌منظور کشف هرگونه رفتار غیرمعمول کاربر تجزیه‌وتحلیل می‌نماید. به‌علاوه IDS فعالیت‌های خصمانه و یا سوءاستفاده از یک شبکه را کشف می‌کند (دپن، توپالار، اناریم و سیلیز، 2005). اگرچه ایده‌ی پشت تشخیص نفوذ این است که می‌توان الگوهای ساده‌ی رفتار کاربر مجاز را می‌توان اخذ نمود و رفتار کاربر ناهنجار از کاربر عادی را تشخیص داد (اندرسون، 1980)بااین‌وجود شناسایی رفتار غیرعادی، هنوز هم به دلیل حملات غیرمنتظره وظیفه‌ای دشوار است (وانگ، 2005). تجزیه‌وتحلیل آماری رایج‌ترین روش برای تعریف رفتار عادی با جمع‌آوری داده‌های مربوط به رفتار کاربر مجاز طی یک دوره زمانی است (اندرسون، لانت، جاویتس، تامارو و والدز، 1995). روش‌های آماری که جهت کشف ناهنجاری به کار گرفته‌شده‌اند شامل تجزیه‌وتحلیل اجزای تشکیل‌دهنده اصلی (شایول، چن، سارینا پاکرون 1 و چانگ، 2003)، تجزیه‌وتحلیل مجموعه‌ای و متغیرهای چندتایی (تیلور و آلوس فوس، 2002)، تجزیه‌وتحلیل بایسیان (Bayesian) (باربارد و جاجودیا، 2001)، آزمون‌های ساده و دوره‌ای معنی‌دار (ماسوم، یه، چن و نووح، 2000؛ کین و هوآنگ، 2004؛ ژو و لانگ، 2003) و رگرسیون محاسبه‌ای چندجمله‌ای (وانگ، 2005). گوادیا، فارکاس و والتورتا (2005)، با استفاده از سیستم کشف ناهنجاری مبتنی بر شبکه بایسیان (Bayesian) موجود، احتمال وقوع حملات خاص را ، در نظر گرفتند. ایشان قادر به پیش‌بینی احتمال وقوع حملات خاص با مشاهده ترتیب پارامترهای ورودی همخوان بودند. لی، کیم و کوان (2008) روشی را به‌منظور کشف پیش فعال حمله‌ی عدم پذیرش سرویس (DDOS) به‌وسیله‌ی دست‌کاری در ساختار این حملات پیشنهاد کردند؛ که شامل منتخبی از کنترل ورودی و خروجی (Handler) ها، عوامل، ارتباطات، تهدید و حمله به‌وسیله تجزیه‌وتحلیل مجموعه است. وو و ژانگ (2006) برای کشف ناهنجاری در شبکه اینترنت، سیستم کشف موارد ناهنجاری و الگوریتم مجموعه‌ای نوینی را بر پایه تجزیه‌وتحلیل عوامل و فاصله ماهالانوبیس ارائه کردند. دپرن و همکاران (2007)، ساختار IDS جدیدی را پیشنهاد کردند که هر دو روش کشف استفاده نادرست و یا ناهنجار را به کار می‌برد. این برنامه کشف ناهنجاری پیشنهادی برای الگوسازی رفتار عادی از یک ساختار نقشه‌ی خود نظم‌دهنده (SOM) استفاده می‌کند. SOM یک مدل شبکه عصبی برای تجزیه‌وتحلیل و در نظر آوردن اطلاعات در ابعاد بزرگ است. آرانز، کروز، سانز بوبی، روییز و کوتینو (2008) برای کشف ناهنجاری از شبکه عصبی (SOM) استفاده می‌کردند. روش بررسی آماری کشف ناهنجاری، مزایا و معایب گوناگونی دارد. اولا نقطه‌ضعف آن این است که مهاجمان ماهر می‌توانند به تشخیص ناهنجاری آماری عادت کنند. همچنین این روش به عدم توانایی رمزگشایی تفاوت بین رفتار عادی و ناهنجار شناخته‌شده است. همچنین تشخیص آستانه‌های تعادل بین امکان مثبت کاذب با منفی کاذب برایش دشوار است. به‌علاوه روش‌های آماری نیاز به توزیع آماری دقیق دارند؛ اما همه رفتارها را نمی‌توان با استفاده از روش‌های صرفاً آماری مدل‌سازی کرد (پاچا و پارک،2007). با این حال مزیت آن نه‌تنها توانایی تشخیص حملات جدید یا ناشناخته است؛ بلکه سیستم ها نیز نیازی به دانش قبلی از نقایص امنیتی یا حمله‌ها ندارند. رویکردهای آماری می‌توانند اطلاع‌رسانی دقیقی از فعالیت‌های مضر که معمولاً در طول زمان به وجود می‌آیند فراهم آورند و نشانه‌های خوبی از حملات غریب الوقوع هستند. یکی از روش‌های آماری رایج مدل رگرسیون تأثیرات لجستیک ثابت است؛ که پیش‌بینی کننده‌های رفتار ناهنجار را دارا است. بااین‌وجود، این مدل شامل متغیرهای غیر قابل توضیح توسط پیش‌بینی کنندگان رفتار ناهنجار نیست. بر این اساس، در این مقاله یک مدل رگرسیون لجستیک مربوط به تأثیرات تصادفی پیشنهادشده است. مزیت استفاده از چنین مدل اثرات تصادفی برای تشخیص موارد ناهنجاری این است که نه‌تنها خصوصیات محیطی شبکه‌ای بلکه همچنین عدم قطعیتی را که نمی‌تواند توسط چنین خصوصیات محیط شبکه‌ای توضیح داده شود را نیز ، دارا است. مدل اثرات تصادفی قالبا در فراهم آوردن تغییرات بین مجموعه‌ای و تغییرات داخل مجموعه‌ای مورداستفاده قرار می‌گیرد (سون،1996، 1997،1999،2002) و (سون و چوی، 2006) و (سون و پارک، 2007). رووس مطالب این بررسی به شرح زیر است: بخش دوم تشخیص موارد غیرعادی را معرفی می‌کند و بخش سوم به بررسی مدل رگرسیون لجستیک مربوط به تأثیرات تصادفی برای کشف ناهنجاری می‌پردازد. بخش چهارم شامل بررسی موردی تجربی و نتایج آن بوده و سرانجام در بخش پنجم نتایج بررسی خلاصه می‌شود.
پیش نمایش مقاله
پیش نمایش مقاله  مدل رگرسیون لجستیک تأثیرات تصادفی  برای کشف ناهنجاری

چکیده انگلیسی

As the influence of the internet continues to expand as a medium for communications and commerce, the threat from spammers, system attackers, and criminal enterprises has grown accordingly. This paper proposes a random effects logistic regression model to predict anomaly detection. Unlike the previous studies on anomaly detection, a random effects model was applied, which accommodates not only the risk factors of the exposures but also the uncertainty not explained by such factors. The specific factors of the risk category such as retained ‘protocol type’ and ‘logged in’ are included in the proposed model. The research is based on a sample of 49,427 random observations for 42 variables of the KDD-cup 1999 (Data Mining and Knowledge Discovery competition) data set that contains ‘normal’ and ‘anomaly’ connections. The proposed model has a classification accuracy of 98.94% for the training data set, while that for the validation data set is 98.68%.

مقدمه انگلیسی

As advances in networking technology help to connect people around the globe, the internet continues to expand its influence as a medium for communications and commerce. At a similar speed, the threat from spammers, system attackers, and criminal enterprises has continually escalated. Intrusion Detection Systems (IDS) analyze audit trail data to detect any unusual user behavior. In addition, IDS detects hostile activities or exploits in a network (Depren, Topallar, Anarim, & Ciliz, 2005). Although the idea behind intrusion detection is that simple patterns of legitimate user behavior can be captured and the behavior of an anomalous user can be distinguished and identified from normal users (Anderson, 1980), abnormal behavior detection is still a difficult task to implement because of unpredictable attacks (Wang, 2005). Statistical analysis is the most widely used technique, which defines normal behavior by collecting data relating to the behavior of legitimate users over a period of time (Anderson, Lunt, Javits, Tamaru, & Valdes, 1995). Statistical techniques have been adapted to anomaly detection, which includes principal component analysis (Shyul, Chen, Sarinnapakorn1, & Chang, 2003), cluster and multivariate analysis (Taylor & Alves-Foss, 2002), Bayesian analysis (Barbard, Wu, & Jajodia, 2001), frequency and simple significance tests (Masum et al., 2000, Qin and Hwang, 2004 and Zhou and Lang, 2003), and multinomial logistic regression (Wang, 2005). Gowadia, Farkas, and Valtorta (2005) adapted the occurrence probability of specific attacks in the existing Bayesian Networks-based anomaly detection system. By observing the input parameters, they were able to anticipate the occurrence probability of specific attacks corresponding to the sequence of input parameters. Lee, Kim, and Kwon (2008) proposed a method for proactive detection of DDoS attacks by exploiting its architecture; which consists of a selection of handlers and agents, communication and compromise, and attack by cluster analysis. Wu and Zhang (2006) presented novel anomaly detection and a clustering algorithm for network anomaly detection based on factor analysis and the Mahalanobis distance. Depren et al. (2007) proposed a novel IDS architecture utilizing both anomaly and misuse detection approaches. The proposed anomaly detection module used a Self-Organizing Map (SOM) structure to model normal behavior. SOM is a neural network model for analyzing and visualizing high dimensional data. Arranz, Cruz, Sanz-Bobi, Ruiz, and Coutino (2008) used neural network for detection of anomalies. Statistical approaches to anomaly detection have several advantages and disadvantages. First, the disadvantage is that skilled attackers can be accustomed to statistical anomaly detection, also known as the inability to decipher the difference between abnormal and normal behavior. It can also be difficult to determine thresholds that balance the likelihood of false positives with the likelihood of false negatives. In addition, statistical methods need accurate statistical distributions, but not all behaviors can be modeled using purely statistical methods (Patcha & Park, 2007). However, the advantage is not only the ability to detect novel attacks or unknown attacks, but also the systems do not require prior knowledge of security flaws or attacks. Statistical approaches can provide accurate notification of malicious activities that typically occur over extended periods of time and are good indicators of impending attacks. One of the popular statistical approaches is a fixed effect logistic regression model, which accommodates predictors for anomaly behavior. However, this model does not accommodate variation that cannot be explained by such predictors. Accordingly, in this paper a random effects logistic regression model is proposed. The advantage of using such a random effects model for anomaly detection is to accommodate not only the network environment characteristics but also the uncertainty that cannot be explained by such network environment characteristics. The random effects model has been frequently used to accommodate both ‘between cluster variation’ as well as ‘within cluster variation’ (Sohn, 1996, Sohn, 1997, Sohn, 1999, Sohn, 2002, Sohn and Choi, 2006 and Sohn and Park, 1998). The outline of this study is as follows: Section 2 introduces the anomaly detection, and Section 3 deals with the random effects logistic regression model for anomaly detection. Section 4 contains an empirical case study and its results. Finally, in Section 5, the results of the study are summarized.

نتیجه گیری انگلیسی

As detection of system attacks has become an important factor to strengthen the competitiveness of a country, the Korean government has been increasing investment in computer security systems. In order to effectively manage system attack problems, an accurate anomaly detection model is needed. Many anomaly detection systems have utilized various models using logistic regression, multiple discriminant analysis, neural network, and clustering. However, there is a weakness in that these approaches do not accommodate the situation where the systems exhibit different attack probabilities under the same condition. The empirical study results indicate high classification accuracy of the random effects logistic regression model. From the analyzed results, it is recommended to use a random effects logistic regression model for predicting anomaly detection. In this paper, the random effects logistic regression model is proposed for anomaly detection that considers not only system characteristics, but also the uncertainty that cannot be explained by such predictor characteristics. The third International Knowledge Discovery and Data Mining Tools Competition (KDD-cup) 1999 data was analyzed. With more information regarding target variables, further analysis is required to predict various anomaly levels.