ترجمه فارسی عنوان مقاله

تشخیص نابه‌هنجاری مبتنی بر مدل پویای مارکوف

عنوان انگلیسی

Anomaly detection based on a dynamic Markov model

کد مقاله	سال انتشار	تعداد صفحات مقاله انگلیسی
147062	2017	14 صفحه PDF

منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)

Journal : Information Sciences, Volume 411, October 2017, Pages 52-65

فهرست مطالب ترجمه فارسی

چکیده

کلمات کلیدی

1.مقدمه

2. مدل‌های کلاسیک مارکوف و مدل‌های مارکوف با مرتبه بالاتر

2.1. مدل‌های کلاسیک مارکوف

2.2 مدل های مارکوف با مرتبه بالاتر

3. رویکرد شناسایی نابه‌هنجاری مبتنی بر یک مدل پویای مارکوف

3.1 تعریف حالت

3.2 ایجاد یک مدل مارکف مرتبه n

3.3 مرحله کشف و بازآزمایی

3.4 استراتژی جایگزینی ناهنجاری

4. آزمایش و تجزیه و تحلیل نتایج

4.1 آزمایش و تجزیه و تحلیل داده‌های مصنوعی

4.2. آزمایش و تجزیه و تحلیل داده‌های دنیای واقعی

5. نتیجه‌گیری‌ها

ترجمه چکیده

شناسایی نابه‌هنجاری در داده‌های توالی اهمیتی روزافزون در طیف گسترده‌ای از حوزه‌های کاربردی همچون تشخیص کارت اعتباری تقلبی، مراقبت‌های بهداشتی در زمینه پزشکی و تشخیص نفوذ در امنیت سایبری پیدا می‌کند. در روش‌های شناسایی نابه‌هنجاری موجود، تکنیک‌های زنجیره مارکوف به خاطر فهم ساده و تعداد کم پارامترهایشان به طور گسترده‌ای پذیرفته شده‌اند. با این حال، ویژگی حافظه کوتاه یک مدل مارکوف کلاسیک، تعامل بین داده‌ها را نادیده می‌گیرد و ویژگی حافظه طولانی یک مدل مارکوف با مرتبه بالاتر، ارتباط بین داده‌های قبلی و داده‌های آزمون فعلی را ابر می‌کند و قابلیت اطمینان مدل را کاهش می‌دهد. علاوه بر این، هر دو این مدل‌ها نمی‌توانند توالی‌های تغییریافته با یک گرایش را با موفقیت توصیف کنند. در این مقاله، ما یک روش تشخیص نابه‌هنجاری را براساس مدل پویای مارکوف پیشنهاد می‌کنیم. این روش داده‌های توالی را از طریق پنجره‌ای لغزان تقسیم می‌کند. در پنجره لغزان ما حالت‌های داده‌ها را با توجه به مقدار داده تعریف می‌کنیم و نتیجتا یک مدل مرتبه بالاتر مارکوف را با مرتبه‌ی مناسب ایجاد می‌کنیم تا طول ویژگی حافظه را متعادل کنیم و روند توالی‌ها را ادامه دهیم. علاوه بر این، به منظور ممانعت از تاثیرگذاری ساختمان مدل‌ها بر نابه‌هنجاری‌های شناسایی‌شده و حفظ تداوم در شناسایی نابه‌هنجاری، یک استراتژی جایگزین نابه‌هنجاری پیشنهاد شده است. نتایج تجربی با استفاده از مجموعه داده‌های شبیه‌سازی‌شده و مجموعه داده‌های دنیای واقعی نشان داده است که رویکرد پیشنهادی، سازگاری و ثبات تشخیص نابه‌هنجاری را در داده‌های توالی بهبود می‌بخشد.

ترجمه مقدمه

شناسایی نابه‌هنجاری به عنوان مشکلی مهم در داده‌کاوی مطرح است و در زمینه‌‌های مختلف پژوهشی و برنامه‌های کاربردی همچون تشخیص نفوذ در امنیت سایبری [2،33]، تشخیص تقلب در کارت‌های اعتباری [33] و سیستم‌های ایمنی [27 ]، بیمه [19] ، و مراقبت‌های بهداشتی [15] مورد مطالعه و بررسی قرار گرفته است. تاکنون تعریف یکپارچه و قابل قبولی از نابه‌هنجاری ارائه نشده است. تعریفی که در مقوله‌ی آمار از نابه‌هنجاری رایج است این است که آن دسته از داده‌هایی که از توزیع توالی و موقعیت دور از سایر اشیا تبعیت نمی‌کنند، نابه‌هنجار تلقی می‌شوند [10،14] داده‌های توالی را می‌توان در حوزه‌های کاربردی گسترده‌ای همچون شبکه، اطلاعات زیست‌شناسی، پیش‌بینی وضع هوا و مدیریت سیستم یافت [3]. معمولا بیشتر آنها دارای دو ویژگی مهم هستند: پویایی و روند [36]، و به همین دلیل تشخیص آن دشوار است [11]. شناسایی نابه‌هنجاری در آن دسته از داده‌های توالی کاری چالش‌برانگیز است، و برای شناسایی نابه‌هنجاری‌ها باید به استفاده از خصوصیات دنباله‌ای داده‌ها اشاره کرد [23،40،41] تمرکز بسیاری از پژوهش‌ها بر شناسایی نابه‌هنجاری در داده‌های توالی معطوف است. معمولا بیشتر تکنیک‌های موجود در سه گروه زیر قرار می‌گیرند [6،8،28]: شناسایی نابه‌هنجاری مبتنی‌بر فاصله، شناسایی نابه‌هنجاری مبتنی بر خوشه‌بندی و شناسایی نابه‌هنجاری مبتنی‌بر پیش بینی. تکنیک‌های شناسایی نابه‌هنجاری مبتنی‌بر فاصله، با پذیرش نوعی خاص از عملکرد فاصله، بر محاسبه فاصله بین نقاط داده‌ها در فضای داده متمرکز می‌شوند [13]. وقتی یک شی داده فاصله زیادی را با سایر اشیا نشان می‌دهد، نابه‌هنجار محسوب می‌شود. به عنوان مثال،کاندولا و همکاران [4،20] تکنیکی مبتنی‌بر kNN (نزدیک‌ترین همسایه‌ی k) پیشنهاد می‌دهند که در آن فواصل نزدیک‌ترین همسایه K از همه‌ی اشیا، به عنوان نمرات نابه‌هنجاری اشیا محاسبه می‌شود. دو نقطه ضعف در تکنیک‌های مبتنی‌بر فاصله یافت شده است، نخست، انتخاب سنجش فاصله مستقیما عملکرد آنها را تعیین می‌کند و دوم اینکه در هنگام محاسبه‌ی فاصله در میان n نقطه، پیچیدگی زمانی تا O(n2) است. تکنیک‌های شناسایی نابه‌هنجاری مبتنی‌بر خوشه‌بندی به طور مستقیم یا غیرمستقیم از یک روش خوشه‌بندی (به عنوان مثال، خوشه‌بندی فضایی مبتنی‌بر چگالی در کاربردهای دارای نویز (DBSCAN) و روش-k) برای داده‌های خوشه‌ای استفاده می‌کنند. آن دسته از نقاط داده‌ای که به سادگی قابل طبقه‌بندی کردن نیستند، نابه‌هنجار تلقی می‌شوند. این روش‌شناسی ساده است و می‌تواند از تعداد زیادی از نتایج تحقیقات موجود استفاده کند. با این حال، تفاوت بزرگی بین تجزیه و تحلیل خوشه‌ای و شناسایی نابه‌هنجاری وجود دارد. هدف تجزیه و تحلیل خوشه‌ای این است که به دنبال طبقه‌بندی خوشه‌ها باشد و هدف شناسایی نابه‌هنجاری یافتن داده‌های غیرطبیعی است. شناسایی نابه‌هنجاری تنها یکی از «محصولات جانبی» خوشه‌بندی است [1724]. این واقعیت که رویکردهای کلی به ویژه برای شناسایی نابه‌هنجاری بهینه نشده است منجر به راندمانی پایین در شناسایی می‌شود. علاوه بر این، در بیشتر موارد، تعاریف معیارهای نابه‌هنجاری و شناسایی ضمنی است و نمی‌توان آن را به روشنی در فرآیند خوشه‌بندی منعکس کرد. در تکنیک‌های شناسایی نابه‌هنجاری مبتنی‌بر پیش‌بینی، بسیاری از مطالعات از مدل‌های ریاضی (به عنوان مثال شبکه‌های بیزی، مدل‌های مارکوف، شبکه‌های عصبی و ماشین‌های بردار پشتیبانی) [18،19،26،31] برای تصمیم‌گیری رسمی درباره کیفیت ناشناخته داده توالی استفاده می‌کنند،آنگاه مدل‌های پیش‌بینی را می‌سازند. سرانجام نابه‌هنجاری مطابق انحراف بین مقدار پیش‌بینی‌شده و مقدار واقعی در هر زمان پیدا می‌شود. این روش‌ها عملکرد بهتری در توالی ابعاد پایین دارند. با این حال، شبکه‌های بیزی این فرض را دارند که ویژگی‌ها مستقل از یکدیگر هستند، که معمولاً در کاربردهای عملی صحیح نیست [18]. شبکه‌های عصبی به تعداد زیادی پارامتر مانند توپولوژی شبکه، وزن و مقادیر آستانه احتیاج دارند. علاوه بر این، زمان یادگیری خیلی طولانی است و حتی ممکن است در رسیدن به هدف یادگیری ناکام باشد. [19] اجرای ماشین‌های بردار پشتیبانی برای اجرای نمونه‌های آموزش در مقیاس بزرگ دشوار است. این موضوع حافظه و زمان محاسبات زیادی را مصرف می‌کند [30]. مدل مارکوف یک ماشین حالت قدرتمند محدود است که در مدل‌سازی توالی بسیار مورد استفاده قرار می‌گیرد. مهمترین مزیت تکنیک‌های مارکوف این است که می‌توان هر رویداد را مورد تجزیه و تحلیل قرار داد. بنابراین، این تکنیک‌ها حتی اگر در یک دنباله طولانی قرار بگیرند، می‌توانند نابه‌هنجاری‌ها را تشخیص دهند [35]. در این مقاله، ما بر روی شناسایی نابه‌هنجاری بر اساس مدل‌های مارکوف تمرکز می‌کنیم. اوزکان و کوزات یک شناسایی نابه‌هنجاری آنلاین را با توجه به آمار مارکوف با نرخ آلارم کاذب قابل کنترل برای پخش سریع داده‌های زمانی ارائه می‌دهند. این الگوریتم ویژگی‌های اسمی را تحت آمارهای مختلف متفاوت مارکوف آموخته است. اگر مشاهدات از نظر آماری به اندازه کافی انحراف داشته باشند، یک ناهنجاری در هر لحظه اعلام می‌شود. شا و همکاران [29] یک طرح مبتنی بر زنجیره مارکوف چند منظوره برای شناسایی نابه‌هنجاری در سیستم‌های سرور ارائه می‌دهند. این رویکرد برای ایجاد چندین شاخص از ناهنجاری‌ها، زنجیره مارکوف و توالی چندمتغیره را در نظر می‌گیرد. در روش‌های زنجیره مارکوف، تکنیک‌های زنجیره‌ای مارکوف بیشتر از ویژگی حافظه کوتاه (یک قدم) مدل‌های کلاسیک مارکوف استفاده می‌کنند. ویژگی حافظه کوتاه در اصل با دو فرض اساسی همراه است [34]: (1) توزیع احتمالی حالت زمان t فقط به حالت زمان t 1 مربوط می‌شود. (2) تغییر وضعیت از زمان t-1 به حالت زمان t مستقل از زمان است. با این حال در برنامه‌های کاربردی عملی این دو فرض اساسی نمی‌توانند کاملاً برآورده شوند. توزیع احتمالی حالت زمان t معمولاً نه تنها به وضعیت t1 مربوط می‌شود ، بلكه به حالت‌های دوره زمانی قبل از زمان t-1 نیز مربوط می‌شود. بنابراین ، ویژگی حافظه کوتاه مدل‌های کلاسیک مارکوف برای داده‌های دنیای واقعی قابل استفاده نیست [1]. یک مدل مارکوف با مرتبه بالاتر [5،32] با در نظر گرفتن تعامل بین حالات، خاصیت حافظه طولانی خود را ارائه می‌دهد، به گونه‌ای که این مدل می‌تواند ویژگی‌های داده‌های توالی را بهتر از مدل‌های کلاسیک مارکوف توصیف کند. از نظر تئوری، با افزایش ترتیب مدل مارکوف، مدت زمان حافظه می‌تواند بی‌نهایت طولانی باشد. علاوه بر این ، در برنامه‌های زنجیره‌ای مارکوف، پس از ایجاد مدل‌های مارکوف در مرحله آموزش، ترتیب مدل‌های مارکوف برای شناسایی نابه‌هنجاری در مرحله آزمایش ثابت می‌شود. با این حال ، این واقعیت که مدل‌های ثابت مارکوف (n -order) هر حالت دنباله‌ای را که بر روی حالت‌های ثابت N قبلی شرط می‌شود، مجبور می‌کنند تا یک تخمین قابل اطمینان از وضعیت ردیابی ارائه دهند. با کاهش همبستگی بین داده‌های قدیمی و جدید، مدل‌های ثابت مارکوف دیگر برای کل دنباله کاربردی نیستند. در همان زمان ، هر دو مدل ذکر شده در بالا نمی‌توانند ویژگی‌های دنباله کامل با یک روند را به طور کامل توصیف کنند. وقتی مقدار داده‌های دنباله از منطقه تحت پوشش داده‌های آموزش فراتر رود، آنها نامعتبر خواهند بود. در علم شناختی همانطور که برای همه مشخص شده است که قابلیت اطمینان و دقت حافظه با گذشت زمان کمتر و پایین‌تر خواهد بود. بنابراین یک زمان مناسب از حافظه برای شناخت وقایع جاری مفید است. علاوه بر این ، با گذشت زمان ، حوادث در حافظه شناختی به طور مداوم به روز می‌شوند تا از تغییر وقایع جاری همگام شوند. با انگیزه این تئوری ، یک مدل پویای مارکوف در این مقاله ارائه شده است تا طول خاصیت حافظه مدل‌های مارکوف را متعادل کند و همبستگی قوی بین حافظه (یا مدل مارکوف) و داده‌های آزمون فعلی را حفظ کند. این مدل پویا ابتدا از یک پنجره لغزان برای تقسیم داده‌های توالی استفاده می‌کند. سپس از تجزیه و تحلیل همبستگی داده‌ها در پنجره لغزان برای یافتن ترتیب مناسب مدل مارکوف استفاده می‌شود. و ترتیب مدل مارکوف به طور مداوم با پنجره لغزان به روز می‌شود تا رابطه بین مدل مارکوف و داده‌های آزمون فعلی حفظ شود. علاوه بر این ، هنگامی که داده‌های آزمون فعلی از دامنه حالت‌های تعریف شده قبلی تجاوز می‌کند، حالت داده‌ها در پنجره لغزان تعریف مجدد خواهد شد و برای دنبال کردن تغییرات دنباله ، این مدل مجدداً آموزش داده می‌شود. در عین حال، به منظور تشخیص مداوم ناهنجاری‌ها و جلوگیری از نقاط ناهنجاری شناسایی شده از آلودگی به ساختمان مدل‌ها، یک استراتژی جایگزینی ناهنجاری پیشنهاد شده است. بنابراین این تحقیق یک رویکرد قوی برای شناسایی نابه‌هنجاری را مبتنی بر یک مدل پویای مارکوف ارائه می‌دهد. علاوه بر این، این مقاله به نوع توالی در داده‌های با پویایی و روند، مانند داده‌های الکتروکاردیوگرام (ECGs) در داده‌های پزشکی ، داده‌های فصلی و داده‌های سه ماهه متمرکز است. مقاله به شرح زیر سازماندهی شده است: بخش 2 مدل‌های کلاسیک مارکوف و مدل‌های مارکوف با مرتبه بالاتر را بررسی می‌کند. در بخش 3 ، ما یک روش شناسایی نابه‌هنجاری را بر اساس یک مدل پویای مارکوف تدوین می‌کنیم. بخش 4 با توجه به رویکردهای پیشنهادی ، به مقایسه نتایج می‌پردازد. سرانجام، نتیجه گیری‌های این مقاله در بخش 5 آورده شده است.

دانلود رایگان 2 صفحه اول مقاله لاتین (PDF)

پیش نمایش مقاله

چکیده انگلیسی

Anomaly detection in sequence data is becoming more and more important in a wide variety of application domains such as credit card fraud detection, health care in medical field, and intrusion detection in cyber security. In the existing anomaly detection approaches, Markov chain techniques are widely accepted for their simple realization and few parameters. However, the short memory property of a classical Markov model ignores the interaction among data, and the long memory property of a higher order Markov model clouds the relationship between the previous data and current test data, and reduces the reliability of the model. Besides, both of these models cannot successfully describe the sequences changing with a tendency. In this paper, we propose an anomaly detection approach based on a dynamic Markov model. This approach segments sequence data by a sliding window. In the sliding window, we define the states of data according to the value of the data and establish a higher order Markov model with a proper order consequently, to balance the length of the memory property and keep up with the trend of sequences. In addition, an anomaly substitution strategy is proposed to prevent the detected anomalies from impacting the building of the models and keep anomaly detection continuously. The experimental results using simulated datasets and real-world datasets have demonstrated that the proposed approach improves the adaptability and stability of anomaly detection in sequence data.