ترجمه فارسی عنوان مقاله
برنامه ریزی پویا تطبیقی مبتنی بر داده ها برای بازی های مداوم و کامل همکاری با ورودی های محدود است
عنوان انگلیسی
Data-driven adaptive dynamic programming for continuous-time fully cooperative games with partially constrained inputs
کد مقاله | سال انتشار | تعداد صفحات مقاله انگلیسی |
---|---|---|
111828 | 2017 | 15 صفحه PDF |
منبع
Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)
Journal : Neurocomputing, Volume 238, 17 May 2017, Pages 377-386
ترجمه کلمات کلیدی
برنامه ریزی پویا سازگار، کنترل بهینه، شبکه عصبی، بازی کاملا تعاونی هدایت داده، ورودی محدود
کلمات کلیدی انگلیسی
Adaptive dynamic programming; Optimal control; Neural network; Fully cooperative games; Data-driven; Constrained input;
ترجمه چکیده
در این مقاله، بازی به طور کامل مشارکتی با ورودی های محدود محدود در محیط پردازش تصمیم گیری مارکوف مداوم، با استفاده از یک روش برنامه ریزی پویا تطبیقی رانده شده با داده ها، مورد بررسی قرار می گیرد. اول، الگوریتم تکرار سیاست مبتنی بر مدل با یک حلقه تکرار پیشنهاد شده است، که در آن دانش پویایی سیستم مورد نیاز است. سپس ثابت می شود که توالی تکراری توابع ارزش و سیاست های کنترل می توانند به موارد بهینه همگرا شوند. به منظور تسهیل دانش دقیق پویایی سیستم، یک معادله تکراری بدون مدل بر اساس الگوریتم مبتنی بر مدل و یادگیری تقویت انتگرال مشتق شده است. علاوه بر این، یک برنامه ریزی پویا تطبیقی مبتنی بر داده ها برای حل معادلات بدون مدل با استفاده از داده های سیستم تولید شده است. از تجزیه و تحلیل نظری، ما ثابت می کنیم که این معادله تکراری بدون مدل معادل معادلات تکرار شده مبتنی بر مدل است، به این معنی که الگوریتم داده محور می تواند به تابع ارزش مطلوب و سیاست های کنترل نزدیک شود. برای اهداف پیاده سازی، سه شبکه عصبی ساخته شده اند تا تقریبی راه حل معادلات تکراری بدون مدل با استفاده از برنامه یادگیری خارج از سیاست پس از اینکه داده های سیستم موجود در مرحله اندازه گیری آنلاین جمع آوری می شوند. در نهایت، دو مثال برای نشان دادن اثربخشی طرح پیشنهادی ارائه شده است.