ترجمه فارسی عنوان مقاله

برنامه ریزی پویا تطبیقی مبتنی بر داده ها برای بازی های مداوم و کامل همکاری با ورودی های محدود است

عنوان انگلیسی

Data-driven adaptive dynamic programming for continuous-time fully cooperative games with partially constrained inputs

کد مقاله	سال انتشار	تعداد صفحات مقاله انگلیسی
111828	2017	15 صفحه PDF

منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)

Journal : Neurocomputing, Volume 238, 17 May 2017, Pages 377-386

ترجمه کلمات کلیدی

برنامه ریزی پویا سازگار، کنترل بهینه، شبکه عصبی، بازی کاملا تعاونی هدایت داده، ورودی محدود

کلمات کلیدی انگلیسی

Adaptive dynamic programming; Optimal control; Neural network; Fully cooperative games; Data-driven; Constrained input;

ترجمه چکیده

در این مقاله، بازی به طور کامل مشارکتی با ورودی های محدود محدود در محیط پردازش تصمیم گیری مارکوف مداوم، با استفاده از یک روش برنامه ریزی پویا تطبیقی رانده شده با داده ها، مورد بررسی قرار می گیرد. اول، الگوریتم تکرار سیاست مبتنی بر مدل با یک حلقه تکرار پیشنهاد شده است، که در آن دانش پویایی سیستم مورد نیاز است. سپس ثابت می شود که توالی تکراری توابع ارزش و سیاست های کنترل می توانند به موارد بهینه همگرا شوند. به منظور تسهیل دانش دقیق پویایی سیستم، یک معادله تکراری بدون مدل بر اساس الگوریتم مبتنی بر مدل و یادگیری تقویت انتگرال مشتق شده است. علاوه بر این، یک برنامه ریزی پویا تطبیقی مبتنی بر داده ها برای حل معادلات بدون مدل با استفاده از داده های سیستم تولید شده است. از تجزیه و تحلیل نظری، ما ثابت می کنیم که این معادله تکراری بدون مدل معادل معادلات تکرار شده مبتنی بر مدل است، به این معنی که الگوریتم داده محور می تواند به تابع ارزش مطلوب و سیاست های کنترل نزدیک شود. برای اهداف پیاده سازی، سه شبکه عصبی ساخته شده اند تا تقریبی راه حل معادلات تکراری بدون مدل با استفاده از برنامه یادگیری خارج از سیاست پس از اینکه داده های سیستم موجود در مرحله اندازه گیری آنلاین جمع آوری می شوند. در نهایت، دو مثال برای نشان دادن اثربخشی طرح پیشنهادی ارائه شده است.

دانلود رایگان 2 صفحه اول مقاله لاتین (PDF)

پیش نمایش مقاله

چکیده انگلیسی

In this paper, the fully cooperative game with partially constrained inputs in the continuous-time Markov decision process environment is investigated using a novel data-driven adaptive dynamic programming method. First, the model-based policy iteration algorithm with one iteration loop is proposed, where the knowledge of system dynamics is required. Then, it is proved that the iteration sequences of value functions and control policies can converge to the optimal ones. In order to relax the exact knowledge of the system dynamics, a model-free iterative equation is derived based on the model-based algorithm and the integral reinforcement learning. Furthermore, a data-driven adaptive dynamic programming is developed to solve the model-free equation using generated system data. From the theoretical analysis, we prove that this model-free iterative equation is equivalent to the model-based iterative equations, which means that the data-driven algorithm can approach the optimal value function and control policies. For the implementation purpose, three neural networks are constructed to approximate the solution of the model-free iteration equation using the off-policy learning scheme after the available system data is collected in the online measurement phase. Finally, two examples are provided to demonstrate the effectiveness of the proposed scheme.

برنامه ریزی پویا تطبیقی ​​مبتنی بر داده ها برای بازی های مداوم و کامل همکاری با ورودی های محدود است

چکیده انگلیسی

برنامه ریزی پویا تطبیقی مبتنی بر داده ها برای بازی های مداوم و کامل همکاری با ورودی های محدود است