دانلود مقاله ISI انگلیسی شماره 93308
ترجمه فارسی عنوان مقاله

یادگیری تقویت مادام العمر قابل ملاحظه

عنوان انگلیسی
Scalable lifelong reinforcement learning
کد مقاله سال انتشار تعداد صفحات مقاله انگلیسی
93308 2017 34 صفحه PDF
منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)

Journal : Pattern Recognition, Volume 72, December 2017, Pages 407-418

ترجمه کلمات کلیدی
تقویت یادگیری، یادگیری مادام العمر، بهینه سازی توزیع، انتقال یادگیری،
کلمات کلیدی انگلیسی
Reinforcement learning; Lifelong learning; Distributed optimization; Transfer learning;
ترجمه چکیده
یادگیری تقویت طول عمر یک چارچوب موفق برای عاملان برای یادگیری چندین وظیفه متوالی را به صورت متوالی فراهم می کند. با این حال، روش های فعلی، از مسائل مقیاس پذیری رنج می برند، هنگامی که عامل باید تعداد زیادی از وظایف را حل کند. در این مقاله، نقاط ضعف بالا را رفع می کنیم و یک تکنیک مقیاس پذیر جدید برای یادگیری تقویت مادام العمر ارائه می دهیم. ما یک الگوریتم را به دست می آوریم که در دسترس بودن واحدهای پردازش چندگانه قرار می گیرد و مخازن مشترک و سکوهای محلی را با استفاده از تنها تبادل اطلاعات محلی محاسبه می کند. ما پس از آن نشان می دهد بهبود برای رسیدن به یک میزان همگرا خطی در مقایسه با روش های جستجوی سیاست های فعلی در حال حاضر. در نهایت، تکنیک ما را در مجموعه ای از سیستم های دینامیکی معیار ارزیابی می کنیم و نشان می دهد سرعت یادگیری و کاهش زمان اجرا.
پیش نمایش مقاله
پیش نمایش مقاله  یادگیری تقویت مادام العمر قابل ملاحظه

چکیده انگلیسی

Lifelong reinforcement learning provides a successful framework for agents to learn multiple consecutive tasks sequentially. Current methods, however, suffer from scalability issues when the agent has to solve a large number of tasks. In this paper, we remedy the above drawbacks and propose a novel scalable technique for lifelong reinforcement learning. We derive an algorithm which assumes the availability of multiple processing units and computes shared repositories and local policies using only local information exchange. We then show an improvement to reach a linear convergence rate compared to current lifelong policy search methods. Finally, we evaluate our technique on a set of benchmark dynamical systems and demonstrate learning speed-ups and reduced running times.