ترجمه فارسی عنوان مقاله
جستجوی سیاست چند منظوره مبتنی بر مانیفولد با استفاده مجدد از نمونه
عنوان انگلیسی
Manifold-based multi-objective policy search with sample reuse
کد مقاله | سال انتشار | تعداد صفحات مقاله انگلیسی | ترجمه فارسی |
---|---|---|---|
156979 | 2017 | 12 صفحه PDF | سفارش دهید |
دانلود فوری مقاله + سفارش ترجمه
نسخه انگلیسی مقاله همین الان قابل دانلود است.
هزینه ترجمه مقاله بر اساس تعداد کلمات مقاله انگلیسی محاسبه می شود.
این مقاله تقریباً شامل 10974 کلمه می باشد.
هزینه ترجمه مقاله توسط مترجمان با تجربه، طبق جدول زیر محاسبه می شود:
شرح | تعرفه ترجمه | زمان تحویل | جمع هزینه |
---|---|---|---|
ترجمه تخصصی - سرعت عادی | هر کلمه 55 تومان | 18 روز بعد از پرداخت | 603,570 تومان |
ترجمه تخصصی - سرعت فوری | هر کلمه 110 تومان | 9 روز بعد از پرداخت | 1,207,140 تومان |
پس از پرداخت، فوراً می توانید مقاله را دانلود فرمایید.
تولید محتوا برای سایت شما
پایگاه ISIArticles آمادگی دارد با همکاری مجموعه «شهر محتوا» با بهره گیری از منابع معتبر علمی، برای کتاب، سایت، وبلاگ، نشریه و سایر رسانه های شما، به زبان فارسی «تولید محتوا» نماید.
- تولید محتوا با مقالات ISI برای سایت یا وبلاگ شما
- تولید محتوا با مقالات ISI برای کتاب شما
- تولید محتوا با مقالات ISI برای نشریه یا رسانه شما
- و...
پیشنهاد می کنیم کیفیت محتوای سایت خود را با استفاده از منابع علمی، افزایش دهید.
منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)
Journal : Neurocomputing, Volume 263, 8 November 2017, Pages 3-14
ترجمه کلمات کلیدی
چند هدفه، تقویت یادگیری، جستجوی سیاست بهینه سازی جعبه سیاه، نمونه گیری اهمیت،
کلمات کلیدی انگلیسی
Multi-objective; Reinforcement learning; Policy search; Black-box optimization; Importance sampling;
ترجمه چکیده
بسیاری از برنامه های دنیای واقعی با اهداف متعدد متضاد مشخص می شوند. در چنین شرایطی، بهینه سازی جایگزین بهینه سازی پارتو می شود و هدف این است که مرز پارتو را پیدا کند، مجموعه ای از راه حل هایی که سازش های مختلف را در میان اهداف نشان می دهد. با وجود پیشرفت های اخیر در بهینه سازی چند هدفه، دستیابی به نمای دقیق مرز پارتو هنوز یک چالش مهم است. با تکیه بر پیشرفت های اخیر در یادگیری تقویت و جستجوی سیاست چند هدفه، ما دو الگوریتم جدید مبتنی بر چند منظوره برای حل چند منظوره تصمیم گیری مارکوف ارائه می دهیم. این الگوریتم ها استراتژی های اکتشافی اپیزودیک و نمونه گیری اهمیت را به طور موثر در یک فضای پارامترهای سیاست ایفا می کنند به طوری که تصویر آن در فضای هدف دقیقا مرز پارتو را تقریبا تقریبا نزدیک می کند. ما نشان می دهیم که رویکردهای مبتنی بر اپیزود و نمونه گیری اهمیت می تواند منجر به نتایج قابل توجهی در زمینه یادگیری تقویت چند منظوره شود. بر اساس سه مسئله چند هدفه، الگوریتم های ما از روش های پیشرفته تر هر دو از لحاظ کیفیت مرز پارتو و بازده نمونه استفاده می کنند.