ترجمه فارسی عنوان مقاله
برآورد پاداش برای بهینه سازی سیاست گفتمان
عنوان انگلیسی
Reward estimation for dialogue policy optimisation
کد مقاله | سال انتشار | تعداد صفحات مقاله انگلیسی |
---|---|---|
112650 | 2018 | 20 صفحه PDF |
منبع
Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)
Journal : Computer Speech & Language, Volume 51, September 2018, Pages 24-43
ترجمه کلمات کلیدی
سیستم های گفتگو، تقویت یادگیری، یادگیری عمیق، برآورد پاداش، روند گاوسی، یادگیری فعال،
کلمات کلیدی انگلیسی
Dialogue systems; Reinforcement learning; Deep learning; Reward estimation; Gaussian process; Active learning;