دانلود مقاله ISI انگلیسی شماره 154308
ترجمه فارسی عنوان مقاله

سنتز گفتاری صوتی تصویری واقع گرایانه برای ویدیو یونانی

عنوان انگلیسی
Video-realistic expressive audio-visual speech synthesis for the Greek language
کد مقاله سال انتشار تعداد صفحات مقاله انگلیسی ترجمه فارسی
154308 2017 20 صفحه PDF سفارش دهید
دانلود فوری مقاله + سفارش ترجمه

نسخه انگلیسی مقاله همین الان قابل دانلود است.

هزینه ترجمه مقاله بر اساس تعداد کلمات مقاله انگلیسی محاسبه می شود.

این مقاله تقریباً شامل 12516 کلمه می باشد.

هزینه ترجمه مقاله توسط مترجمان با تجربه، طبق جدول زیر محاسبه می شود:

شرح تعرفه ترجمه زمان تحویل جمع هزینه
ترجمه تخصصی - سرعت عادی هر کلمه 90 تومان 20 روز بعد از پرداخت 1,126,440 تومان
ترجمه تخصصی - سرعت فوری هر کلمه 180 تومان 10 روز بعد از پرداخت 2,252,880 تومان
پس از پرداخت، فوراً می توانید مقاله را دانلود فرمایید.
منبع

Publisher : Elsevier - Science Direct (الزویر - ساینس دایرکت)

Journal : Speech Communication, Volume 95, December 2017, Pages 137-152

ترجمه کلمات کلیدی
سنتز گفتار صوتی و تصویری، رسا، مدل های مخفی مارکوف، شبکه های عمیق عصبی، تعامل، انطباق،
کلمات کلیدی انگلیسی
Audio-visual speech synthesis; Expressive; Hidden Markov models; Deep neural networks; Interpolation; Adaptation;
پیش نمایش مقاله
پیش نمایش مقاله  سنتز گفتاری صوتی تصویری واقع گرایانه برای ویدیو یونانی

چکیده انگلیسی

High quality expressive speech synthesis has been a long-standing goal towards natural human-computer interaction. Generating a talking head which is both realistic and expressive appears to be a considerable challenge, due to both the high complexity in the acoustic and visual streams and the large non-discrete number of emotional states we would like the talking head to be able to express. In order to cover all the desired emotions, a significant amount of data is required, which poses an additional time-consuming data collection challenge. In this paper we attempt to address the aforementioned problems in an audio-visual context. Towards this goal, we propose two deep neural network (DNN) architectures for Video-realistic Expressive Audio-Visual Text-To-Speech synthesis (EAVTTS) and evaluate them by comparing them directly both to traditional hidden Markov model (HMM) based EAVTTS, as well as a concatenative unit selection EAVTTS approach, both on the realism and the expressiveness of the generated talking head. Next, we investigate adaptation and interpolation techniques to address the problem of covering the large emotional space. We use HMM interpolation in order to generate different levels of intensity for an emotion, as well as investigate whether it is possible to generate speech with intermediate speaking styles between two emotions. In addition, we employ HMM adaptation to adapt an HMM-based system to another emotion using only a limited amount of adaptation data from the target emotion. We performed an extensive experimental evaluation on a medium sized audio-visual corpus covering three emotions, namely anger, sadness and happiness, as well as neutral reading style. Our results show that DNN-based models outperform HMMs and unit selection on both the realism and expressiveness of the generated talking heads, while in terms of adaptation we can successfully adapt an audio-visual HMM set trained on a neutral speaking style database to a target emotion. Finally, we show that HMM interpolation can indeed generate different levels of intensity for EAVTTS by interpolating an emotion with the neutral reading style, as well as in some cases, generate audio-visual speech with intermediate expressions between two emotions.

دانلود فوری مقاله + سفارش ترجمه

نسخه انگلیسی مقاله همین الان قابل دانلود است.

هزینه ترجمه مقاله بر اساس تعداد کلمات مقاله انگلیسی محاسبه می شود.

این مقاله شامل 12516 کلمه می باشد.

هزینه ترجمه مقاله توسط مترجمان با تجربه، طبق جدول زیر محاسبه می شود:

شرح تعرفه ترجمه زمان تحویل جمع هزینه
ترجمه تخصصی - سرعت عادی هر کلمه 90 تومان 20 روز بعد از پرداخت 1,126,440 تومان
ترجمه تخصصی - سرعت فوری هر کلمه 180 تومان 10 روز بعد از پرداخت 2,252,880 تومان
پس از پرداخت، فوراً می توانید مقاله را دانلود فرمایید.