Главная | Публикации | Применение многозадачного глубокого обучения в задаче распознавания эмоций в речи

Применение многозадачного глубокого обучения в задаче распознавания эмоций в речи

Авторы

Рябинов А.В., Уздяев М.Ю., Ватаманюк И.В.
Известия Юго-Западного государственного университета. 2021. Т. 25. № 1.

Краткое описание

Эмоции играют одну из ключевых ролей в регуляции поведения человека. Решение задачи автоматического распознавания эмоций позволяет повысить эффективность функционирования целого ряда цифровых систем: систем обеспечения безопасности, человеко-машинных интерфейсов, систем электронной коммерции и т.д. При этом отмечается низкая эффективность современных подходов распознавания эмоций в речи. Данная работа посвящена исследованию автоматического распознавания эмоций в речи с помощью методов машинного обучения. Методы. В статье описан и протестирован подход к автоматическому распознаванию эмоций в речи на основе многозадачного обучения глубоких сверточных нейронных сетей архитектур AlexNet и VGG с применением автоматического подбора коэффициентов весов каждой задачи при вычислении итогового значения потери в процессе обучения. Все модели были обучены на выборке набора данных IEMOCAP с четырьмя эмоциональными категориями «гнев», «счастье», «нейтральная эмоция», «грусть». В качестве входных данных используются обработанные специализированным алгоритмом лог-мел спектрограммы высказываний. Результаты. Рассмотренные модели были протестированы на основе численных метрик: доля верно распознанных экземпляров, точность, полнота, f-мера. По всем вышеперечисленным метрикам получено улучшение качества распознавания эмоций предлагаемой моделью по сравнению с двумя базовыми однозадачными моделями, а также с известными решениями. Это достигается благодаря применению автоматического взвешивания значений функций потерь от отдельных задач при формировании итогового значения ошибки в процессе обучения. Заключение. Полученное улучшение качества распознавания эмоций по сравнению с известными решениями подтверждает целесообразность применения концепции многозадачного обучения для увеличения точности моделей распознавания эмоций. Разработанный подход позволяет достичь равномерного и одновременного снижения ошибок отдельных задач, и используется в области распознавания эмоций в речи впервые.»

Ключевые слова

Многозадачное обучение, сверточные нейронные сети, речевые технологии, автоматическое распознавание эмоций, анализ аудиосигналов речи

Рябинов А.В., Уздяев М.Ю., Ватаманюк И.В. Применение многозадачного глубокого обучения в задаче распознавания эмоций в речи // Известия Юго-Западного государственного университета. 2021. Т. 25. № 1. C. 82-109. DOI: 10.21869/2223-1560-2021-25-1-82-109.