VGGish模型在语音质检情绪识别中的高效应用

162 浏览量更新于2024-08-26 1 收藏 1.51MB PDF 举报

"基于卷积神经网络模型的情绪识别技术在语音质检中的应用，通过预训练的VGGish模型，提高了95598客服中心语音质检的准确性和效率。" 本文探讨了传统语音服务质检的局限性，如人工抽检效率低下、准确性不高等问题，并提出了一种基于卷积神经网络（CNN）的情绪识别技术来解决这些问题。该技术采用三维论连续维度情绪划分，利用预训练的VGGish模型进行情绪识别。VGGish模型是一种专门用于音频特征学习的CNN模型，它可以从声音片段中提取有效的声学特征。在95598客服中心的实验中，应用该情绪识别技术后，语音质检的准确率达到了96.88%。这一成果显著优于传统的手动监听或语音转写方法，不仅降低了时间和人力成本，而且避免了人工质检时可能出现的主观因素影响。此外，由于该方法可以直接对原始语音进行处理，无需先进行语音转写，因此进一步提高了处理效率。情绪识别的关键在于准确地从语音信号中捕捉到说话者的情绪状态。在本研究中，使用三维论连续维度对情绪进行划分，这可能涉及到情绪的强度、极性和其他相关参数。通过CNN模型的学习和训练，系统可以理解和区分不同情绪状态，从而对客服对话的质量进行更精确的评估。卷积神经网络在处理图像和音频数据方面表现出色，因为它们能够自动学习和抽取多级特征。在语音质检场景中，CNN可以从声谱图中捕获声音的频谱和时间模式，这些模式与特定情绪紧密相关。预训练模型VGGish是在大量音频数据上训练得到的，因此具有很好的泛化能力，能够适应不同的语音环境和情绪表达。 95598客服中心通过应用这项技术，不仅可以提升服务质量，还可以优化坐席人员的培训，通过识别出的服务质量问题，针对性地进行改进，从而提高客户满意度并减少投诉。此外，情绪识别技术还可以为市场营销决策提供有价值的数据支持，帮助理解客户需求和反馈，促进产品和服务的持续优化。基于卷积神经网络的情绪识别技术在语音质检领域的应用，为提升95598客服中心的工作效率和客户服务水平开辟了新途径。未来，随着深度学习技术的不断发展，情绪识别的精度和应用范围有望进一步扩大，对提升整个客服行业的自动化和智能化水平具有重要意义。

电子设计工程

Electronic Design Engineering

第 29卷

Vol.29

第 5期

No.5

2021年 3月

Mar. 2021

收稿日期：2020-04-11 稿件编号：202004084

作者简介：武鹏（1970—），女，陕西兴平人，高级工程师。研究方向：电力营销、客户服务。

质检是 95598 客户服务中心一项关键的工作环

节，对于服务质量的把控、坐席技巧的改善、客户满

意度的提升和客户投诉的减少能够起到重要的作

用

[1]

。现阶段质检采用积累的海量用户电话服务语

音数据，通过智能语音识别、情绪侦测、话者分离、分

布式计算和大数据挖掘等技术，建立客户自动质检

的标准模板和规范，开展客户分群管理、坐席能力量

化、用户意图行为分析和市场营销决策依据等有人

工录音监听方式

[2]

或是智能语音转写方式

[3]

。人工录

音监听方法需要很高的时间成本与人力成本，且由

于其重复枯燥的特点，容易受质检员主观因素影响，

基于卷积神经网络模型的情绪识别技术在语音质检

中的应用

武鹏

，郭晓芸

，王海龙

，陈鹏

，王宗伟

，汪莉

（1. 国家电网有限公司客户服务中心，天津 300306；2. 北京中电普华信息技术有限公司，北京 100031）

摘要：传统语音服务质检工作存在人工抽检效率低、准确性较低、全面性较差、语音转写开销大等

问题，针对该问题，采用三维论连续维度情绪划分方式，提出了基于预训练卷积神经网络 VGGish 模

型的情绪识别技术，通过将该技术应用于 95598 客服中心质检工作，实验结果表明客服中心语音质

检准确率可达到 96.88%，该方法能够在未进行语音转写的情况下对情绪进行有效识别，且相较于

传统的人工抽检技术有更高的识别准确率和泛化能力，能有效提高 95598 客户服务水平。

关键词：情绪识别；卷积神经网络；语音质检；95598 客服中心

中图分类号：TN912 文献标识码：A 文章编号：1674-6236（2021）05-0164-05

DOI：10.14022/j.issn1674-6236.2021.05.034

Emotion recognition technique based on convolutional neural network model

application in voice quality inspection

WU Peng

，GUO Xiaoyun

，WANG Hailong

，CHEN Peng

，WANG Zongwei

，WANG Li

（1. State Grid Customer Service Center Co.，Ltd.，Tianjin 300306，China；2. Beijing China Power

Information Technology Co.，Ltd.，Beijing 100031，China）

Abstract: The traditional voice service quality inspection work has low manual sampling efficiency，low

accuracy，poor comprehensiveness，and large voice transcription overhead. To solve this problem，a three⁃

dimensional theory of continuous dimension sentiment division is adopted，and a pre⁃trained convolutional

neural network is proposed. The emotion recognition technology of the VGGish model is applied to the

quality inspection work of the 95598 customer service center. The experimental results show that the

accuracy rate of the voice quality inspection of the customer service center can reach 96.88%. This method

can perform emotion recognition without voice transcription. Effective identification，and compared with

traditional manual sampling technology，it has higher identification accuracy and generalization ability，

which can effectively improve 95598 customer service level.

Keywords: emotion recognition；convolutional neural network；voice quality inspection；95598 customer

service center

--164

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38738528

粉丝: 5

VGGish模型在语音质检情绪识别中的高效应用

呼叫中心语音情绪识别技术及其应用

基于Xilinx FIFO IP核的客服语音情绪检测流程研究

双概率神经网络在纹理图像识别中的应用

基于卷积神经网络的图像识别技术解析

深度学习与卷积神经网络：图像识别与分类

理解卷积神经网络（CNN）在图像处理中的应用

卷积神经网络中的图像分割与实例分割技术

掌握神经网络架构：卷积神经网络简介

深度学习基础：神经网络与卷积神经网络

YOLOv7中的卷积神经网络（CNN）解析

最新资源