DNN-HMM方法实现多媒体网络语音模糊音调精确识别

160 浏览量更新于2024-08-29 1 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"王建永等人提出了一种基于DNN-HMM理论的多媒体网络语音模糊音调数据准确识别方法，旨在有效建立网络输入语音特征序列与输出音素间的良性映射关系。他们利用多媒体网络阵列的拓扑结构来满足模糊语音音调特征提取的需求，并对音调数据进行解码操作，为识别做准备。接着，设计了DNN-HMM识别框架，通过估计DNN-HMM空间权重来构建数据识别决策树，最终实现了新型识别方法的构建。实验结果显示，这种方法提高了输入语音数据的处理能力和输出音素的识别效率。" 该文主要探讨的是多媒体网络中的语音识别技术，特别是针对模糊音调数据的准确识别。在语音识别领域，根据不同的识别目标，可以将识别分为孤立词识别、关键词识别和连续语音识别。传统的识别方法常常依赖于隐马尔科夫模型(HMM)。然而，王建永等人提出的方法基于深度神经网络(DNN)与HMM的结合，即DNN-HMM理论，这是一种更为先进的识别策略。在他们的方法中，首先利用多媒体网络的拓扑结构，这有助于获取更丰富的语音特征，尤其对于模糊音调的特征提取非常有效。然后，对提取的音调数据进行解码操作，这是识别过程的重要一环，为后续的音素识别做好准备。接下来，他们设计了一个完整的DNN-HMM识别框架，通过估计DNN模型中各层之间的空间权重，可以优化决策树结构，从而实现更精确的数据识别。实验结果证明，采用这种新型识别方法后，输入语音数据的处理能力显著增强，循环单元的最大值达到了7.0×1011T，同时输出音素的堆叠层数减少，这意味着在保持识别精度的同时，减少了计算复杂度，有效地建立了输入语音特征序列与输出音素之间的良性映射关系。这种方法的应用不仅提升了语音识别的准确性，而且对于处理大规模、模糊的网络语音数据具有很高的实用性，特别是在多媒体网络环境中，能够提高语音交互的效率和用户体验。这为未来智能语音系统的设计和优化提供了新的思路和可能。

资源详情

资源推荐

电子设计工程

Electronic Design Engineering

第 27卷

Vol.27

第 21期

No.21

2019年 11月

Nov. 2019

收稿日期：2019-03-11 稿件编号：201903081

基金项目：广东省科技厅基金项目（GDKJQQ20153013）

作者简介：王建永（1980—），男，山西朔州人，硕士，高级工程师。研究方向：电力信息系统需求分析、软件开发。

根据识别对象的不同，可将语音识别分为孤立

词识别、关键词识别、连续语音识别 3 个基本类型

[1- 2]

。

其中，孤立词识别以识别已知或已出现过的孤立的

词语作为目标；但关键词识别不可单独存在，只能在

连续语音中检测若干词语，但并不能实现全部文字

信息的识别操作。

在过去很长的一段时间里，我国相关研究领域

利用隐马尔科夫模型对多媒体网络中存在的语音数

据进行定点识别，并在 SRILM 模型和 n-gram 模型的

多媒体网络语音模糊音调数据准确识别方法

王建永，廖丹，郭威，唐乐

（广东电网有限责任公司信息中心广东广州 510000）

摘要：为有效建立网络输入语音特征序列与输出音素间的良性映射关系，提出一种基于 DNN-

HMM 理论的多媒体网络语音模糊音调数据准确识别方法。利用多媒体网络阵列的拓扑结构，满足

模糊语音音调的特征提取要求，并对音调数据进行解码操作，完成多媒体网络语音模糊音调数据

的识别准备。在此基础上，设计完整的 DNN-HMM 识别框架，并通过估计语音模糊音调数据 DNN-

HMM 空间权重的方式，实现数据识别决策树绑定操作，完成新型多媒体网络语音模糊音调数据准

确识别方法的搭建。设计对比实验结果表明，与传统识别方法相比，应用新型准确识别方法后，输

入语音数据循环单元最大值超过 7.0×1011T、输出音素堆叠层数不断减小，达到建立输入语音特征

序列与输出音素间良性映射关系的目的。

关键词：多媒体网络；语音音调；数据识别；拓扑结构；数据解码；DNN-HMM理论；空间权重；决策树

中图分类号：TN912 文献标识码：A 文章编号：1674-6236（2019）21-0050-04

Accurate recognition of fuzzy tone data in multimedia network speech

WANG Jian⁃yong，LIAO Dan，GUO Wei，TANG Le

（Information center of Guangdong Power Grid Co.，Ltd.，Guangzhou 510000，China）

Abstract: In order to effectively establish the benign mapping relationship between the input speech

feature sequence and the output phoneme，a method for accurate recognition of the fuzzy tone data of

multimedia network speech based on DNN- HMM theory is proposed. The topological structure of

multimedia network array is used to meet the requirement of feature extraction of blurred tone，and the

decoding operation of tone data is carried out to complete the preparation of recognition of blurred tone

data of multimedia network voice. On this basis，a complete DNN- HMM recognition framework is

designed. By estimating the spatial weight of speech blurred tone data DNN-HMM，the data recognition

decision tree binding operation is realized，and a new method for accurate recognition of speech blurred

tone data in multimedia network is built. The experimental results show that，compared with the

traditional recognition methods，the maximum value of input voice data cycle unit exceeds 7.0 *1011T

and the stack number of output phonemes decreases continuously after the application of the new

accurate recognition method，which achieves the purpose of establishing a benign mapping relationship

between input voice feature sequence and output phonemes.

Key words: multimedia network；voice tone；data recognition；topological structure；data decoding；

DNN-HMM theory；spatial weight；decision tree

-- 50

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38698860

粉丝: 5
资源: 912

DNN-HMM方法实现多媒体网络语音模糊音调精确识别

BP神经网络语音识别代码_神经网络_BP神经网络语音识别代码_matlab语音_语音识别matlab

语音识别多媒体朗读语音

基于神经网络的印度语言识别系统研究及实验

"印尼语说话人识别：数据增强深度神经网络模型研究

语音识别数据预处理全攻略：深度学习中的增强方法

"印尼语说话人识别基于数据增强深度神经网络的研究

【提升准确性】：选择最优语言模型，提高语音识别率

语音识别训练数据集如何部署

搭建一个深度学习神经网络，可以识别音乐的音调do rei mi fa so，并记录，数据集可以弄互联网提取

如何把每个音调的数据单独的保存成一个文件，并让MATLAB对这些文件进行批处理

mind+语音识别模块

训练一个神经网络，用于识别音乐中的音调，输入wav文件，可以识别音乐，将音乐的do rei mi fa so la xi记录,采样间隔为0.5秒，将时间和记录的音调保存到一个excel中

现有很多个音调数据，如何把每个音调的数据单独的保存成一个文件，并让MATLAB对这些文件进行批处理

ai语音模型高质量数据集资源

am-fm模型合成语音数据

基于matlab的语音情感识别

原生开发语音转文字模块的100个功能详解介绍

说话人识别技术与语音年龄性别识别技术的相似性

web speech实现将一段语音文件,识别为文字

最新资源