基于深度神经网络的印度语言识别系统优化与实验比较

68 浏览量更新于2024-06-17 收藏 1.52MB PDF 举报

本文主要探讨了基于深度神经网络的印度语言识别系统的研究，特别是针对沙特国王大学学报发表的一项创新工作。该研究提出了一种名为TS-LID（Two-Stage Indian Language Identification）的系统，它采用了两个关键模块：音调/非音调预分类器和个人语言识别模块。研究的核心在于评估平均希尔伯特包络系数（MHEC）和梅尔倒谱系数（MFCC）在TS-LID框架下的效能，以及它们与声门闭合时刻（GCI）相结合的策略，以及块处理（BP）方法。在预分类阶段，研究者使用GCI作为基础，利用深度神经网络（DNN）对音节级别的特征进行建模，结果显示在NITSilchar语言数据库（NITS-LD）上的测试数据中，30秒、10秒和3秒的最高准确率分别为90.6%、85%和81.3%。相比于BP方法，基于GCI的方法表现更为出色，分别提高了7.5%、6.2%和5.7%的准确率。预分类模块的引入显著提升了LID系统的性能，对于OGI-多语种数据库（OGI-MLTS），相应的提升分别为7.4%、6.8%和5%。此外，研究特别关注了不同类型的分析单位，比如整个话语和音节，这显示了音节级别的特征分析在印度语言识别中的重要性。通过实验比较，研究者证实了在区分印度多种语言时，基于GCI和DNN的预分类策略具有较高的识别精度和实用性。文章的创新之处在于它结合了先进的深度学习技术与语言学特征，旨在提高印度语言识别的准确性和效率。这项研究不仅对语音信号处理领域的理论有所贡献，也为实际应用中的多语言服务，如语音识别和安全系统提供了有价值的技术支持。值得注意的是，本文是开放访问，并遵循Creative Commons BY-NC-ND许可协议，允许在特定条件下分享和再利用。

1442

C. China Bhanja et al.

沙特国王大学学报

图

一、（

）条件

（

）条件

（

）（

）条件

（

）的

TS-LID

系统框图

图二

使用音节级特征开发的预分类系统的框图表示。

并且在整个系统中保持相同的音节定义。使用元音起始点（VOP）获得

音节（Prasanna等人，2009年，作为终点。

这里，

GCI

（

Naylor

等人，

2007

）位于自发语音中，然后映射到

每个音节内的

GCI

，如图

所示。之后，以两个连续

GCI

作为边界的

基音周期，对应于声门脉冲被认为是

PSA

方法的分析框架。在基于

GCR

的方法的情况下，

30%

的时期长度（

Rao

，

2010; Rao

和

Yegnanarayana，2006）被认为是计算光谱信息的分析框架。图3

（a）（Dias，2012）中示出了基音周期的四个阶段，并且图3（b）中

描绘了基于PSA和GCR的方法的框架。在基于PSA和基于GCR的方法

中，通过考虑音节内语音的全历元长度来获得韵律特征。

得到每个音节对应的音高和能量轮廓，然后用

阶中值滤波器进行

平滑，

图3. (a)四个相位的声门脉冲，（b）30%的音高周期考虑GCI作为锚点。（D表示一个基音周期）。

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

基于深度神经网络的印度语言识别系统优化与实验比较

基于神经网络的语音识别研究

基于神经网络的文字识别系统

基于神经网络的智能语音识别研究

is21ss_challenge_indic_asr_baseline_recipe：针对资源匮乏的印度语言的多语言和代码转换ASR挑战-Interspeech 2021特别会议

ANN-for-Assame.rar_人工智能/神经网络/深度学习_PDF_

OCR:光学字符识别-matlab开发

OpenCV实现印度手语识别技术详解

机器学习助力虚假新闻识别：一项当代研究

【语音识别新突破】：迁移学习超越传统方法

matplotlib-3.6.3-cp39-cp39-linux_armv7l.whl

最新资源