使用GMMs进行语音性别检测 - CSDN文库

需积分: 50 182 浏览量更新于2023-03-16 5 收藏 1.46MB DOCX 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源推荐

使用 GMMs 进行语音性别检测--你的第一个语音识别小例子

翻译 

原文地址：



!

从一个演讲语音样本中可以提取很多信息，例如，说话者是谁，说话者的性别是什么，

说话者说的是什么语言，说话者用什么情绪说了这个句子，说话者的人数等等。在机器学

习语音分析领域，性别检测可能是最基本的任务。这篇博客文章致力于用 " 实现从

语音中检测性别，从而进军语音处理领域。

数据集：（原始的要翻墙下载，下面的是  的下载链接）

第一部分：##$%&'(&(%(

第二部分：##$%&'(&(

 训练语音集：是由 ) *  上的视频加工而来的，说话者是 ' 名不同的男性和 ' 名不

同的女性+ 分钟人,

 测试语音集：是从谷歌于  年发布的大型手工标注语料库“- ./中提取。该

子集由 ''& 个女性和 ' 个男性语音组成。所有音频文件的持续时间为  秒，采样

频率为  赫兹。（男女声音分开的，但是什么语言都有，什么国家的人都有，安

静的环境和嘈杂的环境也有，单人说话和多人说话的场景都有，什么年龄段都有，声

音大的也有，声音小的也有。）

我们将简单介绍一下如何处理语音信号。从训练数据中的语音信号中提取一种流行的

语音特征：0 倒谱系数+0122,。它们被认为是包含了性别信息的+以及其他信息,。这

两种性别模型是使用另一种著名的机器学习技术——高斯混合模型+00,建立的。00

算法把训练样本的 3 作为输入，并学习它们代表性别的分布情况。现在，当要检测一

个新的语音样本的性别时，首先提取样本的 0122，然后使用训练好的 00 模型计算两

个模型（男，女）的特征得分。将得分最大的模型预测为测试语音的性别。在概述了该方

法之后，本文的组织结构如下

 使用语音分帧技术

 提取 0122 特征

% 使用 00 训练性别模型

 在测试集上评估模型

让我们开始吧！

一、使用语音分帧技术

语音信号就是一串表示说话人说话幅度的数字。在处理语音信号时，我们需要理

解

三个核心概念

、帧：由于语音是一种非平稳信号，其频率内容随时间不断变化。为了对信号

进行任何类型的分析，例如了解其短时间间隔内的频率内容 +称为信号的短期

傅里叶变换,，我们需要能够将其视为一个平稳信号。为了达到这种平稳性，

我们将语音信号分成  到 % 毫秒的短帧，因为我们的声道形状可以假设在

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余6页未读，立即下载

Grace_yanyanyan

粉丝: 177
资源: 18

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈