没有合适的资源?快使用搜索试试~ 我知道了~
首页使用GMMs进行语音性别检测
资源详情
资源推荐
![](https://csdnimg.cn/release/download_crawler_static/11049996/bg1.jpg)
使用 GMMs 进行语音性别检测--你的第一个语音识别小例子
翻译
原文地址:
!
从一个演讲语音样本中可以提取很多信息,例如,说话者是谁,说话者的性别是什么,
说话者说的是什么语言,说话者用什么情绪说了这个句子,说话者的人数等等。在机器学
习语音分析领域,性别检测可能是最基本的任务。这篇博客文章致力于用 " 实现从
语音中检测性别,从而进军语音处理领域。
数据集:(原始的要翻墙下载,下面的是 的下载链接)
第一部分:##$%&'(&(%(
第二部分:##$%&'(&(
训练语音集:是由 ) * 上的视频加工而来的,说话者是 ' 名不同的男性和 ' 名不
同的女性+ 分钟人,
测试语音集: 是从谷歌于 年发布的大型手工标注语料库“- ./中提取。该
子集由 ''& 个女性和 ' 个男性语音组成。所有音频文件的持续时间为 秒,采样
频率为 赫兹。(男女声音分开的,但是什么语言都有,什么国家的人都有,安
静的环境和嘈杂的环境也有,单人说话和多人说话的场景都有,什么年龄段都有,声
音大的也有,声音小的也有。)
我们将简单介绍一下如何处理语音信号。从训练数据中的语音信号中提取一种流行的
语音特征:0 倒谱系数+0122,。它们被认为是包含了性别信息的+以及其他信息,。这
两种性别模型是使用另一种著名的机器学习技术——高斯混合模型+00,建立的。00
算法把训练样本的 3 作为输入,并学习它们代表性别的分布情况。现在,当要检测一
个新的语音样本的性别时,首先提取样本的 0122,然后使用训练好的 00 模型计算两
个模型(男,女)的特征得分。将得分最大的模型预测为测试语音的性别。在概述了该方
法之后,本文的组织结构如下
使用语音分帧技术
提取 0122 特征
% 使用 00 训练性别模型
在测试集上评估模型
让我们开始吧!
一、使用语音分帧技术
语音信号就是一串表示说话人说话幅度的数字。在处理语音信号时,我们需要理
解
三个核心概念
、帧:由于语音是一种非平稳信号,其频率内容随时间不断变化。为了对信号
进行任何类型的分析,例如了解其短时间间隔内的频率内容 +称为信号的短期
傅里叶变换,,我们需要能够将其视为一个平稳信号。为了达到这种平稳性,
我们将语音信号分成 到 % 毫秒的短帧,因为我们的声道形状可以假设在
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![application/msword](https://img-home.csdnimg.cn/images/20210720083327.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![application/pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)