移动端人声识别实践：TensorflowLite框架与优化策略

9 浏览量更新于2024-08-28 1 收藏 890KB PDF 举报

"基于TensorflowLite在移动端实现人声识别"这一主题涉及到的关键知识点包括： 1. 移动端人声识别：与传统的服务端人声识别相比，移动端实现可以减少网络延迟，提供更即时的反馈，同时减轻服务端的资源压力。在移动端进行人声识别，意味着所有的计算都在本地完成，这需要考虑到设备性能限制和功耗。 2. TensorflowLite框架：TensorflowLite是Google专门为移动和嵌入式设备设计的轻量级机器学习框架。它能够实现模型的高效运行，其小巧的体积（约300KB）和经过优化后的模型大小（原模型的1/4）使得它非常适合在资源有限的设备上运行。 3. 模型压缩：通过特定的压缩技术，Tensorflow模型可以被优化成适合在移动端运行的TensorflowLite模型，这不仅减小了模型的大小，还能够在一定程度上保持模型的准确性。 4. 音频特征提取：梅尔倒频谱算法（Mel Frequency Cepstral Coefficients, MFCC）是一种常见的音频特征提取方法，模拟人耳对声音的感知，将音频信号转化为可用于机器学习的特征向量。 5. 客户端优化策略： - 指令集加速：通过利用ARM指令集进行优化，可以提升计算效率。 - 多线程加速：通过并发处理，将耗时的计算任务分解，提高执行速度。 - 模型加速：选择支持NEON指令集的模型，预加载模型以减少启动时间。 - 算法优化：包括降低音频采样率、选择人声频段、合理分窗和切片以及静音检测，减少无效计算，提高识别效率。 6. 人声识别流程： - 训练：涉及声音特征提取（MFCC）、样本分类（人声与非人声），以及模型训练，最终生成可用于预测的模型。 - 预测：实时采集音频，提取特征，加载训练好的模型进行预测，得出人声识别的结果。 7. TensorFlowLite的应用场景：TensorFlowLite不仅适用于移动设备，也适用于各种嵌入式系统，如智能家居、物联网设备等，它为这些平台提供了在本地运行机器学习模型的能力，从而实现低延迟和离线操作。实现移动端人声识别需要综合考虑模型的大小、性能优化、特征提取效率以及用户体验等多个因素，TensorflowLite作为工具，提供了在这些限制条件下实现高效人声识别的可能。

基于基于TensorflowLite在移动端实现人声识别在移动端实现人声识别

现有的人声识别绝大部分在服务端实现，这会带来如下两方面的问题：

1) 当网络较差的情况下会造成较大的延时，带来较差的用户体验。

2) 当访问量较大的情况下，会大量占用服务端资源。

为解决以上两个问题，我们选择在客户端上实现人声识别功能。本文使用机器学习的方法识别人声。采用的框架是谷歌的

tensorflowLite框架，该框架跟它的名字一样具有小巧的特点。在保证精度的同时，框架的大小只有300KB左右，且经过压缩

后产生的模型是tensorflow模型的四分之一。因此，tensorflowLite框架比较适合在客户端上使用。

为了提高人声的识别率，需要提取音频特征作为机器学习框架的输入样本。本文使用的特征提取算法是基于人耳听觉机理的梅

尔倒频谱算法。

由于在客户端上使用人声识别比较耗时，在工程上需要做很多优化，优化方面如下：

指令集加速：引入arm指令集，做多指令集优化，加速运算。

多线程加速：对于耗时的运算采用多线程并发处理。

模型加速：选用支持NEON优化的模型，并预加载模型减少预处理时间。

算法加速：I) 降低音频采样率。II) 选取人声频段(20hz~20khz)，剔除非人声频段。III) 合理分窗和切片，防止过度计算。IV) 静

音检测，减少不必要的时间片段。

1.概述

1.1 人声识别流程

人声识别分为训练和预测两个部分。训练指的是生成预测模型，预测是利用模型产生预测结果。

首先介绍下训练的过程，分为以下三个部分：

基于梅尔倒频谱算法，提取声音特征，并将其转换成频谱图片。

将人声频谱作为正样本，动物声音和杂音等非人声作为负样本，交由神经网络模型训练。

基于训练产生的文件，生成端上可运行的预测模型。

简而言之，人声识别训练的流程分为三个部分，提取声音特征，模型训练和生成端上模型。最后，是人声识别的部分：先提取

声音特征，然后加载训练模型即可获得预测结果。

1.2 人工智能框架

2017年11月，谷歌曾在 I/O 大会上宣布推出 TensorFlow Lite，这是一款 TensorFlow 用于移动设备和嵌入式设备的轻量级解

决方案。可以在多个平台上运行，从机架式服务器到小型 IoT 设备。但是随着近年来机器学习模型的广泛使用，出现了在移动

和嵌入式设备上部署它们的需求。而 TensorFlow Lite 允许设备端的机器学习模型的低延迟推断。

本文基于的tensorflowLite是谷歌研发的人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数

组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂

的数据结构传输至人工智能神经网中进行分析和处理过程的系统。

下图展示了tensorflowLite的架构设计：

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38743076

粉丝: 7
资源: 925

移动端人声识别实践：TensorflowLite框架与优化策略

VoiceprintRecognition-Tensorflow:使用Tensorflow实现声纹识别，博客地址：

Python-用TensorFlow实现的端到端自动语音识别系统

tensorflow语音识别完整代码

基于tensorflowlite在移动端实现人声识别

matlab人声识别的代码

给我推荐比较流行的C++版本的人声分离模型

基于PyTorch人声语音识别

matlab实现人声分离

基于循环神经网络的人声分离代码

Android 语音识别人声

最新资源