MFC语音识别实现与SDK使用详解

4星 · 超过85%的资源需积分: 10 25 浏览量更新于2024-09-11 收藏 9KB TXT 举报

"MFC语音识别总结，包括对MFC应用中使用微软的SpeechSDK5.1进行语音识别的步骤和关键代码的介绍，强调了COM初始化、语音识别器的创建以及音频输入设置等核心概念。" 在MFC中实现语音识别主要依赖于微软的Speech SDK，这个SDK提供了一系列接口和类用于语音识别和语音合成。在这个总结中，开发者分享了关于如何在MFC项目中集成语音识别功能的关键点。首先，要启动COM（Component Object Model）环境，这是使用Speech SDK的基础。在程序启动时，需要调用`CoInitializeEx`函数，并传入`COINIT_APARTMENTTHREADED`参数，以确保线程安全。接着，为了正确编译和链接项目，需要在项目的预处理器定义中添加相应的宏，例如`_WIN32_DCOM`，这使得项目能够与COM对象交互。同时，可能需要确保库链接选项包含了与Speech SDK相关的库。在使用Speech SDK5.1时，有两个主要的识别模式：共享（Share）和进程内（InProc）。共享模式适用于多个应用程序共享同一个识别引擎的情况，而进程内模式则是在当前进程内创建识别引擎。通过`CoCreateInstance`函数可以创建这两种模式的识别器。对于音频输入的设置，通常需要获取默认的输入设备（token），可以通过`SpGetDefaultTokenFromCategoryId`函数来实现。然后，将这个token传递给识别器的`SetInput`方法，以指定音频输入源。此外，还需要创建一个`ISpAudio`对象，以便管理音频输入流。`SpCreateDefaultObjectFromCategoryId`函数可用于获取默认的音频输入对象，然后将其设置为识别引擎的输入，通过`ISpRecognizer::SetInput`方法完成。最后，创建`ISpRecoContext`对象，它是处理识别结果和上下文的关键组件。`ISpRecoContext`可以接收语音识别事件，处理识别后的文本结果。这个总结还涵盖了如何处理语音识别的一些基本操作，但对于完整的语音识别系统，还需要考虑错误处理、用户交互、命令词库的定制和优化等问题。实际开发时，可能还需要结合具体的业务需求和用户体验进行设计和调整。

微软语音识别分两种模式:文本识别模式和命令识别模式.此两种模式的主要区别,主要在于识别过程中使用的匹配字典不同.前者使用的是通用字典,特点是内容多,覆盖的词汇量大,字典由sdk提供.适用于没有预定目标的随机听写之类的应用.同时因为词汇量大直接导致识别的精度降低,识别速度较慢.后者的字典需要开发者自己编写,就是你们所说的xml文件.xml文件作为一种数据存储的方式,有一定的格式,定义了sdk需要确定的一些标签,和用以匹配的词汇.这种方式由开发者定义词汇的数量,大大降低匹配过程中需要检索的词汇量,提高了识别速度.同时因为侯选项极少,所以一般不会识别错误.其缺点也是明显的:词汇量小,只有预先输入字典的词汇可以被识别出来,所以一般用来作为常用命令的识别,方便用户操作,代替菜单命令等.

利用微软Speech SDK 5.1在MFC中进行语音识别开发时的主要步骤，以Speech API 5.1+VC6为例：

1、初始化COM端口
一般在CWinApp的子类中，调用CoInitializeEx函数进行COM初始化，代码如下：
::CoInitializeEx(NULL,COINIT_APARTMENTTHREADED); // 初始化COM
注意：调用这个函数时，要在工程设置（project settings）->C/C++标签,Category中选Preprocessor，在Preprocessor definitions:下的文本框中加上“,_WIN32_DCOM”。否则编译不能通过。

2、创建识别引擎
微软Speech SDK 5.1 支持两种模式的：共享（Share）和独享（InProc）。一般情况下可以使用共享型，大的服务型程序使用InProc。如下：
hr = m_cpRecognizer.CoCreateInstance(CLSID_SpSharedRecognizer);//Share
hr = m_cpRecognizer.CoCreateInstance(CLSID_SpInprocRecognizer);//InProc
如果是Share型，可直接进到步骤3；如果是InProc型，必须使用 ISpRecognizer::SetInput 设置语音输入。如下：
CComPtr<ISpObjectToken> cpAudioToken; //定义一个token
hr = SpGetDefaultTokenFromCategoryId(SPCAT_AUDIOIN, &cpAudioToken); //建立默认的音频输入对象
if (SUCCEEDED(hr)) { hr = m_cpRecognizer->SetInput(cpAudioToken, TRUE);}
或者：
CComPtr<ISpAudio> cpAudio; //定义一个音频对象
hr = SpCreateDefaultObjectFromCategoryId(SPCAT_AUDIOIN, &cpAudio);//建立默认的音频输入对象
hr = m_cpRecoEngine->SetInput(cpAudio, TRUE);//设置识别引擎输入源

3、创建识别上下文接口
调用 ISpRecognizer::CreateRecoContext 创建识别上下文接口（ISpRecoContext），如下：
hr = m_cpRecoEngine->CreateRecoContext( &m_cpRecoCtxt );

4、设置识别消息
调用 SetNotifyWindowMessage 告诉Windows哪个是我们的识别消息，需要进行处理。如下：
hr = m_cpRecoCtxt->SetNotifyWindowMessage(m_hWnd, WM_RECOEVENT, 0, 0);

剩余9页未读，继续阅读

alang512

粉丝: 23
资源: 47

MFC语音识别实现与SDK使用详解

MFC语音识别（简单入门级）

speech sdk语音识别程序mfc程序

语音信号端点检测(VC++6.0)

MFC语音识别源代码

MFC简单语音识别，聊天模拟器，利用SAPI

语音识别MFC+cb+matlab

利用微软Speech SDK 5.1在MFC中进行语音识别介绍

用matlab编的基于DTW和MFC算法的语音识别程序

使用微软Speech SDK 5.1在MFC中开发语音识别

mfc 麦克风语音识别源码

最新资源