微软Windows Speech SDK编程初探：语音识别与合成

需积分: 10 144 浏览量更新于2024-09-25 1 收藏 20KB DOCX 举报

"微软Windows Speech SDK编程入门" 微软Windows Speech SDK是一个强大的工具，它为开发者提供了构建语音识别和语音合成功能的能力。这个SDK包含了丰富的组件和接口，使得开发者能够将语音技术集成到各种应用程序中，无论是桌面应用还是网页、VBA或者Excel图表。一、SAPI（The Microsoft Speech API）概述 SAPI是微软提供的语音应用编程接口，它包含了处理语音识别和语音合成所需的各种组件。通过SAPI，开发者可以创建能够理解语音指令并做出响应的应用，或者将文本转化为自然语音输出。SAPI支持多种语言，如英文、中文和日文，使得跨语言的语音应用成为可能。 1. VoiceCommands API：这一组件用于语音识别，当识别到特定命令时，它会调用相应的接口执行对应的操作，使应用程序能够被语音控制。 2. VoiceDictation API：提供语音识别功能，主要用于听写输入，将用户的语音转化为文本。 3. VoiceText API：实现了语音合成，即将文字转换为语音输出。 4. VoiceTelephone API：结合语音识别和合成技术，适用于电话系统，可以创建电话自动应答系统，甚至通过电话远程控制计算机。 5. AudioObjects API：封装了声音处理功能，与计算机的音频系统交互。 SAPI基于COM（Component Object Model）架构，并提供了ActiveX控件，使得其可以广泛应用于不同的开发环境。对于不熟悉COM的开发者，微软还提供了C++ WRAPPERS，这是一个用C++类封装的SDK COM对象库，简化了使用过程。二、安装SAPI SDK 为了开始使用Windows Speech SDK，你需要从微软官方网站下载5.1版本的SDK。这个版本增加了Automation支持，使得VB、ECMAScript等支持Automation的语言也可以使用。SDK包含了英文和中文的TTS（Text-to-Speech，语音合成）引擎，以及英文、中文和日文的SR（Speech Recognition，语音识别）引擎。请注意，开发包中的示例程序需要VC6以上的编译环境才能运行。下载时，确保你的操作系统版本至少是Windows 98，并且根据需要选择相应的语言版本和文件大小。安装后，你可以通过SDK文档和示例程序学习如何使用SAPI进行开发。微软Windows Speech SDK为开发者提供了构建高级语音应用的平台，它不仅简化了语音技术的集成，还扩展了语音应用的可能性，涵盖了从基本的命令控制到复杂的电话交互等多种场景。通过深入理解和熟练使用SAPI，开发者可以创造出更加人性化、互动性强的软件产品。

微软 Windows Speech SDK 编程入门

2009-02-24 13:33

一、SAPI 简介

软件中的语音技术包括两方面的内容，一个是语音识别(speech recognition) 和

语音合成(speech synthesis)。这两个技术都需要语音引擎的支持。微软推出的

应用编程接口 API，虽然现在不是业界标准，但是应用比较广泛。

SAPI 全称 The Microsoft Speech API.相关的 SR 和 SS 引擎位于 Speech SDK 开发

包中。这个语音引擎支持多种语言的识别和朗读，包括英文、中文、日文等。

SAPI 包括以下组件对象（接口）：

（1）Voice Commands API。对应用程序进行控制，一般用于语音识别系统中。识

别某个命令后，会调用相关接口是应用程序完成对应的功能。如果程序想实现语

音控制，必须使用此组对象。

（2）Voice Dictation API。听写输入，即语音识别接口。

（3）Voice Text API。完成从文字到语音的转换，即语音合成。

（4）Voice Telephone API。语音识别和语音合成综合运用到电话系统之上，利

用此接口可以建立一个电话应答系统，甚至可以通过电话控制计算机。

（5）Audio Objects API。封装了计算机发音系统。

SAPI 是架构在 COM 基础上的，微软还提供了 ActiveX 控件，所以不仅可用于一般

的 windows 程序，还可以用于网页、VBA 甚至 EXCEL 的图表中。如果对 COM 感到

陌生，还可以使用微软的 C++ WRAPPERS，它用 C++类封装了语音 SDK COM 对象。

二、安装 SAPI SDK。

首先从这个站点下载开发包：

http://www.microsoft.com/speech/download/sdk51

Microsoft Speech SDK 5.1 添加了 Automation 支持。所以可以在 VB,ECMAScript

等支持 Automation 的语言中使用。

版本说明：

Version: 5.1

发布日期: 8/8/2001

语音: English

下载尺寸: 2.0 MB - 288.8 MB

这个 SDK 开发包还包括了可以随便发布的英文和中文的语音合成引擎(TTS)，和

英文、中文、日文的语音识别引擎(SR)。

系统要求 98 以上版本。编译开发包中的例子程序需要 vc6 以上环境。

下载后可阅读完整内容，剩余6页未读，立即下载

niexin1221

粉丝: 0
资源: 3

微软Windows Speech SDK编程初探：语音识别与合成

微软Windows_Speech_SDK编程入门

一个speech SDK编程的例子

微软TTS语音引擎编程入门

微软Windows Speech SDK编程初学者指南

微软Windows Speech SDK入门与组件详解

微软Windows Speech SDK入门教程：语音识别与合成

speech sdk入门&SAPI概述

Microsoft Speech SDK入门：实现语音识别与合成

Microsoft Speech SDK入门：COM基础与接口解析

微软TTS语音引擎编程入门.docx

最新资源