基于人类计算的语音语料库标注技术探索与实现

需积分: 9 171 浏览量更新于2024-08-11 收藏 752KB PDF 举报

"该资源是一篇发表于2009年的学术论文，主要探讨了一种利用人类计算技术进行语音语料库标注的方法及其在实际中的实现。通过建立基于Web的语言学习系统，论文作者提出让大量用户参与词汇和音标的标注工作，然后选择最常见的标注作为正确结果，以此降低标注成本并提高效率。同时，为了确保标注质量，论文还介绍了一些计算机辅助机制来验证标注的可靠性。此方法结合了语言学习和语料库标注，降低了对专业人员的依赖。文中详细阐述了语言学习系统的设计和标注生成系统的设计，并通过应用实践证明了该方法的有效性和低成本。关键词包括语音语料库标注、人类计算、分布式知识获取和基于Web的语言学习。" 本文研究的核心是利用人类计算技术来解决语音语料库的标注问题。传统的语音语料库标注通常需要专业的语言学家或语音专家进行，耗时且成本高昂。论文提出的创新方法是通过网络平台，利用大众的力量，尤其是语言学习者，来进行大规模的词汇和音标标注。这一过程类似于众包，可以理解为将复杂的任务分解成许多小任务，分发给网络上的众多参与者完成。首先，系统设计是关键。论文中提到的基于Web的语言学习系统不仅提供了用户学习语言的平台，还将其转变为一个数据收集工具。用户在学习过程中自然产生的标注数据被收集起来，作为语料库的一部分。通过统计用户提交的标注频率，系统能识别出最普遍的标注，这被认为是正确的标注结果。其次，为了保证标注质量，论文中提到了计算机辅助机制。这些机制可能包括一致性检查、专家审核或者利用机器学习算法来过滤错误或不一致的标注。这样的机制有助于提升标注的准确性和可靠性，减少由于非专业人士参与带来的潜在错误。此外，这种方法的一大优势在于它将语言学习与语料库标注相结合。学习者在学习的同时贡献了有价值的标注数据，而无需专门雇佣大量人员进行单调的标注工作。这不仅降低了语料库建设的成本，也增加了用户的参与度和积极性。最后，论文的实现部分可能会详细描述了系统架构、数据处理流程、标注验证算法以及实际应用效果的评估。通过实际应用，这种方法显示出了其在生成语音语料库的词汇标注和音标标注方面的效率和成本效益。这篇论文对人类计算在语音语料库标注领域的应用进行了深入探讨，为语言学研究和语音技术的发展提供了新的思路和工具。通过这种分布式、社区驱动的方式，我们可以更有效地构建大规模、高质量的语音语料库，这对于语音识别、自然语言处理和机器学习等领域具有重要意义。

第４卷第３期　　　　　　　　　　　

　　　智　能　系　统　学　报　　　　　　　　

　　　　　　Ｖｏｌ．４ №．３

２００９年６月　　　　　　　　　　　

ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ

　　　　　　　　　　　　　Ｊｕｎ．２００９

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３－４７８５．２００９．０３．０１３

利用人类计算技术的语音语料库

标注方法及其实现

沈映泉

１

，刘勇进

１

，蔡　骏

１，２

，史晓东

１

（１．厦门大学智能科学与技术系，福建厦门３６１００５；２．ＧｒｏｕｐｅＰａｒｏｌｅ，ＬＯＲＩＡ－ＣＮＲＳ＆ＩＮＲＩＡ，ＢＰ２３９，５４６００Ｖａｎ－

ｄｏｅｕｖｒｅ－ｌｅｓ－Ｎａｎｃｙ，Ｆｒａｎｃｅ）

摘　要：提出一种基于人类计算的语音语料库标注方法．该标注方法的主要思路是通过一个基于Ｗｅｂ的语言学习系

统来收集由大量学习者（用户）输入的词汇标注和音标标注，并从中选择出现概率最大的用户输入作为语料的正确

标注．为了保证通过这种人类计算方法获得的标注文本的质量，使用了一些计算机辅助机制来校验收集到的标注的

可靠性．采用这种方法实现语音语料库标注的主要优点在于将语料库标注和语言学习相结合，无需专门投入大量的

人力来进行枯燥乏味的语料库标注工作，从而节省了语料库标注的成本．对这种基于人类计算的语音语料库标注技

术进行了探讨，说明了用于收集用户输入的语言学习系统的设计以及标注生成系统的设计．系统的应用表明，该标

注方法能够有效、低成本地生成语音语料库的词汇标注和音标标注．

关键词：语音语料库标注；人类计算；分布式知识获取；基于Ｗｅｂ的语言学习

中图分类号：ＴＰ３９　文献标识码：Ａ　文章编号：１６７３－４７８５（２００９）０３－０２７０－０８

Ｍｅｔｈｏｄａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｔｒａｎｓｃｒｉｂｉｎｇｓｐｅｅｃｈｃｏｒｐｏｒａ

ｂａｓｅｄｏｎｈｕｍａｎ－ｃｏｍｐｕｔａｔｉｏｎ

ＳＨＥＮＹｉｎｇ－ｑｕａｎ

１

，ＬＩＵＹｏｎｇ－ｊｉｎ

１

，ＣＡＩＪｕｎ

１，２

，ＳＨＩＸｉａｏ－ｄｏｎｇ

１

（１．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｇｎｉｔｉｖｅＳｃｉｅｎｃｅ，ＸｉａｍｅｎＵｎｉｖｅｒｓｉｔｙ，Ｘｉａｍｅｎ３６１００５，Ｃｈｉｎａ；２．ＧｒｏｕｐｅＰａｒｏｌｅ，ＬＯＲＩＡ－ＣＮＲＳ＆ＩＮＲＩＡ，ＢＰ

２３９，５４６００Ｖａｎｄｏｅｕｖｒｅ－ｌｅｓ－Ｎａｎｃｙ，Ｆｒａｎｃｅ）

Ａｂｓｔｒａｃｔ：Ａｎｅｗｍｅｔｈｏｄｉｓｐｒｏｐｏｓｅｄｆｏｒｇｅｎｅｒａｔｉｎｇｔｒａｎｓｃｒｉｐｔｉｏｎｓｏｆｓｐｅｅｃｈｃｏｒｐｏｒａｂａｓｅｄｏｎｈｕｍａｎ－ｃｏｍｐｕｔａｔｉｏｎ．

Ｔｈｅｍｅｔｈｏｄｄｅｐｅｎｄｓｏｎｃｏｌｌｅｃｔｉｏｎｏｆｏｒｔｈｏｇｒａｐｈｉｃｔｒａｎｓｃｒｉｐｔｉｏｎｓａｎｄｐｈｏｎｅｔｉｃｔｒａｎｓｃｒｉｐｔｉｏｎｓｆｒｏｍａｌａｒｇｅｎｕｍｂｅｒｏｆ

ｕｓｅｒｓｂｙｕｓｉｎｇａＷｅｂ－ｂａｓｅｄｌａｎｇｕａｇｅｌｅａｒｎｉｎｇｓｙｓｔｅｍａｎｄｃｈｏｏｓｉｎｇｃｏｍｍｏｎｌｙ－ｕｓｅｄｌａｂｅｌｓａｓｔｈｅｔｒａｎｓｃｒｉｐｔｉｏｎｓｏｆ

ｔｈｅｓｐｅｅｃｈｃｏｒｐｏｒａ．Ｉｎｏｒｄｅｒｔｏｇｕａｒａｎｔｅｅｔｈｅｑｕａｌｉｔｙｏｆｔｒａｎｓｃｒｉｐｔｉｏｎｓ，ｓｏｍｅｃｏｍｐｕｔｅｒ－ａｉｄｅｄｍｅｃｈａｎｉｓｍｓａｒｅａｌｓｏ

ｕｓｅｄｔｏｖｅｒｉｆｙｔｈｅｃｏｌｌｅｃｔｅｄｔｒａｎｓｃｒｉｐｔｉｏｎｓ．Ｔｈｉｓｍｅｔｈｏｄｃｏｍｂｉｎｅｓｓｐｅｅｃｈｄａｔａｔｒａｎｓｃｒｉｂｉｎｇｗｉｔｈｌａｎｇｕａｇｅｌｅａｒｎｉｎｇ

ａｎｄｃｕｔｓｄｏｗｎｔｈｅｃｏｓｔｏｆｔｒａｎｓｃｒｉｂｉｎｇｃｏｒｐｏｒａｅｆｆｅｃｔｉｖｅｌｙ．Ｔｈｅｔｅｃｈｎｏｌｏｇｙｏｆｈｕｍａｎ－ｃｏｍｐｕｔａｔｉｏｎ－ｂａｓｅｄｓｐｅｅｃｈｃｏｒ－

ｐｏｒａｔｒａｎｓｃｒｉｂｉｎｇａｎｄｔｈｅｄｅｔａｉｌｅｄｄｅｓｉｇｎｏｆｌａｎｇｕａｇｅｌｅａｒｎｉｎｇｓｙｓｔｅｍｈａｖｅｂｅｅｎｄｉｓｃｕｓｓｅｄ，ｔｒａｎｓｃｒｉｐｔｉｏｎｓｇｅｎｅｒａｔｉｏｎ

ｓｙｓｔｅｍｈａｓａｌｓｏｂｅｅｎｅｘｐａｔｉａｔｅｄｉｎｔｈｉｓａｒｔｉｃｌｅ．Ｔｈｅａｐｐｌｉｃａｔｉｏｎｏｆｓｙｓｔｅｍｓｈｏｗｓｔｈａｔｔｈｉｓｍｅｔｈｏｄｉｓａｎｅｆｆｅｃｔｉｖｅａｎｄ

ｅｃｏｎｏｍｉｃａｌｗａｙｔｏｇｅｎｅｒａｔｅｏｒｔｈｏｇｒａｐｈｉｃａｎｄｐｈｏｎｅｔｉｃｔｒａｎｓｃｒｉｐｔｉｏｎｓ．

Ｋｅｙｗｏｒｄｓ：ｓｐｅｅｃｈｃｏｒｐｏｒａｔｒａｎｓｃｒｉｐｔｉｏｎ；ｈｕｍａｎ－ｃｏｍｐｕｔａｔｉｏｎ；ｄｉｓｔｒｉｂｕｔｅｄｋｎｏｗｌｅｄｇｅａｃｑｕｉｓｉｔｉｏｎ；Ｗｅｂ－ｂａｓｅｄｌａｎ－

ｇｕａｇｅｌｅａｒｎｉｎｇ

收稿日期：２００８－０７－０２．

基金项目：国家留学基金资助项目（２００６１０４７０５）；福建省自然科学基

金资助项目（２００６Ｊ００４３）；厦门大学“９８５工程” 二期信息

创新平台资助项目（００００－Ｘ０７２０４）．

通信作者：蔡　骏．Ｅ－ｍａｉｌ：Ｊｕｎ．Ｃａｉ＠ｕｌｂ．ａｃ．ｂｅ，Ｊｕｎ．Ｃａｉ＠ｌｏｒｉａ．ｆｒ．

　　在语音识别系统的开发中，对语音语料库进行正

确的词汇标注（ｏｒｔｈｏｇｒａｐｈｉｃｔｒａｎｓｃｒｉｐｔｉｏｎ）和音标标注

（ｐｈｏｎｅｔｉｃｔｒａｎｓｃｒｉｐｔｉｏｎ）是建立有效的语音模型和语

言模型的必要条件．然而，为大规模语音语料库添加

词汇标注和音标标注是一项需要投入大量人力、物力

资源的任务．由于现有的语音识别系统无法实现语音

语料库的自动标注，故添加词汇和音标标注往往只能

通过手工标注来完成．不论是进行词汇标注还是音标

标注，其本质都是将与语音集合对应的标注信息添加

到语料库中．这样的语音标注任务在信息添加的内容

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38526650

粉丝: 1

基于人类计算的语音语料库标注技术探索与实现

藏语口语语音语料库设计：50小时标注的语音识别基石

探索TIMIT语音语料库: 美国方言区域的声学音素连续语音语料

网络语音语料库在英语教学中的创新应用

网络语音语料库的建设及其在英语语音教学中的应用 (2011年)

语料库标注工具SUTDAnnotator

自然语言处理语料库标注集以及符号说明

tashkeela2:阿拉伯语语音语料库

ChatGPT技术的语料库构建方法探究.docx

基于《Kaldi语音识别》技术及开源语音语料库分享

ClovaCall: 韩国目标导向对话语音语料库及其Pytorch LAS代码

最新资源