中文新闻广播故事自动分割：子词链方法

工程技术

论文

需积分: 5 6 浏览量更新于2024-08-11 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"基于子词链的中文新闻广播故事自动分割方法通过利用中文语言的特点，如同音异形字多、词典开放、分词多样和组词灵活，解决了传统词链方法在处理语音识别错误时遇到的问题。该方法在语音识别抄本上构建子词链，对新闻广播故事进行自动分割，提高了故事分割的性能。实验表明，这种方法在TDT2中文标准新闻广播语料库上的F-measure指标有显著提升，证明了其有效性。" 本文提出了一种创新的中文新闻广播故事自动分割技术，它主要针对语音识别错误导致的传统词链方法中的问题。在中文环境中，由于语言的复杂性，比如存在大量同音异形字，词典可能无法涵盖所有词汇，而且分词方式多样，这为故事分割带来了挑战。为了解决这些问题，该方法引入了子词链的概念，以汉字和音节作为基本的子词单元，构建了一个更灵活的结构。在语音识别抄本的基础上，通过子词链，文章能够更好地处理识别错误，尤其是那些词典未收录的词汇。子词链允许在关联词之间建立连接，即使这些词在识别过程中出现了错误。此外，文章还强调了不同级别的词汇表示单元（如词和子词）之间的互补性，利用词的语义确定性和子词对识别错误的鲁棒性，通过融合不同级别的信息来优化分割效果。实验部分展示了这种方法的优越性。在TDT2中文标准新闻广播语料库上进行的比较显示，基于一元汉字子词链的分割方法在F-measure上相比于传统词链方法提高了6.06%。进一步将一元和二元汉字子词链的边界强度融合后，F-measure又提升了2.55%。采用投票法的融合策略使F-measure相对于传统方法提高了9.04%，显示出显著的性能提升。基于子词链的中文新闻广播故事自动分割技术是一种有效的解决方案，它可以改善语音识别后的新闻内容分割，尤其在处理未收录词汇和识别误差的情况下。这项工作对于提高信息检索和语音文件检索的准确性和效率具有重要意义，对于多媒体信息检索和语音与语言处理领域的研究提供了有价值的参考。

资源详情

资源推荐

收稿日期 : 2008-04-21; 修回日期 : 2008-07-11 基金项目: 国家教育部高等学校博士点学科专项基金资助项目( 20070699015) ; 陕西省

自然科学基础研究计划资助项目( 2007F15) ; 西北工业大学基础研究基金资助项目; 西北工业大学“翱翔之星 ”计划资助项目 ( 07XE0150)

作者简介 : 杨玉莲 , 硕士研究生, 主要研究方向为多媒体信息检索、语音与语言处理 ( yangyulian202@ gmail. com) ; 谢磊, IEEE 会员 , ISCA 会员 ,

副教授 , 博士, 主要研究方向为多媒体信息检索、语音与语言处理 .

基于子词链的中文新闻广播故事自动分割

杨玉莲, 谢磊

( 西北工业大学计算机学院 , 西安 710072)

摘要: 提出了一种基于子词链的中文新闻广播故事自动分割方法。利用中文同音异形字众多、词典开放、分

词多样和组词灵活等特点 , 在新闻广播的语音识别抄本上采用中文子词单元 ( 汉字和音节 ) 创建子词链, 进行中

文新闻广播故事的自动分割, 有效地解决了在传统词链方法中由于语音识别错误( 特别是词典未收录词汇) 导

致的相关联词之间无法匹配的问题。同时, 利用各级词汇表示单元之间的互补性, 如词的表义确定性和子词对

语音识别错误的鲁棒性, 对各级词汇进行融合, 利用不同级别词汇表示单元的优势进一步提高中文新闻广播故

事分割的性能。在 TDT2 中文标准新闻广播语料库上进行的实验表明 , 基于一元汉字子词链分割方法的 F-mea-

sure比传统词链方法提高了 6. 06% 。基于一元和二元汉字子词链边界强度的融合可以使 F-mea-sure进一步提高

2. 55% 。基于投票法的融合可以使 F-measure 比传统词链方法提高 9. 04% 。

关键词: 子词; 词链 ; 主题分割 ; 故事分割; 信息检索; 语音文件检索

中图分类号: TP391. 1 文献标志码 : A 文章编号: 1001-3695( 2009) 02-0583-04

Subword-based lexical chaining for automatic story segmentation in

Chinese broadcast news

YANG Yu-lian, XIE Lei

( School of Computer Science, Northwestern Polytechnical University, Xi’an 710072, China)

Abstract: This paper applied Chinese subword representations( character and syllable n-grams) into chaining-based automa-

tic story segmentation of Chinese broadcast news. It showed the robustness of Chinese subwords against speech recognition er-

rors, especially OOV( out of vocabulary) words, in lexical term matching in erroneous speech recognition transcripts. Proposed

a subword chaining approach that links repetitions of Chinese character/syllable n-gramunits. Also proposed to integrate diffe-

rent lexical scales in chaining-based story segmentation since different lexical representations were complimentary. For exam-

ple, words are more semantically specific and subwords are more robust to speech recognition errors. Experiments on speech

recognition transcripts of TDT2 Mandarin corpus show that character unigram performs the best among all scales, which exhi-

bits an F-measure improvementof 6. 06% over words. Fusion of differentlexical scales can bring further improvement. For ex-

ample, voting fromdifferent scales achieves an F-measure gain of 9. 04% over words.

Key words: subword; lexical chaining; topic segmentation; story segmentation; information retrieval; spoken document re-

trieval( SDR)

0 引言

新闻广播故事自动分割是一种能够自动检测不同新闻广

播故事之间的边界, 将新闻广播节目分割成不同故事单元的技

术。目前的新闻广播索引与检索技术均以独立主题的音 /视频

文件为前提, 隐性假设一个新闻主要讨论一个话题。新闻节目

以音 /视频流为载体, 往往涉及多个新闻故事。因此基于整个

新闻节目进行的检索将很难满足用户对准确度的要求, 在对新

闻故事进行分类、组织和管理之前, 必须通过故事自动分割技

术将新闻广播节目分成独立的故事单元, 从而实现对新闻广播

的检索。

对新闻节目进行人工分割既费时又费力, 尤其是随着互联

网的发展、有线电视以及数字电视的普及, 各种音 /视频新闻信

息海量增长, 使得对新闻节目进行人工分割几乎是一个不可能

完成的任务。自动化新闻故事分割可以从新闻广播的音频信

息、视频信息和词汇信息( 语音识别抄本和嵌入式视频字幕识

别结果) 中获取新闻故事的边界线索, 如利用音频中的基频重

置和语音停顿

[ 1,2]

、视频中的场景切换

[ 3]

和主持人检测

[ 4]

, 以

及语音识别抄本中的词汇关联性

[ 5]

、提示语

[ 6]

和建模方

法

[ 7,8]

。TextTiling

[ 9]

和词链

[ 5]

是两种经典的基于词汇关联性

的文本分割方法。由于其高效简洁的特点, 近来被应用于新闻

广播故事的自动分割中

[ 10,11]

。其基本思想为: 同一新闻故事

内的词汇具有相近的语义关系, 不同故事的新闻用词不同, 因

此可以从用词的变化中找寻新闻之间的边界。词链方法将文

本中相关联( 如重复或变相重复、反义、领属、部分、整体和特

例、范例等语义关系) 词汇连接成链, 因此, 在一个新闻故事的

开始有许多词链产生, 在新闻故事的结尾有许多词链结束, 链

尾和链头集中的地方就很有可能是新闻故事的边界。Stokes

等人

[ 5]

指出, 仅使用重复关系建立词链可以获得较高的故事

分割准确性, 采用多种语义关系反而会引入噪声。

第 26 卷第 2 期

2009 年 2 月

计算机应用研究

Application Research of Computers

Vol. 26 No. 2

Feb. 2009

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38582716

粉丝: 6
资源: 929

中文新闻广播故事自动分割：子词链方法

论文研究-基于子词链的中文新闻广播故事自动分割.pdf

数据链路层广播和IP广播有什么不同

基于在线喷泉代码的可靠广播，你有什么观点

基于UDP的广播消息到多个远程设备的设计与实现

python的numpy广播机制

当android应用程序关闭后如果有信息广播过来应用程序的广播接收器也被系统调用自动运行这种广播是非常驻行广播

有限广播和广播的区别

计算机网络 多播广播的区别

冲突域与广播域的区别和联系

基于dsp的调幅广播信号监测系统设计

基于udp的广播消息JAVA实现

局域网广播在数据链路层还是网络层

mbsfn子帧_LTE多媒体广播多播业务关键技术研究

简述广播机制的实现过程

UDP广播和TCP广播的区别

Python广播机制四原则

基于mfc设计一个广播系统,分别有服务端和客户端

基于stm32的多功能电子时钟

spark submit小表广播

企业网络vlan划分

最新资源

计算机网络多播广播的区别