收 稿日期 : 2008-04-21; 修回 日期 : 2008-07-11 基 金项 目: 国 家教育 部高 等学 校 博士 点 学科 专 项基 金 资助 项 目( 20070699015) ; 陕西 省
自然科 学基础 研究 计划资 助项 目( 2007F15) ; 西北 工业 大学基 础研 究基金 资助项 目; 西北 工业大 学“翱翔 之星 ”计 划资 助项目 ( 07XE0150)
作 者简介 : 杨玉莲 , 硕 士研 究生, 主要 研究 方向为 多媒 体信 息检 索、语 音 与语 言 处理 ( yangyulian202@ gmail. com) ; 谢 磊, IEEE 会员 , ISCA 会员 ,
副教授 , 博 士, 主要 研究方 向为 多媒体 信息 检索、语音 与语 言处理 .
基 于 子 词 链 的 中 文 新 闻 广 播 故 事 自 动 分 割
*
杨玉莲, 谢 磊
( 西 北工 业大 学 计算 机学院 , 西 安 710072)
摘 要: 提 出了 一种 基于 子词 链的 中文 新闻 广播故 事 自 动分 割 方 法 。利 用 中 文 同 音 异形 字 众 多 、词 典开 放 、分
词多 样和 组词 灵活等 特点 , 在新 闻广播 的语 音识 别抄 本上 采用 中 文子 词 单 元 ( 汉 字和 音 节 ) 创 建子 词 链, 进 行 中
文新 闻广 播故 事的自 动分 割, 有 效地 解决 了 在 传 统 词 链 方 法中 由 于 语 音 识 别 错 误( 特 别是 词 典 未 收 录 词 汇) 导
致的 相关 联词 之间无 法匹 配的 问题 。同 时, 利用 各级 词汇 表 示单 元 之 间 的 互 补 性, 如 词 的 表 义 确定 性 和 子 词 对
语音 识别 错误 的鲁棒 性, 对 各级 词汇进 行融 合, 利用 不同 级 别 词汇 表 示 单 元的 优 势 进 一 步 提 高 中文 新 闻 广 播 故
事分 割的 性能 。在 TDT2 中文标准 新闻 广播 语料 库上 进行 的实 验表 明 , 基于 一 元 汉字 子 词 链分 割 方 法的 F-mea-
sure比传统 词链 方法 提高 了 6. 06% 。 基于 一元 和二元 汉字 子词 链边 界强 度的 融合 可以 使 F-mea-sure进 一步 提 高
2. 55% 。基于 投票 法的融 合可 以使 F-measure 比 传统 词链 方法 提高 9. 04% 。
关键 词: 子 词; 词链 ; 主题 分割 ; 故 事分 割; 信 息检 索; 语音 文件 检索
中图 分类 号: TP391. 1 文献标 志码 : A 文 章编 号: 1001-3695( 2009) 02-0583-04
Subword-based lexical chaining for automatic story segmentation in
Chinese broadcast news
YANG Yu-lian, XIE Lei
( School of Computer Science, Northwestern Polytechnical University, Xi’an 710072, China)
Abstract: This paper applied Chinese subword representations( character and syllable n-grams) into chaining-based automa-
tic story segmentation of Chinese broadcast news. It showed the robustness of Chinese subwords against speech recognition er-
rors, especially OOV( out of vocabulary) words, in lexical term matching in erroneous speech recognition transcripts. Proposed
a subword chaining approach that links repetitions of Chinese character/syllable n-gramunits. Also proposed to integrate diffe-
rent lexical scales in chaining-based story segmentation since different lexical representations were complimentary. For exam-
ple, words are more semantically specific and subwords are more robust to speech recognition errors. Experiments on speech
recognition transcripts of TDT2 Mandarin corpus show that character unigram performs the best among all scales, which exhi-
bits an F-measure improvementof 6. 06% over words. Fusion of differentlexical scales can bring further improvement. For ex-
ample, voting fromdifferent scales achieves an F-measure gain of 9. 04% over words.
Key words: subword; lexical chaining; topic segmentation; story segmentation; information retrieval; spoken document re-
trieval( SDR)
0 引言
新闻广播故事自动分割是 一种能 够自动 检测不 同新闻 广
播故事之间的边界, 将新闻广播节目分割成不同故事单元的技
术。目前的新闻广播索引与检索技术均以独立主题的音 /视频
文件为前提, 隐性假设一个新闻主要讨论一个话题。新闻节目
以音 /视频流为载体, 往往涉 及多个 新闻故 事。因此基 于整 个
新闻节目进行的检索将很难满足用户对准确度的要求, 在对新
闻故事进行分类、组织和 管理之 前, 必 须通过 故事自 动分割 技
术将新闻广播节目分成独立的故事单元, 从而实现对新闻广播
的检索。
对新闻节目进行人工分割既费时又费力, 尤其是随着互联
网的发展、有线电视以及数字电视的普及, 各种音 /视频新闻信
息海量增长, 使得对新闻节目进行人工分割几乎是一个不可能
完成的任务。自动化新闻故事 分割可 以从新 闻广播 的音频 信
息、视频信息和词汇信息( 语音识别抄 本和嵌 入式视 频字幕 识
别结果) 中获取新闻故事的边界 线索, 如利用 音频中 的基频 重
置和 语音停 顿
[ 1,2]
、视频 中的场 景切换
[ 3]
和主持 人检 测
[ 4]
, 以
及 语 音 识 别 抄 本 中 的 词 汇 关 联 性
[ 5]
、提 示 语
[ 6]
和 建 模 方
法
[ 7,8]
。TextTiling
[ 9]
和词 链
[ 5]
是 两 种经 典的 基 于词 汇关 联 性
的文本分割方法。由于其高效简洁的特点, 近来被应用于新闻
广播故事的自 动分割 中
[ 10,11]
。 其基 本思 想为: 同一 新闻 故 事
内的词汇具有相近的语义关 系, 不 同故事 的新闻 用词不 同, 因
此可以从用词的变化中找 寻新闻 之间的 边界。词链 方法将 文
本中相关联( 如重复 或 变相 重复、反义、领 属、部 分、整体 和 特
例、范例等语义关系) 词汇连接成 链, 因 此, 在 一个新 闻故事 的
开始有许多词链产生, 在新 闻故事 的结尾 有许多 词链结 束, 链
尾和链头集 中的 地 方就 很有 可 能是 新闻 故 事 的边 界。Stokes
等人
[ 5]
指出, 仅使 用重复 关 系建 立 词链 可以 获 得较 高的 故 事
分割准确性, 采用多种语义关系反而会引入噪声。
第 26 卷第 2 期
2009 年 2 月
计 算 机 应 用 研 究
Application Research of Computers
Vol. 26 No. 2
Feb. 2009