
基于
基于基于
基于
Viterbi
改进算法的高棉语分词研究
改进算法的高棉语分词研究改进算法的高棉语分词研究
改进算法的高棉语分词研究
蒋艳荣
蒋艳荣蒋艳荣
蒋艳荣
1
,
,,
,刘习文
刘习文刘习文
刘习文
2
,
,,
,陈耿涛
陈耿涛陈耿涛
陈耿涛
3
(1. 广东工业大学计算机学院,广州 510006;2. 湘潭大学机械工程学院,湖南 湘潭 411105;
3. 广东国笔科技股份有限公司,广州 510620)
摘
摘摘
摘 要
要要
要:
::
:采用最大匹配算法对高棉语进行分词准确率较低,且难以正确识别词库中没有的新词。针对该问题,采用改进的 Viterbi 算法,利
用自动机实现音节切分,通过最优选择及剪枝操作提高分词效率,以统计语言模型对未知新词进行数据平滑,提高识别正确率。实验结果
表明,改进的 Viterbi 算法具有较高的分词效率和准确率。
关键词
关键词关键词
关键词:Viterbi 算法;最大匹配算法;分词;高棉语;剪枝;统计语言模型
Research of Khmer Word Segmentation
Based on Improved Viterbi Algorithm
JIANG Yan-rong
1
, LIU Xi-wen
2
, CHEN Geng-tao
3
(1. Faculty of Computer, Guangdong University of Technology, Guangzhou 510006, China;
2. School of Mechanical Engineering, Xiangtan University, Xiangtan 411105, China;
3. Guangdong Guobi Corporation Ltd., Guangzhou 510620, China)
【
【【
【Abstract】
】】
】The accuracy of Khmer words segmentation for maximum matching algorithm is relatively low, and it is difficult for this algorithm to
recognize words that are not enrolled in its dictionary. To solve this problem, an improved Viterbi algorithm is proposed. Wherein automation is used
for syllable segmentation, optimization selection and pruning methods are used to promote the segmentation efficiency, and the statistical language
model is adopted to perform data smooth for unknown words in this approach. Experimental results indicate that the improved Viterbi algorithm has
higher accuracy and efficiency.
【
【【
【Key words】
】】
】Viterbi algorithm; maximum matching algorithm; word segmentation; Khmer; pruning; statistical language model
DOI: 10.3969/j.issn.1000-3428.2011.15.055
计 算 机 工 程
Computer Engineering
第 37 卷 第 15 期
Vol.37 No.15
2011 年 8 月
August 2011
·
··
·人工智能及识别技术
人工智能及识别技术人工智能及识别技术
人工智能及识别技术·
··
·
文章编号
文章编号文章编号
文章编号:
::
:1000—
——
—3428(2011)15—
——
—0174—
——
—03
文献标识码
文献标识码文献标识码
文献标识码:
::
:A
中图分类号
中图分类号中图分类号
中图分类号:
::
:TP391
1
概述
概述概述
概述
高棉语
(Khmer)
又称柬埔寨语,属于南亚语系,在柬埔寨
有大约
90
%的人口使用高棉语,在泰国、老挝和越南也有约
200
万使用者。与英语等印欧语不同,高棉语以音节为基本
的书写单位,单词间没有任何分隔符,这对信息检索及词语
使用频率统计等造成很大的障碍。因此,词语分词是高棉语
信息处理的基础与关键。通过计算机把高棉语文本的字串自
动转换为词串的过程称为自动切分。当前主要采用最大匹配
算法
[1]
结合词库的方式进行高棉语的分词,其优点是算法相
对简单、快速,而缺点是单向的最大匹配算法会忽略交集型
歧义和组合型歧义,切分的准确率相对不高,由于词库的局
限性,难以识别未登录词。
Viterbi
算法
[2]
是一种动态规划算法,它可以用来解决序
列问题:给定一个观察序列
O
=
O
1
,
O
2
,
…
,
O
T
,选择一个相应的
状态序列
Q
=
q
1
,
q
2
,
…
,
q
T
使其能在某种意义下最好地说明观察
序列
O
,也就是求可能性最大的状态序列。该算法可应用在
与线性序列相关的方面,例如文本识别
[3]
、词性标注
[4]
。而高
棉语词语切分同样体现了这样的线性特点,即从一串输入字
符串中找出最大可能的切分结果。
本文在深入研究词语特点和
Viterbi
算法的基础上,认为
Viterbi
算法同样可以在高棉语词语切分问题上发挥优势,并
由此提出一种基于
Viterbi
改进算法的高棉语词语自动切分
方法。
2
基于
基于基于
基于
Viterbi
改进
改进改进
改进算法
算法算法
算法的
的的
的
Khmer
词切分
词切分词切分
词切分
2.1
二元文法
二元文法二元文法
二元文法
根据输入串找出相应切分路径的问题可以用信息论中的
噪声信道模型来描述。噪声信道模型就是给定输入结果后寻
找最有可能的输入,这个过程可通过贝叶斯理论定义
[5]
:
^
arg max ( | ) arg max
( )
I I
I P I O
P O
= =
I
(1)
在
Khmer
词切分中,根据输入串
A
找出相应切分结果
S
(Khmer
词语
)
可映射为:根据噪声信道输入的音节串还原初
始词语序列
(
具有最大后验概率的
P
(
S
|
A
))
,即:
arg max ( | ) arg max
( )
S S
P S P A S
S P S A
P A
S
(2 )
把句子看成是一个由并不相互独立的随机变量组成的序
列
X
=(
X
1
,
X
2
,
…
,
X
T
)
,序列中每个变量的值依赖于它前面的元
素。假设
X
取值于状态空间
S
={
s
1
,
s
2
,
…
,
s
N
}
,它符合如下马
尔可夫假设:
基金项目
基金项目基金项目
基金项目:
::
:广东省自然科学基金资助项目(8151009001000041)
作者简介
作者简介作者简介
作者简介:
::
:蒋艳荣(1976-),男,讲师、博士,主研方向:文本识别,
机器智能;刘习文,副教授、博士;陈耿涛,工程师
收稿日期
收稿日期收稿日期
收稿日期:
::
:2011-01-10 E-mail:
::
:yrjiang@gdut.edu.cn