没有合适的资源?快使用搜索试试~ 我知道了~
© 2014年。由爱思唯尔公司出版信息工程研究院负责评选和同行评议可在www.sciencedirect.com上在线获取ScienceDirectIERI Procedia 10(2014)190 - 1952014未来信息工程改进贝叶斯网络生成越南语句子约简Ha Nguyen Thi Thua*,Dung Vu Thi Ngocba越南河内越南电力大学信息技术系b海阳继续教育中心,海阳,越南摘要句子约简是文本自动摘要的一种方法,已经引起了自然语言处理领域许多研究者和学者的关注。本文提出了一种基于贝叶斯网络模型的越南语文本自动摘要的句子约简方法。利用贝叶斯网络模型,通过比较概率的差异,找到最佳似然短句。对980个句子的实验结果表明,该方法确实有效地生成了可理解、可读、语法准确的句子约简。© 2014作者。由爱思唯尔公司出版 这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/3.0/)。信息工程研究院负责评选和同行评议关键词:句子约简,自然语言处理,文本摘要,贝叶斯网络,概率;1. 介绍今天,大多数文本摘要系统基于提取的句子来生成摘要,我们称之为提取方法[9],[12],[13],[14]。通过这种方法,句子的权重是根据我们认为重要的一些特征来计算的:词频,句子位置,句子长度......和** 通讯作者。联系电话:+84906113373电子邮件地址:hantt@epu.edu.vn。2212-6678 © 2014作者由爱思唯尔公司出版 这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/3.0/)。信息工程研究所负责的选择和同行评审Ha Nguyen Thi Thu和Dung Vu Thi Ngoc / IERI Procedia 10(2014)190191然后,句子将按其权重排序,并基于比率(提取率)提取。文本摘要包括来自原始文本的具有最大权重的句子。通过这种方法,文本摘要将从原始文本中合成离散的句子,它可以是: 文本摘要是无缝的,因为句子不是由文本中的内容连接,特别是,当提取率较小时,它将是更大的离散。 文本摘要有时会造成混淆,它可以通过以下方式来释放原始文本中的重要信息:一些句子没有被提取出来。因此,我们选择了句子缩减的方法进行句子级的处理,去除句子中不重要的词,生成新的句子和创建摘要。目标文本将克服上面[5],[6],[7]分析的一些缺点。本文提出了一种基于贝叶斯网络的越南语句子约简方法,将文本中的每个词作为贝叶斯网络的一个节点。约简句是通过寻找一条最短且权值最大的路径生成的,我们称之为:最佳似然路径。本文接下来的结构:第二节是相关工作的概述,第三节是基于贝叶斯网络的句子约简方法,第四节是实验结果,最后是结论。2. 相关作品相关的工作主要集中在建立词法规则模型或语法分析树。首先Aho和Ullman使用同步上下文无关文法(SCFG)[21]。Wu在1997年提出了一种方法,包括反转转换语法[22]和Alshawi,Bangalore和Douglas在2000年提出的类似头传感器的CFG的一些其他相关研究。Knight和Marcu提出了一种句子压缩的噪声通道。它们使用两个组件:P(y)是语言模型,P(x|y)是信道模型。P(x| y)捕获原始句子x和目标压缩y的概率。然后利用译码算法寻找P(x)P(x)的最大值|y)。该信道模型是SCFG,并行语料库用于提取规则,并使用最大似然估计权重[9]。在越南语的句子缩减方法中,大多数方法都是从英语方法中应用的。然而,这种方法的性能不高时,应用于越南语。由于越南语是单音节语言,不能根据空间来确定单词,因此,他们经常使用摘要在构建越南语文本摘要系统时,有一些方法使用了约简方法,但效率不高。3. 基于贝叶斯网络3.1. 贝叶斯网络贝叶斯网络是概率图模型之一。在表示不确定性知识时,可以采用图模型。在贝叶斯模型中,每个节点都是一个随机变量,节点之间的边表示相应随机变量之间的概率依赖关系。这个概率可以从历史数据中计算出来[2]。如果B是贝叶斯网络B,则B是带注释的非循环图,并且B表示一组随机变量V上的联合概率分布。B= G,其中:192Ha Nguyen Thi Thu和Dung Vu Thi Ngoc / IERI Procedia 10(2014)190我X| 我 G是一个有向无圈图,其结点X1,X2,.,Xn表示随机变量,每个变量Xi都独立于它在G中的非=子代,一般记为n. 表示网络的参数集。此集合包含参数我PB(xi|i)对于X i的每个实现, 在阿格里,Xi在G中的双亲集合所以B定义了V上唯一的联合概率分布(一)3.2. 基于贝叶斯网络假设有一个句子S,S中的每个词wk都可以由wk-1生成,也可以由wk-2wk-n生成。然后,我们可以建立一个改进的贝叶斯网络rk,它可以根据单词wk和单词wk-n之间的n-gram的概率找到一个约简句子,其中n1,(k1)。我们需要找到一个初始状态。假设初始状态集的概率为:Start ->w1= 0.6,Start-> w2 =0.32,开始-> w3 = 0.47,开始-> w4 =0.56,开始-> w5 =0.2,开始-> w6 = 0.11。所以我们选择w1作为初始状态,所以缩减句将从w1开始。图1展示了句子S中有六个单词的贝叶斯网络的结构。单词w1被认为是句子S中下一个单词的第一个可能节点。而单词w2可以被创建成一条通往w3,w4,w5,w6的路径.图1 6词为了克服计算的复杂性,在本文中,我们使用动态规划,不需要计算所有节点上的n-gram概率。例如,概率为:w1 -> w2=0.3,w1 -> w3 = 0.6,w1-> w 4 = 0.042,w1 -> w5= 0.002,w1 -> w 6 =0。选择一个概率最大的状态。因此,w3将被选择并使用包含w3的路径。为了便于可视化,贝叶斯网络被描述为图2图2.贝叶斯网络与概率0.30.24Ha Nguyen Thi Thu和Dung Vu Thi Ngoc / IERI Procedia 10(2014)190193在这个贝叶斯网络中。分支上的概率能力由n-gram计算。在这个例子中,从单词w1到单词w2的路径的概率是0.3。句子S的第一个点是w1。从单词w1句缩减为: 从w1开始,我们有一些可能的路径到w2,w3,w4,w5,w6。 选择路径的权重是最高概率。例如在图4中是w1-> w3 = 0.6 最高路径中的保存点例如,w3将被存储。 从最高路径的这个点找到一些路径,换句话说,选择最可能的路径。例如w3-> w 4。 继续重复句子S的最后一个单词。最后我们有一个被缩减的句子,缩减的句子包括四个词w1w3w5w6。在图3中,我们模拟了一种称为SRBBN(基于贝叶斯网络的句子缩减)的算法,基于贝叶斯网络算法的句子约简输入:输出:S:原判决;S’: reduced1. 初始化;T;N;i1;2. 从S对于i=1到长度(S)T(i)分隔(S);3. 原句While(i长度(S)开始对于j +1到Length(S),开始j0;结束;N(j)Ngrams(wj,wi); point=argmax(N(j));T’=T’结束;i=j; N甲基N-4.生成减刑;S’=图3基于贝叶斯网络算法的在这个算法中,我们使用了一些函数:Separate()用于分离句子中的单词。Length()返回用于计算从训练数据中学习的单词wi和单词wj的n-gram的句子N-gram的长度。Argmax()取集合N中的最大值。Order()用于对原句中的单词进行排序,生成精简句。4. 实验体目前还没有一个标准的越南语文本摘要语料库。因此,在我们的实验中,我们是手工建立语料库的。该语料库中的文件已从以下网站的新闻下载http://thongtincongnghe.comhttp://echip.comhttp://vnexpress.nethttp://vietnamnet.vnhttp://tin247.com.194Ha Nguyen Thi Thu和Dung Vu Thi Ngoc / IERI Procedia 10(2014)190语料库的名称是“信息”和“技术”。它有300多个文档,我们从300个文档中分割出16,117个句子。之后,我们使用越南语文本分割工具,用于分词。我们从语料库中选取了814个句子作为标注。越南语减刑方法没有一个标准的评价。因此,我们使用Knight和Marcu的评估方法来比较我们提出的方法(称为SRBBN)与其他一些方法,如:Human,Syn.con(由M.L Nguyen使用语法控制提出)[9]。下面是我们提出的方法与其他两种方法之间的比较结果(表1)表1越南语句子缩减方法压缩语法意义重量基线X X XSRBBN 65.82 84.2 78.4人类61.2209 83.33333 63.565.第六十五章. 7 6.115. 结论本文提出了一种新的越南语句子约简方法(简称SRBBN)。该方法基于贝叶斯网络寻找最佳句子约简。我们使用了16,117句越南语文本进行训练,并对980句句子进行了测试,与人类相比,该方法取得了可接受的结果。精简后的句子符合用户要求,可读性强,语法清晰。引用[1] Ann Arbor,et. 基于约束的句子压缩:整数规划306方法。COLING/ACL 2006会议记录,第144 - 151页[2] Blanco,Roi; Lioma; Christina,Graph based term weighting for information retrieval,InformationRetrieval,pp. 2012年第54-92号决议[3] Courtney Napoles;克里斯·卡利森-伯奇; Juri Ganitkevitch,Benjamin Van Durme;基于字符的度量的释义句子压缩:没有删除的收紧,第49届计算语言学协会年会论文集,pp. 84[4] David Vickrey; Daphne Koller,Sentence Simplification for Semantic Role Labeling,Proceedings ofACL-08:HLT,pp. 344[5] 放大图片作者:Hongyang Jing,Kathleen R.麦基翁基于剪切和粘贴的文本摘要。在计算语言学协会北美分会第一次会议上,第178-185页,2000年。[6] H. Jing;黄毛菊K. McKeown,人类书面摘要句子的分解,年度国际ACM SIGIR会议论文集,信息检索研究与发展,pp。129[7] H. Jing,自动文本摘要的句子缩减,应用自然语言处理会议论文集,pp. 310[8] H. Jing;黄毛菊K. R. McKeown,基于剪切和粘贴的文本摘要,计算语言学协会北美分会会议论文集,pp. 178Ha Nguyen Thi Thu和Dung Vu Thi Ngoc / IERI Procedia 10(2014)190195[9] 珍妮·特纳尤金·查尼亚克。用于句子压缩的监督和无监督学习。ACL第43届年会的会议记录,pp。290[10]Knight,K.; Marcu,D.摘要超越句子提取:一种概率方法来句子压缩。第内特尔139,1,91-107,2002.[11]Lloret E; et.al,A.建立竞争性意见摘要系统:挑战与关键。在:NAACL的程序。学生研究工作坊和博士生联盟。第72-77页[12]Lloret E; et.al,Experiments on summary-based opinion classification.在:程序的NAACL HLT 2010年研讨会上的计算方法分析和生成的文本中的情感。第107-115页,2010。[13]Lloret; et.al,正在进行的文本摘要:文献综述,Springer Science Business Media,第1 -41页,2012年[14]Mani I,自动摘要。北京市出版公司阿姆斯特丹,费城,美国,2001年。[15]梅建平,陈立辉,SumCR:一种基于子主题的文本摘要抽取方法,知识与信息系统,31.3页。527-545,2012年。[16]米歇尔·加利;凯瑟琳·麦基翁。用于句子压缩的词汇化马尔可夫文法。2007年HLT-NAACL会议记录,第180 -187页[17]M.L. Nguyen; S. Horiguchi,一种使用控制器的句子缩减,第六届亚洲语言信息检索会议论文集,pp. 139-146,2003年。[18]Nguyen,M.L.; et.al,M..基于支持向量机的概率句约简。2004年第20届计算语言学国际会议论文集[19]M. Johnson; E. Charniak,基于TAG的语音修复噪声通道模型,计算语言学协会年会论文集,pp.33[20]作者声明:Stefan Riezler,Tracy H.国王;理查德·克劳奇; An-nie Zaenen,使用歧义包装和随机消歧方法进行词汇功能语法的统计句子浓缩。HLT-NAACL 2003年会议记录,pp. 118-[21]V. Aho和J.D.厄尔曼语法导向翻译的属性。Journal of Computer and System Sciences,3:319[22]吴李文,随机转换文法与双语平行语料库的句法分析,计算机语言学,23(3):377
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功