句子相似度模型与高效查找算法在2003年的研究

需积分: 5 162 浏览量更新于2024-08-12 收藏 636KB PDF 举报

"该文提出了一种句子相似模型和基于单词倒排索引的最相似句子查找算法，用于自然语言处理中的句子相似度计算和机器翻译。模型将句子相似度分为词形相似度和词序相似度两部分，并强调词形相似度的主要作用。查找算法在实验中表现出高效率且对语料库规模的影响较小。" 本文探讨的是自然语言处理领域的句子相似度计算，特别关注机器翻译中的应用。传统的基于规则的机器翻译系统（RBMT）依赖于大量复杂的规则库，而这些规则的获取和维护成本高且易产生冲突，限制了系统的进步。随着语料库语言学的发展，基于实例的机器翻译（EBMT）成为研究热点，因为它可以从双语实例库中获取知识，比建立翻译规则更有效。文章提出了一种新的句子相似模型，该模型考虑了两个关键因素：词形相似度和词序相似度。词形相似度是指词语的形式相似性，如同义词、近义词等；词序相似度则关注词语在句子中的排列顺序。在模型设计中，词形相似度占据主导地位，即使句子的部分分句或短语发生长距离移动，仍然可以保持较高的相似度。为了快速找到与给定句子最相似的句子，文章还介绍了一种基于单词倒排索引和句子长度索引的查找算法。倒排索引是一种常见的文本检索技术，它能快速定位到包含特定单词的文档或句子。结合句子长度索引，这种算法能在大规模语料库中实现高效的相似句子搜索，而且实验结果显示，其平均查找时间对语料库大小的依赖性很小，具有良好的可扩展性。关键词涉及到自然语言处理的基础概念，如基于实例的翻译方法、句子相似度计算、倒排索引和语料库的应用。这些技术对于构建和优化EBMT系统至关重要，它们可以帮助系统在缺乏详细规则的情况下，通过匹配和模仿已有的双语实例来生成高质量的翻译结果。这篇文章提供了一种新的句子相似性评估工具和查找策略，对于提升机器翻译系统的性能，特别是在处理大规模语料库时，有着重要的理论和实践价值。同时，这种方法也为自然语言处理的其他任务，如信息检索、问答系统等，提供了有价值的参考。

收稿日期  

基金项目  国家自然科学基金资助项目 国家重点基础研究发展规划项目 Ｇ



作者简介  屯吕学强   男 辽宁抚顺人 东北大学博士研究生 抚顺师范高等专科学校讲师  姚天顺    男 上海人 东

北大学教授 博士生导师



第卷第期

 年  月

东北大学学报  自然科学版 

ＪｏｕｒｎａｌｏｆＮｏｒｔｈｅａｓｔｅｒｎＵｎｉｖｅｒｓｉｔｙ ＮａｔｕｒａｌＳｃｉｅｎｃｅ

Ｖｏｌ Ｎｏ 

Ｊｕｎ     

文章编号  

句子相似模型和最相似句子查找算法

吕学强



任飞亮



黄志丹



姚天顺



 东北大学信息科学与工程学院  辽宁沈阳     沈阳师范大学计算中心  辽宁沈阳  

摘    要  提出一种句子相似模型 用以度量句子的相似程度



句子相似度由词形相似度和词序相

似度决定 词形相似度起主要作用 词序相似度起次要作用



该模型可保证当一个句子的分句或短语整

体发生长距离移动后 仍与原来的句子很相似



提出一种基于单词倒排索引和句子长度索引的最相似句

子查找算法



实验结果表明该查找算法不仅高效 而且平均查找时间受语料库规模影响很小



关  键  词 自然语言处理 基于实例 机器翻译 句子相似度 倒排索引 语料库

中图分类号  ＴＰ     文献标识码  Ａ

传统的基于规则的机器翻译系统ｒｕｌｅｂａｓｅｄ

ｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ ＲＢＭＴ 

 

需要庞大而复杂

的规则库

 

支撑



规则的来源是专家的知识 获

取和维护耗时费力 又无法避免冲突



规则的获取

和维护瓶颈难以跨跃 导致基于规则的机器翻译

系统质量几十年没有本质性提高



随着语料库语言学的兴起 基于实例的机器翻

译ｅｘａｍｐｌｅｂａｓｅｄｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ ＥＢＭＴ 

  

得到越来越多的研究



ＥＢＭＴ系统以双语对照的实

例库为主要的知识源 而双语实例的收集要比翻译

规则的获取容易得多 从而避免了ＲＢＭＴ面临的

困境



当输入待译句子Ｉｎｐｕｔ后 ＥＢＭＴ系统在双语

实例库中查找与Ｉｎｐｕｔ最相似的源语句子Ｓ 再模

拟Ｓ的译文Ｔ生成Ｉｎｐｕｔ的译文



如何评价句子的相似性

  

如何快速从数以

万计的双语实例库中找出与Ｉｎｐｕｔ最相似的源语句

子Ｓ



是ＥＢＭＴ系统必须解决的问题



本文提出

的句子相似模型可以用来度量两个句子的相似程

度 其优点是可以保证当一个句子中的分句或短语

整体发生移动后仍与原来的句子很相似



本文提出

的基于单词倒排索引和句子长度索引的最相似句

子查找算法不仅高效 而且平均查找时间受语料库

规模影响很小



  句子相似模型

１ １  词形相似度

语言Ｌ 本文将以英语为例中的一个句子

Ｘ可看作Ｌ中的单词和特殊符号 以下统称单

词的一个序列



Ｘ的长度即是Ｘ中单词的个数 

以下用ｌｅｎ  Ｘ 表示



ＳａｍｅＷＣ  Ａ Ｂ表示句子

Ａ Ｂ中相同单词的个数 当一个单词在Ａ Ｂ中

出现的次数不同时以出现次数少的计数



句子Ａ Ｂ的词形相似度ＷｏｒｄＳｉｍ Ａ Ｂ由

下述公式决定

ＷｏｒｄＳｉｍ Ａ Ｂ  



ＳａｍｅＷＣＡ Ｂ

ｌｅｎＡ   ｌｅｎＢ



易证   ＷｏｒｄＳｉｍ Ａ Ｂ  



例   ＥＡ  　ｗｈｅｎｅａｔｉｎｇｌｕｎｃｈＩｌｉｋｅｄｒｉｎｋｉｎｇ

ｃｏｆｆｅｅ 

Ｂ  ＂Ｉｌｉｋｅｅａｔｉｎｇｍｅａｔｗｈｅｎｈａｖｉｎｇ

ｌｕｎｃｈ 

则ＷｏｒｄＳｉｍ Ａ Ｂ       



１ ２  词序相似度

ＯｎｃｅＷＳＡ Ｂ表示在Ａ Ｂ中都出现且都

只出现一次的单词的集合



Ｐｆｉｒｓｔ  Ａ Ｂ 表示

ＯｎｃｅＷＳＡ Ｂ 的单词在Ａ中的位置序号构成

的向量



ＰｓｅｃｏｎｄＡ Ｂ表示ＰｆｉｒｓｔＡ Ｂ中的分

量按对应单词在Ｂ中的次序排序生成的向量



例

 中  ＯｎｃｅＷＳ  Ａ Ｂ    ｗｈｅｎ  ｅａｔｉｎｇ  

ｌｕｎｃｈ Ｉ ｌｉｋｅ  



由Ａ中单词与序号的

对应关系

ｗｈｅｎ



ｅａｔｉｎｇ



ｌｕｎｃｈ



Ｉ



ｌｉｋｅ



ｄｒｉｎｋｉｎｇ



ｃｏｆｆｅｅ







得ＰｆｉｒｓｔＡ Ｂ      



由各分量对应

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38731123

粉丝: 3
资源: 887

句子相似度模型与高效查找算法在2003年的研究

基于python的垃圾分类系统资料齐全+详细文档.zip

基于java的网上书城系统设计与实现.docx

基于Go语言Gin框架的订单管理系统，正在建设中，本身为简单Demo，有助于掌握Go语言语法以及Gin开发框架简单使用，喜欢就点个Star吧！.zip

mumu多开器软件电脑

河南某211研究生期末算法设计分析期末复习

基于Python3的Scrapy网页爬虫框架详细文档+资料齐全.zip

Android -「安卓端」 广告配音工具用于语音合成助手/自媒体配音/广告配音/文本朗读

MyBatis-Flex 一个优雅的 MyBatis 增强框架

基于Python医疗机构药品及耗材信息管理系统带vue前后端分离毕业源码案例设计资料齐全+详细文档.zip

Python实现的简单C语言编译器 Python实现的简单C编译器包括词法分析,语法分析等包括Lex,语法分析.zip

最新资源

Android -「安卓端」广告配音工具用于语音合成助手/自媒体配音/广告配音/文本朗读