大规模语料库中句子相似度高效计算方法：实例与实验验证

需积分: 50 29 浏览量更新于2024-09-03 收藏 62KB PDF 举报

大规模句子相似度计算方法是一项关键任务，特别是在基于实例的机器翻译（Instance-based Machine Translation, IBT）中，它涉及到从海量语料库中找到源语言（Source Language, SL）句子最接近的翻译实例。本文主要关注如何有效地解决这个问题。首先，作者提出了一种多层次的句子相似度计算策略。这种方法分为两个主要步骤： 1. 特征选择与候选实例筛选：该算法首先利用词表层特征，如词频、词性、形态变化等，以及信息熵来评估句子之间的相似度。信息熵作为一种衡量不确定性或信息量的指标，可以帮助捕捉词语的重要性和多样性。通过这些特征，算法能够从庞大的语料库中挑选出具有较高相似性的候选翻译实例，极大地减少了计算量。 2. 泛化匹配与相似度计算：接着，针对选出的候选实例，算法执行泛化匹配。泛化匹配意味着寻找不仅仅是词汇层面的匹配，而是考虑到语法结构、语义关系以及潜在的上下文信息的相似性。这一步骤有助于减少误匹配，提高相似度计算的准确性。在多策略机器翻译系统IHSMTS的实际应用中，当测试规模达到20万英汉句对时，该算法展现出显著的优势。实验结果显示，召回率高达96%，这意味着96%的源语言句子能够找到其正确的翻译对应实例，而准确率也达到了90%，这充分验证了所提算法的有效性和高效性。总结起来，本文的贡献在于提供了一种有效的方法来处理大规模句子相似度计算，通过结合词表层特征分析和信息熵，实现了对候选实例的精确筛选，并通过泛化匹配确保了相似度计算的高精度。这一研究对于优化基于实例的机器翻译系统，提升翻译质量和效率具有重要意义。

大规模句子相似度计算方法

黄河燕

陈肇雄

张孝飞

张克亮

，

（1 中国科学院计算机语言信息工程研究中心北京 100083

2 南京理工大学南京 210094）

Email:

heyan.huang@263.net

xiaofei_ustc@sohu.com

摘要：如何根据源语言文本从大规模语料库中找出其最相近的翻译实例，即句子相似度计算，是基于

实例翻译方法的关键问题之一。本文提出一种多层次句子相似度计算方法：首先基于句子的词表层特征和

信息熵从大规模语料库中选择出少量候选实例，然后针对这些候选实例进行泛化匹配，从而计算出相似句

子。在多策略机器翻译系统 IHSMTS 中的实验表明，当语料规模为 20 万英汉句对时，系统提取相似句子

的召回率达 96%，准确率达 90%，充分说明了本文算法的有效性。

关键词：句子相似度；基于实例的机器翻译；多策略机器翻译；泛化匹配

中图法分类号：

TP391

Approach of Large-Scale Sentence Similarity Computation

HUANG He-yan CHEN Zhao-xiong ZHANG Xiao-fei

(Research Center of Computer & Language Information Engineering, CAS Beijing 100083)

Email:

heyan.huang@263.net

xiaofei_ustc@sohu.com

Abstract: The retrieval of the similar translation examples corresponding to the SL sentence

from the large-scale corpora, or the computation of sentence similarity, is one of the key problems

of EBMT. A new multi-layer sentence similarity computation approach is proposed in this paper.

First, a few candidate translation examples are selected form a large-scale corpus on the basis of

the surface features and entropies of the given words. Second, the degree of generalization match

between the input sentence and each of those candidate translation examples is computed

respectively. Finally, the sentence similarity is computed according to the outcomes of the

previous two steps. Experimental results from tests on IHSMTS show that this approach has a

recall rate of 96% and a precision rate of 90% when applied to a corpus of 200,000

English-Chinese sentence pairs.

Key words: sentence similarity; example-based machine translation; hybrid-strategy

machine translation; generalization matching

1 引言

基于实例的机器翻译 EBMT （Example-based machine translation ）的基本思路是：预先

基金项目：

国家自然科学基金资助项目（ 60502048

，

60272088 ）；国家 863 计划基金资助项目

（2002AA117010-02）。

作者简介：

黄河燕（ 1963- ），女，研究员，博士生导师，主要研究方向为自然语言处理与机器翻译、大

型智能应用系统；陈肇雄（ 1961- ），男，研究员，博士生导师，主要研究方向为自然语言处理、大型智能

应用系统；张孝飞（ 1970- ），男，副研究员，博士，主要研究方向为自然语言处理、机器翻译、信息检索。

张克亮（ 1964- ），男，副教授，博士后，主要研究方向为计算语言学、机器翻译。

下载后可阅读完整内容，剩余5页未读，立即下载

sohopeter

粉丝: 2

大规模语料库中句子相似度高效计算方法：实例与实验验证

深度学习驱动的中文句子相似度计算研究

多态融合句子相似度计算在主观题阅卷中的应用

Python实现中文句子相似度计算项目源代码分析

java 句子相似度计算【文本相似度计算方法】余弦相似度

java 句子相似度计算【文本相似度计算方法】SimHash

java 句子相似度计算【基础】java 句子相似度计算

中文句子相似度计算算法

人工智能-深度学习-基于深度学习的中文句子相似度计算研究.pdf

HNC理论与依存句法在句子相似度计算中的应用

text2vec：实现中文文本的向量化及句子相似度计算工具

最新资源