改进中英三元组可比语料库:理论与应用研究

需积分: 9 1 下载量 43 浏览量 更新于2024-09-06 收藏 534KB PDF 举报
本文主要探讨了构建和剖析中英三元组可比语料库的重要性和挑战,特别是在解决翻译腔问题和提升自然语言处理系统性能方面。自从Rapp在1995年提出基于矩阵相似度的可比语料库双语词汇提取方法以来,构建可比语料库的研究取得了显著进展。尤其在近年来,随着网络跨语言资源的需求增长,研究范围扩大到了双语句对、片段乃至本族语言模型驱动的双语资源提取,如语义知识库的建设,以及机器翻译系统的人机语言特征对比优化。 传统的平行语料库由于翻译腔的存在,其语言模型往往带有偏差,这直接影响了依赖这些语料库训练的机器翻译和跨语言检索系统的性能。为解决这个问题,本文提出了一种创新的方法,即构建包含本族英语、中式英语和标准中文的三元组可比语料库。通过使用可比语料库和语言自动剖析技术,结合统计和规则分析,研究人员对其中的本族英语和中式英语进行了深入统计分析。这种方法有助于挖掘基于本族语言模型的双语资源,从而改进机器翻译和其他自然语言处理应用的准确性和适用性。 值得注意的是,尽管国内外在可比语料库的研究方面取得了大量进展,但关于基于本族语言模型的资源提取尚属空白。本文的研究成果填补了这一领域的空白,尤其是在2013年的第6次BUCC研讨会上,中心议题聚焦于改进经典词汇挖掘技术,提高数据挖掘精度,并拓宽其应用领域。 本文的研究得到了国家自然科学基金的支持,由胡小鹏博士等人共同完成。他们的研究方向包括自然语言处理和机器翻译,旨在为中国电子信息产业发展提供有力的技术支持。论文详细描述了研究过程、方法论和实验结果,展示了构建和剖析中英三元组可比语料库在自然语言处理领域的实际应用潜力。 总结来说,本文的主要贡献在于提出了一种新颖的策略来克服平行语料库的局限性,通过构建和剖析中英三元组可比语料库,以提升机器翻译和其他NLP系统的性能,并为相关领域的研究提供了新的研究视角和技术手段。此外,它还强调了这一领域在未来学术会议中的重要地位,预示着这一研究方向将在自然语言处理领域发挥越来越关键的作用。