机器翻译质量评估工具TERcom 0.10.0发布
需积分: 41 72 浏览量
更新于2024-12-05
1
收藏 71KB ZIP 举报
资源摘要信息:"tercom是用于机器翻译评估的软件工具,专注于计算翻译错误率(Translation Error Rate,简称TER),这一度量标准是衡量机器翻译质量的重要指标。它由Matthew Snover、Shuguang Wang和Spyros Matsoukas共同开发,并由BBN Technologies和马里兰大学联合版权声明。TERcom能够解析多种格式的输入文件,包括SGML(NIST格式)、XML或Trans,并将这些文件格式化为内部结构以计算翻译错误率。
TER程序的核心概念是将系统输出与一个或多个参考翻译进行比较,通过计算将系统输出更改为参考翻译所需的最小编辑操作次数来度量错误率。编辑操作一般包括插入、删除、替换单词以及移动短语等。TER的计算结果是一个介于0到1之间的数,表示翻译中每一百个单词错误的数量。例如,TER为0.10.0表示每翻译100个单词中就有10个单词存在错误。
软件提供了一个可执行的jar文件`tercom.jar`,其中包含了用于计算TER的核心Java程序。开发者或用户可以通过命令行工具调用`TERtest`类来执行翻译评估。要运行TER,用户需要准备两组文件:一组是参考翻译文件,即正确或理想的翻译;另一组是假设翻译文件,即机器翻译系统产生的翻译。这两组文件必须采用相同的格式(SGML、XML或Trans)以便于程序解析。
TER工具的输出结果可以为机器翻译研究和开发提供有价值的信息。通过对比不同机器翻译系统的TER值,研究人员和工程师可以量化比较不同系统的翻译质量,并指导后续的改进工作。TER已经成为国际机器翻译评估基准赛(如WMT)中的一个标准评估指标。
该软件的源代码位于`src/`目录下,允许用户进行二次开发或自定义改进以满足特定的评估需求。TER的使用和引用应当遵守相关知识产权法律,正确引用开发者的贡献。TER项目还体现了Java语言在科学计算和大数据处理方面的优势,Java平台的跨平台特性使得tercom.jar可以在不同的操作系统上运行,便于广泛的国际合作和交流。
总之,tercom作为一个开源的翻译评估工具,对于机器翻译领域的研究和实践具有重要价值,它不仅提供了一种客观衡量翻译质量的量化方法,而且推动了翻译技术的发展和翻译系统的优化。"
2016-02-24 上传
2011-11-11 上传
2023-11-15 上传
2024-11-12 上传
2023-06-01 上传
2023-06-01 上传
2024-11-12 上传
2024-11-12 上传
一行一诚
- 粉丝: 25
- 资源: 4559
最新资源
- ema-for-mei-js:TypeScript中MEI的EMA实现(同构)
- cplusplus-helloworld:这是我的第一个C ++项目
- ng-bootstrap-loading:角度页面的加载蒙版显示功能
- johaneous.github.io:韦伯斯特无删节词典(免费的En-En-Cht词典)
- 超级万年历记录时间过程与节气,纪念日的C++版本的实现
- api-cng
- 基于Docker的MySQL+Bind9-dlz一主多从高可用DNS方案.zip
- node-webapp-step1:用于学习外语学习网络应用程序开发
- CalDash:CS294 Web应用程序
- 个人档案袋:个人档案库
- quickplot:这是quickplot模块的测试版,是pandas,matplotlib和seaborn的包装,用于快速创建漂亮的Viz进行分析
- DlvrMe-API
- azuredemoapp
- test2-solutions:CMP237 测试 2 实践解决方案
- emsi-devops:这是霍尔伯顿学校项目的资料库
- Finite-State-Machine-Model:延续2018年夏季开始的项目,其中Graeme Zinck和我在Ricker博士的带领下制作了Finite State Machines的专业模型,以实施理论并为正在进行的研究提供了试验平台。 允许生成FSM,并执行多项操作(例如“产品”和“并行组合”),并且目前已集成了U结构以用于进一步分析。 目前正在为Mount Allison大学的Ricker博士开发此工具。