英文专利文本模板自动抽取技术
需积分: 5 197 浏览量
更新于2024-08-23
收藏 497KB PDF 举报
"面向英文专利文本单语模板的自动抽取方法 (2010年) - 周俏丽, 蔡东风, 张桂平 - 沈阳航空航天大学知识工程研究中心"
本文探讨了一种面向英文专利文本的单语模板自动抽取方法,主要针对机器翻译领域,特别是在专利文本自动翻译中的应用。基于模板的机器翻译方法结合了经验主义和理性主义规则,利用双语翻译模板来转化源语言到目标语言的文本。由于专利文本的特性——形式规范、语言严谨、结构性强,这种方法特别适合用于构建模板库。
该自动抽取方法包含以下步骤:
1. 文本结构分析与分类:首先,分析专利文本的结构,并对其进行分类,理解其内在的组织模式。
2. 句子组块分析:接着,对句子进行拆分和分析,识别出组成句子的基本结构单元,即句块。
3. 句型分析:通过分析不同类型的句块,识别出句子的固定结构部分和可变部分。
4. 模板确定:最后,确定出可以作为模板的固定部分,并找出能够泛化的部分,从而自动抽取专利文本的模板。
实验结果证实了这种方法在自动获取专利文本模板上的有效性。然而,传统的手工构建模板库的方法效率低且成本高,不适合处理大规模语料库。相比之下,自动获取模板的方法更具优势,尽管一些基于类比学习或结构对齐的方法需要高精度的句法分析,它们在处理专利文本时可能不适用。
文章指出,模板库的数量和质量直接影响基于模板的翻译系统的翻译质量。因此,自动抽取模板对于构建大规模模板库和提升翻译系统性能至关重要。该研究为专利翻译领域的机器翻译提供了新的思路和技术支持,有助于提高翻译效率和准确性。
关键词:模板自动获取、机器翻译、专利翻译
中图分类号:TP391.1
doi:10.3969/j.issn.1007-1385.2010.04.009
文献标识码:A
这项工作发表于2010年,由沈阳航空航天大学知识工程研究中心的周俏丽、蔡东风和张桂平共同完成,展示了在专利文本处理中自动化技术的重要性和潜力。
2021-07-03 上传
131 浏览量
2021-05-16 上传
2019-07-22 上传
2021-03-04 上传
2022-08-04 上传
2021-05-23 上传
2021-10-17 上传
点击了解资源详情
weixin_38644097
- 粉丝: 4
- 资源: 923
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析