1.2 背景
GETA
可以被认为是语言工程学的软件体系结构。“软件体系结构”是使用相当松散的
一个概念,这里指计算机软件开发的基础设施,包括开发环境和框架,以及更常见的概念,
表示软件系统宏观层次的组织结构。
语言工程学(
Language Engineering
,
LE)
可定义为:
语言工程学的行为或学科指执行的任务涉及处理自然语言的行为。构造过程和输出都
是可衡量的和可预见的。该领域的文献即涉及相关科学成果的应用也涉及实际。
相关的科学成果导致计算语言学,自然语言处理和人工智能的产生,
LE
与其他学科不
同,作为一个工程学科,基于
LE
的软件构造过程必须是可预见的,并且建成后的软件和
应用程序的部署的性能也是可预见的。
几个有影响的定义:
(1)
计算语言学
(Computational Linguistics ,CL)
。用计算作为语言研究的工具的科学。
(2)
自然语言处理(
Natural Language Processing ,NLP)
。主要涉及计算机处理人类语
言的数据结构和算法的计算科学。
(3)
语言工程学(
Language Engineering, LE)
。构造
NLP
的代价和结果是可度量的和
可预测的学科。
(4)
软件体系结构
(Software Architecture)
。系统的宏观组织原则,也称为基础设施
(
infrastructure
)。
(5)
语言工程学软件体系结构
(Software Architecture for Language Engineering
,SALE)
。应用
CL,NLP,LED
的软件基础设施,体系结构和开发工具。
在
LC
和
NLP
的推动下,
GATE
的角色是支持实验。在这种情况下,
GATE
的显着的
特征,包括支持自动测量(见第
10
章),提供一个公平竞争的环境,结果可以很容易地在
不同的地点和环境下重复,并以各种方式降低研究的开销。
1.3 综述
1.3.1 开发和部署语言处理的工艺设备
GATE
作为一种体系结构建议处理自然语言软件系统的元素可以有效地分解成不同类
型的组件,作为资源。
组件是可重用的软件块,具有定义良好的接口,是一种流行的构建形式,在
Sun
的
Java Bean
和微软的
.Net
中使用,例如,
GATE
组件是专
GATE
类型的
Java Bean
,并分
为三种形式:
(1)
语言资源
(Language Resources ,LRs)
:表示实体,如词典,语料库或本体。
(2)
处理资源
(Processing Resources ,PRs)
:表示主要算法实体,如,解析算法,生成
算法或
n-
元模型(
ngram
)建模算法。
(3)
可视化资源
(Visual Resources ,VRs)
:表示可视化和编辑
GUI
组件。
这些定义可以视实际需要不加区分。