540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
CVPR
#****
CVPR
#****
CVPR 2020 Submission #****. CONFIDENTIAL REVIEW COPY. DO NOT DISTRIBUTE.
图 11. GLaRA 实验效果图
于允许节点带有标签(种子规则),也允许节点无标签
(候选规则)。作者认为相似语义的规则应该能够识别出
相似的实体类型,因此应用图注意力网络以传播节点
特征。图注意力模型公式和课上介绍的并无差别因此
不再展开。模型的损失函数为公式(8):
L
total
= L
sup
+ L
reg
+ L
dist
(8)
L
sup
= −(y
i
log (p
i
)) + (1 − y
i
) log (1 − p
i
) (9)
L
reg
=
X
i,j∈N
i
∥h
i
− h
j
∥
2
(10)
L
dist
= dist (h
pos
, h
neg
) (11)
其中,公式(9)为了计算种子规则的有监督损失,公
式(10)为了鼓励相邻节点的表示更加相似,公式(11)为
了计算正规则和负规则的矩心距离(其目的是为了让
正负预测的平均向量相似度尽可能远)。当学习过程完
成时,每个规则都学习到了新的向量表示,并且根据每
个规则向量对于正种子规则矩心的距离选出 M 个 10
最小的作为增广规则。在预测阶段,作者将种子规则和
学习到的新规则结合模型 LinkedHMM(不是重点也不
展开了)进行预测。最终在弱监督任务上,GLaRA 均
获得了最好的效果。
2.1.4 Bipartite Flat-Graph Network for
Nested Named Entity Recognition, ACL
2020
嵌套实体抽取方向也是一个较难的任务,其他工
作也大多聚焦在平坦实体 (Flat Entities) 识别任务上。
以图片12为例,“Thomas Jeerson, third president of
the United States”是一个人名,而其内部又嵌套实
体“third president of the United States”(人名)和
实体”the United States”(地名)。Ying Luo [8]认为在
原有模型识别外部实体的基础上可以构建图网络以学
习和捕捉内部实体特征并且做进一步识别,因此提出
了一种二分平图网络 BiFlaG 用于嵌套实体抽取。网络
图 12. 嵌套实体识别样例(实线代表内部嵌套实体的起始位
置)
包含两个子图模块:一个常规 NER 层用于最外层实体
识别,一个图层用于所有内层实体识别。BiLSTM 和
GCN 用于联合学习常规实体和他们的内部依赖。
更进一步的,模型如图片13所示,首先对于外部实
体使用 Flat NER Module,即通过 BiLSTM 和 CRF
模块进行识别。随后进入构图层 Graph Module。图的
构建分为实体图 Graph
1
和邻接图 Graph
2
。Graph
1
的点为句子中被 Flat NER Module 识别为实体的所有
单词,边的构成满足以下公式 e
ij
= (v
i
, v
j
), 其中 start
≤ i < j ≤ end,start 和 end 分别代表每个实体的首尾
位置。Graph
2
的目的在于学习词语的上下文关系,所
以按照句子的出现顺序顺次相连即可。
接下来为了学习实体内部和外部的关系,作者采
用双向图网络 BiGCN 来学习节点特征。与普通 GCN
不同的是,信息随着边的方向和反向分别传播,并得到
正向和反向两种节点向量。具体形式如公式(
14):
−→
f
i
= ReLU
X
e
ij
∈E
−→
W
f
x
j
+
−→
b
f
(12)
←−
f
i
= ReLU
X
e
ji
∈E
←−
W
f
x
j
+
←−
b
f
(13)
f
i
=
h
f
i
;
←−
f
i
i
(14)
最后模型将两种向量融合,并且利用公式(15)对内
部嵌套实体进行预测:
M
ij
= softmax (W
3
ReLU (W
1
f
i
⊕ W
2
f
j
)) (15)
6