通过拼接${{\boldsymbol{h}}_i}$序列可得到词序列的隐状态表示 ${\boldsymbol{H}}
\in {{\bf{R}}^{n \times (2u + d)}}$, 其中, u 表示隐状态的维度.
$${\boldsymbol{H}} = [{{\boldsymbol{h}}_1};{{\boldsymbol{h}}_2}; \cdots ;{{\boldsymbol{h}}_n}]$$
本文采用结构化自注意力层来计算文本多个侧面的向量表示. 该层的注意力权重矩阵
${\boldsymbol{A}} \in {{\bf{R}}^{r \times n}}$由 2 层感知机计算得到,
$${\boldsymbol{A}} =
{\rm{softmax(}}{{\boldsymbol{W}}_{s{\rm{2}}}}{\rm{tanh(}}{{\boldsymbol{W}}_{s{\rm{1}}}}{{\boldsymbol{H}}^{\rm{T}}}{\rm{))}}$$
式中, ${{\boldsymbol{W}}_{s1}} \in {{\bf{R}}^{{d_a} \times (2u + d)}}$和
${{\boldsymbol{W}}_{s2}} \in {{\bf{R}}^{r \times {d_a}}}$是注意力层的参数, ${d_a}$和
$r$为模型的超参数, ${d_a}$表示注意力层隐状态的维度, $r$是注意力机制的个数.
文本表示矩阵${\boldsymbol{Z}} \in {{\bf{R}}^{r \times (2u + d)}}$由词序列的隐状态
表示${\boldsymbol{H}}$和注意力权重矩阵${\boldsymbol{A}}$的乘积得到,
$${\boldsymbol{Z}} = {\boldsymbol{AH}}$$
文本的向量表示${\boldsymbol z}$由矩阵${\boldsymbol{Z}}$中的$r$个向量拼接得到,
其维度为$r \times (2u + d)$.
在训练过程中, 类别先验引导 Mixup 层通过随机混合批次内的文本向量表示
$\left\{ {{{\boldsymbol z}_i}} \right\}_i^M$得到扩增的文本向量表示 $\left\{ {{{\tilde
{\boldsymbol z}}_j}} \right\}_j^M$, 其中$M$是一个批次内的样本数据量, 具体方法将在第
3 节中详细阐述.
最后, 分类层通过线性层和 Softmax 激活函数预测各罪名的概率,
$$\hat {\boldsymbol{y}} = {\rm{softmax}}({\boldsymbol{Wz}} + {\boldsymbol{b}})$$
式中, ${\boldsymbol{W}} \in {{\bf{R}}^{K \times r(2u + d)}}$和${\boldsymbol{b}} \in
{{\bf {R}}^K}$分别是线性层的权重矩阵和偏置, $K$表示罪名类别数.
3. 类别先验 Mixup 数据增强方法
3.1 Mixup 数据增强策略
Mixup 数据增强方法的主要思想是通过混合随机抽取的 2 个图像和对应标签来生成伪
样本来扩增训练数据
[14]
. 在此基础上, Verma 等
[15]
提出在嵌入空间中生成伪样本 $(\tilde
{\boldsymbol{x}},\tilde {\boldsymbol{y}})$的 Manifold Mixup 方法,
$$\begin{split} &\tilde {\boldsymbol{x}} = \lambda {g_k}({{\boldsymbol{x}}_i}) + (1 - \lambda ){g_k}({{\boldsymbol{x}}_j}) \\ &\tilde
{\boldsymbol{y}} = \lambda {{\boldsymbol{y}}_i} + (1 - \lambda ){{\boldsymbol{y}}_j} \end{split} $$