解决类别不平衡的Mixup数据增强在罪名预测中的应用

版权申诉

37 浏览量更新于2024-06-27 收藏 2.08MB DOCX 举报

"罪名预测是法律判决预测中的关键任务，涉及将案件事实文本分类到不同的罪名。近年来，随着深度学习技术的发展，越来越多的研究开始使用深度学习模型来解决这个问题。例如，2018年中国‘法研杯’司法人工智能挑战赛提供的大型中文司法判决预测数据集，推动了这一领域的研究。研究人员通过多任务学习、图神经网络、深度强化学习以及外部知识融入等方法，改善罪名预测的准确性。然而，罪名预测数据存在显著的类别不平衡问题，即高频罪名样本远多于低频罪名，这可能导致模型在训练时忽视低频罪名，进而影响预测性能。为解决这个问题，一些研究者尝试了多任务分类模型和结合法律属性预测，或者利用胶囊网络融合文本序列和空间信息，以增强对低频罪名的预测能力。尽管取得了一定进展，但罪名预测的类别不平衡问题仍然是一个待解决的关键挑战。" 本文主要讨论了罪名预测在法律判决预测中的重要性及其面临的挑战。罪名预测最初依赖于统计机器学习方法，但随着深度学习的兴起，基于深度学习的模型逐渐成为主流。具体来说，一些研究者通过构建多任务学习框架，利用不同判决任务之间的依赖关系，或者引入深度强化学习抽取论据，以及利用图神经网络学习法条差异，来提升预测性能。尽管这些方法取得了一定的成果，但它们并未充分考虑罪名预测数据的类别不平衡问题。类别不平衡问题在罪名预测数据集中十分突出，表现为高频罪名样本数量远超低频罪名。这种不平衡可能导致模型训练过程中对低频罪名的忽视，从而在预测时出现误分类。为应对这个问题，研究者提出了一些策略，如构建联合多任务分类模型，利用法律属性预测来平衡不同罪名的权重，或者结合胶囊网络来同时考虑文本序列和空间信息，这些方法有助于提高对低频罪名的预测准确率。罪名预测在法律辅助系统中扮演着重要角色，而解决类别不平衡问题是提高预测模型性能的关键。未来的研究可能需要更深入地探索如何有效地平衡各类罪名的权重，以及如何更好地利用各种信息来源（如法律知识、案件上下文）来提升模型对低频罪名的敏感性和预测精度。

通过拼接${{\boldsymbol{h}}_i}$序列可得到词序列的隐状态表示 ${\boldsymbol{H}}

\in {{\bf{R}}^{n \times (2u + d)}}$, 其中, u 表示隐状态的维度.

$${\boldsymbol{H}} = [{{\boldsymbol{h}}_1};{{\boldsymbol{h}}_2}; \cdots ;{{\boldsymbol{h}}_n}]$$

(3)

本文采用结构化自注意力层来计算文本多个侧面的向量表示. 该层的注意力权重矩阵

${\boldsymbol{A}} \in {{\bf{R}}^{r \times n}}$由 2 层感知机计算得到,

$${\boldsymbol{A}} =

{\rm{softmax(}}{{\boldsymbol{W}}_{s{\rm{2}}}}{\rm{tanh(}}{{\boldsymbol{W}}_{s{\rm{1}}}}{{\boldsymbol{H}}^{\rm{T}}}{\rm{))}}$$

(4)

式中, ${{\boldsymbol{W}}_{s1}} \in {{\bf{R}}^{{d_a} \times (2u + d)}}$和

${{\boldsymbol{W}}_{s2}} \in {{\bf{R}}^{r \times {d_a}}}$是注意力层的参数, ${d_a}$和

$r$为模型的超参数, ${d_a}$表示注意力层隐状态的维度, $r$是注意力机制的个数.

文本表示矩阵${\boldsymbol{Z}} \in {{\bf{R}}^{r \times (2u + d)}}$由词序列的隐状态

表示${\boldsymbol{H}}$和注意力权重矩阵${\boldsymbol{A}}$的乘积得到,

$${\boldsymbol{Z}} = {\boldsymbol{AH}}$$

(5)

文本的向量表示${\boldsymbol z}$由矩阵${\boldsymbol{Z}}$中的$r$个向量拼接得到,

其维度为$r \times (2u + d)$.

在训练过程中, 类别先验引导 Mixup 层通过随机混合批次内的文本向量表示

$\left\{ {{{\boldsymbol z}_i}} \right\}_i^M$得到扩增的文本向量表示 $\left\{ {{{\tilde

{\boldsymbol z}}_j}} \right\}_j^M$, 其中$M$是一个批次内的样本数据量, 具体方法将在第

3 节中详细阐述.

最后, 分类层通过线性层和 Softmax 激活函数预测各罪名的概率,

$$\hat {\boldsymbol{y}} = {\rm{softmax}}({\boldsymbol{Wz}} + {\boldsymbol{b}})$$

(6)

式中, ${\boldsymbol{W}} \in {{\bf{R}}^{K \times r(2u + d)}}$和${\boldsymbol{b}} \in

{{\bf {R}}^K}$分别是线性层的权重矩阵和偏置, $K$表示罪名类别数.

3. 类别先验 Mixup 数据增强方法

3.1 Mixup 数据增强策略

Mixup 数据增强方法的主要思想是通过混合随机抽取的 2 个图像和对应标签来生成伪

样本来扩增训练数据

[14]

. 在此基础上, Verma 等

[15]

提出在嵌入空间中生成伪样本 $(\tilde

{\boldsymbol{x}},\tilde {\boldsymbol{y}})$的 Manifold Mixup 方法,

$$\begin{split} &\tilde {\boldsymbol{x}} = \lambda {g_k}({{\boldsymbol{x}}_i}) + (1 - \lambda ){g_k}({{\boldsymbol{x}}_j}) \\ &\tilde

{\boldsymbol{y}} = \lambda {{\boldsymbol{y}}_i} + (1 - \lambda ){{\boldsymbol{y}}_j} \end{split} $$

(7)

剩余20页未读，继续阅读

罗伯特之技术屋

粉丝: 4558

解决类别不平衡的Mixup数据增强在罪名预测中的应用

结合案件要素序列的罪名预测方法.docx

基于先验信息和谱分析的聚类融合算法.docx

基于Mixup数据增强的LSTM-FCN时间序列分类.docx

yolov8.docx

C mixup数据增强1

MixUp数据增强方法

MixUp数据增强方法图

MIXUP数据增强时间序列数据

mixup数据增强代码

用学术化的英语说明一下MixUp数据增强方法

最新资源