稀疏结构学习的图神经网络用于文档分类-朴银华1，李相善2，李斗勋3，金善1，3，4，5

107 浏览量更新于2023-12-01 收藏 877KB PDF 举报

图神经网络

文档分类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文基于稀疏结构学习的图神经网络归纳文档分类朴银华1，李相善2，李斗勋3，金善1，3，4，51首尔国立大学2首尔国立大学3首尔国立大学生物信息学研究所，4AIGENDRUG Co. 公司5首尔国立大学{2018-27910，sangseon486，apap7，sunkim.bioinfo} @ snu.ac.kr摘要最近，图神经网络（GNNs）已被广泛用于文档分类。然而，现有的方法大多是基于静态的词共现图，缺乏词汇层次的信息，这就带来了三个挑战：（1）词的歧义性，（2）词的同义性，（3）动态的上下文依赖性。为了解决这些挑战，我们提出了一种新的基于GNN的稀疏结构学习模型的归纳文档分类。具体地说，文档级图最初由文档级词共现图的不相交并集生成我们的模型收集了一组可训练的边缘连接不相交的词之间的句子，并采用结构学习稀疏选择边缘与动态上下文的依赖关系。具有稀疏结构的图可以通过GNN联合利用文档中的局部和全局对于归纳学习，细化的文档图被进一步馈送到通用读出功能中，用于以端到端的方式进行图级分类和优化。在几个真实数据集上的大量实验表明，该模型的性能优于大多数最先进的结果，并揭示了为每个文档学习稀疏结构的必要性。介绍文档分类是使用算法将输入文档自动分类为一个或多个类别的任务，是自然语言处理（NLP）领域中最基本的任务之一。文档分类的核心是提取能够代表文档的特征传统的方法使用手工制作的特征，词袋，词频-逆文档频率。随着深度学习技术的出现，诸如Word2Vec（Mikolov et al. 2013），利用上下文信息来学习单词表示。考虑到序列中的词序，许多模型采用基于序列的模型，包括递归神经网络（ RNN ）（Mikolovetal.2010;Tai，Socher，andManning2015;Liu，Qiu，and Huang2016）和卷积神经网络（ CNN ）（ Kim2014;Zhang ， Zhao ， andLeCun2015）。虽然这些方法可以捕获文档中的局部上下文信息，但是基于序列的模型仍然难以捕获长距离的上下文信息Copyright © 2022 ， Association for the Advancement ofArtificial Intelligence（www.aaai.org）. All rights reserved.词共现信息。随着图形神经网络（GNN）的快速采用（Kipf和Welling2017），GNN可以被设计为捕获文档中的非连续单词依赖性因此，GNN最近被用于文档分类。TextGCN（Yao，Mao和Luo2019）首先将GNN应用于一个语料库图，用于节点级文档分类任务。Huang等人（Huanget al. 2019）将TextGCN转换为图级预测，以减少训练过程中的内存消耗。为了提高新文档的泛化性能，也有归纳文档分类的工作。Tex- tING（Zhanget al. 2020）为每个文档构建单独的图，其中可以学习本地单词交互。HyperGAT（Ding et al.2020）通过利用文档级超图中的高阶关系来提高归纳模型的这些方法的实验结果令人满意，证明了基于图的模型确实可以捕获长范围的词依赖关系，这有利于模型的性能。然而，几乎所有的基于图的方法都是为了构建整个文档的静态词共现图而设计的，而没有考虑文档级信息。图中的每个唯一的词被映射到潜在空间中的仅一个表示，这可能带来三个潜在的挑战：（1）词歧义。在现实世界中，大多数单词可能有多种含义，并且在不同的上下文中，单个单词可能根据上下文具有完全不同在静态图中，一个具有多个完全不同含义的单词作为1跳邻居与所有相邻单词相连，这会误导GNN盲目地组合全局信息，混淆句法信息，并降低局部信息。(2)同义词。静态图中的非连续词可以被映射到潜在空间中的相似但是，大多数单词都有其同义词，与同义词相邻的单词也应该进行类似的映射。因此，同义词之间的一些长距离信息可能仍然不能在静态词共现图中捕获。（3）动态语境依赖性。大多数基于GNN的方法认为节点及其邻居在静态文档图中是同构的，允许同时逐层传递消息。然而，语法和语义信息应该arXiv：2112.06386v2 [cs.CL] 2022年3月+v：mala2255获取更多论文·--GW·vG{GG}G V EJJvvuv具体地传递并动态地发展，而不是在每个层次上同时进行。总之，需要学习具有局部句法和全局语义信息的文档的动态图结构以及动态上下文依赖。为了解决上述限制的差距，我们提出了一种新的稀疏图结构学习的归纳文档分类，构建可学习的和个人的图为每个文件。具体而言，文档图中的节点首先传递消息它们的句内邻居和句间邻居分别被看作是局部句法信息和全局语义信息。然后，我们应用Gumbel-softmax技巧的稀疏结构学习来学习和更新图结构，旨在以更少的上下文依赖来其中R（）表示简单的置换不变函数，例如K次迭代后的全局平均池化或全局最大池化。Gumbel-Softmax分布形式上，设离散变量π具有概率分布（φ1，...，φn ），其中类 C=c1 ， ... ， cn. Gumbel- max（Gumbel1954）为catical分布提供了一种有效的方法来对xπ进行采样：xπ= argmax（logφi+Gi）（3）其中Gi是从Gumbel（0，1）采样的Gumbel噪声。为了解决 Gumbel-Max 的不可微问题， Jang ，Gu 和 Poole（2016）提出Gumbel-Softmax近似如下：从一层到另一层的噪音。具有局部的学习图并且全局信息被进一步馈送到通用读取器中，exp（（log（φi）+Gi）/τ）πn（四）out功能进行分类和优化，xx=0exp（（log（φ）+G）/τ）端的方式。本文的贡献总结如下，所有代码可在https://github.com/qkrdmsghk/TextSSL上公开获得：• 我们为每个文档构建了一个由文档级子图据我们所知，我们是第一个构建归纳文档分类的可训练• 我们提出了一个稀疏结构学习模型，通过GNNs学习一个有效的和高效的结构与动态的语法和语义信息的每个文档。• 我们在几个现实世界中进行了广泛的实证实验。在实验中，我们的模型优于大多数现有的方法，这支持了我们的方法的有效性。预赛图神经网络GNN使用图结构和节点特征来学习表示，其中，具有可调节温度τ的softmax函数用于控制argmax操作，以使得可微分优化成为可能。该模型在本节中，我们将介绍我们的归纳文档分类模型。该模型由三个主要部分组成。我们首先构建文档级图，其中节点嵌入是通过本地和全局消息传递操作来学习的在节点嵌入的基础上，提出了一种稀疏结构学习算法，用于图的结构精化.最后，我们正则化的图结构，以保持一致的原始语法信息。问题定义我们给出一组文档D，其具有一组文档标签Y，其中每个文档d∈ D可以具有多个句子Sd=[s d，.，s d]且每个句子s d∈ Sd是图中每个节点的表示向量，以进行0kD d d节点级预测任务，或者将所有这些任务组合起来，由多个单词W组成=[w0s，.，w ns]。我们预测图的性质。最近的研究集中在基于空间的GNN上，它描述了消息传递网络的一般框架。消息传递网络的本质是在图的节点之间迭代地传播和聚合形式上，GNN中消息传递过程的第k次迭代由聚合操作和更新操作组成，定义为：h k= φ。f（k）（h（k−1），{h（k−1）：u∈N}）<$，（1）使用其用于归纳学习的分层结构将每个文档表示为单独的图D为了简单起见，我们在整个论文中省略了文档索引d。文档图由s中的多个单词及其连接组成。我们的目标是学习结构并对每个G进行预测。图构建定义1.句子级子图si∈ S，一个阶水平子图Gi=（Vi，Ei）可以表示-其中，hk表示相关联的层k处的嵌入向量，将句子S1重新发送为词共现图。的v对于节点v，函数f（k）（·）聚集并更新节点集Vi包含句子si中的单词。边集Ei包含Vi中任何一对词之间的所有连接节点表示来自它们在前一层的邻居节点。φ（）表示注入函数，例如非线性激活函数。对于图分类，读出函数聚合节点表示以获得整个图hG=R（{h（K）|v∈G}）。（二更）这可以同时发生在同一个固定大小的滑动窗口（Mihalcea和Tarau2004）。因此，可以通过取所有文档级子图=1，.，n，其中n表示文档内的句子的数量。j=1+v：mala2255获取更多论文示例节点（一）（）（）（）2��∗��31231��GNNSSLGNNSSLGNNSSLGSvv.ˆˆ.ˆˆn∈NGSG称相邻于节点的句法邻居u∈ Nt（v）vv1v2v3李刘=1GNN全局语义33212（b）第（1）款局部句法SSL2~( , )21313softmaxL（）01（，��(��)，（��∈��∗��，，1. DCD评分2.自适应采样3.稀疏图构造（c）第（1）款图1：拟议模型概述（a）示范框架。（b）GNN：地方和全球联合信息传递。（c）SSL：稀疏结构学习包含（c.1）动态上下文依赖性评分，（c.2）稀疏结构自适应采样，（c.3）重构稀疏图。定义2.局部语法邻居给定一个节点v∈V在一个预备文档图G中，我们定义一个低-日期为：h（k）=φ。h（k−1）W（k）+t（k）W（k）+m（k）W（k）<$，（5）v在子图GS内。自中级其中函数Φ表示注入函数ReLU（·）。子图包含相对更多的不变信息和语法信息，我们将局部语法邻居约束为（k）v∈Rb是节点表示向量，b是在图结构学习期间的静态和确定性。定义3.全局语义邻居给定一个节点隐藏维度的数量局部句法邻居表示t（k）∈Rb和全局语义邻居表示m（k）∈Rb可以表示为：v∈V在一个预备文档图G中，我们定义一个（k）eu，v（k−1）（六）全局语义邻居z∈ Nm（v），可以具有动态与节点v的关系。tv为胡u∈Nt（v） <${v}<$u<$vV中每个节点的全局语义邻居是动态的（k）zh，v（k−1）（七）并且可以通过结构学习来学习和选择。Mv为z∈Nm（v）（k−1）Hz茨基夫文档级图G=（V，{Et <$Em}）最终其中eu，v∈ Et表示节点v之间的边权重，由所有边水平子图GS组成，其中边它的局部句法邻居u。ez，v∈ E（k−1）表示边MEt连接节点和它们的局部句法邻居Nt（·）而边Em连接节点和它们的全局语义邻居Nm（·）。在稀疏图结构学习模型中，节点v与其全局语义邻居z之间的权重。在这里，我们规范化的原始边缘权重，以防止程度偏差的影响作者：Kipf& Welling规则，可以学习和选择全局语义邻居动态地，在此期间，局部句法边缘可以引导（2017），我们将两个边eu，v和ez，v由其中，动态边缘松弛。本地和全球联合消息传递与现有的GNN不同，考虑到所有节点都是同质的，我们通过区分邻居节点类型（局部语法邻居和全局语义邻居）来不同地聚合邻居消息以更新节点表示。消息传递部分可以进行改进，ζˆv=J具有自循环邻接y矩阵Av j=A+I。通过局部和全局消息传递的迭代操作，节点组合句子内的高阶邻居节点，并且还选择和组合句子之间的动态邻居节点。通过这种方式，在每一层中，局部句法信息可以与全局语义信息相结合，从而可以学习文档中丰富的上下文信息。H+v：mala2255获取更多论文（k）（k）Gv，jv，jV {EE}GSv，jv，j∈ VGN N N −NN（k）（k）v，j··GNregNNv，jGv，jv，jv，jv，jv，uG和平均正则化损失稀疏结构学习由于句子之间的关系是事先不知道的，因此通过利用局部和全局上下文依赖来细化文档级图是至关重要的。一个feasi-{π1：=s，π0：= 1-s}，并采用Gumbel-Softmax方法生成选择器样本p（k）的可区分概率p∈（k一种简单的方法是从完全图G中学习为（k）exp（（logπ1+g1）/τ）（十）（， tm），其中子图之间的节点是全连通的。然而，完全连接的话之间的森-pv，j=i∈{0，1}对数πi、+gi）/τ）张力通常带来必要和不必要的信息，即一种噪声信息。因此，在本节中，我们执行稀疏结构学习，其可分为两个部分。（1）计算相对得分其中g1和g0是从Gumbel分布，τ∈（0，∞）表示温度参数。当τ→0时，p∈（k）可退火到猫态分布.然后我们可以通过设置得到离散邻居选择器p（k）每个节点的全局语义候选邻居，具有动态上下文依赖性。(2)进行adap-阈值T。v，j使用Gumbel-softmax方法进行全局语义候选邻居的主动硬选择。最后，更新全局语义邻居集，使文档级图得到稀疏结构。稀疏图的重构因此，我们可以选择信息-使用p（k）的节点v的正邻居。值得一提的是尽管p（k）是从计算的s（k）Gv，jv，j给定一个节点，v在完全图中因此，节点v的所有邻居都在（ v ），我们可以得到m（ v ）=（ v ）（v）（k-1）包含节点v的所有全局语义候选邻居。我们首先计算每个邻居j∈ N（v）和节点v之间的注意系数得分，如下所示通过现有邻居和全局语义候选者邻居，我们只从候选邻居集中选择邻居来维护文档图的局部语法拓扑。具体来说，我们更新全局语义-具有所选候选邻居的节点v的tic邻居m（v）（k）如下：Nm（v）（k）=Nm（v）（k−1）<${j[|]nj→p（k）=1}。（十一）a（k）=。a（k）T[h（k）W（k）||h（k）W（k）]（八）v，j其中j∈ N∈（v）.此外，对于静态局部语法v，jvjM邻居Nt（v），我们计算熵以保持连续性，其中W（k）∈Rb×b表示节点fea的投影，结果hv∈R1×b和hj∈Rn×b.k表示当前层原始语法信息的简化并防止图中太多的结构变化我们的模型。我们采用函数Leak yReLU（·）activ a-∈L（k）=0−p函数，并且Rb×1是可学习的向量。去骗-考虑到当前本地和全球概念之间的相关性regv∈Vj∈Nt（v）v，jv，j文本信息，我们用softmax函数将一个k（k）计算动态上下文依赖性分数：exp（a（k））s（k）=v，j.（九）在最后一次迭代中，图中的所有节点被馈送转换成具有简单求和运算和线性运算读出函数。我们使用交叉熵损失函数l（，）来度量文档的预测和真实标签yLpred=I（R（hv），y），（13）v，jexp（a（k））因此，我们通过对预测损失LpredKL（k），每个我们采用归一化操作，（五）两者包含：现有邻居（v）（k−1）和全局语义候选邻居m_n（v）将在当前层中被选择。现有邻居由在先前层中选择的局部语法邻居Nt（v）和全局语义邻居Nm（v）（k−1）因此，全局语义候选邻居的得分s（k）可以阐明与节点v的现有动态上下文依赖性相比的相对差异。基于动态上下文依赖性得分s（k），我们对稀疏结构进行自适应采样。为了确定稀疏边缘，我们设置了一个阈值来选择有意义的全局通过argmax操作，每个节点v的语义邻居j。然而，在反向传播优化模型的过程中，这种操作是不可微的受Jang，Gu和Poole（2016）的启发，我们首先从Bernoulli分布生成一个neighbor选择器p（k）∈ {0，1}文档分类任务，其中λ是超参数调整新学习结构和原有结构之间的权衡。实验数据集为了进行公平和全面的评估，我们使用与Yao，Mao和Luo 2019中使用的相同的基准数据集。有三个不同领域的五个数据集，包括情感分析，新闻分类和主题分类领域。我们使用MR数据集进行正极性或负极性的二元感觉分析我们在新闻分类中使用了三个数据集。20NG是一个新闻组文件数据集，有20个类别，并且合理地平衡。R8和R52是Reuters 21578（Mos-chitti2003）数据集的两个子集，分别有8个和52个类别，这两个数据集都是极不平衡的。Ohsumed是一个主题分类数据集，由心血管疾病等23个类别的医学摘要组成。u∈N<$（v）+v：mala2255获取更多论文±------数据集联系我们#培训测试次数类数（ρ）#词汇。平均值编号长度平均值编号句话#Prop.NW先生10,6627,1083,5542（1.0）18,76420.391.1730.09%R87,6745,4852,1898（84.7）7,68865.724.032.60%R529,1006,5322,56852（1666.7）8,89269.824.342.63%奥赫苏梅德7,4003,3574,03423（62.5）14,157135.828.598.46%20NG18,84611,3147,53220（1.6）42,757221.266.067.40%表1：数据集的统计ρ表示类别不平衡比率（最频繁类别的样本量除以最不频繁类别的样本量）。平均值#长度和平均值句子分别是指文档中的单词数和句子数#Prop.NW表示测试中新词的比例。类别基于单词基于句子基于图（Tr）基于图形（Ind）基线MR R8 R52 Ohsumed 20 NG快速文本72.17±1.30 86.04±0.24 71.55±0.42 14.59±0.00 11.38±1.18SWEN 76.65±0.63 95.32±0.26 92.94±0.24 63.12±0.55 85.16±0.29CNN-非静态77.75±0.72 95.71±0.52 87.59±0.48 58.44±1.06 82.15±0.52LSTM（预训练）77.33±0.89 96.09±0.19 90.48±0.86 51.10±1.50 75.43±1.72Bi-LSTM 77.68±0.86 96.31±0.33 90.54±0.91 49.27±1.07 73.18±1.85中文GCN 76.74±0.20 97.07±0.10 93.56±0.18 68.36±0.56 86.34±0.09Huang等人-97.80±0.20 94.60±0.30 69.40±0.60-TensorGCN 77.91±0.0798.04±0.0895.05±0.11 70.11±0.2487.74±0.05DHTG 77.21±0.11 97.33±0.06 93.93±0.10 68.80±0.33 87.13±0.07文本78.93±0.65 97.34±0.25 93.73±0.47 67.95±0.52 OOMHyperGAT 77.36±0.22 96.82±0.21 94.15±0.18 66.39±0.65 84.65±0.31我们的建议79.74±0.1997.81±0.1495.48±0.26 70.59±0.3885.26±0.28表2：在五个基准数据集上测试各种模型的准确性所有模型的平均标准差报告为每个模型执行10次的基于图（Tr）表示基于转换图的方法，基于图（Ind）表示基于归纳图的方法。实验设置对于定量评价，我们遵循与（Kim 2014; Yao，Mao和Luo 2019）相同的MR，Ohsumed和20 NG数据集的训练/测试分割和数据预处理。对于R8和R52数据集，它们仅由没有标点符号的预处理版本提供，并且没有明确的样本名称。由于我们使用具有句子分割信息的文档有关R8和R52数据集预处理的更多详细信息见附录。在每个实验中，我们从训练集中随机选择10%的文档来构建验证集。基准数据集的统计数据列于表1中。基线方法在实验中，基线被分为三类：基于单词的方法，基于序列的方法和基于图形的方法。在基于单词的方法中，我们使用快速文本（Joulin et al. 2017）和SWEM（Shen et al. 2018年）。在基于序列的方法中，我们使用具有预训练单词嵌入的CNN（Kim2014）和具有预训练单词嵌入的RNN（Liu，Qiu，and Huang2016）及其变体模型LTSM（Yao，Mao，and Luo2019）。用于文档分类的基于图的模型可以分为归纳学习和归纳学习。我们比较了一系列基于GNN的转导模型，如TextGCN（Yao，Mao和Luo2019），TensorGCN （ Liu et al.2020 ）， DHTG （ Wanget al.2020），Huang et al. （Huanget al. 2019年）的报告。我们还比较了最近发表的归纳模型，如HyperGAT（丁等。2020），TextING（Zhang等人2020年）。这些方法的细节在相关著作中提供。参数设置在这一部分中，我们描述了模型训练的超参数设置。首先，我们从2，3中搜索GNN层，并从16，64，128，256中选择批量大小。我们将初始节点维数设置为300，然后从96、256、512中搜索隐藏节点维数。附录中报告了所有数据集的超级参数。我们使用Adam（Kingma and Ba2015）来优化模型。我们使用PyTorch（Paszke et al.2019）来实现我们的架构。对于文本和HyperGAT基线，我们使用相同的数据集进行公平比较。所有模型都在单个 NVIDIA GeForce RTX 3080GPU上训练。对于基线模型，我们要么显示先前研究中报告的结果（Yao，Mao和Luo2019），要么使用原始论文中描述的参数运行作者提供的代码更多的细节可以在附录中找到。+v：mala2255获取更多论文实验结果表2显示了不同方法在五个基准数据集上的性能比较。首先，大多数基于图的方法优于基于单词和基于序列的基线，这表明基于图的模型捕获的长范围依赖关系有利于文档分类。接下来，我们将我们的模型分别与基于图的转换和归纳模型进行总的来说，我们的模型在所有归纳学习模型中取得了最好的结果，这表明使用动态上下文信息从我们的模型中学习到的稀疏图结构对归纳学习有积极的影响。总而言之，我们的意见如下：看不见的文字在表2中注意到，我们的模型在MR数据集中显著优于。根据表1中的#Prop.NW，我们可以发现测试集中有很多未看到的单词，这表明稀疏图WordCooc不相交完成R8R52奥赫苏梅97.20±0.29 93.82±0.15 68.08±0.3297.29±0.21 94.80±0.20 69.72±0.27我们97.40±0.25 94.35±0.10 67.57±0.30我们的w/reg97.81±0.14 95.48±0.26 70.59±0.3897.76±0.16 95.32±0.21 70.53±0.30表3：文档级图的不同构造的比较。(1)WordCooc表示词共现图。(2)不相交是指一个不相交的并级子图。(3)完全图是指句子之间的边全连通的不交图(4)我们的图是由层次子图构建的，并通过稀疏结构学习来学习（w/ reg意味着我们将正则化添加到我们的模型中）。通过我们的模型使用归纳学习来学习的文档的结构有利于泛化能力。文件长度。从表1和表2中，我们发现一种趋势，即归纳模型在短文档（MR、R8和R52）上表现更好，而大多数转导方法在短文档（MR、R8和τ0.010.10.20.5R8 R52 Ohsumed97.50±0.29 95.16±0.1870.59±0.3897.34±0.1395.48±0.2670.21±0.4097.44±0.39 95.03±0.16 70.33±0.3297.81± 0.1494.56±0.33 70.34±0.37ODS在长文档上表现相对较好（Osumed，20NG）。看起来长文档拥有更密集的结构，这有利于转换方法的消息传递。对于归纳学习，密集结构引入了额外的噪声，这使得模型的学习变得困难。即便如此，我们的模型结合了语法和全局语义来学习文档的稀疏图。因此，该模型优于Ohsumed数据集上的所有基线和20NG数据集上的所有现有归纳方法。动态上下文依赖性。最值得注意的是，我们的模型和TensorGCN分别在归纳和转换模型中实现了最佳性能。Ten- sorGCN和我们的模型一样，也考虑了语法和顺序信息.这表明，考虑这些数据集中的顺序，语法和语义信息可以帮助文档分类。与TensorGCN不同，我们的模型能够执行归纳学习，并可以利用从丰富的结构化文档中学习到的稀疏动态上下文依赖关系来提高更复杂分类任务中的泛化性能，例如，不平衡（R52）和特定领域（Ohsumed）数据集。文档级图的构造问题在这一小节中，我们分析了不同方法来构建文档级图用于文档分类任务的有效性：（1）词共现图，（2）不相交图，（3）完全图和（4）我们的图。词共现图是用一种简单的滑动窗口方法生成的然后，我们通过设置阈值T（在等式10中）等于1来学习模型中的不相交图，这可能导致在结构学习期间没有边被采样，因此完全忽略了句间信息，并且图只关注句内信息。上1.0 97.35±0.24 95.09±0.32 70.22±0.29表4：自适应采样在不同温度τ相反，我们将阈值T设置为0来学习一个完整的图，其中所有的词在句间是相互连接的。理想情况下，这个完整的图将能够学习相对全局的信息，然而，边缘数量的急剧增加溶解了句子内的信息，并且它不能学习信息特征以有效地执行任务。这些图和我们的图的实验结果如表3所示。我们注意到我们的图表表现最好。这表明：（1）使用句子信息构建文档级图用于分类任务是有用的，允许词义消歧和捕获同义词。（2）从文档的动态上下文中学习到的稀疏结构有助于提高文档分类的通用性。值得注意的是，不相交图和完全图在不同的数据集上有不同的结果，这表明每个文档都有自己的特征，需要根据文档分类的目标自适应地学习。自适应采样分析为了获得每个数据集的适当采样温度，我们在表4中为每个数据集设置了五个温度。在通过Gumbel-softmax对每个节点的自适应邻居进行采样时，温度越小，样本越倾向于分类分布，这在我们的模型中表示文档图学习到更稀疏的结构。从结果中可以看出，不同的数据集具有不同的适当温度，Ohsumed数据集达到了+v：mala2255获取更多论文0.90.80.70.0 0.51.0培训百分比0.60.40.20.0 0.5 1.0培训百分比ELS，例如（Yang et al.2016;Peng et al.2021），利用文档层次结构来联合考虑单词顺序-句子顺序信息。由于上述模型是基于序列数据来研究的，因此可能没有考虑长句之间的依赖性。受（Kipf andWelling2017）提出的半监督GNN的启发，将文档转换为图结构化的数据并在文档图上优化GNN参数学习模型的研究迅速获得图2：微观F1得分和宏观F1得分，R52数据集上训练数据的百分比从0.025到1不等。(Red：我们的;蓝色：HyperGAT;绿色：TextING）在非常小的值下的适当温度，这符合与前一节中的消融研究相同的结论，即，所学习的稀疏结构对于Ohsumed数据集的主题标签分类在附录中，提供了其他数据集的温度的更多细节，以及可视化我们模型学习的重要稀疏连接的真实案例研究。不平衡无标记数据为了评估模型在非平衡数据集上的泛化能力随着训练集数量的减少，在极不平衡的数据集上训练模型变得更具挑战性。图2显示，随着标记训练数据数量的增加，所有归纳方法都能提高性能。我们的方法在所有情况下都显着优于其他归纳基线，这表明使用句子信息学习的稀疏文档结构允许我们的模型即使在非常不平衡的数据集中也能很好地泛化相关作品文档分类文档分类是自然语言处理领域最基本的任务之一。文档分类广泛应用于许多下游应用，如垃圾邮件过滤（Wu et al.2020 a）、新闻分类（Liu and Wu2018）、情感分析（Med-hat，Hassan，and Korashy2014）等。文档分类的一个重要部分是特征提取。传统的方法是使用基于单词的统计模型来计算文档的特征，并将其应用于下游分类器，例如支持向量机（Suykens 和Vande-walle1999）、朴素贝叶斯（McCallum，Nigam等人，1998）、随机森林（Svetnik等人，1999）。随着深度学习的快速发展，人们提出了许多基于特征的深度学习模型，例如单词表征学习模型的研究（Mikolov et al.2013;Grover and Leskovec2016）。考虑到序列中的词序，许多模型使用基于序列的模型，包括递归神经网络（RNN）（Mikolov et al. 2010;Liu，Qiu 和 Huang2016 ），卷积神经网络（ CNN ）（Kim2014）。此外，还有mod-关注用于文档分类的GNN近年来，GNN的受欢迎程度迅速增长（Kipf和Weelling2017;Vel icko vi c 'etal. 2018;Hamilton ， Ying ， andLeskovec2017;Xu et al.2018）。在自然语言领域，GNN可以更好地捕获文档中的非连续短语和长距离词依赖（Wu et al.2020 b;Li et al.2020）。最近的工作GNN的文档分类可以分为两类。一种是转换学习。TextGCN（Yao，Mao，and Luo2019）首先在整个语料图上应用GNN。Huang等人（Huanget al. 2019）为每个文档构建图表，并具有全球共享结构，以支持有效的在线学习。TensorGCN（Liu et al.2020）基于整个语料库在文档图tensor上联合学习语法，语义和顺序DHTG（Wanget al. 2020）提出了一种新的分层主题图来学习具有有意义的节点嵌入和语义边缘的主体图。而直推式学习模型在评估一个看不见的文档时必须重新训练，这在现实世界中是不现实的另一方面，归纳模型可以解决这个问题。Peng等人（Penget al. 2018）提出了一种基于图的模型来执行分层文本分类。TextING（Zhang etal. 2020）为每个文档构建了单独的单词共现图，并在未见过的文档上显示出更好的泛化性能。Hyper- GAT（Ding et al.2020）提出了新的文档级hypergraphs，并注入主题信息以获得每个文档中的高阶语义信息然而，具有预定义潜在主题的超图缺乏局部句法信息。我们提出的模型首次尝试杠杆年龄序列信息构建新的文档级图，可以联合聚合本地语法和全局语义信息，学习细粒度的单词表示，自主归纳文档分类。结论在现实世界中，每个文档都有自己丰富的句子结构，其中句内上下文包含本地信息，句间上下文捕获长范围的单词依赖关系。为此，我们构建了一个新的可训练的文档级图，以联合捕获本地和全局上下文信息。我们提出了一种通过GNNs进行稀疏结构学习的方法，通过学习到的动态上下文依赖关系来细化图的结构。实验结果表明，本文提出的局部和全局信息的结合和学习方法对归纳文档分类是有效的。Micro-F1评分宏观F1评分+v：mala2255获取更多论文图WordCooc图先20NG不相交图78.42±0.09 84.69±0.17完整图形78.77±0.10 83.38±0.4578.61±0.12 84.92±0.28--}温度先20NG培训详情模型训练的更详细信息如下。批量大小选自16、64、128 、 256 。使用维度为 300 的预训练 GloVe（Pennington，Socher和Manning2014）获得初始节点嵌入，并且隐藏节点维度选自{96，256，我们的图79.74±0.11 85.15±0.33512}。对于每个数据集，我们从{1 e-4，5e-4，1 e-3}和从{0.0，0.1，0.3，0.5，0.7，0.9，我们的图w/reg79.74±0.19 85.26±0.281.0 .我们选择200个epoch中验证度最高的点来估计测试集的性能我们使用Adam（Kingma and Ba 2014）来优化模型，我们使用PyTorch（Paszke et al. 2019）和Pytorch Geometric（Feyand Lenssen2019）来实现我们的架构。对于 TextING （ Zhang et al.2020 ）和HyperGAT（Ding et al. 2020）基线，我们使用作者提供的相同数据集和超级参数进行公平比较。预处理详细信息对于定量评估，所有数据预处理与（Kim2014;Yao，Mao和Luo2019）相同。为了构造数据集的词共现图，在句子上滑动的窗口的大小在此基础上，为了满足模型的学习条件，我们使用NLTK（Bird2006）对句子进行切分。然而，对于R8和R52数据集，它们仅由预处理版本提供，缺少标点符号，并且没有明确的样本名称。由于我们使用具有句子分割信息的文档来构建图形，因此我们从原始Reuters-21578数据集中重新提取数据。我们首先从路透社的源数据中筛选出115个类别数据集中只有一个标签的样本，然后分别在训练集和测试集中选择R52数据中所有过滤后，我们发现测试集中的训练集样本与（Yao，Mao和Luo2019）提供的数据集一致。补充文件中提供了相应的数据集。文档分类性能表5显示了在其他两个数据集上不同构建文档图的结果。从桌子上，我们知道这些结果与文中的阐述是一致的。在所有数据集中，使用动态上下文信息从模型中学习到的稀疏图比所有其他静态词共现图更表6显示了使用不同温度估计最佳性能的其他两个数据可以看出，20NG和MR数据集在0.5的温度下表现最佳。这与主要论文中报告的三个数据集的最佳温度不同，再次表明每个数据集具有不同的属性，需要使用自适应模型来学习特定于文档的结构。可视化在本小节中，我们想知道我们的模型学习了哪些重要的稀疏连接。我们从R52数据集中提取了一个真实的示例文本，如图3所示。医生-表5：不同文档级图结构的比较。0.01 79.10±0.12 85.11±0.110.1 78.10±0.14 85.01±0.320.2 79.66±0.11 84.75±0.120.579.74±0.19 85.26±0.281.0 78.89±0.13 85.10±0.22表6：不同温度下自适应采样的测试准确度“获得”由两个句子（s1和s2）组成，属于一个真正的标签我们注意到，在我们的模型中，单词局部句法信息分开，而且全局语义连接在它们两者之间结合动态上下文依赖性。使用单词共现图和不相交图的模型分别错误地将该样本预测为从每个方法的最后一个GNN层学习的词嵌入由PCA绘制为二维可视化，如下面的图3我们的意见如下：(1) 静态词共现图误预测为这可能是由于该样本的两个句子中没有太多的重复锚词(2) 我们发现不交图中句与句之间的词在潜空间中有分离的趋势。由于它缺乏句子之间的信息，因此也很难捕获出现频率较低的关键词，例如(3) 我们的模型通过学习局部句法信息来学习全局语义信息，然后将其与动态上下文相结合。而不是简单地解释通过结合全局信息，将“petrolum“信息与“takeover“信息关联起来确认本研究得到了韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）的资助[NO.2021-+v：mala2255获取更多论文税已修学分收入第0句第1句大圆顶损失收购公司提供石油亿管道圆顶元件TransCanada影响早期税周期缔约方反对派部长四月金融0.2 0.00.20.40.60.8●S1）...Wilson表示，现在就对TransCanada PipeLines Ltd 43亿美元收购要约的税务影响发表评论还为时过早关于DomePetroleumLtd. “横加公司的具体报价正在制定过程中，●S2）.威尔逊关于税收收入的可能损失，收购是完成因为穹顶0.8(a) WordCooc图0.6(b) 不相交图7(c) 我们0.60.460.450.20.00.20.440.230.0 210.2010.0 0.5 1.0图3：来自R52数据集的真实示例文档。它由两个句子（s1和s2）组成，带有“acquisition“类的真实标签在本文中，我们使用黑线

下载后可阅读完整内容，剩余1页未读，立即下载