基于Transformers的长文档高效分类评估与比较

61 浏览量更新于2023-12-01 收藏 438KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文基于Transformers的长文档高效分类Hyunji Hayley Park伊利诺伊大学伯克利分校hpark129@illinois.edu约加什·维亚斯AWS AI Labsyogarshi@amazon.com卡希夫沙阿MicrosoftWindowskashifshah@microsoft.com摘要已经提出了几种方法来分类长文本文档使用trans-former。然而，在基准上缺乏共识，无法对不同的方法进行公平的比较。在这篇文章中，我们提供了一个全面的评估相对有效性衡量对各种基线和不同的数据集-无论是在准确性以及时间和空间开销。我们的数据集涵盖了二进制、多类和多标签分类任务，并代表了信息在长文本中的各种组织方式（例如，对做出分类决策至关重要的信息位于文档的开头或结尾）。我们的研究结果表明，更复杂的模型往往无法超越简单的基线，并且在数据集之间产生不一致的性能。这些研究结果强调，未来的研究需要考虑全面的基线和数据集，更好地代表长文件分类的任务，以开发强大的模型。11介绍基于变换器的模型（Vaswani et al. ，2017）在NLP的许多领域取得了很大进展，包括文本分类（Minaeeet al. ，2021年）。然而，这样的进展通常限于短序列，因为自我注意需要相对于输入序列长度的二次计算时间和空间。广泛使用的模型，如BERT（Devlin et al. ，2019）或RoBERTa（Liu et al. ，2019年）通常预训练处理多达512个令牌。这是有问题的，因为真实世界的数据可以任意长。因此，已经提出了不同的模型和策略来处理更长的序列。特别是，我们可以确定几个标准的approaches的任务，长期的文件分类。最简单的方法是截断长文档-在前512个令牌上使用BERT或RoBERTa更有效的Transformer模型，如Longformer（Belt-agy等人，2020）和BigBird（Zaheer et al. ，2020）使用稀疏的自我注意力而不是完全的自我注意力来处理较长的文档（例如， 4，096个代币）。其他方法通过将长文档划分为较小的块来整体处理长文档（例如Pappagari et al. ，2019）。最近的工作提出的另一种想法是从文档中选择对做出分类决策显着的句子（Ding et al. ，2020）。然而，由于缺乏对基准数据集和基线的共识，这些模型的相对功效并不十分清楚。 Tay等人（2021）提出了一个基准，用于比较可以在长序列上运行的Transformers，但这仅包括单个模拟的2长文档分类任务。高效变压器的新变体通常仅与BERT/RoBERTa基线进行比较，而不与为该任务设计的其他Transformer模型进行比较（例如， Belt-agy 等 . ， 2020;Zaheer et al. ，2020）。相反，为长文档分类设计的模型通常只关注特定数据集的最新模型，而不考虑BERT/RoBERTa基线或任何其他Transformer 模型（例如 Ding et al. ， 2020;Pappagari et al. ，2019）。本文通过对统一数据集和基线进行评估，对现有的长文档分类模型进行了急需的我们比较了代表不同方法的模型，在亚马逊工作期间完成的工作1我们的代码可以在https://github.com/amazon-research/efficient-longdoc-classification上找到。2该基准考虑了对IMDB评论进行分类的任务（Maaset al. ，2011）使用字节级信息来模拟较长的文档。arXiv：2203.11258v1 [cs.CL] 2022年3月+v：mala2277获取更多论文数据集和Transformer基线。我们的数据集涵盖二进制，多类和多标签分类。我们还考虑了与分类相关的信息在文本中组织的不同方式（例如，在开始或接近结束时）以及这如何影响模型性能。我们还比较了模型的训练时间、推理时间和GPU内存需求，以说明某些模型相对于BERT基线的额外复杂性。这使我们能够比较模型在现实世界中使用的实际效率。我们的研究结果表明，更复杂的模型往往优于更简单的模型（通常包括BERT基线），并且在数据集之间产生基于这些发现，我们强调了在开发模型时考虑不同数据集的重要性，特别是那些代表长文本中关键信息的不同方式的数据集此外，我们建议未来的研究还应始终包括更简单的基线模型。概括起来，我们的贡献是：• 我们通过在不同的数据集上对现有模型进行评估，并针对多个基线，深入了解现有模型对长文档分类的实际我们比较了这些模型的准确性以及它们的运行时间和内存要求。• 我们提出了一套全面的评估数据集的长文档分类与各种数据设置为未来的研究。• 我们提出了简单的模型，往往优于形式复杂的模型，可以为未来的模型，这项任务的挑战性基线。2方法在本文中，我们比较了代表不同方法的长文档分类模型（Beltagy et al. ，2020; Pappagari etal. ，2019; Dinget al. ，2020）的统一数据集和基线。2.1现有模型如§1所述，已经提出了四种不同的方法用于长文档分类：1）文档截断，2）有效的自我注意，3）块表示，4）关键句选择。在这项工作中，我们评估了每个类别的代表性模型BERT（文档截断）最简单的方法包括在将长文档截断为前512个标记后对BERT进行3与De-vlin等人（2019）一样，我们在[CLS]令牌上使用全连接层进行分类。这是一个基本的基线，因为它确定了普通BERT模型在分类长文档方面的局限性，但仍然具有竞争力（例如Beltagy et al. ， 2020; Chalkaline et al. ，2019）。然而，一些先前的工作没有考虑这个基线（例如， Ding等人，2020; Pappagari etal. ，2019）。Longformer（有效的自我注意力）我们选择Longformer（Beltagy et al. ，2020）作为被设计为基于与输入序列的长度线性缩放的有效自我注意来处理较长输入序列的模型（参见Tayet al. ，2020年，进行详细调查）。Longformer也会截断输入，但它最多可以处理4,096个令牌，而不是BERT中的512个令牌。继Beltagy等人（2020）之后，我们在第一个[CLS]令牌之上使用了一个全连接层，具有全局关注度。Longformer在一个小的二进制分类数据集上的表现显著优于RoBERTa基线（Beltagy et al. ，2020）。然而，它还没有针对任何其他文本分类模型或包含长文档的大型数据集进行评估。ToBERT （块表示）BERT上的 Transformer（ToBERT，Pappagari et al. ，2019年）采用分层方法，可以处理任何长度的完整文档。该模型将长文档划分为200个令牌的较小块据报道，在口语对话的数据集上，它比以前的最先进的模型更好。但是，它还没有与其他Transformer型号进行比较。我们根据Pappagari等人（2019）报告的规范重新实现了该模型，因为代码尚未公开。CogLTX （关键句选择）认知长文本（CogLTX，Ding et al. ，2020）联合训练两个BERT（或RoBERTa）模型，从长文档中选择关键句子，用于包括文本分类在内的各种任务。我们探讨了问答题的基本思想，即几个关键句就足以完成给定的任务-3在实践中，前510个令牌与[CLS]和[SEP]令牌一起使用。为了简单起见，我们在整个论文中使用包括两个特殊令牌的令牌计数。+v：mala2277获取更多论文ing（例如Min et al. ，2018），但对于文本分类来说并不多。据报道，它的性能优于ToBERT和其他一些神经模型（例如CNN），但没有与其他Transformer模型进行评估。我们使用他们的多类分类代码的任何分类任务与适当的损失函数。 4 继 Beltagy 等人（2020）之后，我们在二元分类模型的logit输出上使用sigmoid和二元交叉熵损失。相同的设置用于具有softmax归一化和交叉熵损失的多标签分类。2.2新基线除了上面的代表性模型，我们还包括两种新的方法，作为简单但强大的基线模型。BERT+TextRank虽然BERT截断基线通常是有效的，但对文档进行分类所需的关键信息为了解决这个问题，我们增加了前512个标记，第二组512个标记通过TextRank获得，这是一种有效的无监督句子排名算法（Mihalcea和Tarau，2004）。TextRank为更复杂的模型提供了一个有效的具体来说，我们将前512个标记的BERT表示与TextRank中排名最高的句子（最多512个标记）连接起来。和前面一样，我们在级联表示的顶部使用全连接层进行分类。我们使用PyTextRank（Nathan，2016）作为 spaCy 管道的一部分（ Honnibal et al. ，2020），以实现默认设置。BERT+Random 作为 BERT+TextRank 模型的替代方法，我们选择最多512个标记的随机像BERT+TextRank一样，这可以是一种简单的基线方法，以防截断文档中缺少关键信息。52.3超参数我们使用现有模型的报告超参数。然而，考虑到我们包含了原始论文中没有使用的不同数据集，我们还探索了不同的4https://github.com/Sleepychord/CogLTX5为简单起见，前512个标记中包含的句子并不排除在随机选择过程中。不同的设置是可能的，但我们的初步结果没有显示出太大的差异。数据集#BERT代币%长Hyperpartial744.2± 677.953.520新闻组368.8± 783.8 14.7EURLEX-57K 707.99± 538.7 51.3图书摘要574.3± 659.6 38.8–表1：数据集的统计数据。# BERT令牌是指通过BERT基础（未装箱）模型的去kenizer获得的平均令牌计数。% Long是指超过512个BERT令牌的文档的百分比。模型的超参数详细信息见附录A。2.4数据我们选择了三个包含长文档的分类数据集，以涵盖各种分类任务：Hyperpartial（Kiblique etal. ， 2019 ）（二元分类）、 20 个新闻组（Lang，1995）（多类分类）和EURLEX-57K （ Chalkaline et al. ， 2019 ）（多标签分类）。我们还将 CMU 图书摘要数据集（Bamman和Smith，2013）重新用作额外的多标签分类数据集。我们还修改了EURLEX和Book Sum- mary数据集，以代表不同的数据设置，并在这些具有挑战性的变化下进一步测试所有模型EURLEX数据集中的文档包含分为几个部分的法律文本，前两个部分（标题，引用）携带最相关的分类信息（Chalkaline et al. ，2019）。我们颠倒了各部分的顺序，使此关键信息位于每个文档的末尾（倒置的EU- RLEX）。这创建了一个数据集，特别是对只关注前512个标记的模型进行了我们还将CMU Book Summary数据集中的成对图书摘要组合在一起，以创建一个新的数据集（Paired Book Summary），该数据集包含具有两个不同信息块的较长文档同样，这挑战了模型，不能仅仅依赖于来自前512个令牌的信号。此外，它进一步挑战模型检测两组独立的信号以获得正确的分类结果。总之，这些修改后的数据集代表了信息在长文本中呈现的不同方式，并测试了现有模型对这些信息的鲁棒性表1总结了我们所有数据集的特征，更多细节见附录B。+v：mala2277获取更多论文型号Hyper-20新闻EURLEX倒书配对党派组EURLEX总结总结伯特92.0084.7973.0970.5358.1852.24BERT+TextRank91.1584.9972.8771.3058.9455.99BERT+随机89.2384.6573.2271.4759.3656.58隆福尔默95.6983.3954.5356.4756.5357.76ToBERT89.5485.5267.5767.3158.1657.08CogLTX94.7784.6370.1370.8058.2755.91表2：所有数据集的测试集性能指标五次运行的平均准确度（%）报告为Hyperpartial和20NewsGroups，而平均微F1（%）用于其他数据集。每列的最高值用粗体表示，第二高值用下划线表示。低于BERT基线的结果用阴影表示。2.5度量对于二元（超党派）和多类（20个新闻组）分类任务，我们报告了测试集的准确性（%）对于其余的多标签分类数据集，我们使用微F1（%），它基于对每个类别的单个真阳性、假阳性和假阴性进行求和。63结果表2总结了使用不同随机种子的五次运行中模型的平均性能总的来说，关键的结论是，更多的诡辩模型（ Longformer 、 ToBERT 、CogLTX）并没有全面超越基线模型。事实上，这些模型仅在两个数据集上比基线更准确。根据 Beltagy 等人（ 2020 ）的报告，Longformer 在 Hyperpartisan 上的表现最强，CogLTX也表现良好。Long- former和ToBERT在配对图书摘要中表现最好配对簿摘要似乎对所有模型都是最具挑战性的，也是BERT基线表现最差的唯一数据集。然而，值得注意的是， BERT+TextRank 和 BERT+Random 中的BERT基线的简单增强并不比最佳性能模型落后，即使对于这个具有挑战性的数据集也是如此。ToBERT对于其他数据集，这些更复杂的模型表现优于6这些指标的选择基于以前的文献。对其他度量（例如，宏F1）的探索可以提供进一步的见解。然而，我们没有看到初步结果的显着差异，我们相信结果的总体趋势不会有所不同。模型火车时间推理时间GPU存储器伯特1.001.00<16+TextRank1.961.9616+随机1.982.0016隆福尔默12.0511.9232ToBERT1.191.7032CogLTX104.5212.53<16表3：每个模型相对于BERT的内存和内存需求，基于Hyperpartial数据集的实验。训练和推理时间以秒为单位进行测量和比较。GPU内存要求以GB为单位。Longformer和ToBERT在具有更大内存的GPU上进行训练，并与机器上的可比运行进行比较。基线。特别是，最简单的BERT基线（将文档截断到前512个令牌）显示出整体竞争力，超过了 Hyperparti- san 、 20 NewsGroups 和EURLEX的大多数模型。只有配对图书摘要数据集的BERT基线表现得比其他模型更差。一般来说，与简单模型相比，我们在数据集上观察到更复杂的模型几乎没有即使仅在测试集中的长文档上评价模型，也观察到类似的趋势（附录C）。这些发现表明，当考虑到不同的数据集时，现有的模型不一定能更好地全面处理长文档考虑到表3中总结的运行时和内存需求的差异，这些现有模型的相对不一致的性能更加令人失望。与前512个令牌上的BERT相比，Longformer需要大约12倍的时间进行训练和推理+v：mala2277获取更多论文而CogLTX需要更长的时间。ToBERT比这两个更结合准确性/F1分数的不一致性，这表明复杂的模型不一定适合效率至关重要的真实4讨论和建议我们的研究结果表明，复杂的长期文档分类模型并不总是优于简单的基线。现有模型的表现往往优于最简单的BERT基线，这一事实表明，数据集往往在前512个令牌中具有可访问的关键信息这在某种程度上是意料之中的，因为据报道，EURLEX的前两部分携带了最多的信息（ Chalkaline et al. ， 2019 年）和20NewsGroups包含大多数简短的文档。考虑到一个好的模型应该在不同的环境下工作良好，包括这些数据集来评估长文档分类的模型仍然是合理的然而，这些数据集本身并不能代表信息在长文本中的各种表现方式。相反，未来的研究应该在各种数据集上评估他们的模型，以创建强大的模型。虽然通常很难获得适合长文档分类的数据集，但我们对现有数据集的修改可能会为未来的研究提供重新利用现有数据集的方法我们颠倒EURLEX各部分的顺序来创建反转的EURLEX数据集，其中关键信息可能出现在每个文档的末尾。我们在表 2 中的结果表明，选择性模型（BERT+TextRank，BERT+Random，CogLTX）在该数据集上的表现优于读取较长连续序列的模型（Longformer，ToBERT）这表明，该倒置数据集可能包含为了更好的性能而应该被忽略的部分文本，从而为未来的研究提供了一个新的测试平台配对图书摘要数据集提供了另一个具有挑战性的数据设置，其中包含两个不同的信息块。虽然 Longformer 和ToBERT在该数据集上的表现明显优于其他数据集，但整体模型表现相当不佳，为未来的模型留下了改进的空间。其中许多调查结果只是由于选择了相关的基线才得以揭示，未来的工作也将受益于纳入这些基线。BERT/RoBERTa基线对于激励员工使用Transformers解决长文档分类的问题，并揭示在前 512 个标记中可检索的信息量BERT+TextRank和BERT+Random是更强的基线，它们的表现优于选择关键句子的更复杂的模型。事实上，他们在六个数据集中的五个数据集上的表现优于5结论已经提出了几种方法来使用变压器分类长文档，但它们的相对功效仍然未知。在本文中，我们比较了现有的模型和基线上的各种数据集，并在他们的时间和空间要求。我们的研究结果表明，现有的模型，虽然需要更多的时间和/或空间，并没有在数据集上一致表现良好，并且往往优于基线模型。未来的研究应考虑基线和数据集，以建立稳健的性能。致谢我们要感谢评审员和区域主席的周到评论和建议。我们还要感谢AWS AI Labs的成员，他们进行了许多有益的讨论和反馈，促成了这项工作。引用David Bamman和Noah A.史密斯2013. 区分性图书文摘的新对齐方法。arXiv：1305.1319。放大图片作者：Matthew E.彼得斯和阿曼·科汉2020.Longformer ：长文件转换器。 arXiv ：2004.05150。Ilias Chalkalos，Emmanouil Fergadiotis，ProdromosMalakasiotis，and Ion Androutsopoulos. 2019. 大规模多标签文本分类在欧盟腿-islation。计算语言学协会第57届年会论文集，第6314-6322页，意大利佛罗伦萨。计算语言学协会。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。+v：mala2277获取更多论文丁明，周昌，杨红霞，唐杰。2020. CogLTX：将BERT应用于长文本。神经信息处理系统进展，第33卷，第12792-12804页。Curran Associates，Inc.马修·霍尼博，伊内斯·蒙塔尼，苏菲·范兰德格，还有阿德里安·博伊德. 2020. spaCy：Python中的工业级自然语言处理。约翰内斯·基什特、玛丽亚·梅斯特、里沙布·舒克拉、伊曼纽尔·文森特、帕亚姆·阿迪内、大卫·科尼、本诺·斯坦和马丁·波特萨斯特。2019.SemEval-2019任务4：超党派新闻检测。第13届语义评估国际研讨会论文集，第829-839页计算语言学协会肯·朗1995年学习过滤网络新闻. 第十二届国际机器学习会议论文集，第331Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Man-dar Joshi，Danqi Chen，Omer Levy，MikeLewis ， LukeZettlemoyer ， andVeselinStoyanov.2019. RoBERTa ：一种鲁棒优化的BERT预训练方法。arXiv：1907.11692。安德鲁湖作者：Raymond E.彼得·戴利放大图片作者：Andrew Y. Ng和Christopher Potts。2011. 学习词向量进行情感分析。在计算语言学协会第49届年会的会议记录中：人类语言技术，第142-150页，美国俄勒冈州波特兰。计算语言学协会。拉达·米哈尔恰和保罗·塔劳。2004. TextRank：使文本有序。2004年自然语言处理，第404计算语言学协会。Sewon Min ， Victor Zhong ， Richard Socher ，andCaiming Xiong. 2018. 从文档的最小上下文中高效、健壮地回答问题。第56届计算语言学协会年会论文集（第1卷：长文），第1725-1735页，澳大利亚墨尔本。计算语言学协会。Shervin Minaee，Nal Kalchbrenner，Erik Cambria，Nar- jes Nikzad ， Meysam Chenaghlu ， andJianfeng Gao.2021. 基于深度 ACM ComputingSurveys，54（3）：1帕科·内森2016. PyTextRank，TextRank的Python实现，用于文本文档。Raghavendra Pappagari ， Piotr Zelasko ， JesúsVillalba ， Yishay Carmiel ， and Najim Dehak.2019. 用于长文档分类的分层转换器。在2019年IEEE自动语音识别和理解研讨会（ASRU），第838Yi Tay，Mostafa Dehghani，Samira Abnar，YikangShen，Dara Bahri，Philip Pham，Jinfeng Rao，Liu Yang，Sebastian Ruder，and Donald Metzler.2021. 远程竞技场：高效变形者的基准.在国际学习代表会议上。Yi Tay ， Mostafa Dehghani ， Dara Bahri ， andDonald Metzler. 2020. 高效的变压器：一项调查。arXiv：2009.06732。Ashish Vaswani ， Noam Shazeer ， Niki Parmar ，Jakob Uszkoreit，Llion Jones，Aidan N Gomez，Jakukasz Kaiser，and Illia Polosukhin. 2017. 注意力就是你所需要的。神经信息处理系统进展，第5998-6008页。Curran As- sociates，Inc.ManzilZaheer ， GuruGuruganesh ， AvinavaDubey，Joshua Ainslie，Chris Alberti，SantiagoOntanon，Philip Pham，Anirudh Ravula，QifanWang，Li Yang，and Amr Ahmed.2020. 大鸟：变形金刚更长的序列。arXiv：2007.14062。A超参数在所有数据集中，我们使用Adam优化器，每个模型的一次运行的学习率为{5e-5，3e-5，0.005}，并为模型选择了Longformer使用0.005的学习率，只是因为它在大多数数据集的5e-5或3e-5的学习率下表现不佳。我们把辍学率定为0.1，如Devlin et al. （2019年）。针对不同数据集微调模型所需的时期数量可能会有所不同，因此我们对所有模型进行了20个时期的训练，并根据验证集上的性能指标选择了最佳我们报告了五种不同种子的测试集的平均基线模型和CogLTX上的所有实验都在具有16GB内存的单个Tesla V100 GPU上进行。对于 Longformer 和 ToBERT ，我们使用了具有40GB内存的NVIDIA A100 SXM4。有关所选超参数的更多详细信息，请访问我们的代码https：//github.com/amazon-research/efficient-longdoc-classification.B数据集超党派是一个二元分类数据集，其中每篇文章都被标记为真（超党派）或假（非超党派）（Kills et al. ，2019）。超过一半的文档超过512个令牌。它与其他数据集完全不同，因为它是一个非常小的数据集：训练集包含+v：mala2277获取更多论文模型超-20新闻EURLEX倒置书配对数据集类型#火车#Dev测试次数# 标签BERT代币数量% 长超党派二元多类多标签多标号多标号51610,18245,00010,2305,115641,1326,0001,279639657,5326,0001,2796392204,271227227744.18± 677.87368.83± 783.84707.99± 538.69574.31± 659.561，148.62±933.9753.4914.7151.3038.7675.5420个新闻组EURLEX-57K–图书摘要–表4：数据集的统计数据。# BERT Tokens是指通过BERT基本模型（未分类）的令牌化器获得的平均令牌计数。% Long是指超过512个BERT令牌的文档的百分比党派组EURLEX总结总结伯特88.0086.0966.7662.8860.5652.23BERT+TextRank85.6385.5566.5664.2261.7656.24BERT+随机83.5086.1867.0364.3162.3456.77隆福尔默93.1785.5044.6647.0059.6658.85ToBERT86.50–61.8559.5061.3858.17CogLTX91.9186.0761.9563.0060.7155.74表5：针对所有数据集的测试集中的长文档评估的性能指标。五次运行的平均准确度（%）报告为Hyperpartial和20NewsGroups，而平均微F1（%）用于其他数据集。每列的最高值用粗体表示，第二高值用下划线表示。低于BERT基线的结果用阴影表示。在20NewsGroups上运行ToBERT似乎需要进一步的预处理，我们无法用报告的信息复制。516个文档，而开发和测试集分别包含64和65个文档。20NewsGroups是一个广泛使用的多类分类数据集（Lang，1995）。这些文件被分为均衡的 20 类。只有大约15% 的文件超过 512 to-kens。虽然原始数据集仅包含训练集和测试集，但我们报告了Pappagari等人（2019）中使用的训练/开发/测试分割的结果请注意，CogLTX仅使用原始训练集和测试集报告其在测试集上的准确率为87.00%，在测试集中的长文档上的准确率为87.40%。我们在相同的设置中实现了CogLTX，并进行了五次不同的运行，结果在测试集上的性能要低得多，为85.15%，仅在长文档上为86.57%此外，我们无法在20个新闻组上复制ToBERT结果。目前还不清楚如何为ToBERT进一步预处理数据集，我们的ToBERT实现在20NewsGroups上导致了GPU因此，我们在这个数据集上显示了ToBERT的报告结果EURLEX-57 K 是基于欧盟法律文件（Chalkaline）等人，2019）。总共有4，271个标签可用，其中一些标签不经常或根本不出现在训练集中，使其成为一个非常令人困惑的数据集。大约一半的数据集是长文档。每个文档都包含四个主要区域：标题、引用、主体和附件。Chalkaline等人（2019）观察到，仅处理前两个部分（header和recitals）的结果与完整文档几乎相同，并且前512个token的BERT超过了他们考虑的所有其他模型。在检查数据集之后，我们排除了附件部分，因为它似乎没有提供太多的文本信息。CMU图书摘要包含从维基百科提取的图书摘要，以及来自Freebase的相应元数据，例如图书作者和体裁（Bamman和Smith，2013）。我们使用的摘要和它们相应的gen-res的多标签分类任务。在删除数据点后，我们保留了16，559份文档中的12，788份，这些数据点缺少任何类型信息和/或足够的摘要信息（例如少于10个单词）。总共有227个类型标签，如+v：mala2277获取更多论文C仅长文档上的结果表5显示了仅在测试集中对长文档（超过512个标记）进行评估的结果总体而言，结果显示出与表2中观察到的趋势相似的趋势，表2报告了测试集中整个文档的结果。一般来说，现有的模型往往优于BERT截断基线。这表明这些为长文档分类设计的模型在数据集中的长文档上表现得不是特别好。唯一的区别是，BERT+Random 和ToBERT在仅针对20NewsGroups和Book Summary的长文档进行评估时，表现优于然而，性能增益似乎并不显著，相对于其他模型的相对性能基本保持不变。一般来说，无论模型是在测试集中的整个文档还是长文档上进行评估，给定数据集的模型的相对强度都保持不变

下载后可阅读完整内容，剩余1页未读，立即下载