社交媒体语言检测识别个人就业状况的研究：AL策略与基于BERT的分类模型

73 浏览量更新于2023-12-01 收藏 2.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文Twitter上个人就业状况的多语言检测Manuel Tonneau1，2，3，Dhaval Adjodah1，2，4，JoãoPalotti5，Nir Grinberg6andSamuel Fraiberger1，2，41世界银行2纽约大学3马克·布洛赫中心4麻省理工学院5卡塔尔计算研究所6内盖夫本-古里安大学摘要检测社交媒体上个人就业状况的披露可以提供有价值的信息，以将求职者与合适的空缺职位相匹配，提供社会保障或衡量劳动力市场流动。然而，由于这些个人信息在社会媒体内容的海洋中非常罕见，而且用于描述它们的语言形式多种多样，因此识别这些个人信息是一项艰巨的任务在这里，我们研究了在极端阶级不平衡的现实世界中的三种主动学习（AL）策略，并使用基于BERT的分类模型在三种语言中识别出五种关于个人就业状况（例如失业）的披露我们的研究结果表明，即使在极端不平衡设置下，与具有相同数量标签的监督基线相比，少量的AL迭代足以在精确度，召回率和结果多样性方面获得大量且显着的收益我们还发现，没有AL战略一贯优于其余的。定性分析表明，AL有助于BERT的注意力机制集中在核心术语上，并调整语义扩展的边界，突出了可解释模型的重要性，以提供对这个动态学习过程的更大控制和可视性。1介绍有关个人就业状况的最新信息在总体水平上，对劳动力市场状况的估计传统上是基于具有全国代表性的调查，这些调查的制作成本很高，特别是在中低收入国家（Devarajan， 2013年;Jerven，2013年）。随着社会媒体在世界各地变得越来越普遍，越来越多的人现在可以与同龄人分享他们的就业状况，并释放他们网络的社会资本。这反过来又可以提供Lost Job被雇用失业找工作工作机会图1：一条推文的例子，暗示其作者目前失业并正在积极寻找工作。一个新的视角来审视劳动力市场和制定政策，特别是在传统措施滞后或不可靠的国家。使用社交媒体识别个人披露的就业状况的一个关键挑战是，在大量社交媒体内容中，此类声明极其罕见-大约每10，000个帖子中有一个-这使得随机抽样无效，并且对于开发大型标记数据集来说另一方面，简单的基于关键词的方法存在提供看似高准确度的分类器的风险，而实际上缺少用于描述诸如失业、找工作或开始新职位等事件的语言多样性（例如，参见图1）。在缺乏关于个人就业披露的高质量、全面和多样化的基本事实的情况下，很难开发出准确捕捉任何国家劳动力市场流入和流出的分类模型，更不用说在多个国家进行稳健的估计了此外，最先进的深度神经模型对模型捕获的语言模式几乎没有可见性或控制能力，这阻碍了研究人员和从业者确定模型是否真正学习了新的语言形式并充分收敛的能力主动学习（AL）被设计用于存在大量未标记示例和有限标记资源的设置（Cohn et al. ，1994）。它的目的是把学习过程集中在最“Needing a赚钱”因为我不喜欢NTarXiv：2203.09178v1 [cs.CL] 2022年3月+v：mala2277获取更多论文信息样本和最大化模型性能为给定的标签预算。近年来，AL在几个环境中证明是成功的，包括涉及社交媒体数据的政策相关任务（ Pohl et al. ， 2018; Palakodety et al. ，2020）。预先训练的语言模型的成功，如 BERT（Devlin et al. ，2019年）在各种语言理解任务中的应用引发了人们对使用AL与这些模型进行不平衡文本分类的兴趣。然而，这一领域的大多数研究都集中在人为生成的数据稀缺性或不平衡性上，这些数据或不平衡性并不像目前的情况那样极端（ Ein-Dor et al. ， 2020;Schröder et al. ，2021年）。因此，没有证据表明AL使用基于BERT的模型在极端不平衡的现实世界环境中进行序列分类的效率目前还不清楚是否有些AL策略在这些设置中会比其他策略表现得更好，不同的策略会多快达到收敛（如果有的话），以及不同的策略将如何探索语言空间。在这项工作中，我们利用基于BERT的模型（Devlin et al. ，2019）以识别披露个人就业状况或其变化的推文我们用英语、西班牙语和葡萄牙语训练分类器，以确定推文的作者最近是否失业、最近是否被雇用、目前是否失业、是否正在发帖找工作或是否发布了工作邀请。我们使用两种标准的人工智能策略，不确定性采样（Lewis和Gale，1994）和自适应检索（Mussmann et al. ，2020年），并提出了一种新的策略，我们命名为Exploit-Explore检索，使用k-skip-n-gram（n-gram与k跳过的令牌）来探索空间，并提供改进的可解释性。我们评估了跨语言和AL策略的定量和定性模型因此，我们的贡献是：• 使用真实世界数据在极端类别不平衡下对基于BERT的二进制分类的三种AL策略的评估。• 一种用于序列分类的新AL策略，其性能与其他策略相当，但提供了额外的可解释性和对学习过程的控制。• 对BERT在AL策略中捕获的语言模式进行定性分析。• 关于失业和微调模型的tweet的大型标记数据集，三种语言促进这一领域的研究1.2背景和相关工作2.1识别Twitter上的自我披露社交媒体用户披露的信息对健康等各个领域的公共政策有价值（ Achrekar et al. ， 2011;Mahata et al. ，2018; Klein et al. ，2018年）到自然灾害的紧急响应（Bruns和Liang，2012年;Kry-vasheyeu et al. ， 2016 ）通过移民流动（Fio-rio et al. ，2017; Chi et al. ，2020; Palottiet al. ，2020）。识别社交媒体上的自我披露的一个关键挑战是这种内容的罕见和多样性，标签预算有限。之前研究Twitter上自我披露的工作要么使用了模式匹配，这很容易产生大的分类错误（Pillucci et al. ，2014; Proserpio等人，2016），或专注于策展数据集（Liet al. ，2014; Preo Pastiuc-Pietro et al. ，2015; Sarker等人， 2018; Ghosh Chowdhury et al. ， 2019年），它不提供关于召回或覆盖积极类的保证。这些问题在极端不平衡的现实世界环境中更为严重，随机抽样不太可能检索到任何阳性，更不用说多样化了。这些挑战激发了AL的使用，如下所述。2.2主动学习AL已成功地用于各种环境中，以最大限度地提高给定标签预算的分类性能（参见Settles（1995）的调查）。随着BERT（Devlin etal. ，2019年）和他们在许多不同的语言任务的成功率，最近的工作已经研究了AL和BERT的组合，或者通过使用BERT来增强传统的AL方法（Yuan et al. ，2020年）或通过应用已建立的AL方法来提高BERT的分类性能（Zhang和Zhang，2019年;Shelmanov等人，2019年）。，2019;Liu et al. ， 2020; Grießhaberet al. ， 2020;Prabhu et al. ， 2021; Schröder et al. ， 2021年）。在具有中等类别不平衡的二元分类的特定情况下，Ein-Dor等人（2020）表明，具有BERT的AL显著优于随机采样，但在基于BERT的分类性能方面，无论是平衡的还是不平衡的，都1个贴有标签数据集和模型可以被发现在https://github.com/manueltonneau/twitter-unemployment+v：mala2277获取更多论文设置. 然而，作者只考虑了10-15%阳性的相对适度的类不平衡，并且没有涵盖极端的不平衡，这在许多文本分类任务中是常见的。我们目前的研究检查了约0.01%阳性的相当极端的不平衡，其中传统的 AL 方法可能无效（Attenberg和Provost，2010）。在这种极端不平衡的情况下，Mussmann et al.（2020）显示了BERT的AL在成对分类中优于随机抽样据我们所知，这项工作是第一次比较AL方法的性能BERT为基础的序列分类，在现实世界中的极端不平衡设置。3实验程序3.1数据收集我们的数据集是从Twitter API收集的。它包含在Twitter Decahose中至少有一条推文的用户的时间线，以及在美国，巴西和墨西哥的引用配置文件位置。除了美国，我们选择关注巴西和墨西哥，因为这两个国家都是Twitter渗透率相对较高的中等收入国家对于每个国家，我们随机抽取了2007年1月至2020年12月期间的2亿条推文样本，其中不包括转发。然后，我们将其均匀地分成两个互斥的随机样本Re和Rs。在下面的部分中，我们使用Re来评估每个模型我们的标记过程试图识别工人在其职业生涯中可能经历的四种我们只认为第一人称的披露是积极的。对于类为了补充对工人的关注，我们还对包含工作机会的推文进行了标记（“工作机会”）。我们使用Amazon Mechanical Turk（MTurk）根据这5个类对推文进行分类（有关详细信息，请参见图1和第A.23.2初始化样本如前所述，我们的分类任务的一个积极的例子，每一个极端的不平衡10，000条推文使随机抽样变得无效，成本高得令人望而却步。为了以合理的成本构建高性能的分类器，我们选择了一组4到7个种子关键字，这些关键字对每个类别和国家都具有为了做到这一点，我们定义了一个候选种子的列表，借鉴了 Rumucci 等人的研究成果。（2014），并在墨西哥和巴西的情况下询问母语者，并单独评估其特异性和频率（更多详细信息见第A.1然后，我们从Rs中随机抽取了150条包含每个种子的推文，使我们能够分别产生4，524条英语推文，2703条葡萄牙语推文和3729条西班牙语推文的分层样本L0①的人。然后，我们使用 Amazon Mechanical Turk（MTurk）对每条推文进行了标记，这使我们能够构建一个语言特定的分层样本，该样本对5个类别是通用的（有关分层样本的描述性统计数据，请参见第A.33.3模型我们训练了五个二进制分类器来预测上述五个标记类中的每一个初步分析发现，基于BERT的模型明显且始终优于基于关键字的模型、静态嵌入模型以及这些模型的组合。我们对几个基于BERT的模型进行了基准测试，发现以下模型在我们的任务中表现最好：英语推文的会话BERT（Burtsev et al. ，2018），BERTimbau为巴西葡萄牙语tweets（Souza et al. ，2020）和BETO墨西哥西班牙语推文（Cañete et al. ，2020年）（有关型号选择的详细信息，请参见第A.4我们对每个基于BERT的模型进行了微调，对20个时期的标记推文进行了70：30的训练测试分割（ Alg.① 的人。Dodge et al.（2020），我们对15个不同的随机种子重复了这一过程，并在第一个时期或之后的测试集上保留了ROC曲线下面积（AUROC）方面表现最好的模型（详见第A.5节）。3.4模型评估虽然在不平衡设置中的标准分类性能首先，我们关心的是在一个大型随机推文集上的性能，而我们可以计算F1度量的唯一标记集是分层测试集+v：mala2277获取更多论文其不代表极端不平衡的随机样本Re。第二，神经网络校准不良的事实（Guo et al. ，2017）使得预定义分类阈值的选择有些随意并且很可能是次优的。我们开发了另一种阈值设置评估策略。首先，我们计算Re（Alg. （1）是随机抽样。然后，对于每个类别，我们沿着分数分布在Re中标记200条推文（更多细节请参见第A.7.1我们通过计算来测量每个分类器在Re• 平均精度是信息检索中常见的一种方法。• 预测阳性的数量，定义为当阳性的份额达到0.5时置信度分数分布中的平均等级• 多样性，定义为真阳性之间的平均成对距离。有关评估指标的详细信息，请参见第A.7节。对于每个种子s，从Rs中抽取150条包含s的tweet;将它们标记为五个类别;结果标记集是分层样本L0=S0;丢弃已采样的tweet在每次迭代i和对于每个类：• 微调：Si的列车测试分成70/30;在列车使用不同的种子设置;在测试集上选择具有最高AUROC的最佳模型M_i• 利用Mi-定理推证Re和Rs• 主动学习：样本信息量最大来自Rs的推文（每节课100条）;让他们从Rs（Rs=Rs−L0）为五个类别标记;结果标签集是L一期+1; defineS 一期+1= Si+1j=0 LJ• 评估：沿着Re中的分数分布对推文进行采样;对它们进行标记;计算平均精度，预测阳性的数量，多样性量度Rs=Rs−Li+1算法1：实验程序3.5主动学习策略接下来，我们在批处理模式下使用基于池的AL（Settles，1995），并对每个类进行了微调模型作为分类模型，以便在Rs中查询新的信息推文。我们比较了三种不同的AL策略，旨在平衡提高分类器精度的目标，同时扩大检测到的阳性实例的数量和多样性• 不确定性抽样包括模型最不确定的抽样情况。在二元分类问题中，标准方法是选择预测得分接近0.5的样本（Settles，2009）。在实践中，当不平衡程度很高时，这种经验法则可能并不总是导致识别不确定的样本（Mussmann et al. ，2020），特别是已知校准不良的神经网络模型（Guo et al. ，2017年）。为了克服这个问题，我们将一种简单的方法与一种使用校准分数的方法进行了对比，该方法包括查询未校准分数最接近0.5的100个实例（详见第A.9• 自适应检索旨在通过查询模型对其积极性最有信心的实例来最大限度地提高模型的精度（Mussmann et al. ，2020）。这种方法与确定性抽样（Attenberg et al. ，2010年）。在这里，我们选择了100条推文，其预测得分是每个类别中最高的。• 我们的新策略，Exploit-Explore Retrieval（详见第A.8节），旨在通过在每次迭代（“探索”）中提供新的和不同的实例来最大限度地提高精度– 利用：随机查询前104条推文中的50条新推文，这些推文具有最高的预测分数.– 探索：识别在前104条推文中出现频率最高的10个k-skip-n-gram，相对于它们在R中的频率。然后，随机抽取50条包含每个k-skip-n-gram的新tweet（参见第A.8为k-skip-n-gram的正式定义和关于阈值选择的讨论）。此外，我们将这些AL策略与监督分层抽样基线进行了比较，该基线由第3.2节中定义的相同初始基序和与所有其他AL策略相同的标签数量总的来说，对于每个策略，每个迭代和每个类，我们用R标记了100条新推文。然后，我们将跨类的500个新标签与现有标签相结合，以微调和评估一个新的基于BERT的模型，+v：mala2277获取更多论文每个类如第3.3节所述，然后我们使用它来选择tweets以进行下一次迭代的标记。我们认为，当至少两次迭代的平均精度、预测阳性数量和多样性没有显著变化时，AL策略已经收敛（参见第详情见A.7.64结果4.1初始样品在迭代0时，我们对每个类和国家的初始化样本L0的70：30训练测试分割进行了微调表7中报告了测试集上的所有AU-ROC值。我们获得了非常高的AUROC，从0.944到0.993不等。“Job Offer”在仔细检查这类积极因素后，我们发现，提到工作机会的推文的语言结构高度重复，这些推文中有很大一部分包含诸如点击申请：相比之下，最难预测的类别是“失业”，测试集上的AUROC等于英语的0.959和西班牙语的0.944。这类也具有最高的不平衡性，在这两种语言的分层样本中约有6%的阳性综上所述，这些结果表明，微调BERT模型可以在跨类别和语言的推文分层样本上实现非常高的分类性能然而，这些数字不能外推以直接推断模型4.2跨语言接下来，我们比较了我们的exploit- explore检索策略在英语、西班牙语和葡萄牙语推文上的性能我们使用了开发-探索检索，因为它提供了与其他策略相似的结果（第4.3节），同时允许在开发过程中更好地了解选定的基序（第4.4节）。我们为每种语言运行了8次AL迭代，并在图中报告了结果图2.表5和表10。首先，我们观察到不同国家和类别的平均精度（AP）有了只需一两次迭代。这些改进在迭代0时的精度非常低的情况下尤为突出。例如，对于英语这一趋势的一个显著例外是“工作机会”类，特别是英语和葡萄牙语这些性能差异可以部分地由跨类的初始种子列表的不同质量来解释4.3中讨论的分层抽样基线性能证实了这一点。在“Job Offer”的情况下此外，类一个原因是，这个类的数据不平衡甚至高于其他类，如第4.1节所述。低精度的另一个解释是新近约束固有的模糊性，即个人必须在发布推文之前最多一个月失去工作除了英语和葡萄牙语的“Job Offer”类之外结合高AP值，结果意味着分类器能够捕获与迭代相比，0. 这种高扩展与真正的积极实例之间的语义多样性增加相结合类“工作机会”脱颖而出，在英语和葡萄牙语的情况下几乎没有扩展和多样性的变化。对于西班牙语，扩展和多样性变化更高。一种解释是，墨西哥工作机会的结构不太重复，个别公司经常发布工作机会，而不是美国和巴西的工作机会聚合器总的来说，除了少数边缘情况外，我们发现与预训练语言模型一起使用的AL成功地显著提高了精度，同时在跨语言的少量迭代中扩大了预测的阳性实例的数量和多样性。事实上，从迭代到最后一次迭代，跨语言和类的精度增益高达90个百分点，并且预测的阳性数量成倍增加+v：mala2277获取更多论文图2：英语（绿色）、葡萄牙语（橙色）和西班牙语（紫色）每个类别（列）的平均精度、预测阳性数量和真阳性多样性（行）。我们报告的平均精度和多样性估计的标准误差关于如何计算评价指标的更多详细信息，请参见第A.7节。高达104倍。此外，平均而言，该模型在英语和葡萄牙语的类之间仅收敛5.6次迭代，而在西班牙语的类之间仅收敛4.4次迭代（详见表104.3比较主动学习策略在本节中，我们评估了英语推文的分层抽样基线和第3.5节中描述的四种AL策略，即利用-探索检索、自适应检索和有校准和无校准的不确定性抽样我们对每个策略运行了五次迭代，并在本节的图3以及第A.10节的表11和图6中报告了结果。我们发现，AL带来了一个数量级的更多的积极性，这样做，同时保持或提高精度和多样性的结果。除了第4.2节中讨论的这对于“失业”和“失业”类“被雇用”和“求职”类具有更强的基线性能。我们还发现，没有AL策略始终占主导地位的精度，数量和多样性的积极的休息。在所有AL策略中，性能的提高是相似的，并且对于以低精度开始的类“失业”和“失业”而言尤其高预测阳性的数量和多样性度量也遵循跨类和迭代的类似趋势。我们还观察到，从一次迭代到下一次迭代，平均精度偶尔未经校准的不确定性抽样似乎特别容易受到这些下降，至少有在检查通过这种策略进行标记的推文样本时，绝大多数推文是负面的，当出现一些正面的推文时，它们的数量不足以让模型很好地推广这种可变性减缓了不确定性抽样的收敛过程，如果不进行校准（表11）。相比之下，校准的不确定性sam-+v：mala2277获取更多论文图3：AL策略中每个类别（列）的平均精度、预测阳性数量和真阳性多样性（行）。我们报告的平均精度和多样性估计的标准误差，我们报告的预测阳性的数量的下限和上限关于如何计算评价指标的更多详细信息，请参见第A.7节。普林不太容易受到这些波动的影响，这强调了在极端不平衡的设置中校准对于更“稳定”收敛的重要性综上所述，我们的定量结果表明，在一个非常不平衡的环境中，AL对分类性能的积极影响在AL策略中也是如此。除了偶尔的性能然而，我们发现，在一系列预测任务中，没有一种主动学习策略能持续地接下来，我们定性地研究结果，以更深入地了解学习过程。4.4定性分析我们定性地检查了每种策略选择用于标记的推文，以更好地理解基于BERT的模型捕获并反映定量结果。我们只关注英语推文，并在每次迭代时对推文进行子样本，以更好地了解每种策略曼斯。我们从这个分析中排除了我们的分析发现，许多推文查询的各种AL策略捕捉到一个一般的例如，这些包括“我很高兴能......两天后”，对于新雇用的类，“我一直在一个狗屎心情...”失业或“我失去了我的...”因为失业。这种类型的假阳性似乎随着AL迭代的进展而减弱，这表明AL成功的关键是首先微调注意力机制以专注于核心术语而不是不特定于就业状态的伴随文本。在分层抽样的情况下，对失业“基调”的关注第二个主题的推文查询AL在-+v：mala2277获取更多论文对最初的主题进行了改进。不确定性采样（校准和未校准），自适应检索，以及我们的开发-探索检索方法的开发部分似乎查询直接包含种子主题或其接近变体的例如，类“LostJob”的推文正如在第4.2节中提到的解释偶尔的性能下降，许多标记为否定的推文包含语义概念的过度概括，例如扩展到其他类型的损失（例如“我的手机丢了”），其他类型的动作（例如“生气了”），或者只是错过了对第一人称代词的依赖（例如“我的手机丢了”）许多正面标签的推文包含更微妙的语言变体，不会改变核心概念，如“我真的需要一份工作”，“我真的需要找一份工作”，“我需要找一份工作”或“我需要一份奇怪的自适应检索比其他策略更倾向于选择这些细微的变体，其中一些迭代主要填充总的来说，这些模式与学习过程的观点是一致的，特别是BERT模型的分类层，寻求找到目标概念的适当边界最后，探索-探索检索的探索部分使得寻找关于失业的新的表达形式更加明确和可解释。例如，在探索-利用检索的前几次迭代中探索的模式失去了...今天”，“退出..我的...工作”，“我......开始我的...今天”，还有“我...在... 需要”。关于美国推文的k-skip-n-gram的详细介绍可以在第A.8节的表9中找到。虽然这种策略受到同样影响其他AL策略的干扰，但我们发现利用-探索检索的探索部分更能够找到不属于种子列表的新术语（例如，退出，职业生涯），并为研究人员提供了更大的洞察力和控制AL过程。5讨论和结论这项工作开发并评估了三种语言的BERT模型，并使用三种不同的AL策略来识别与个人就业状况相关的推文。我们的研究结果表明，AL在精度，扩展性和多样性方面取得了很大的显着改善，分层抽样，只需几次迭代，并跨语言。在大多数情况下，AL带来了一个数量级的更多的积极，同时保持或提高结果的精度和多样性。尽管使用根本不同的AL策略，我们观察到，没有策略始终优于其余的。在极端不平衡的环境中，这符合- Ein-Dor等人的发现。（2020年）。此外，我们的定性分析和探索的剥削探索检索提供了进一步的见解，AL提供的性能改进，发现大量的查询推文磨练模型的重点就业，而不是周围的背景，并扩大各种图案确定为积极的这使得利用-探索检索成为研究人员在极端不平衡情况下更好地了解AL过程而不影响性能的一种有价值的工具虽然目前的工作证明了AL的潜力BERT为基础的模型在极端不平衡，未来工作的一个重要方向将是进一步优化AL过程。例如，可以研究分层样本量或AL批量对性能的影响为了克服某些类的种子质量差在模型训练和推理方面，可以研究使用多任务学习来进一步提高性能，我们希望我们的实验结果以及我们提供的资源将有助于弥合文献中的这些差距道德声明我们承认，就像任何其他在个人层面上进行推断的技术一样，存在一些风险，即这里介绍的技术将被用于伤害。然而，由于内容的公共性质以及使用基本关键字搜索已经存在潜在危害的事实，我们认为我们的分类器增加的边际风险是最小的。+v：mala2277获取更多论文确认我们感谢内盖夫本-古里安大学以色列计算语言学研讨会的与会者以及匿名评论者的宝贵意见。我们还要感谢Aleister Montfort、VarnithaKurli Reddy和Boris Sobol的出色研究协助。这项工作得到了可持续发展目标伙伴基金的支持引用Harshavardhan Achrekar ， Avinash Gandhe ， RossLazarus，Ssu-Hsin Yu，and Benyuan Liu. 2011.利用推特数据预测流感趋势。2011年IEEE计算机通信研讨会（INFOCOM WKSHPS），第702-707页。美国电气与电子工程师协会。多兰·库鲁奇、迈克尔·卡法雷拉、玛格丽特·莱文斯坦、克里斯托弗·雷和马修·D·夏皮罗。2014年。使用社交媒体来衡量劳动力市场流动。国家经济研究局技术报告.乔什·阿滕伯格，普莱姆·梅尔维尔，福斯特·普罗沃斯特2010.一个统一的方法，以积极的双重监督的标签功能和例子。在联合欧洲会议机器学习和知识发现数据库，第40-55页。斯普林格。乔什·阿滕伯格和福斯特·教务长2010.当你可以搜索时，为什么要贴标签？主动学习的替代方案，用于在极端类别不平衡的情况下应用人力资源来构建分类模型。在 Proceedings of the 16 thACMSIGKDDinternationalconferenceonKnowledge discovery and data mining中，第423Francesco Barbieri ， Jose Camacho-Collados ， LuisEs- pinosa Anke ， and Leonardo Neves. 2020.TweetE-val：推文分类的。在计算语言学协会的调查结果：EMNLP 2020，第1644计算语言学协会克里斯·巴齐奥蒂斯，尼科斯·佩莱基斯，克里斯·杜尔克-埃鲁. 2017. SemEval-2017的DataStories任务4：深度LSTM，关注消息级和基于主题的情感分析。第11届语义评估国际研讨会论文集（SemEval-2017），第747-754页计算语言学协会。理查德·布伦特1971.一种求函数零点的保收敛算法。计算机杂志，14（4）：422Axel Bruns和Yuxian Eugene Liang。2012年。在自然灾害期间捕获Twitter数据的工具和方法第一个星期一Mikhail Burtsev 、 Alexander Seliverstov 、 RafaelAirapetyan、MikhailArkhipov、DilyaraBaymurzina、NickolayBushkov、OlgaGureenkova、 Taras Khakhulin 、 Yuri Kuratov 、Denis Kuznetsov 、 Alexey Litinsky 、 VarvaraLogacheva、 Alexey Lymar、 Valentin Malykh 、MaximPetrov 、 VadimPolulyakh 、 LeonidPugachev 、 Alexey Sorokin 、 Maria Vikhreva 和Marat Zaynutdinov。2018. DeepPavlov：对话系统的开源库.在ACL 2018会议记录中，系统演示，第122-127页，澳大利亚墨尔本。计算语言学协会。José Cañete，Gabriel Chaperon，Rodrigo Fuentes，Jou- Hui Ho，Hojin Kang，and Jorge Pérez. 2020.Span-ish预训练的bert模型和评估数据。在ICLR2020中。池光华，林凤阳，池广庆，约书亚·布鲁门斯托克。2020.在数字道数据中检测迁移事件PloSone，15（10）：e0239408.David Cohn，Les Atlas，and Richard Ladner. 1994.用主动学习来提高泛化能力. 《机器学习》，15（2）：201Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 Francisco Guzmán 、 Edouard Grave 、MyleOtt 、 LukeZettle-moyer 和 VeselinStoyanov。2020. 大规模无监督跨语言表征学习。第58届计算语言学协会年会论文集，第8440- 8451页，在线。计算语言学协会。Shantayanan Devarajan。2013.非洲的统计悲剧。收入和财富，59：S9Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。杰西·道奇，加布里埃尔·伊尔哈科，罗伊·施瓦茨，阿里·法哈迪，汉纳内·哈吉希尔齐和诺亚·史密斯。2020.微调预训练语言模型：权重初始化、数据排序和提前停止。 arXiv 预印本 arXiv ：2002.06305。Liat Ein-Dor ， Alon Halfon ， Ariel Gera ， EyalShnarch ， Lena Dankin ， Leshem Choshen ，Marina Danilevsky ， Ranit Aharonov ， YoavKatz ， and Noam Slonim.2020. BERT 的主动学习：一项实证研究。在2020年自然语言处理经验方法会议（EMNLP）的会议记录中，第7949-7962页。计算语言学协会。+v：mala2277获取更多论文Lee Fiorio ， Guy Abel ， Jixuan Cai ， EmilioZagheni ， Ing- mar Weber ， and GuillermoVinué.2017.使用twit- ter数据来估计短期流动性和长期迁移之间的关系。在2017年ACM网络科学会议的会议记录中，第103Arijit Ghosh Chowdhury，Ramit Sawhney ，PuneetMathur，Debanjan Mahata，and Rajiv Ratn Shah.2019. 大声说，反击！检测社会媒体披露的性骚扰。在计算语言学协会北美分会2019年会议的进行中：学生研究研讨会，第136- 146页，明尼苏达州明尼阿波利斯市。计算语言学协会。丹尼尔格里斯哈伯约翰内斯莫彻和玉升武。2020. 通过主动学习微调BERT以实现低资源自然语言理解。在 Proceedings of the 28thInternationalConferenceonComputationalLinguistics，pages 1158-1171，Barcelona，Spain（Online）.国际计算语言学委员会。郭川，普赖斯，孙宇，温伯格. 2017.关于现代神经网络的校准。国际机器学习会议，第1321-1330页。PMLR。莫顿·杰文2013. 可怜的数字：我们如何被非洲发展统计数据误导以及如何应对。北京：清华大学出版社.Ari Z Klein 、 Abeed Sarker 、 Haitao Cai 、 DavyWeis-senbacher和Graciela Gonzalez-Hernandez。2018年出生缺陷研究的社会媒体挖掘：一种基于规则的自举方法来收集twitter上罕见健康相关事件的数据。生物医学信息学杂志，87：68YuryKryvasheyeu，HaohuiChen，NickObradovich ， EstebanMoro ， PascalVanHentenryck，James Fowler，and Manuel Cebrian.2016.利用社交媒体活动快速评估灾害损失。科学进展，2（3）：e1500779。David D Lewis和William A Gale。1994.训练文本分类器的序列算法。在SI-GIR斯普林格。Jiwei Li ，Alan Ritter，Claire Cardie，and EduardHovy. 2014. 基于祝贺/哀悼言语行为的Twitter重大生活事件提取。在2014年自然语言处理中的人工智能方法会议（EMNLP）的会议记录中，第1997-2007页，卡塔尔多哈。计算语言学协会。李嫣然，苏慧，沈晓宇，李文杰，曹自强，牛淑子。2017. DailyDialog：一个手动标记的多轮对话数据集。第八届自然语言处理国际联合会议论文集，第986亚洲自然语言处理联合会。皮埃尔 · 里森和约尔格 · 蒂德曼。 2016.OpenSubtitles2016：从电影和电视字幕中。在第十届语言资源和评估国际会议（LREC '16）的会议记录中欧洲语言资源协会（ELRA）.Mingyi Liu ， Zhiying Tu ， Zhongjie Wang ， andXiaofei Xu. 2020. 基于bert-crf命名实体识别的主动学习策略。arXiv预印本arXiv：2001.02524。Debanjan Mahata ， Jasper Friedrichs ， Rajiv RatnShah和Jing Jiang。2018.从Twitter上检测个人药物摄入量。IEEE智能系统，33（4）：87-95。Stephen Mussmann，Robin Jia，Percy Liang. 2020.自适应数据收集对极不平衡的成对任务的重要性。在计算语言学协会的调查结果：EMNLP2020，第3400-3413页，在线。计算语言学协会。阮达国，吴清，阮英。2020. BERTweet：一个预先训练的英语推文语言模型。在2020年自然语言处理经验方法会议论文集：系统演示，第9计算语言学协会。Shriphani Palakodetty ， Ashiqur R KhudaBukhsh ，and Jaime G Carbonell. 2020.无产阶级的声音：积极采样，以检测支持罗兴亚人的评论。在AAAI人工智能会议论文集，第34卷，第454- 462页。Joao Palotti 、 Natalia Adler 、 Alfredo Morales-Guzman 、 Jeffrey Villaveces 、 Vedran Sekara 、Manuel Garcia Herranz、Musa Al-Asad和IngmarWeber。2020.通过facebook的广告平台监控委内瑞拉人的出逃。Plos one，15（2）：e0229175.DanielaPohl ， AbdelhamidBouchachia ， andHermann Hellwagner. 2018.基于批量的主动学习：应用于危机管理的社交媒体数据专家系统与应用，93：232苏曼斯·帕布，穆萨·穆罕默德，赫曼特·米斯拉。2021.基于bert主动学习的多类文本分类。arXiv预印本arXiv：2104.14289。丹尼尔·普雷奥·皮埃特罗，瓦西里奥斯·兰波斯和尼科·劳斯·阿雷特拉斯。2015. 通过Twitter内容分析用户分类。在Proceedings of the 53rd AnnualMeeting of the Association for ComputationalLinguisticsandthe7thInternationalJointConferenceonNaturalLanguageProcessing（Volume 1：Long Papers），pages 1754计算语言学协会。+v：mala2277获取更多论文大卫·普罗瑟皮奥、斯科特·康茨和阿普夫·杰恩。2016.失业的心理学：使用社交媒体数据来描述和预测失业。在第8届ACM Web科学会议上，第223尼尔斯·赖

下载后可阅读完整内容，剩余1页未读，立即下载