语言无关的序列标记用于意见目标提取

179 浏览量更新于2023-10-30 收藏 750KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

人工智能268（2019）85用于意见目标提取的与语言无关的序列标记Rodrigo AgerriSunday，German RigauIXA NLP Group，University of the Basque Country UPV/EHU，西班牙Ar t i cl e i nf o a b st r a ct文章历史：2017年11月6日收到收到修订版，2018年11月30日接受，2018年在线提供2018年关键词：意见目标提取基于特征的情感分析信息抽取聚类半监督学习自然语言处理在本研究报告中，我们提出了一个独立于语言的系统，将意见目标提取（OTE）建模为序列标签任务。该系统包括一个组合在一组简单的浅层局部特征之上实现的聚类特征。基于方面的情感分析（ABSA）基准测试的实验表明，我们的方法是非常有竞争力的跨语言，在七个不同的数据集，六种语言获得最好的结果。此外，结果提供了进一步的洞察序列标记任务的聚类特征的行为。在这项工作中产生的系统和模型可供公众使用，并促进结果的再现性。2018 Elsevier B.V.保留所有权利。1. 介绍意见挖掘和情感分析（OMSA）对于确定关于商业产品的意见趋势和态度、公司声誉管理、品牌监控或通过挖掘社交媒体跟踪态度等至关重要。此外，鉴于通过互联网产生和共享的信息爆炸，特别是在社交媒体中，不可能通过手动方法跟上新信息的不断涌现OMSA的早期方法是基于文档分类，其任务是确定给定文档或评论的极性（积极，消极，中立）[17，21]。文档级别极性分类的一个众所周知的基准是[22]。后来，细粒度的OMSA被认为是必要的。这是因为在一个给定评论通常传达关于给定产品的多个方面或属性的多于一个意见。因此，基于方面的情感分析（Aspect Based Sentiment Analysis，ABSA）被定义为一项任务，它包括识别给定意见的几个组成部分：意见持有者，目标，意见表达（表达极性的文本表达）和方面或特征。方面主要依赖于域。在餐馆评论中，相关方面将包括在图1所示的评论中，关于餐厅的两个不同方面（类别）有三种不同的意见，即前两种意见是关于食物的质量，第三种意见是关于餐厅的总体氛围。此外，只有两个意见目标，因为第三个意见的目标，餐馆本身，仍然是隐含的。最后，每一个方面都被分配了一个极性;在这种情况下，所有三个观点方面都是负面的。*通讯作者。电子邮件地址：rodrigo. ehu.eus（R. Agerri），german. ehu.eus（G.Rigau）。https://doi.org/10.1016/j.artint.2018.12.0020004-3702/ 2018 Elsevier B. V.保留所有权利。目录可在ScienceDirect人工智能www.elsevier.com/locate/artint86R. Agerri，G. Rigau/Arti Official Intelligence 268（2019）85-95Fig. 1. 基于方面的情感分析示例。在这项工作中，我们专注于意见目标提取，我们作为一个序列标签任务模型。为了做到这一点，我们将图1中的注释评论转换为用于学习序列标记模型的BIO方案[30]。例（1）显示了BIO格式的评论。评论中的标记根据它们是在意见目标表达的开始（B目标）、内部（I目标）还是外部（O）而被标记。请注意，第三个意见目标，图1是隐含的。(1) 吃/B-目标乐趣/I-目标是/O干/O;猪肉/B-目标舒/I-目标麦/I-目标是/O多/O比/O通常/O油腻/O和/O有/O到/O分享/O一个/O表/O与/O大声/O和/O粗鲁/O家庭/O。我们学习独立于语言的模型，该模型由一组局部的、浅层的特征组成，并基于从各种数据源获得的聚类，补充了语义分布特征。我们表明，尽管缺乏手工设计的语言特定功能，但我们的方法在ABSA基准测试中获得了6种语言的7个数据集的最新结果[23本研究报告的主要贡献是通过报告额外的实验结果以及对我们的模型在不同NLP任务（如Opinion Target Extraction（OTE））上跨语言性能的进一步见解，为之前关于序列标签的因此，我们经验证明了我们的方法的有效性和强大的性能，六种语言在七个不同的数据集的餐厅领域。本文中的每一个实验和结果都是新颖的。从这个意义上说，我们表明，我们的方法不仅在命名实体识别的语言和领域中具有竞争力，如[2]所示，而且可以直接适应不同的任务和领域，如OTE。此外，我们还发布了系统和每个经过训练的模型，供公众使用，以促进结果的重现性2. 背景早期的意见目标提取（OTE）方法是无监督的，尽管后来绝大多数工作都是基于监督和深度学习模型。据我们所知，关于OTE的第一部作品是由胡和刘[9]发表的。他们创建了一个新任务，其中包括从消费电子产品的客户评论集合中生成主要产品功能的概述。他们使用基于关联挖掘的无监督算法来解决这样的任务。其他早期的无监督方法包括Popescu和Etzioni [26]，它使用依赖解析器来获得更多的意见目标，以及Kim和Hovy [13]，旨在通过语义角色标签来提取新闻中的意见目标。从监督的角度来看，[36]提出了一种方法，该方法学习了意见目标候选人以及连接这些对的依赖性和词性（POS）路径的组合。他们的结果改进了胡和刘提供的基线[9]。另一个典型的工作是Qiu et al. [28]，一种名为Double Propagation的无监督算法，它大致包括通过依赖解析递增地增加一组种子更接近我们的工作，Jin等人。[12]，Li等人。[15]和Jakob和Gurevych [10]将OTE作为序列标记任务，使用BIO方案对意见目标进行建模。第一种方法实现了HMM，而最后两种方法提出了CRF来解决这个问题。在这三种情况下，他们的系统都包含了广泛的人类设计和语言动机的功能，例如POS标签，词元，依赖关系，成分解析结构，词汇模式和从WordNet中提取的语义特征[8]。这些作品经常使用第三方数据集，或原始数据集的子集，或创建自己的注释为他们的实验提供数据。结果是，很难得出关于所提出的方法的优点或缺点的精确结论。在这种情况下，SemEval [23最后，应该注意的是，有一个密切相关的任务，即关于姿态检测的SemEval 2016任务。1姿态检测与ABSA相关，但存在显著差异。在ABSA中，任务是确定一段文本是否1 http://alt.qcri.org/semeval2016/task6/。R. Agerri，G. Rigau/Arti Official Intelligence 268（2019）85-9587图2. 在ABSA 2016训练集中为示例（1）添加意见表达注释。相对于一个方面和一个给定的目标是积极的、消极的或中性的（在姿态检测中被称为“作者对给定目标的可解释性”）。然而，在姿态检测中，文本可以表达关于一些其他目标，在给定的文本中没有提到，目标是预先定义的，而在ABSA中，目标是开放式的。2.1. SemEval的ABSA任务在2014年至2016年期间，在SemEval评估演习中举行了三次ABSA版本。 ABSA 2014年和2015年的任务仅包括英语评论，而在2016年的任务中增加了7种语言。此外，三个版本的各个子任务收集了来自四个领域的评论，即消费电子、电信、博物馆和餐馆评论。在任何情况下，每个ABSA版本中唯一不变的是，对于意见目标提取（OTE）子任务，包含每种语言的餐厅评论。因此，对于本文中提出的实验，我们决定专注于6种语言和三种不同ABSA版本的餐厅领域。同样，本节将重点讨论餐厅领域的OTE结果ABSA的任务包括确定，为每一个意见，意见的目标，方面所指的意见和方面的极性。图1展示了ABSA 2016数据集中餐厅评论的原始注释。应当注意到，在三个意见成分中，只有目标明确地表示在文本中，这意味着OTE可以独立地建模为序列标记问题，如示例（1）所示。显得尤为重要注意，意见表达（按照以前的方法，ABSA的第一个OTE竞争系统受到监督。参与者之间（英语）在三个版本中，有一个团队[31，33]特别成功。对于ABSA 2014和2015，他们开发了一个CRF系统，该系统具有广泛的手工语言特征：POS，中心词，依赖关系，WordNet关系，地名词典和名称列表，基于对551个种子的初始列表应用双传播算法[28]。有趣的是，他们还引入了基于Brown和K-mean聚类的单词表示功能。对于ABSA 2016，他们通过使用递归神经网络（RNN）的输出来改进他们的系统，以提供额外的功能。RNN在以下输入特征上进行训练：单词嵌入，名称列表和单词集群[32]。他们是2014年和2016年最好的系统。2015年，他们获得了第二好的结果，其中最好的系统，即本说明中介绍的系统的初步版本，由EliXa团队提交[29]。从2015年开始，大多数作品都基于深度学习。Liu等人[18]在各种预训练的单词嵌入之上应用RNN，而Jebbara和Cimiano [11]提出了一种架构，其中基于RNN的标记器堆叠在卷积神经网络（CNN）生成的特征之上。这些系统分别在2014年和2015年的数据集上进行了评估，但它们并没有超越最先进的水平。[27]提出了一个7层深度的CNN，结合了在50亿单词语料库中提取的单词嵌入来自亚马逊[19]，POS标签功能和基于句法分析和SenticNet的手动开发的语言模式[5]一个基于概念级知识的情感分析应用程序构建。他们只在英国人身上评估他们的系统2014年ABSA数据，在该基准上获得了迄今为止的最佳结果最近，Wang等人。[34]提出了一种耦合多层注意力（CMLA）网络，其中每一层由一对带有张量算子的注意力组成。与以前的方法不同，他们的系统不使用为一种特定语言设计的复杂的基于语言的功能。然而，尽管以前成功的方法将OTE建模为独立的任务，但在CMLA模型中，注意力交互地学习意见目标和意见表达。由于原始ABSA数据集中没有意见表达，他们不得不用所需的意见表达手动注释ABSA训练和测试数据。虽然Wang等人。[34]没有发布带有注释的意见表达的数据集，但图2说明了这些注释的样子。因此，两个新属性（pfrom和 PTO）注释三个意见中的每一个的意见表达（分别为“干”、“油腻”和“大声且粗鲁”）。使用这些新的手册信息来训练他们的CMLA网络，他们报告了ABSA 2014年和2015年迄今为止的最佳结果（仅英文）。最后，Li和Lam [16]开发了一个多任务学习框架，由两个配备扩展记忆和神经记忆操作的LSTM组成。正如Wang等人[34]，他们使用意见表达注释进行联合建模和表达方式。然而，与Wang et al.[34]他们不手动注释意见表达。88R. Agerri，G. Rigau/Arti Official Intelligence 268（2019）85-95表1ABSA SemEval 2014-2016餐厅领域数据集。B-目标表示每组中的意见目标的数量; I-目标表示多词目标的数量。语言ABSA代币和意见目标火车测试令牌B靶I-target令牌B靶I-targeten20144702836871457126061134524en201518488119953810412542264en20162890017437979952612274es201635847185874213179713173fr201626777164144311646650239nl2016247881231331760637381ru201651509307895316999952372tr2016124061374516131614561相反，他们手动添加情感词典和基于依赖解析的规则，以找到训练系统所需的意见词。使用这个手工设计的系统，他们报告了ABSA 2016数据集上仅针对英语的最新结果。他们没有提供2014年和2015年餐厅数据集的评估结果关于其他语言，IIT-T团队在ABSA 2016上展示了7种语言中的4种语言的系统，法语和荷兰语得分最高，西班牙语第二，但英语成绩很差，远低于基线。 GTI团队[3]实现了一个CRF系统，使用POS，词元和二元语法作为特征。他们在西班牙语方面取得了最好的成绩，而在英语方面取得了中等的成绩总而言之，最成功的OTE系统是基于监督方法，具有相当精细，复杂和语言启发的功能。[27]在ABSA 2014年的数据中，CNN使用来自亚马逊的50亿个单词训练的单词嵌入，POS功能，基于语法分析和SenticNet的手动模式。最近，CMLA深度学习模型为2015年数据集建立了新的最先进的结果，而Li和Lam [16]为2016年基准提供了最先进的结果。因此，目前还没有一个多语种系统在ABSA所包括的（至少）几种语言之间取得竞争结果像往常一样，大多数工作都是针对英语完成的，以前的系统中的大多数都提供了结果仅针对ABSA的三个英文版本之一，没有探索多语言方面。这可能是由于复杂和语言特定的系统，表现最好的英语[27]，或者可能是因为王等人的CMLA方法。[34]除了意见目标外，还需要意见表达的黄金标准注释对于ABSA数据集中除英语之外的6种语言中的每一种3. 方法本研究报告中提出的工作需要以下资源：（i）基于方面的情感分析（ABSA）用于训练和测试的数据;（ii）大型未标记语料库，以从聚类词典中获得语义分布特征;以及（iii）序列标记系统。在本节中，我们将描述所使用的每种资源3.1. ABSA数据集表1显示了来自餐厅域的英语、西班牙语、法语、荷兰语、俄语和土耳其语的ABSA数据集。从左到右，每行显示每个训练集和测试集的标记数、目标数和多词目标数。对于英语，应该注意的是，2015年的规模不到一半，2014年的数据集在令牌方面，只有三分之一的目标数量。法语、西班牙语和荷兰语数据集在标记方面非常相似，尽管荷兰语数据集中的目标数量相对较小，可能是由于该语言倾向于构建复合词。俄罗斯的数据集是最大的，而土耳其的数据集是迄今为止最小的。此外，我们认为注意到多词目标的数量很少也很有趣。提供一对夫妇例如，对于西班牙语来说，只有35.59%的目标是多词，而对于荷兰语来说，这一比例下降到%25.68.如果我们将这些数字与CoNLL 2002命名实体识别（NER）数据（一个经典的序列标签任务）进行比较，我们发现在ABSA数据中，多词目标的数量不到CoNLL西班牙语和荷兰语数据中多词实体数量的一半（西班牙语为%35.59vs %74.33，西班牙语为%25.68 vs44.96%为荷兰语）。3.2. 未标记语料库除了手动注释的数据外，我们还利用大型的、公开的、未标记的数据来训练集群：(i)布朗1000集群和（ii）克拉克和Word 2 vec集群在100-800的R. Agerri，G. Rigau/Arti Official Intelligence 268（2019）85-9589表2未标记的语料库，以诱导集群。对于每个语料库和聚类类型，指定了单词的数量（以百万计）。平均培训时间：视情况而定在字数上，Brown聚类所需的训练时间在5 h到48 h之间。Word 2 vec需要1语料库百万字百万字培训布朗克拉克Word2vecenYelp学术数据集225156225225Yelp美食11782117117Yelp美食酒店10273102102维基百科（20141208）17007907901700es维基百科（20140810）428246246428fr维基百科（20140804）547280280547nl维基百科（20140804）235128128235ru维基百科（20140727）338158158338tr维基百科（20140806）48334848为了从餐厅领域中诱导聚类，我们使用了Yelp学术数据集，2从中创建了三个版本。首先，完整的数据集，包含2.25亿个代币。第二，一个子集，包括过滤掉那些不直接对应于食品相关评论的类别[14]。因此，在Yelp学术数据集中包含的720个类别中，我们保留了其中173个类别的评论。这个Yelp食品数据集在997，721条评论中包含1.17亿个代币。最后，我们从Yelp食品数据集中删除了另外两个类别（酒店和酒店旅游），以创建包含约1.02亿个代币的Yelp食品酒店子集。对于其余的语言，我们使用了相应的维基百科转储。预处理和标记化使用IXA管道工具执行[1]。表2中描述了每个数据集、语言和聚类类型使用的单词数量。例如，第一个行读取“使用包含2.25亿个单词的Yelp学术数据集;在预处理之后，取1.56亿个单词来诱导Brown聚类，而Clark和Word 2 vec聚类是在整个语料库上训练的”。如[2]中所解释的，我们在训练布朗聚类之前对语料库进行预处理，从而得到比原始数据集更小的数据集。此外，由于效率的原因，当语料太大时，我们使用预处理的版本来诱导Clark聚类。3.3. 系统我们使用IXA管道中实现的序列标签器[2]。它基于Perceptron算法学习监督模型[7]。为了避免重复工作，它使用了Apache OpenNLP项目实现3，并使用了自己的功能。通过设计，序列标记器旨在建立一个简单而浅层的特征集，避免任何语言动机的特征，目的是消除对昂贵的额外黄金注释和/或跨注释级联错误的任何依赖。该系统包括：（i）主要基于正字法、词形和n元语法特征的局部浅层特征，它们的上下文;以及（ii）三种类型的简单聚类特征，基于unigram匹配：（i）Brown [4]聚类，采用路径中的第4，第8，第12和第20个节点;（ii）Clark [6]聚类，以及（iii）Word 2 vec [20]聚类，基于使用skip-gram算法对提取的词向量聚类特征在遵循上面列出的三种方法所诱导的聚类词典中的一个或多个中查找传入标记的聚类类。如果找到，则类被添加为特征（否则为“未找到”）。因为我们的工作在5个标记窗口上，对于每个标记和聚类词典，生成至少5个特征。对于Brown，生成的特征数量取决于每个标记的路径中找到的节点数量和使用的聚类词典图3描绘了我们的系统如何通过聚类将未看到的单词与在搜索期间被视为目标的单词相关联。培训过程。因此，标记“french-onions”和“salmon”将被注释为意见目标，因为它们出现在与在训练数据中被标记为目标的所看到的单词在相同的聚类中使用在表2中列出的不同数据源上诱导的聚类词典来组合和堆叠单词表示特征。换句话说，堆叠意味着添加从不同数据源获得的相同类型的各种聚类特征（例如，使用在Yelp和维基百科上训练的聚类）;组合是指组合不同的聚类特征。从相同数据源获得的聚类特征的多种类型（例如，使用来自Brown和Clark聚类词典的特征）。为了选择聚类特征的最佳组合，我们尝试通过对训练集的5重交叉验证，从数据源获得的可用Clark和Word2vec聚类词典的每一种可能的排列。一旦找到每个数据源的Clark和Word2vec聚类词典的最佳组合，我们就尝试将它们与Brown聚类相结合。结果是一个相当简单但非常有竞争力的系统，该系统在最流行的命名实体识别和分类（NER）基准测试中非常成功，无论是在域内还是域外评估中。2 http://www.yelp.com/dataset_challenge。3 http://opennlp.apache.org/。90R. Agerri，G. Rigau/Arti Official Intelligence 268（2019）85-95图3. 特征聚类中的单字匹配。表3ABSA SemEval 2014-2016英语成绩。BY：布朗Yelp 1000类; CYF 100-CYR 200：克拉克Yelp食品100类和克拉克Yelp评论200类; W2 VW 400：Word 2 vec维基百科400类;所有：BY+CYF 100-CYR 200+W2 VW 400。L+CYF 100-CYR 200L+全部此外，还证明了该系统在没有任何语言特定调优的情况下也能跨语言稳健运行。系统实现的详细信息该系统的初步版本[29]是ABSA 2015版（仅英文版）OTE子任务的获胜者。在下一节中，我们将展示该系统不仅在NER的领域和语言中获得了最先进的结果，而且还可以用于其他任务，如意见目标提取。报告的结果是使用官方ABSA评估脚本[234. 实验结果在本节中，我们报告了使用上述系统和数据进行的实验。首先我们将介绍三个ABSA版本的英文结果以及与以前工作的比较。在那之后，我们将做同样的事情ABSA 2016版中包含的另外5种语言：荷兰语、法语、俄语、西班牙语和土耳其语。如第3.3节所述，本地和聚类特征对于每种语言和评估设置都是相同的。唯一的变化是用于不同语言的聚类词典。如第3.3节所述，通过以下方式选择最佳群集组合：对训练数据进行5倍交叉验证（CV）。我们首先尝试使用Clark和Word2vec集群的每个排列。一旦得到最佳组合后，我们尝试使用布朗聚类，从而获得每种语言和数据集的最终模型。4.1. 英语表3提供了英语的意见目标提取（OTE）任务的详细结果。我们以粗体显示通过训练数据的5倍CV选择的最佳模型（ALL）。此外，我们还展示了仅使用一种类型的聚类特征，即最佳布朗，克拉克和Word2vec模型，分别。第一个值得注意的问题是，相同的模型在三个英文数据集上获得了最佳结果。其次，有趣的是，通过聚类特征获得的巨大收益，在三个ABSA数据集的F1得分中，F1得分在6-7分之间。第三，结果表明，从不同的数据源诱导的聚类特征的组合是至关重要的。第四，聚类特征在2015年和2016年的数据中提升了召回率12-15个点，7个点左右为2014年。最后，虽然在2014年的精度也增加了，但在2015年的设置中，它在F1得分中几乎下降了4分表4将我们的结果与以前的工作进行了比较。MIN是指多任务学习框架，由两个配备有扩展记忆和神经记忆操作的LSTM组成，具有手动开发的规则，用于检测4 表3和第68特征201420152016PRF1PRF1PRF1当地（L）81.8474.6978.1076.8254.4363.7174.4161.7667.50L+ BY77.8482.9184.5784.3081.0783.6071.7373.2563.6561.6267.4566.9374.4974.1271.0872.0672.7473.07L +W2VW40076.8281.1582.1087.3079.3784.1174.4272.9059.0469.0065.8470.9073.0473.3365.5273.6969.0873.51R. Agerri，G. Rigau/Arti Official Intelligence 268（2019）85-9591∗表4ABSA SemEval 2014-2016：F1成绩方面的英语成绩比较;是指富含人类工程语言特征的模型。[27]第二十七话LSTM [18][34]第三十四话[31意见表达[16]。CNN-SenticNet是7层CNN，具有Amazon单词嵌入，POS，基于语法模式的语言规则和SenticNet [27]。LSTM是一种长短期记忆神经网络，建立在Liu等人提出的单词嵌入之上[18]。WDEmb [35]使用单词和依赖路径，线性上下文和依赖上下文嵌入特征输入到CRF。RNCRF是CRF和递归神经网络的联合模型，而CMLA是耦合多层注意力模型在第2.1节中描述，这两个系统都是由Wang等人提出的。 DLIREC-NLANGP是ABSA 2014和2016年的获奖系统[31表3）。表4的结果表明，我们的系统尽管简单，但具有很强的竞争力，在2015年和2016年的数据集上获得了最佳结果，在2014年的基准测试中具有竞争力。特别是，我们的表现优于通过特定语言功能调整的更复杂和特定语言的方法，例如DLIREC-NLANGP。此外，虽然深度学习方法（富含人类工程语言特征）在2014年的数据上获得了可比或更好的结果，但2015年和2016年的基准测试并非如此，我们的系统也表现出色MIN和CMLA模型（需要手动添加规则和黄金标准意见表达以获得最佳结果的系统，如第2.1节所述）。从这个意义上说，这意味着我们的系统通过独立学习目标而不是联合学习目标和传达意见极性的那些表达（即意见表达），获得了比MIN和CMLA更好的结果。数据集的大小和性能之间似乎也存在相关性，因为 2014年的数据远高于使用2015年和2016年数据集获得的数据。这可能是由于2014年的训练集大得多，如表1所示。事实上，较小的数据集似乎对深度学习方法（LSTM，WDEmb，RNCRF）的影响更大，其中只有MIN和CMLA模型获得了与我们相似的结果，尽管使用手动添加的语言特定注释。最后，在三个ABSA基准测试上将MIN、CNN-SenticNet和CMLA与我们的系统进行比较会很有趣，但他们的系统还没有公开。4.2. 多语言我们使用与英语相同的策略，在ABSA 2016数据集上为其他5种语言训练了我们的系统。我们通过对训练数据的5交叉验证来选择最佳的Clark-Word 2 vec组合（有和没有Brown聚类）。这些特征与用于英语的特征完全相同，唯一的变化是训练聚类的数据。表5报告了每种语文的详细结果。我们用粗体显示通过5倍选择的最佳模型CV. 此外，我们还使用每个聚类特征中的一个来显示最佳模型与英语结果的第一个区别是，布朗聚类特征在五分之三的设置中对性能有害。其次，组合聚类特征只对西班牙语有益。第三，总体结果总体上低于2016年英语数据所获得的结果。最后，最佳结果与使用本地要素的结果之间的差异小于英语结果，尽管本地结果与使用英语数据集获得的结果相似（土耳其语除外，但这是由于数据的大小明显较小，如图所示在表1中）。我们认为，所有这四个问题至少部分是由于缺乏用于多语言实验的特定于领域的聚类特征造成的。换句话说，在英语实验中，我们利用Yelp数据集，训练聚类算法，在多语言环境中，我们首先尝试了从维基百科中导出的已有聚类。因此，可以预期，通过对从特定领域数据获得的特征进行聚类所获得的收益，因为Yelp将优于在域外数据上训练的集群所实现的那些尽管如此，表6显示，我们的系统在五种语言中的表现优于以前最好的方法。在某些情况下，如土耳其语和俄语，之前最好的分数是ABSA组织者提供的基线，但对于荷兰语、法语和西班牙语，我们的系统明显优于当前最先进的系统。特别是，尽管使用系统ABSA 2014ABSA 2015ABSA 2016[第16话][27]第二十七话WDEmb [35][35]第三十五话[34]第三十四话BY+CYF100-CYR200+W2VW400基线–87.1781.1584.3184.9784.0585.2984.0184.1147.16–––69.1269.7367.0670.7367.1170.9048.0673.44–––––––73.5144.0792R. Agerri，G. Rigau/Arti Official Intelligence 268（2019）85-95表5ABSA SemEval 2016多语言结果。L+ CW600L+CW10069.94L+ CW100L+CW500L+ CW200长+宽2VW300 59.09 53.79 56.32表6ABSA SemEval 2016：F1分数方面的多语言结果比较。基线基线41.86对于每种语言都使用相同的系统，我们改进了GTI5. 讨论与误差分析考虑到我们方法的简单性，我们使用ABSA 2014-2016数据集在餐馆领域的意见目标提取（OTE）基准中获得了6种语言和7种这些结果是在没有语言或手动设计的特征的情况下获得的，依赖于从聚类特征的组合中注入外部知识，以获得跨语言的强大系统，优于其他更复杂和语言特定的系统。此外，所使用的功能集对于每个设置都是相同的，将人为干预减少到最低限度，并为快速轻松地创建有竞争力的OTE多语言标记器建立了明确的方法结果还证实了这些聚类算法的行为，为序列标记任务提供了功能，命名实体识别（Named Entity Recognition，NER），如前所述。因此，在每个评估设置中，当接近应用领域和文本类型的数据（即使相对较小）用于训练布朗算法时，使用布朗聚类作为特征获得了最佳结果。如果我们将英语与多语言结果进行比较，就可以清楚地看到这一点。对于英语，包括布朗聚类的模型在F1得分中将局部特征提高了3-5分，而对于西班牙语、荷兰语和俄语来说，它们会使成绩恶化。原因是英语使用Yelp数据集，而语言特征精度召回F1es当地（L）79.1759.1967.74L+ BWL +W2VW30067.9673.2275.5063.6764.8063.5365.7568.7569.00frL+CW600+W2VW30075.36当地（L）66.92长+体重63.3965.2266.4172.4669.0869.9266.6767.6269.50nlL +W2VW100本地（L）L+BW66.5273.1468.5966.9468.2768.7755.5057.3765.1564.6167.6263.1162.4866.0366.39ruL+W2VW400本地（L）L+BW64.8761.3264.2164.4161.8764.6066.9164.8163.3362.9265.5364.61trL +W2VW700本地（L）L+BW56.8262.6958.2851.7257.9360.6954.1560.2259.46语言系统F1esGTI68.51L+CW600+W2VW30069.9251.91frIIT-TL+CW10066.6769.50nl基线IIT-TL+W2VW40045.4556.9966.39ru基线丹尼L+CW50050.6433.4765.53tr基线L+BW49.3160.22R. Agerri，G. Rigau/Arti Official Intelligence 268（2019）85-9593表7每个ABSA 2014-2016设置的假阳性和阴性错误类型201420152016enenenesfrnlrutrFP23015118916519411739062FN14316916324820213231265表8英语、西班牙语和法语的前五名假阳性（FP）和阴性（FN）错误201420152016enenenesfrFP地方21地方16地方16comida11餐厅13钱6食品6食品16restaurante10美食9现货4服务员4餐厅11阿滕西翁7terrasse8披萨3鸡4服务7柏拉图6莱帕斯7寿司3鲑鱼3等3servicio4plats6FN地方4餐厅8地方7restaurante12餐厅5食品3地方7寿司3柏拉图7美食5等待2食品5餐厅3trato6carte5味道2Casa La Femme4雷的3comida6plats4选择2四季3菜单3宪章6表3对于其余的语言，使用维基百科（实际上是域外语料库）来归纳聚类。除外是土耳其语，其F1得分获得了6分的增益，但我们认为这可能是由于用于训练局部模型的训练数据相比之下，Word2vec集群显然受益于更大量的数据，如最佳英语Word2vec所示。模型是使用维基百科训练的，而不是Yelp数据集，后者更接近应用领域。最后，Clark算法似乎是最通用的，因为它始终优于其他两种聚类方法在8个评估设置中的4个中。总结：（i）当从接近应用程序域的源数据中利用时，布朗集群的性能更好，即使大小很小;（ii）克拉克集群在所使用的数据的大小和域方面是三个集群中最强大的;以及(iii)Word2vec的大小是关键因素。源数据越大，性能越好。因此，与其选择对于一种聚类类型或另一种聚类类型，我们的系统提供了一种根据可用的数据源有效地组合它们的方法，以获得鲁棒的和语言无关的序列标记系统。最后，结果表明，当可用的训练数据量很小时，我们的模型特别具有竞争力，使我们能够与更复杂的系统竞争，包括手动设计的功能，特别是2015年和2016年数据的英语结果5.1.误差分析现在我们将讨论我们的系统在OTE任务中的缺点和最常见的错误。通过查看准确率和召回率方面的总体结果，可以看到以下模式：关于局部模型，准确率始终优于召回率，或者换句话说，局部模型的覆盖率相当低。表3和表5显示，向局部模型添加聚类特征可以提高每个评估设置的召回率，尽管结果不同。总的来说，除了法语，精确度受到影响。5此外，在三种情况下（英语2014，2016和俄语），精确度低于召回率，而其余5个评估表明，尽管F1分数有很大改善，但我们系统中的大多数错误都是由假阴性引起的，如表7所示。表8显示了英语、西班牙语和法语的前5个最常见的误报和漏报错误。6通过检查我们的系统(b)跨度错误，其中目标仅被部分注释;以及（c）未知目标，系统无法通过对训练数据或聚类进行概括来进行注释关于（a）类，不妨看看所有三种语文最常见的错误，即“地点”、“食物”和“餐馆”，它们也是黄金标准中最常见的5个目标之一。通过查看示例（1-3）我们认为在这三种情况下，“地方”都应被视为民意指标。然而，（2）是假阳性（FP），（3）是假阴性（FN），以及（1）是来自训练集的示例，其中是这种情况5 土耳其语也是如此，但正如已经评论过的那样，我们认为由于土耳其语训练集的规模很小，聚类特征可以提高准确率和召回率。6 根据作者的语言知识，从数据中对具体例子进行评论。94R. Agerri，G. Rigau/Arti Official Intelligence 268（2019）85-95在训练集和测试集示例的实际注释中似乎存在一些不一致的“位置”的许多实例7第1章：避开这个地方！第2章：这个地方是个好地方！例（3）：这是观看体育赛事的好地方对于其他常见的（a）类错误，歧义是主要问题。因此，在西班牙语中，“comida”8和“restaurante”9的用法是非常模糊的，并导致许多FP和FN，因为有时它实际上是一个意见目标，而在许多其他情况下，它只是指膳食或餐馆本身，而没有表达任何意见。同样的现象也发生在英语中的跨度类型（b）错误通常由长的意见目标引起，例如“菠菜和土豆泥上的鱼片”，我们的系统将“鱼片”和“菠菜”注释为单独的目标，或者“咖喱鸡和鸡肉tikka masala”被错误地标记为一个目标。这两种情况很难解释，因为它们表面上看起来相似，但第一种情况只指一道菜，因此只有一个目标，而第二种情况指的是两道不同的菜，应该注释两个不同的意见目标。当然，这些案件特别伤人，因为他们都算作FP的FN。最后，（c）类错误通常是由于我们的系统缺乏处理未知目标的泛化能力而引起的。示例（4例子（4）：在西雅图呆了12年后，雷例子（5）：我们只在西雅图呆了一个晚上，我很高兴我们选择了光线晚餐！例子（6）：我喜欢邓杰内斯螃蟹，在雷示例（7）：想象一下，当我发现这些视图只是Ray的第三个最好的东西时，我会感到多么惊讶！例子（8）：雷例（4）、（5）和（7）是FN，（6）是由于错误地将目标识别为“Ray's you”而导致的FP，而（8）不是事件在黄金标准或我们的系统中注释，尽管它应该是。6. 总结发言在本研究报告中，我们为[2]提供了额外的经验实验，报告了使用相同的简单，浅层和语言独立特征集对6种语言和7个数据集进行意见目标提取的最佳结果。此外，结果提供了一些有趣的见解，关于使用集群注入外部知识，通过半监督功能。首先，布朗聚类在对领域相关数据进行训练时特别有用。在多语言环境中似乎就是这种情况，布朗聚类（在域外维基百科数据上训练）使系统的性能恶化除了土耳其语之外的所有语言第二，结果还表明，Clark和Word2vec总体上改善了结果，即使是在域外数据上引起的。第三，为了获得最佳性能，可以方便地组合从不同数据源（包括域内和域外语料库）获得的聚类。最后，结果表明，即使训练数据量很小，例如在2015年和2016年的英语基准测试中，由于聚类特征

下载后可阅读完整内容，剩余1页未读，立即下载