没有合适的资源?快使用搜索试试~ 我知道了~
357理解字幕:无标点文本中的句子边界检测和说话人转换检测GregorDonabauergregor.donabauer@stud.uni-regensburg.de雷根斯堡大学Regensburg,GermanyUdoKruschwitzudo.ur.de雷根斯堡大学德国DavidCorneyDavid.corney@fullfact.org完整的事实英国伦敦摘要深度学习方法的兴起已经改变了自然语言处理的研究领域。从机器翻译到问答,每天都有新的基准性能报告。然而,一些未解决的实际研究问题并没有成为人们关注的焦点,这包括,例如,在口语和书面语言处理之间的界面上出现的问题。我们确定句子边界检测和说话人变化检测应用于自动转录的文本作为两个NLP 问题,尚未得到太多的关注,但从来没有-theless的实际相关性。 我们框架的二进制标记任务,可以通过微调的Transformer模型来解决这两个问题,我们报告有希望的结果。ACM参考格式:格雷戈尔·多纳鲍尔,乌多·克鲁施维茨,大卫·科尼。2021年 理解字幕:无标点文本中的句 子边 界检 测和 说 话人 变化 检测。在2021年网络会议(WWW '21Companion)的配套程序中,2021年4月19日至23日,斯洛文尼亚卢布尔雅 那 。ACM ,美国纽约州纽约市,6页。https://doi.org/10.1145/3442442.34518941介绍文本和语音处理是密切相关的研究领域,但人们仍然会得到这样的印象,即研究是在两个独立的社区中进行的(如果你添加视频作为另一种模式,那么你会得到另一个研究社区)。因此,在不同领域的边界上可以发现一些有趣的虽然我们的研究牢牢植根于文本处理,但我们认为我们的工作有助于弥合书面语言和口语我们工作的直接动机来自事实核查领域。 事实核查员监督媒体,以识别潜在的有害或误导性的说法。他们必须知道谁在什么时候说了什么,以便找到值得调查的说法为了应对潜在索赔的数量和有限的时间,事实核查人员越来越多地转向技术来帮助,包括NLP [1]。这些工具可以帮助识别值得检查的索赔,找到已经检查过的重复索赔,本文在知识共享署名4.0国际(CC-BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2(国际万维网大会委员会),在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8313-4/21/04。https://doi.org/10.1145/3442442.3451894甚至直接协助核查过程大多数此类工具依赖于文本作为输入,并要求将文本拆分为句子。一些媒体来源,如官方议会报告,非常丰富,提供标记文本显示句子和言语边界,并为每个发言者标记唯一的标识符。新闻媒体和社交媒体通常会提供一些关于演讲者的信息,尽管通常是含蓄或模棱两可的。相比之下,音频和视频源--包括电视和广播新闻广播以及在YouTube或Facebook上分享的视频--通常不包含关于发言者的明确信息。 在某些情况下,可以使用自动字幕来生成文字记录,或者可以由广播公司提供字幕。但在许多情况下,使用事后语音到文本处理是提取文本的唯一方法。因此,需要弥合大量视听内容与事实核查人员使用的现有文本工具之间的差距。我们的工作解决了这一差距的两个方面,即检测语音转录中的句子边界和检测说话者何时发生变化,例如在采访或辩论期间。图1说明了文本结构(包括大写和标点符号)以及会话结构的缺失,自动转录的结果1图1:YouTube上自动生成的字幕图2显示了与图1相同的示例对话,但使用了完整的句子和会话结构,使其更容易阅读和处理。我们解决的问题是从不加标点的文本数据中恢复一些基本结构,特别是在转录的语音和会话数据的背景下。 在第一步中,我们恢复句子边界信息。句子通常被认为是书面文本的基本信息单位,例如。[7,9]。因此,这项任务已经得到了很好的研究,例如。在自动语音识别的上下文中[6,23通常,无标点文本中的句子边界检测问题被视为使用IOB序列标记[4,8]解决的标记任务,也用于命名实体识别(NER)[19]。1这个例子不是来自事实检查用例,而是来自我们在实验工作中使用的一个基准集合WWWDonabauer,Kruschwitz andCorney358图2:DailyDialog数据集的示例作为后续任务,我们希望根据先前识别的句子恢复有关说话者变化的信息-转录的数据基于多个说话者(如前面的示例所示)。因此,我们希望检测下一个句子是否由同一个人说出,这是对话数据恢复的重要一步,也是该领域进一步后处理的必要步骤,例如:[27]第10段。鉴于使用基于transformer的架构在各种NLP任务中取得的令人印象深刻的进步,例如[3],我们使用这种方法来解决手头的问题 更具体地说,我们通过微调BERT将这两个步骤视为使用二进制标签的序列标记任务,并将我们的工作与以前使用的基准测试的强基线进行比较。通过提供我们所有的资源(代码和测试集合),我们的目标是为未来的工作提供一个坚实的参考点和一个强大的基准。2相关工作我们将依次简要讨论这两个问题,即: 句子边界检测(SBD)和说话人变化检测(SCD)。2.1句子边界检测(SBD)SBD是一个重要的和研究充分的文本处理步骤,但它通常依赖于输入文本中标点符号的存在[7]。即使有这样的标点符号,它也可能是一项艰巨的任务,例如。 [5,20],而传统方法使用各种架构,包括CRF [12]以及HISTORY、最大似然和最大熵方法的组合[11]。对于不加标点的文本(以及缺乏词的大小写信息),它变得更加困难,因为即使是人类也很难在这种情况下确定句子边界[23],如图1所示。 Song等人[22]通过使用YouTube字幕数据检测5个单词块内的句子边界来简化我们正在解决的问题。使用LSTM,他们报告在预测样本的句子边界的位置时的F1为81.43%,但没有考虑任何没有句子边界的组块。Le [8]提出了一种最初用于NER的混 合 模 型 ( 使 用 BiLSTM 和 CRF ) , 该模型通 过 预 处 理CornellMovie-Dialogue和DailyDialog数据集以获得既不包含句子边界标点符号也不包含单词大小写信息的样本(它们还预测句子是陈述句还是疑问句),在会话数据的上下文中对SBD进行评估。他们报告F1得分为81.62%,CornellMovie-Dialogue 数 据 上 的 问 题 和 91.90% 的 陈 述 以 及DailyDialogue上的94.66%(问题)和96.29%(陈述)。据我们所知,只有杜等人。[4]提出了一种基于transformer的方法来解决这个问题,但他们假设部分标点文本和单词大小写信息。因此,Le[8]和Song et al.[22]似乎是比较我们的方法的最强基线。2.2扬声器变化检测(SCD)这一领域的大多数相关工作都涉及基于音频的SCD[2,13,14,18],除了Meng等人。[16]他收集了转录的对话。文本数据被预处理为小写并包含标点符号。他们比较了不同的深度学习方法,其中表现最好的是具有LSTM层,分层上下文和静态注意力的RNN,F1得分为78.4%。 除了这项工作之外,还有其他方法处理基于文本的SCD主题,尽管没有明确,例如。Serban和Pineau[21],或者他们旨在为句子分配特定的说话者ID [15]。总之,Meng et al.[16]似乎是最合理的基线选择。 我们亦会采用他们的基准语料库作比较。3方法学和实验装置我们对待这两个任务,SBD和SCD,序列标记任务。更具体地说,我们将IO标记应用于从NER [7]中采用的标记化文本数据的标签序列在这两种情况下,两个不同的标签足以分别识别标记是否标记句子边界或不同说话者的话语开始 我们使用预先训练的基于transformer的语言模型,并在两个任务中进行微调。由此产生的IO序列标签,让我们推断句子边界(SBD-TT)和扬声器的变化(SCD-TT)。对于实验设置,我们选择微调BERT-base- uncased(考虑到我们的输入预计将以XML格式进行,我们不需要语言模型中的大小写信息模型训练和评估使用Python huggingface3 transformers库的PyTorch2版本实现该模型使用argmax运算符,我们可以推导出与每个引入标记的标签列表相同维度的结果向量的标签。这些进程使用三个Nvidia GeForce RTX 2080 GPU执行,总内存大小为24GB。大多数实验在3个时期内执行,使用16个批次大小。根据Devlin等人的建议设置历元的数量。[3]的文件。除非进一步说明,否则我们参考我们的GitHub存储库4以获取特定于任务的序列长度,与我们的参数设置的偏差,所有源代码,数据,模型和其他信息。在适当的情况下,我们应用配对t检验进行显著性检验-ing(在p <0. 01)。2https://pytorch.org/3https://huggingface.co/4https://github.com/doGregor/SBD-SCD-pipeline理解字幕WWW3594数据集为了公平比较,我们采用了以前工作中提出的数据集对于SBD,我们使用从Song等人复制的斯坦福讲座数据集。[22],Li等人提出的DailyDialog数据集”[10]又说:“八。此外,我们还尝试了一个混合集。对于SCD,我们使用由Meng等人介绍的数据集[16](我们称之为孟语料库)。4.1斯坦福大学讲座数据集训练开发测试斯坦福大学讲座19,285 2,411 2,411每日对话15,259 1,374 1,405混合数据集34,156 3,848 4,142MengCorpus174,702 二万二千零六十五二万一千九百一十八表1:每个数据集Song等人[22]收集了手写的演讲字幕由斯坦福大学在YouTube上提供,使用与讲座系列“自然语言处理与深度学习”和“人类行为生物学”相关的文本我们重复了这个过程。除此之外,我们还确定了另外五个讲座系列,斯坦福大学提供了字幕,并收集了附带的文本数据(产生了大约4倍大的语料库)。关于具体讲座的详细信息,它们的来源以及数据本身可以在我们的GitHub存储库中找到对于进一步的数据预处理,我们基本上采用了Song等人介绍的方法。[22]第20段。加标点的文字记录提供了真实的信息。 我们将所有文本数据转换为小写,并使用NLTK 5对数据进行标记。少于7个或超过70个单词的句子将被丢弃,任何标点符号都将被删除。最后,标记包括句子边界位置的所有标记。然后,文本被分成64个标记-标签对的块 句子边界标签可以出现在这些块中的任何地方(这比Song等人的5字块方法更通用。[22])。在我们的工作中应用的预处理步骤描述在图3.图3:SBD的数据预处理按照惯例,我们将数据分为训练(80%),开发(10%)和测试集(10%)[7]。所有样本都以CoNLL-2003格式保存[26],这是NER等标记任务经常使用的格式。5nltk.org/index.html精度 F1得分Song等人[22]70.84% 81.43%[8]第一届全国人大代表SBD-TT表2:Song等人描述的应用于斯坦福大学讲座的句子边界检测[22日]4.2DailyDialog使用的第二个数据集,最初由Li et al.[10]用各种各样的日常生活话题捕捉日常交流由于完整的文本数据是人类书写的,因此预期其比例如自动转录的会话数据噪声更小。该数据集被Le用于SBD[8],并以80:10:10的比例分割。4.3混合数据集为了能够训练一个可以预测会话数据中的句子边界以及单个人的语音数据的单一模型鉴于文本的会话结构,我们不能简单地随机化开发和测试集。 相反,我们将数据分成10个句子的块,然后进行洗牌。它们被连接起来,然后被分成长度为64的样本。因此,后续句子的结构以及对话应该被保留。表1列出了每个数据集的基本属性。4.4孟氏语料库对于SCD,我们使用由Meng等人介绍的数据集[16]第10段。这是一个收集了3,000小时的CNN谈话节目的手抄本。这些抄本通过分配的说话者ID提供说话者变化信息它们以80:10:10的比例分为训练集、开发集和测试集。数据以每行一句的形式提供因此,我们使用NLTK来执行标记化,然后相应地标记说话人的变化 我们将文本分成7个连续句子的样本,以包含尽可能多的上下文,并满足BERT的最大序列长度(512个标记)。因此,结果样本在出现的标记-标签对方面具有不同的长度它们以CoNLL-2003格式保存基本性能见表1。WWWDonabauer,Kruschwitz andCorney360数据准确性 F1得分斯坦福大学讲座(大)97.98% 79.83%混合数据集97.64% 85.31%表3:应用于我们自己的数据集的句子边界检测基准5结果我们将首先报告实验结果,然后在下一节中进一步所有指标都是在基于令牌的水平上计算的5.1句界限检测由于Song等人的代码和数据均不可用[22],我们简单地在表2中重现了他们的准确性和F1测量。然而,如上所述,我们还复制了数据收集和处理步骤,并运行了5倍交叉验证,以将我们的方法(SBD-TT)与Le [8]进行比较。 结果也可以在表2中找到。 配对t检验显示,SBD-TT在准确性和F1方面优于Le [8](p <0时显著)。01)。我们还在DailyDialog数据集上训练和测试了SBD-TT,并获得了97.19%的语句F1(与 96.29%由Le [8]报告)和问题:95.64%(与94.66%)。我们观察到,我们的SBD-TT方法的句子边界检测优于国家的最先进的方法,并得出结论,我们的香草变换为基础的方法,使用BERT留下了进一步的进步。作为额外的贡献和促进可重复性,我们还提供了从本文介绍的两个语料库(可在我们的GitHub帐户上获得)中获得的基准:更大的斯坦福大学讲座数据集和混合数据集,这些在表3中报告。请注意,对于这些实验,我们使用64个单词的序列长度(不像表2中用于与基线进行比较的更短的5个单词块)。回到相关工作的讨论,有人可能会问,为什么我们没有将我们的结果与Du等人报道的结果进行比较。[4]?这是因为他们处理的是一个相似但不同的问题。他们有可用的词的大小写信息和超过90%的“句子结束”标记。因此,这不是一个合适的比较。5.2说话人变更检测我们报告了两个不同的结果,并与Meng等人的基线评分进行了比较。[16],因为我们使用两种不同的方法进行评估。第一种评估方法简单地一次使用7个连续的句子,并用说话者变化标签标记那些句子 第二种方法也使用7个连续的句子作为输入,但只考虑中间句子的预测。所有其他句子都被视为上下文。这个滑动窗口评估是以每次一个句子的步幅执行的表4显示了Meng等人的结果[16]与我们的方法相比,SCD-TT。我们注意到,我们简单的微调方法对于说话人变化检测是有竞争力的,并且对于基于滑动窗口的评估,与Meng等人的最佳得分相比,我们甚至在F1中实现了0.4个百分点的提高[16]第10段。总的来说,结果表明,上下文是重要的模型来预测说话人的变化。这证实了Meng et al. [16]第10段。虽然他们在评估的句子的每一边使用了8个句子的上下文,但我们受到最大序列长度512个标记的限制,这些标记可以用作我们基于BERT的模型的输入因此,我们只使用了3个句子的每一方的评价句子作为上下文,但仍然能够实现F1分数略高于那些报告的孟等。[16]第10段。6讨论从我们的实验设置和我们获得的结果中首先,为什么我们只检验SBD-TT的统计学显著性原因是,虽然我们能够复制的工作乐[8],宋等人。[22]我们没有密码,也没有确切的数据。我们向作者提出了这两项要求,但没有得到回复(因此仅与报告的结果进行比较)。与SBD不同的是,我们在SBD中实现了新的最先进性能,而在SCD中,我们的结果与性能最佳的替代品相当,因此我们仅与Meng等人报告的性能进行比较。[16]第10段。还有,为什么我们不把这两种方法结合起来,先检测句子边界,然后再检测说话人的变化?我们的总体目标是展示我们的方法的普遍适用性,并为这两个问题中的每一个提供强有力的基准,而不是提供结合两者的最佳模型。因此,可以在必要时单独使用模型,例如,当处理单个人的成绩单时,我们不需要SCD模型。显然,这为未来的调查留下了足够的空间,GitHub上的所有资源都将支持这一点。另一个问题是,我们的方法与最先进的方法相比表现出色(请记住,我们使用的是一个相对简单的架构),我们要问的是,我们的方法编码了什么样的知识,而其他方法没有编码? 我们认为BERT清楚地编码了这两个任务所需的上下文信息类型。该信息被隐式地捕获,并且部分地在微调以及在预训练中获得。再次注意,我们的目的是证明基于transformer的方法的普遍适用性。使用其他基于BERT的模型以及更好的微调可以带来进一步的改进。最后,人们可能会问,与其他最先进的方法(如说话人变化检测的情况)相当的性能是否会给我们带来任何好处。好吧,除了刚才提出的几点,我们还应该指出,我们用一个更简单的模型为两个任务获得了更好的(SBD)或类似的(SCD)结果假设我们只应用一个非常简单的设置(例如, 仅使用BERT基础),有可能在不失去整体简单性的情况下提高效率。回到最初的示例,图4展示了应用两个模型生成的输出而理解字幕WWW361模型精度精度召回F1得分随机猜测百分之六十一点八26.0%25.0%百分之二十五点四Logistic回归w/(uni+bi)-gram百分之八十点五73.0%39.0%百分之五十点九DNN w/(uni+bi)-gram百分之七十六点六百分之五十四点四百分之五十八点八百分之五十六点五CNN w/o context百分之七十七点八百分之五十六点八百分之五十八点九百分之五十七点八无上下文RNN百分之八十三点三百分之七十二点五百分之五十七点一百分之六十三点九RNN w/context(非层次)百分之八十三点七百分之七十二点六60.0%百分之六十五点七RNN w/context(hierarchical)百分之八十五点一74.6%百分之六十四点六百分之六十九点二SCD-TT w/o滑动窗口评估百分之八十二点四76.2%72.1%74.1%RNN w/context(hierarchical)+staticattention百分之八十九点二百分之八十一点五百分之七十五点六百分之七十八点四SCD-TT w/滑动窗口评估百分之八十五点四百分之八十点一百分之七十七点六百分之七十八点八表4:说话者变化检测的结果与Meng等人报告的分数的比较[16个]句子分割在这种情况下工作得很好,我们看到说话人变化检测(由标签True预测)留下了改进的空间:第4行,第8行,第9行和第10行被错误分类。图4:初始示例的恢复结构。7结论与图像处理相比,自然语言处理现在也见证了从传统统计方法到深度学习架构的范式转变。这在广泛的应用程序中带来了一些惊人的性能然而,仍然有很多开放的问题 不同类型的媒体和新的互动形式的迅速发展的混合突出了这样一个事实,即在不同社区之间的界面,例如那些使用口语和书面文本数据的社区,有机会取得迅速进展。这可以通过采用已经被证明可以推动其他地方的最新技术发展的范例来实现,最突出的是基于transformer的架构。在本文中,我们确定检测句子边界和说话人的变化,在不加标点的文本作为自然语言处理的问题,坐在口头和书面文本之间的接口,并吸引了很少的兴趣之前。通过将我们的方法提供给事实检查员,他们可能会发现它是理解字幕WWW362限制其传播。除了事实检查员的工作之外,我们还设想将拟议的步骤纳入NLP管道,这些管道将自动标记此类有害或误导性信息。6我们应该注意到,这两个任务可以被视为单独的NLP任务,也可以被组合为两个步骤的序列。在我们的工作中,我们将这两个任务都视为一个IO标记问题,使用基于BERT的语言模型进行微调。我们报告的结果表明,手头的问题是另一对基于transformer的范例优于现有基线的例子。 由于我们只对基本模型进行了实验,因此还有很大的空间进一步提高效率。为了促进进一步的研究,我们还提供了一系列的语料库和基准,可用作未来的参考点。致谢这项工作得到了大众基金会资助的项目COUCHEMICAL的支持:一个社会媒体伴侣保护和教育学生,资助号95564。引用[1] 菲比·阿诺德2020年。在线事实核查的挑战。技术报告。Full Fact,London,UK. https://fullfact.org/media/uploads/coof-2020.pdf[2] S. Chen和P.S.哥帕拉克里希南1998.通过贝叶斯信息准则的说话人、环境和信道 变化检测和聚类。 DARPA 广播 新闻 转录 和理解 研讨 会。Landsdowne,USA,127-132.[3] Jacob Devlin ,Ming-Wei Chang,Wendon Lee,and Kristina Toutanova.2019年。BERT:Deep Bidirectional Transformers for Language Understanding的预训练。在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文)。 计算语言学协会,明尼阿波利斯,明尼苏达州,4171-4186。https://doi.org/10.18653/v1/N19-1423[4] Jinhua Du , Yan Huang , and Karo Moilanen. 2019. AIG Investments.FinSBD任务中的AI:通过序列标签和BERT微调进行句子边界检测。 第一届金融技术和自然语言处理研讨会论文集。计算语言学协会中国澳门,81比87. https://www.aclweb.org/anthology/W19-5513[5] 丹·吉利克。2009年句子边界检测和美国的问题在人类语言技术会议录:2009年计算语言学协会北美分会年会,Companion卷:短文(科罗拉多州博尔德)(NAACL-Short '09)。计算语言学协会,美国,241-244。易于识别和分析电视辩论期间提出的主张或新闻采访作为在线文本新闻网站的声明这将有助于确保无论在何处共享有害或误导性信息,都能迅速识别并提出质疑,6作为COUCHEMICAL研究项目的一部分,我们正在探索帮助青少年管理社交媒体曝光的方法,方法是提供一个虚拟伴侣,该伴侣将自动识别仇恨言论,欺凌或其他有毒内容的例子。WWWDonabauer,Kruschwitz andCorney363[6] C. C. 瑞因河X. J. 韦湖,澳-地F. E. 班克斯2017年。基于词性标注的双向递归神经网络标点预测在TENCON2017-2017IEEERegion10会议上。IEEE,槟城,马来西亚,1806- 1811。[7] 丹尼尔·朱拉夫斯基和詹姆斯·马丁2020年。语音和语言处理:Introduction to Natural Language Processing , Computational Linguistics , andSpeechRecognition(第三版)https://web.stanford.edu/~jurafsky/slp3/[8] 英乐号2020年。基于序列标记的句子边界检测方法。第四届机器学习和软计算国际会议(越南海防市)(ICMLSC 2020)。ACM,纽约,NY,USA,144-148. https://doi.org/10.1145/3380688.3380703[9] 琼·佩斯利·莱文森一九八五年标点符号与正字句的语言学分析。博士论文。纽约市立大学[10] 李嫣然,苏慧,沈晓宇,李文杰,曹自强,牛淑子2017年。DailyDialog:一个手动标记的多轮对话数据集。第八届自然语言处理国际联合会议论文集(第1卷 : 长 文 ) 。 亚 洲 自 然 语 言 处 理 联 合 会 , 台 北 , 台 湾 , 986-995 。https://www.aclweb.org/anthology/I17-1099[11] 杨柳,安德烈亚斯·斯托尔克,伊丽莎白·施里伯格,玛丽·哈珀。2004年。比较和结合生成和后验概率模型:语音中句子边界检测的一些进展。2004年自然语言处理经 验 方 法 会 议 论 文 集 。 计 算 语 言 学 协 会 , 巴 塞 罗 那 , 西 班 牙 ,64https://www.aclweb.org/anthology/W04-www.example.com[12] 杨柳,安德烈亚斯·斯托尔克,伊丽莎白·施里伯格,玛丽·哈珀。2005年基于条件随机场的语音句子边界检测。在第43届计算语言学协会年会(密歇根州安娜堡)(ACL计算语言学协会,USA,451-458. https://doi.org/10.3115/1219840.1219896[13] 吕烈和张洪江2002年。实时新闻广播分析中的说话人变化检测与跟踪。 在第十届ACM多媒体国际会议(Juan-les-Pins,法国)(MULTIMEDIA'02)上。计算机协会,纽约,纽约,美国,602-610。http://doi.org/10.1145/641007.641127[14] 吕烈和张洪江2005年实时音频内容分析中的无监督说话人分割和跟踪。多媒体系统10,4(April 2005),332-343. https://doi.org/10.1007/s00530-004-0160-5[15] Kaixin Ma,Catherine Xiao,and Jinho D.崔2017年。 使用多文档卷积神经网络的多方对话中基于文本的说话人识别。在计算语言学协会第55届年会的会议记录中,ACL 2017,学生研究研讨会,Allyson Ettinger,SpandanaGella,Matthieu Labeau,Cecilia Ovesdotter Alm,Marine Carpuat和MarkDredze(编辑)。计算语言学协会,温哥华,加拿大,49比55。https://doi.org/10.18653/v1/P17-3009[16] 赵萌,牟丽丽,执瑾。2017年。基于静态句子级注意力的分层RNN用于基于文本的说话人变化检测。在2017年ACM信息和知识管理会议(新加坡,新加坡)(CIKMACM,纽约,纽约,美国,2203https://doi.org/10.1145/3132847.3133110[17] DimitriOgnibene,Davide Taibi,Udo Kruschwitz,Rodrigo Souza Wilkens,Davinia Hernani-Leo,Emily Theophilou,Lidia Scifo,Rene Alejandro Lobo,Francesco Lomonaco,Sabrina Eimler,H. Ulrich Hoppe和Nils Malzahn。2021年挑战 社会媒体威 胁使用集体福 祉意识推荐 算法和教育 虚拟伴侣。arXiv:2102.04211[cs.CY][18] Sree Hari Krishnan Parthasarathi , Mathew Magimai.- Doss , Daniel Gatica-Perez,and Hervé Bourlard. 2009年 具有隐私保护音频线索的说话者改变检测。 在2009年多模式接口国 际 会 议 (美国马萨诸塞州剑桥)(ICMI-MLMI'09)的会议记录中。ACM,纽约,NY,USA,343-346. https://doi.org/10.1145/1647314.1647385[19] 兰斯·拉姆肖和米奇·马库斯。1995.基于转换学习的文本组块。第三届大型语料库研 讨 会 。 计 算 语 言 学 协 会 , 剑 桥 , MA , 美 国 ,82https://www.aclweb.org/anthology/W95-0107[20] 乔治·桑切斯。2019年。法律文本中的句子边界检测在2019年自然法律语言处理研讨会上。计算语言学协会,明尼阿波利斯,明尼苏达州,31http://doi.org/10.18653/v1/W19-2204[21] 尤利安五世塞尔班和乔尔·皮诺2015年。多参与者开放域对话系统中基于文本的说话人识别。机器学习口语理解和交互,NIPS 2015研讨会。蒙特利尔,加拿大 http://slunips2015.wixsite.com/slunips2015/accepted-papers[22] Hye Jeong Song,Hong Ki Kim,Jong Dae Kim,Chan Young Park,andYu Seop Kim.2019年。 使用长短期记忆(LSTM)对YouTube字幕进行句间分 割 。 应 用 科 学 ( 瑞 士 ) 9 , 7 ( 2019 ) 。 网 址 : //doi.org/10.3390/APP9071504[23] 马克·史蒂文森和罗伯特·盖佐斯卡斯。两千 句子边界检测实验。第六届应用自然语言处理会议论文集。美国新泽西州莫里斯敦计算语言学协会84-89.https://doi.org/10.3115/974147.974159[24] 奥托卡·蒂尔克和塔内尔·阿鲁梅。2015年。 LSTM用于语音转录中的标点恢复。在 INTERSPEECH 2015 , 第 16 届 国 际 语 音 通 信 协 会 年 会 。 ISCA ,Dresden,Germany,683http://www.isca-speech.org/archive/interspeech_2015/i15_0683.html[25] 奥托卡·蒂尔克和塔内尔·阿鲁梅。2016年。带注意机制的双向递归神经网络标点符号恢复。在Interspeech 2016,第17届国际语音通信协会年会,纳尔逊摩根( 编 辑 ) 。 ISCA , 旧 金 山 , 加 利 福 尼 亚 州 , 美 国 , 3047-3051 。https://doi.org/10的网站。21437/Interspeech.2016-1517[26] 埃里克·FTjong Kim Sang和Fien De Meulder。2003年。 介绍CoNLL-2003共享任务。 在HLT-NAACL 2003年第七届自然语言学习会议的会议记录中,第4卷。计算语言学协会,Morristown,NJ,USA,142-147. https://doi.org/10.3115/1119176.1119195[27] S.E.川特和雷诺兹检察官。2006.自动扬声器拨号系统概述。IEEE Transactionson Audio , Speech and Language Processing14 , 5 ( sep 2006 ) ,1557https://doi.org/10.1109/TASL.2006.878256[28] K. 许湖,加-地Xie和K.耀2016年。研究LSTM的标点预测。2016第十届汉语口语处理国际研讨会IEEE,天津,中国,1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功