深度学习在大规模分类中的应用与挑战

40 浏览量更新于2024-06-19 收藏 3.95MB PDF 举报

"大规模分类的表示学习 - 托马斯·杰拉德，2020年索邦大学博士论文，开放获取档案馆HAL" 本文主要探讨了大规模分类问题中的表示学习，作者托马斯·杰拉尔德在索邦大学的博士研究中深入研究了这一主题。大规模分类是指在具有大量类别或标签的数据集中进行预测的任务，这在当今的机器学习领域具有重要的实际应用，如图像识别、自然语言处理和推荐系统等。在论文中，作者首先介绍了机器学习和大数据的关系，强调了在大数据背景下，处理高维和复杂数据的必要性。随着数据规模的增长，传统的分类方法可能会遇到效率和准确性的挑战，因此，表示学习成为了解决这一问题的关键技术。表示学习的目标是通过学习有效的低维表示来捕获数据的内在结构和模式，从而简化分类任务。论文接着讨论了极端分类（Extreme Classification），这是一个专门针对大量类别问题的子领域。在大规模分类任务中，数据集可能包含成千上万甚至更多的类别，这使得传统的二进制或多类分类方法难以应对。作者分析了这类任务的特点，包括数据的标注情况、所使用的语料库、类别分布以及评估指标的选择。面对分类挑战，论文提出了多种应对策略。早期多类分类是一种处理大规模分类的方法，它将整个任务分解为一系列二分类子任务，通过构建层级结构或者使用集成学习来减少计算复杂度。同时，论文也探讨了如何通过有效的近似算法来降低大规模分类的时间复杂度，这对于实时或资源有限的环境尤其重要。论文的其他部分可能涵盖了表示学习的具体算法、模型比较、实验设计以及实证结果分析。作者可能还讨论了不同方法在不同数据集上的表现，并对比了它们的优缺点。此外，论文可能还包括对现有工作的批判性评估，以及对未来研究方向的展望。总体而言，这篇论文为理解大规模分类问题和表示学习在解决此类问题中的作用提供了深入的见解，对于研究人员和工程师来说是一份宝贵的资源，有助于推动这一领域的理论发展和实际应用。

I N

R O D U C

I O N

内容

1.1

机器学习和大数据 . . . . . . . . . . . . . . . . . . . 1

1.2

极端分类。. . . . . . . . . . . . . . . . . . . . . . . 2

1.3 捐款。. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4 文件结构 . . . . . . . . . . . . . . . . . . . . . . 6

1.1 机器学习和大数据

共享视频、照片或更一般的多媒体内容如今是一种常见的做法。这种行为是由

信息技术进步和最大数量的多个设备（如智能手机或笔记本电脑）的普遍访问所

促进的在过去的二十年里，内容流并没有停止增长，此外，大部分时间内容都是

存储的，并供大量用户免费访问。例如，在2019年，平均有6000条消息（tweets）

秒在Twitter平台上发布。此外，网站内容广泛增长，如在线百科全书

维基百科

，

今天有超过5100万篇文章。因此，一个问题仍然存在，用户如何有效地检索内

容？

今天，寻求文章或更全球性的内容，是通过在搜索引擎中输入由相关关键字组

成的查询来对于最具体的搜索，搜索引擎会建议用户从关键字列表中选择主题

不幸的是，很少有文档明确给出关键字信息检索关键字是许多应用程序的起

源，例如前面提到的信息检索，但也用于信息组织任务：例如按主题对内容进行

排序。

然而，由于成本和效率的原因，要处理的过多数量的数据阻止了人工注释为了

实现这一目标，许多自动标注的方法被开发来处理的分类任务。尽管做出了努

力，但数据的多样性、规模以及更大程度上的复杂性阻止了以前的方法扩展到语

料库的规模

C h APTER

1.2

极端第三类小说

标准方法的一个主要缺点是预测时间取决于标签的数量，标签的数量主要与预

测时间成线性关系。这个问题可以使用额外的约束来处理，以减少预测时间和存

储。例如，使用线性分类器确保稀疏性减少了参数的数量，从而减少了操作的数

量。尽管减少了参数的数量，但这些方法仍然考虑与类别一样多的预测器（或分

类器）为了减少处理时间，可以考虑分而治之的主要思想依赖于划分的特征或标

签空间，因此，分类器只关注一个子部分的数据。

另一方面，准确的预测与预测时间复杂度一样重要。然而，在许多情况下，降

低复杂性会对准确性产生负面影响。因此，目标通常是考虑这两个挑战之间的权

衡，优化准确性和推理时间。

分类任务

如果方法主要根据所处理的挑战而不同，那么它也取决于所考虑的

任务（或分类

办法）。在极端分类中

，根据任务的不同处理不同的目标。我们可以定义三种分类

方案：

•

eXtreme Mono-Label（

XMoL

）分类：每个文档都

使用唯一的标签进行注

释。例如，对于ImageNet分类任务，一个图片数据集

，目标是预测最好描

述每个图像的类。

•

极限多标签（

XMul

）分类：每个文档都用一个或多个标签进行注释。例

如，检索图像上的所有项目，或查找文档的所有主题

•

eXtreme Missing-Label（

XMiL

）分类：每个文档都

用一个或多个标签进行注

释，但由于语料库

部分标记，因此范例与XMuL不同。例如，在图像的上下

文中，只有一小部分项目已经标记了图像，目标是预测丢失的项目。因

此，标签被认为是潜在的功能，相反，XMul没有标签。

注意分配

每一种

极端分类

方案都必须处理特定的问题。在单标记设置中，标记的出现可

能显著不同，使得一些标记比其他标记被观察得更多我们把这个问题称为标签分

布不平衡标签分布对性能有直接影响，特别是当标签的实际分布与用于训练分类

器的分布不同幸运的是，考虑到

在生产中，

数据集很少出现这种情况，训练集、评估集和测试集具有相似的标签分布。

标签分布平衡引起的真正问题是当我们解决多标签分类时。在最后一种设置

中，我们经常观察到重要的不平衡，导致真实语料库中的标签注释了一半以上的

训练示例，而其他人只有少数示例。因此，分类器应该仔细设计，以确保不仅预

测最频繁的类。

表示学习

邻域搜索算法是在给定度量和空间的情况下寻找最近的邻域。在分类中，文档

位于一个称为特征空间的空间中有了这最后一个先验，人们可以预期具有接近表

示的文档将具有类似的注释。然而，与特征空间相关联的距离（例如欧几里德空

间中的

此外，根据特征空间的大小，最近邻搜索可能很耗时，例如图像可以用像

素值向量表示，这可能导致非常高的预测时间。表示学习方法旨在通过将特征空

间嵌入低维空间并确保紧密嵌入的文档被类似地标记来解决这两个问题。此外，

基于邻域的搜索预测仍然可以预测稀有标签，因为文档可能靠近由代表性不足的

标签标记的文档。虽然贪婪邻居搜索经常达到最高性能，但

即使嵌入在较低的空间

中也是耗时的。事实上，预测建议将嵌入的

示例与大量已知的表示进行比较。然而，

在这方面，

可以使用近似邻居搜索来解决这个问题

1.3

贡献

本论文的目标是研究表示方法，目的是找到有效的解决方案，极端的分类挑

战。我们主要关注其中的两个挑战，预测时间复杂度和预测精度。

在博士论文开始时，很少有方法提出了现代方法来处理基于表示的方法的大规

模分类表示方法

依赖于标签/特征空间降维范式。目标

在于找到文档或标签的最佳低

尺寸表示，从而降低时间复杂度。一旦文档被投影，就应该通过一个算法或一个

函数来检索标签，该算法或函数至少涉及与标签一样多的操作。我们可以将嵌入

方法分为两部分，嵌入过程也

1.3

cO nFIVATIOS ns

称为编码，而重建通常称为解码过程或解码器。

大多数情况下，以前的方法考虑特征空间的

欧几里得

嵌入。在

博士研究

之初，

这个原则被称为

标签

特征

空间降维。它通常将复杂度从O（NK）降低到O

（

Nc+cK

），其中

是特征的数量，

是类的数量，

是表示的大小（

用于编码

器，

用于解码器）。然而，应该注意到，考虑有限数量的表示和从表示空间到

索引的散列函数将导致非常快的解码过程。在最后一种可能性中，为每个表示存

储相关联的标签将允许恒定的解码时间。因此，唯一的时间复杂度瓶颈是编码函

数和哈希函数的应用。学习文档的二进制表示是前面原则的一个可能的应用。实

际上，考虑低维度的空间，将允许枚举和存储所有可能的组合（将c视为二进制向

量大小将导致

个

可能的代码）。在第3.1节中，Ou的第一个贡献研究了二进制嵌

入，以根据所述原理加快预测时间。然而，当表示空间的维数变得太大时，最后

一种解码方法是难以处理的，因为代码的数量随着

呈

指数增长。幸运的是，仍然

可以获得次线性时间分类。例如，考虑表示学习和邻居搜索的框架可以导致使用

基于桶的邻居搜索的时间效率预测然后，剩下的最后一个问题取决于如何学习这

些二进制

向量。随机设计会明显降低性能，特别是在邻居

搜索解码中。为了解决这个

问题，我们提出了一个端到端的学习过程，共同学习编码器和解码器

遵循为时间有效的标签预测找到有效的结构表示的相同原则，我们提出了一种

端到端的方法来解决多标签设置。在多标签语料库中，标签的子集是相互依赖

的，即标签是相关的，因为它们总是或经常一起出现考虑这些子集来学习分类器

应该会提高性能。因此，第二个贡献的主要思想是发现这些子集，并为给定的文

档检索最有可能标记它的子集。与之前的提议类似，一起学习编码器（模型中旨

在选择子集的部分）和标签分区（相互依赖的标签的子集）将依赖于更好的性

能。在某些条件下，然后可以通过聚合所选标签集来在次线性时间中检索注释

今天，准确性的挑战主要是解决考虑连续表示学习方法。特别是最近的作品，

如SLEEC（Kush Bhatia et al.2015）或AnnexML（Tagami2017 a）在绝大多数语料库上

达到了最高性能。这些算法紧密地嵌入到表示空间中相似的文档

w.r.t他们的标签。随后，推断基于快速邻居搜索解码，

剩余148页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度学习在大规模分类中的应用与挑战

大规模知识图谱的表征学习

大规模网络表示学习——宋国杰北大讲义

深度学习驱动的图表示学习：融合节点先验信息提升大规模网络分类效果

Python-GenSen基于大规模多任务学习的通用句子表示PyTorch

大规模视频数据集中的关键帧表示学习.pptx

4自然语言处理系列：深度学习解决大规模文本分类问题.pdf

大视觉单词用于大规模图像分类

大规模复杂网络表示学习：概念、方法与挑战

多级判别词典学习提升大规模图像分类效率

大规模图像分类的层次学习：CNN特征与最大置信路径

最新资源