Label-Specific Document Representation for Multi-Label Text Classification
时间: 2024-06-05 19:13:12 浏览: 121
Consistent SOVD interfaces - from specification to validation.
该论文提出了一种用于多标签文本分类的标签特定文档表示方法。传统的文本分类方法通常将每个文档表示为一个向量,其中每个元素对应于语料库中的一个单词或短语。然后,这些向量被输入到分类器中进行训练和预测。然而,多标签文本分类需要考虑标签之间的相关性,因此需要一种更加复杂的文档表示方法。
该论文提出了一种基于标签的方法,其中每个标签都有一个对应的向量,并且每个文档都由多个标签向量组成。这些标签向量可以被看作是文档表示的一部分,因为它们反映了文档与每个标签之间的相关性。具体而言,该方法使用一种叫做标签嵌入(label embedding)的技术,将每个标签表示为一个向量,并将它们组合成一个标签矩阵。
然后,对于每个文档,该方法计算出一个基于标签矩阵的文档表示。具体而言,对于每个标签,该方法计算出文档与该标签之间的相关性分数,并将其乘以该标签的向量。然后,将所有标签的加权向量相加,得到文档表示。
实验表明,该方法在多个数据集上都比传统的文档表示方法表现更好,特别是在具有高度相关标签的情况下。
阅读全文