张量分解驱动的增量文本特征降维方法

42 浏览量更新于2024-08-27 收藏 101KB PDF 举报

"基于张量分解算法的增量降维研究" 在大数据时代，特别是文本挖掘和检索领域，文本数据量巨大，通常用向量空间模型表示。由于条目数量众多，导致向量空间的维度极高，这给计算带来了极大的挑战。为了解决这一问题，研究论文“基于张量分解算法的增量降维研究”提出了一种新的方法，针对大规模时序数据进行有效的降维处理。首先，该研究将文本特征图视为二阶张量（即矩阵）。每个文本特征图代表了文本数据的一部分特性，通过这种方式，能够捕捉到文本的结构信息。接着，将多个文本特征图组合成一个三阶张量，这有助于捕获数据间的复杂关联和模式。关键在于应用张量Tucker分解。张量Tucker分解是多维数组的一种高级分解方法，类似于矩阵的奇异值分解(SVD)，但能处理更高阶的张量。它将大张量分解为一个核心张量和一组因子矩阵，从而能够提取数据的主要成分，同时减少数据的维度。在文本特征图的场景下，这种方法可以有效地抽取关键特征，实现降维目的。论文中提到，通过使用张量Tucker分解进行增量降维，能够在数据不断增长时逐步处理，而不是一次性处理所有数据，这显著减少了计算复杂性。实验结果表明，该方法在真实数据集上表现出了简单性和高效性，对于文本特征图的降维效果显著。此外，关键词“Tensor”、“Tucker分解”和“Text feature graphs”揭示了研究的核心内容。Tensor（张量）是高阶数组的数学表示，广泛应用于数据科学中，特别是在处理多维数据时；Tucker分解是张量分析的重要工具，适用于数据挖掘和机器学习中的降维问题；而Text feature graphs则强调了研究的应用背景，即文本数据的处理。总结来说，这篇研究论文提出了一种创新的、基于张量分解的增量降维方法，适用于处理大规模文本数据，尤其是在实时或流式数据环境下。通过张量Tucker分解，能够在保持数据重要性的同时，有效地降低文本特征图的维度，提高计算效率。这种方法对于处理不断增长的数据集具有很大的实用价值，为文本检索和挖掘领域的降维问题提供了新的解决方案。

Research of Incremental Dimensionality

Reduction Based on Tensor Decomposition

Algorithm

Xin Guo, Yang Xiang, Dongdong Lv, Shuhan Yuan, Yinfei Huang,

Qi Zhang, Jisheng Wang and Dong Wang

Abstract For mass or temporal data, it is too large and even impossible for the

calculated amount of dimension reduction all at once. Based on text feature graph

clusters, ﬁrst, each text feature graph serves as a second-order tensor. Then, two or

more text feature graphs were made up to form a third-ord er tensor. Moreover, tensor

Tucker decomposition is used to study the incremental dimensionality reduction

methods of text feature graphs. Finally, experiments on real data sets show that this

method is simple and effective for dimensionality reduction of text feature graphs.

Keywords Tensor



Tucker decomposition



Text feature graphs

1 Introduction

In the ﬁeld of text retrieval and text mining, text data is often expressed by the

vector space model. Because of the large number of entries, the dimension of the

vector space becomes very high, resulting in very large amount of calculation and

X. Guo (&)

School of Computer and Information Technology, Shanxi University,

Taiyuan, China

e-mail: guoxinjsj@163.com

Y. Xiang  D. Lv  S. Yuan  Q. Zhang  J. Wang

Department of Computer Science and Technology, Tongji University,

Shanghai, China

Y. Huang

Shanghai Stock Exchange, Shanghai, China

Q. Zhang  J. Wang

Shenhua Helishi Information Technology Co. Ltd., Beijing, China

D. Wang

School of Computer Science & Information Engineering,

Shanghai Institute of Technology, Shanghai, China

Q.-A. Zeng (ed.), Wireless Communications, Networking and Applications,

Lecture Notes in Electrical Engineering 348,

DOI 10.1007/978-81-322-2580-5_9

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38535364

粉丝: 11
资源: 923

张量分解驱动的增量文本特征降维方法

基于低秩表示的非负张量分解算法在图像分类中的应用

MATLAB实现张量分解算法及其优化

非负张量分解算法在脑认知判定中的应用研究

随机增量张量奇异值分解与人脸识别新算法.pdf

非负矩阵与张量分解及其应用

大数据环境下的张量降维技术及其应用探究

矩阵与张量工具在时变数据挖掘中的应用

张量分解技术深度解析：多层次分析与实战应用（权威教程）

揭开矩阵低秩分解神秘面纱：权威解读与实战技巧

矩阵运算的艺术：掌握数值分析中的矩阵分解技术

最新资源