受限非负矩阵分解方法：提升信息检索精度

需积分: 9 58 浏览量更新于2024-08-11 收藏 176KB PDF 举报

"该资源是一篇发表在2004年3月《东南大学学报(自然科学版)》第34卷第2期的学术论文，由黄钢石、张亚非、陆建江和徐宝文合作撰写。文章主要讨论了一种新的数学方法——受限非负矩阵分解（Constrained Non-negative Matrix Factorization, CNMF），用于信息检索中的潜在语义分析。CNMF是基于非负矩阵分解（Non-negative Matrix Factorization, NMF）的一种改进技术，增加了三个约束条件以提高分解结果的正交性，进而提升信息检索的精度。" 在本文中，作者提出了一种新的矩阵分解方法，即受限非负矩阵分解。传统的非负矩阵分解是一种将非负矩阵W分解为两个非负矩阵H和V的乘积，即W=HV，常用于数据挖掘、图像处理和文本分析等领域。然而，这种方法通常不能保证分解后的矩阵组件之间具有良好的正交性，这可能影响到对潜在语义的准确捕捉。为了改善这一情况，作者引入了三个额外的约束条件来定义受限非负矩阵分解的目标函数。这些约束条件旨在优化分解过程，使得分解出的矩阵组件更加正交，从而增强潜在语义表示的独立性和可解释性。他们还提出了一套迭代规则来求解这个新目标函数，并证明了这一规则的收敛性，即随着迭代次数的增加，算法会逐步接近最优解。实验部分展示了受限非负矩阵分解在信息检索任务上的优越性能。与非负矩阵分解相比，CNMF能够更好地揭示文档和查询之间的潜在语义关联，从而提高信息检索的精确度。这对于信息检索系统的设计和优化具有重要意义，因为它能够提供更准确的搜索结果，提升用户体验。关键词涵盖了非负矩阵分解的基础概念，受限非负矩阵分解作为其扩展，以及它们在信息检索中的应用。文章的分类号和文献标识码表明这是一篇自然科学领域的研究论文，对计算机科学，特别是数据挖掘和信息检索领域的研究人员具有参考价值。这篇论文为非负矩阵分解提供了一个改进的框架，通过引入约束条件提高了潜在语义的正交性，对于理解和利用高维数据的内在结构有着积极的贡献。这种技术的应用不仅限于信息检索，还可以推广到其他需要理解复杂数据模式的领域，如生物信息学、推荐系统和社交媒体分析等。

第34卷第2期

2004 年 3 月

东南大学学报

(自然科学版)

JO U R N A L O F S O U T H E A S T U N IV E R S IT Y ( N a tu ra l S c ie n c e E d itio n )

Vol　34 N o　2

M ar. 2004

一种受限非负矩阵分解方法

黄钢石

张亚非

陆建江

1,2,3

徐宝文

2,3

(

解放军理工大学通信工程学院, 南京 210007)

(

东南大学计算机科学与工程系, 南京 210096)

(

江苏省软件质量研究所, 南京 210096)

摘要: 提出一种获取潜在语义的受限非负矩阵分解方法.通过在非负矩阵分解方法的目标函数

上增加 3 个约束条件来定义受限非负矩阵分解方法的目标函数,给出求解受限非负矩阵分解方

法目标函数的迭代规则,并证明迭代规则的收敛性.与非负矩阵分解方法相比,受限非负矩阵分

解方法能获取尽可能正交的潜在语义.实验表明,受限非负矩阵分解方法在信息检索上的精度优

于非负矩阵分解方法.

关键词: 非负矩阵分解; 受限非负矩阵分解; 潜在语义; 信息检索

中图分类号: TP18 文献标识码:A 文章编号: 1001 - 0505(2004)02　0189　05

Huang Gangshi

Zhang Yafei

Lu Jianjiang

1,2 ,3

Xu Bao wen

2,3

(

Institute of Co mmunicatio n Eng ineering , PLA U niv ersity of Science and T echnolo gy , N anjing 210007 , China)

(

Department of Computer Science and Engineering, Southeast University, Nanjing 210096 , China)

(

Jiangsu Institute o f So ftw are Quality , Nanjing 210096 , China)

atent semantic relations. The objective function of constrained non　negativ e matrix facto rization is

efined by imposing three additional constraints, in additio n to the no n　negativity constraint in the

tandard non　negative matrix factorization. The update rules to solve the objective functionwiththese

constraints are presented, and its convergence is proved. In contrast to the standard non　negative

atrix factorization, the constrained non　neg ative matrix factoriz ation can capture the semantic

elations as o rtho go nal as po ssible. The experiments indicate that the con strained n on 　negative matrix

facto rization has better precisio n than the standard non 　negativ e matrix factoriz ation in info rmation

etriev al.

emantic relations; info rmation retrieval

收稿日期 :2003　06　13.

基金项目 : 国家自然科学基金青年科学基金资助项目(60303024)、国家 973 规划资助项目 ( G 1999032701)、国家自然科学基金资助项目

(60073012 ).

作者简介 : 黄钢石(1969—),男,博士生,工程师,huang

gangshi@ sina.com;张亚非(联系人),男,博士,教授,博士生导师,yf zhang888@ sina.com .

非负矩阵分解(non　negative m atrix factorization,NM F)是一种新的矩阵分解方法,它将一个元素非负的

矩阵分解为左右 2 个非负矩阵乘积

[ 1,2 ]

.由于分解后的矩阵中仅包含非负元素,因此原矩阵中列向量可解

释为对左矩阵中所有列向量(称为基向量)的加权和,而权重系数为右矩阵中对应列向量中的元素.这种

基于基向量组合的表示形式具有直观的语义解释,反映了人们思维中“局部构成整体”的概念.NM F 已成

功应用于多个领域

[3 ,4]

,作者也已尝试将 N M F 应用于从用户会话中发现典型用户文件

[5 ,6]

N M F 算法也可以用于获取文本集中的潜在语义.由于 N M F 算法得到的解是局部最优解,

获取的潜在

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38716460

粉丝: 4

受限非负矩阵分解方法：提升信息检索精度

最新资源