LLMRec:大语言模型驱动的推荐系统与数据增强

需积分: 0 0 下载量 137 浏览量 更新于2024-08-03 收藏 1.44MB DOCX 举报
"这篇文档介绍了在大语言模型(LLM)时代如何利用这些模型改进推荐系统。作者提出了一种名为LLMRec的多模态推荐系统,该系统利用LLM的知识和自然语言理解能力来增强side information,从而解决推荐系统中的数据稀疏性和噪声问题。文档还介绍了两个多模态推荐数据集——Netflix和MovieLens,这些数据集包含了文本和视觉模态的信息,可用于训练和评估LLMRec等模型。" 在大语言模型时代,推荐系统正经历着深刻的变革。传统的推荐系统常常受限于数据稀疏性,这导致了用户和物品之间关系的不准确建模。为了解决这一问题,推荐系统开始引入side information,如用户画像和物品属性等多模态数据。然而,这些side information可能存在噪声和质量问题,影响推荐的准确性。大语言模型,如BERT、GPT等,因其强大的语义理解和知识生成能力,为这个问题提供了新的解决方案。 LLMRec系统通过两种方式利用LLM来增强side information:一是对用户-物品交互信息进行增强,二是强化文本模态的信息,包括用户画像和物品属性。为了确保增强数据的可靠性,系统采用了特定的策略,如u-i交互剪枝和item特征的mask auto-encoder,以过滤噪声和提升数据质量。 文档中还详细描述了构建的多模态推荐数据集。Netflix数据集是基于Kaggle上的原始Netflix Prize数据,包含电影的标题、年份等文本信息,以及通过网络爬虫获取的电影海报作为视觉信息。MovieLens数据集则来源于明尼苏达大学GroupLens项目,包含了电影的标题、年份、类型等文本信息,以及通过MovieLens项目URL获取的电影海报。 这些公开数据集的提供,为研究者提供了实验平台,可以测试和比较LLMRec与其它多模态推荐方法,如MMSSL、LATTICE和MICRO等。通过这些数据集,研究者能够进一步探索如何有效结合大语言模型和多模态信息,优化推荐系统性能,提升用户体验。