微博用户表示法提升属性分类性能研究

PDF格式 | 543KB | 更新于2024-08-28 | 53 浏览量 | 举报

该研究论文深入探讨了用户表示方法在新浪微博用户属性分类中的关键作用，特别是在性别、年龄和地域等重要用户特性识别方面的效果。微博作为短文本社交媒体的崛起，使得用户生成的内容形式多样且充满个性，这些内容蕴含了大量的用户特征信息，对于理解和挖掘用户行为具有重要意义。用户属性分类任务的目标是根据用户在平台上的行为数据和发布的文本信息，准确推断出他们的个人属性。论文作者孙晓飞、刘挺和赵鑫针对这一挑战，对当前常见的八种用户表示方法进行了细致的分析和比较。这些方法可能包括词袋模型、TF-IDF、Word2Vec、GloVe、Doc2Vec等，每种方法都有其独特的优势和适用场景。通过实验对比，研究者发现，传统的One-Hot编码虽然直观，但可能无法捕捉到语义关系，而基于深度学习的分布式表示方法（如Word2Vec和GloVe）则能较好地捕捉词语之间的上下文关联。为了进一步提升用户属性分类的精度，研究者提出了将半监督分布式表示与One-Hot表示相结合的方法。半监督学习利用少量标注数据和大量未标注数据，能够有效地挖掘潜在的用户特征。通过这种方式，论文提出的新方法能够更准确地反映用户在社交网络中的行为模式和内容特征，从而提高了分类器在性别、年龄和地域三个维度上的性能。总结来说，这篇论文不仅提供了对不同用户表示方法在微博用户属性分类中的实际效果的深入分析，还为业界和研究者提供了一种创新的用户表示策略，以提升社交媒体用户特征挖掘的效率和准确性。这对于理解用户行为、个性化推荐以及精准营销等领域具有重要的实践价值。

用户表示方法对新浪微博中用户属性分类性能影响的研究

孙晓飞，刘挺，赵鑫

摘要：

微博作为一种短文本社交网络，已经成为了中国最大的微博平台。微博发布门槛较低，文体个性随

意，且内容形式丰富多样，因此携带有大量的用户特征信息。如何根据用户在社交网络上的行为信息以及

其所发布内容推断用户的属性信息。其中，如何根据用户数据构建良好的用户表示以便于分类器取得更好

的分类效果是用户属性分类的重要问题。因此，本文探究了八种用户表示的方法对性别、年龄和地域三种

属性分类结果的影响，并提出了分布式表示与 One-Hot 表示相结合的用户表示方法，实验表明，这种方法

可以有效提高三种属性上分类器的分类性能。

关键词：

用户属性分类；用户表示；半监督

Research of the Influence of User Representation Methods for User

Attributes Classification on Weibo

Author 1, Author 2, Author 3

Abstract:

As a new kind of short-text social media, Weibo becomes the biggest microblog platform.

It’s easy for people to post a wide variety of content on Weibo, which contains mass size of user’s

personality information. For the reasons above, it’s valuable for both research and commercial

to construct user profiling information from posts and behaviors on social media, which is also

called user profiling task. To get good classification results, we research eight user

representation methods and propose a method which combine semi-supervised distributed

representation with One-Hot resrepentation. And the results show that this method can

improve the performance of user attribute classification.

Key words:

User attribute classification; User representation; Semi-supervised method

1 引言

随着以微博为代表的社交平台的迅速发展，社会媒体以及成为了重要的信息来源和传播

介质。微博发布门槛较低，文体个性随意，且内容形式丰富多样，具有鲜明的个人特征，因

此，微博中携带有大量的用户特征信息。如何根据用户在社交网络上的行为信息以及其所发

布内容推断用户的属性信息对科学研究和商业应用都有着极高的价值。

目前，主流的用户属性推断方法是基于机器学习的分类方法，亦即将属性推断问题转化

为属性分类问题，在向量化的用户表示的基础上采用现有的机器学习方法对用户属性进行分

类。在不改变现有成熟分类方法的前提下，如何得到更好的用户表示成为了用户属性分类问

题的核心问题。

本文研究了不同用户表示方法对性别、年龄、地域三种用户属性分类性能的影响，并在

现有表示方法的基础上提出了将半监督的分布式表示和 One-Hot 表示相结合的方法，实验结

果表明，结合半监督表示和 One-Hot 表示的用户表示方法可以有效提高用户属性分类的效果。

2 相关研究

2．1 用户属性分类

伴随着互联网的发展 Burger 和 Henderson

[1]

以及 Nowson 和 Oberlander

[2]

等人首先在正式

博客中进行了用户属性分类的相关研究。随着社交网络的兴起，基于短文本的用户画像识别

得到了众多学者的关注。Delip Rao

[3]

等人基于 Twitter 上的文本信息对性别、年龄、地域、

政治倾向四个属性进行了识别并分别取得了 72.33%、74.11%、77.08%和 82.84%的准确率。

他们将该问题视为二元分类问题，其研究结果表明，用户的词汇使用、标点符号使用、表情

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38699302

粉丝: 2

微博用户表示法提升属性分类性能研究

离散型特征处理与深度学习用户画像研究

电商用户画像：RTX2080驱动在Ubuntu18.04.2下的安装教程

搜狗用户画像竞赛：融合传统与深度学习的特征策略

用户网络行为画像_大数据中的用户网络行为画像分析与内容推荐应用_目录完整版223页.pdf.zip

搜狗用户画像竞赛_算法说明文档1

《基于用户画像的大数据挖掘实践》 .rar

2021最新实践：Flink结合ClickHouse构建用户画像系统

深度学习驱动的用户画像：特征拓展与标签预测

产品经理的数据分析实战：关注关键指标与用户画像

实时用户画像分析：构建动态用户画像系统的7个步骤

最新资源