社会标注质量提升的文本分类算法:F1值改善6.2%
需积分: 9 23 浏览量
更新于2024-08-12
收藏 470KB PDF 举报
本文主要探讨了"基于社会标注质量的文本分类模型框架",发表在2012年的《计算机应用》杂志上,作者是李劲、张华、吴浩雄、向军和辜希武。论文针对的是如何有效地利用社会标注这一用户对网络资源的大众分类方式来提升信息检索和文本分类的性能。
社会标注作为一种非专业、非结构化的数据源,包含了大量用户自发的语义信息,对于增强信息检索的准确性和针对性具有显著价值。然而,由于社会标注的非专业性,标注的质量参差不齐,存在较大的随意性和偏差。为了克服这个问题,研究者提出了一种新颖的方法,即通过量化评估文档间的语义相似度和标注间的语义相似度,来判断标注的质量。这种方法旨在识别并过滤掉质量较差的标注,只保留那些反映文档核心内容且可信度较高的标注。
在质量评估的基础上,研究人员将这些高质量的社会标注融入到文档向量空间模型中,构建了一个扩展的文档向量,这个向量不仅包含文档本身的词汇信息,还融合了标注信息。这种融合策略有助于捕捉文档的潜在主题和上下文信息,从而提高文本分类的精度。
论文采用了支持向量机(SVM)作为分类算法,进行了实际的分类实验。实验结果显示,通过考虑标注质量和文档内容的综合处理,相较于传统的仅依赖文档内容的分类方法,该模型能够显著提高分类效果,F1度量值提升了6.2%。这表明社会标注质量评估在文本分类中的应用是有效的,并有望在未来的信息检索和自然语言处理领域得到更广泛的应用。
这篇文章的主要贡献在于提出了一种有效的方法,通过社会标注的质量控制,结合文档内容和标注信息,构建出更准确的文本分类模型,从而优化信息检索的性能,这在大数据时代对于提高用户信息查找效率具有重要意义。
2008-06-17 上传
2023-10-22 上传
2023-04-03 上传
2023-02-16 上传
2024-07-10 上传
2023-07-05 上传
2023-02-17 上传
2023-07-20 上传
2024-03-29 上传
weixin_38712908
- 粉丝: 6
- 资源: 931
最新资源
- JDK 17 Linux版本压缩包解压与安装指南
- C++/Qt飞行模拟器教员控制台系统源码发布
- TensorFlow深度学习实践:CNN在MNIST数据集上的应用
- 鸿蒙驱动HCIA资料整理-培训教材与开发者指南
- 凯撒Java版SaaS OA协同办公软件v2.0特性解析
- AutoCAD二次开发中文指南下载 - C#编程深入解析
- C语言冒泡排序算法实现详解
- Pointofix截屏:轻松实现高效截图体验
- Matlab实现SVM数据分类与预测教程
- 基于JSP+SQL的网站流量统计管理系统设计与实现
- C语言实现删除字符中重复项的方法与技巧
- e-sqlcipher.dll动态链接库的作用与应用
- 浙江工业大学自考网站开发与继续教育官网模板设计
- STM32 103C8T6 OLED 显示程序实现指南
- 高效压缩技术:删除重复字符压缩包
- JSP+SQL智能交通管理系统:违章处理与交通效率提升