层次图基多标签文本分类的改进方法GraphHMLTC

需积分: 9 0 下载量 52 浏览量 更新于2024-09-08 收藏 403KB PDF 举报
本文档深入探讨了一种名为"GraphHMLTC"的创新文本分类方法,针对层次多标记分类问题提出的一种直接基于图结构的解决方案。传统的层次文本分类通常依赖于层次树结构,但这种结构可能导致类别间的不一致性,特别是在存在多个镜像类别的情况下。为了解决这个问题,研究者转向了图结构,因为现实中的类别关系更倾向于非线性和相互关联。 GraphHMLTC方法的关键在于利用有向无环图(DAG,Directed Acyclic Graph)的拓扑排序代替传统的自顶向下的层次关系来决定类别间的分类顺序。这种方法能够更好地处理复杂的关系,使得分类过程更为灵活和准确。拓扑排序根据具体的分类情境动态调整,从而提高了分类的精度和一致性。 作者罗俊,来自广东技术师范学院计算机与网络中心,强调了这种方法相较于非层次分类方法,如BoosTexter.MH,在提升分类性能方面的显著优势。BoosTexter.MH作为非层次分类的代表,GraphHMLTC的改进在实验结果中得到了验证,尤其是在处理多标记文本时,其分类精度的提升明显。 本文的研究不仅关注了文本分类的理论,还展示了层次图结构在文本分类中的实际应用价值,证明了基于层次图的分类方法的可行性和优越性。此外,文章还涵盖了相关领域的关键术语,如文本分类、层次分类、多标记分类、有向无圈图和拓扑排序,这些都为后续的研究者提供了深入理解和应用的基础。 总结来说,这篇论文的核心贡献在于提出了一种新颖的图结构方法,有效地解决了层次分类中的不一致性问题,为提高文本分类的精确度提供了一种有效途径。这将对文本挖掘和自然语言处理领域产生积极影响,推动了多层次、多标签分类技术的发展。