RTIM模型在POI文本分类检索中的应用

需积分: 0 128 浏览量更新于2024-09-07 1 收藏 712KB PDF 举报

"这篇论文研究了基于随机词汇迭代模型（Random Terms Iterative Model, RTIM）的POI（Point of Interest）分类检索方法。通过特征选择、局部区域划分和词汇语义相似性的计算，该方法提高了海量POI文本分类的准确性和覆盖率。具体步骤包括：1) 使用词汇频度、集中度和离散度策略筛选特征词汇；2) 根据文本与POI类别的相似度进行局部区域划分；3) 在每个局部区域构建词频向量并进行随机删除和重构以获得特征映射矩阵；4) 通过特征映射矩阵将文本转化为特征向量，并应用支持向量机（SVM）进行分类。实验结果证实了该方法的有效性。" 这篇研究论文探讨了一种针对POI文本分类的新方法，旨在解决网络文本分类中的挑战，特别是处理大量兴趣点信息的问题。首先，研究者采用特征选择策略，利用词汇在文本中的出现频率、集中程度和离散度来筛选出对分类有显著影响的关键词汇，这一步骤有助于减少噪声数据和提高分类效率。接着，通过计算文本与不同POI类别之间的相似度，对文本进行局部区域划分，这有助于捕捉文本在特定上下文中的语义信息。在每个局部区域内，研究者基于词汇的顺序构建词频向量，这是词袋模型的一种变体。然后，他们引入了一种创新的随机词汇迭代过程，通过随机删除和重构词频向量，生成特征映射矩阵。这种操作可以捕获词汇在文本中的动态排列信息，进一步提升分类性能。最后，通过将文本转换为由特征映射矩阵表示的特征向量，利用支持向量机作为分类器进行POI文本的分类任务。实验结果显示，该RTIM方法在POI文本分类的准确性和覆盖率上表现出色，表明这种方法对于处理空间信息更新和兴趣点更新问题具有较高的实用价值。特别是在地理信息系统（GIS）和位置服务中，精确的POI分类能够极大地优化用户体验，提供更个性化的推荐和服务。此外，由于这种方法考虑了局部特征语义，因此对于理解用户的行为模式和兴趣分布也有一定的帮助。这篇论文提出的方法为大规模网络文本分类提供了一种新的有效工具，尤其适用于处理带有空间信息的兴趣点数据。它通过创新的特征提取和迭代模型，提高了文本分类的精度，对于未来的位置数据分析和智能推荐系统的设计具有重要的理论和实践意义。

书书书

　　收稿日期：２０１３１０１８；修回日期：２０１３１１２０　　基金项目：国家自然科学基金资助项目（４１３６１０２２）；广西北部湾重大基础研究专项基金

资助项目（２０１１ＧＸＮＳＦＥ０１８００３，２０１２ＧＸＮＳＦＥＡ０５３００１）

　　作者简介：段炼（１９８１），男，湖南永州人，讲师，博士，主要研究方向为时空数据挖掘（ｗｔｕｓｍ＠１６３．ｃｏｍ）．

基于随机词汇迭代模型的ＰＯＩ分类检索



段　炼

１ａ，１ｂ，２

（１．广西师范学院，ａ．北部湾环境演变与资源利用教育部重点实验室；ｂ．资源与环境科学学院，南宁５３０００１；

２．武汉大学测绘遥感信息工程国家重点实验室，武汉４３００７９）

摘　要：从特征选择、局部区域划分和词汇语义相似性计算入手，利用随机词汇迭代模型（ｒａｎｄｏｍｔｅｒｍｓｉｔｅｒａｔｉｖｅ

ｍｏｄｅｌ，ＲＴＩＭ）进行海量兴趣点（ｐｏｉｎｔｏｆｉｎｔｅｒｅｓｔ，ＰＯＩ）文本分类。通过词汇频度、集中度和离散度方法筛选出特征

词汇；依据文本与各ＰＯＩ类别间的相似度进行局部区域划分；在每个局部区域内基于词汇在文本中的排列顺序

构建词频向量，基于词频向量中词频的随机删除和重构，获取特征映射矩阵；通过特征映射矩阵将文本转为特征

向量，并采用

ＳＶＭ分类器进行ＰＯＩ文本分类。实验证明，该方法有效提升了ＰＯＩ文本分类准确性和覆盖率。

关键词：兴趣点分类；网络文本分类；特征选择；局部特征语义；兴趣点更新；空间信息更新

中图分类号：ＴＰ３９１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１４）１０３０２４０４

ｄｏｉ

：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１４．１０．０３３

ＴｅｘｔｕａｌｃｌａｓｓｉｆｉｃａｔｉｏｎｒｅｔｒｉｅｖａｌａｐｐｒｏａｃｈｆｏｒＰＯＩ

ｄｏｃｕｍｅｎｔｓｂａｓｅｄｏｎｒａｎｄｏｍｔｅｒｍｓｉｔｅｒａｔｉｖｅｍｏｄｅｌ

ＤＵＡＮＬｉａｎ

１ａ，１ｂ，２

（１．ａ．ＫｅｙＬａｂｏｒａｔｏｒｙｏｆＥｎｖｉｒｏｎｍｅｎｔＥｖｏｌｕｔｉｏｎ＆ＲｅｓｏｕｒｃｅｓＵｔｉｌｉｚａｔｉｏｎｉｎＢｅｉｂｕＢａｙｆｏｒＭｉｎｉｓｔｒｙｏｆＥｄｕｃａｔｉｏｎ，ｂ．ＣｏｌｌｅｇｅｏｆＲｅｓｏｕｒｃｅｓ＆Ｅｎｖｉ

ｒｏｎｍｅｎｔＳｃｉｅｎｃｅ，ＧｕａｎｇｘｉＴｅａｃｈｅｒｓＥｄｕｃａｔｉｏｎＵｎｉｖｅｒｓｉｔｙ，Ｎａｎｎｉｎｇ５３０００１，Ｃｈｉｎａ；２．ＳｔａｔｅＫｅｙＬａｂｏｒａｔｏｒｙｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇｉｎＳｕｒ

ｖｅｙｉｎｇ，Ｍａｐｐｉｎｇ＆ＲｅｍｏｔｅＳｅｎｓｉｎｇ，ＷｕｈａｎＵｎｉｖｅｒｓｉｔｙ，Ｗｕｈａｎ４３００７９，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＴｈｉｓｐａｐｅｒｆｏｃｕｓｅｄｏｎｔｈｅｎｏｖｅｌａｐｐｒｏａｃｈｏｆｏｐｅｎＰＯＩｔｅｘｔｓｃｌａｓｓｉｆｉｃａｔｉｏｎｂａｓｅｄｏｎｔｈｅＲＴＩＭ，ｗｈｉｃｈｔｏｏｋｔｈｅａｄ

ｖａｎｔａｇｅｓｏｆｆｅａｔｕｒｅｓｓｅｌｅｃｔｉｏｎ，ｌｏｃａｌｒｅｇｉｏｎｄｉｖｉｓｉｏｎａｎｄｃｏｍｐｕｔｉｎｇｏｆｔｅｒｍｓｓｅｍａｎｔｉｃｓｉｍｉｌａｒｉｔｉｅｓ．Ｐａｒｔｉｃｕｌａｒｌｙ，ｉｔｆｉｒｓｔｌｙｅｘｔｒａｃ

ｔｅｄｆｅａｔｕｒｅｔｅｒｍｓｂｙｔｈｅｉｍｐｒｏｖｅｄｍｅｔｈｏｄｓｏｆｃｏｎｃｅｎｔｒａｔｉｏｎ

，ｄｉｓｐｅｒｓｉｏｎａｎｄｆｒｅｑｕｅｎｃｙ．Ｔｈｅｎ，ｄｉｖｉｄｅｄｔｈｅＰＯＩｔｅｘｔｄａｔａｓｅｔｉｎｔｏ

ｌｏｃａｌｒｅｇｉｏｎｓａｃｃｏｒｄｉｎｇｔｏｔｈｅｔｅｘｔｓｉｍｉｌａｒｉｔｙｂｅｔｗｅｅｎｅｖｅｒｙｔｅｘｔａｎｄｔｈｅＰＯＩｃａｔｅｇｏｒｉｅｓ．Ｉｎｅａｃｈｌｏｃａｌｒｅｇｉｏｎ，ｉｔｃｒｅａｔｅｄｅｖｅｒｙ

ｗｏｒｄｆｒｅｑｕｅｎｃｙｖｅｃｔｏｒｂａｓｅｄｏｎｔｈｅｓｅｑｕｅｎｃｅｏｒｄｅｒｏｆｗｏｒｄｓｉｎｔｈｅｔｅｘｔ．Ｆｕｒｔｈｅｒｍｏｒｅ，ｇｅｎｅｒａｔｅｄｆｅａｔｕｒｅｍａｐｐｉｎｇｍａｔｒｉｘｗｉｔｈ

ｔｈｅｐｒｏｃｅｓｓｉｎｇｏｆｒａｎｄｏｍｄｅｌｅｔｉｏｎｏｆｗｏｒｄｆｒｅｑｕｅｎｃｙａｎｄｗｏｒｄｆｒｅｑｕｅｎｃｙｖｅｃｔｏｒｒｅｃｏｎｓｔｒｕｃｔｉｏｎ．Ａｌｌｔｅｘｔｓｗｅｒｅｔｈｅｎｔｒａｎｓｆｏｒｍｅｄ

ｉｎｔｏｔｈｅｆｅａｔｕｒｅｓｐａｃｅｂｙｆｅａｔｕｒｅｍａｐｐｉｎｇｍａｔｒｉｘ．Ｆｉｎａｌｌｙ

，ｉｔｃｌａｓｓｉｆｉｅｄＰＯＩｔｅｘｔｓｂｙｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌ

ｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｏｕｒａｐｐｒｏａｃｈａｃｑｕｉｒｅｓｔｈｅｇｒｅａｔｅｎｈａｎｃｅｍｅｎｔｉｎｐｒｅｃｉｓｉｏｎａｎｄｃｏｖｅｒａｇｅｒａｔｅｏｆＰＯＩｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ．

Ｋｅｙｗｏｒｄｓ：ｐｏｉｎｔｏｆｉｎｔｅｒｅｓｔ（ＰＯＩ）ｃｌａｓｓｉｆｉｃａｔｉｏｎ；Ｗｅｂｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ；ｌｏｃａｌｆｅａｔｕｒｅｓｅｍａｎｔｉｃ；ＰＯＩｕｐ

ｄａｔｉｎｇ；ｓｐａｔｉａｌｉｎｆｏｒｍａｔｉｏｎｕｐｄａｔｉｎｇ

　引言

传统的ＰＯＩ采集方式为各级测绘部门的外业调查

［１］

。这

种方式所采集数据精度高，但采集效率较低，信息更新速度慢，

覆盖面往往不足

［２］

。此外，ＰＯＩ采集还有专业公司生产

［３］

和

ＶＧＩ大众采集（如Ｇｏ２Ｍａｐ

［４］

和Ｌｏｃａｔｉｏｎａｒｙ公司

［５］

）两种方式，

前者仍然没有解决需要大量人工标注ＰＯＩ的问题，导致数据

深度不足、更新困难

［２］

；后者存在海量多源ＰＯＩ数据管理、平

台异构、服务知名度、数据质量和数据保密性等方面的问题。

当前，各种新闻网站、博客、门户网站和大众生活网站等包

含了大量ＰＯＩ信息，它们覆盖率广，准确性较高，现势性强，是

进行高效

ＰＯＩ信息更新的一种新数据源

［２，６～８］

。而作为Ｗｅｂ

上大规模ＰＯＩ信息抽取的重要前期数据清洗工作之一，ＰＯＩ文

本分类能过滤掉大量无效文本，提高了ＰＯＩ信息的入库和检索

精度，也利于依据

ＰＯＩ类别采用不同方法进行ＰＯＩ信息抽取，

提高ＰＯＩ信息抽取质量。

与一般文本不同的是，

ＰＯＩ文本中主题ＰＯＩ名称的语法位

置并不固定，且同一类别ＰＯＩ的名称多变，多个不同类别的ＰＯＩ

又常共处同一文本，仅仅通过句法模式或直接采用ＢｏＷ（ｂａｇｏｆ

ｗｏｒｄｓ）的机器学习方法难以正确识别文本的主题ＰＯＩ类别。此

外，不同类别ＰＯＩ文本间交叉和重叠用词现象严重，如“道路”

和“桥梁”类别的

ＰＯＩ文本中大多包含了长度信息、所跨越的地

名信息，因此，常规的特征评价函数和文本降维方法并不能取得

较好的分类性能。针对以上问题，本文基于集中度、分散度和频

度构建特征空间，划分多个局部区域，在每个局部区域内通过词

汇随机删除和重建过程的迭代，计算出特征映射矩阵（简称映射

矩阵），从而将文本转换到特征空间，进行多局部分类器的训练

和分类。

ＰＯＩ文本分类技术路线如图１所示。

　研究现状

文本分类方法主要分为基于规则的方法和基于统计的方

法。基于规则的方法主要有决策树方法和粗糙集方法；基于统

第３１卷第１０期

２０１４年１０月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３１Ｎｏ．１０

Ｏｃｔ．２０１４

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_39840515

粉丝: 448
资源: 1万+

RTIM模型在POI文本分类检索中的应用

org.apache.poi.xwpf.converter.pdf-1.0.6-pdf.zip

org.apache.poi.xwpf.converter.pdf-1.0.6.zip

论文研究-基于用户反馈的POI搜索引擎优化研究.pdf

论文研究-一种基于评分矩阵局部低秩假设融合地理和文本信息的协同排名POI推荐模型.pdf

poi-jar包：poi-3.8.jar、poi-3.9.jar、poi-3.16.jar、poi-ooxml-3.9.jar、poi-ooxml-3.16.j

论文研究-融合空间计算的POI地理编码方法.pdf

fr.opensagres.poi.xwpf.converter.pdf 与org.apache.poi.xwpf.converter.pdf

poi-3.8.jar；poi-ooxml-3.8.jar；poi-ooxml-schemas-3.8.jar

poi-3.16.jar，poi-ooxml-3.16.jar，poi-ooxml-schemas-3.16.jar

poi-ppt.zip_POI_Poi-ppt_poi ImageExtractor_poi源码包

最新资源