最短主干道距离约束下的零售户聚类算法

需积分: 9 119 浏览量更新于2024-08-12 收藏 371KB PDF 举报

"基于最短主干道距离的零售户聚类研究* (2012年)" 这篇2012年的研究论文关注的是在零售户聚类分析中的优化方法。传统的k中心聚类算法在处理大数据集时面临计算成本过高的问题，不适用于大规模的空间数据。因此，研究人员提出了一种新的零售户聚类策略，它借鉴了CLARANS（Clustering Large Applications based upon Randomized Search）算法的迭代思想，并结合全局随机抽样技术，旨在解决大型空间数据集的聚类问题。 CLARANS算法是一种改进的k中心聚类算法，它利用随机抽样来减少计算复杂性，适用于大数据集。然而，原始的CLARANS算法并未考虑地理信息。论文中的新方法在此基础上进行了进一步优化，使得算法能够处理包含地理信息的数据对象，并确保聚类结果符合特定的需求约束条件。论文的关键创新点在于引入了最短主干道距离（Shortest Arterial Road Distance, SARD）作为评价聚类质量的标准。在地理信息系统中，SARD是考虑到主干道和非主干道的差异，选取从一个点到另一个点的最短主干道路径。这种距离计算方式更符合实际交通情况，能更好地反映零售点之间的实际可达性。在聚类过程中，算法通过多次迭代寻找最佳聚类方案，以最小化基于SARD的总距离。这种方法不仅可以提高聚类效率，还能确保聚类结果在地理空间上的合理性。论文中可能还探讨了与其他聚类方法的比较，如划分聚类（如PAM）、层次聚类、密度聚类和网格聚类等，以及它们在处理地理信息数据方面的局限性。此研究对零售行业的市场分析、店铺布局规划以及物流配送等领域有重要的实践意义。通过有效的聚类，可以更好地理解消费者的分布特征，优化供应链管理，降低运营成本，提高服务质量。同时，这种方法也为处理带有地理信息的大规模数据集提供了一个有价值的参考框架。

2012

年

月

第

卷第

期

内蒙古大学学报(自然科学版)

Journal

Inner

Mongolia

University (Natural

Science

Edition)

May

2012

No.3

文章编号

:1000

一

1638(2012)03-0306-07

基于最短主干道距离的零售户聚类研究赘

杜秀亭杨晨光

内蒙古自治区烟草公司，呼和浩特

010010;

四川大学计算机软件学院，成都

610225)

摘要:在研究零售户聚类分析中，传统的

中心聚类方法，计算成本过大，无法有效应用于大

数据集.提出了零售户聚类方法，继承

CLARANS

算法迭代思想，采用全局随机抽样技术，将

算法应用于大型空间数据集，通过多次迭代尽量寻求最优聚类结果.聚类结果的评价标准为基

于最短主干道距离

(SARD)

的总距离.该聚类算法是在

CLARANS

算法的基础上进行改进，使

其能够处理带地理信息的数据对象，且聚类结果满足需求约束条件限制.

关键词:聚类算法;最短主干道距离

差异度

中图分类号

:TP391;F272

文献标志码

传统聚类方法包括划分聚类

、层次聚类∞、密度聚类

(3)

、网格聚类

(4)

及基于模型的聚类

(5)

等.其

中基于

中心的划分聚类方法将数据对象划分为

个类，用户可根据实际应用指定

的取值，该类算

法不能识别孤立点，但聚类过程不受孤立点影响.典型的

中心聚类方法包括

PAMCPartitioning

A-

round

Medoids)

、

CLARA

Clustering

LARge

Applications)

和

CLARANS

C6J

Clustering

Large

Ap-

plication based upon

RANdomized

Search)

算法等

.CLARA

和

CLARANS

算法引人抽样技术使得

中心算法可应用于大数据集，

CLARANS

算法所采用的抽样技术具有更大的随机性，可应用于大型

空间数据集.

本文所提出的基于最短主干道距离的带约束零售户聚类算法是在

CLARANS

算法的基础上进

行改进，使其能够处理数据对象的地理信息，聚类结果满足需求约束条件限制.

所谓最短主干道距离

CShortest

Arterial

Road

Distance

，

SARD)

是指:在地理信息系统

CGIS)

中，

从

点出发到达

点有多条线路，每条线路的距离包括主干道距离和非主干道距离.其中距离最短

的线路称为

点到

点的最短线路，最短线路中的主干道距离称为

点到

点的最短主干道距离，

记为

SARDCA

，

基于最短主干道距离的度量方式，忽略了

点J1

点的非主干道距离，原因在于

非主干道信息难于获得，其距离计算成本较高.利用主干道距离近似表示两点间的实际道路距离，在

保证较高精度的基础上，降低了距离计算成本.随着城市交通现代化进程的快速发展，这种近似精度

还将不断提高的.

基于最短主干道距离的零售户聚类分析基本原理

选取

个中心点

从数据对象中选取

个代表对象，作为

个类的中心点，在此基础上将其他非中心点对象分配到

收稿日期

:2011-08-24;

修回日期

:2012-03-20

基金项目:国家自然科学基金资助项目

(71172168)

作者简介:杜秀亭

0965

一)

，男，内蒙古乌兰察布市人，博士.研究方向:物流管理，企业信息管理.

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38729438

粉丝: 3
资源: 915

最短主干道距离约束下的零售户聚类算法

零售户聚类分析中基于最短主干道距离的差异度计算方法* (2010年)

基于归一化编辑距离和谱聚类的轨迹模式学习方法

读取一个文件，.已知文件中的7个样品两两之间的距离矩阵分别按最短和最长距离法进行聚类，并画出谱系图。（python代码实现）

按凝聚法以最短距离法为准则进行聚类算法的MATLAB代码

cloudcompare聚类

python用最短距离法层次聚类怎么写

基于最小距离的层次聚类和基于最小生成树的层次聚类有什么区别

基于流形距离的k-means聚类算法

基于流形距离的k-medoids聚类

用最短距离法进行聚类分析并生成树状图python

最新资源