文章将提出的图模式匹配算法应用于人口研究领域,构建亲属关系网络,以家庭为
研究对象,进行家庭结构查询的研究工作。方法可有效地对同一类别家庭结构进行查询,
用于优化亲属关系网络中的查询工作。人口大数据的研究与我国新政策的颁布以及经济
水平的发展有着密切的联系。家庭是社会最基本的单位,是国家发展、民族进步、社会
和谐的重要基点。查询家庭结构为社会发展、家庭人口变化趋势等研究提供数据基础。
按照家庭的代际数量和亲属关系的特征分类对不同类别的家庭结构进行查询,分析家庭
结构变化趋势对社会、经济、文化、人口流动等方面的发展具有促进作用,对人口政策
如何在基层实施提供新思路。
1.2 论文内容及创新点
结合图论理论,分析社交网络的网络结构,量化社交网络中用户之间的连接关系。
同一类别的网络结构中,以网络中成员节点的数量、属性等因素的差异,包含多种不同
的结构模式。如何对同一类别的网络结构,在大规模社交网络数据图中进行查询。为本
文提出两个研究要点:(1)对同一类别的网络结构中,所有的结构模型进行完整地表
述;(2)以该网络结构为模式图,设计图模式匹配算法进行查询。因此,与其他的图
查询方法不同,本文主要研究的是在海量的图数据中,关于图结构的匹配问题。
本文采用具有高效描述能力的正则表达式
[21]
,对特定的网络结构,构造匹配模型,
以匹配模型为查询模式图,提出基于正则表达式的图模式匹配算法,在社交网络数据图
中,进行特定网络结构的查询研究。使用两个公用数据集与 H 省某县级人口数据集进行
实验验证。进而将算法应用于人口研究领域,基于 H 省全员人口数据,进行家庭分类查
询。
论文的主要内容和研究特色如下:
(1)构造匹配模型。基于公用的社交网络数据集,以特定的网络结构为研究对象,
采用正则表达式高效地描述能力,对社交网络数据的数据图和模式图进行重新定义。以
网络中用户之间的指向关系边类型为普通字符,结合元字符的高效描述能力,对网络结
构中任意节点之间的关系边路径进行表述,构造对应的有限自动机概念匹配模型。
(2)提出基于正则表达式的图模式匹配算法。基于图论理论基础,在社交网络数
据中,对特定网络结构进行的查询,可抽象为一个图模式匹配查询。以构造的有限自动
机概念匹配模型为查询模式图,设计图模式匹配算法并设定算法的匹配规则,在社交网
络数据图中,对符合查询模式图的数据子图进行查询。
万方数据