没有合适的资源?快使用搜索试试~ 我知道了~
基于本体论的保险业大数据模型分析及推理方法
⃝⃝可在www.sciencedirect.com在线ScienceDirectICT Express 3(2017)57www.elsevier.com/locate/icte基于标准的本体论,支持保险行业迪米特里奥斯Aikaterini K. Koutsomitropoulos卡劳计算机工程与信息学系,HPCLab,帕特雷大学,帕特雷,希腊接收日期:2017年3月16日;接收日期:2017年5月14日;接受日期:2017年5月23日2017年6月3日在线发布摘要标准化的努力导致了保险业概念模型的出现。与此同时,数字信息的激增对有效管理和分析现有数据提出了新的挑战。基于财产和意外伤害数据模型,我们提出了一个OWL本体来表示保险流程,并映射在传统数据存储中收集的大数据量。凭借推理,我们展示了一组语义查询使用的本体词汇,可以简化分析和推断这些数据的隐含事实。我们将这种映射方法与原生RDF格式的数据进行比较,如三元组存储。作为概念验证,我们使用了一个来自实际保险公司的汽车保单的大型c2017韩国通信信息科学研究所。出版社:Elsevier B.V.这是一篇开放获取的文章,CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:保险业;大数据; OBDA;三重存储;推理1. 介绍众所周知,保险业需要基于知识的准确决策和高数据可用性。对不断增长的数据量进行有效和有意义的操作意味着,保险公司不仅要跟踪这些数据,还要为其分析制定智能策略。语义技术(本体论、关联数据)在解决保险业的大数据问题方面可以产生相当大的影响。本体定义了一组公共术语来表示领域中的基本概念以及它们之间的关系用推理的力量,新的事实,这是没有明确的*通讯作者。电子邮件地址:kotsomit@ceid.upatras.gr(D.A.Koutsomitropoulos),kaloukat@hpclab.ceid.upatras.gr(A.K. Kalou)。同行评审由韩国通信信息科学研究所负责本文的初步版本已在第二届INNS大数据会议(INNS Big Data 2016)上发表。本文是题为“专利特刊”的特别部分的一部分在本体中表达的,可以被导出。因此,可以为进一步分析提供额外的知识,包括更准确的风险识别和评估。这种语义分析可以帮助企业缓解长期存在的问题,并改进标准业务流程。诸如定制保单、欺诈检测和营销等部门受益于语义分析方法在大数据上的应用[1]。在这项工作中,我们首先提出了一个本体实现1的财产伤亡(P C)的数据模型,已成为一个概念表示标准之间的保险利益相关者。接下来,我们开发一个基础设施,本体与原始数据的实时关联以及用于推断知识而不牺牲相当大的性能。在我们的实验中,我们使用了来自现有车辆保险公司的大型数据集。我们表明,它是可能的,这些数据应用语义分析,并推断出有意义的事实,基于一系列的查询的模型,由推理机处理。数据挖掘是动态执行的,数据保留在关系数据库中为了信息和通信技术实践本文由Dong-Soo Han处理。http://dx.doi.org/10.1016/j.icte.2017.05.0071可在:https://goo. gl/XVZOXk.2405-9595/c2017韩国通信信息科学研究所。Elsevier B. V.的出版服务。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。58地方检察Koutsomitropoulos,A.K.Kalou/ICT Express 3(2017)57的评估,我们比较这种本文的其余部分组织如下:在第2节中,我们简要回顾了语义技术在大数据上的使用和OBDA(基于本体的数据访问)方法。在第三节中,我们介绍了PC本体,并解释了它的发展和使用。第4节概述了我们的数据访问和操作方法。第5节演示了在保险数据上执行的智能查询,并讨论了我们的比较结果。最后,第6节总结了我们的结论和未来的工作。2. 相关工作最近的调查表明,P C保险公司很快将通过利用大数据的机会进行数据驱动的改革。此外,语义技术正逐渐成为保险业的资产[2]。NoSQL、Yarn、Hadoop、MapReduce和HDFS是处理大数据的最知名技术之一,成本效益[3]。此外,语义三元组存储正朝着探索大型数据集的方向不断发展。例如,带 有 Oracle Database 12c 的 Oracle Spatial 和 Graph 、AllegroGraph、Stardog和OpenLink Virtuoso v6.1已经扩展了其可扩展性和性能功能,以满足这些要求[4]。高效的数据集成对于大数据至关重要,因为它通常需要了解每个数据源的模式和格式。在OBDA系统[5]中,本体用于以概念的方式公开数据,通过抽象底层数据的模式级细节。数据和本体之间的连接是通过映射来实现的。本体和映射的组合允许将本体上提出的查询自动转换为可以由特定底层DBMS执行的Ontop、Mastro、Stardog和D2R服务器是最受欢迎的OBDA系统。这种在保险行业,传统的数据访问通常需要复杂的SQL查询和语法,非数据库专家很难理解和构思。此外,它涉及复杂的模式和遗留仓库,跨越多个关系表,并且经常重叠。使用SPARQL [6],结合适当的本体,可以帮助制定和执行查询所提出的业务需求[7]。3. 走向保险本体论对象管理组[8]开发的P C数据模型为保险部门业务功能和流程的语义形式化提供了一个起点。它的主要组成部分包括实体、属性和关系。一个实体代表一个人,一个组织,Fig. 1. P C中的阶级和财产关系企业感兴趣的地点、对象或概念。关系是一个动词短语,用于描述始终在父实体和子实体之间建立的关系。属性通常在实体中定义,并被视为该实体的属性或描述符。要为PC构建OWL(Ontology Web Language)本体,我们首先简单地将逻辑模型的实体与OWL类、对象属性的关系以及数据属性的属性关联起来接下来,父实体和子实体分别形成属性除了这些构造之外,我们还指定了OWL中可用的某些附加逻辑公理,这些公理对推理很有用:例如,最大基数为1的属性是函数性的,hasOwner和isOwnerOf是逆函数。 图1描绘了PC本体的类层次结构的一部分以及与这些类的实例涉及本体术语的自然语言中的简单概念化示例如下(类实例用斜体表示,属性名称用下划线表示):车辆1具有协议1形式的保险,按照PolicyCoverageDetail 1中的定义进行承保。在发生涉及物质损失的事故后,第1人(第1辆车的所有人)已提交并涉及索赔1。对这一索赔的欺诈评估结果是否定的;因此,索赔为保险公司将赔偿一个特定的金额,即ClaimAmount 1。因此,索赔1现在可以归类为已解决。4. 大数据访问和操作我们考虑了来自一家知名汽车保险公司的大量离线数据数据是SQL转储,每个转储对应于一个单独的关系表。对于平凡映射,每个元组的单个列形成单独的RDF三元组(表1)。地方检察Koutsomitropoulos,A.K.Kalou/ICT Express 3(2017)5759表1保险数据集指标。关系模式本体表5表31所列栏目(平均数)元组0.5M/表班级95对象属性26数据类型属性17性能:原则上,将SPARQL查询分解为一组SQL查询的能力意味着推理算法的计算复杂度与关系数据库相似。OWL推理机以最坏情况下的高复杂度界限而闻名[12]。然而,大多数当代推理机实现了一系列优化,并表现出随用随付的行为,或者依赖于可扩展的基于规则的算法。Triples轻微映射计数77,000,000报告的实际计数33,673,002图二. 查询评估工作流。对于我们的OBDA基础设施,我们选择Ontop [11],因为它易于使用,直观的映射支持和高性能的功能。此外,Ontop支持OWL 2 QL级别的推理[12],这是一个轻量级的推理配置文件,但足以支持对大量实例数据的推理。数据以基于P C OWL本体的虚拟图的形式访问,以及一组从关系数据指向本体三元组的映射(参见表2)。然后,通过考虑已经定义的映射和本体上的推理过程的结果,可以使用SPARQL来执行推理(图1)。 2)。这种偶尔访问三元组(即,仅图的被认为与特定查询相关的那些部分的物化)可以与全图物化形成对比在后一种情况下,所有数据都被提前映射到本体,并且整个三元组集合是容易获得的,例如,在一家三重店内。我们确定了两种方法之间的三个主要区别。推理的表达水平:Ontop内部推理器仅限于OWL 2 QL子集,例如,不允许类不相交性,属性中的传递性或基于属性限制的类成员资格正是由于这种限制,查询可以被重写为SQL查询而不会丢失,OWL 2 QL就是在考虑到这一点的情况下设计的。另一方面,访问完整的图有助于使用更具表现力的推理机,从而执行更有洞察力和知识密集型的分析。支持流数据:SPARQL 1.1增加了对图形更新的支持,这在大多数三重存储中实现。因此,可以用以任何速率到达的数据更新知识库在这种情况下,过去存储在关系数据库中的数据需要直接传输到三元组存储,即,它必须已经被三倍化或在一定的时间间隔内被导入。5. 语义分析5.1. 智能查询我们提出了四个样本SPARQL查询的保险数据集,其中大部分产生的结果,由于某种形式的推理。它们实际上表示可以在第3节和图3中概述的使用场景的上下文中考虑使用。1.一、在Q1中,虽然我们没有设计定义InsurableObject类实例的 映 射 规 则 , 但 由 于 Vehicle 在 本 体 中 被 定 义 为InsurableObject的子类,因此VehicleQ2检索特定参与方拥有的所有车辆的保险单。请注意,我们可以在查询中使用isInsuranceOf属性,而不是表2中映射#1指定的hasInsurance,因为它们在本体中被通过映射#3,我们将车辆与索赔相关联,索赔所产生的结算索赔额。Q3发现60地方检察Koutsomitropoulos,A.K.Kalou/ICT Express 3(2017)57表2用于保险数据语义建模的部分映射集#源(SQL查询)目标(三元组模板)1SELECT plate,contract FROM InsuredItemVehicle;:{plate} a:Vehicle;:hasInsurance:{contract}.:{contract} a:策略2SELECTcustomerCodeasc,iv.plateFROMInsuredItemCustomer as ic , InsuredItemVehicle as iv 其 中ic.contract = iv.contract;3选 择 policyNumer 作 为 pol , ClaimNumber 作 为 r ,totalPayAmount作为amnt,iv.contract,plate FROM Claims,InsuredItemVehicle作为iv,其中pol = iv.contract;:{c} a:Person;:isOwnerOf:{plate}。:Amount_{pol}_{r}:hasAmount {amnt}^^ xsd:decimal。:Claim_{pol}_{r} a:Claim;:settlementResultsIn:金额_{pol}_{r}。:{plate}:involvedIn:Claim_{pol}_{r}表3查询性能结果-执行时间。Q1Q2Q3(Q5)Q4时间#结果时间#结果时间#结果时间#结果虚拟图形7.15433989.3726.085183––三元组存储3.95433980.1723.58518322.389855没有任何道理0.0100.0101.2851836.489855涉及的车辆在已经通过理赔金额解决的索赔中。这可以使用辅助类AlreadySettled,指定为settlementResultsIn属性上存在限制的超类Q4显示公司在所有已解决的索赔中向客户报销的总金额,即,它揭示了最5.2. 结果和讨论所有实验均在标准商品硬件上进行。使用了4核笔记本电脑CPU,Java被分配了4 GB的堆内存。为了将数据放入三元组存储(Fuseki)中,我们使用Ontop的materialize命令来运行映射并生成所有可能的在实际计算这两种方法的性能之前(表3),我们应用了标准的基准测试技术,例如清除缓存和执行预热查询[13]。正如预期的那样,在三元组存储中不启用推理的查询计算要快得多,但不能发现隐含的事实。我们观察到,三重存储优于OBDA几乎两倍。一个值得注意的例外是Q2,它只涉及图模式中的一个实例;因此,由于推理器提前执行了推理物化,它的速度对于虚拟图,所有查询都大致处于相同的数量级内,因为执行了实时SQL转换。Q3涉及推理,这不受我们的示例三重存储中实现的OWL蕴涵机制的支持。事实上,Fuseki采用了一组增量的基于规则的推理机,范围从完全RDFS支持到OWL,减去某些结构[14]。因此,它们的表达性非常接近,如果不是更广泛的话,OWL 2 QL,因为它对应于RDFS和OWL 2DL的交集在三个可用的OWL推理机,只有最小的一个但是,我们可以将这个查询重写为:这产生了相同的结果,并表明,在这些情况下,存在量化可以减少到句法替换[15]。Q4使用SPARQL 1.1中新的、类似SQL的聚合函数,不能在Ontop中运行。然而,Fuseki,以及大多数当代的三联商店,可以成功地处理这样的查询。6. 结论和今后的工作大数据时代行业数据需求的演变促使语义技术研究和供应商通过大规模提高查询访问、性能和推理附加值来满足他们的期望。保险本体可以起到通用、标准化词汇表的作用,以关联数据的形式帮助保险合作伙伴之间进行沟通和知识通过利用PC本体,我们已经表明,它是可能的,以简化查询的制定和执行,并使基于推理的查询,是不直接的,甚至可能的,与关系数据库。然而,有合理的性能考虑。我们已经展示了两种以三重形式访问数据的方法,它们似乎可以解决这个问题,每种方法都有自己的权衡。这两种方法的一个可能的改进是考虑实时数据块的性能,例如,通过SPARQL更新。进一步的改进是研究使用流数据进行推理的可能性;在这种情况下,需要进行更广泛的评估,因为数据集的连续变化可能会影响性能结果。尽管实际上遵循的是哪种方法,但我们已经证明,面临日益增长的地方检察Koutsomitropoulos,A.K.Kalou/ICT Express 3(2017)5761数据集可以有意义地利用它们,并使用语义分析作为优势。引用[1] B.大数据如何永远改变保险业技术文章,福布斯,2015年。[2] W.T. Watson,人寿保险公司计划如何使用大数据和预测分析?2016年。可在http://blog. 我爱你。COM/2016/12/HOW-ARE-LIFE-ISURS-PLANNING-O-USE-BIG-DATATAND-PRDICTIVE-ANALYICS。[3] G. 十大热门大数据技术技术文章。福布斯,2016年。[4] F.米歇尔角Faron-Zucker,J. Montagnat,基于映射的方法使用SPARQL查询MongoDB文档,见:第27届数据库和专家系统应用国际会议DEXA 2016,葡萄牙波尔图,2016年。[5] A. Poggi,D. Lembo,D.卡尔瓦尼斯湾,澳-地De Giacomo,M.伦泽里尼河Rosati,链接数据到本体,J.数据语义。(2008)133-173。[6] S. Harris,A. Seaborne,(eds.). SPARQL 1.1查询语言。W3C推荐,2013年。[7] E. Kharlamov,D. Hovland,E. Jiménez-Ruiz,D. Lanti,H. Lie,Pinkel等人,挪威国家石油公司基于本体的勘探数据访问,载于:第14届国际语义网会议论文集,Springer,2015年,pp. 93比112[8] W. 詹金斯河莫尔纳湾Walman,T.福特,财产和伤亡数据模型规范。OMG,2011.[9] S. Soares,IBM InfoSphere:大数据治理和流程数据治理的平台。MC Press Online,LLC,2013.[10] A.K. Kalou,D.A. Koutsomitropoulos,保险行业的数据链接:案例研究,在:第10届人工智能应用和创新国际会议论文集,AIAI2014,Springer,2014年,pp. 320-329[11] D.卡尔瓦尼斯湾Cogrel,S.科姆拉埃布里河Kontchakov,D. Lanti,M. Rezk,M. Rodriguez-Muro,G. Xiao,Ontop:在关系数据库上实现sparql查询,Semant。Web 8(3)(2017)471-487。[12] B. Motik,BC格劳岛Horrocks,Z.Wu,中国茶条孢A.福奎角Lutz,OWL 2 Web本体语言简介。W3C推荐,2012年。[13] S. 保 释 , S 。 阿 尔 基 维 亚 杜 斯 湾 Parsia ,D. Workman , M. vanHarmelen,R.S.贡萨尔维斯角加里劳、鱼纹:链接数据应用程序基准,见:可扩展和高性能语义Web系统联合研讨会论文集,SSWS+HPCSW 2012,第943卷,第100页。1 -15,CEUR,c e u r -w s. 或g,2012年。[14] Apache Jena,Reasoners和规则引擎:Jena推理支持。可用-able athttps://jena. 一个PACHE 或g/documention/inference/。[15] C.科罗纳湾Ruzzi,D.F. Savo,Filling the Gap between OWL 2 QLand QuOnto : ROWLKit , in : Proc. of Description Logics 2009 ,CEUR,vol. 477,2009. ceur-ws. 奥尔湾
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功