基于自组织映射的电力使用数据隐私保护与共享方法

72 浏览量更新于2023-12-10 收藏 578KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝⃝可在www.sciencedirect.com在线ScienceDirectICT Express 4（2018）24www.elsevier.com/locate/icte一种基于自组织映射的日本庆应义塾大学研究生院科学技术系b日本庆应义塾大学系统设计工程系接收日期：2017年12月1日;接收日期：2018年1月21日;接受日期：2018年1月22日在线提供2018年摘要用于测量用电量的智能仪表被期望用于用电管理。虽然相关的电力供应商存储了测量数据，但这些数据值得在电力供应商之间共享，因为需要一个城市的整个数据来控制区域电网稳定性或尽管许多隐私保护数据挖掘技术和方法已经被研究，以共享数据，同时保护数据隐私，电力使用数据共享的研究仍然缺乏。在本文中，我们提出了一种共享方法的电力使用，同时保护数据的隐私，使用自组织地图。c2018 韩国通信信息科学研究所。出版社： Elsevier B.V. 这是一篇基于 CC BY-NC-ND 许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：隐私保护;数据共享;自组织映射1. 介绍智能电表代替传统的电表，用于测量用电量。智能电表是智能住宅和家庭能源管理系统中必不可少的设备。它允许电力供应商获取目标家庭的用电数据。对所获取数据的分析为电力供应商提供更智能的服务。例如，通过转移每个家庭的用电高峰，减少高峰时段的用电总量。调整电费以进行电力使用控制的技术被称为需求响应（DR）。DR服务用于削减或转移用电高峰，以维持一段时间内的然而，当合同下的公司仅捕获智能电表数据时，难以管理目标区域中这是因为该地区的所有电力公司无法共享用电数据，*通讯作者。电子邮件地址：nakamura@west.sd.keio.ac.jp（Y. Nakamura）。同行评审由韩国通信信息科学研究所负责https://doi.org/10.1016/j.icte.2018.01.004每个家庭的用电控制，从隐私保护和公司的数据垄断的角度考虑通过用电数据在共享数据以分析用电量时，必须充分考虑家庭的隐私保护数据分析师可以识别出在特定时间操作了什么类型的电器这种技术被称为非侵入式负载监控（NILM）[1]。这些信息对犯罪分子很有用;例如，小偷可以预测家庭结构，并减少与目标家庭成员同态加密是分析数据的方法之一，同时保持家庭数据对数据分析师的私密性加密提供计算，同时保持值和方程加密[3，4]。然而，这种技术缺乏计算速度。即使计算成本对于数据分析来说是可以接受的，但在考虑开放数据时仍然会出现问题。开放数据的概念是，一些数据应该被公布，或免费提供，以进一步发现应用和知识[5，6]。用电量数据不能公布，2405-9595/c2018韩国通信信息科学研究所。Elsevier B. V.的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。Y. Nakamura等人/ICT Express 4（2018）2425只以加密技术保障住户的私隐。在本文中，我们提出了一种安全有效的用电数据共享方法，同时保护数据隐私。该方法由自组织映射（SOM）组成[7]。所提出的方法进行了评估，使用两种类型的数据捕获的智能电表在不同的智能电网。评价结果显示了本研究的贡献。该方法适用于共享任何类型的数据，同时根据相关分析调整特定变量以保持数据准确性。此外，与在没有数据共享的情况下匿名化每个电力供应商的数据的另一传统方法相比，所提出的方法可以减少信息丢失（IL）本文的组织如下：第2节介绍了以前的工作与这项研究，第3节介绍了所提出的方法，同时提出了基于SOM的方法。在第4节中使用两个数据集评估了所提出的方法，我们在第5节中总结了这项研究。2. 相关作品2.1. 隐私保护数据挖掘隐私保护数据挖掘（PPDM）是一种在保护数据隐私的同时分析数据的技术[8]。PPDM包括以下几种方法。同态加密：同态加密是一种共享数据的方法，如第1节所述。该方法提供了加密的计算结果，而不会泄露相关值和方程[3，4]。然而，这种方法需要很高的计算成本。此外，当使用许多智能电表时，管理加密密钥的成本将很高。Guan等人提出了一种使用同态加密从智能电网中的智能电表聚合用电数据的方法[9]。该方法提出了一种控制中心，该控制中心被允许获得汇总的用电数据。控制中心必须付出较高的成本来使用同态加密和管理加密密钥。即使成本可以接受，DR服务仍然存在一些问题。第一个问题是数据汇总过程。关的系统中的控制中心这一特征使得难以向每个家庭发出适当的控制命令此外，该方法不允许在电力供应商和其他人之间共享电力使用数据。随机化：另一种方法是随机化值。这种方法用替代值替换数据中的值，以防止泄露原始值。通过将噪声添加到原始值来生成替代值，或者通过随机选择数据中的其他记录。数据使用者在使用统计方法估计原始值的同时使用数据[10]。虽然这种方法具有广泛适用于各种类型的数据的Kursawe等人提出了一些协议来聚合数据，智能电网，同时保护数据隐私[11]。在该协议中，数据提供者在聚合之前向数据添加噪声，聚合器通过减去噪声来获得用电量的总和。然而，聚合器只获得数据的总和[9]。匿名化：匿名化概括了唯一的记录，以防止识别相应的数据并保护隐私。K-成员聚类是匿名化算法之一[12]。它通过概括记录来创建类似记录的集群。此泛化将每个聚类的记录数保持为大于或等于K.随后，相同簇中的值被替换为公共值以满足k-匿名性。k-匿名性是匿名化的度量，表示有多少记录在项目中至少具有相同的值。它证明了任何类型的查询都将匹配k个由于泛化过程，匿名化降低了数据精度。IL是测量退化程度的度量。虽然k成员聚类允许电力供应商共享每个用电数据，但是当数据包括具有相似值的许多记录时，IL将很大。当记录的总数较小时，即，当IL小型电力供应商的匿名数据变得很大。因此，需要一种新的方法来降低IL。2.2. 自组织映射（SOM）SOM是一种基于人工神经网络的无监督机器学习技术，它将多维记录映射到二维节点，称为映射[7]。首先，SOM随机填充地图中节点的节点权重向量作为初始值。学习部分重复进行下面的两步执行第一步寻找每个记录的最佳匹配单元（BMU）。BMU是与记录最相似的节点。第二步是通过将BMU和BMU本身的邻域中的节点拉得更接近输入向量来更新它们的权重向量。重复这些步骤，直到更新的差异变得小于阈值λ。在本文中，基于SOM的数据共享方法来保护隐私。我们之前提出了一种收集用电数据的方法，该方法使用SOM来共享数据，同时考虑数据隐私[13]，这是一种将SOM用于PPDM的新技术。SOM是用于在电力供应商之间共享电力使用的合适技术。这是因为SOM不需要任何主管数据来创建映射。各电力供应商只需准备相关用电数据。接下来，SOM允许使用任何数量的记录维度，尽管所有记录必须具有相同数量的维度，即，如果所有数据都是在同一时间段内获取的，则SOM可对任何用电数据执行。最后，SOM不需要簇的数量或每个簇中的记录数量。它可以忽略每个供电商的记录大小进行数据共享，这是它独特而优越的功能[14]。基于这些原因，在所提出的方法中，SOM被用来提取用电量的特征。26Y. Nakamura等人/ICT Express 4（2018）24（）−2：=−J≤≤3. 该方法在前一种方法中，SOM的学习过程在电力供应商之间反复执行。原始方法存在安全问题。电源供应商可以篡改给定的SOM映射。此外，原始方法具有关于计算成本的问题，因为它是困难的以使学习处理并行化，即使该处理需要高的计算成本。此外，所提出的方法提高了准确性，因为它赋予了更高的权重的峰值功耗，使学习过程有效的DR服务。本节其余部分将详细介绍所提出的3.1. 获取可共享数据的程序所提出的方法保留隐私，同时转换记录的用电量的二维节点的地图创建的加权SOM（WSOM），我们在本文中的目的。在WSOM重复学习以获得用电量的节点图之后，它将输入数据与学习的时间结果进行比较以获得下一个时间结果。输入数据是用电量的记录集Fig. 1. 建议方法的流程。优先考虑p附近的电力使用，而σ的大值适合于优先考虑所有电力使用时间的分析。为了设置合适的σ值，需要预先使用WSOM进行试验。第三个子步骤是更新BMU周围的当量（3）表示如何更新节点，其中J表示j被一个电力供应商捕获交换WSOM以获得电力使用的特性就足够了，=argmin联系我们a（t）（x（t）−wi（t））（一）交换power获取的使用记录的原始数据集BMU中国t=1供应商该方法包括三个步骤：映射步骤，收集步骤，计数步骤。每个电源供应商首先1a N p，σ a（ t）e2πσ（t-p）22σ2（2）在映射步骤中使用WSOM获得节点映射。在收集步骤中，将所获得的节点地图放在一起形成所有电力供应商节点映射wi（j+1）=wi（j）+（1−jdBMU， i2e2 σ（j）2 .（三）没有关于属于节点地图中每个节点该信息在计数步骤期间被添加节点地图被示出为组的集群，并且每个组由家庭的多个用电数据组成。攻击者无法识别她/他的目标家庭的用电量图1示出了所提出的方法的流程。映射步骤：映射步骤可以分为三个子步骤。第一子步骤仅执行一次，并且其他子步骤迭代地执行第一个子步骤是映射的初始化。该子步骤随机地解析地图中的节点的初始位置和初始权重向量。第二个子步骤是找到最相似的BMU。每个记录的BMU使用方程计算。（1）和其中wi（j）表示第i个节点，并使用WSOM学习j次，t表示相关记录x的顺序时间戳，其中1t T，a（ t）是正态分布函数，其增强了围绕时间戳p学习的准确性。与其他时间戳的记录相比，当偏差σ设置为小值时，p附近的精度增加，反之亦然。当考虑DR时，p应该处于用电高峰。因此，WSOM允许电力使用分析师根据其目的通过σ调整p附近的精度的重要性。将σ设置为一个小值适合于以下分析：收集步骤：在收集步骤中，从在映射步骤中获得的节点地图组装所有电力供应商的节点地图。映射步骤方法再次用于组装。该节点地图在电力供应商之间共享。统计步骤：在统计步骤中，供电商检查在收集步骤中生成的节点地图中有多少家庭与每个节点相关共享计数信息的最简单方法是使用数据库。然而，当考虑到共享计数信息的隐私风险时，这不是最好的方式，因为每个电力供应商可以识别从其他电力供应商给出的信息。在本文中，我们假设如下三种计数选项。使用同态加密是第一种选择。在该选项中，计数结果是保密的。虽然同态加密的计算成本往往很高，在这种情况下，计数步骤仅需要增加值，这使得同态加密的计算成本比通常低得多。因此，与适合于节省计算成本的其他方法（例如Paillier加密[15]和加法El Gamal加密[16]）相比，同态加密是合适的。第二种选择是让电力供应商轮流添加第一电源供应器分别将初始值添加到节点映射中的节点的计数器，）Y. Nakamura等人/ICT Express 4（2018）2427N××=I L×=NNNTn=1t= 1×NTn=1而电源供应器仅知道初始值。下一步，各供电企业轮流向相关计数器添加户数。最后，第一电源供应器从各个计数器中减去初始值以确定结果。虽然这个选项也保护了家庭的数据隐私，但当电力供应商合作披露从电力供应商添加的信息时，最终电源供应商也能够知道初始值。例如，如果其他电力供应商从相关计数器中减去由它们添加的值，则可以揭示由第一电力供应商添加的值第三个选择是询问值得信赖的第三方机构，例如聚合器，来管理计数，而不是聚类不同的情况是聚类的输入数据。在一种情况下，k成员聚类的输入是包括由所提出的方法生成的所有电力供应商的电力使用数据在另一种情况下，每个电力供应商的数据分别被匿名化。使用等式（1）计算情况的IL（分别为ILP和ILI）。其中，N表示记录的数量，并且cj和xj分别表示匿名化之后和之前的值。当量（5）表示两种情况下的IL率。IL=1∑<$cj−xj<$（ 4）j=1数据库电力供应商首先获得节点地图组件，在收集步骤中出血，并计算其相关节点的家庭数量计数结果被发送到该机构，该机构公布计数结果3.2. 用电高峰预测在Eq中定义p。（2）、所提出的方法需要预测用电高峰时间。所提出的方法使用季节性自回归综合移动平均（SARIMA）模型进行预测，因为该模型甚至可以根据从智能电表捕获的值构建[17]。在所提出的方法中，在一天的用电量预测的SARIMA模型，而直到7天前的一天的用电量被用作输入值。4. 评价两个数据集的智能电表被用来评估所提出的方法。其中一个数据集是在位于日本川崎市（DK）的一个智能城市中捕获的。另一个数据集，名为爱尔兰智能电表数据集，由监管委员会（DI）提供[18]。每个数据集中的家庭数量分别为53和1000。在两个数据集中，数据的时间戳周期均为30 min。包括本文提出的方法的评估环境是使用Python 2.7实现的。4.1. 信息丢失（IL）RI LP.（五）I LI表1和表2表示DK中的R/L，而k被定义为从2到10，并且电源的数量np被定义为从2到4。WSOM的地图大小分别为5 5和10 10。表3和4表示DI中的R/L，而k被定义为从2到20，并且电源的数量np被定义为从5到15。WSOM的地图大小为10 10和20 20。根据这四个表，当两个数据集中np和k的值都很大时，ILP小于I LI与条件相比，当k被定义为小值（诸如2）时，ILP大于I LI评价结果表明，当N、P和k较大时，该方法的IL降低。特别地，当k和np分别被设置为18和15时，表44.2. 考虑DR正如我们在Eq. （2）、所提出的方法的精度取决于a（ t），并且其强度可以通过σ。图2和3表示当σ 2从0.1移动到100.0时，所有时间（所有M AE）和峰值时间（MAE峰值）的平均绝对误差（M AE）量。M AEall和M AEpeak通过Eqs计算。（6）和（7）。图中的误差量。2和3分别在使用DK和DI的情况下测量。此外，还测量了未给出权重时的误差量（a（ t）1），并将其表示在这两个图中。N T在这个评估中，我们假设k-成员聚类用于匿名化用电数据以在保护数据隐私的同时发布正如我们在第2.1节中提到的，匿名化会导致IL，这取决于数据属性。例如，如果数据在匿名化过程之前已经满足所需的k-匿名性，则IL将为零。当使用相同的数据集时，为了防止数据属性的影响，对两种不同的匿名化方法进行了比较，以评估IL[19，20]。我们比较了两种情况下的k-成员聚类，以评估IL在所提出的方法。在这两种情况下，所有电力供应商的用电数据都由k-member匿名化。M AE all=1∑ ∑|wn（t）−x n（t）|（六）MAE峰值=1∑|wn（p）− x n（p）|.（七）根据图如图2和图3所示，当σ 2小时，峰值时间期间的准确度高，而在所有时间的准确度低于峰值时间期间的准确度。在峰值时间和所有时间的准确性之间存在折衷。当σ2在DK中被设置为1.0时，从结果示出了这种折衷。根据图2，该结果具有比无重量结果低40%的M AE 峰值，但高56%的M AE此外，28Y. Nakamura等人/ICT Express 4（2018）24表1当np和k分别设置为2至4和2至10时，DK中的信息丢失率（RIL）（MapSize为 5× 5）。npK234567891021.551.231.151.091.051.060.991.041.0431.451.131.081.031.030.960.991.001.0141.381.150.981.020.990.990.900.940.96表2当np和k分别设置为2到4和2到10（MapSize为10× 10）时，DK中的信息丢失率（RIL）。npK234567891021.201.051.051.001.001.030.961.041.0431.130.980.970.980.980.950.951.001.0541.060.980.900.960.950.970.880.920.96表3当np和k分别设置为5到15和2到20时，DI中的信息丢失率（RIL）（MapSize为10×10）。氮磷钾2468101214161820五1.621.141.030.970.940.920.920.900.910.8910 1.511.070.970.930.900.890.890.880.860.83151.481.040.960.920.880.870.840.860.810.82表4当np和k分别设置为5到15和2到20时，DI中的信息丢失率（RIL）（MapSize为20×20）。npK246810121416182051.451.030.940.900.880.880.880.870.880.86101.320.950.880.850.830.840.850.840.830.81151.280.920.860.830.810.810.800.820.780.80图二、所有的平均绝对误差（M AE）和D K的峰值时间而方差的移动参数（σ2）为0.1 ~ 100.0。权衡取决于相关的数据集。依赖性也从图1和图2中的结果示出。2和3，其中σ2设置为1.0。与DK相比，DI的结果低60图3.第三章。当方差的移动参数（σ 2）为0.1 ~ 100.0时，所有数据的平均绝对误差（MAE）和DI的峰值时间。M AE峰值，但MAE比无重量结果高40%。因此，必须根据每个数据集所需的精度定义σ2当DK的假设DR服务允许Y. Nakamura等人/ICT Express 4（2018）2429M AE 均高达0.08 kWh，选择1.0作为σ2将使M AE 峰值最小化。5. 结论在本文中，我们提出了一种共享的电力使用方法，同时保护用户的隐私。所提出的方法使用自组织地图，并允许电力供应商共享用电量的节点地图，同时允许从智能电表捕获原始数据。我们的评估结果表明，所提出的方法实现了相同的k-匿名性水平与小的信息损失相比，其他传统的方法，匿名的数据，每个电源没有数据共享。特别是，当k和np分别设置为18和15评估结果还表明，所提出的方法共享的用电数据可以用于DR。共享数据的准确性可以调整，并且在所有时间和高峰时间的准确性之间存在折衷。致谢这项工作得到了MEXT/JSPS KAK-ENHI资助（B）编号JP 16 H 04455和JP 17 H 01739的部分支持，通过日本总务省SECOM科学技术基金会的研发项目利益冲突作者声明，本文中不存在利益冲突引用[1] FigueiredoMarisa，Ana De Almeida，Bernardete Ribeiro，非侵入式负载监控（NILM）系统的家庭电信号分解，神经计算96（2012）66-73。[2] Christian Neureiter ， Gunther Eibl ， Armin Veichtlbauer ， DominikEngel ， Towards a framework for engineering smart-grid-specificprivacy requirements，in：IEEE工业电子学会第39届年会，2013年，pp.4803-4808[3] Craig Gentry，Fully homomorphic encryption using ideal lattices，in：STOC，2009，pp. 169比178[4] 周军，曹振福，董晓磊，林晓东，PPDM：一种用于云辅助电子医疗系统的隐私保护协议，IEEE J. Sel. Top.标志.过程。9（7）（2015）1332-1344。[5] LinkData，“链接和发布您的数据|打开数据共享，”h t t p：/ / l i n kd a t a。org/（2017年11月访问）。[6] 美国 General Services Administration，“Data.gov，”h t t p s：/ /w w.datata。 gov/（2017年11月访问）。[7] TeuvoKohonen，拓扑正确特征映射的自组织形成，生物学。43（1）（1982）59-69。[8] Majid Bashir Malik，M. Asger Ghazi，Rashid Ali，Privacy preservingdata mining techniques：current scenario and future prospects，in：Third International Conference on Computer and CommunicationTechnology，ICCCT，2012，pp. 26比32[9] Zhitao Guan，Guanlin Si，Xiaojiang Du，Peng Liu，Zijian Zhang，Zhenyu Zhou ， Protecting user privacy based on secret sharing withfault tolerance for big data in smart grid ， in ： IEEE InternationalConference on Communications，ICC，2017，pp.1比6[10] S. 奇丹巴拉姆Srinivasagan，A combined random noise perturbationapproach for multi-level privacy preservation in data mining，in：2014InternationalConferenceonRecentTrendsinInformationTechnology，2014，pp.1比6[11] Klaus Kursawe ， George Danezis ， Markulf Kohlweiss ， Privacy-friendly aggregation for the smart-grid，in：International Symposiumon Privacy Enhancing Technologies Symposium，PETS，2011，pp.175-191。[12] Ji-Won Byun，Ashish Kamra，Elisa Bertino，Ninghui Li，Efficientk- anonymization using clustering techniques，in：Proceedings of the12th International Conference on Database Systems for AdvancedApplications，2007，pp.188-200[13] Kengo Okada，Kanae Matsui，Jan Haase，Hiroaki Nishi，Privacy-preserving data collection for demand response using self-organizingmap ， in ： IEEE13th International Conference on IndustrialInformatics，INDIN，2015，pp. 652-657[14] T. Kanungo，D.M.芒特，北卡罗来纳州Netanyahu，C.D.皮亚特科河西尔弗曼，A.Y.吴，一种有效的k-means聚类算法：分析和实现，IEEE Trans.模式肛门。马赫内特尔24（7）（2002）881[15] Pascal Paillier，基于复合度剩余类的公钥密码系统，见：密码学进展-EUROPHOTOPT，1999，pp. 223-238[16] 李文生，一种基于离散余弦变换的公钥密码体制及其签名方案，清华大学出版社。Theory 31（4）（1985）469-472.[17] 乔治·E·P格维林？博克斯Jenkins，Time Series Analysis：Forecastingand Control，Holden-Day，San Francisco，1976.[18] 爱尔兰社会科学数据档案，“来自能源监管委员会的数据”，h t t p：/ / w w w 。 UCD 。 ie/issda/data/commissionforrenrgyregulationcer/（2017年11月访问）。[19] J.S. Adeline Johnsana，A.拉杰什河Kishore Verma，具有最小信息损失和最佳重新识别风险的时间序列数据的CAT聚类k-匿名化，Indian J。Sci. Technol. 9（47）（2016）1[20] V. Rajalakshmi，G.S. Anandha Mala，通过使用子聚类的数据重定位进行隐私保护数据挖掘的Ancriminization，Indian J. Sci. 7（7）（2014）975-980。

下载后可阅读完整内容，剩余1页未读，立即下载