智能电表数据的隐私保护方案的量化评估

193 浏览量更新于2023-12-10 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝⃝可在www.sciencedirect.com在线ScienceDirectICT Express 4（2018）35www.elsevier.com/locate/icte用电数据共享隐私保护方案的量化评估马岛大辅a，马良，艾达纳·塞里科娃b，姚成c，陈彬彬a，新加坡先进数字科学中心哈萨克斯坦纳扎尔巴耶夫大学c新加坡A*STAR信息技术研究所接收日期：2017年12月1日;接收日期：2018年1月17日;接受日期：2018年1月18日在线提供2018年摘要由于智能电表的推出，细粒度用电数据的可用性迅速增长。这些数据使公用事业公司能够执行强大而高效的电网运营。然而，与此同时，与共享和披露此类数据相关的隐私问题也已提出。在本文中，我们首先证明了估计隐私敏感的家庭属性的基础上，仅对住宅客户的能源使用数据的可行性然后，我们讨论了一个框架来衡量隐私增益和评估以客户为中心的隐私保护计划的有效性，即编辑无关的服务和有界人工噪声的数据。c2018 韩国通信信息科学研究所。出版社： Elsevier B.V. 这是一篇基于 CC BY-NC-ND 许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：隐私;智能电表数据;定量评估1. 背景由于智能电表和其他类型的商品用电监测设备的普及，细粒度用电数据的可用性显着增加除了由公用事业公司利用之外，例如需求预测和故障/异常检测，这样的数据可以直接从客户（例如，能量使用监控设备可以将数据上传到服务提供商的云以或者经由公用事业公司（例如，通过绿色按钮连接我的数据[1]），从各种服务中受益，包括节能建议，社交游戏和需求响应等服务。另一方面，我们正面临着许多在智能电网时代之前没有发现的新型隐私风险。与住宅能源相关的隐私问题*通讯作者。电子邮件地址：daisuke. adsc.com.sg（D. Mashima）。同行评审由韩国通信信息科学研究所负责https://doi.org/10.1016/j.icte.2018.01.006美国国家标准与技术研究院（NIST）[2]已经对使用数据进行了概述，其中包括个人身份信息和行为信息的泄露。此外，与受法规严格约束的电力公用事业公司不同，其他服务提供商可以自由地将所收集的数据用于未声明的目的和/或与另一方共享所收集的数据或分析结果，例如，广告或营销公司，未经客户明确同意。因此，一旦数据被发布，电力客户就不可能保持对其数据使用的然而，大多数电力客户在没有充分了解隐私暴露或减轻此类风险的方法的情况下共享他们的数据[2]。为了允许电力客户在与其他方共享用电数据时控制隐私风险，提出了一种称为以客户为中心的能源使用管理的框架[3]。该框架可以适应客户自己为隐私保护而应用的各种数据预处理方案[4，5]，并与公用事业建立的有关隐私和数据所有权的2405-9595/c2018韩国通信信息科学研究所。Elsevier B. V.的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。36D. Mashima et al. / ICT Express 4（2018）35美国的公司，例如，[6]以及欧盟[7]。然而，他们没有对隐私收益进行任何定量评估，这可以为电力客户提供有意义的指导方针，说明需要多少预处理才能达到预期的隐私水平。在本文中，我们首先设计了基于家庭级能源使用数据来估计隐私敏感的家庭信息的机制，以通过使用真实世界能源使用痕迹的实验来突出潜在的隐私风险[8]。我们进一步讨论了一种通过编辑和人工噪声来测量两种隐私保护机制的隐私增益的方法，这两种隐私保护机制是在上述以客户为中心的用电数据管理的背景下引入的[3，4]。本文的其余部分组织如下。在第2节中，我们讨论了与用电数据相关的隐私文献在第3节中，为了教育电力客户，我们证明了仅使用电力使用数据来识别隐私敏感的家庭信息的可行性。在第4节中，我们讨论了一个衡量隐私收益的框架，并将其应用于评估两种类型的隐私保护计划的有效性，电力客户可以申请减轻隐私风险。我们在第5节提供补充讨论，然后在第6节结束本文。2. 相关工作Kavousian等人[9]分析了家庭用电的决定因素。结果表明，家庭特征，电器，电子股票，和居住者确实有很大的影响，居民用电模式。爱尔兰的一项案例研究[10]还使用多元线性回归模型研究了家庭/居住者特征与用电量之间的相关性他们的研究结果表明，除了家庭特征外，家庭组成和户主地位（例如，年龄和社会阶层）与用电量也有很大的相关性，这为我们的调查提供了基础。Beckel等人[11]使用了在智能电表试验期间收集的用电数据集。除了用电量数据外，还提供了用户在试验前后对调查问卷的答复，其中包括各种家庭特征。基于这些真实数据，作者证明了使用各种分类器模型揭示用电数据特征的可行性，总体准确率约为70%。这种可行性得到了Aderson等人的进一步支持。[12]，他们展示了智能普查的能源监测概念。最近，Cong et al.[13]开展了使用智能电表数据发现缺失用户属性标签的工作在这项工作中，我们调查有多少敏感信息可以推断没有任何隐私保护，这是基于这些努力所揭示的可行性我们进一步引入额外的功能来丰富特征空间，并应用其他数据分析技术以提高准确性。此外，我们认为这种准确性作为基线和评估隐私保护计划的有效性。基于电力公司履行其保护用户用电数据的义务的假设数据保管人，隐私保护的重点正在转移- 与第三方服务提供商共享数据。在这个方向上，研究人员提出了以客户为中心的能源使用管理，这是一种隐私保护方案，可以在保护用户隐私的同时与第三方共享有意义的数据我们应该注意到，以客户为中心的能源使用数据管理的目的不是针对公用事业公司的隐私保护，而是针对第三方服务提供商的隐私保护。因此，它是对例如基于电池的隐私保护方案的补充，如[14，15]。此外，该框架与针对针对智能计量基础设施的攻击者的隐私保护正交，在[16]中总结。虽然[3]通过编辑实现了隐私保护，但还有另一项工作提出在数据共享之前添加人工噪声以减轻隐私风险[4]。然而，据我们所知，没有定量评估有多少隐私增益是从这些保护方案，这促使我们进行这样的研究。3. 基于能源使用数据的隐私敏感家庭属性估计3.1. 住宅能源使用数据集为了设计和评估基线方案以估计隐私敏感的家庭属性，并最终在下一节中评估隐私保护方案的有效性，我们利用在英国收集的公开可用的电力使用数据集，称为家庭电力调查（HES）数据集[8]。我们选择这个数据集的主要原因是，除了10分钟或2分钟粒度的用电数据外，这个数据集还包括通过调查获得的每个主题家庭的各种详细信息，这将在本节后面讨论。关于用电数据，我们使用了220个家庭每隔2分钟收集的测量数据。HES数据由电器级用电数据组成，因此我们汇总了每个家庭中所有电器的能耗，以近似家庭级轨迹。此外，为了使数据更接近实际的智能电表数据，我们将2分钟间隔的家庭级迹线下采样为10分钟间隔。最后，由于不同家庭的数据收集时间不同，我们通过使用每个季节的总体平均值来标准化数据，以消除季节性。在HES数据集中可用的家庭详细信息中，在本研究中，我们重点关注以下内容，这些内容被认为具有营销价值，因此对隐私敏感：家庭是否由单身人士居住（单身），家庭居住面积（居住），户主的就业状况（就业状况），家庭是否有任何子女（儿童）以及每个家庭的社会等级（社会等级）。根据数据确定分类标签，其定义总结见表1。也就是说，Single和Children被定义为布尔值（即，真或假），如果占用的大小（即，居民人数）大于2，否则设置为0，就业状况定义为二进制，D. Mashima et al. / ICT Express 4（2018）3537图1.一、每个家庭属性分类的入围特征。那些用粗体突出显示的是最好的分类器使用的特征[11]中提出的表1此外，我们还包括了每个属性的类定义。属性类定义样本数量单身1单身620不单身158职业1> 2 840 ≤2 136就业_1全职123状态0否则97儿童1有儿童72无子女148社会_10其他144户主是否为全职工人在HES数据集中，社会等级有六个级别（A，B，C1，C2，D和E），我们将A和B分组，这对应于高社会等级，并为其余部分形成另一组。3.2. 设计基线分类器本节讨论基线分类器的设计，假设这些基线分类器被好奇的（或恶意的）第三方能源数据分析服务提供商使用，试图泄露客户的隐私敏感数据。我们最初定义了114个从上述能源使用数据中得出的特征。根据我们的初步实验，与基于月度数据计算的特征相比，基于每周数据计算的特征总体上显示出更好的准确性。因此，本文讨论的结果是基于使用1周的数据计算的特征在本节的实验中，我们使用了每个家庭第一周的数据，得到了220个我们最初的特征列表包括基本特征，例如每个家庭用电量的平均值、方差和分位数，以及从时间序列分析，包括自相关、自回归积分移动平均（ARIMA）模型的程度最主要的频率）。然后，我们通过随机森林-递归特征消除（RF-RFE）[17]对每个待估计的房屋属性进行特征选择。这种特征选择方法为每个特征提供了一个重要性得分，根据得分，我们首先从每个分类的人群中选择了15个特征。它们总结在图1中。有了这些功能，通过使用WEKA [18]，我们应用了多个常用的分类器，即AdaBoost，kNN，SVM，随机森林，Bagging和BayesNet。因为包括所有15个特征并不能获得最佳准确性，所以我们调整了特征的数量（即，从顶部选择不同数量的特征）并对每个分类器进行实验结果，我们发现图中用粗体突出显示的特征。 1提供了最佳的准确性。部分结果如图所示。二、这些数字的准确度是根据通过WEKA的5倍交叉验证正确分类的样本数量计算的。这里请注意，WEKA的交叉验证实现应用了数据分层（即，两类样本的比例在所有组中大致相同表2总结了我们感兴趣的家庭属性的最佳分类器。再次注意，对于最佳分类器，使用图1中用粗体显示的从表中可以看出，仅使用用电数据就可以以超过70%的准确率估计隐私敏感的家庭属性，因此共享细粒度的用电数据应被视为对电力客户的严重隐私风险将我们的结果与文献[11]中的结果进行比较，尽管由于数据集和属性定义的差异，直接比较并不完全公平，但我们的分类器取得了明显的优势38D. Mashima et al. / ICT Express 4（2018）35(a) 占领。就业状况。图二. 不同特征数的分类器之间的准确性比较。表2性能最佳的分类器和准确性。户属性分类器准确度（%）单个AdaBoost79.09占用随机森林73.18就业_状态贝叶斯网络72.72儿童SVM75.45社会_等级随机森林70.00在估计社会等级方面的表现（超过10%的增长），同时对单身，就业状况和儿童具有类似的准确性。在本文的其余部分，我们假设这些分类器被好奇的（或恶意的）第三方服务提供商利用。在我们评估隐私保护方案的有效性时，这里所达到的准确性（见表24. 评估以客户为中心的隐私保护方案在本节中，我们评估了为以客户为中心的能源使用数据管理和共享方案开发的隐私保护方案的有效性[3]。特别是，作为客户可以在数据共享之前应用的两种数据预处理技术，我们专注于数据编辑[3]和添加人工噪声[4]。对于本节中的实验，我们通过以下方式评估隐私保护的有效性。为了与第3节中讨论的基线进行比较，我们遵循类似于5折交叉验证的程序。具体来说，我们以分层的方式随机形成五组样本，就像WEKA在第3.2节中所做的那样。在每一轮中，我们使用其中四个用于训练，另一个用于测试。与典型的5重交叉验证图三. 使用预处理数据进行5倍交叉验证后的隐私增益评估。见图4。我们评估隐私收益的模型。我们的框架衡量隐私增益的差异估计准确性对电力客户1，谁共享原始数据，对电力客户2，谁实现以客户为中心的数据预处理之前，数据共享。当我们使用原始用电数据进行训练时，我们使用预处理的数据进行测试（见图3）。这样，我们可以将结果与表2中的结果进行比较。总之，我们的实验模拟了一种情况，其中（潜在地）D. Mashima et al. / ICT Express 4（2018）3539±图五. 使用经编辑的数据进行分类的准确性。恶意的）服务提供商具有基于从多个客户收集的原始标记数据训练的分类器，并且试图揭示提交原始数据的客户（图1中的电力客户1）的隐私。 4）或预处理（同一图中的电力客户2）用电数据，以评估预处理对隐私保护的有效性。4.1. 通过编辑如[3]中所讨论的，隐藏数据的某一部分（例如，仅示出白天的用电量）被认为对于隐私保护是有效的。如图1所示，多个分类器依赖于晚上和夜间的消耗，这证明了这种方法的合理性。另一方面，编辑部分数据对于许多真实世界的服务来说仍然是可以接受的。例如，需求响应等服务通常旨在控制高峰时段的电力需求，因此对下午高峰时段的消费特别感兴趣[3]。我们进行了两组具有不同编辑程度的实验：一个编辑除每天的典型高峰时间（上午10点至下午2点）之外的用电数据，另一个编辑除上午6点至下午6点之外的数据。我们假设服务提供商使用基于训练数据计算的总体平均值来替换编辑的数据。结果与表2中的基线准确度一起呈现在图5中，其被标记为“原始数据”。可以看出，准确性根据编辑的程度而降低。具体地，准确度降低（即，隐私增益）对于儿童、就业状况和社会等级是显著的。4.2. 人工噪声另一个隐私保护策略是添加一个人工的、有界的噪音来掩盖确切的用电量。对于需要精确计算的服务，见图6。使用带有人工噪声的数据进行分类的准确性。数据，如电力账单和需求响应服务的绩效评估。然而，对于节能推荐服务等，一定量的噪声被认为是可接受的。因为对于许多住宅客户来说，近似数据通常是足够的我们评估了在每个时隙中对用电量测量添加有界随机噪声的有效性。图6示出了使用两种不同类型的人工噪声的实验结果。第一种策略是添加零均值、10%随机噪声（即，我们为每个用电量测量生成0.9和1.1之间的随机数，并将该因子乘以相应的测量）。第二种策略稍微智能一些，当某个时间段的实际用电量低于家庭的整体平均水平，同时增加了负面噪音。如图所示，我们看到儿童和社会等级的分类准确性明显下降。然而，与前面章节中讨论的编辑相比，人工噪声带来的整体隐私增益似乎有限。一个合理的原因是，当基于测量值的总和计算特征时，增加的噪声在一定程度上被抵消了。如果我们考虑进一步的先进机制来添加噪音，影响将更加明显。此外，[4]中讨论的人工噪声的主要动机是使非侵入式负载监控（NILM）或负载分解[19，20]技术不太准确。具体地，NILM技术通常依赖于从每个电器的能量消耗模式导出的“负载签名”，并且电力使用数据中的噪声使得签名匹配不太准确。因此，当用于分类的特征集包括基于NILM结果导出的特征集时（例如，某种类型的器具的使用模式或频率），则隐私增益可能更显著。40D. Mashima et al. / ICT Express 4（2018）355. 讨论和未来的研究方向根据图1和图2所示的结果，如图5和6所示，我们可以定义一个隐私增益度量，该度量总结了结果，以便更容易解释。例如，我们可以计算准确性下降的（加权）平均值。或者，从客户的角度来看，可以根据可以正确识别多少信息来定义另一个有效度量的探索将是我们未来工作的一部分。在这项研究中，我们假设给定了一个用于训练的标记数据集。有人可能会说，这一假设是不现实的，因为即使是公用事业公司也没有客户信息，只有户主姓名、邮寄地址、电话号码和账单信息等基本信息。然而，有不可忽略的客户数量可能会自愿交出隐私敏感信息，包括我们在本文中评估的那些信息，以及他们的用电数据，通过要求的问题来换取一些好处（例如，折扣或促销优惠券）。通过以这种方式收集数据，服务提供商可以获得实际上足够大小的标记数据集。我们研究的一个局限性是，我们没有考虑数据分析机制的适应性服务提供商可以调整特征集和/或分类器以更好地处理预处理的数据（例如，噪声数据或编辑数据）。换句话说，在以某种方式收集了足够数量的预处理数据和地面实况类标签之后，分类器可以用它们来训练。这项研究是我们今后工作的一部分。此外，我们将问题简化为所有家庭属性的二元分类。例如，关于入住人数，我们没有估计实际人数，而是注意识别是否是一个大家庭。一般来说，估计确切的数字更具挑战性，正如[11]中所指出的那样。虽然我们承认这是我们未来工作的重要组成部分，但本文所探讨的二进制信息仍然具有营销和广告价值。未来工作的另一个方向是评估包括高级功能（例如来自非侵入式负载监视的功能）的分类器。预期具有不同属性的家庭具有不同的器具使用模式。鉴于[20]等开源工具的可用性，获取此类信息变得可行。6. 结论在本文中，我们证明了估计可能被滥用为未经请求的广告等隐私敏感的家庭属性的可行性。基于我们使用公共数据集的实验，本文中考虑的所有五个隐私敏感属性都可以以超过70%的准确率进行估计。我们进一步定量研究了客户在与潜在恶意第三方共享数据之前可以实际应用的两种隐私保护措施的有效性，即编辑和人工噪声。我们希望我们的贡献能够阐明与用电数据相关的隐私风险以及隐私保护计划的定量评估，不仅可以应对这些风险，还可以更好地教育电力客户。致谢这项研究得到了新加坡总理办公室国家研究基金会能源计划的部分支持，利益冲突作者声明，本文中不存在利益冲突引用[1] 绿色按钮，http：//www. 我是一个很好的朋友。或g/。（2017年9月[2] NIST智能电网，智能电网网络安全指南，第2卷，隐私和智能电网，指南。[3] G. Lahoti，D. Mashima，W.- P. Chen，智能电网系统中以客户为中心的能源使用数据管理和共享，在：第一届ACM智能能源电网安全研讨会论文集，ACM，2013年，pp. 53比64[4] D.Mashima ， A.Roy ， Privacypreservingdisclosureofauthenticatedenergy usage data ， in ： Smart Grid Communications（ SmartGridComm ）， 2014 IEEE International Conference on ，IEEE，2014，pp. 866-871[5] D. Mashima，用于隐私保护的能源使用数据共享的认证下采样，在：智能电网通信（SmartGridComm），2015 IEEE国际会议，IEEE，2015，pp. 605-610[6] 隐私政策， https ： //www. pge. Com/en_US/about-pge/company-information/privacy-policy/privacy-policy。page。（2017年10月[7] 2014年智能电网发展的地方和区域后果报告。 //www. 我的天啊。你好，我好。eu/sides/getDoc. do？泰培=REPORTreference=A7-2014-0019languge=EN.（2017年10月9日[8] J. Zimmermann，M.Evans，J.Griggs，N.金湖Harding，P.罗伯茨，C. Evans，家庭用电调查：家用电器产品使用情况研究，天祥检测认证有限公司。[9] A.卡武西安河Rajagopal，M. Fischer，住宅电力消耗的决定因素：使用智能电表数据来检查气候、建筑特征、电器库存和居住者的偏好的影响，能源55（2013）184-194。[10] F. McLoughlin，A.达菲，M。Conlon，《住宅和居住者社会经济变量的家庭电力消费模式特征：爱尔兰案例研究》，能源建设。48（2012）240-248。[11] C. 贝克尔湖 Sadamori ， T. Staake ， S. Santini ， Revealinghouseholdcharacteristics from smart meter data，Energy 78（2014）397-410。[12] B. 安德森， S 。 Lin ， L. Newing ， A. Bahaj ， P. James ，Electricityconsumptionand household characteristics：Implications forcensus-taking ina smart metered future ， Comput. Environ. UrbanSyst.63（2017）58-67.[13] Y.孔，G.作者简介：王建民，王建民. Yu，J. Luo，缺少标签的用户属性发现，模式识别。73（2018）33-46.[14] G. Kalogridis，C. Efthymiou，S.Z.丹尼斯，T.A.刘易斯河，巴西-地Cepeda ， Privacyfor smart meters ： Towards undetectable applianceloadsignatures，in：SmartGridCommunications（SmartGridComm），2010 First IEEEInternational Conference on，IEEE，2010，pp. 232-237D. Mashima et al. / ICT Express 4（2018）3541[15] Z. Zhang，Z.钦湖，加-地Zhu，J. Weng，K. Ren，智能电表的成本友好差分隐私：利用噪声的双重角色，IEEETrans.智能电网8（2）（2017）619-626。[16] M.A.洛杉矶费拉格马格拉拉斯湾Janicke，J. Jiang，智能电网通信隐私保护方案调查，arXiv预印本arXiv：1611。07722.[17] P.M. Granitto，C. Furlanello，F. Biasioli，F. Gasstrom，递归特征消除与随机森林用于农产品的ptr-ms分析，Chemometr。内特尔实验室83（2）（2006）83-90。[18] M. Hall，E.弗兰克，G。霍姆斯湾Pfahringer，P. Witten，Thewekadata mining software：An update，ACM SIGKDD ExplorationsNewsl.11（1）（2009）10-18.[19] G.W. Hart，Nonintrusive appliance load monitoring，Proc. IEEE 80（12）（1992）1870-1891。[20] N. Batra，J. Kelly，O. Parson，H.杜塔，W。Knottenbelt，A.罗杰斯，A. 辛格，M。Srivastava，NILMTK：一个用于非侵入式负载监控的开源工具包，在：第五届未来能源系统国际会议论文集，ACM，2014年，pp. 265-276。

下载后可阅读完整内容，剩余1页未读，立即下载