知识增强GAN生成物联网流量数据的研究

53 浏览量更新于2023-11-30 收藏 2.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3336用于物联网流量生成的知识增强GAN会硕弟北京国家信息科学技术研究中心，清华大学电子工程系杨兴浩北京国家信息科学技术研究中心，清华大学电子工程系环东王北京国家信息科学技术研究中心，清华大学电子工程系国家计算机网络应急响应技术中心团队/中国永利北京国家信息科学技术研究中心，清华大学电子工程系王振华北京国家信息科学技术研究中心，清华大学电子工程系金德鹏北京国家信息科学技术研究中心，清华大学电子工程系摘要网络流量数据有助于了解物联网（IoT）行为并提高现实世界中的IoT服务质量然而，大规模的物联网流量数据很少可访问，并且即使是匿名的个人身份信息，隐私问题也阻碍了现实的数据共享。研究人员建议生成合成物联网流量，但未能覆盖广泛的现实世界物联网设备提供的多种服务在这项工作中，我们迈出了第一步，通过知识增强的生成对抗网络（GAN）框架生成大规模物联网流量，该框架引入了语义知识（例如，位置和环境信息）以及各种IoT设备的网络结构知识。我们使用条件机制来整合知识和设备类别以生成IoT然后，我们采用LSTM和自注意机制来捕获流量序列中的时间相关性大量的实验结果表明，我们提出的模型生成的合成物联网流量数据集在数据保真度和应用方面优于最先进的此外，我们提出的模型能够通过仅在具有知识增强的小的真实数据集上进行训练来生成真实的数据我是说，我是说，我是说，ACM承认此贡献是由国家政府的雇员、承包商或附属机构撰写或共同撰写的因此，政府保留非专有、免专利权使用费的权利发表或复制这篇文章，或允许其他人发表或复制这篇文章，仅供政府使用。WWW©2022计算机协会。ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3511976CCS概念• 计算方法学→神经网络;·网络→网络模拟;·信息系统→流量分析。关键词物联网，流量生成，GAN，知识图谱ACM参考格式：Shuodi Hui ， Huandong Wang ， Zhenhua Wang ， Xinghao Yang ，Zhongjin Liu，Depeng Jin，and Yong Li.2022年用于物联网流量生成的知识增强GAN 在ACM Web Conference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。ACM，美国纽约州纽约市，11页。https://doi.org/10.1145/3485447.35119761介绍物联网（IoT）通过将各种传感器、致动器和计算设备连接到互联网来扩展人类感知和与世界交互的方式随着物联网应用的日益普及，各种设备连接到互联网并服务于智能能源项目、家庭自动化、智能家居、商业等。[9]的文件。在这种情况下，基于物联网流量数据来了解物联网设备的行为并提高物联网服务质量具体而言，物联网流量数据包含用户和物联网设备之间的所有命令和反馈，反映了他们的活动，因此有助于许多应用，包括特定物联网设备的行为分析[3，18，21]，隐私泄露识别[2，10，26，30，34]，和物联网设备管理[7，27，32，37]等。与此同时，无数公司为不同应用设计的物联网设备的软件标准和框架越来越多，增加了物联网设备和平台的碎片化。为了应对碎片化，物联网WWWHui等人3337i=1（）下一页我我我j=1Web技术[15]，其中物联网流量数据也发挥着重要作用。具体地，跨各种平台和应用域的IoT业务数据促进WoT理解IoT设备并提供适当的基于web的通信机制。例如，具有重通信负载的设备（例如，智能相机）和需要高可靠性的设备（例如，销售点）需要不同的通信协议[25]。然而，现有研究中的大多数物联网流量数据集都是在实验室或单一应用场景中收集的，因为只有少数组织可以访问大规模物联网流量数据，例如，互联网服务提供商，物联网服务提供商。不幸的是，考虑到隐私，这些组织不愿意共享真实的数据尽管一些组织通过删除个人身份信息来匿名化数据集，但这种幼稚的方法被证明容易受到许多去匿名化（DA）攻击[20，41，44]。在这种情况下，生成合成物联网流量成为一个有吸引力的解决方案。生成的物联网流量可以保留物联网行为的特征，无需真实的个人身份信息，支持物联网和物联网应用，同时避免隐私泄露。最近，Nguyen-An et al. [29]建议IoTTGen为智能家居和生物医疗物联网环境生成合成流量。该模型在业务生成之前请求对每个IoT设备进行配置，其中分组大小、端口号、有效载荷和到达时间间隔作为固定参数给出，而实际上是为了动态生成IoT流量，Shahid et al.[36]将自动编码器与生成对抗网络（GAN）相结合，以生成与Google Home Mini（智能扬声器）产生的实际流量相对应的数据包大小序列，该智能扬声器可以使用一周。然而，前两个作品在实验室中进行的实验是针对单一场景的，这需要特定的设备配置和交通数据中的参数。对于现实世界中广泛存在的提供多种服务的物联网设备来说，收集具体的配置和参数是不可行的，这限制了前两项工作的应用。因此，我们首先提出了一个流量生成模型，以模拟基于大规模现实数据的多场景中的各种物联网设备。IoT业务生成可以被认为是时间序列生成的特定情况，其受IoT设备的复杂背景信息的影响，即，设备类别、制造商设计、用户习惯和应用服务。背景信息一旦被引入生成模型中，就促进了数据保真度。在各种背景信息中，设备类别是IoT设备的固有属性，并且能够为设备的功能提供重要的指示，并为业务序列生成提供有力的指导，而不会产生隐私问题。因此，为合成数据集生成IoT设备类别和流量系列是很自然的。由于GAN能够与不同方式的生成器合作生成多种形式的数据，Linet al.[23]提出DoppelGANger，并与特征序列一起生成对象属性，达到了最先进的几个网络流量数据集。然而，在实验中然而，由于以下原因，生成物联网流量具有挑战性：真实世界的物联网流量受到来自用户、环境和应用的复杂因素的影响，这给获取核心背景信息并将其输入生成模型带来了挑战，同时保护隐私。由IoT设备执行多种功能的不同通信时间间隔引起的IoT流量序列的可变长度给学习时间模式带来了挑战。我们的观测结果表明，除了在时域上稀疏的短流量序列外，还存在包含数千个元素的长流量序列。由于生成模型需要学习序列的长期和短期时间模式，因此生成长序列尤其具有挑战性。交通序列中的设备类别和特征的分布严重不平衡，这给生成真实和多样化的合成数据集带来了挑战。对于物联网设备，背景信息包含语义知识和交互关系，启发我们自然地采用知识图。因此，我们提出了一个知识增强的GAN物联网流量生成，以解决上述挑战。首先，我们通过从制造商、供应商和用户收集的物联网流量数据和其他背景信息构建知识图然后，我们构建了一个GAN框架，同时生成物联网设备类别和流量序列，包括一个全面的生成器和一个简单的生成器。为了在框架中引入背景知识并捕捉设备类别对流量序列的影响，我们采用了条件机制。最后，我们评估我们的知识增强GAN在真实世界的物联网流量数据集上，大量的实验表明，我们的模型优于五个基线，并通过将背景知识引入生成中，在小数据集上表现最后，我们的贡献总结如下：我们构建了一个知识图来描述物联网设备的背景信息，学习语义知识和交互特征。我们提出了一种用于物联网流量生成的知识增强GAN，它使用条件机制来整合物联网流量生成的知识和设备类别，并采用LSTM和自注意机制来捕获流量序列中的长期和短期时间相关性我们在真实世界的物联网流量数据集上进行了实验，我们提出的模型在数据保真度和应用方面优于其他最先进的基线。通过引入背景知识，该模型也被证明可以生成在小的真实数据集上训练的真实数据。2背景和问题IoT流量数据集可以正式表示为一组对象S={Oi}N，其中Oi表示第i个IoT设备di的数据。对于物联网流量，DoppelGANger生成的数据集忽略了罕见的设备类别，并且该模型无法在缺乏背景的情况下模拟物联网流量的严重不平衡和稀疏性对于每个设备，数据O i=C i，T i，C i表示设备类别，T i表示三维网络流量序列。如图1（a）所示，业务序列Ti={Aj，Pj，Lj}Mi，信息.其中Mi是IoT设备di的业务序列的长度，并且表1······用于物联网流量生成的知识增强GANWWW3338−θϕ大多数分类器的平均值约为90%，详细信息见我我我符号定义设备di的IoT业务数据。Ci器械类别Di.Ti设备di的网络流量系列。设备di的网络流量系列Ti的长度。3方法通常，物联网流量数据严重不平衡和稀疏，这导致现有生成模型的失败特别是，基于GAN的模型容易遭受模式崩溃，这意味着尽管经过训练，生成器提供的样本种类有限j第j个和第j个数据包之间的到达间隔时间对设备di进行采样。J不同的数据。生成真实的物联网流量，同时避免模式折叠，由于每个物联网设备设备di的第j次采样中的分组总数。设备通过KGE为GAN模型提供多样化的条件第j个sam中的Pj个分组的平均分组长度。然后，我们采用一种条件机制来获取用于设备Di.知识和设备类别的流量系列，并使用LSTM设备di的知识图嵌入（KGE）。表1：IoT流量生成的符号和定义(a) 交通数据。(b) 物联网知识图谱。图1：物联网流量数据和物联网知识图谱的说明给出了三个特征的详细信息：到达时间间隔Aj，总和自我注意机制，以捕捉时间的相关性在序列中。我们提出的模型的框架如图2所示，黑色，蓝色和灰色的线条分别代表真实数据，生成数据和噪声的传输。首先，我们从物联网设备的基本信息和网络流量构建知识图，并提取每个设备的KGE信息。然后，我们在KGE信息的条件下训练一个生成器G和一个CNOD。生成器G由三个子生成器组成类别生成器GC，序列长度生成器GM，以及流量串联发电机GT，它们通过条件机制彼此关联3.1知识图谱构建物联网设备的背景信息包含语义知识和网络结构，这启发我们自然地采用知识图为了将信息引入生成模型，我们通过物联网流量数据和其他背景信息构建了一个知识图首先，我们从制造商、供应商和用户的描述中收集每种器械的基本信息，例如，硬件模型的类型然后，我们使用物联网隐私泄漏量化框架[19]从网络流量中提取用户，平台，位置和环境信息。物联网设备、物联网用户和云平台之间的通信数据包数量j我j结构信息。如图1（b）所示，物联网设备Pi和平均分组长度Li。给定真实世界的物联网流量数据集S，我们的目标是用生成模型G生成真实的流量数据集S。生成对抗网络[14]是一种基于对抗学习的最先进的生成模型，它在多个领域的生成任务中取得了显着的成果[42，46，47]。一个典型的GAN有两个组件，一个生成器Gθ和一个GANDθ，它们被交替训练以生成与真实数据相比的假数据。生成器Gθ学习通过生成具有与真实数据相似分布的假数据来欺骗CIDD训练器，并且CIDD训练器学习区分假样本和真实样本，其执行如下的最小-最大竞争：最小最大Ex最大d。log D（x）。+Ex<$G θ。log.1−D（x）。、（1）在知识图谱中，用户、平台、位置和环境信息被视为头部实体，而用户、平台、位置和环境信息被视为尾部实体。下面的三元组给出了几个例子，·设备di，制造商，制造商：Samsung>，·设备di，located_in，城市：北京>，·devicedi，communicate_with，platform：Aliyun>.最后，我们获得了知识图的39,598个实体（包括10187个设备）和133,075个关系，这些关系分为20个类别。然后，我们使用TransE模型[5]来学习每个IoT设备di的嵌入Ki。为了保证语义信息在嵌入中得到保留，我们训练了几个分类器来通过KGEKi预测设备类别Ci，其中x是样本，pd是真实数据的分布，Gθ表示由θ参数化的生成器，Dθ表示由θ参数化的生成器。针对不同的生成任务，构建了不同的生成器结构，并设计了一个物联网流量数据生成框架。附录A.3.2发电机在物联网流量生成方面，该生成器旨在满足三个主要要求。1）将物联网网络结构和语义知识引入生成的数据，2）捕获一WWWHui等人3339（|)（）ii（|)（ |）i 我我我图2：知识增强型物联网流量生成框架图3：我们提出的用于物联网流量生成的知识增强GAN的图示设备类别和流量序列之间的相关性，以及3）捕获流量序列的长期和短期时间模式。为了满足这些要求，并避免模式崩溃，我们设计了一个全面的发电机，由三个子发电机，如图3所示。对于第一个要求，这三个子生成器通过条件机制彼此关联。对于第二个要求，我们将具有设备生成元GC和序列长度的条件机制发电机GM。对于第三个要求，GT使用具有自注意机制的LSTM来基于Ci和Mi生成流量序列Ti。条件机制。我们用条件机制来-将物联网网络结构和语义知识引入到生成的数据中，并捕捉设备类别对流量序列的影响。条件在以下公式中给出，首先，我们随机抽取一个设备di，将相应的KGE信息Ki作为条件输入到每个子生成器中，P K表示K的分布。然后，由GC产生的器件类别C_i服从P C_i K_i的分布，并与K_i和高斯随机噪声矢量Z_i一起送入GM和GT. 类似地，GM生成具有PMC，K的分布的Mi，并且Mi被馈送到GT以控制所生成的业务序列的长度。最后，G T在Ci，Mi和Ki的条件下生成Ti。因此，生成的样本O_i遵循PO_iK_i的分布。MLP生成器。我们使用多层感知器（MLP），sigmoid激活函数，以生成设备类别Ci和流量序列长度Mi。对于类别生成器GC，我们使用KGE信息Ki和噪声向量Zi作为输入，则生成的设备类别C_i是与总类别数具有相同维数的0 - 1归一化向量对于梯度计算，然而，类别生成器GC输出连续的结果，P（Oi，Ki）=P（Oi|Ki）·P（Ki）=P（Ci，Ti，Mi|Ki）·P（Ki）=P（T）|Ci，Mi，Ki）·P（Mi|Ci，Ki）·P（Ci|Ki）·P（Ki）.（二更）具有最大值的尺寸指示最终类别。对于序列长度生成器GM，生成的设备类别Ci和KGE信息Ki都作为条件向量被馈送到其中。噪声和条件向量映射到0 - 1值用于物联网流量生成的知识增强GANWWW3340−ˆOPr˜我我我j=BRQ·RD在线性层和S形激活函数之后然后，我们通过最大阈值Mmax将该值缩放到流量序列Mi的长度，该最大阈值M max可以从真实数据集计算或手动配置。LSTM Generator with Self-attention 为了捕获流量序列的长期和短期时间模式，我们采用LSTM网络[17]来生成流量序列Ti。LSTM是一种RNN架构，特别适合处理序列数据。在一个典型的LSTM单元中，序列中的每个记录都被映射到相应步骤中的隐藏内部状态，并与所有过去记录的模式然后，第j条记录与先前的j 1条记录相关地生成，并且通常需要M i个步骤来生成长度为M i的序列。尽管LSTM以记忆历史值而闻名，对于任意间隔，具有数千个维度的建模系列在效率和有效性方面具有挑战性一个常见的解决方案是将长序列分割成几个短序列作为独立的样本。然而，由于IoT设备具有可变长度的流量序列物联网流量生成任务中的插件。其次，设备类别C i是离散的真实数据集中的独热编码，但是所生成的设备类别Ci是连续的。所以我们使用Wasserstein距离[4]和梯度惩罚[16]同时处理连续和离散数据，这需要计算损失函数的二阶导数。由于深度学习模型中损失函数的二阶导数的计算在实践中很困难，因此MLP成为更好的选择。基于上述两个原因，我们采用总纲发展蓝图来处理这类问题。3.4损失函数和训练如3.3节所述，设备类别Ci在真实数据集中是离散的，而流量序列Ti中的值是连续的。为了同时处理连续和离散数据，我们在模型中使用Wasserstein距离[4]和梯度惩罚[16]，这也被证明可以有效地提高GAN的性能。损失函数如下，在生成任务中，对某些设备的业务进行分段而同时保持其它设备的完整性是不合理的。所以我们在每一步中生成B个样本Tk以提高效率，其中L=E奥普德[D（O）]−E[D（O）]+λEOPO.（<$OD（O）<$2−1）2.、（四）ˆˆjˆjˆji其中D（O）是实际样本O的判别结果，并且T k={Ai，Pi，Li}Bk（k−1）+1，k=1，2，. . . ，Q，Q=Mi/B。它P表示真实数据分布，D（O）表示判别需要Q步来生成长度为Mi的序列具体地，如图3所示，在第k步中，KGE信息Ki，生成的设备类别Ci和噪声向量Zk被馈送到生成的样本O<$r和P<$r的结果表示生成器分布，O<$r是沿着从真实和生成的数据中采样的对象对，D（O）为我好吧其判别结果与P代表了它的分布。此外，为了捕获一个样本的每个B个样本内部的相关性，步骤中，我们采用缩放点积自注意机制[38]。RK=ReLU（hkWK），RQ=ReLU（hkWQ），RV=ReLU（hkWV），O生成器被训练以使损失最小化，而辨别器-inator被训练来最大化它。我们使用mini-batch来提高训练效率，并且在每次迭代中训练生成器之前，先训练几次迭代器。详情载我我不Tk =sof tmax（K）·RV·Ws。在附录B中。4实验（三）为了验证所提出的生成模型，我们获得了一个真实的世界到三个表示（即，关键hi映射RK、查询RQ和值RV）物联网流量数据集，在数据保真度和应用价值方面将我们的模型的性能与五个基线模型进行比较通过线性投影。然后，我们计算查询所有键，并通过softmax activate函数计算值的权重，然后通过键的维度对产品进行归一化。最后，这些值被映射到B个样本讨论了小数据集上训练模型的知识增强效果。4.1数据集以上重量。在Q步之后，生成的样本{Tk}Q被重塑为Ti={j吉吉美里ik=1我们从中国最大的移动网络运营商之一获得了为期三天的物联网流量Ai，Pi，Li}j=1。请注意，交通系列生成器GT具有单个LSTM单元和自注意层。图3所示的扩展结构代表生成中的Q步骤。3.3鉴别器我们考虑两个主要因素，在设计的CNOD。首先，在GAN中，生成器和训练器的训练过程是交替的和对抗的，这表明明显更强的生成器或训练器会导致失败。特别地，生成任务比用于IoT业务的区分任务更复杂，这需要比用于模型设计的生成器更强大的生成器，并且MLP足以用于模型设计。不同的物联网平台，如物流和车辆管理平台。这些设备适用于多种物联网应用和服务，我们搜索各种数据以收集其基本信息并提取数据集。除网络流量外，我们参考全球移动通信系统联盟（GSMA）分配的类型分配代码、相关网站上的产品描述、制造商提供的官方文件或用户指南以及分销商提供的产品描述或说明最后，这些设备被分为图4所示的十个类别，涵盖了物联网设备的常用功能。与设备类别相似，流量序列的长度和其他三个特征都处于严重不平衡的分布上，这需要生成WWWHui等人3341¯j我不jjjjjj不=（C，A，P，L，）i、我不Ti}j=1intoO--={Ti}j=1。{我模型来学习具有有限训练样本的“长尾”特征，详情见附录C。JSD血腥美食系列长度到达时间区间分组号平均数据包长度4.2性能比较我们从两个角度比较了我们提出的模型与基线模型的性能。首先，我们评估（b）在第（1）款所述期间，HMMLSTM0.34452019年12月31日通过Jensen-Shannon散度（JSD）生成数据天真0.05582009 年12月31日生成的数据和真实数据的分布然后，我们进行GAN对生成的数据集进行案例研究，以验证其在Doppel-0.05312016年12月31 日应用程序.GANger非KGE 0.06262017年12月31日4.2.1基线。我们将我们提出的模型与以下模型进行比较-非-0.03812019年12月31日五条基线：自回归（AR）[12]。典型的AR模型生成根据先前的j-1个记录，连续地生成第j个记录，只能生成具有固定长度的序列因此，我们表示=（Ci，T，Mi）=（Ci，A，P，L，F），其中F = 1 if j

下载后可阅读完整内容，剩余1页未读，立即下载