没有合适的资源?快使用搜索试试~ 我知道了~
3390我在听你的位置!通过声学侧信道推断用户位置 �0韩国大学,韩国,jyb9443@korea.ac.kr0韩国大学,韩国,k.minchul95@gmail.com0韩国大学,韩国,aitch25@korea.ac.kr0成均馆大学,韩国,hyoung@skku.edu0三星电子,韩国,junho.huh@samsung.com0韩国大学,韩国,jiwon_yoon@korea.ac.kr0摘要0电网频率(ENF)信号具有常见的模式,可以用作识别视频和声音的录制时间和位置的签名。为了实现成本效益高、可靠和可扩展的位置推断,我们创建了一个代表全球数百个位置的ENF信号参考地图,从在线多媒体流媒体服务(如YouTube和Explore)中提取真实的ENF信号。基于这个ENF信号参考地图,我们提出了一种新颖的侧信道攻击,可以识别目标视频或声音的录制或流媒体的物理位置。我们的攻击不需要任何昂贵的ENF信号接收器,也不需要在受害者设备上安装任何软件,我们只需要录制的视频或声音文件来执行攻击,这些文件是从全球范围内收集的。评估结果显示,当音频文件长度达到5分钟或更长时,我们的攻击可以推断出录制音频文件的网格内位置,准确度达到76%。我们还展示了我们提出的攻击在实际VoIP应用中使用的音频编解码器处理一定失真范围内的视频和音频数据时仍然有效。0CCS概念0• 安全和隐私 → 隐私保护;0关键词0电网频率,位置跟踪,侧信道分析0ACM参考格式:Youngbae Jeon,Minchul Kim,HyunsooKim,Hyoungshick Kim,Jun Ho Huh和Ji WonYoon。2018年。我在听你的位置!通过声学侧信道推断用户位置。在WWW2018:2018年Web会议上,2018年4月23日至27日,法国里昂。ACM,纽约,纽约,美国,10页。https://doi.org/10.1145/3178876.31861000� 本研究得到韩国大学的特别研究资助(资助编号:K1711541)0本文发表在知识共享署名4.0国际(CC BY4.0)许可下。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW2018,2018年4月23日至27日,法国里昂© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.318610001 引言0随着全球高速互联网的普及,许多允许人们在线语音和视频聊天的VoIP应用程序,如Facebook Messenger [15],Skype [2]和WhatsApp[28],已经出现并变得流行起来。此外,许多在线流媒体服务,如YouTube [55],Facebook Live [14],Twitter的Periscope [48]和Twitch[46],也变得流行起来。然而,此类VoIP应用程序或流媒体服务可能引发隐私问题。对于VoIP应用程序,一些用户,例如参与秘密会议、匿名举报或一般进行秘密聊天的用户,即使他们没有意识到位置隐私威胁,也必须匿名化他们的身份和位置。一些研究[3,17]表明,位置信息可以揭示用户的敏感信息。因此,一些服务已经尝试匿名化或混淆用户的实际位置。例如,Skype作为最广泛使用的VoIP应用程序之一,最近更新了其默认应用程序设置,使用代理服务器隐藏用户的IP地址[32]。流媒体服务中也普遍存在位置隐私问题。那些在家中进行广播和直播的人的安全可能受到威胁,因为跟踪者或潜在的不适当的粉丝可能会找到他们的受害者,并亲自拜访受害者的私人场所。因此,大多数流媒体服务可能不仅隐藏内容创作者(或广播者)的IP地址,还隐藏有关他们的任何其他与位置相关的信息。像Twitch这样的流媒体服务已经使用匿名策略来隐藏用户的网络地址[47]。然而,研究人员已经提出了各种破坏位置隐私的方法。例如,PowerSpy[38]是一种只需测量手机的总功耗就可以推断手机位置的技术。此外,在另一项关于Android手机的研究中[39],只需使用陀螺仪、加速度计和磁力计等传感器就可以推断位置,而不需要任何权限。在本文中,我们提出了一种基于“使用电网频率生成的签名进行位置推断”的新型侧信道攻击技术。与之前需要在受害者设备上安装特定恶意应用程序的工作[38, 39,53]不同,LISTEN攻击可以使用已经在使用的流行VoIP应用程序或在线流媒体服务来执行。事实上,执行攻击所需的唯一部分是目标多媒体文件。为了实施LISTEN攻击,攻击者通过受害者的麦克风收集从受害者设备传输的电网频率(ENF)信号,并分析这些信号来推断受害者的位置。ENF是电力配电网络中的供电频率。通常,ENF信号主要在特定频率(50Hz或60Hz)下捕获。此外,ENF信号的波动模式在时间和空间上非常相似,因为这些模式受到同一电网中供电和需求之间的差异的高度影响[21]。由于这些波动具有时空特征,它们可以用作识别受害者的时间位置的签名[5, 6,20, 21, 27, 36, 40,43]。使用ENF信号进行位置识别的技术已经进行了多年的深入研究。这些研究使我们能够确定从哪个电网提取了ENF信号[25,26],并在网格内获得精确的位置信息[18,24]。然而,现有的ENF处理技术[18,24]不足以实现LISTEN攻击。通常,它们无法实时推断受害者位置的地理位置信息。此外,尚不清楚应该如何从VoIP应用程序或流媒体服务中使用的音频和/或视频流媒体数据中正确提取ENF信号,这对于在实际环境中执行LISTEN攻击是必要的。在我们的工作中,我们提出了一种可以处理这些问题的新方法。我们总结我们的贡献如下。0Track: Security and Privacy on the Web WWW 2018, 2018年4月23日至27日,法国里昂streaming services that are already being used. In fact, the onlypiece needed to perform the attack is a target multimedia file.To implement the LISTEN attack, an attacker collects electricalnetwork frequency (ENF) signals transmitted from a victim’s devicevia her microphone, and analyzes them to infer the victim’s loca-tion. ENF is the supply frequency of electrical power in electricitydistribution networks. In general, the ENF signals are mostly cap-tured in a particular frequency, either 50Hz or 60Hz. Moreover, thepatterns of fluctuations of ENF signals are very similar at time andspace because those patterns are highly influenced by the differencebetween power supply and demand in the same power grid [21].Since the fluctuations have spatial and temporal characteristics,they can be used as signatures to identify the victim’s temporallocation [5, 6, 20, 21, 27, 36, 40, 43].The location identification techniques using the ENF signalshave been intensively studied for several years. These researchesallow us to figure out which power grid the ENF signals extractedfrom [25, 26], and also obtain the precise location informationwithin the grid [18, 24]. However, the existing ENF processing tech-niques [18, 24] are not sufficient to implement the LISTEN attack.In general, they failed to infer geographical location informationabout a victim’s place in real-time. Furthermore, it was not clearhow the ENF signals should be well extracted from audio and/orvideo streaming data used in VoIP applications or streaming ser-vices, which is necessary for performing the LISTEN attack in apractical setting.In our work, we present a novel approach which can handlethese matters. We summarize our contributions as follows.3400•我们提出了一种新颖的位置隐私攻击方法,通过从用于VoIP应用程序或在线流媒体服务的多媒体流数据中提取的ENF信号来推断受害者的位置。我们的ENF信号收集方法比现有方法[7, 31, 33,52]要便宜得多,因为我们仅从包含记录的多媒体流数据位置信息的在线流媒体服务中收集音频信号,而不使用任何昂贵的硬件。此外,我们的攻击不假设在受害者设备上安装任何额外的恶意应用程序,除了VoIP应用程序或目标在线流媒体服务的客户端应用程序。•我们在实际环境中评估了所提出的攻击的性能。评估中使用了理论参数和音频通道的实际环境,结果显示我们的方法在40分钟长的音频的网格间估计方面提供了90%的准确度,并且在5分钟长的音频的网格内估计方面提供了76%的准确度。0本文的其余部分组织如下。第2节介绍了如何从在线多媒体流数据中获取ENF信号并用于位置跟踪。第3节描述了通用的攻击模型,第4节深入介绍了提出的LISTEN攻击。第5节介绍了攻击评估结果,第6节讨论了这些结果。第7节总结了与我们的工作相关的先前研究。我们的结论在第8节。02 背景0本节解释了从音频和视频文件等多媒体数据中提取ENF信号以及构建感兴趣位置的ENF地图所涉及的过程。02.1 电网频率(ENF)0ENF是电力分配网络中电力供应的频率。ENF信号通常由电力供应系统的稳压器嵌入到特定频率中[22];根据地理位置使用50Hz或60Hz频率。欧洲和中国使用50Hz的交流电,而美国和加拿大使用60Hz。然而,在现实世界中,ENF信号存在小的波动-这是因为供电和给定时刻的功率需求之间存在差异[21]。ENF信号中存在的这些小变化已经在许多应用领域中得到利用,包括异常事件检测[7]、电力干扰[22,33,52]和数字取证[6,21,27,36,42]。为了达到这个目的,许多研究人员尝试了各种方法来获取准确的ENF信号。获取ENF信号的一种方法是使用专门的物理电气设备,如智能电网中使用的相量测量单元类型的频率干扰记录仪(FDR)[56]。ENF信号也可以从音频和视频文件等多媒体数据中获取[21,23,33,34,44,52],如图1所示。该图展示了在欧洲录制的音频文件的频谱图。这个频谱图是使用短时频率变换(STFT)技术获取的,用于捕捉非平稳的ENF信号。如图所示,存在大约100Hz附近的波动。0图1:100Hz附近的ENF频谱图02.2 从多媒体中提取ENF信号0如果可以从多媒体数据中获取ENF模式,那将非常有用,因为它不需要任何昂贵的物理设备。然而,从音频和视频文件等侧通道构建的ENF模式通常比直接从FDR设备获取的模式具有更低的信噪比(SNR)。因此,需要应用先进的信号处理技术来减少或消除不需要的噪声。ENF信号提取过程主要包括以下四个步骤。02.2.1降采样和分帧。将多媒体数据降采样到1kHz以节省存储空间,我们创建了数据序列的帧,每个帧与前一个帧的一半重叠。每个帧包含8192个样本,这个概念来自STFT技术。01ENF的基频为50Hz,但我们绘制了100Hz,因为多媒体数据中50Hz的ENF模式不如100Hz的清晰。0Track:Web上的安全与隐私WWW 2018,2018年4月23-27日,法国里昂3410每帧中的抽样率为1kHz,每帧包含4096个样本,每个样本与前一个样本的一半重叠。这个概念来自STFT技术。02.2.2应用二次插值快速傅里叶变换(QIFFT)技术。下一步涉及将QIFFT技术应用于每个帧。当帧大小较小时,需要改进ENF信号估计的分辨率[24]。该步骤旨在从每个帧的给定频率中找到ENF信号的最大值。将带通滤波器应用于从给定频率域截断不必要的频率范围,以获得最大值。然后,我们对每个帧应用快速傅里叶变换(FFT)技术,通过从帧到帧移动,跟踪最大值的索引来识别最高频率值。然而,在这种情况下,最大(峰值)频谱值的估计比分辨率估计不精确,因此在完成FFT过程时,我们应用二次插值技术[10,24,29]。也就是说,我们可以在组合的频谱上搜索插值峰值,并使用QIFFT将它们连接起来[1,9],因为从数百个多媒体中快速提取信号的STFT计算太重。为了获得完美的最大值,采样率应该是无限的,但由于这是不可能的,我们可以通过使用最大频率值附近的值来近似信号到二次公式,从而获得更好的估计。02.2.3使用多音调谐波增强ENF信号。此外,我们可以在图2中的频谱图中找到几条水平线,显示出类似的ENF信号振荡模式。这些信号被称为谐波信号。通过在频谱图上同时处理基频率和谐波频率2的ENF信号,可以获得更准确的ENF信号。多音调谐波方法使用基频率和谐波频率来探索ENF频谱中的峰值位置。在这种多音调谐波方法中,应用最大似然估计技术来处理谐波信号,使用Cramer-Rao界限来估计频率误差,以显示ENF信号的估计精度可以提高约10-15微赫兹[4]。因此,为了增强频域中ENF模式对不相关噪声的抵抗,通过将基频率和谐波频率的所有频谱图相加,得到多音调谱。使用的谐波信号越多,ENF信号估计的准确性越高。0图2:基频和谐波频率的ENF信号02 音调ENF信号以通过将整数乘以基频率[4]计算得到的频率捕获。02.2.4阈值依赖中值滤波器(TDMF)。在多音调估计之后,我们在最终的ENF信号上使用阈值依赖中值滤波器(TDMF)。中值滤波器是一种保留正在处理的信号的局部性的非线性滤波器。与线性均值滤波器相比,中值滤波器更喜欢降低噪声水平的方式。即使我们同时使用多音调估计和中值滤波器,如果给定的ENF信号很弱且具有相对较低的频谱,我们将无法识别到最大峰值(ENF信号)。这样的弱ENF信号可能会误导,包含严重的异常噪声水平。为了消除异常噪声,我们采用了阈值截断方法-这种方法称为阈值依赖中值滤波器(TDMF)。02.3 构建ENF地图0为了构建一个可以涵盖许多应用领域的综合地图,需要从各种在线流媒体源收集和处理ENF信号。然而,建立这样一个庞大的ENF地图将需要大量的工作和预算。需要购买、安装和管理能够捕获ENF信号的专门物理设备,如频率干扰记录仪(FDR)[52]。部署和持续监测这样的物理设备以覆盖所有感兴趣的区域是不切实际和昂贵的。最近,引入了一种高效的方案来构建全国范围的ENF地图,而不需要购买和安装昂贵的物理设备[23]。我们可以自动从在线多媒体服务(如“EarthCam [13]”和“Ustream[11]”)中抓取全球范围的ENF信号,从而大大减少了创建地图所需的成本、时间和工作量。然而,由于从在线源抓取的ENF信号通常不够清晰,需要应用其他信号处理技术。03 威胁模型0我们假设在受害者的设备上安装了一个内置或附加的ENF捕获设备(例如交流麦克风)的服务应用程序。该应用程序没有权限访问GPS或任何其他位置信息(例如蜂窝基站和WiFiAP)。安装的应用程序仅用于从受害者的设备捕获ENF信号,并通过互联网将捕获的ENF信号传递给攻击者的设备。在这种环境中,攻击者的目标是通过分析接收到的ENF信号推断受害者的地理位置。在许多实际情况下,这样的环境似乎经常出现。这是因为当录音设备连接到稳定的电力电网时,可以从录制的音频和/或视频信号中提取ENF信号[21],这表明其处于连接状态。请注意,仍然广泛使用连接到电网的麦克风来改善录制音频文件的音质。例如,我们发现约36%的Twitch用户使用连接到电网的麦克风。因此,如果应用程序只能在受害者的设备上记录音频和/或视频信号并访问记录的音频信号,则攻击者可以收集从受害者设备生成的ENF信号。实际上,受害者经常通过音频和视频共享网站(例如YouTube,FacebookLive,Twitter的Periscope和Twitch)自己与他人共享自己创建的内容。0Track: Security and Privacy on the Web WWW 2018, April 23-27, 2018, Lyon, France3420在这种情况下,包括攻击者在内的任何人都可以简单地下载嵌入在音频和/或视频信号中的ENF信号。此外,如果攻击者使用VoIP应用程序与受害者进行通信,则攻击者可以自然地记录受害者的音频和/或视频信号并接收它们,而无需在受害者的设备上需要任何特殊权限。我们注意到,即使通过匿名系统(例如Tor网络[37])隐藏了网络标识符(如IP地址),我们的攻击场景仍有可能适用,因为攻击者不需要从受害者那里获取额外的信息,除了传输的录制音频和/或视频信号。04 LISTEN攻击0因为ENF信号可以用作时空签名,LISTEN攻击的主要目标是仅通过ENF信号(侧信道信息)识别受害者设备的位置。攻击主要包括三个连续的过程:(1)使用互联网上的在线流媒体数据构建ENF地图,(2)从目标设备中提取可靠的ENF信号,以及(3)位置估计。04.1 使用互联网上的在线流媒体数据构建ENF地图0LISTEN攻击的第一步是爬取和抓取几个预选在线多媒体服务的音频流。一些多媒体服务的音频和视频流包含录制位置信息,包括纬度和经度信息。我们选择了“EarthCam”[13],“Explore”[16]和“Skyline”[50]作为三个在线来源,因为这些音频和视频数据是由交流电(AC)供电的设备产生的。第二步是执行一系列信号处理技术[23]:(1)检查抓取的音频流是否包含ENF信号,(2)通过降噪提取清晰的信号,(3)使用信号对齐技术在给定的时间域上对不完整和部分信号进行对齐,以及(4)使用收集到的邻近ENF信号对未覆盖区域的ENF信号进行插值。我们将收集到的ENF信号称为锚节点,并将其用作插值的来源。通过将它们与插值的ENF信号进行比较,这一步骤使我们能够从受害者的ENF信号中推断出精确的位置。插值的ENF地图的有效性可以从ENF扰动传播速度是有限的事实[18,24]来理论上解释,并且使用了逆距离加权(IDW)插值技术[23,35]进行了证明。04.2 当使用VoIP服务时从受害者中提取ENF信号。0创建ENF地图之后,下一个过程是选择一个目标受害者,并从受害者的设备或录制的声音中提取ENF信号。这个过程类似于第2.2节中收集ENF信号的方式,但由于需要考虑各种通信系统和环境,所以需要更复杂的算法。例如,受害者可能使用流媒体不可靠的ENF信号的VoIP服务,如图3所示。这样的信号可能会失真并带有大量噪音。0严重失真的ENF信号无法用于位置估计。0图3:用于VoIP应用程序和在线流媒体服务的IP网络音频流架构。用于构建ENF地图的可靠数据来自在线流媒体服务;从受害者设备录制的声音在可能存在数据包丢失的音频通道上接收。0因此,根据“频率响应”,“时间延迟”,“延迟抖动”和“数据包丢失”,需要明确指定音频通道的状态。这些代表了评估音频通道质量的定量指标。在下面的段落中,我们描述这些指标以及攻击者如何减轻这些问题的技术。04.2.1频率响应。从受害者设备录制的音频在通过音频通道时可能会经过滤波或放大。如果(由于某种原因)删除了受害者的ENF信号,则无法从这样的音频文件中构建ENF信号。由于人类可听频率范围为20Hz至20kHz,许多音频编解码器标准包括带通滤波器,以便在有限的数据速率下进行更好的压缩和更高的质量[30]。例如,在Skype的情况下,VoIP应用程序使用自己的名为SILK的编解码器[51]。SILK的压缩过程使用高通滤波器,截止频率为70Hz[51]。由于ENF信号的基频为50或60Hz,SILK将对其进行滤波。为了解决这个问题,我们使用第2.2节中显示的多音估计[45]。我们使用具有100Hz频率的谐波信号作为第一个频率50Hz的频率,或者使用具有120Hz频率的谐波信号作为第一个频率60Hz的频率,或者更高。04.2.2时间延迟和延迟抖动。由于我们将受害者的ENF信号与基于已知位置(签名)的ENF地图进行比较,因此我们需要知道ENF信号提取的确切时间。因此,任何时间延迟都是必要的并且需要知道。如果VoIP使用提供确切时间延迟信息的信令协议,则可以轻松获取记录的时间。然而,可能有一些情况下很难找到确切的时间。在这种情况下,我们必须通过计算从目标节点提取的ENF信号与锚节点的ENF信号之间的归一化相关系数来估计时间延迟。在确切的时间对齐处,交叉相关系数将具有最高值。这个计算必须在ENF信号被分帧之前的大约每8秒进行一次。在这里,每个帧有8192个样本。抖动,即数据包延迟变化,也是音频通道质量的指标之一。当VoIP延迟频繁变化时会发生抖动:发送方以固定间隔发送数据包,但接收方以不规则的间隔接收数据包。0Track: Security and Privacy on the Web WWW 2018, April 23-27, 2018, Lyon, France3430接收器不规则地接收数据包。已知VoIP或流媒体服务中的音频编解码器可以减少抖动[30]。由于这种抖动减少会产生自己的时间延迟,所以时间对齐是唯一的关注点。04.2.3数据包丢失。数据包丢失是另一个重要因素,因为ENF信号无法在信息丢失的情况下构建。如果服务使用可靠的协议,当检测到数据包丢失时,我们可以向服务器请求“数据包重发”。否则,丢失的数据无法恢复。特别是,实时语音聊天服务通常使用P2P协议,这是不可靠的通道,不支持数据包重发。让我们考虑一个常见情况,受害者使用笔记本电脑和Wi-Fi连接进行语音聊天。由于许多流媒体或VoIP服务使用UDP进行实时服务,如果Wi-Fi通信信道不可靠,可能会发生数据包丢失。根据[49]中进行的调查,普通VoIP用户的数据包丢失率约为2%或更低。为了解决这个数据包丢失问题,可以通过在给定频域中在剩余ENF值之间执行线性插值来估计空信号。04.3 两步定位估计0LISTEN的最后一个过程是推断受害者的隐藏位置。该过程包括两个步骤:跨网格估计和网格内估计。由于从整个ENF地图中估计精确位置是耗时且困难的,我们首先应用跨网格估计来选择候选电网。在选择了某个电网之后,LISTEN攻击执行网格内估计,通过匹配电网的ENF地图和给定受害者的ENF信号来推断所选电网中的精确位置。为了在贝叶斯框架中进行更正式的定义,我们需要两个随机变量lA用于标识特定电网和lB用于定位特定位置。虽然lA是一个离散随机变量,其中lA ∈ {1, 2, ∙ ∙ ∙ , G},G是电网数量,lB是一对连续随机变量lB = (a,b),其中a和b分别是经度和纬度。用M表示使用在线多媒体流媒体服务构建的ENF地图。LISTEN攻击的目标是通过l�B = arg lB max p(lB |M,θ)计算最大后验(MAP)估计,其中θ是一组模型参数。然而,ENF模式与其对应的电网高度相关,因此后验概率可以通过p(lB | M, θ) =∑Gд=1 p(lB, lA = д | M, θ) = ∑Gд=1 p(lB | lA = д, M, θ) p(lA = д| M, θ)进行重构,并且可以通过如下方式进行重构:0p(lB | M, θ) ≈ p(lB | lA = д�, M, θ) (1)0其中д� = argд max p(lA = д | M,θ)。在这里,注意到方程(1)可以推导出来,因为不同的lB不能具有相同的lA。因此,我们通过以下两步位置估计进行推断:0(1) l�A = arg lA max p(lA | M, θ) 用于跨网格估计。(2) l�B = arglB max p(lB | lA = l�A, M, θ) 用于网格内估计。04.3.1跨网格估计。跨网格估计是关于发现收集到的ENF信号来自哪个电网的问题。我们对跨网格估计的假设是,如果两个不同的ENF信号来自同一个电网,它们的振荡模式可能是相似的。0为了通过分类来定位多个电网上的ENF信号,我们应用了距离加权的k最近邻算法。在为收集到的锚节点集合标记位置信息之后,我们确定具有反比权重的k个最近邻节点。这里,k是根据收集到的ENF信号数量来选择的用作锚节点的数量。04.3.2网格内估计。网格内估计定位在电网内捕获的ENF信号的点。网格内估计是直接的,因为ENF地图的每个单元格已经被插值(参见第2.3节和第4.1节)。为了从给定的电网中估计内部位置,我们计算单个网格中插值信号的时间序列序列与受害者的ENF信号之间的欧氏距离。与使用信号的相关系数进行测量相比[18,24],欧氏距离方法是一种更直观的衡量给定信号相似性的方式,并且计算时间更短。然而,这种方法仍然很有用,因为它可以可视化显示推断出的位置(见图4)。颜色映射表示插值ENF序列与受害者提取的ENF信号序列之间的距离。通过相似性度量,颜色映射的红色区域表示插值序列与提取序列相距较远,黄色区域表示它们相距较近,信号很可能是从那里提取的。0图4:目标ENF序列与美国东部电网中插值序列之间的欧氏距离。十字('X')点表示实际采集的信号。红色区域表示与目标信号相距较远,黄色区域表示相距较近。0为了评估位置推断攻击的准确性,目标区域的相似性颜色映射被分成n个相等面积的部分,其中n是ENF信号样本的数量。术语“边界”用于分隔和区分每个区域。攻击准确性定义为实际位置包含在第s个边界内的概率,其中s ∈ {1, 2, ∙ ∙ ∙ ,n}。随着边界s的顺序增加,攻击准确性也增加。例如,在图4中,十字标记('X')表示捕获ENF信号的位置。如果我们通过选择n个最高边界概率中的第一个来选择ENF存在边界(s =1),得到的预测可能是错误的;如果我们通过选择第二个最高边界概率(s = 2)来设置边界,得到的预测更有可能是正确的。0Track: Security and Privacy on the Web WWW 2018, 2018年4月23日至27日,法国里昂34404.3.1跨网格估计。跨网格估计是关于发现收集到的ENF信号来自哪个电网的问题。我们对跨网格估计的假设是,如果两个不同的ENF信号来自同一个电网,它们的振荡模式可能是相似的。05 评估0本节介绍了LISTEN攻击的性能评估结果。我们使用三种不同的音频通信环境计算了跨网格估计和网格内估计的准确性(在第4.3.1节和第4.3.2节中描述)。为了进行这个实验,我们首先从在线流媒体服务收集音频流。然后,我们通过将它们通过虚拟化音频通道传递来扭曲音频流,以模拟真实世界的通信。因此,实验根据用于扭曲流数据的音频通道中的以下三个条件进行分类:0(1)无失真原始音频流:该实验直接使用从在线多媒体获取的原始音频流。也就是说,通信信道完全可靠,音频通道没有错误和失真;(2)Skype+VPN:该实验使用通过虚拟专用网络(VPN)扭曲的音频流。在这种情况下,流数据可能受到不希望的影响,如数据包丢失、滤波器信号去除和时延。(3)Torfone:在Tor网络上使用VoIP应用程序。由于Torfone使用其专有编解码器进行实时通信,音频流通常会出现失真。尽管Tor网络使用TCP协议,但流数据可能受到不希望的因素的影响,如滤波器信号去除和时延引起的抖动。也就是说,Torfone中的数据丢失是通过Torfone的编解码器而不是通过Tor网络发生的。0我们在第5.1节中描述了这些实验设置,并在第5.3节和第5.4节中展示了跨网格估计性能和网格内估计性能。05.1 实验设置05.1.1 PC和软件规格。我们使用了两台配备Intel(R) Xeon(R) CPUE5-2609 0 @ 2.40GHz、64GB RAM和Ubuntu 16.04.1LTS(64位)操作系统的计算机。我们使用Python作为编程语言,并使用名为“ffmpeg”的Linux模块从流媒体服务中抓取和降低视频和音频数据。数据分析使用MATLAB进行。05.1.2虚拟化音频通道中使用的数据集。为了模拟包含噪声的真实世界通信,我们使用虚拟化音频通道进行了三个实验。为了构建虚拟化音频通道,我们直接从通过互联网访问的在线流媒体服务中爬取和抓取音频流数据。这些在线流媒体服务列在表1中。我们从Earthcam、Explore和Skyline收集了总共99个音频流数据,因为它们的音频流数据包含精确的纬度和经度信息。为了稳定存储和高效处理收集到的流数据,我们将一个小时长的wav扩展文件分辨率降低到1,000Hz的音频流,占用约10MB的磁盘空间。0表1:视频流媒体服务的环境因素。我们使用了Earthcam、Skyline和Explore的音频流,它们提供位置信息。它们嵌入了高存在率的ENF信号。0ENF服务类别样本存在率(%)0Earthcam[13]景观85.29 360天际线[50]景观95.16 390Explore[16]自然70.59 2405.1.3Skype+VPN和Torfone。为了衡量在嘈杂的音频通道上进行LISTEN攻击的有效性,我们考虑了使用不可靠音频通道的两个示例:Skype+VPN和Torfone。两个通道的环境条件如表2所示。0表2:Skype和Torfone的环境条件。Skype的SILK编解码器作为一个高通滤波器,其截止频率为70Hz。Torfone支持各种常用的语音编解码器,包括GSM。0应用延迟(毫秒)编解码器数据包丢失率(%)0Skype+VPN�400 SILK 1.23 Torfone�2000GSM 50Skype是最广泛使用的VoIP服务之一,使用点对点协议建立互联网电话网络。由于这种点对点特性,Skype会自动(默认情况下)将参与者的IP地址透露给彼此。因此,喜欢匿名使用Skype的人通常使用VPN或Tor等位置隐藏方法。然而,由于VPN或Tor通常会降低连接速度,使用VPN进行VoIP也会增加延迟时间。本实验旨在测试在应用了频率滤波器和一定延迟的情况下是否可以提取和恢复ENF信号。我们选择的另一个通道是Torfone。Torfone是一种VoIP应用程序,使用洋葱域3作为ID,并通过Tor网络连接用户。与Skype不同,Torfone为用户提供了几种语音编解码器选项。Torfone支持ADPCM、GSM、Codec2和其他常用语音编解码器。在考虑到候选编解码器的流行度后,我们选择了GSM进行实验。05.1.4模拟VoIP客户端A(呼叫者)的虚拟化音频通道。为了可靠地运行实验,除了传输数据的通道之外,所有条件都需要保持一致。然而,同时运行各种通道会导致意外的副作用,如增加数据包丢失或延迟时间。此外,很难再次运行实验进行验证。在这样的实验设置中,不可能再次生成完全相同的外部声音,并且在模拟过程中遇到白噪声的风险。03洋葱域是洋葱网络的域名[19],它实现了匿名通信。这也被称为洋葱路由(TOR)网络。0Track: Security and Privacy on the Web WWW 2018, April 23-27, 2018, Lyon, France(1)(2)(3)3450环境条件。因此,由于无法复制Skype+VPN和Torfone中的确切音频声音的不可操作性,这种实验设置似乎是不切实际的。0图5:为了从远程主机模拟VoIP客户端A(呼叫者),我们首先从流媒体服务器获取音频数据,并将音频文件直接输入到VoIP软件中。为了排除物理设备的意外影响,所有麦克风和扬声器操作都使用虚拟化技术进行处理。通过将实验分为两个部分 -收集音频文件和实际运行VoIPS/W,我们可以增加再现性而不失去细节。0为了解决这个问题,我们使用了一种音频虚拟化技术,将声音(从音频文件)重定向到计算机的麦克风。考虑到麦克风和扬声器的工作方式相似,可以将扬声器的输出(声音信息)重定向到麦克风的输入。然后,麦克风将获得与扬声器输出相同的声音输入数据,没有任何声音损失和白噪声。因此,呼叫者将执行两个连续的步骤。首先,他或她将从多媒体流媒体服务器接收音频文件,并将这些文件重定向到VoIP软件。因此,实际的最终实验设计如图5所示。这种最终的实验设置比仅仅将扬声器放在麦克风旁边并物理重放音频文件更有效和高效。在这样的设置中,存在两个关键风险:(1)我们无法保证扬声器的声音完全传输到麦克风而没有数据丢失,(2)噪声干扰是不可避免的。然而,通过我们的音频虚拟环境,不会添加噪声,也不会丢失原始信息,因为它在录制完成后阻止物理环境干扰。通过简单地从语音发送服务器重放音频文件,我们可以轻松改变通道条件,而不会改变传输的声音。除了VoIP通道之外,我们的所有实验都在相同的条件下进行。05.2音频流中ENF信号的存在性0在上述实验设置中,我们首先检查了在线流媒体数据中ENF信号的存在性 -即使VoIP应用程序的流媒体数据是通过嘈杂的音频通道传输的(Skype通过VPN和Torfone通过Tor网络)。本节介绍Skype通信结果和Torfone结果。人们通常可以听到20Hz到20,000Hz的声音,但这并不意味着该范围内的每个频率都构成人声。由于有一定的频率范围主要构成日常生活声音,包括人声,许多VoIP软件在声音数据中应用特殊滤波器以提供更好的通话质量。为了可视化音频通道中滤波器的效果,图6在左侧子图中绘制了1D频谱图和2D频谱图。0图6:捕获的音频流数据的FFT结果和频谱图。左侧图显示了原始音频流(1)、Skype(2)和Torfone(3)的FFT结果;右侧图显示了它们的频谱图。在通过Skype的音频通道(2)后,基频处的基本ENF信号(绿色区域)不可见,但谐波仍然可见(紫色区域)。在Torfone的FFT结果(3)中,谐波和基频ENF信号也可见。0在右侧子图中。顶部、中部和底部的子图分别代表(1)原始音频流(无失真),(2)Skype+VPN和(3)Torfone。透明着色区域有两种类型。绿色区域位于基频范围,紫色区域位于多重谐波频率范围。如图6-(2)所示,Skype的ENF信号特别被滤除了�70Hz的频率范围。由于Skype滤除了低于70Hz的频率区域,ENF在60Hz区域的基频被去除和抑制。也就是说,由于基频处没有ENF信号的存在,LISTEN攻击无法成功。然而,我们可以通过组合
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功