没有合适的资源?快使用搜索试试~ 我知道了~
1基于可逆生成模型的视频隐藏HyukryulYang*欧阳浩 *VladlenKoltun IntelLabs陈启峰摘要我们提出了一种方法,用于隐藏音频文件内的视频内容,同时保持封面音频的感知保真度 这是一种跨模态隐写术,由于视频的高比特率,这是特别具有挑战性的。我们的方案使用了基于流的生成模型的最新进展,该模型能够将音频映射到潜在代码,使得附近的代码对应于感知上相似的信号。我们证明了压缩视频数据可以隐藏在音频序列的潜码中,同时保持隐藏视频和覆盖音频的保真度。我们可以将128x128的视频嵌入到相同时长的音频中,或者将更高分辨率的视频嵌入到更长的音频序列中。定量实验表明,我们的方法优于相关基线的隐写容量和保真度。1. 介绍考虑一个活动家,他需要公布一个镇压政权下侵犯人权的该政权监控着进出该国的通讯激进分子怎么能在不被发现的情况下传输视频?隐写术领域研究用于在诸如图像、视频和音频的媒体内隐藏信息的技术隐写术的目的是隐藏公开传输文件中的秘密内容[29]。在这项工作中,我们考虑的可能性,隐藏视频内容的音频文件。这推动了边界隐写术,其通常处理隐藏文本消息或嵌入与封面文件相同类型的媒体图像中的图像)[25]。我们选择隐藏视频是因为其在描述和通信方面的有效性(例如,1992年洛杉矶骚乱是由警察暴行的录像带引发的。我们选择音频作为封面媒体,因为音频比文本或图像文件具有更高的嵌入能力,并且因为CLYP和YourListen等音频共享平台不会对音频文件进行转码,这简化了文件内内容的嵌入[37]。* 联合第一作者将视频隐藏在音频中,同时保持秘密和封面媒体的保真度,这是非常困难的。 考虑隐藏一秒128 ×128颜色视 频 在 一 秒 的 音 频 与 22K 样 本 。 一 秒 钟 的 视 频 有128×128×30×24= 12M比特,比音频样本多一个数量级Al-尽管已经提出了用于隐写术的各种传统和深度学习方法[3,41],但是将这些技术直接应用于我们的设置将需要超过五分钟的音频来吸收一秒的视频。我们的目标是更有效的嵌入,例如将视频片段隐藏在相同长度的音频片段中。(One 1秒的视频在1秒的音频内。我们的隐写方案隐藏视频音频建立在基于流的生成模型。具体而言,我们使用WaveGlow,这是一种可逆生成模型,可计算音频信号和潜在变量之间的双射映射[33]。尽管该模型是可逆的,但是从编码音频重构的潜在变量可能不完全相同。由于浮点运算中的数值误差,重构的潜在变量中的一些位可能被翻转因此,我们采用一种新的基于优化的策略来转换二进制代码的潜在变量。优化考虑了潜在变量中每个比特的平均翻转率和二进制码中每个比特的重要性。我们进行实验,以评估我们提出的模型和几个基于学习的基线的性能。我们优化的基于流的模型显著在视频重建质量和容量方面优于其他基准。我们的模型可以有效地隐藏一个128×128的视频在一个相同的持续时间的音频文件,采样率为22,050 Hz。隐藏的视频可以恢复在高保真度(MS-SSIM 0。965),而对覆盖音频的修改我们的方法可以还可以在10秒的音频文件中嵌入一秒的高分辨率848×480视频我们的贡献可以是-如下所示• 我们研究了一个新的跨模态隐写任务:把视频藏在音频里。编码的音频信号在感知上与原始音频信号不可区分。• 我们提出了一种新的隐写方案,11001101深层可逆生成模型• 我们设计了一种新的基于优化的策略,使- ables隐藏在音频较长的视频,而不损害- ING重建视频的质量。2. 相关工作2.1. 隐写隐写方法可以从透明度、容量和鲁棒性方面进行分析[29]。透明度表示编码文件在感知上是不可区分的,并且无法通过隐写分析检测到[29]。容量被定义为隐藏数据的总量[6]。鲁棒性衡量的是在发生有意或无意的修改时保留秘密信息的能力[1]。研究人员提出了各种隐写方法,使用不同的封面文件,如图像,音频信号和视频帧来嵌入秘密信息[25,11,35,30,19]。经典的音频隐写方法是将秘密数据隐藏在最低有效位(LSB)[4,1]中,使得音频中的细微变化不明显。然而,这改变了覆盖媒体的统计分布,从而导致隐写分析的可靠检测。LSB具有相对较高的容量,但易于修改且易于检测[13]。此外,对于在音频中隐藏视频,LSB(每个样本一个或两个比特)的容量远远不够。我们提出的方法通过不同的方法实现了高感知透明度和高容量一些音频隐写方法,如回声隐藏[16]和音调插入[2],通过添加回声信号或对人类感知不太显著的低功率音调,编码的音频在感知上是透明的,但对检测不安全。其他方法,如相位编码[12]和扩频[9],利用音频信号的相位信息,这使得编码的音频对修改和压缩更具鲁棒性,同时获得较低的容量。深度网络最近被应用于隐写术,重点关注图像[3,41,17,34,31]。Hayes等人[17]提出训练一个端到端的深度网络,用于将一个图像隐藏在另一个图像中。Baluja等人[3]建议利用对抗性损失[5,23]来生成更好的编码图像。Zhu等人。[41]通过使用噪声层和可微分压缩层进行训练,应用了对抗性损失并提高了鲁棒性。由于人类视觉系统(HVS)不如人类听觉系统(HAS)敏感,因此在数字音频中隐藏秘密信息通常比将其嵌入图像中更困难[40]。对抗性网络生成的音频可能会引入额外的噪声[10]。因此,我们利用在音频中隐藏大量信息的可能性2.2. 基于流的生成模型基于流的生成模型是通过一系列可逆变换来构建简单先验分布(即,Gaus-sian)和复杂分布。最近的基于流的模型[8,33,26,21,32,27]已经为图像和音频生成产生了高质量的Dinh等人。[7,8]提出了一种新的可微和可逆仿射耦合层,作为基于流的网络Kingma和Dhariwal [21]进一步提出在结构中使用1×1卷积层来增强信息传播。WaveGlow [33]通过使用以Mel频谱图为条件的扩张卷积[39],将我们提出的隐写方案隐藏视频音频- dio利用的可逆性WaveGlow。我们可以将信息隐藏在先验分布的最高密度区域中的潜在变量中,使得生成的音频在感知上与原始音频保持不可区分。虽然还有其他类型的生成模型,如生成对抗网络(GAN)[15]和可变自编码器(VAE)[22],但基于流的模型更适合我们的框架,这需要一个编码器来产生原始的潜在变量。GAN没有编码器,VAE不能恢复精确的原始潜变量,因为VAE中的编码器输出采样潜变量的分布。3. 预赛3.1. 图像压缩网络图像压缩网络可以将RGB图像编码为二进制代码,然后可以对其进行解码以重建图像。对于视频,我们可以通过B=EI(I)计算每个视频帧I的二进制码B,其中EI是编码器。然后我们可以获得重建的视频帧其中,DI是解码r。我们使用的图像压缩网络(ICN)建议Toderici et al.[36]为了编码图像I(例如,视频中的单个帧),因为该模型对于比特校正是鲁棒注意,由于数值误差,重构的二进制代码中的一些位可能被翻转。ICN在K次迭代中渐进地编码残差信息rk:r0=I,bk=EI(rk−1,gk−1),r k= r k−1−D I(b k,hk−1),k = 1,2,. . . ,K其中gk和hk是ConvLSTM模型中的隐藏状态[18]。 编码器和解码器具有相同的架构对于所有K迭代。该模型通过最小化利用深度生成建模的最新进展。所有剩余信息之和Kk=1 r k 我们可以1102B我k k−10(a)ICN(b)二进制编码(c)WaveGlow隐匿期揭示阶段Vb1b2BNZ编码音频编码器WaveGlowBB'(d)二进制解码梅尔谱图解码器b'1b'2b'NZ'V'图1:隐写流水线概述。(a)在隐藏阶段,给定视频V,图像压缩网络(ICN)首先将每帧压缩成二进制码B。(b)二进制编码器将二进制代码嵌入到潜在变量Z中。(c)给定潜在变量Z和编码音频A的梅尔频谱图,W_v_w生成编码音频A_v,其听起来在感知上等于A. 在揭示阶段,我们首先恢复一个潜在变量Z',利用WaveGlow的可逆性然后,我们使用二进制解码器来重构二进制码B′。最后,我们通过将B′馈送到ICN的解码器来重建视频V ′。增加迭代次数K以保留更多的细节,但这会在二进制代码中创建更多的二进制位在实践中,我们将迭代次数K设置为4,以平衡重建图像质量和比特数。3.2. WaveGlow我们将使用WaveGlow [33]作为我们隐写方案中的关键构建块。WaveGlow是一个基于流的生成模型,通过从模拟器中采样来生成音频第二项由变量变换定理导出,其中J是雅可比矩阵,det是行列式。这表明对于每个变换层,雅可比矩阵应该易于计算。根据这一要求,在网络中采用了两种简单而有效的变换.仿射耦合层。仿射耦合层使得能够跨空间维度进行交互。其架构定义如下:Ple先验分布(零均值球面高斯分布)。该模型是由一个序列的可逆和可逆的,xa,xb=split(x),神经网络中的分层。输出音频信号的大小与输入潜变量相同。我们可以-(logs,t)=WN(xa,熔点-光谱图),x′=s<$xb+t,模拟WaveGlow模型如下:f−1(x)= concat(x,x′).联轴器abZ<$N(0,I),x= f0<$f1<$f2. f k(Z),Z=f−1f−1(x).通过最小化数据分布的负对数似然来训练模型。由于变换操作都是双射的,我们可以应用变量变换定理直接计算对数似然:分割和合并操作是沿着通道维度定义的WN使用tanh的扩张卷积,并采用mel频谱图来控制输出音频的内容和音调。1×1可逆卷积。采用1×1卷积产生沿通道维数的排列,增加了模型的生成能力。在我们的隐写流水线中,我们将来自压缩模型的二进制代码嵌入到潜在变量Z中,logpθ(x)= logpθ(z)+Σki=1洛戈|det(J(f−1(x)))|.使用该潜在变量来生成以输入音频的MEL频谱图为条件的编码音频。给定编码的音频,我们可以通过以下方式检索潜在变量:1103i=0时1616i=221011110100000000000001001111110010111101000000000000010011111100签署指数(8位)分数(23位)31 230hidable fixed(9-bit)hidable(19-bit)fixed31230图2:上部布局描述了IEEE浮点运算标准(IEEE 754)的结构。在底部布局中,我们可以将二进制位隐藏在IEEE 754结构中的可隐藏槽在WaveGlow中使用相同的梅尔频谱图进行可逆推理。4. 方法4.1. 概述我们的模型由隐藏阶段和揭示阶段组成,如图1中蓝色和粉色的流程图箭头所示。 考虑视频帧序列V和覆盖音频信号A。在隐藏阶段,我们的目标是将V隐藏到感知上无法与A区分的编码音频信号A中。在揭示阶段,我们的目标是从A中重建V,使V在视觉上与V相似。在隐藏阶段,我们将图像压缩网络(ICN)[36]生成的二进制代码隐藏到音频信号中。 每个帧I被压缩成二进制码B∈ {-1,1}K×H×W×32,其中K表示数字图3:当位bj翻转时,I j的样本图像。 我们可以看到,翻转的I2O4比其他样品更具破坏性。这意味着B4是用于图像重建的二进制代码中更重要的比特。WaveGlow采用从高斯正态分布采样的潜变量,二进制编码器应生成“遵循”高斯分布的浮点数只要Z在高斯分布的最高密度范围内(以及覆盖音频的梅尔频谱图),WaveGlow就可以生成期望的编码音频。我们利用IEEE浮点运算标准(IEEE 754)[14]的结构,如图2所示. 浮点数β包含32个位置{βi}31,其中位置索引从分数部分的末尾开始浮点数z的实际值可以通过下式计算:β=(−1)β31×2(e−127)×(1+m),ICN中使用的迭代。然后二进制编码器嵌入把B中的所有位转换成潜在变量Z。然后,使用预训练的Wave G lo w来生成编码音频AegivenZ和信号A的梅尔频谱图。回想一下,波动辉光由一系列可逆变换组成.为了从编码的音频A重构Z,我们还需要A的梅尔频谱图,因此我们生成最终的en。Σ7e=i=0时Σ23M=i=1β23+i2i,β23− i2−i。编码立体声音频(A)。因为A和A在知觉上是无法区分,立体声音频听起来与原始音频A.在揭示阶段,我们首先从A的Z′和A的Mel谱图中重构潜变量Z′,然后用Wave.如果我们将9个位置{β i}固定为30到01111100,则β的范围变为−0。75≤β≤-0。5或0。5≤β≤0。75.我们使用β可隐藏槽中的20个位置,表示为列表S=(β3,β4,. . .,β21,β31)。注意,这三个位置{β,β,β}由于其高灵敏度而0 1 2发光请注意,由于浮点数中的数值错误,在算术中,Z′通常不完全等于Z。然后,对于每个视频帧,可以通过二进制解码器从Z′恢复二进制码B′最后,B′可用于通过ICN的解码器重构视频帧4.2. 二进制编码器和解码器二进制编码器的作用是将二进制代码嵌入到Z(32位浮点数序列)中,二进制解码器是一个逆映射,嵌入的二进制代码。由于预先训练的数值不稳定。4.3. 编码优化一个简单的编码策略是将B中的每20位顺序地嵌入到Z中,但这不是最佳的。由于浮点运算中的数值错误,从Z′恢复的二进制代码B′ 当我们将20位隐藏到一个潜在变量中时,平均翻转率为13。百分之二十八翻转二进制码中的某些位会严重损坏重建的视频帧。因此,我们设计了一种嵌入优化策略,以获得更好的视频效果. ... ... ... ..1104j=1J0.40.30.2在二进制解码器中执行多数表决。我们可以用多重赋值来扩展目标函数:ΣM0.10.01 5 10 15 20我最大参数πΣΣMwj(1−pπ(bj),τ(bj)),(2)j=1(a) {p}20的图.注意p在i = 20时接近0.5。S.T.τ(bj)1[π(bj)=i]≤L,n∈{1,2,. . . ,20},1.0ii=1iBj=10.80.60.40.20.00 32 64 96 128J其中τ(·)∈{1,3,5,. . . }是一个函数,表示一个比特的分配次数,而pi,n是当我们在第i个插槽:如果n=1,则pi,1=pi;(3)(b) 128.第128章标准化为[0,1]。 我们把这一点标出来。 Σjj=1332当K=4时,128位的重要性。当j是32的倍数时,值下降。在迭代4之后,比特重要性几乎没有差别。如果n=3,则pi,3=pi+如果n=5,则p=p5+2pi(1−pi);(4). Σ。Σ5p4(1 −p)+5p3(1 −p)2.图4:翻转率和比特重要性分析。i,5i4ii3i我(五)重建质量如果我们可以估计B中每个比特对于图像重建的重要性,则可以通过将重要比特分配到具有低翻转率的时隙中来优化嵌入过程。用于视频帧It的二进制码张量B的形状是(K,H,W,32),其中K表示总的接下来,我们将详细介绍这个优化问题,包括翻转率的估计和二进制代码中每个比特的重要性,以及我们的优化算法的细节。比特重要性和翻转率。我们可以通过测量重建图像来测量每个比特bj的重要性ˆ16 16在压缩中使用的迭代,H和W是高度的宽度为t。将位置(x,y)处的B(·,y,x,·)中的所有位考虑为向量b={b1,b2,. . . ,bM},其中M=K×32。这个M位向量b表示图像中的16 × 16块。设wj为bj的重要性,pi为当b j的值翻转时的质量。我来侦查-当bj为每个16×16补丁翻转时,从二进制代码B结构化图像图3是其中迭代次数为K=4。我们都-使用MS-SSIM [38]评估图像质量的变化。我们可以使用MS-SSIM来计算比特重要性wj:S中的第i个槽。翻转率pi指示S中的第i个时隙的值将在数字上改变的可能性。wj=EIMS-SSIM(I,IWaveGlow的编码和解码过程。设π是将bj映射到S中的第π(bj)个槽的嵌入函数。我们可以通过求解ΣM在实践中,通过从COCO数据集[24]中采样图像来估计wj类似地,翻转率pi可以通过从LJ语音数据集[20]中采样音频并从LJ语音数据集[ 20]中采样潜在语音来估计。WaveGlow的高斯分布变量。的最大参数πΣΣMj=1wj(1−pπ(bj)),(1)wj和pi的值在图4中可见。嵌入优化。为了简化优化-受bj=11[π(bj)=i]≤L,n∈{1,2,. . . ,20},问题,我们执行嵌入上的帧,由-框架基础假设我们把二进制代码I框为K×H×W×32。浮动的数量WJpi110516、、、B∈R1616其中,1是指示函数,L是隐藏B所需的点数为K×32 ×高×宽。的,K×32,20H16 16我们可以使用的浮点数。该约束强制S中每个槽的分配总数不等于每个槽i的容量也在图5中。20××W,如图所示大于L。我们可以进一步减轻翻转位的负面影响,方法是将相同的位多次嵌入到几个浮点数的相同槽位置,然后取我们可以应用贪婪算法将比特嵌入B中。我们greetly挑选一个未分配的位与最高的重要性,并分配给它一个可用的插槽与最低的翻转率。我们重复这个过程,直到所有的位都被分配。161106图5:编码优化。我们通过将重要比特首先分配给具有较低翻转率的时隙来优化编码过程我们多次分配相同的位,通过多数表决重建它。在二进制代码中嵌入所有位之后,一些槽可能未填充我们可以通过多次分配相同的位来进一步利用剩余的我们执行贪婪算法,该算法两次选择要嵌入到某个时隙中的位,以便最大化等式25. 实验5.1. 基线简单的编码。我们可以直接将二进制代码编码为潜在变量,而无需考虑翻转率和比特重要性。我们可以简单地隐藏每18位(β5,β6,. . . ,β21,β30)插入到每个浮点数的18个槽中。由于每个帧的二元码的大小是(K,H,W,32),我们需要将秘密视频帧转换为具有与频谱图相同的空间分辨率的编码图像。隐藏网络将声谱图和嵌入图像作为输入,并生成听起来类似于封面音频的编码音频。最后,揭示网络可以从编码的音频重建视频。该模型是用最小化重构视频与原始视频之间的差异的视频损失和最小化覆盖音频与原始视频之间的差异的音频损失来训练的。编码音频。该模型在COCO和LJ Speech数据集上训练了40个epoch,学习率为5e-4。5.2. 数据集戴维斯DAVIS是一个流行的视频分割数据集[28]。共有150个视频。每个视频,H W1、16 16平均包含69.7帧 为了评估我们的粤ICP备16036888号-1一帧一帧的。浮点数为em-模型和各种基线,我们裁剪所有视频帧持续瓶颈。 我们在图像压缩网络的瓶颈层中用tanh激活替换符号运算符[36]。从这个新的网络架构中提取的代码不是二进制的:它由-1和1之间的浮点数组成。这样就不需要二进制码和隐变量之间的转换。我们可以直接输入浮点代码作为潜在变量能够进入。你好。浮点代码的大小为设为K H W4 改进的图像压缩128×128我们还进行了一个实验,高分辨率480p视频转换成音频。LJ演讲。我们使用LJ Speech数据集[20]进行覆盖音频。该数据集由13,100个以22,050 Hz采样的音频片段组成每个片段的长度为1至10秒,并重新产生一个单一的扬声器阅读段落从非小说类书籍。5.3. 隐藏128×128视频16 16在COCO上训练具有连续瓶颈的网络数据集[24],40个时期,学习率为5e−4。基于ConvNet的模型根据Baluja等人提出的深层隐写结构,[3],我们可以建立一个神经网络模型,用于在音频中隐藏视频帧。该模型由三个网络组成:准备网络、隐藏网络和揭示网络。我们应用短时傅立叶变换的封面音频,以获得其频谱图。然后准备网络转换为首先,我们使用我们的方法以及所有呈现的基线在音频中隐藏所有90个分辨率为128×128我们从LJ数据集中随机抽取90个音频片段作为封面音频。结果总结于表1中。我们重建的视频在PSNR和SSIM方面,隐写方案比基本隐写方案有更高的质量我们的方法在隐藏音频中的像素方面也具有最高的容量。我们的方法可以在0.6秒的音频中隐藏128×128的1二、 ..18 19 20. ..二进制码B17161514. ....................1107方法PSNRMS-SSIM每秒视频ConvNet(频谱图)21.62700.9049330750(15.00秒)连续瓶颈23.28360.938430720(1.39秒)朴素编码11.56830.469013680(0.62秒)我们25.43180.964813440(0.60秒)表1:模型和基线的定量分析。我们测量PSNR和MS-SSIM之间的地面真相和重建的视频帧。不同模型的容量是根据需要多少音频样本来隐藏一秒视频来显示的。t = 1 t = 15 t = 30 t = 1 t = 15 t = 30图6:在LJ音频中隐藏DAVIS视频[28]的不同方法的视觉比较[20]。我们的方法实现了比基线更高的视觉质量。图6提供了通过不同方法重建的视频帧我们重建的视频具有更高的视觉保真度和更少的文物比基线。5.4. 隐藏高分辨率视频我们的方法还可以在音频中隐藏480×848视频。图7显示了重建的视频。我们的再现在感知上与地面事实Naive encoding连续瓶颈ConvNet我们地面实况1108t = 1 t = 10 t = 20 t = 30MS-SSIM = 0.9631 MS-SSIM = 0.9700 MS-SSIM = 0.9636 MS-SSIM = 0.9711MS-SSIM = 0.9838 MS-SSIM = 0.9847 MS-SSIM = 0.9819 MS-SSIM = 0.9814图7:我们使用两种不同的压缩参数重建的高分辨率480×848视频:K=4,8。一秒的视频可以嵌入到10秒的音频信号中,具有很高的视觉保真度,当K=4时,MS-SSIM超过0.96。当K增加到8时,视觉保真度甚至更高,但需要两倍数量的音频样本用于嵌入。百分之三点八它们在感知上是相同的Cover音频更自然嵌入式音频更自然(3)它们在感知上是相同的。如图8所示,在95.0%的比较中,参与者无法分辨出差异。这个用户研究表明,我们的模型是感知透明的。(No对隐写分析的透明性提出了要求。6. 讨论我们提出了一个基于流的模型,通过结合图像压缩网络和可逆的生成模型隐藏视频在音频为了提高性能,我们图8:比较编码音频和原始的封面音频。视频.在我们的隐写方案下,1秒的480 p视频可以嵌入到10秒的音频中,MS-SSIM超过0.96。原则上,我们的模型可以嵌入任何分辨率的视频,具有很高的重建保真度。5.5. 音频保真度我们进行了一项用户研究,比较编码音频和原始封面音频与30名参与者。我们随机抽取了10个嵌入DAVIS视频的编码音频片段。在用户研究中,每个参与者以随机顺序听到编码音频和原始封面音频然后参与者需要从三个选项中选择一个:1)音频A更自然,2)音频B更提出了一种新的二进制代码与浮点隐变量之间的转换优化策略。实验结果表明,该隐写算法可以有效地将视频隐藏在音频中,重构视频具有很高的保真度,而隐藏音频在感知上是不可分辨的。我们希望我们的工作可以启发更多的研究跨模态隐写。未来的工作可能investi-门更强大的隐写方案,是抵抗数据损坏或压缩。引用[1] 穆罕默德·阿萨德,朱奈德·吉拉尼和阿德南·哈立德。一种增强的音频隐写最低有效位修改技术。在计算机网络和信息技术国际会议,2011年。2[2] Pooja P Balgurgi和Sonal K Jagtap。智能处理:一种音频隐写方法。国际百分95.0%我们的(K=8)地面实况我们的(K=4)11092012年通信、信息计算技术会议。2[3] Shumeet Baluja隐藏图像:深层隐写术。在神经信息处理系统,2017年。一、二、六[4] 沃尔特·本德,丹尼尔·格鲁,森本规重,还有安东·卢.数据隐藏技术IBM Systems Journal,35(3.4):313-336,1996. 2[5] Moustapha M Cisse,Yossi Adi,Natalia Neverova,andJoseph Keshet. Houdini:用对抗性示例欺骗深度结构化视觉和语音识别模型在神经信息处理系统的优势,2017年。2[6] Nedeljko Cvejic和Tapio Seppanen。提高基于lsb的音频隐写术的容量。IEEE多媒体信号处理研讨会,2002年。2[7] Laurent Dinh , David Krueger , and Yoshua Bengio.NICE:非线性独立分量估计。arXiv:1410.8516,2014年。2[8] Laurent Dinh,Jascha Sohl-Dickstein,and Samy Bengio.使用真实NVP进行密度估计。arXiv:1605.08803,2016。2[9] Alfreha Djebbar,Beghdad Ayad,Habib Hamam,andKarim Abed-Meraim.音频隐写技术的最新进展。在信息技术创新国际会议上,2011年。2[10] 克里斯·多纳休朱利安·麦考利和米勒·帕克特广告音频合成。arXiv:1802.04208,2018。2[11] Jessica Fridrich,Miroslav Goljan和Rui Du。在彩色和灰度图像中检测LSB隐写术。IEEE Multimedia,8(4):22-28,2001。2[12] Litao Gang,Ali N Akansu,and Mahalingam Ramkumar.抗Mp3不经意隐写术。见ICASSP,2001年。 2[13] Hamzeh Ghasemzadeh和Mohammad H Kayvanrad。音频隐写分析方法综述IET信号处理,12(6):673-687,2018。2[14] 大卫·戈德堡。每个计算机科学家都应该知道的关于浮点运算的知识。ACM计算监视器,23(1):5-48,1991. 4[15] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展,2014年。2[16] Daniel Gruhl,Anthony Lu,和Walter Bender.艾可躲起来了信息隐藏国际研讨会,1996年。2[17] 杰米·海耶斯和乔治·达内吉斯通过对抗训练生成隐写图形图像在神经信息处理系统的进展,2017。2[18] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。NeuralComputation,9(8):1735-1780,1997. 2[19] Voj teˇ chHolubandJ e ssicaFridrich.利用方向滤波器消除图像失真。IEEEInternational Workshop on InformationForensics and Security(WIFS),2012年。2[20] 基思 ·伊藤 LJ 语音 数据集 。 https://keithito.com/LJ-Speech-Dataset/,2017. 五、六、七[21] Durk P Kingma和Prafulla Dhariwal。Glow:具有可逆1x1卷积的生成流。在神经信息处理系统的进展,2018年。2[22] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。见ICLR,2014年。2[23] Felix Kreuk,Yossi Adi,Moustapha Cisse,and JosephKeshet.用敌对的例子欺骗端到端的说话人验证。在ICASSP,2018年。2[24] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO:上下文中的公用对象。2014年,在ECCV。五、六[25] Tayana Morkel,Jan HP Eloff,and Martin S Olivier.图像隐写概述。国际社会保障协会,2005年。一、二[26] Aaron van den Oord 、 Sander Dieleman 、 Heiga Zen 、Karen Simonyan 、 Oriol Vinyals 、 Alex Graves 、 NalKalchbrenner 、 Andrew Senior 和 Koray Kavukcuoglu 。WaveNet:原始音频的生成模型。arXiv:1609.03499,2016。2[27] Aaron van den Oord,Yazhe Li,Igor Babuschkin,KarenSi-monyan,Oriol Vinyals,Koray Kavukcuoglu,Georgevan den Driessche , Edward Lockhart , Luis C Cobo ,Florian Stimberg,et al.并行WaveNet:快速高保真语音合成。arXiv:1711.10433,2017。2[28] Federico Perazzi,Jordi Pont-Tuset,Brian McWilliams,Luc放大图片作者:J. Gross和Alexander Sorkine-Hornung。视频对象分割的基准数据集和评估在CVPR,2016年。六、七[29] Fabien AP Petitcolas,Ross J Anderson,and Markus GKuhn.信息隐藏研究综述。Proceedings of the IEEE,87(7):1062-1078,1999. 一、二[30] To ma´sˇP e v ny`、To ma´sˇFill er和PatrickBas。使用高维图像模型进行高度不可检测的隐写术。2010年,信息隐藏国际研讨会。2[31] 莱昂内尔·皮布雷,杰罗米·帕斯奎特,迪诺·伊恩科,马克·周蒙.深度学习是一个很好的隐写分析工具,当嵌入密钥被重用于不同的图像时,即使存在覆盖源不匹配。电子成像,2016(8),2016年。2[32] 魏平,彭凯南,陈季同。 ClariNet:端到端文本到语音的并行波形生成。arXiv:1807.07281,2018。2[33] Ryan Prenger , Rafael Valle , and Bryan Catanzaro.WaveG-low : 一 个 基 于 流 的 语 音 合 成 生 成 网 络 。arXiv:1811.00002,2018年。一、二、三[34] 钱银龙,董靖,王伟,谭铁牛。通过卷积神经网络进行隐写分析的深度学习。在媒体水印,安全和取证,2015年。2[35] Abdelfatah A Tamimi,Ayman M Abdalla,and OmaimaAl- Allaf.使用可变速率隐写术将一幅图像隐藏在另一幅图 像 中 。 International Journal of Advanced ComputerScience and Applications(IJACSA),4(10),2013. 2[36] George Toderici、Damien Vincent、Nick Johnston、Sung1110Jin Hwang 、 David Minnen 、 Joel Shor 和 MicheleCovell。基于递归神经网络的全分辨率图像压缩在CVPR,2017年。二、四、六1111[37] 王云涛,杨昆,易晓伟,赵先锋,徐周军。基于CNN的熵码域MP3隐写分析。ACM信息隐藏和多媒体安全研讨会,2018年。1[38] Zhou Wang,Eero P Simoncelli,and Alan C Bovik.图像质量评价的多尺度结构相似性。 Asilomar信号会议,系统计算机,2003年。5[39] Fisher Yu和Vladlen Koltun。多尺度上下文聚合通过扩张的卷积。ICLR,2016年。2[40] Mazdak Zamani,Azizah Abdul Manaf,Rabiah Ahmad,Akram M Zeki,and Shahidan Abdullah.一种基于遗传算法的音频隐写方法。世界科学、工程和技术学院,54:360- 363,2009年。2[41] Jiren Zhu,Russell Kaplan,Justin Johnson,and Li Fei-Fei.隐藏:使用深层网络隐藏数据。在ECCV,2018。一、二
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功