没有合适的资源?快使用搜索试试~ 我知道了~
可在www.sciencedirect.com在线获取理论计算机科学电子笔记329(2016)5-26www.elsevier.com/locate/entcs暴力视频场景中的快速人脸检测诉E. Ma chacaArced a 1,K. M. Ferna'ndezFabi'an2,P. C.拉古纳劳拉3,J.J.里韦拉蒂托4和J. C. Guti'errezC'aceres5圣奥古斯丁大学Arequipa,Peru'摘要在这项工作中,我们的目标是在暴力场景中检测人脸,以帮助安全控制。我们使用[50]中提出的Horn-Schunck暴力流(ViF)描述符进行第一阶段的暴力场景检测。然后,我们应用非自适应插值超分辨率算法来提高视频质量,最后我们启动了Kanade-Lucas-Tomasi(KLT)人脸检测器。 为了得到一个非常低的时间处理方面,我们用CUDA实现了超分辨率算法和人脸检测算法。在实验中,我们使用了Boss数据集,还建立了一个暴力数据集,从监控摄像头中获取场景。由于我们的建议的好处,我们在这种环境中检测人脸的结果很有希望。关键词:ViF,Horn-Schunck,光流,分辨率增强,视频,超分辨率,人脸检测,GPU并行计算,降低计算时间。1引言近年来,恐惧和不安全感大大增加。 最例如:联合国毒品和犯罪问题办公室(UNODC)在其网站“全球凶杀研究”中,他们显示了每10万居民中的凶杀率,有16.美国3比3。0在欧洲此外,根据法律辩护研究所(ILD-Peru)2015年的数据,秘鲁人民认为犯罪和不安全是他们的主要问题[9],国家统计和信息研究所(NISI-Peru)1电子邮件地址:enriquefirst@gmail.com2电子邮件:karla.m.f. gmail.com3电子邮件:pamela.c. gmail.com4电子邮件:titex777@gmail.com5电子邮件地址:jcgutierrezc@gmail.comhttp://dx.doi.org/10.1016/j.entcs.2016.12.0021571-0661/© 2016作者。出版社:Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。6V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)530.5%的人是犯罪行为的受害者对于所有这些问题有很多监控摄像头服务,这些系统可以很容易地实现,以监测任何阶段,但它可以由于缺乏受过训练的人监督记录和自然的注意力能力而无法有效[22]。 正因为如此,我们有动力寻求技术解决方案,帮助我们感到更安全。建立监测可能的严重暴力行为的支持系统对控制公共安全非常有用。此外,重要的是我们要发现现场的暴力者普通的监控现场条件差,很难发现涉案人员。在这种情况下,我们提出了使用超分辨率算法来改善人脸检测算法的结果,以识别暴力场景中的人。我们的目标是得到一个系统,在未来的作品,支持监控摄像头控制一些犯罪事件。本文的工作重点是寻找一种计算量小、精度可接受的方法2相关工作在下面的段落中,我们将向您展示在暴力行为检测以及视频中的人脸检测方面最相关的工作。同样重要的是要提到每个作者对暴力的定义暴力行为的检测是更大范围内的一个特殊问题,即行为的识别,最后这些问题使用与视觉分类相同的方法来解决[17],他们使用Harris检测器[30]来获得关键点和尺度不变特征变换(SIFT)作为描述符,然后他们使用视觉词袋(BoVW)来获得中级特征。时空兴趣点(STIP)在[42]中用于识别面部表情,人类活动和老鼠的行为,分别获得83%,80%和72%的准确率。在[55]中,高斯差分[10]与主成分分析-尺度不变特征变换(PCA-SIFT)[54]和BoVW一起使用,对视频场景进行分类,得出的结论是BoVW中使用的词汇量在很大程度上取决于分类场景的复杂性。大多数研究使用BoVW,然后[28]提出了不同描述符的BoVW在[49]中, 使用 Lucas-Kanade[36],Horn-Schunck[23]和Farneb?ack[14]作为光学光流算法评估了光流直方图(HOF)和定向梯度直方图(HOG)等描述符,他们还评估了BoVW的性能,将K均值与随机森林[6]和Fisher内核[44]进行了比较,他们得出结论,Lucas-Kanade和Horn-Schunck优于Farneb?ack和Fisher内核优于K均值。6我们认为犯罪行为是威胁安全、侵犯个人权利并导致危险、伤害或风险的事件[27]。V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)57第一个检测暴力的作品之一是基于由[48]定义的暴力事件所呈现的音频,这些事件包括枪击,爆炸,打斗和尖叫,而非暴力内容对应于包含音乐和语音的音频片段。所用的描述词是:能量熵,短时能量,过零率(ZCR),谱熵和滚动优化,使用多项式支持向量机(SVM)作为分类器,获得85.5%的准确率。音频词袋(BoAW)也用于获得中级特征,[7]使用梅尔频率倒谱系数(MFCC)作为音频描述符和动态贝叶斯网络。这项工作的主要贡献是当使用BoAW时,视频分割产生的噪声被去除。暴力的另一个定义是包含战斗的场景,无论上下文和参与的人数如何,他们在[15]的工作中使用,他们提出了具有时空兴趣点(STIP)的视觉词袋(BoVW),基于Laptev在这方面,科学、技术和革新政策取得了较好的结果。由[16]提出的名为色调时空兴趣点(HueSTIP)的STIP变体采用计数像素颜色,在这种情况下,他们识别一般动作,用于检测战斗HueSTIP优于STIP,但具有更高的计算成本。[12]使用运动尺度不变特征变换(MoSIFT)(由[38]提出)来检测战斗,他们将MoSIFT和STIP与BoVW和SVM作为分类器进行了比较。在实验中,他们使用了两个数据集:电影和曲棍球比赛,在曲棍球数据集中,STIP的准确率为91.7%,而MoSIFT的准确率为90.9%,但在电影数据集中,MoSIFT的准确率为89.5%,而STIP的准确率为44.5%。在这种情况下,我们无法决定哪个描述符更好,但我们可以推断,两者都需要很高的计算成本,难以实时使用。在[20]中提出了一个实时模型,在这里他们检测拥挤场景中的暴力。他们将“暴力”定义为视频画面中突然的运动变化。他们的模型基本上考虑了随时间变化的湍流矢量的幅度变化的统计数据他们还引入了一个新的拥挤场景数据集。在结果中,ViF优于局部三进制模式(LPT)[57],定向梯度直方图(HoG)[32],定向光学直方图(HoF)[32]和方向梯度和光学梯度(HNF)的直方图[32]。该模型也在其他数据集中进行了评估,如Hockey [12]和ASLAN [31]评估了ViF在动作识别中的性能,在这里ViF优于STIP,而在更大的词汇表中,STIP优于ViF。关于这个新描述符,值得一提的是,它是最快的描述符之一,可以实时使用MoSIFT也在[35]中使用,其特征基于核密度估计(KDE)以提高效率,也不是使用BoVW,而是使用稀疏8V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)5[22]《易经》中,“道”与“道”的区别在于。在[56]中提出了基于光学光流的其他工作,其中除了检测暴力场景之外,它还定位场景中发生暴力的部分,高斯混合模型被扩展到光学光流域,以检测每个区域中可能包含暴力行为的区域,光流方向HOFO直方图被用作描述符。最近[39]提出了一个受心理学启发的模型,该模型表明, 运动学特征对特定的动作是有区别的,他们称之为它是“极速加速”。在[5]的工作中,他们得出结论,运动模式对于动作的感知是足够的,并且这一想法得到了验证在[41]的研究中,该领域更具体的研究表明,简单的运动学特征(如速度和加速度)与情感属性相关[21],因此检测加速度的变化是基于运动发生时图像的模糊,通过计算光谱功率证明[4]。结果在Movies和Hockey [12]数据集中进行了评价。 因此,新提案的性能超过了科技创新政策和信息、商品和服务贸易部,速度也快了15倍。这种新方法具有非常低的计算成本,能够实时使用拉格朗日理论的应用从多个方面说明了其在视频分析中的适用性在这种情况下[47]利用拉格朗日措施的概念来检测暴力场景。他们提出了一种基于SIFT算法的局部特征,该算法结合了基于外观和拉格朗日的运动模型,他们将其命名为LaSIFT。他们将他们的结果与拥挤和曲棍球数据集中的HOG,HOF和MoSIFT进行了比较。在Hockey数据集的情况下,LaSIFT特征在AUC方面优于当前最先进的方法,然而,在准确性方面的性能低于[35]提出的改进的特征编码方案对于拥挤的数据集,LaSIFT功能在准确性和AUC测量方面优于最先进的方法。LaSIFT似乎很有前途,但作者上面提到的所有作品都专注于检测与打斗、爆炸、枪支暴力等有关的暴力,但也有许多作品专注于检测电影中的暴力内容,特别是为了更好地控制儿童。例如[29]使用多实例学习(MIL; MI-SVM [2])检测电影中的恐怖。在[18]中,[48]的工作得到了扩展,他们使用了多模态两阶段方法,他们进行了音频和视觉分析。在[19]中提出了一种三阶段方法,其中他们使用了半监督交叉特征学习算法[45]。在[33]的工作中,两个分类器被用于共同训练,他们认为战斗,爆炸,谋杀和枪击是暴力概念。[43]在贝叶斯网络中使用时间信息和多模态评估他们的结果,他们还使用了他们证明,多模态和时间性都为系统增加了有价值的信息,并提高了系统的性能。V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)59此外,我们必须提到MediaEval 2013数据集是一个电影的集合,其中照明,分辨率等条件是理想的。最近[1]也提出了使用音频和视觉特征,作为音频特征,他们使用MFCC,对于视觉特征,他们使用HOF,ViF和颜色描述符,他们还在MediaEval2014数据集中评估了他们的结果。他们得出的结论是,音频功能比视觉功能更相关,他们还结合了这两个功能,得到了更好的结果。在视频中的人脸检测的情况下,它是一个新的领域,它是生物识别技术,其中视频的属性允许对构成视频的图像的运动序列进行一些考虑,允许更可行的方式在图像中定位移动对象,这要归功于帧图像之间存在的差异。对于视频处理,有各种技术,包括测量垂直和水平变化以找到眼睛的技术[26]。与人脸检测相关的一些问题是:• 在大多数摄像机视频监控中,由于其位置的事实,直接面对焦点是非常困难的[53],因为不同的位置,遮挡,移动以及尺寸变化会由于与光轴的距离而产生[37]。• 视频中最常见的问题是由于不同的照明条件而存在阴影[13],隐藏了他面部的一部分,难以检测。此外,一些算法基于颜色来检测面部,但是由于相邻像素之间的发色非常相似,因此在肤色中产生混淆,从而降低了面部的清晰度• 关于视频监控,视频质量的变化是由分辨率定义的,它非常明显。例如,在秘鲁,大多数视频录制系统的质量非常低[3]。• 此外,由于他们拥有视频的信息量,计算执行的计算需要更长的时间,因此,执行时间更长,避免实时获得结果[8]。• 由于视频是在不受控制的条件下,所有这些问题的总和,负面地阻碍了面部检测的大多数方法和技术,因为结果中的准确性百分比减少了计算中的混乱,增加了误报的数量,因为混淆了另一部分像素并将其显示为误报。3提案该提案分为三个阶段:暴力场景检测器,归一化算法和人脸检测器,我们可以在图1中看到它。10V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)5输入监控摄像头视频序列第一阶段:暴力侦查VIF帧暴力场景帧第二阶段:标准化照度归一化超分辨率暴力场面归一化场景阶段3:人脸检测Haar级联+KLT归一化场景检测到的面部Fig. 1. 暴力视频场景中人脸检测的三个阶段。3.1暴力检测方法为了检测暴力场景,我们将使用ViF描述符,因为它的成本非常低,并且可以接受的准确性,ViF描述符考虑了统计量V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)511Σ帧流动矢量霍恩-申克光流直方图VIF如图2所示,为了获得这些矢量[20],使用了[34]提出的名为迭代重加权最小二乘法(IRLS)的光学卷积算法,但现在我们有很多不同的光学卷积算法,在这种情况下,我们使用了具有Horn-Schunck [23]的ViF描述符作为[50]提出的光学卷积算法图二. 视频中的ViF描述符。算法1中给出了ViF描述符,在这里,我们得到了每个帧ft的二进制幅度变化显著性图bt。然后,对于每个像素,我们通过等式1得到所有帧上的平均幅度变化图:(1)bx,y=(1/T)bx,y,t不则ViF描述符是量化值bx,y的频率的向量。更多的细节可以参考[20]。然后,暴力检测器使用具有多项式内核的SVM分类器进行训练,将ViF描述符的结果作为输入。在实验中,我们使用k=10的交叉验证。整个视频暴力检测方法如图33.2视频序列为了进行实时处理,考虑到目前分辨率较差的问题,我们使用GPU进行了超分辨率算法和人脸检测。为了更好地理解,每个组件的流程如图4所示。12V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)5x,y,t⎨+vn2πF2算法1ViF描述符数据:S=灰度图像序列。S中的每个图像被表示为f x,y,t,其中x = 1,2,., N,y= 1,2,..., M和t = 1,2,..., T.结果:直方图(bx,y; n箱= 336)一曰: 为 t= 1至Tdo2:获得每个像素p x,y,t的光学带宽(u x,y,t,v x,y,t),其中t是帧索引。3:得到大小向量:mx,y,t=。u22x,y,t4:对于每个像素,我们得到:2001年if|mx,y,t−mx,y,t−1|>=θ100其他案例其中θ是a在每个帧中将阈值A适当地设置为|mx,y,t−m x,y,t−1|.从亮度补偿开始,它包括:伽玛强度校正(GIC),差分高斯(DG),局部直方图符合(LHC)和局部正态分布(LND)。其中图像的伽马校正是非线性变换,灰度,其用指数gγ替换输入图像g。默认图像g0具有正常照明条件。给定输入图像g(x,y),其GIC校正图像为GJ(x,y),并且其通过利用最佳伽马系数γj逐像素地变换输入图像(x,y)来计算。作为涉及光照归一化的整个过程的标志,提出了算法2。算法2光照归一化数据:图像g(x,y)结果:图像c(x,y)1:伽马强度校正GIC:γ=argminx,y[G(g(x,y);γ)-g0(x,y)]22:微分高斯DG:Gσ(x,y)=1ne−(x2+y2)/2F2−NE−1(s)−μi第三节: 应用局部直方图重合:c(x,y)=σi这种光照补偿方法可以在原始图像的各种光照条件、阴影等条件下工作,能够保留视觉外观检测的基本要素超分辨率的一种经典形式是使用非自适应插值[51]来处理内核,因为这种方法对图像中的所有像素都是一样的,通常像素的位置与函数内核相乘,然后乘以已知的离散样本;对所有像素位置重复相同的过程。然后,范围从0到256的相邻像素被用于双线性插值,该双线性插值确定四个最近像素的加权平均的灰度值,并将该值分配给输出坐标。V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)513输入监控摄像头视频序列预处理-预处理-操作过程分析......视频分割VIF分段场景horn-Schunck直方图分类暴力没有暴力直方图SVM图三. 暴力检测方法。超分辨率(SR)重建由等式2表示。(2)Y=DBM+n其中:D=采样算子,B=模糊,M=变形,n=噪声(高斯白噪声通常是加性的)。然后引入了相似性非局部描述子,利用非局部相似性信息来提高重建图像的质量[24]提出了一种建立非局部相似性描述符来表示图像的结构特征并有助于预测全局和局部的方法。14V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)5f=f−λ<$H(y<$−yi)人脸检测正常化线程图四、视频归一化和人脸检测的通信图包含连续帧之间的运动的信息局部运动被用来表示运动。在图5(a)中,示出了红色和绿色方块,然后它们从时间t到时间t+ 1,然后从时间t+ 1到时间t+ 1,利用单个运动矢量被转移到新的目的地。t+ 2时,红色、绿色和蓝色方块以三个不同的运动矢量移动到附近的地方,这三个运动矢量由图像中不同对象的局部运动给出这种行为经常在整个视频序列中不规则地发生,因此它被称为非局部相似性,注意,这与运动估计非常相关,如图5的部分(b)所示。对帧进行超分辨率重建,将低分辨率下的观测模型,与输入帧一致。在此过程中采用迭代反投影法,保证了迭代过程的收敛性,使重建图像更接近原始高分辨率图像。迭代反投影(IBP)算法的数学描述是:P(三)其中:2019年10月21日+1k BPkii ii=1V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)515我图五、(a)全球和地方流动同时进行。(b)运动矢量。[24]从[24]中提取• k=迭代次数• fk+1yfk是在超分辨率中获得的帧,a在(k+1)J和kJ中获得迭代• 是在低分辨率帧模式下的低分辨率帧。• λ=阶跃梯度。通过以高分辨率投影图像来估计,低分辨率模型退化了H,其中P模拟了生成的低分辨率帧。然后,将模拟的误差重新投影到高分辨率图像上。最后,根据后投影误差之和,更新估计的高分辨率图像。重复上述过程,直到迭代次数达到其最大值。3.3人脸检测人脸检测是根据兴趣点的位置给出的,基本上包括以下步骤:• 检测和分割皮肤区域。• 检查面部的各个部位(嘴、鼻子、眼睛和眉毛)。其中标记根据人脸的人体测量形式检测到的人脸的边界框。然后由一组分类器进行深度级联评估, 在包含滤波器的阶段[52]中,为了检测多个位置和不同大小的人脸。此外,内核不仅要测试所有像素,还要测试所有可能的维度,如图6所示。此外,数据结构级联受到阶段之间的依赖关系的约束,并且应该对每个候选者进行顺序评估[40]。可以理解的是,标准化(超分辨率和照明)将在块(0.0)中工作,而它将在具有面部检测的块(1.0)中并行工作。由于CUDA由在GPU上的几个非常轻量级的线程中同时运行的函数组成,因此这些线程具有层次结构:16V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)5线程是一组1维、2维或3维的线,那么这个网格是一组可以是1维或2维的块[46]。图第六章 评估级联分类器块。 ”[40]引自《论语》图7中显示了每个视频帧上的分类器级联操作的示例图第七章哈尔分类器的面部特征示例4实验及结果4.1数据集我们评估了Boss数据集的性能,Boss数据集是来自火车内不同摄像机的视频集合,在图8中,我们可以看到一些帧。此外,我们还构建了一个新的数据集,其中包含从监控摄像头拍摄的暴力和非暴力视频,我们将其命名为监控视频(SV),我们可以在图9中看到一些帧。此外,在表1中,我们可以看到数据集的比较。我们必须提到的是,在SV数据集中,由于光照、分辨率、帧率等较差,检测人脸非常困难。决议帧率每秒持续时间(秒)Number的视频老板720 x 5762520070SV480 x 360252200表1数据集特征。V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)517见图8。 一些帧取自Boss数据集。见图9。 一些帧取自SV数据集。18V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)54.2导致暴力场景检测我们在具有多项式核和交叉验证(k=10)的SVM分类器中评估了具有Horn-Schunck的ViF的性能。在表2中,我们可以看到分类器的准确度(ACC)和标准差(SD),我们还包括最佳模型的曲线下面积(AUC)。 此外,对于这个实验,我们把SV和Boss的数据集放在一起。我们知道这些数据集包含真实情况下的视频,质量非常差,这就是我们得到准确度低,但AUC可接受。我们必须提到,我们选择这种方法是因为它比文献中的其他方法成本低监控视频和Boss数据集算法ACC± SDAUCViF(Horn-Schunck) 0.6600± 0.11740.8500表2采用Horn-Schunck算法的ViF的性能。 准确度(ACC)和标准通过交叉验证(k=10)评价分类器的偏差(SD),还包括最佳模型的曲线下面积(AUC)SV数据集中具有ViF的分类器的受试者工作特征(ROC)如图10所示。10.90.80.70.60.50.40.30.20.100 0. 2 0. 4 0. 6 0. 8 1假阳性率图10. SV数据集中具有ViF的 SVM分类器的ROC曲线使用Horn-Schunck对ViF的时间处理的评估如表3所示,在这里我们得到了几乎实时的系统。我们也认为这只是真阳性率V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)519这是我们提案的第一阶段,因此我们必须为下一阶段节省处理时间。在具有1.8GHz处理器的计算机中评估测量视频持续时间(分段)时间处理(分段)使用Horn-Schunck的22.1563表3使用Horn-Schunck对ViF进行时间处理,用于暴力检测。4.3实现超分辨率和人脸检测作为改进的超分辨率的示例,表4以二进制代码示出,以更好地可视化帧迭代,其还试图基于相邻像素来最小化裕度误差。在高斯滤波器之后,被滤波并分配给其坐标的像素的值为1。视频超分辨率12345678910111213141516171819202122232425262728110101111110111111101111001012111111011011111110011100100131001010111001111011100101100410110010111011101110111101105011111111011111101111010110160010111111011111110011100111711111111111111111101111101108111111101001111101111101011191110111111110111110011111111100111110011011111110111110111111100111111101011111011111011121111110100111111110111111110131111111111111111010011111011141101111111101111110111100101151111110011111101111111011101161111110111111110110011100111170111001111101111011011111101181011111111111111110111110111191101111101101111111110110110201110111111101110111011111010表4矩阵显示视频分辨率的变化。在高斯滤波器之后,被滤波并分配给其坐标的像素的值为1。人脸检测和超分辨率的示例如图11所示。Lucas Kanade和Tomasi(KLT)人脸检测器在开始时无法检测到任何人脸,但经过超分辨率算法(视频进行了具有不同视频特征的测试。图12显示了一个低分辨率视频(535 kbps,每秒10帧),这里我们20V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)5图十一岁改进的图像分辨率和人脸检测。图12个。 改进的视频帧率为10 fps和535 kbps。我们的结果中也存在误报,如图13所示,这里我们使用的是987 kbps的视频,每秒20帧图13岁改进的视频帧速率为20 fps和987 kbps。在图14中,我们有一个8秒的视频,这里的摄像机记录了一个人进入实验室。正如我们所看到的,一开始我们有很好的结果,直到我们得到了头发和照明的面部遮挡在具有不同帧速率的视频内的面部检测的结果总结在表5中。此外,我们还包括在CPU和GPU的时间处理,而且精度。在表6中,我们有基于各种视频特征的人脸检测精度。该措施是基于帧速率和数据带宽(千比特每秒)。据观察,虽然数据流较低,但更难检测到面部。此外,我们看到,超分辨率提高了质量和人脸检测,但当视频具有非常差的分辨率和数据流时,结果很糟糕。V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)521图14个。人脸中兴趣点的检测和跟踪KLT人脸检测时间进程/秒%精度CPUGPU视频超过8秒,30 f/s。858283百分之九十四视频超过7秒,30 f/s。735243百分之九十四视频超过5秒,29 f/s。506167百分之九十二点五视频超过249秒,25 f/s。194236474百分之八十九视频超过78秒,25 f/s。60852028百分之八十八视频超过206秒,20 f/s。129724326百分之七十四视频超过5秒,15 f/s。25185百分之六十二视频超过4秒,10 f/s。14149百分之五十一视频超过2秒,10 f/s。6826百分之四十八点五视频超过2秒,7 f/s。5321百分之二十九表5不同持续时间和f/s数量的视频的处理时间结果,在这种情况下是随机视频使用的各种数据库22V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)5为了进行测试,使用了一台带有GPU的计算机,其最新版本Matlab R2016中包含了功能和工具,以及用于并行计算和计算机视觉的工具箱。然后在图15中,GPU的效率与CPU相比,可以执行大量的数学计算,特别是使用大量数据,在这种情况下,这些数据将成为为每个视频帧生成的矩阵的总和,以及要在时间实例上执行的过程证明CPU不能很好地处理大量数据;相反,V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)523视频与帧中的变化平均速度(s)数量检测到的面部%精度CPUGPU视频较低帧速率10 fs/s170571-百分之十四视频较低帧速率15 fs/s295982-百分之三十七带帧率的接近25 fs/s3201054±百分之七十八带帧率的等于30 fs/s3651215±百分之九十一视频,更高帧速率35 fs/s3901308+百分之九十七表6结果:平均处理时间(秒)和超分辨率人脸检测优化的成功百分比。处理视频706050403020100104105106107108109矩阵大小(字节)图15. GPU和CPU的比较与使用带宽处理大型阵列的基础上的时间和大小。GPU可以很好地处理大量数据,而不会随着时间的推移而减少,因为它在内核内部工作GPUCPU速度(GB/s)24V.E. Machaca Arceda等人/理论计算机科学电子笔记329(2016)55结论由于其低计算成本和良好的结果,使用Horn-Schunck的ViF是高度可接受的。2秒视频的描述符的时间处理仅为2.15秒,这几乎是一个实时系统,也考虑到我们在一台慢速计算机中进行的实验结果表明,超分辨率的实现提高了视频的质量,并且每帧产生更多的像素,以及更高的数据流,这有助于处理尽可能多的图像,这些图像一起有助于获得更高分辨率的一帧对于一些非常低分辨率的视频,SR不符合预期,因为每帧像素太少,插值很困难,无法生成更高分辨率的视频。GPU的使用大大降低了超分辨率和人脸检测的计算成本。我们希望在实时应用中使用它引用[1] Acar , Esra 和 Irrgang , Melanie 和 Maniry , Dominique 和 Hopfgartner , Frank , Detecting ViolentContent in Hollywood Movies and User-Generated Videos , Springer International Publishing ,book“Smart Information Systems”Advances in Computer Vision and Pattern Recognition,(2015 ),291- 314.[2] Andrews,Stuart和Tsochantarlett,Ioannis和Hofmann,Thomas,多实例学习的支持向量机,“神经信息处理系统的进展”,(2002),561- 568。[3] Arashloo,Shervin Rahimzadeh和Kittler,Josef,在GPU上使用超耦合多分辨率马尔可夫随机场的快速姿态不变人脸识别,“模式识别字母”。48(2014)。49-59.[4] Barlow,Horace B和Olshausen,Bruno A,通过高空间频率的各向异性衰减,[5] Blake,Randolph and Shi Berrar,Maggie,Perception of human motion,Rev. Psychol47-73.[6] Breiman,Leo,Random Forests,5-32[7] Bruno do Nascimento Teixeira,MTM at MediaEval 2014 Violence Detection Task,[8] Castrill'on,M和D'eniz,Oscar和Guerra,C ayetano和Her n'andez,Mario,ENCARA 2:在视频流中以不同分辨率实时检测多个人脸,“视 觉通 信 和图 像 表示 杂 志”, 18 , 第2号 , ( 2007) 。一百三十到一百四十[9] C'esarBaz'anSeminario和NancyMej'ıa Huisa和JorgeLevaggiTapia和IsabelUrrutiaVillanueva,Seguridad Ciudadana Informe Anual,Instituto de Defensa Legal - IDL,(2014).[10] David G. Lowe,Distinctive Image Features from Scale-Invariant Keypoints,[11]Demar ty,Claire-H'el'eneandPenet,C'edricandS chedl,MarkusandBogdan,IonescuandQuang,VuLam andJiang,Yu-Gang,The MediaEval 2013 a Ampect task:violent scenes detection,(2013).[12] Enrique Bermejo 、 Oscar Deniz 、 Gloria Rupo 和 Rahul Sukthankar , Violence Detection in VideoUsing Computer Vision Techniques,“14th International Conference”,(2011)。332-339.[13] 恩里克·G作者声明:Brian C.贝克尔,网络规模数据集的人脸识别,http://www.sciencedirect.com/science/article/pii/S1077314213001744
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功