没有合适的资源?快使用搜索试试~ 我知道了~
工程6(2020)723新闻亮点人工智能增强的媒体:我们还能相信什么吗?拉明·斯基巴高级技术作家虽然信息、信件或照片可以被修改以改变内容和意图,但人们通常认为它们不会,因为这并不容易做到。但在当今的数字世界中,情况已不再随着计算机、互联网以及最近的智能手机和社交媒体的出现,改变照片和其他媒体的工具迅速变得可用现在,人工智能(AI)正在进一步改变数字媒体,使用更复杂的程序,可以用于几乎无缝地操纵视频,照片,音频和文本,用于各种目的。‘‘Manipulating photographs is as old as photography itself,” saidSiwei Lyu, professor of computer science and director of the Com-最近的转折是人工智能的应用,在那里你可以扩大操纵。过去,这是一件需要大量时间、精力、特殊训练和装备的事情。”Lyu说,有了强大的计算机和足够的知识来运行算法,现在可以在更大的规模上操纵视频。计算机工程师也在努力完善人工智能系统的“自然语言处理”,可以生成非常接近人类语言的文本和语音。例如,在2019年初,总部位于旧金山的研究实验室OpenAI宣布,他们开发了一种名为GPT-2的最先进的文本生成器,可以用英语甚至是短篇小说和诗歌,只要几个提示。研究人员最初避免发布完整的模型,因为他们担心该软件足够好,可以用于恶意目的,例如生成但在2019年11月,他们在看到“没有强有力的滥用证据”后软化了尽管如此,在这个和其他媒体上,古老的谚语像Photoshop这样用于修改照片的软件已经存在了一段时间(图1),现在视频序列也可以同样轻松地操作。最常见的操纵,被称为“deepfakes”,通常涉及将一个人(目标)的脸与其他人(捐赠者)的脸交换。另一种类型Deepfake的“唇同步”涉及修改源视频,使得说话者的嘴部运动被改变为与不同的音频记录一致。做得好,由此产生的视频看起来逼真的观众,与他们似乎说的东西,他们实际上没有的效果。这种欺骗性的视频可能被用来操纵公众舆论,实施欺诈,并错误地诋毁人们[3]。在实践中,deepfake的生成取决于将数据(大量的图像或文本)输入到被称为生成对抗网络(GAN)的机器学习工具中。在最简单的版本中,训练两个这样的神经网络来开发和改进一个模型,将输入数据转换为新的图像或视频。早期的算法是用大量数据集训练的,这些数据集来自于Fig. 1. Adobe Photoshop软件被用来从16张不同的照片中创建这个幻想但看起来很现实的风景。由人工智能算法驱动的软件现在提供了工具,可以更轻松地创建逼真但可操纵和/或模拟的视频、文本和语音。图片来源:Wikimedia Commons(CC BY-SA 3.0)。https://doi.org/10.1016/j.eng.2020.05.0112095-8099/©2020 THE CONDITOR.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表工程杂志主页:www.elsevier.com/locate/eng724R. Skibba /工程 6 (2020)723容易获得的人物图像,如政治家和名人。虽然这个过程过去需要程序员进行一定程度的监督,但最新的程序几乎完全自动化。“你不需要大量的训练数据。即使只有十秒钟的剪辑也足够了,但是,用更长的剪辑训练模型,源视频至少有1000个高质量的帧,将生成更好的最终产品。对于视频中的每一帧,当前的算法可以绘制出结果视频中的运动可以看起来流畅,就像人类视觉所期望的那样。但如果不小心,输出视频可能包含“告诉”,可能会使感知观众怀疑它已被修改。‘‘Sometimes you can seeodd things, like a stretching or 例如,如果训练数据的分辨率不足,输出视频可能会有模糊的区域,口腔中有白色条纹而不是单个牙齿,或者面部毛发没有按照应有的方式移动。当算法接受了各种面部表情和语言的训练古德温说。操纵方面的进步促使计算机科学家和工程师开发人工智能算法-取证软件- 用于检测更改的视频和音频[5] 。‘‘Forensic tools can detectsynthesized media and tell whether it is generated by a machine or但是,如果这些工具不保密,媒体总是可以制作绕过他们,说:研究音频和视频深度伪造的人操纵和检测之间的来回类似于病毒和防病毒软件的计算机安全军备竞赛,其中修复阻止黑客,黑客找到克服修复的方法[6]。专家们发现了一个缺陷,让他们能够发现被操纵的媒体,然后制作者适应生成更真实的深度伪造。例如,当第一代深度伪造显示不定期眨眼的面孔时,使它们 很 容 易 被 检 测 到 , 下 一 代 深 度 伪 造 软 件 解 决 了 这 个 问 题 。Kambhampati说,在另一个例子中,当时的美国总统巴拉克·奥巴马的一段视频被操纵,使其看起来像他说了一些他没有说的话,但他的眉毛运动与他的嘴唇运动不匹配。但在随后的deepfakes中,他的眉毛像预期的那样移动。由于人工智能可以被训练来检测和修复这种差异,最新一代的deepfake几乎没有错误。出现了许多负面应用[3,7],但也有许多积极的应用,这些应用也推动了技术的进步。例如,改善视频或者对有语言障碍的人进行录音,在电影中添加更逼真的语言配音,甚至在电影中重新创建一个已经去世的演员扮演的角色,例如已故的凯莉·费舍尔扮演的莱娅公主,在星球大战电影《侠盗一号》中[8]。游戏或其他娱乐的虚拟现实应用似乎特别有前途和可能[9]。正如上面提到的OpenAI软件所示,计算机科学家也在使用AI程序来生成可信的文本和语音[1]。与修改后的视频一样,这种建模现在也使用GAN来生成逼真的句子[10]。例如,谷歌翻译现在运行在这样的AI算法上[11]。 的算法足够复杂,可以生成特定人物风格的文本,例如,生成一个新的故事,已故作家简·奥斯汀[12]。程序员已经创建了聊天机器人,例如在社交媒体平台上,它们的阅读和声音足够真实,以至于潜在客户可以像真人一样与它们互动在人工智能通信中使用最广泛的商业应用中,亚马逊的Alexa和苹果的Siri基于云的语音服务被编程为模拟与客户的Alexa和Siri可能不是真实的人,但他们似乎确实对问题给出了真实的答案。古德温说,到目前为止,程序员在逼真的视频和静止图像方面取得了更大的进展。但他说,如果目前的趋势继续下去,可能很快就有可能建立人工智能算法来编写和数字化创建全新的可信语音,然后将其与模拟音频和视频融合在一起,这是一个基本自动化的过程。这种前景及其潜在的欺骗用途促使研究人员开发代码来自动识别深度伪造,并呼吁社交媒体网站将此类媒体识别为被操纵的媒体。2020年12月,Facebook与微软、亚马逊和包括Lyu在内的学术计算机科学家合作推出了Deepfake检测挑战赛,招募研究人员提交自己的自动检测工具,有机会赢得100万美元的奖金。美国国防部高级研究计划局的工程师也在开发工具,以自动确定视频或照片是否被操纵[15]。引用[1] 施瓦茨岛几个世纪以来,人们一直梦想着有一台机器能产生语言。然后,OpenAI创造了一个[互联网]。纽约:IEEE Spectrum; 2019年12月2日[引用于2020年4月18日]。可从:https://spectrum.ieee.org/tech-talk/artificial-intelligence/machine-learning/for-centuries-people-dreamed-of-a-machine-that-can-produce-language-then-openai-made-one获得。[2] OpenAI。GPT-2:1.5B版本[Internet]。OpenAI; 2019年11月5日[引用于2020年4月18日]。可从以下网址获得:https://openai.com/blog/gpt-2-1-5b-release/[3] 韦多利瓦湖媒体取证和Deepfakes:概述。2020. arXiv:2001年。06564.[4] [10]李文,李文.保护世界领导人免受深度伪造。在:IEEE计算机视觉和模式识别研讨会会议论文集; 2019年6月16日至20日;长滩,加利福尼亚州,美国; 2019年。p. 38比45[5] 李毅,杨旭,孙平,齐华,吕世。Celeb-DF:Deepfake取证的大规模挑战性数据集。2020. arXiv:1909.12962。[6] Chesney R,Citron DK. Deep Fakes:A迫在眉睫的挑战隐私,民主,和国家安全。伯克利:加州法律评论; 2019年12月17日[引用2020年4月18日]。可从以下网址获得:https://doi.org/10.2139/ssrn.3213954[7] 格雷厄姆·J 这不仅仅是钓鱼邮件,现在我们也要担心虚假电话。泰森斯角:今日美国 ;2020 年 2 月 27 日 [ 引 用 2020 年 4 月 18 日 ] 。 可 从 :https://www.usatoday.com/story/tech/2020/02/27/phishing-deepfake-audio-scams-increasing-fake-calls/4876171002/.[8] Winick E.如何作为嘉莉费舍尔剑桥:麻省理工学院技术评论; 2018年10月16日[引用2020年4月18日]。可从:https://www.technologyreview.com/2018/10/16/139739/how-acting-as-carrie-puppet-made-a-career-for-rogue-ones-princess-leia/.[9] 美国国家科学院、工程院和医学院。人工智能对网络安全的影响华盛顿特区:国家科学院出版社; 2019年。[10] 王克,万X.基于混合对抗网络的情感文本自动生成。Artif Intell2019;275:540-58.[11] Wu Y , Schuster M , Chen Z , Le QV , Norouzi M , Macherey W , et al.Google's neural machine translation system : bridging the gap betweenhuman and machine translation. 2016. arXiv:1609.08144。[12] 普尔湾机器人作家的崛起:人类小说家的不祥之兆?[互联网]。伦敦:卫报; 2019年3月25日[引用2020年4月18日]。可从:https://www.theguardian.com/books/2019/mar/25/the-rise- 的机 器人 作者是 写在墙上的人类小说家。[13] Eggerton J. Hill呼吁Facebook,Reddit和其他打击deepfakes的社交媒体标准。 巴斯:多 渠 道 新 闻 ;2019 年 10 月 2 日 [ 引 用 2020 年 4 月 24 日 ] 。 可 从 :https://www.multichannel.com/news/hill-calls-social-media-standards-facebook-reddit-others-combating-deep-假货[14] Deepfake检测挑战[互联网]。Menlo Park:Facebook; c2019 [引用于2020年4月24日]。可从以下网址获得:https://deepfakedetectionchallenge.ai/[15] 图雷克湾Media Forensics(MediFor)[Internet]. Arlington:DARPA; c2016[cited2020Apr24]. 可 查 阅 : https://www.darpa.mil/program/media-forensics。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功