YouTube上的注意力动态：概念模型，参与度指标的时间分析，假视图

46 浏览量更新于2024-02-02 收藏 5.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

YouTube上的注意力动态：概念模型，参与度指标的时间分析，假视图引用此版本：玛丽亚·卡斯塔尔多YouTube上的注意力动态：概念模型，参与度指标的时间分析，假视图。自动.格勒诺布尔阿尔卑斯大学[2020-..]，2022.英语NNT：2022GRALT 084。电话：04001597HAL Id：tel-04001597https://theses.hal.science/tel-040015972023年2月23日提交HAL是一个多学科的开放获取档案馆，用于存放和传播科学研究文件，无论它们是否已这些文件可能来自法国或国外的教学和研究机构，或来自公共或私人研究中心。L’archive ouverte pluridisciplinaireTHAPOSE为了获得等级格勒诺布尔阿尔卑斯大学博士博士学位：EEATS-Electronique，Electrotechnique，Automatique，Traitement du Signal（EEATS）专业：Automatique -ProductiqueUnité de recherche：Grenoble ImagesYouTube上的动态注意力：概念模型，参与度度量方法分析，错误观点YouTube上的注意力动态：概念模型，参与度指标的时间分析，假视图提交人：玛丽亚·卡斯塔多方向：保罗·弗拉斯卡Chargé de Recherches，Université GrenobleAlpes托马索·文图里尼INRIADirector de thèse报告员：让-菲利普·科内特CHERCHEUR HDR，巴黎科学院亚历山德罗·弗拉米尼印第安纳大学Thèse soutenue publiquement le17 novembre 2022，devant le jury composé de：让-菲利普·科内特CHERCHEUR HDR，巴黎科学院印第安纳大学教授亚历山德罗·弗拉米尼研究所大学教授Politiques DE GrenobleKibangou ALAINGrenoble Alpes大学人类发展会议厅Béatrice ROUSSILLONGrenoble Alpes大学人类发展会议厅克劳迪奥·阿尔塔菲尼林雪平大学特别报告员特别报告员考官考试考官邀请函：弗洛里亚娜·加尔久洛CHARGE DE RECHERCHE，CNRS托马索·文图里尼CHARGE DE RECHERCHE，CNRS格勒诺布尔阿尔卑斯大学ECOLE DOCTORALE EATS电子电气技术信号自动处理T H S E为了获得科学博士格勒诺布尔sPÉCIALITÉ：AUTOMATI qUE-PPRODUCTI qUEPrésentée et soutenue par玛丽亚·卡斯塔多YouTube上的注意力动态：概念模型，参与度指标的时间分析，假视图这是保罗·弗拉斯卡和托马索·文图里尼的命令Grenoble Images Parole Signal Automatique（GIPSA-lab）2022年11月17日导演：保罗·弗拉斯卡-法国格勒诺布尔-阿尔卑斯大学GIPSA实验室导演：托马索·文图里尼独联体、国家科学研究中心Encadrante：Floriana GARGIULO-GEMASS，巴黎索邦大学，CNRS陪审团：报告员：让-菲利普·科内特- Medialab，Science Po，Paris亚历山德罗·弗拉米尼-印第安纳大学审查员：Gilles BASTIN- PACTE，格勒诺布尔理工学院阿兰·基班古-格勒诺布尔-阿尔卑斯Béatrice ROUSSILLON-GAEL，格勒诺布尔-阿尔卑斯克劳迪奥·阿尔塔菲尼-林雪平大学内容介绍11艺术71.1集体注意81.2在线平台1.3结论. 182垃圾新闻泡沫：一个概念模型192.1概念化垃圾新闻泡沫202.2Hilgartner和Bosk公式21中的模型描述2.3模型形式化242.4模型结果和讨论252.5结论. 283YouTube和数据收集313.1YouTube作为一个平台323.2收集YouTube数据：挑战和工具403.3收集的数据443.4结论.474低音扩散模型494.1A Bass Model forAttention Dynamics注意力动力学的巴斯4.2数据拟合51我二、目录4.3更强的推荐意味着更高的人气和更短的寿命544.4讨论565假的观点，真实的趋势595.1导言：来自数据595.2克服信息丢失615.3错误的观点纠正655.4讨论705.5机器人实验716新冠病毒如何扰乱网络节奏796.1一、导言. 796.2与Twitter80比较6.32020年春季COVID-19封锁836.4讨论：YouTube，一个情感和夜间平台947结论与展望977.1主要贡献977.2限制和开放性问题997.3扩展扩散模型100参考书目122图目录2.1垃圾新闻泡沫：潮流增强对注意力制度的影响262.2垃圾新闻泡沫：时尚提升梯度的272.3垃圾新闻泡沫：时尚提升对生命周期的影响2.4垃圾新闻泡沫：时尚助推增加注意力峰值293.1YouTube3.2YouTube网页布局和可收集的数据413.3YouTube上没有统计数据424.1拟合性能：MAPE和MdAPE误差分布。....................................................................524.2优秀视频剪辑534.3MAPE和MdAPE在阈值附近的视频示例534.4不良视频拟合544.5低音模型：模仿者VS创新者554.6Bass模型：建议的565.1重建校正时间序列：基准方法的性能645.2重建校正时间序列：XGBoost65的性能5.3更正及其分布665.4The rhythms ofviews corrections观点修正的695.5视图更正和受欢迎程度的相关性705.6向未登录用户建议的弹出窗口735.7工作中的机器人：每小时的浏览量演变77III四.图表清单5.8工作中的机器人：重建的校正786.1COVID-19封锁期间的在线活动836.2COVID-19封锁期间的昼夜节律变化846.3夜间与白天以及工作日与周末的活动模式。..............................................................866.4COVID-19封锁期间平台访问频率增加876.5封锁前后的主题和情绪896.6一天中的时间按主题92介绍在过去的20年里，社交网络已经渗透到我们的社会中，彻底改变了我们日常生活的方方面面：社交互动、沟通和获取新闻。在相当短的像Twitter、Tumblr、Instagram、TikTok和LinkedIn这样的名字对我们大多数人来说都很熟悉，无论我们是否是活跃的社交媒体用户。社交网络平台很快就放弃了最初仅仅作为分享经验或与朋友交流的渠道的角色，成为我们社会中信息传播和意见形成的关键角色[NR20]。如今，它们是大多数人获取信息的主要途径之一，因此也是影响公众舆论的最有力工具之一因此，它们成为许多政治家开展竞选活动、政党进行宣传和引发政治辩论的场所如此重要的角色伴随着巨大的责任，但多年来，社交网络并不总是能做到这一点。2016年的美国大选提供了最明显的例子，说明了对网络平台缺乏控制可能对民主进程产生的影响当时，Facebook上充斥着假新闻，被重新分享的次数超过了传统媒体发布的内容。数以千计的虚假账户充斥着Facebook和Twitter [Sha+17b]，传播影响选举政治辩论的假新闻[BF 16]。这种大量的错误信息，往往有利于唐纳德·特朗普而不是希拉里·克林顿[AG17] ，导致许多人想知道如果没有假新闻的影响，选举结果会是什么[Out][Dew16][Rea16]。事实上，一个对社会有如此影响的事件可能被扭曲[BF 16]，社交网络管理内容传播的方式当然令人担忧，并吸引了许多研究人员的兴趣。了解这些平台上内容传播的动态，了解用户推荐内容的机制，了解是什么让一段内容成为病毒式传播，已经成为确保民主进程正常进行的基本必要条件，因此值得科学界的充分关注12介绍论文目标本论文的目标是研究内容的在线传播的动态，首先从概念的角度来看，然后与数据驱动的方法，从YouTube收集的数据的基础上至于概念方法，我们有兴趣建立一个模型，通过它我们可以研究的影响，某些变量相关的新闻消费可以对集体动态的注意力。根据数据驱动的方法，我们的目标是开发模型来解释YouTube上流行度的时间演变，同时通过适合计算社会科学的工具来分析数据中可能出现的所有证据。主要贡献作为媒介研究与计算社会科学的桥梁，本文的第一个贡献是对Hilgartner和Bosk在1988年提出的“公共竞技场模型”进行了数学形式化通过这种形式化，并通过重新解释的模型应用于社交网络，我们讨论了什么是媒体舞台上的风险，过度奖励时尚的内容具有较高的知名度。我们认为，这种对趋势性问题的强调会对公共辩论产生两个不利影响：第一，它缩短了讨论每一个问题的时间;第二，它增加了集体注意力的短暂集中。除了这种理论的形式化，另一个重要的贡献，这篇论文包括收集前所未有的数据的时间演变的YouTube的意见。这些时间演变的收集只能通过查询过去三年中每小时的YouTube API来实现鉴于收集这种时间演变的困难，以及文献中缺乏对它们的研究，这些数据从多个角度提出了有趣的证据。首先，这些数据使我们能够建立一个内容传播的模型，而自2017年以来，这种模型就没有被研究过（YouTube限制访问时间序列）。我们构建的模型使我们能够区分创新所起的作用，即，用户对内容的独立搜索，以及模仿，即，在内容传播中，其他人或YouTube的内容建议具体来说，在我们的数据中，我们观察到模仿发挥更大作用的视频平均更受欢迎，并且比其他视频更快地到达观众从数据中出现的另一个有趣的证据涉及一个研究不足的问题。介绍3YouTube政策：删除归因于自动程序（机器人）的非法视图在我们的研究中，我们研究了这种现象的程度（影响超过50%的视频）及其特征。我们讨论了更改参与度指标可能导致的风险：内容似乎更受欢迎，可以通过人工和算法推荐更广泛地共享，从而接触到更多的受众。与这些数据相关的最后一个贡献来自于在社交网络历史上的一个独特时期收集这些数据：新冠肺炎大流行。通过分析这段时间，我们得以研究并认识到访问平台的“自然节奏”，而不是与疫情对用户生活的影响有关的“例外”更一般地说，它使我们能够分析在线共享的主题和情感如何因为这种前所未有的冲击而发生变化。曼尼托巴角轮廓这部手稿的其余部分由七章组成第一章回顾了现有的关于在线注意力动态的文献非常不同的，有时是遥远的科学界处理这个话题：流行病学，复杂系统的物理学，媒体研究和营销科学。在本手稿的第一章中，我们的目标是揭示在不同学科中获得的主要结果，观察独立研究的一致性或可能的不一致性，并提出迄今为止公认的知识的综合在第2章中，我们提出了一个数学形式化的Hilgartner和Bosk的“公共舞台模型”，并重新解释它在社交网络的光，旨在概念化的内容传播的时间方面的基础上的信息障碍。在第3章中，我们将介绍什么是YouTube，它的历史，涉及它的争议，以及它如何演变以应对随着时间的推移出现的问题我们描述，在可能的范围内，它的推荐系统和变量时，它考虑选择哪些内容建议给用户。我们讨论了平台对数据收集的限制，并讨论了克服这些限制的可能技术。最后，我们提出了在过去三年中收集的数据，以下章节的结果是基于这些数据。在第4、5和6章中，我们讨论了从数据中得出的证据在第4章中，我们将Bass模型应用于观看次数的演变，以确定模仿和创新在平台上的内容传播中所扮演的角色在第5章中，我们将重点介绍YouTube的政策，即当它认为浏览量是由自动程序完成时，它会减少浏览量在第六章中，我们将法国第一次封锁时期与前一时期进行4介绍研究新型冠状病毒对网上分享的活动、主题和情绪的影响最后，第七章总结了我们的贡献，讨论了我们工作的局限性，并提出了一些相关的开放问题和未来研究的具体场所出版物清单以下是在这三年的博士论文的详尽清单已经发表或正在审查中。其中一些与在线注意力动态或YouTube的研究没有直接关系，因此不在本文中讨论手稿中讨论的出版物1. 玛丽亚·卡斯塔尔多保罗·弗拉斯卡托马索·文图里尼在线注意力动力学。Cyber-Physical-Human Systems：Fundamentals and Applications(2022本文对应于本文的第一章。2. 玛丽亚·卡斯塔尔多，托马索·文图里尼，保罗·弗拉斯卡。“垃圾新闻泡沫：模拟在线竞技场注意力的上升和下降”。新媒体与社会24，9（2022），页。2027-2045.本文对应于本文的第二章。3. 玛丽亚·卡斯塔尔多，弗洛里安娜·加久罗，托马索·文图里尼，保罗·弗拉斯卡。“夜晚的节奏：2020年春季COVID-19封锁期间在线夜间活动和情绪弹性的增加EPJ数据科学10，7（2021）。本文对应于本文的第六4. 克拉西米拉·博扎诺娃，尤安·丁科夫，伊万·科伊切夫，玛丽亚·卡斯塔尔多，托马索·文图里尼，普雷斯拉夫·纳科夫.“预测新闻媒体报道的真实性，使用对YouTube频道中用户注意力的在自然语言处理最新进展国际会议论文集（2021年），pp。182-189.第七章将简要讨论与论文工作相关的部分结果。审查中5. 玛丽亚·卡斯塔尔多，保罗·弗拉斯卡，托马索·文图里尼，弗洛里安娜·加久罗。“用平台碎屑做数据科学，对虚假观点和YouTube关注度进行调查介绍5自行车.《计算社会科学杂志》，评论中。本文对应于本论文的第5.1至5.4手稿中未讨论的出版物在论文中，我还可以合作分析YouTube以外的平台特别是，我研究了Polymath博客，一个协作科学平台。这项研究使我能够完善我对应用网络科学工具的知识，这些工具对任何社交网络的分析都很有用6. Floriana GargiuloMaria Castaldo Tommaso Venturini Paolo Frasca.“协作科学中劳动力、生产力和创新的分布。应用网络科学7，19（2022）。在我的硕士论文开始的研究路线之后，我一直在研究网络动力学，特别是研究网络形成游戏，其中每个节点的目标是最大化其Bonacich中心。这项研究产生了两篇论文，一篇会议论文和一篇期刊论文，后者目前正在审查中。7. 玛丽亚·卡斯塔尔多，科斯坦萨·卡塔拉诺，贾科莫·科莫，法比奥·法格纳尼。“关于中心最大化博弈”。在IFAC-PapersOnLine 53.7（2020）中，pp. 2844-28498. 科斯坦萨·卡塔拉诺，玛丽亚·卡斯塔多，贾科莫·科莫，法比奥·法格纳尼。网络中心性最大化博弈“运筹学数学，（2022）正在审查中。第1现有技术本章的目的是说明科学界如何在不同的学科中试图回答关于在线内容传播的关键问题：集体注意力如何主题和来源如何在公共辩论中上升和下降？媒体基础设施如何塑造这些动态？在解决这些问题的角度来看，本章提供了一个在线内容传播的动态文献回顾。我们的目标是通过实证研究、数学建模和数值模拟，为回答本论文剩余部分将讨论的悬而未决的问题奠定基础。对集体注意力动态的兴趣和社会学一样古老。早在19世纪，Gabriel Tarde [Tar 90];[Tar 93]就认为这些短暂的动态（而不是更稳定的结构和规范）应该构成社会研究的核心[Lat 02]。注意力动力学在70年代和80年代的社会学关注中再次兴起“注意力周期”（[Dow72]; [HB 88]）和“议程设置”（[MS 72]; [McC 05]）等概念随着数字媒体的出现，集体关注的兴趣从供应方转移到需求方。为了证明赫伯特·西蒙（Herbert Simon）这引起了许多关于“注意力经济”兴起的后果及其将集体注意力和辩论转化为可销售商品的方式的批判性思考关于注意力经济的研究非常有趣，因为它试图通过无数个体选择的持续收敛和发散来概念化一个非常大的现象（集体注意力在媒体系统中流动的方式）。与此同时，出于同样的原因，关于注意力经济的文献在很大程度上仍然是理论性的。直到最近，对集体注意力动态的实证研究一直受到难以获得广泛和78现有技术代表性足以说明整个媒体人口，但丰富到足以区分每个短暂的个人选择[VL 10];[Lat+12]。然而，在过去的几年里，商业和政府行为者对媒体互动的监控进行了大量投资[Zub19]，为集体注意力流动的实证和计算研究提供了必要的数据，学者们已经开始抓住这种可能性。基于这一不断增长的文献，本章的目的是提出一个关于网上内容传播的广泛认可的要素的综合为此，首先我们将尝试总结关于集体注意力的一般发现：我们将讨论集体注意力作为不同新闻故事竞争的有限资源，讨论这种竞争产生的结果，特别是集体注意力如何在可用内容中分配。我们将介绍一些集体关注的主要驱动因素，以及这些因素如何被纳入各种模型中，以解释在线内容流行度的演变。在第二阶段，我们将专注于我们研究集体注意力的领域：在线平台。虽然我们将专门用一章来讨论YouTube，但在这里，我们似乎必须强调所有平台都如何约束和强烈影响新闻在其中传播的方式了解这种影响是通过什么方式发生的，对于在线内容传播至关重要1.1集体关注本节概述了关于集体注意力的已知知识，介绍了以前的文献，这些文献是按概念而不是学科汇总的。考虑到处理这些问题的科学团体的多样性，我们将讨论集体注意力的每一个特征在不同的团体中是如何被处理的我们将讨论支持它们的经验证据，以及在可能的情况下，如何将它们整合到推理模型中。我们在文献中发现的集体注意力的特征以及我们将要讨论的特征如下：1. 它由有限的资源组成2. 它高度集中在少数几个物体上;3. 它被新奇事物所吸引;4. 受大众化的影响1.1. 集体关注9集体注意力是一种稀缺资源当Herbert A.西蒙首先提出了注意力经济的概念，他的理论基础是人类的注意力可以被视为稀缺商品。尽管人类大脑的复杂性和处理能力令人印象深刻，但不可否认的是，它的能力是有限的：我们几乎不能一次处理一个对象，我们几乎不能同时执行两项任务。认知科学中的许多研究已经调查了我们大脑的局限性，我们请感兴趣的读者参阅[MI05]。为了我们的目的，只需指出这些限制已经成为许多作品中的标准假设，不仅用于分析在线参与模式[LS+19][Wen+12][Qiu+17]，而且用于建模社会群体中的意见动态[RF 20]; [CFR 21];[Cer+21]。对于本章来说，这些假设是研究集体注意力的一个重要起点，因为个体认知资源的稀缺性使注意力成为竞争日益激烈的市场的对象，注意力不再是个体特征，而成为在线消费的集体商品注意力高度集中由于个人和集体注意力的有限性，新闻必须相互竞争，以获得公众的注意这项比赛奖励的项目很少变得过于流行，而他们中的绝大多数仍然不被注意。正如在过去几年中广泛讨论的那样，在线流行是高度倾斜的，相对少数的参与者获得了大部分公众的关注。在线项目之间的流行度分布经常被发现遵守“80-20规则”，也被称为帕累托规则：20%的在线内容占80%的流行度。这方面的证据已经在许多平台上得到了证明：Metacafe，Yahoo！Dailymotion、Veoh [Mit+09]和YouTube [Cha+07]，以及Twitter [Bil+15][Lu+14]中的转发我们有理由怀疑是什么导致了这种偏斜，以及它是否也存在于像上面提到的用户生成内容平台Cha等人在2009年[Cha+09]给出了这些问题的第一个答案，他们比较了YouTube等用户生成内容（UGC）平台和Netflix或Yahoo等虚拟生成内容（PGC）平台上的视频电影他们概述说，在UGC平台上，注意力在项目之间的分配不那么平均更准确地说，当时YouTube上10%最受欢迎的视频占总观看量的近80%，而点播视频的受欢迎程度分布不那么偏斜。在实践中，虽然在PGC平台上从未发生过内容没有公开的情况，但在YouTube上有大量视频根本没有收到任何意见。但这并不是唯一的10现有技术UGC和PGC之间的差异：作者还强调了两种平台上上传的内容数量的巨大差异，UGC平台收集的材料数量明显更高。YouTube上的大量内容，加上人类认知的局限性和同伴的影响，可能是UGC平台中强调偏斜的原因：人们只能处理有限的注意力，必须在过多的内容中进行选择，最终可能依赖于模仿。结果，集体注意力更加集中，许多项目不能引起丝毫兴趣。认识到注意力的分布是倾斜的，这不仅对进行注意力动态研究至关重要，而且对该领域以前的工作也至关重要：在社交平台上使用经验数据通常意味着处理大多数没有或很少受到关注的项目。当旨在对流行趋势建模时，删除不相关的观察结果就变得很重要例如，Crane和Sornette在[CS08]中的内容扩散模型仅基于数据集中10%的YouTube类似地，Kampf等人在[Kä +12]中不得不对他们的维基百科数据集进行重要的过滤：他们监控的大量文章很少被访问，几乎从未经历过显著的活动爆发。为了过滤数据，他们专注于在观察期间至少在一小时内显示出256次浏览的文章。这个门槛似乎并不特别苛刻，但只有0.17%的作者研究的维基百科文章达到了这个门槛如此低的百分比再次证明了网络上有大量内容，但从未或很少被访问。新颖性的作用一旦承认很少有项目能吸引大多数公众的注意力，人们自然会想知道是哪些因素使每个人的兴趣集中在特定项目上。在“注意力经济”文献中，新颖性通常被视为主要因素之一[Sim71b] [Gol97]。事实上，正如戈德哈伯所说，由于很难通过重复过去已经做过的事情来获得新的注意力，所以在注意力经济中，新颖性发挥了关键作用在线平台的管理者非常清楚新颖性的重要性它的推广是由平台明确寻求的，并在推荐系统中特别编码，特别是在选择和向用户推荐内容的算法中，试图满足他们的品味和兴趣。Covington等人[CAS16]，2016年YouTube的开发人员，将新鲜度列为YouTube推荐系统的三大需求之一。特别是，他们承认，由于“每秒上传的视频长达数小时

下载后可阅读完整内容，剩余1页未读，立即下载