没有合适的资源?快使用搜索试试~ 我知道了~
Instagram热度预测:新局外人百分比模型及机器学习预测分析【2020 ICTExpress】
⃝可在www.sciencedirect.com在线获取ScienceDirectICTExpress 6(2020)243www.elsevier.com/locate/icte一个分析和预测模型的局外人百分比作为一个新的流行度量在InstagramKristo RadionPurba,David Asirvatham,Raja Kumar Murugesan马来西亚泰勒大学计算机与信息技术学院接收日期:2020年2月24日;接收日期:2020年6月11日;接受日期:2020年7月2日在线预订2020年摘要在这项研究中,定义了一个新的Instagram流行度指标,即帖子的局外人百分比(OP)。局外人是非追随者喜欢用户的帖子。结果发现,OP是最有效的指标,如果参与率和追随者的增长相比。使用来自用户数据、帖子数据、主题标签、参与度和图像情感的特征,对回归模型进行了测试,以预测OP。采用随机森林预测模型,预测精度(R2)达到71.9%.本研究还分析了每个特征对OP的趋势,发现主题标签的使用是提高OP的最重要因素c2020年韩国通信与信息科学研究所(KICS)。出版社:Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:社交媒体; Instagram;流行度;回归;机器学习1. 介绍近年来,社交网络成为日常生活的一部分随着用户数量的不断增长,社交网络成为品牌营销的重点[1]。其中,Instagram是针对千禧一代的最佳平台[2],也是参与度最高的平台[3]。对于普通用户和企业用户来说,流行度至关重要。作为一个普通用户,受欢迎程度会产生更多的商业机会。对于企业用户来说,选择品牌营销人员变得更加困难。近年来做了很多研究,如流行度预测[4],虚假用户[5]和成本与追随者比率分析[6]。最近有关于Instagram流行度分析和预测的研究,流行度指标包括参与率[7]、喜欢次数[8分析中包含了各个方面,例如元数据,主题标签[7,12,15],视觉[7,9,11],情感[16]。参与率(每追随者喜欢)是最常见的受欢迎程度指标。一份报告还提出了其他指标,如追随者增长,影响力,印象等。[17 ]第10段。∗ 通讯作者。电子邮件地址:kristoradionpurba@sd.taylors.edu.my(K.R.Purba),david. taylors.edu.my(D.Asirvatham),rajakumar. taylors.edu.my(R.K.Murugesan)。同行评审由韩国通信和信息科学研究所(KICS)负责https://doi.org/10.1016/j.icte.2020.07.001在本研究中,提出了一个新的度量标准,称为局外人百分比。局外人是指那些不在关注者之列,但喜欢某个用户的帖子的人。据我们所知,这种新的度量标准尚未在以前的研究中使用本研究的目的是分析影响外部用户比例的因素,并建立回归模型进行预测,建立以下假设:(H1)hashtag是影响外部用户曝光的最重要因素;(H2)外部用户比例越高,关注者增长率和参与率越高。在这项研究中解决了以下问题,即,(R1)影响局外人比例的因素有哪些?(R2)预测外来人口比例的最佳回归模型是什么?(R3)局外人百分比与其他指标之间的相关性如何?局外人百分比分析和预测将作为流行度预测的附加指标,可供业务用户使用。此外,分析结果将有助于普通用户或影响者进一步了解如何接触关注者圈子之外的人。2. 人气预测之 前 的 研 究 已 经 证 明 了 在 社 交 网 络 上 , 尤 其 是Instagram上,流行预测的有用性。10.7贸发会议2405-9595/2020韩国通信和信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。244K.R. Purba,D.Asirvatham和R.K.Murugesan/ICT Express 6(2020)243Fig. 1. 研究方法。有助于提供如何出名的一般知识[4],确定热门帖子的特征[7,18],以及支持商业用户[10]。在以前的研究中使用了各种流行度指标,例如最常见的喜欢数量。喜欢的数量在单个用户或特定数据集上更准确[10,19],而参与率更适合较大的用户[7]。有离散化的指标,如流行/不流行[4]和病毒/非病毒[13]。其他指标是内在受欢迎程度[14]和每日观看次数[20]。在Instagram上,标签是其他人超越追随者或追随者圈子的重要方式。虽然hashtags的使用被证明可以增加喜欢[21,22],但它还没有被分析为外部可达性。流行的另一个关键方面是图像分析[7,9]。因此,本研究使用主题标签和图像分析进行预测。3. 研究方法本研究从数据收集和过滤开始,然后进行分析和预测,如图所示。1.一、3.1. 数据收集和过滤通过从Top-Hashtags收集1000个top-hashtags开始数据收集[23]。从标签中获取了热门和最近的帖子。这些帖子的进一步信息来自Instagram API和第三方网站。为了做出公平的预测,具有以下条件的帖子被删除,即(1)年龄30天,(2)喜欢的数量10。<<30天的最低年龄是为了确保职位达到稳定状态,如[8]所建议的那样。最终,收集并使用了来自6383个独立用户的40,047个帖子。请注意,仅收集图像(而非视频)3.2. 特征提取这些特征是从收集的数据中计算出来的。此外,使用Google NIMA(神经图像评估)[24]计算图像美学和技术质量,使用源代码可从GitHub获得[25]。总共有29个特征。这些功能分为:用户功能,即:– pos:员额– :以下– flr:关注者– bl:传记长度– lin:链路可用性(true或false)后功能,即:– mt:媒体类型、图像或轮播(多媒体)– imgs:图像大小,以百万像素为单位– 年龄:自上传日期起的天数,限制为365天。– clp:标题长度(纯),不包括主题标签– day:上传日,从d0(星期日)到d6(星期六)– tf:上传时间,从t0(00– lt:位置标记(true或false)– ltp:Location标签有一个公共页面(true或false)– ut:用户标签– aest:图像美学质量(0.00至10.00)– tech:图像技术质量(0.00至10.00)关键字特征,从cortical.io API获取[26],即– kc:标题– kl:标题中关键字的总字符数标签功能。所有的标签功能都是用来突出帖子对外人的曝光度。例如,如果标题包含“#photograph #newyork”,则将从Instagram的hashtag API收集来自两个hashtag的信息。标签统计值(hl、hp、hv、hr),是标题中所有主题标签的摘要,使用log natural进行了规范化。hashtag的特点是:– cl:标题长度,包括主题标签– hc:标签计数– hrel:相关主题标签– hl:标签中最近帖子的点赞总数– hp:主题标签流行度,即主题标签使用计数的总和– hv:标签可见度,即标签增长率之和。增长率是标签中两个连续帖子之间的平均间隔,以小时为单位。– hr:主题标签可达性,即(hpxhv)的总和订婚的特点。在未来的预测中,这些功能在发布时间内将不可用。因此,我们进行了有和没有这些功能的实验。其特点是:– lik:喜欢– com:评论– er:参与率,即(lik+com)/flr情感特征。文本和图像情感分析的研究是近年来兴起的文本研究K.R. Purba,D.Asirvatham和R.K.Murugesan/ICT Express 6(2020)243245表1预测结果。特征方法R2 MAE RMSE RAE RRSEMS(190.910 0.925图3.第三章。随 机 森 林 的重要性。图四、关 注 者数量(flr)与OP.图二、基 于 P e a r s o n 相 关 性 排 名 的 特征重要性。情感分析非常准确[27,28],我们对帖子评论的初步实验显示出不令人满意的结果。这是由于使用了各种语言和结构,因此将保留文本分析以供将来研究。情感分析的另一个新兴领域是图像极性检测[29,30],其中图像可以为人类观众产生积极的(例如美丽的风景)或消极的情绪(例如骚乱)。因此,使用GitHub上[30]提供的库添加了以下功能[31]:–4. 局外人百分比预测在这项研究中,测试了流行的回归模型,即,线性回归(LR),支持向量回归(SVR)和随机森林(RF),输出为外部百分比(OP)。OP被定义为局外人的数量除以喜欢者的数量,局外人是非追随者的喜欢者。进行了三个实验,如表1所示,其涉及不同的特征集,即:(1)元数据,情感(MS),(2)元数据,情感,主题标签(MSH),(3)所有特征(All)。元数据是用户、帖子和关键字特征。使用元数据和情感特征的预测没有显示出令人满意的结果,最好的R2为0.504。标签的添加显示出R2的0.612的显著提升。最后,加入了啮合功能,将R2提升至0.719。这些实验显示了主题标签和参与特征之间的关系。然而,它们是积极的还是消极的影响还有待于用特征重要性来证明。随机森林(RF)产生了最好的结果。5. 数据分析为了检查特征与OP之间的相关性,进行了使用特征重要性的分析和(线性)趋势分析,并将在本节中介绍5.1. 特征重要性特征重要性可以使用随机森林或每个特征与OP之间的相关性排名来计算,如图2所示。2和3虽然RF的重要性可以更准确,但与相关性排名不同,它不会显示积极或消极的影响。参与度的特征一直在两个图表中名列前茅。正相关表明,较高的参与率也意味着较高的外部人员。标签功能,特别是标签计数,也是两个图表中的顶级贡献者之一。这意味着使用更好的标签可以增加局外人的数量。尽管如此,找到更好的标签可能是棘手的,因为流行的标签(惠普)可以快速增长(hv),从而降低了可达性(hr)。增加外来者的最简单的技巧是使用更多的主题标签(hc)、增加字幕长度(cl,clp)以及制作更有意义的字幕(kc,kl)。RF的特征重要性通常比相关性更准确,因为相关性线性地处理数据。因此,基于图。3、其他重要特征是关注者数量(flr)、用户标签数量(ut)、发帖时间(tf)。然而,图像质量(aest,tech)并不是一个重要的贡献者,这给未来的研究留下了一个问题5.2. 用户特征图4显示了flr与OP之间的比较。在我们的实验中,除了flr之外的用户特征没有显示出显著的趋势线。此外,它们是弱预测因子(来自RF的结果),因此从图中排除。由于在从具有大量关注者的用户获取关注者列表时遇到的各种挑战和错误,功能)SVR0.28612.97417.5790.8000.857RF0.50411.47314.7430.7080.718MSH(26LR0.26713.50417.5670.8330.856功能)SVR0.42011.55315.8090.7130.770RF0.61210.17413.0940.6280.638所有(29LR0.43712.19515.3960.7520.750功能)SVR0.60410.07912.9970.6220.633RF0.7199.04311.1410.5580.543246K.R. Purba,D.Asirvatham和R.K.Murugesan/ICT Express 6(2020)243=图五、 用户标签数量(ut)与OP.图第六章 上传时间(tf)和上传天数(天)与OP.我们能找到的最大flr是13700因此,图4不能成为Instagram用户的一般表示5.3. 员额特征在后特征中,ut和tf是最高的预测因子。其他特征将被排除,以防止混淆。ut和tf对OP的曲线图如图2和3所示。5和6.图中的线性趋势。5显示有增加0.2344%的OP每增加1个用户标签。在我们的数据集中,用户标签的平均值为0.82。至于有最少1个用户标签,一篇文章平均有4.08个用户标签。只有0.49%的帖子用户标签>20。在 我 们 的 数 据 集 中 , 大 多 数 帖 子 没 有 用 户 标 签(80.02%)或只有一个用户标签(8.09%)。没有用户标签的帖子平均OP为27.09%,而至少有1个用户的帖子标签具有29.19%平均OP。这一发现表明,使用用户标签可以吸引局外人,因为帖子也会可以在标记的用户页面上找到。张贴日期和时间与OP的关系图见图11和图12。7和8发布的最佳时间框架是周四155.4. 关键字特征图7显示了kl与OP之间的比较。在我们的实验中,关键字计数(kc)的趋势线是微不足道的。尽管用于关键字检测的API支持多达50种语言,但检查结果的准确性非常耗时。通常,kl结果可以给出关键词对OP的贡献的总体情况。kl每增加1,OP就增加0.22。图第七章 趋势分析关键词长度(kl)与OP.图八、 标题长度(cl)与OP.图第九章主 题 标 签 计 数 ( h c ) 与 OP.图10. 相关主题标签(hrel)与OP.5.5. 标签特征主题标签特征hp和hv被排除,因为它们被聚合在hr中。与CLP不同,标题长度(cl)包括主题标签,因此,它被归类为主题标签功能。cl、hc、hrel、hl、hr的曲线图见图1和图2。 八比十二与仅使用元数据特征相比,主题标签特征被证明可以将预测准确率提高10.8%(R2差异)。基于相关性排名和RF此外,趋势分析显示主题标签特征与OP之间存在正相关性。最显著的趋势线是hl特征。然而,提高OP的最实用的方法是使用C1和HC。实质上,将标题长度增加一个字符使OP增加0.00263%,并且将主题标签计数增加一使OP增加0.94%。所有这些事实都证明了H1,即。主题标签是外来人口比例最重要的贡献者K.R. Purba,D.Asirvatham和R.K.Murugesan/ICT Express 6(2020)243247图十一岁 标签喜欢(hl)与OP.图12个。 标签可达性(hr)与OP.图13岁 参与率%(ER)与外来者%(OP)。图14个。局 外 人%(OP)与Followers Growth(FG).5.6. 图像情感极性在数据集中,有21.47%的图像具有负面情绪。消极情绪图像的平均OP为28.79%,ER为14.22%,而积极情绪图像的平均OP为27.16%,ER为13.41%。这一发现表明,产生负面情绪的图像有更高的机会成为病毒。6. 与其他指标的本节将局外人百分比(OP)与两个标准的Instagram指标进行比较,即,参与率(ER)和追随者增长(FG)。这里提供的所有图表都是基于每个用户的OP,ER,FG的平均值。因此,在本发明中,统计图共使用了6383个数据(使用者)ER虽然是作为一个功能包括在内,但它也是一个度量。因此,ER-OP之间的比较也在图中给出。 13岁为了证明H2,每个用户的追随者增长(FG)图15个。 参与率%(ER)与Followers Growth(FG).在收集初始数据一个月后。FG是初始和第二期间的flr之间的差值(百分比)。OP-FG、ER-FG之间的曲线图见图。 14和图 15,分别。这些数据显示,图表随着ER、OP和FG数量的增加而振荡,这是由于较高指标层的可用数据量较少所致,例如20.99%的职位OP在0%-10%之间,而OP在70%-80%之间的职位只有2.01%。这是由于达到更高指标的固有困难。ER-OP和FG-OP图显示,OP越高,ER和FG也越高。对于ER来说,实际上,想要获得更高ER的用户需要找到一种方法来增加帖子在外部的曝光率,而不仅仅是依靠粉丝。至于FG,想要更快地增加粉丝数量的用户需要增加他们对外界的曝光。为了证明OP的有效性,如H2所述,计算了指标之间的相关性。相关性(Pearson)结果如下:ER-OP 0.5、OP-FG 0.216、ER-FG 0.189。基于这些值,度量与其他度量的平均相关性如下:OP 0.358,ER 0.345,FG 0.203。可以得出结论,如果与其他度量相比,OP具有最高的平均相关性。这一发现证明了OP的重要性,因为通过使用这一度量,ER和FG都可以预测。7. 讨论在这项研究中,进行了一项研究,以分析和创建一个预测模型的帖子的局外人百分比(OP)在Instagram上。使用从用户,帖子,关键字,标签,图像情感和参与度(喜欢和评论)中提取的特征,成功创建了预测模型使用随机森林回归器实现了最佳精度,使用所有特征的R2值为0.719,使用除啮合特征外的所有特征的然而,就实际使用而言,参与功能在发布时间内不可用。在不考虑啮合特征的情况下,其精度为61.2%(R2),满足实际应用的要求.从Instagram用户在所有这些因素中,最重要的贡献者是标签功能。248K.R. Purba,D.Asirvatham和R.K.Murugesan/ICT Express 6(2020)2438. 结论这项研究增加了一个新的Instagram流行度指标,即外来人口比例(OP)。本研究之结果为局外人趋势分析,以及以随机森林回归为预测量之预测模式,其准确率高达71.9%(R2)。基于平均相关值,证明了与参与率和追随者增长相比,局外人百分比是最有效的指标。对于普通用户来说,这项研究的结果可以用来作为如何提高对外界的曝光率,并最终增加追随者的见解。对于商业用户,预测模型结果可以用作挑选品牌营销人员的预测器。与其他Instagram指标一起,如参与率,追随者增长,假用户百分比,局外人百分比可以增加预测未来影响者的准确性。CRediT作者贡献声明Kristo Radion Purba:概念化,方法论,软件,形式分 析 , 数 据 管 理 , 写 作 - 原 始 草 稿 , 可 视 化 。 DavidAsirvatham : 概 念 化 , 监 督 , 写 作 - 评 论 编 辑 。 RajaKumar Mu- rugesan:概念化,监督,写作-评论编辑。竞合利益作者声明,他们没有已知的可能影响本文所报告工作引用[1] Brandi , 为 什 么 有 效 的 社 交 媒 体 营 销 策 略 很 重 要 , LyfeMarketing,2019年8月16日。 可用-地址:北京市海淀区海淀路108号我觉得我是个骗子。com/blog/efective-social-media-marketing-strategy/.(2020年2月5日查阅)。[2] M.伊克巴尔,Instagram收入和使用统计,2019年,2019年11月6日 。 [ 联 机 ] 。 可 用 : https : //www. 我 是 一 个 很 好 的 朋 友 。com/data/instagram-statics/.(2020年2月1日查阅)。[3] B. Feehan,社交媒体行业基准报告,2019年,2019年2月15日。[联机 ] 。 可 用 : https : //www. rivaliq. com/blog/2019-social-media-benchmark-report/.(2020年2月1日[4] Z. Zhang , T. Chen , Z. Zhou , J. Li , J. Luo , How to becomeinstagram famous : Post popularity prediction with dual-attention ,in:2018 IEEE International Conference on Big Data,Big Data ,2018.[5] K.R. Purba,D. Asirvatham,R.K. Murugesan,使用监督机器学习算 法 对 insta-gram 假 用 户 进 行 分 类 , Int. J.电 动 Comput. Eng.(IJECE)10(3)(2020)2763[6] Activate , We Asked They Anonymous : How Micro-InfluencersReallyWantto Work with Brands,Activate,2016.[7] 钱春杰,J.D. Tang,文学硕士Penza,C.M. Ferri,通过神经网络和回 归 分 析 预 测 Instagram 流 行 度 , 在 : IEEE Transactions onMultimedia 19.11,2017。[8] K. Almgren ,J. Lee ,M. Kim,Predicting the future popularity ofimages on社交网络,in:Multidisciplinary International社交网络Conference on Social Informatics,Data Science,2016.[9] K.查克马克岛,智-地奇克里克奇奥卢岛Demiralp,A.厄兹蒂尔克足球俱乐部帕卢特岛Yilancioglu,M. Yildirim,Instagram受欢迎程度的因果决定因素,2017年。[10] S. De , A. Maity , V. Goel , S.Shitole , A.Bhattacharya ,Predicting the popularity of instagram posts for a lifestyle magazineusingdeeplearning , in : 2ndInternationalConferenceonCommunicationSystems , ComputingandITApplications ,CSCITA,2017。[11] M. 马兹卢姆河Rietveld,S.Rudinac,M.沃林多伦,穆尔-品牌相关社交媒体帖子的单峰流行度预测,见:第24届ACM国际多媒体会议论文集,ACM,2016年,第116页。197-201.[12] F. Gelli,T. Uricchio,M. Bertini,A. D. Bimbo,S. F. Chang,Image使用情感和上下文特征预测社交媒体中的流行度,在:第23届ACM国际会议论文集 多媒体,2015年。[13] A. Deza,D.Parikh,理解图像病毒性,在:IEEE计算机视觉和模式识别会议,IEEE,2015年,pp. 1818-1826年。[14] K. 丁,K.马,S.王,内在形象流行度评估,在:第27届ACM多媒体国际会议论文集,法国尼斯,2019年。[15] J. Berger,K.L.Milkman,是什么让在线内容成为病毒?J. Mark.Res. 49(2)(2012)192[16] Y. Bae,H.李,Twitter受众的情绪分析:衡量流行的Twitter用户的积极或消极影响,J。Soc.INF. Sci. Technol. 63(12)(2012)2521[17] O. Rabo,你需要知道的24个Instagram指标,“iconosquare,2018年,4月12日。[联机]。可用:https://blog. 我不知道。com/instagram-metrics/.(2020年2月5日查阅)。[18] M. Ramos-Serrano,P. Martínez-García,个人风格博客:Instagram上最流行的视觉构图原则和主题,Obs。(OBS*)J.10(2)(2016)089[19] A. Zohourian,H.Sajedi,A.Yavary,图像的流行预测和Instagram上的视频,在:2018年第四届网络研究国际会议,ICWR,2018年。[20] B. 吴文H. 郑,Y.张,智-地黄,J.Li,T.Mei,顺序使用深度时间上下文网络预测社交媒体的流行度,见:第二十六届国际人工智能联合会议论文集,IJCAI-17,2017。[21] N.L. Khalid,S.Y.Jayasanan,N.Hassim,社交媒体影响者-塑造马来西亚青年的消费文化,在:SHS网络会议,第53卷,2018年。[22] G.D. 萨克斯顿河沃特斯:利益相关者喜欢Facebook上的什么研究公众对非营利组织的信息,促销和社区建设信息的反应,J.Publ. Relat. Res.26(3)(2014)280[23] 热门标签,Instagram上的前100个标签,热门标签,2020年,[联机]。可用:https://top-hashtags. com/instagram/.(2020年1月[24] H. Talebi,P.Milanfar,Nima:Neural Image Assessment,IEEE Trans.图像处理。(2018年)。[25] C. Lennan,H.阮氏D. Tran,图像质量评估,2018,[在线]。可用:https://github. com/idealo/image-quality-assssment. (2019年12月访问)。[26] 提取关键词,cortical.io,2020,[在线]。可用:https://www. 我爱你。IO/FEE ETOOLS/EXTRACT-KEYWORDS/。(2020年2月15日[27] G. Beigi,X.胡河,巴西-地Maciebenski,H.Liu,An Overview ofSentiment刘,《感悟社交媒体分析及其在救灾中的应用,在:情感分析和本体工程,2016年,第10 0 页。313-340[28] 惠普帕蒂尔,M。Atique,社交媒体的情绪分析:一项调查,2015年第二届信息科学与安全国际会议,ICISS,2015年。[29] M. Katsurai,S.Satoh,使用潜在核心的图像情感分析视觉,文本和情感视图之间的关系,在:IEEE声学,语音和信号处理国际会议,ICASSP,2016年。[30] 诉坎波斯湾Jou,X.Giro-i Nieto,从像素到情感:精细-调整CNN用于视觉情感预测,Image Vis。Comput. 65(2017)15-22.[31] V. Campos,B.Jou,X.Giro-i Nieto,从像素到情感:微调CNN用于视觉情感预测,2019年7月15日。[联机]。可用:https://github. com/imatge-upc/sentiment-2017-imavis.(2020年6月10日查阅)。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功