没有合适的资源?快使用搜索试试~ 我知道了~
软件影响8(2021)100060原始软件出版物Google Trends Extraction Tool for Google Trends Extended for Health数据雅克·尤金·劳本海默澳大利亚悉尼大学医学与健康学院医学科学院生物医学信息学与数字健康学科A R T I C L E I N F O保留字:谷歌趋势Visual Basic应用程序微软ExcelA B标准申请Google Extended Trends for Health API的API密钥的研究人员可以获得更高的高质量的Google趋势数据比从Google趋势网站,但必须访问数据使用Python代码定制的每个提取。研究人员每天只能访问每个查询的一个时间序列样本。Google趋势提取工具提供了对基于Excel的GUI中所有API方法的完全访问,只需要Google提供唯一的API密钥。它采用了一种新颖的多重抽样方法来规避API限制,记录审计跟踪,并自动绘制结果。当前代码版本代码元数据当前代码版本V2.2.0此代码版本使用的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2020-64可复制胶囊GNU通用公共许可证使用SVN的代码版本控制系统软件代码语言使用Visual Basic for Applications(Excel,Microsoft Excel)编译要求,操作环境依赖性需要Microsoft Excel 2007或更高版本Windows需要来自Google的应用程序的API密钥如果有开发人员文档/手册链接,请访问https://github.com/TrueInsight/Google-Trends-Extraction-Tool/blob/master/Google%20Trends%20Data%20Extraction%20Tool%20Help%20File.pdf技术支持电子邮件jacques. sydney.edu.au1. 介绍互联网搜索仍然是最常见的互联网活动[1],谷歌领域超过90%的搜索[2]。 Google Trends数据在研究中的使用呈指数级增长[3研究人员通常从https://trends.google.com网站下载数据,尽管有些人使用PyTrends[7]或gtrendsR [8]等软件包。通过任何这些方法提取的数据(以下简称GTWeb数据)都受到一些限制[4]。这些值被缩放,使得系列中的最大值被设置为100,并且所有其他值相对于该值被表示,并且四舍五入到最接近的整数,从而导致过度的数据粗化。这种该服务也不适合提取多个样本[9]。 研究人员也没有提供足够的方法学信息进行复制 他们的工作[6]。电 子 邮 件 地 址 : jacques.sydney.edu.au 。https://doi.org/10.1016/j.simpa.2021.100060然而,研究人员可以向Google申请(http://bit.ly/2KyqDYW)访问旧的Google流感趋势(GFT)API,现在命名为Google Extended TrendsAPI for Health(GETH)。Google流感趋势与Google趋势数据的不同之处在于,它们没有缩放到100,没有四舍五入,并且以各种时间分辨率提供(例如,每天与每月),而谷歌趋势数据是根据所要求的时间范围以预定的分辨率提供的。 应该注意的是,从GETH获得的数据在数量上不同于GTWeb数据,因为数据点表示指定搜索词的原始搜索概率(乘以107)。 GTEH数据是 不能从https://trends.google.com网站访问,也不能从PyTrends或gtrendsR访问。谷歌趋势数据一直是公开的,而谷歌流感趋势数据只应要求提供,主要是健康研究人员。Google提供了一些基本的Python代码示例来访问API。 该系统对于希望从GETH进行许多数据提取的研究人员来说并不友好,这一点可以从该研究人员无法接收日期:2020年12月13日;接收日期:2021年2月2日;接受日期:2021年2月8日2665-9638/©2021作者。由Elsevier B. V.发布,这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsJ.E. Raubenheimer软件影响8(2021)1000602Fig. 1. Google Trends Extended Health工作表界面。图二. 氧可酮提取接口。查找自2018年以来GFT在健康研究方面的任何出版物。此外,委员会认为, 不存在用于从GETH提取和聚合多个样本的代码,这进一步复杂化了Google的服务器对调用API帐户的每个请求缓存一天的事实2. 描述Google趋势提取工具是一个Microsoft Excel工作簿,其中包含VisualBasic for Applications(VB)代码(研究人员编写的±8500行代码,以及来自第三方的一些附加代码),用于执行GTEH API调用和实施多重采样策略。该工具提供了一个易于使用的用于指定GETH数据提取的接口。它利用作者该工具还允许使用其他API调用访问在指定Google趋势查询后,用户可以单击工作表上的按钮来执行API调用,接收和解析返回的JSON数据并自动绘制结果。多个样本也会自动汇总,并汇总误差主界面由两个“Google趋势扩展健康”组成。1)和没有自定义类)。J.E. Raubenheimer软件影响8(2021)1000603图三. 提取数据的审核信息。见图4。 采样(1... 19/399(200个样本),用于/m/05 q1 y检索。(For对本图图例中所指颜色的解释,读者可参考本文的网络版。)所有的代码都是由这位研究人员编写的,除了六个简短的代码部分,这些代码部分已经发布在网上供第三方使用,并在获得许可后使用(在附带的帮助文件和代码模块本身中列出了归属)。 六个代码块中的三个被该研究人员进一步修改,以使它们适合本应用程序的目的表内公式和数据验证工具验证输入,提供界面反馈系统(以及来自条件格式和单元格样式的视觉反馈),并为用户提供帮助。补充的数据存储信息和数据验证为用户输入创建查找列表。Excel命名范围可操作用户输入和代码的信息,并且Excel代码被广泛使用使用的功能与任何版本的Microsoft Excel for Windows(32位/64位)兼容,从Excel 2007到Excel 2019/Excel 365。 没有Mac版本。Microsoft Word文档[11]提供了屏幕截图的额外详细帮助。3. 影响使用GT数据的研究呈指数级增长,但数据的质量和数据提取方法的质量非常不一致[5,6]。使用GETH数据的优势在提供更高质量的研究方面是显而易见的-从网站上扩展数据阻碍了可复制性,而使用GETH数据则绕过了这一限制。除了获取API密钥之外,该工具还可以轻松访问这些数据谷歌趋势提取工具将产生几个重大影响,特别是在健康研究方面。首先,它提供了一个易于使用的GUI,指导研究人员完成设置过程一个查询,使得没有编码经验的研究人员可以访问GTEH数据。第二,无法提取多个样本在数据中引入了不必要的误差。迄今为止,大多数使用GTWeb或GETH数据的研究人员仅使用一个样本(具有相应的宽误差范围),并且尝试提取多个样本的研究人员不得不遵循复杂的方法来获得这些样本(例如,[12]不得不使用四个API帐户,并且仍然需要每天下载三周才能获得50个数据样本)。Google趋势提取工具采用的解决方案允许在一天内访问数千个GETH样本。第三,它可以从外部Excel工作簿自动化,以便可以设置多个查询规范的多个数据提取,从而使完整的研究程序自动化。J.E. Raubenheimer软件影响8(2021)1000604图五. /m/05 q1 y搜索的抽样汇总统计数据。从2004年1月至2020年11月,要求200个样本(3)-样本数量不能超过时间段数量(203个月)。 国家设置为澳大利亚(4),并指定了存储结果的文件名(5)。当没有界面错误信息显示时(6),用户点击提取数据按钮(7),程序将选择200个样本(如指定的)作为搜索概率,并将结果存储在指定的文件中。结果文件包含一个总结提取的工作表(图1)。3)。这允许对研究的任何分析进行完整的审计跟踪,并且还允许容易地重复类似的提取(界面中的加载规范按钮-图1)。2用于提取样本的算法提取N为1的子样本(具有不同的时间段),小于该数字的两倍要求的样品。图4显示了复溶200个完整样品所需的399个子样品中的前19个子样品的前24个月的结果。黄色的单元格表示返回零搜索概率的日期值,白色的空白单元格表示不构成该特定子样本的日期。为每个查询词创建一个这样的工作表每个日期的所有采样值然后汇总在另一张纸(图)5-每个查询项一个)。这显示了每个日期的非零搜索概率的数量、各种汇总统计量以及平均值的1%置信区间然后,将这些汇总表中的每一列的平均值合并到一个工作表中,每个查询项对应一列(比较图G中G列的值)。5与B栏中的数字图6)。然后,该工作表可以轻松地拉入任何统计数据包中,以便进一步分析和与其他感兴趣的变量进行比较。该软件包还创建了一个抽样汇总工作表,见图6。 样品聚集(平均值)这个工具已经被这个研究者在一些早期的研究中使用[9,13,14],并且在一个用于预测的研究中发挥了重要作用。 新西兰大麻公投的结果来自谷歌趋势数据[15]。作者的团队正在使用它随附的视频演示了该工具的实际操作,下面将讨论该工具最突出功能的注释示例图2显示了指定搜索词的界面(1)-第一个词使用Freebase ID检索Google AI与羟考酮相关的所有搜索此外,将日期范围(2)设置为每月搜索概率给出所需样本数量的指示 以获得1%的误差幅度,99%的置信度,在所有时间点的每个查询词(图)。7)。所需的大量样本是因为Google趋势数据的早期变化很大-将时间范围限制在2011年1月至2020年11月,对于大多数查询的所有时间点,所4. 结论Google趋势提取工具可用于所有科学领域(研究人员宣称,当向Google申请API密钥时, 他们将在研究中使用它)。这个工具可以改变Google Trends研究的质量,它是可用的,以便世界各地的研究人员可以提高他们的Google Trends研究的研究质量。J.E. Raubenheimer软件影响8(2021)1000605竞合利益见图7。 采样有效性总结。388L-8464L-8501K-8502L-8644Y-8681X-9399Q-9400R), 示出 它以Endone,Oxycodone,Novacodone,作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢作者要感谢Google,感谢Google为研究人员提供了Google Trends和Google Trends Extended for Health工具,特别是Google的Nadav Rabani和Chen Barshai,他们提供了有关API操作的许多细节。这项工作得到了NHMRC翻译澳大利亚的支持临床毒理学项目(TACT)(授权ID 1055176)。附录A. 补充数据与 本 文 相 关 的 补 充 材 料 可 以 在 网 上 找 到在https://doi.org/10.1016/j.simpa.2021.100060。说明性示例本研究人员希望检查澳大利亚互联网上对羟考酮(一种易被滥用的阿片类药物)的搜索结果。澳大利亚药品福利计划网站(http://www.pbs. gov. a/m/dicine/item/2622B-5190E-5191F-5195K-5197M-8385H-8386J-8387K-8奥施康定,奥施诺姆,和普罗拉酮.第一个目标是衡量这些术语的相对受欢迎程度。他对六个查询词进行了提取,要求从2004年1月到2020年11月的月度数据,以澳大利亚为国家,最初只有三个样本。结果表明,Endone是最受欢迎的品牌名称,两个术语(Proladone和Novacodone)的搜索量非常低(Novacodone的概率为零)。接下来,他使用GTW工具搜索羟考酮的热门主题,在澳大利亚作为一个国家的所有时间,其识别羟考酮的游离碱ID:/m/05 q1 y。该信息导致使用四个查询短语的最终搜索策略:每月的搜索量提供了一个包含203个时间点的系列,因此一天最多可以提取203个样本,研究人员选择提取200个。结果示于图8 .第八条。主摘要工作表中的值可用于进一步分析(例如,时间序列分析、与羟考酮销售的相关性、与羟考酮相关的中毒中心电话等)。J.E. Raubenheimer软件影响8(2021)1000606引用图8.第八条。 各种羟考酮相关查询短语的200个样本的最终图。[9] J.E. Raubenheimer,使用谷歌趋势数据进行流行病学监测:机会,陷阱和方法,在:联合国际临床学会[1]互联网实时统计,互联网实时统计,2020,互联网实时统计,https://www.internetlivestats.com/网站。[2]GlobalStats Statcounter,Search Engine Market Share Worldwide,Statcounter,2018,http://gs.statcounter.com/search-engine-market-share.[3]V.S. Arora,M.M.麦基,D. Stuckler,谷歌趋势:健康和健康政策研究的机会和限制,健康政策123(3)(2019)338http://dx.doi.org/10.1016/j.healthpol.2019.01.001[4]S.- P. Jun,H.S.柳,S。Choi,十年的研究变化使用谷歌趋势:从大数据利用和应用 的 角 度 来 看 , 技 术 预 测 。 Soc.Change130 ( 2018 ) 69http://dx.doi.org/10.1016/j.techfore.2017.11。009.[5]A.马夫拉加尼湾Ochoa,K.P. Tsagarakis,评估Google趋势研究中的方法,工具和统 计 方 法 : 系 统 性 综 述 , J.Med. Internet Res. 11 ( e270 ) ( 2018 )http://dx.doi.org/10.2196/jmir.9366。[6]努蒂湾韦达岛Ranasinghe,S.作者:Wang,R. P. Chen,K.穆鲁吉亚, The use ofGoogle Trends in health care research:A systematic review,PLoS ONE 9(10)(2014)http://dx.doi.org/10.1371/journal.pone.0109583.[7]开源,PyTrends,https://github.com/GeneralMills/pytrends。[8]P.Massicotte ,D.Eddelbuettel ,gtrendsR ( 1.4.7 ),2020 ,https://github.com/PMassicotte/gtrendsR.生物统计学 和澳大利亚统计会议,2018年。[10]Google,Google extended trends API for health-Getting started guide,Google.[11]J.E. Raubenheimer,Google趋势数据提取工具:帮助文件,悉尼大学,2018年。[12]K.E. Matsa , A. 米 切 尔 , G 。 Stocking , Methodology , 2017 , Pew ResearchCenter,http://www.journalism.org/2017/04/27/google-flint-methodology/.[13]J.E.劳本海默河Cairns,A.H. Dawson,使用Google趋势进行药物兴趣监测-将Google趋势数据与毒物中心要求一氧化二氮相关联,载于:亚太医学毒理学协会第17届年度科学大会,2018年。[14]J.E. Raubenheimer,N.A. Buckley,What the PFAS!媒体报道如何推动谷歌搜索活动相对未知的条款:PFAS的情况下,在:澳大利亚土地&地下水协会(ALGA)生态论坛2018年,2018年。[15]J.E. 不列颠哥伦比亚省劳本海默Riordan,J.E.Merrill,T.温特,R.M.沃德,D。围巾,N.A.巴克利,嘿,谷歌!新西兰将投票支持大麻合法化?使用谷歌趋势数据预测2020 年 新 西 兰 大 麻 公 投 的 结 果 , 国 际 药 物 政 策 90 ( 2021 )http://dx.doi.org/10.1016/j.drugpo。2020.103083。[16]Google , 搜 索 趋 势 的 提 示 。 Google 趋 势 帮 助 , 2018 , https : //support.google.com/trends/answer/4359582? hl=en& ref_topic=4365530.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 保险服务门店新年工作计划PPT.pptx
- 车辆安全工作计划PPT.pptx
- ipqc工作总结PPT.pptx
- 车间员工上半年工作总结PPT.pptx
- 保险公司员工的工作总结PPT.pptx
- 报价工作总结PPT.pptx
- 冲压车间实习工作总结PPT.pptx
- ktv周工作总结PPT.pptx
- 保育院总务工作计划PPT.pptx
- xx年度现代教育技术工作总结PPT.pptx
- 出纳的年终总结PPT.pptx
- 贝贝班班级工作计划PPT.pptx
- 变电值班员技术个人工作总结PPT.pptx
- 大学生读书活动策划书PPT.pptx
- 财务出纳月工作总结PPT.pptx
- 大学生“三支一扶”服务期满工作总结(2)PPT.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功