没有合适的资源?快使用搜索试试~ 我知道了~
4170使用阿拉伯语推文在GCC地区进行疾病追踪0Muhammad Usman Ilyas �0吉达大学计算与信息技术学院,沙特阿拉伯麦加省吉达,milyas@uj.edu.sa0吉达大学计算与信息技术学院,沙特阿拉伯麦加省吉达,jalowibdi@uj.edu.sa0摘要0先前的研究已经证明使用公共推文和其他社交媒体平台追踪疾病爆发和传播的可能性。然而,几乎所有这些先前的研究都仅限于地理过滤的英语推文。这项研究是首次尝试从海湾合作委员会(GCC)国家发出的阿拉伯语推文中采用类似方法。我们从沙特卫生部获得了该地区常见疾病的列表。我们使用英语疾病名称及其阿拉伯语翻译来过滤推文流。我们获取了一个跨越29个月的旧推文。所有推文都经过了中东地区的地理过滤,并列出了英语和阿拉伯语两种语言的疾病名称。我们观察到只有很小一部分推文是用英语写的,这表明先前依赖于英语语言特征的疾病追踪方法对该地区的效果较差。我们还展示了如何有效地使用阿拉伯语推文来追踪该地区某些传染病的传播。我们通过展示MERS冠状病毒病例的发生与阿拉伯语推文之间存在高度相关性来验证我们的方法。我们还证明了通过与从沙特卫生部获得的MERS-CoV病例的真实数据集进行比较,使用Twitter提及来追踪病例的有用性。0CCS概念0• 信息系统 → 决策支持系统;数据分析;在线分析处理;网络挖掘;0关键词0阿拉伯语;疾病追踪;流行病学;海湾地区;Twitter0ACM参考格式:Muhammad Usman Ilyas和Jalal SulimanAlowibdi。2018年。使用阿拉伯语推文在GCC地区进行疾病追踪。在2018年网络会议伴侣,2018年4月23日至27日,法国里昂。ACM,美国纽约,5页。https://doi.org/10.1145/3184558.31863570�同时也是巴基斯坦国立科学技术大学(NUST)电气工程学院电气工程与计算机科学学院(SEECS)的一员,位于巴基斯坦伊斯兰堡H-12,邮编44000,电子邮件:usman.ilyas@seecs.edu.pk。0本文以知识共享署名4.0国际(CC BY4.0)许可证发布。作者保留在个人和公司网站上传播作品的权利,并附有适当的归属。WWW'18 Companion,2018年4月23日至27日,法国里昂。© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5640-4/18/04.. https://doi.org/10.1145/3184558.318635701 引言 1.1 动机0追踪疾病爆发是国家卫生部门的一项重要职能。部门从医院收集数据并编制成综合图片。从病例群的出现到其被识别和任何公告的典型时间间隔约为两周。近年来,有几次尝试利用几乎实时的网络数据源来缩短这个时间间隔。其中大多数研究和实验是在英语内容上进行的,其他的是在法语[4]、西班牙语[18]和中文[16]上进行的。这些先前的研究中,许多也仅限于特定的国家或地理区域。在本研究中,我们将这个概念应用到阿拉伯半岛,该半岛是海湾合作国家组织(GCC,包括沙特阿拉伯、科威特、巴林、卡塔尔、阿联酋和阿曼)和也门的所在地。此外,该地区的大多数社交媒体使用的是当地语言阿拉伯语,只有一小部分使用英语。01.2 问题陈述0我们在这项研究中试图回答的研究问题是:英语语言网络数据的疾病跟踪技术是否同样适用于GCC/阿拉伯半岛地区的阿拉伯语社交媒体帖子?01.3 最新技术0先前最先进的方法使用了三种方法:(1)收集医院和卫生设施的数据,编制并检测任何疾病爆发[7, 11, 13,15]。由于这种方法依赖于第一手数据,因此被认为是最可靠和无误差的方法。然而,它的成本是大约两周的高前导时间,从爆发开始到检测到的时间。(2)定期爬取公共网络数据源、RSS订阅和搜索引擎趋势信息,以获取有关疾病爆发的报告[2, 3, 5, 14,18]。这些方法不如第一种方法可靠,因此用于补充更慢但更可靠的基于第一手数据的方法。(3)第三种方法是从各种社交媒体平台上搜集帖子以检测疾病爆发[1, 4,6, 16,17]。鉴于社交媒体帖子的未经验证性质,这些方法可能是最不可靠的。然而,它们操作的是几乎实时的数据,这意味着它们具有最低的滞后时间。此外,无论是基于RSS订阅还是社交媒体帖子的网络方法,都与语言和地区有关。0Track: 认知计算 WWW 2018, 2018年4月23日-27日, 法国里昂41801.4 提出的方法0在这项研究中,我们收集了一组包含阿拉伯语疾病名称之一的推文数据集,并对阿拉伯半岛进行地理过滤。每种疾病的数据集跨越了两年零五个月的时间。我们生成了提及每种疾病的推文数量的直方图,并观察哪些疾病在Twitter上更频繁出现,并看它与官方数据的关系。01.5 主要贡献0本研究的贡献有两个方面:0(1)确定阿拉伯半岛常见疾病列表中的哪些疾病在该地区的公共Twitter信息中有所体现。(2)确定阿拉伯语推文中疾病提及的激增是否与报告的病例数量的激增相对应。02 相关工作0Brownstein等人[2]是早期使用网络数据进行疾病爆发早期检测的用户之一。他们开发了HealthMap网站,每15分钟从公共新闻聚合器中爬取和检索新闻文章。另一种广泛使用的方法利用了发达国家中大部分人经常上网搜索症状和治疗建议的事实[2, 3, 5, 14,18]。搜索引擎查询趋势的访问是一种额外的几乎实时数据来源,可以利用。每个搜索引擎查询都有一个时间戳,并与用户的IP地址相关联,可以以相当高的准确度将其映射回用户的位置。这意味着搜索趋势可以以很高的时间和空间分辨率进行分析。微软的Bing关键字研究[12]和谷歌的谷歌趋势[8]是两个广泛使用的搜索引擎的例子,它们已经将其搜索查询信息提供给公众。Pelat等人[14]使用这种方法来跟踪谷歌趋势中的疾病。Valdivia和Monge-Corella[18]也使用谷歌趋势验证了这种方法在西班牙和使用西班牙语搜索词的情况下的有效性。尽管高度的位置和时间准确性使得这种方法看起来理想,但它有一个严重的缺点 -恶意用户可以轻易地篡改这些趋势,故意增加针对特定术语的搜索查询。基于搜索查询的方法也只能在享有高互联网连接率的社会中可靠地使用。在像巴基斯坦这样的贫穷、互联网连接较差的社会中,通过调查团队和实地工作来进行疾病映射,正如Rojahn[15]所记录的那样。显然,这种方法增加了显著的成本,而这种成本在基于搜索趋势的方法中是不会发生的。Corley等人[5]使用了一个现已停用的博客索引服务spinn3r.com,搜索博客中是否提到了流感。他们能够显示spinn3r.com索引的博客中提到的流感与CDC监测数据之间存在高度相关性。该研究仅限于英语内容,并且仅限于相对较短的20周。0图1:提及每种疾病的唯一推特数量的直方图和累积直方图曲线。0Culotta[6]采用了相同的方法并将其应用于Twitter。然而,它仅限于在美国的英语内容中关于流感病例的研究,仅持续了10周。Chunara等人[4]比较了2010年海地地震后霍乱病例报告之间的延迟。他们考虑了来自海地卫生部、HealthMap和Twitter的数据,时间跨度为100天。该研究仅限于英语和法语的Twitter信息。之后对早期疾病检测的调查,如Schmidt[17]和Bernardo等人[1],显示几乎所有先前的研究都依赖于非阿拉伯语的数据,并且没有经过测试和应用于阿拉伯半岛。03 推特数据集0为了获取该地区常见疾病的列表,我们参考了沙特阿拉伯卫生部[9]。该列表非常广泛,并映射到图1水平轴上显示的40个阿拉伯语关键词。推特数据经过地理过滤,涵盖了从2015年1月1日到2017年5月31日的两年五个月的时间。数据集总共包括180,503条推特,使用沙特阿拉伯吉达市国王阿卜杜勒阿齐兹大学网络观察站的设施进行收集。图1显示了搜索词的直方图以及作为数据集一部分捕获的唯一推特数量的累积直方图曲线。累积直方图曲线显示,仅有九个最常出现的关键词占据了数据集中95%的推特。与中东呼吸综合征冠状病毒(MERS-CoV)相关的推特是最常见的,单独占据了数据集中约35%的推特。根据图1直方图中的数据,占据了约95%数据的九个最常出现的疾病关键词的英文翻译为:(1)MERS冠状病毒(2)糖尿病(3)阿尔茨海默病(4)乳腺癌(5)癌症0Track: 认知计算 WWW 2018,2018年4月23日至27日,法国里昂4190(a)MERS-CoV0(b)糖尿病0(c)阿尔茨海默病0(d)乳腺癌0图2:2015年1月1日至2017年5月31日,海湾合作委员会地区各种疾病的推特和谷歌搜索时间序列图。0(6)套管胃切除+胃切除(7)血压+高血压(8)霍乱(9)猪流感0然而,即使在这个组中,只有前六个包含超过10%(或18,000条推特)的完整数据集。04 数据分析 4.1 推特和谷歌搜索0我们在图2和图3中绘制了每种疾病的推特时间序列和从谷歌趋势获得的搜索量。请注意,时间轴上每周绘制的推特数量包括原始推特、转推数和喜欢数。通过视觉检查,我们发现MERS-CoV的推特时间序列和谷歌搜索时间序列之间有显著的相似性。这种相似性程度也通过表1中列出的相关系数进行量化。MERS-CoV的时间序列之间的高度相似性得到了证实。01 由于空间有限,我们只在此处绘制了前八种疾病的时间序列。2因此,对于某种疾病的时间序列图中的所有推特计数之和将不与图1中的直方图中的推特计数相对应,图1中仅列出了唯一的推特数量。0相关系数为0.999855。如表1所示,这些值普遍呈下降趋势,即随着数据集大小的减小,相关系数也会下降。除了MERS-Cov和霍乱之外,列表中排名靠前的疾病都不具有传染性或季节性。这反映在它们的时间序列的嘈杂性和对应的低相关系数上。唯一的例外是乳腺癌,在推特和谷歌搜索的时间序列中都显示出两个重叠的高峰。这可以通过十月是乳腺癌意识月份[10]来解释,这也是两个信号都出现高峰的时间。霍乱和猪流感是除MERS-CoV之外唯一的其他传染病,它们的相关系数分别为0.316445和0.201707。这可以解释为霍乱和猪流感的数据集都非常小。事实上,在乳腺癌之后,疾病数据集的规模急剧下降,乳腺癌是列表中排名第四的疾病。04.2 推文和病例报告0我们继续仅对MERS-CoV的阿拉伯语推文进行疾病提及分析。在其他八种疾病中,几乎没有一种像MERS-CoV那样在Twitter上获得如此多的流量。此外,它们中的大多数是慢性疾病,而不是季节性的传染性疾病。0Track: 认知计算 WWW 2018,2018年4月23日至27日,法国里昂4200(a) 癌症0(b) 胃袖手术0(c) 血压0(d) 霍乱0图3:2015年1月1日至2017年5月31日期间GCC地区各种疾病的推文和谷歌搜索的时间序列图。0在本节中,我们通过将MERS-CoV的时间序列与沙特卫生部获得的MERS-CoV流行曲线进行比较来分析阿拉伯语推文中提及MERS-CoV的时间序列。流行曲线数据可以被视为病例数量的真实情况。图4是MERS-CoV流行曲线和其推文时间序列的图表。两个曲线都展示了相似的特征,有重叠的高峰。两个曲线的相关系数为0.74,可以解释为中等至高度相关。与谷歌搜索时间序列的高相关性以及与流行曲线的中等至高度相关性表明,阿拉伯语推文的时间序列对于追踪GCC地区MERS-CoV病例爆发的规模是有效的。05 结论0在这项研究中,我们考虑了使用推文量作为检测GCC地区疾病爆发的手段的可能性。由于GCC地区绝大多数的Twitter流量都是阿拉伯语,我们使用了阿拉伯语关键词。我们对该地区所有流行病的传染性或非传染性疾病进行了这项研究,并在第一阶段使用了谷歌趋势的数据作为真实数据。03 流行曲线是一种疾病病例的时间序列。0表1:推文与谷歌搜索时间序列的相关系数。0排名 疾病名称 相关性01. MERS冠状病毒 0.99985502. 糖尿病 0.42073603. 阿尔茨海默病 0.04491104. 乳腺癌 0.67815705. 癌症 0.05794906. 胃袖手术 0.16096907. 血压/高血压 -0.05917508. 霍乱 0.31644509. 猪流感 0.2017070我们从沙特卫生部获得了一个涵盖海湾合作委员会地区常见疾病的列表。我们的分析显示,只有其中很小一部分疾病在Twitter上被讨论。前九种疾病的推文占我们在29个月的时间内收集到的数据集的95%。其中只有三种疾病(MERS-CoV、霍乱、猪流感)是传染病,但只有MERS-CoV似乎经常产生足够的流量以用于分析。我们还观察到,季节性的公众意识活动对于像乳腺癌这样的非传染性疾病也可以表现出适度的相关性。0Track: 认知计算 WWW 2018,2018年4月23日至27日,法国里昂4210图4:MERS-CoV病例的总推文数和流行曲线。0像乳腺癌这样的非传染性疾病也可以表现出适度的相关性,尽管是人为的。为了进一步证明我们关于MERS-CoV的结论的正确性,我们还从沙特卫生部获得了MERS-CoV的流行曲线。分析结果显示,关于MERS-CoV的推文数量的时间序列与流行曲线之间存在中等至高度的相关性。我们得出结论,在目前的GCC地区的Twitter流量中,MERS-CoV是唯一可以用于早期检测疫情爆发的传染病。0参考文献0[1] Theresa Marie Bernardo, Andrijana Rajic, Ian Young, Katie Robiadek, Mai TPham, and Julie A Funk. 2013. Scoping review on search queries and social mediafor disease surveillance: a chronology of innovation. Journal of medical Internetresearch 15, 7 (2013), e147. [2] John S Brownstein, Clark C Freifeld, and LawrenceC Madoff. 2009. Digital disease detectionâĂŤharnessing the Web for public healthsurveillance. New England Journal of Medicine 360, 21 (2009), 2153–2157. [3]Declan Butler. 2013. When Google got flu wrong. Nature 494, 7436 (2013), 155.[4] Rumi Chunara, Jason R Andrews, and John S Brownstein. 2012. Social andnews media enable estimation of epidemiological patterns early in the 2010Haitian cholera outbreak. The American journal of tropical medicine and hygiene86, 1 (2012), 39–45. [5] Courtney D Corley, Diane J Cook, Armin R Mikler, andKaran P Singh. 2010. Using Web and social media for influenza surveillance. InAdvances in Computational Biology. Springer, 559–564. [6] Aron Culotta. 2010.Towards detecting influenza epidemics by analyzing Twitter messages. InProceedings of the first workshop on social media analytics. ACM,0115–122. [7] 疾病控制中心。最后访问日期:2018年1月15日。FastStats -传染病。https://www.cdc.gov/nchs/fastats/infectious-disease.htm(最后访问日期:2018年1月15日)。[8]谷歌。最后访问日期:2017年6月18日。谷歌趋势。https://trends.google.com/trends/(最后访问日期:2017年6月18日)。[9]沙特阿拉伯卫生部。最后访问日期:2017年6月10日。疾病 -疾病列表。http://www.moh.gov.sa/en/HealthAwareness/EducationalContent/Diseases/Pages/(最后访问日期:2017年6月10日)。[10]沙特阿拉伯卫生部。最后访问日期:2017年6月10日。2016年健康日 -乳腺癌意识月。http://www.moh.gov.sa/en/HealthAwareness/healthDay/2016/Pages/HealthDay-2016-10-01-31.aspx(最后访问日期:2017年6月10日)。[11]沙特阿拉伯卫生部。最后访问日期:2017年11月14日。统计数据 -统计数据。https://www.moh.gov.sa/en/ccc/pressreleases/pages/default.aspx?PageIndex=1(最后访问日期:2017年11月14日)。[12]微软。最后访问日期:2017年6月18日。必应 -关键词研究。https://www.bing.com/toolbox/keywords(最后访问日期:2017年6月18日)。[13] 世界卫生组织。2018年。WHO |全球卫生观察数据。http://www.who.int/gho/en/(2018年)。[14] Camille Pelat,Clement Turbelin, Avner Bar-Hen, Antoine Flahault, and Alain- Jacques Valleron.2009. 通过使用谷歌趋势跟踪更多疾病。Emerging infectious diseases 15, 8 (2009),1327–8. [15] Susan Young Rojahn. 2012.巴基斯坦使用智能手机数据预防登革热爆发。MIT TechnologyReview(2012年10月)。[16] Marcel Salathé, Clark C Freifeld, Sumiko R Mekaru,Anna F Tomasulo, and John S Brownstein. 2013.禽流感A(H7N9)及数字流行病学的重要性。The New England journal of medicine369, 5 (2013), 401. [17] Charles W. Schmidt. 2012.使用社交媒体预测和跟踪疾病爆发。Environmental health perspectives 120, 1 (2012),A31. [18] Antonio Valdivia and Susana Monge-Corella. 2010.通过使用谷歌趋势跟踪的疾病,西班牙。Emerging infectious diseases 16, 1 (2010), 168.0Track: 认知计算 WWW 2018, 2018年4月23日至27日,法国里昂
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 保险服务门店新年工作计划PPT.pptx
- 车辆安全工作计划PPT.pptx
- ipqc工作总结PPT.pptx
- 车间员工上半年工作总结PPT.pptx
- 保险公司员工的工作总结PPT.pptx
- 报价工作总结PPT.pptx
- 冲压车间实习工作总结PPT.pptx
- ktv周工作总结PPT.pptx
- 保育院总务工作计划PPT.pptx
- xx年度现代教育技术工作总结PPT.pptx
- 出纳的年终总结PPT.pptx
- 贝贝班班级工作计划PPT.pptx
- 变电值班员技术个人工作总结PPT.pptx
- 大学生读书活动策划书PPT.pptx
- 财务出纳月工作总结PPT.pptx
- 大学生“三支一扶”服务期满工作总结(2)PPT.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功