社交媒体数据挖掘糖尿病风险因素：基于地图约简的混合NBC-TFIDF算法

183 浏览量更新于2024-01-14 收藏 1.93MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于地图约简的混合NBC-TFIDF算法挖掘糖尿病公众情绪--一种J.Ramsingh，V. 布瓦内斯瓦里印度哥印拜陀Bharathiar大学计算机应用系阿提奇莱因福奥文章历史记录：收到2018年2018年6月19日修订2018年6月29日接受2018年7月3日在线发布关键词：大数据地图减少意见社交媒体糖尿病A B S T R A C T互联网和社交媒体使用的增加使人们能够以前所未有的方式交换观点，意见和想法。这种数据交换为情感分析铺平了道路情感分析的基本本文提出了一种基于MapReduce的混合NBC-TFIDF（Naive Bayes Classifier -Term Frequency Inverse Document Frequency）算法来挖掘人物情感。采用基于Map Reduce的混合NBC来基于社交媒体数据中每个句子的极性得分对数据进行分类使用情绪语料库计算极性分数，并且使用食物糖化指数和身体活动指数创建糖尿病语料库。这项研究分析了印度人口使用社交网络数据的饮食习惯，体育活动和糖尿病风险因素之间的相关性该研究已经确定了大约200万个数据，并且该研究仅限于印度。实验结果表明，基于MapReduce的混合结果表明，糖尿病的危险性与个体因素无关，但有一组共同因素与糖尿病的危险性有关。研究发现，60%的社交媒体数据对高血糖指数的食物有积极的态度这项大数据分析显示，印度年轻一代不知道糖尿病的危险因素©2018作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍在当今的数字世界中，随着互联网的发展，数据的生产量越来越大，最终形成了我们所说大数据的特性可以归因于Volume -数据的极端大小，Variety -结构化、半结构化和非结构化，Veracity -数据的质量、可靠性和准确性，Velocity -数据的速度，Value -数据的价值（Wavier等人，2016年）。因此，大数据指的是本质上是异构的，数量巨大的数据，并且在几秒钟内更新和倍增。据估计，在每个馏分*通讯作者。电子邮件地址： J.ramsingh@ hotmail.comramsinghjayaraman@gmail.com ，www.example.com（J.Ramsingh），bhuvanes_v@yahoo.com（V.Bhuvaneswari）。沙特国王大学负责同行审查制作和主办：Elsevier到2020年将增加到35万亿千兆字节（Marko，2012; Nawsher等人，2014年）。大数据，这是巨大的和快速的，是非常困难和复杂的分析与现有的系统（安妮和Partha，2014年）。因此，管理大数据需要不同的方法、技术、工具&架构，因为数据正在以指数速度扩展（Sherin等人，2014年; Ramsingh和Bhuvaneswari，2015年）。为了应对日益增长的各种大数据-结构化，半结构化和非结构化-并获得适当的洞察力，需要先进的计算和分析技术。因此，大数据分析已经成为一种复杂而复杂的技术，用于分析从TB到yottabytes的大量数据在线社会网络中的意见挖掘或情感分析是一个新的研究领域，吸引并产生了新兴研究者的重大兴趣。意见挖掘是对人们对事件或产品的意见、态度和情感的研究和分析（Marlen等人，2018年）。它被用于商业发现和分析数字数据，以提高他们的产品和服务在消费者中的声誉（Benedetto和Tedeschi，2016）。通过对现有文献的研究，阐述了研究者是如何挖掘出https://doi.org/10.1016/j.jksuci.2018.06.0111319-1578/©2018作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comJ. Ramsingh，V.Bhuvaneswari/沙特国王大学学报1019人们通过社交网络产生的数据。在一开始，情感分析的应用被用于将电影评论或产品评论分类为积极或消极（Nazan和Serkan，2018）。在意见识别中存在许多常见的方法，其中一些是句法，语义（模式匹配），特征（机器学习）。Pang et al.（2002）使用了使用N-gram的句法方法，并得出结论，获得了约82.9%的最大准确率通过结合Unigram和SVM。语义模式匹配方法是文本情感识别的常用方法。许多文献关注使用各种NLP技术提取公众情绪，词义消歧，n-gram，组块，sentiwordnet（Saggion和Funk，2010）进行分类（Nasukawa和Yi，2003）。用于情感识别的机器学习是由Zhang等人（2008）进行的，已经提出了一种监督机器学习方法，改进了基于特征的学习。最近的研究重点是了解社会和地缘政治背景下的意见。拟议的工作旨在分析人们对非传染性疾病的情绪及其行为（生活方式，饮食习惯）。这项工作的目标是设计和开发一个集成的大数据模型和分析框架，利用社交媒体数据挖掘人们对医疗保健的看法。本文的结构安排如下：第一部分是对本研究的简要介绍.第2节讨论Hadoop echo系统的概述。第3节详细描述了用于基于情感对数据进行分类的方法。第4节讨论了所提出的方法的案例研究。第5节审查了所获得的结果，随后在第6节中得出结论。2. Hadoop echo系统Hadoop Echo系统及其组件是处理大数据最常用的工具（Ramsingh和Bhuvaneswari，2016）Hadoop是一个开源框架，允许用户使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它被设计为具有从单个服务器到数千个节点的高容错性和可扩展性（Sofiya和Soha，2015）以下是Hadoop● Hadoop分布式文件系统● MapReduce● Hadoop YARN2.1. Hadoop分布式文件系统（HDFS）Hadoop分布式文件系统（HDFS）是基于Google文件系统（GFS）设计的。HDFS架构设计为主/从架构，其中主节点由单个名称节点（元数据）和一个或多个数据节点（实际数据）组成。2.2. Hadoop MapReduceHadoop Map Reduce是Apache Hadoop核心的编程范式，用于在数百或数千个Hadoop集群中提供巨大的可扩展性MapReduce用于在大型集群上并行处理大量数据。MapReduce作业的处理包括两个重要的阶段Map阶段和Reduce阶段。每个阶段都有一个键值对作为输入和输出;通常，作业的输入和输出都存储在文件系统中。该框架负责调度任务，监视它们并重新执行失败的任务。了MapReduce框架由一个主资源管理器和一个从节点管理器组成。2.3. Hadoop YarnYARN是一种集群管理技术。它是第二代Hadoop的关键特性之一，是根据第一代Hadoop的经验设计的YARN提供资源管理和中央平台，可跨Hadoop集群提供其他平台的附加组件和工具可以安装在Hadoop框架上来处理大数据。图1显示了用于非常有效地处理大数据的Hadoop生态系统。3. 数据和方法本节解释了使用大数据方法收集和分析人们对食物，生活方式和身体活动的情绪的建议方法。图2表示所提出的方法的框架。该框架包括三个阶段：数据采集、数据整合和分析阶段。3.1. 数据采集设计了一个集成的自动化数据模型，用于从各种来源提取大规模数据。社交媒体数据，即来自 Twitter 、 Face book 、 Blogs 、WhatsApp 的数据，使用由几个社交网站提供的社交媒体 API（ Twitter API 、 Graph API 、 Google + API 、 REST API ）和Flume（用于提取数据的标准大数据工具）大规模与食物、生活方式和身体活动相关的主题标签和关键词是在与领域专家、营养学家和糖尿病学家协商的情况下识别的，用于提取数据。API根据数据提取的时间和数量设置一种改进的线性递归算法用于从各种数据源中提取数据。构造查询后，所有相关数据将被提取并以通用数据交换格式（例如CSV（逗号分隔值）和 JSON （ Java 脚本对象标记））存储在集中存储区（HDFS）中。从不同的社交媒体网站获取的数据提供了大量的过滤参数，以便可以获得定义明确的数据集。由于研究的地理区域仅限于印度，因此使用数据集中可用的地理位置对数据进行了相应的过滤。图3表示使用水槽进行数据提取的过程。3.2. 数据预处理、转换和整合从社交媒体中提取的数据是大量的非结构化（JSON）格式，其中包含许多嘈杂和不相关的数据。需要对数据进行结构化，以便进行分析（Young-shinLim和Roselyn，2017）。文本挖掘方法（停止词删除，词干，标记化，规范化）被用来预处理和提取的推文的主要文本。使用MapReduce文本挖掘方法对数据进行预处理。数据转换模型如图所示。四、3.2.1. 数据的标记化标记化是通过删除空格、逗号和空格将整个文本分割成单词的过程。输入数据被分解为单词、短语、有意义的元素和符号1020J. Ramsingh，V.Bhuvaneswari/沙特国王大学学报Fig. 1. Hadoop生态系统。图二.分析tweets数据的框架。叫做代币然后，这些令牌将用作进一步处理的输入（Vikram Singh，2014; Dan和James，2017）。数据的标记化以两种方式“模式”和“字符”完成，3.2.2. 停止字生成和删除停止词生成使用Hassan 等人开发的上下文语义模型完成。（2014）。该模型从标记化数据中提取与其他词共现的相关语义。该圆由同现词组成，应用简单的三角函数计算上下文J. Ramsingh，V.Bhuvaneswari/沙特国王大学学报1021≈图三. 使用Flume进行数据提取。情绪检测停止字之间的相关程度，并且可以使用等式来计算数据集。（1）如下。ri tdocm;c i fci;m ×logN=Nci1f（ci，m）是数据（句子）中ci与m出现的总次数，ci表示数据m中的项，N是项的总数，Nci是ci出现的项的总数。SentiCircle的三角性质允许我们对上下文情感进行编码。它将相关语义编码为情感倾向和情感强度。关于数据“t”的意见的语义取向表明该意见是积极的，消极的或中性的该方法用于从非结构化文本中挖掘情感词语，以计算词语的极性情感强度用于以高准确度预测正面和负面数据（Mike等人， 2010年）。3.2.3. 使用SentiCircles情感分析中的停用词是指在其出现的文本中具有弱情感和语义的词。Stopwords的SentiMedian位于SentiCircle内靠近原点的一个小区域（Stopword区域）。区域内的点位人气非常弱|H|=0和低相关度r 0。通过为每个单词构建SentiCircle并通过计算整体上下文语义来检测停用词，情感通过其SentiMedian并检查单词的SentiMedian是否位于停用词区域内。为每个词构建SentiCir- cle，以计算整体相关语义和SentiMedian的情感。通过合并所有SentiCircle计算停止词区域的边界，并在SentiCircle内绘制密度图，将密集绘制的区域识别为停止词并移除。3.2.4. 词干和词形化Stemming和Lemmatization是NLP领域广泛使用的规范化方法，用于生成规范化形式。词干提取产生近似的基本形式，但不提供单词的替换。Porter（1980）的词干分析器中的规则表1给出了词干的规则。词形化用另一个词替换一个词的后缀，或者完全删除后缀以形成词元。例如，考虑单词表1波特的Stemmer规则m词干词* S词干以S结尾*V* 词干包含元音*d词干以双辅音见图4。数据集成模型。1022J. Ramsingh，V.Bhuvaneswari/沙特国王大学学报Y2bake”，并且为了复数化的目的，仅选择“bakes”。因此，用户的查询“开发”被扩展为“开发或开发”。3.2.5. 语料库创建语料库是用于执行统计分析和假设检验的大型结构化文本集（Se等人，2016年）。语料库用于训练分类器以识别积极和消极情绪。两种类型的语料库（表情符号和用户定义语料库）被用来分类和识别公众的情绪。情感语料库是一种常见的语料库，用于根据句子中可用的单词和图标的情感对数据进行分类。表情符号语料库包含Happy的语言值3.3.1.1. 朴素贝叶斯分类器。朴素贝叶斯分类器使用句子级别分类来分析数据的情感。句子级别分类将句子中的每个单词分类，并分为三类（积极，消极和中性）。第一个层次的分析是挖掘人们对医疗保健的看法。利用情感语料库和已构建的语料库，根据数据的权重对数据进行分类。为了对情绪进行分类（积极，消极和中性），计算积极数据，消极数据的概率并进行比较，以预测人们的情绪。语句的极性（正、负和中性）使用等式（ 1 ）计算。（ 2 ）基于特征选择使用 n 个 gram（unigram、Bi gram、Tri gram）。PS ωPM j S（：and sad（：''：弊第二个语料库是一个半自动语料库，是通用的，PSjMPM2在领域专家的帮助下，从TFIDF中提取带有情感的稀有词。3.2.6. 标记在标记过程中，标记化数据使用其中S是数据的情感，M是数据的文本。由于数据集具有正、负和中性消息，因此等式（2）简化为Eqs。（3）和（4）来识别数据的极性。POS、食品标签、体力活动标签，以识别风险因素PpjmPpωPmjpð3Þ糖尿病最初，使用糖尿病语料库标记文本数据，基于从1到3克，经过基于语料库的文本标注后，对数据进行标注Þ¼潘俊美彭文Pn ωPm jnð4Þ使用POS。词性标注是为输入文本中的每个词分配词性标记的过程。POS通常通过在每个单词后面放置一个标记来表示，标记由斜杠分隔。由于存在许多词性列表，在这项工作中，对英语PennTreebank标签集进行了最现代的语言处理（Mitchell等人，1993年）发布，用于标记社交媒体数据。在上述文本挖掘方法的帮助下，使用Hadoop Streaming实用程序中的Python作为map reduce任务，对具有大量噪声和不相关数据的社交媒体数据进行预处理（Ramsingh和Bhuvaneswari，2016）。一旦数据预处理结束，数据将被合并为通用格式，转换为数据分析的向量，并存储在HDFS中以供进一步处理。3.3. 数据分析方法3.3.1. 基于混合NBC-TFIDF的情感或观点挖掘是分析人们对文本的态度、情感、观点和极性的领域，通常观点挖掘确定在三个分类层次上，文档级分类、句子级分类、方面级分类。为了找到人们的意见，使用基于贝叶斯定理（HayterAnthony，2007）和词频-逆文档频率（TF-IDF）的混合朴素贝叶斯分类器对社交媒体数据进行分类在所提出的混合NBC-TFIDF中，朴素贝叶斯分类器用于根据语句的极性（正、负和中性）对数据进行分类，TF-IDF用于根据极性识别词的频率。数据的分类基于表2中给出的以下意见表示。表2推特的意见表达持牌人的意见目标是什么意见内容什么是确切的意见内容的情况持有人的感受Þ¼PðmÞ其中P<$pjm<$;P<$njm<$是正负数据的极性，z P<$p<$;P <$n<$是正负数据的先验概率，P<$m<$是数据的概率。计算总体情感得分PMjsj，以找到总概率（Nazan和Serkan，2018）。属性的独立分布使用以下等式确定（五）、nPMjsjPmijsj51/1其中，M1/4 =m1;m2;. . ;mn是数据的项。sj是第j个类的标签。3.3.1.2. 词频-逆文档频率（TF-IDF）。TF-IDF是一种流行的统计技术，用于对文本数据进行分类，并根据术语在文档（句子）中的重要性对其进行索引。TF-IDF基于句子中出现的术语的频率，反之亦然使用TF-IDF对数据进行分类，以从创建的语料库TF-IDF使用等式计算（六）、td-idf<$tfti;d：idfti6其中，ti是句子d中的第i项，td-idf是句子d中的项ti的TF-IDF。tf（ti，d）=语句d中的术语ti的术语频率，并且idf（ti）被称为逆文档频率。文档d中的项t的项频率tf（ti，d）被定义为项t在文档d中出现的次数，项频率使用等式（1）计算：（七）、tfti;dti;d7逆文档频率用于计算术语在整个文档集合中的频率。(If一个术语出现在集合的所有文档中，它的IDF为零。idft;DlN=Nt2d8其中，TF-IDF是在Hadoop Streaming实用程序中使用python实现的，作为map reduce任务J. Ramsingh，V.Bhuvaneswari/沙特国王大学学报10233.3.2. Map Reduce实现为了提高分类的效率和可扩展性，我们在Map Reduce计算模型中实现了混合NBC-TFIDF算法。混合NBC-TFIDF的任务主要包括以下几个方面：基于N-gram计算每个句子的极性分数。根据极性分数对数据进行分类。根据分类数据计算新词和词频来自HDFS的初始数据使用不同的文本挖掘方法进行预处理。然后通过Map函数、Combiner函数和Reduce函数分三个阶段（即，映射阶段、组合阶段和缩减阶段）。图5示出了所提出的方法的映射缩减任务。3.3.2.1. 地图阶段。在这个阶段，Map任务以序列的方式接收每一行作为不同的键值对，这些键值对构成Map函数的输入。Map函数首先基于所创建的语料库计算每个数据对象的值，并且基于不同的gram（1-gram、2-gram、3-gram）计算情感得分（Saifuddin等人，2016），并且最后将来自映射函数的输出发送到组合器函数。3.3.2.2. 合并阶段。在此阶段，Combiner函数首先从Map函数中提取所有数据对象（输出），并将属于同一类的数据分类。接下来，它将所有具有相同类值的数据分组，记录同一类中的样本数，最后将每个聚类的结果发送到Redu-cer函数。3.3.2.3. 减少阶段。在这个阶段，Reduce函数从不同的类中提取所有数据，这些数据是Combiner函数的输出。然后计算不同类标签中每个数据的总和，并将最终结果存储在HDFS中，并开始下一次迭代。4. 为例4.1. 动机在全球范围内，一种慢性疾病，主要是非传染性疾病（NCD）（心血管疾病、癌症和糖尿病），其死亡人数超过任何其他疾病。非传染性疾病的死亡率从2012年的68%上升到2014年的82%非传染性疾病死亡人数的这种增加对发展中国家和许多低收入国家的社会经济状况造成了越来越大的负担糖尿病是世界人口中增长最快的地方病之一世界卫生组织估计，糖尿病患者的患病率每年增加两倍世界上大约6%的人口受到这种无声流行病的影响（Sunil，2008年年轻人缺乏体育锻炼和饮食不当是导致世界各地许多慢性病的最大危险因素。亚洲糖尿病患者比白人高五倍。特别是印度的非传染性疾病患病率非常高在非传染性疾病中，糖尿病是一种非常常见的慢性疾病，在印度大部分人口中发现，69.1 100万糖尿病患者。根据2007年的统计报告，印度排名第一，有4900万人患有糖尿病（Trina，2015）。印度将被称为糖尿病的发生是由于生活方式的改变、缺乏体育锻炼、饮食不平衡和遗传疾病。在印度，泰米尔纳德邦，喀拉拉邦和古吉拉特邦是受糖尿病影响最严重的地区。印度人对糖尿病的认识非常差，许多人甚至没有被诊断出患有糖尿病。在印度，关于糖尿病的几项研究表明，在短短16年的时间范围内（1992-2008年），城市地区糖尿病患者从8.2%-18.6%增加到2.4%，农村地区糖尿病患者从2.4%增加到9.2%（Leonor等人，2011年）。研究了解糖尿病的危险因素是必要的图五. Mapreduce任务混合NBC-TDIDF。●●●1024J. Ramsingh，V.Bhuvaneswari/沙特国王大学学报≈Mellitus，利用大数据技术预测在不久的将来受影响的人数和经济损失所提出的方法应用于从印度社交网络用户收集的数据来分析人们的情绪、饮食习惯、生活方式和对糖尿病的认识。4.2. 研究区印度是一个位于南亚的国家，1.2它是世界上最古老的文明之一，拥有丰富的文化遗产。由于受非传染性疾病（NCD）影响的人数迅速增加，印度面临着医疗保健部门的高风险。印度的非传染性疾病患病率非常高，根据世卫组织2014年的报告，印度占全球死亡人数的15%以上。据估计，每4个印度人中就有1人在70岁之前面临死亡风险（WHO-2015）。4.3. 用于确定与糖尿病与糖尿病相关的可能数据的识别使用三种方式完成作为第一步，相关文献（Amir等人， 2018）进行了审查，其次，专家，内分泌学家，糖尿病学家，营养师咨询了与糖尿病相关的危险因素。通过对公共机构、民间团体的访谈，以及与饮食习惯、生活方式和体育活动相关的主题标签，找到了当地居民的饮食习惯，并对地方性糖尿病进行了地理定位这些不同的信息来源与糖尿病危险因素相关联，以分析人们的情绪。分析发现一些关键因素与人们对1的看法密切相关人们的饮食习惯，2。人口进行的体育活动4.4. 数据集收集和合并使用Flume和社交网站提供的API从不同的社交媒体中提取异构数据该数据集使用与食物、生活方式相关的散列标签构成90，00，000个实例。表3列出了一些用于从在线社交媒体中提取数据的主题标签。表4表示使用水槽收集的非结构化数据。使用地理定位器（纬度、经度）对数据进行过滤并将其限制在印度。印度共和国位于亚洲地理坐标北纬21.0000°、东经78.0000°。通过使用散列标签和地理代码（纬度、经度、半径）搜索数据，提取数据以进行分析表3糖尿病哈希标签。位于上述坐标之间。然后对提取的数据进行预处理，以去除不需要的、不相关的和嘈杂的数据信息，如URL、哈希标签、逗号和空格。4.5. 预处理、转换和合并使用第3.2节中解释的文本挖掘方法对不相关和噪声数据进行预处理。在Hadoop Streaming工具中使用map reduce格式的Python脚本对异构数据进行预处理和分析，最终使用20，00，000个实例进行进一步分析。使用上下文语义模型从数据中发现停用词。针对数据中的每个单词的构造的SentiCircle绘制密度分布。通过合并所有SentiCircle计算停用词区域的边界，并在SentiCircle内绘制密度图，将密集绘制的区域识别为停用词并将其删除。在图6中，非常靠近原点的密集绘制区域被检测为停止词，因为该区域中的词具有非常低的sentime nt|H|=0和低相关度r0被限定为停止字区域。删除Stopwords后，数据将使用Python中的mode和charactersspilt方法进行图 7显示了使用模式和字符分割方法的标记化数据的示例屏幕截图。使用poster词干提取方法提取单词的词干，对至少有一个元音和辅音的单词进行词干提取。像eggs、peas、tomato、crops这样的词的词干是egg、pea、tomato、crop等。表5中列出了用于对社交媒体数据进行词干分析的规则。使用糖尿病语料库中的标签基于从1到3克变化的N-gram方法对利用糖尿病语料库，根据食物血糖指数（GI）、体力活动指数对数据进行分类.糖尿病患者的身体分为两个亚型（饮食，体力活动）。该语料库是在与领域专家、营养学家和糖尿病学家协商食物GI分为三个级别低（55或更低），中等（56 - 69）和高（70+），印度食物的GI被认为是工作（Raghuram等人， 1987年）。身体活动语料库是基于与身体活动相关的关键词创建的根据身体消耗能量的多少，将体育活动指数分为中等强度和活力强度体力活动进一步分为主动体力活动（27.7千卡/千克/天）、中度体力活动（15.4-27.6千卡/千克/天）和非主动体力活动（0-15.3千卡/千克/天）。标记的数据基于存在于diabetic和emoticon语料库中的标签进行加权加权后的数据作为键值对存储在HDFS中，根据GI对食物的重量分类如图所示。8 .第八条。4.5.1. 基于混合NBC-TFIDF分类器的风险预测分析饮食习惯[垃圾食品，饮料等]职业[S/W，H/W，司机等]体育活动[散步、慢跑、骑自行车]使用混合NBC-TFIDF分析数据的极性分类器NBC根据情绪评分对数据进行分类作为一种递归模式，句子中的每个单词都被分配了权重来计算句子的概率得分使用每个标记单词的权重计算情感得分表4示例非结构化数据集。非结构化数据纬度经度并存储为键值对。基于范围从0到1的情感得分，数据被分类为正面数据、负面数据和中性数据。预处理数据。尝试https://t.co/7e63vEOVt5#Lightly #菜单中的轻豌豆队派出了跑垒员。我们有雪豌豆和Miragreen花园豌豆@ Adobe CreekFarmhttps://t.co/zKpwxfweLx-97.34874032.52208825-108.6658139.17682图10示出了食物数据包含60%的正数据、30%的负数据和10%的中性数据。60%的正极性数据包含具有高碳水化合物的食品、米饭、烘焙食品、小麦食品和软饮料等，它含有高GI。30%的负极性数据包含蜂蜜，西瓜，鸡蛋，豆类等低GI食物J. Ramsingh，V.Bhuvaneswari/沙特国王大学学报1025见图6。带有停止词列表的Senticircle。见图7。标记化数据。富含蛋白质10%的中性数据包含肉类、软饮料、绿叶等食物，其与具有中等和低GI的食物没有极性。计算词频-逆文档频率，并基于食物和生活方式形成词云。人糖尿病数据的频率是基于从NBC分类获得的情绪计算的。图11示出了从积极数据获得的印度人偏好的食物项目的频率，他们不知道他们偏好的饮食它1026J. Ramsingh，V.Bhuvaneswari/沙特国王大学学报食品优质碳水化不良碳水低（GI55）中等（GI=56-高（ GI70）低（GI55）中的高(GI= 56-（GI 70）（第六十九条）表5Stemmed Data使用poster stemmer。规则数据带词干数据SS -> SS爱抚爱抚S ->桃子，橘子桃红色，橙色（*V*）简易爆炸装置->爆炸性干燥干（*V*）KED ->KED煮熟库克（*V*）ED ->煮沸腾（*V*）ING ->烹饪，烘焙烹饪，烘焙（m > 0）FUL ->FUL希望希望（m > 0）NESS ->NESS善良好（m > 0）ENT ->ENG依赖取决（m > 0）IES ->BURY草莓草莓（m > 1）ES->桃子桃（m> 0）ATIONAL-> ATE关系有关见图8。食物语料库标签分类。人们更喜欢富含碳水化合物的食物（糖、大米、小麦等）。图12示出了具有高GI的人偏好的食物的密度。大米、白糖、快餐等，是具有高正极性的高频率的项目。图13表示与身体活动相关的术语的频率。从图中可以推断，运动、骑自行车、瑜伽是人们所做的一些活动4.6. 绩效评价为了评估混合NBC-TFIDF分类器的准确性和性能，Hadoop集群上的数据集大小从0.28 GB到1.86 GB不等，从单节点到多节点（四个节点）。通过改变节点和数据集大小，发现执行时间从51 s到251s不等。分类器执行数据集所用的时间详见表6。通过对贝叶斯类的验证，对算法的性能进行了评价. 表7中描述了使用单词（一元、二元和三元）作为特征的性能结果。5. 讨论现在的人们更熟悉社交媒体，讨论日常活动并分享他们的观点更健康的讨论。可以使用社交网络数据分析非流行性疾病（如糖尿病）的早期检测。本研究旨在探讨一种利用社交网站上的讨论来衡量人们健康行为的方法。该诊断被放置在一个非常常见的平台上，如糖尿病，并且通过改变与特定疾病（癌症，心脏病和肥胖症）相关的语料库，可以将相同的方法应用于癌症的预测。基于语料库相关的情绪和糖尿病，可以发现积极和消极的数据。本分析中讨论的结果基于预处理后检索的（20，00，000）个数据。结果建立了人们对感兴趣主题的不同观点，基于Mapreduce的Hybrid NBC-TDIDF检测人们的不同观点，并根据极性（积极，中性，消极）和糖尿病单词的频率对数据进行分类。数据的极性不同见图9。糖尿病数据的极性评分。J. Ramsingh，V.Bhuvaneswari/沙特国王大学学报1027见图10。基于情绪的食品数据百分比。图十一岁词云为食物的频率相对于1与单元文法和三元文法相比，用双元文法得到的结果数据包含60%的正面数据，30%的负面数据和10%的中性数据，这些数据对情绪没有影响。基于极性，使用混合TF-IDF计算糖尿病数据的频率。数据显示，60%的人知道糖尿病。从正极性数据来看，70%的数据是关于包装食品，面条，冰淇淋具有较高的糖化指数，20%的数据是关于具有较高糖化指数的食品[大米，比萨饼，面条，燕麦，包装食品，烘焙产品]，不到10%的数据是关于小米的。在正极性数据中，只有40%的数据包含体育活动，20%的数据是关于步行、慢跑等，剩下的40%的数据推断没有活动。在30%的负极性数据中，只有30%的数据是关于包装食品的，40%的数据是关于具有较低Glycosidin指数的食品，其余数据是关于具有较高Glycosidin指数的食品。见图12。人们喜欢的食物的密度1028J. Ramsingh，V.Bhuvaneswari/沙特国王大学学报图十三.身体活动的频率。表6执行时间。输入数据大小（GB）执行时间（秒）4节点3节点2节点1节点0.28515460750.407185901080.528090981210.70921081231521.341411621882081.86174204221251表7使用N gram的分类性能。特征Uni-gram二元语法三元语法积极负积极负积极负精度0.720.690.820.790.520.59召回0.750.610.780.860.650.52F-measure0.730.620.810.720.680.59平均0.675平均0.765平均0.635积极的一面明确了人们对食物的偏好，这是2型糖尿病的主要来源负极性的数据给出了一个明确的结果，即只有不到30%的人食用的食物具有较低的糖化指数，并意识到与糖尿病相关的风险因素结果（频率和极性）由领域专家根据人们的生活方式和饮食习惯进行验证，很明显，人们更从结果中可以看出，年轻一代（社交网站的用户）是那些将受到糖尿病影响的人。事实上，分析表明，没有单一因素与印度人口中糖尿病的患病率有关。6. 结论在多模集群中实现了一种使用Map Reduce分析社交媒体数据的方法，并对结果进行了分析。使用收集的社交媒体数据进行实验分析，以分析使用混合NBC-TDIDF的人的情绪。基于数据集中存在的词的极性和频率来分析数据。使用NBC相对于1-3克计算数据的极性。使用Bigram特征获得的结果与1和3 gram相比具有较高的准确性。从Bi gram获得的结果作为下一级分类的输入，以计算单词的频率。从个案研究中发现，人们乐于选择高血糖指数的食物，这是流行性糖尿病的根本原因，J. Ramsingh，V.Bhuvaneswari/沙特国王大学学报1029由于工作的性质和城市化，这些人不活跃作为一项纠正措施，应采取措施，通过教育年轻一代了解糖尿病、食物的营养价值和体育活动对保持身体健康的重要性，来阻止非传染性疾病。引用Agarwal，B.，米塔尔，N.，2016.基于语义倾向的情感分析方法。在：Agarwal，B.，Mittal，N.（编），用于情感分析的突出特征提取。施普林格，pp.七十七比八十八Amir，K.，艾丽西娅，AD加布里埃尔，T.- M.，Hadi，K.，小乔治，美国，2018.在Twitter上描述糖尿病、饮食、运动和肥胖评论。国际期刊信息管理。 38（1），1-6。安妮，C.，Partha，K.，2014.新的曙光：社交媒体在糖尿病教育中的作用。J. DiabetesNursing 18，68-71.Benedetto，F.，Tedeschi，A.，2016年。通过云计算进行社交媒体流中的品牌监控的大数据情感分析。情感分析与本体工程。计算智能研究。斯普林格。丹，J，詹姆斯，H.M.，2017.正则表达式、文本规范化和编辑距离。在：Dan，J.，詹姆斯，H.M.（编），语音和语言处理。Hassan，S.，Miriam，F.，Harith，A.，2014.使用上下文语义的自动停用词生成用于Twitter的情感分析。在：ISWC-PD& '14会议记录2014年国际会议海报演示轨道，pp。281-284. ICEUR-WS.org。HayterAnthony，J.，2007年工程师和科学家的概率和统计Brooks/Cole，Duxbury，Belmont，CA，USA. .Alberr，Y.，Ibrahim，A.T.，Abdullah，G.，Salimah，M.，Ejaz，A.，也不是学士，例如，2016.大数据：从开始到未来Int. J. INF. 管理。 36（6），1231-1247。Ramsingh，J.，Bhuvaneswari，V.，2016.在python中使用map reduce对hadoop流进行糖尿病意识数据分析。IEEE计算机应用进展国际会议。Leonor， G.，蒂姆， N.，杰西卡湾（编）， 2011.以色列国防军糖尿病地图集。 6 ed.InternationalDiabetes Federation，Brussels.马尔科，G.(2012 、可以8 ）。https://www.planet-data.eu/sites/default/files/presentations/Big_Data_Tutorial_part4.pdf 。 2017 年 4 月 10 日，从https://www.planet-data.eu/sites/default/files/presentations/Big_Data_Tutorial_part4.pdf检索：https://www.planet-data.eu/sites/default/files/presentations/Big_Data_Tutorial_part4.pdf。Marlen，K.，Tien，D.H.，Nikos，D.，2018. Twitter数据分析，用于研究媒体行业的实践社区。Telecom Inf. 35（1），195-212。迈克，T.，Kevan，B.，Georgios，P.， Di，C.，Arvid，K.， 2010. 短非正式文本中的情感强度检测。J. Assoc. INF. Sci. Technol. 61（12），2544-2558。米切尔议员Beatrice，S.，玛丽，上午，1993.建立一个大型的英语注释语料库：宾州树库。Comput. Linguistics- Special Issue Using Large Corpora：II 19（2），313-330.Nasukawa，T.，Yi，J.，2003.情绪分析：使用自然语言处理捕捉可解释性。第二届知识获取国际会议论文集，K-CAP '03。Nawsher，K.，Alberr，Y.，Ibrahim，A.T.，扎基拉岛Waleed Kamaleldin，硕士，Muhammad，A.，例如，2014.大数据：调查，技术，机遇和挑战。Sci.世界J，18Naza

下载后可阅读完整内容，剩余1页未读，立即下载