基于社区检测和社交媒体文本分析的网络攻击检测模型实证研究

169 浏览量更新于2023-12-09 收藏 817KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

∼可在www.sciencedirect.com在线获取ScienceDirectICTExpress 8（2022）499www.elsevier.com/locate/icte基于社区检测和社交媒体文本分析的网络攻击检测模型Jeong-Ha Parka，Hyuk-Yoon Kwonb，a韩国首尔国立科技大学工业工程系b韩国首尔国立科技大学工业工程系/数据科学研究生接收日期：2021年8月24日;接收日期：2021年10月21日;接受日期：2021年12月15日2021年12月24日在线提供摘要Twitter等在线社交媒体已被用作预测、检测或分析选举、疾病爆发和网络攻击等关键社会现象的重要来源。在这项研究中，我们提出了一个社交媒体上的网络攻击检测模型。首先，我们对Twitter上与网络攻击相关的用户进行社区检测，以确定与网络攻击最相关的群体。其次，为了有效地识别与网络攻击相关的推文，我们在推文和网络攻击相关关键词之间进行文本相似性分析，克服了推文的词法分析的局限性，例如基于关键词的过滤和关键词的频率。最后，我们提出了一种新的网络攻击检测模型，结合基于文本和图形的模型。我们的方法与现有的研究有一个显著的区别，即我们将推文中的语义结合起来，以评估与网络攻击的相关性，并采用社区检测来识别与网络攻击最相关的群体。通过大量的实验，我们证明了所提出的模型的有效性。首先，我们证明了该模型中的文本分析优于基于关键字频率的分析的检测精度高达29.46%。第二，社区检测提高了检测准确率28.89 - 35.56%相比，基线标准选择相关用户的网络攻击。通过两个实验来测量检测到的社区与网络攻击的相关性，结果一致地表明，通过我们的社区检测，相关性最高的社区显示出最高的相关性。© 2021作者（S）。出版社：Elsevier B.V.代表韩国通信和信息科学研究所这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：网络攻击检测;社区检测;文本相似度;推文1. 介绍Twitter拥有超过3.4亿用户，每天产生超过5亿条新推文[1]。Twitter已被用作预测某些社交事件的重要来源，因为用户在Twitter上实时发布他们的意见或分享事件[2]。Liuet al. [3]从Twitter生成了一个大规模的流行病语料库，以实现COVID-19大流行情况下的跨流行病分析。Nasser等人[4]使用来自Twitter帖子的各种特征来检测骚乱等破坏性事件。在这项研究中，我们的目标是通过跟踪网络攻击相关用户撰写的推文的趋势来快速检测网络攻击。网络犯罪呈上升趋势，造成的损失巨大.这些网络攻击可能是*通讯作者。电子邮件地址：hyukyoon. seoultech.ac.kr（H.-Y. 权）。同行审议由韩国通信研究所负责教育与信息科学（KICS）。https://doi.org/10.1016/j.icte.2021.12.003从在线社交网络上的活动推断，因为黑客在社交网络上进行互动，以争论社交事件[5]。图图1展示了一个显示相关性的推文示例的网络攻击。图 1（a）是2020年11月13日写的一条推文，它预先警告了针对秘鲁政府的网络攻击。1（b）是一篇新闻文章，描述了实际发生在2020年11月14日的网络攻击，就在推文撰写后的第二天。这个例子表明，推文分析可以早期检测甚至预测网络攻击。尽管对这种社交媒体的分析不能完全取代对某些类型的攻击（例如，使用网络流数据来检测恶意网络行为），它可以提供对网络安全的见解，并成为检测网络攻击的有前途的来源[6，7]。已经有研究努力来检测或预测CY-基于社交媒体分析的攻击[5，8大多数人都专注于分析推文内容。另一方面，我们也利用了Twitter用户的关系图2405-9595/© 2021作者。由Elsevier B.V.代表韩国通信和信息科学研究所出版。这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。J. - H.公园和H.- Y. KwonICT Express 8（2022）499500∼图1.一、一个与网络攻击相关的推文例子。作为tweet的文本语义。我们的方法论与现有研究的一个区别在于，我们将推文中的语义结合起来，以评估与网络攻击的相关性，并调整社区检测，以确定与网络攻击最相关的群体在这项研究中，我们提出了一个新的模型来检测cyber攻击。首先，我们对与网络攻击相关的Twitter用户进行社区检测，以确定与网络攻击最相关的社区。其次，为了有效地检测与网络攻击相关的推文，我们对推文与网络攻击相关的关键词进行文本相似性分析，克服了词法分析的局限性例如基于关键字的过滤和关键字的频率。最后，我们提出了一种新的网络攻击检测模型，通过整合基于文本和图形的模型。通过大量的实验，我们证明了所提出的模型的有效性。首先，我们表明，该模型中的文本分析优于基于关键字频率分析的检测准确率高达29.46%。第二，社区检测通过以下方式提高了检测精度：与基线标准相比，28.89 35.56%选择了与网络攻击相关的用户。通过两个实验来测量检测到的社区与网络攻击的相关性，结果一致地表明，通过我们的社区检测的最高相关社区显示出最高的相关性。本文的结构如下。在第二节中，我们回顾了相关的工作。在第3节中，我们描述了本文中使用的数据集。在第4节中，我们解释了所提出的检测模型的框架和详细过程。在第5节中，我们给出了实验结果。第六节是对全文的总结。2. 相关工作2.1. 网络攻击检测已经有研究努力基于社交媒体分析来检测或预测网络攻击。Chambers等人[8]提出了一个DDoS攻击检测系统，使用两个NLP模型，前馈神经网络和部分标记的LDA模型，来分析Twitter用户的响应Dion 'ısio等人[9]提出了一种基于深度神经网络和命名实体识别的管道，用于从Twitter中检测网络安全信息。Khandpur等人[10]提出了一种新的查询扩展策略，以识别检测网络攻击的关键事件特征。Hernana-Suarez等人[5]分析了Twitter上用户群体的情绪与可能的网络攻击之间的相关性。Zong等人[11]使用逻辑回归和卷积神经网络模型预测漏洞，以分析提到网络攻击严重性的推文。Goyal等人[13]提出了基于自回归模型和神经网络的时间序列预测方法，通过分析来自Twitter，Darkweb和Blogs等在线数据源的信号来预测网络攻击。2.2. 社区检测社区检测已经被广泛研究，并且已经提出了各种算法。基于模块的社区检测通常用于静态网络中以识别社区[14]。它试图最大化模块性，这是指社区内的边缘相对于社区外的边缘Newman等人[15]提出了一种贪婪的方法来最大化模块化。在这种方法中，从单个顶点作为每个社区的唯一成员开始，它们重复地将社区连接在一起，以最大限度地提高模块性。Clauset等人。[16]提出了一种社区检测算法，通过采用最大堆来提高内存使用率和处理速度。Blondel等人[17]提出了Louvain算法，摘要提出了一种在规模空前的网络中基于模块度优化的启发式方法。它优于纽曼和Clauset的算法在性能和计算时间方面。由于它的速度，有效性和简单性， Louvain算法在许多最近的研究中被广泛用于检测网络拓扑中的社区[182.3. 文本相似度分析对于基于Rake、Word2Vec和Doc2Vec的文本特征提取方法的语义分析已经有了各种研究。Jatnika等人[22]提出了一个使用Word2Vec来计算单词之间的相似性得分的系统。Mendsaikhan等人[12]提出了一种基于Doc2Vec的自动提取系统，用于从公开的信息源中获取网络威胁相关信息。Dan等人[23]分析了从两篇文档中提取的关键短语的相似性，并通过Rake将英语作文的自动评分方法的准确率提高了76.1%。3. 数据描述在本研究中，我们使用了五种数据集：（1）与网络安全情报相关的用户列表（CSI用户列表），(2) 与网络安全情报相关的短语列表（CSI短语列表），（3）CSI用户中用户撰写的推文列表（推文数据集），（4）CSI用户列表（关系数据集）中的用户之间的关系，以及（5）新闻文章J. - H.公园和H.- Y. KwonICT Express 8（2022）499501表1我们工作中使用的数据集数据集大小来源时期1) CSI用户名单2019. 03. 27收集的300个用户2) CSI相位数据639相位3) Tweet数据集670万条推文（1.6 GB）Twitter之间2017.01.01至2019.12.314) 关系数据集6，102关系收集于2020.08.135) CSI新闻数据集43文章谷歌新闻之间2017.01.192019.12.17表2CSI新闻数据集样本ID发作日期标题12017-05-12“French22017-06-27俄罗斯32018-07-24中远美国遭网络攻击42019-11-12英国保守党在选举前遭到网络攻击：两个消息来源描述网络攻击（CSI新闻数据集）。表1总结了五个数据集的统计信息CSI用户名单来自Recorded Future，1一家专注于网络威胁情报的可靠公司。我们获得了1935个账户，他们在Recorded Future中的“exploit”类别中撰写了推文。帐户列表按包含“exploit”的写推数量排序，我们选择前300个帐户。最后，我们将297个用户定义为CSI用户列表，排除了Twitter帐户被停用的用户。CSI短语列表来自它包含了639个短语以下例子：“互联网安全”、“缺陷”、“漏洞”、“利用”、“RCE”、“在线安全博客 ” 、 “CVE” 、 “Flash” 、 “Sandworm” 、 “Shellshock” 、“Neutrino”、“Samba”、“Stagefright”、“Bin”，这些都清楚地表明了与CSI的相关性。推文数据集是CSI用户列表中的用户在三年内撰写的推文，即，从2017年到2019年。我们使用基于Scrapy的推文爬虫[24]收集CSI用户列表中297个用户撰写的推文。收集的数据总大小约为1.6 GB，共有670万条推文，平均每个用户有22，617条推文关系数据集是CSI用户列表中用户之间的追随者和追随者关系的集合。它是使用Twestern提供的API收集的。2关系的总数（即，边缘）是6102。CSI新闻数据集是关于网络攻击的新闻文章的集合。为此，我们使用Google News中的短语“hit by cyberattack”进行搜索，并收集了2017年至2019年期间发生的43篇网络攻击新闻文章。表2表示所收集的实际新闻数据集的样本。1 https：//recordfuture. com/2 我的朋友们：//我的朋友们：/我的朋友们：/ 两个星期。org/图二、检测网络攻击的拟议框架。4. 该模型4.1. 总体框架图2显示了所提出的模型的总体框架。整个过程包括（1）数据收集，（2）数据分析，（3）检测。首先，我们收集第2节中描述的五种数据集。数据分析包括图形分析和文本分析。在图分析中，我们根据社区检测将整个网络攻击相关用户划分为组。在文本分析中，我们分析推文与网络攻击相关关键词之间的相似性。最后，将分析结果与从CSI News数据集中提取的攻击信息相结合，构建了网络攻击检测模型。这是一种通过结合Twitter用户的关系图以及推文的文本语义来检测网络攻击的新方法，因为这种方法以前没有被考虑过。4.2. 社区检测我们采用社区检测的关系数据集，以确定相关用户的组的基础上图。社区检测允许我们通过识别社区中的成员来定义图上的J. - H.公园和H.- Y. KwonICT Express 8（2022）499502P∑i=∑我的天图3.第三章。通过群落检测得到四组。基于他们的关系进行更密集的互动。在这项研究中，我们使用Louvain算法[17]进行社区检测。我们的重点是提出的模型，结合图形和文本为基础的分析，而不是提出一个有效的社区检测算法。图图3示出了通过应用Louvain算法获得的前四个主要社区的可视化结果。我们观察到CSI用户列表中的297个用户中有24个用户不包括在四个主要社区中，并且仅包括一个或两个成员。根据分析结果，我们将其排除在分析之外，并将剩余的273个用户定义为已删除的CSI用户列表。4.3. 文本相似度分析与网络攻击相关的推文往往包含对网络攻击有特殊含义的俚语或词汇。因此，简单的基于关键字的过滤或基于频率的方法，不考虑文本的语义在识别与网络攻击有关的推文方面具有局限性。在这项研究中，我们采用了三种文本特征提取方法来对推文进行语义解释：（1）Rake[25]，（2）Word2Vec [26]，(3) [27]第二十七话我们的目标是如何智能地结合基于图形和文本的分析来检测网络攻击。因此，我们没有提出一个新的文本相似性度量，而是设计了一种方法，如何将文本分析中使用的代表性方法应用到我们的框架中。在应用三种文本特征提取方法之前，我们采用了现有SNS文本挖掘研究中广泛使用的预处理方法[28，29]，以最大限度地减少推文中的噪声。预处理步骤如下：（1）将所有推文转换为HTML，（2）去除推文中的标点符号和停止词，（3）去除除英文字符以外的所有字符，（4）去除除推文文本，诸如hashtag、URL、提及、RT、和缩略语，以及（5）词形还原，即，将tweet中的单词转换为单词的原始词汇格式4.3.1. 相关用户提取为了衡量推文与网络攻击的相关性，我们定义了每条推文与CSI短语列表的相关性得分。我们为每个词Wi定义权重，如等式（1）所示。（1）考虑CSI短语列表的每个短语中的单词的数量。也就是说，对于每个单独的阶段，构成它的单词数量越少，每个单词的权重越高，考虑到与网络安全相关的单个短语组成的单词数量影响对网络安全的重要性。例如，对于短语“在线安全块”，“在线”、“安全”和“博客”中的每一个都然后，一个特定的词包含在短语中，越重要，它是在网络安全中，将每个短语的权重相加。这里，P是CSI短语列表中包含Wi的短语集合（P）（重量（W）max（1，1）（1）pp中的单词数根据等式（1）在一个单词短语中，密钥本身与网络攻击完全相关（例如，在由多个单词组成的短语中，只有当它们组合在一起时，它们才与网络攻击有关（例如，“肮脏的牛”），减少每个字的重量方程。（一）.然后，我们定义每个推文T与网络攻击的相关性得分，如等式（1）所示。（2）其中T =W1，W2，，Wn，一组单词。T中包含的目标词越多，它对网络攻击的重要性就越大。因此，对于T中的每个单词Wi，Wi的频率乘以权重（Wi），并且T中所有单词的结果被求和。NCSI评分（T）=频率（Wi）×体重（Wi）（2）i=1我们进一步基于CSISore（T）过滤被过滤的CSI用户列表中的用户。根据等式（2），我们只选择CSISore（T）大于或等于1的推文，排除剩余推文少于15条的用户（即，0.0001%的平均tweets每个用户）。因此，我们将剩余的197个用户定义为已验证和相关CSI用户列表，这是所提出的模型的最终目标用户列表4.3.2. 网络攻击的相关性测量我们提出了一种方法来衡量CSI相关分数的鸣叫使用代表性的关键字特征提取方法，即， Word2Vec 和Doc2Vec。首先，Rake（快速自动关键字提取）[25]被认为是一种有效地从文档中提取关键字的方法。它通过分析词在文本中的出现以及与其他词的共现来从文本中提取关键短语。我们通过对每条tweetT应用Rake来提取关键短语。然后，使用这些短语中的关键字列表，我们根据等式（1）计算基于Rake（二）、J. - H.公园和H.- Y. KwonICT Express 8（2022）499503表3实验中使用的参数参数基线模型拟议模型前7天(1) 测量周期前5天前3天前1天(2) 用户过滤CSI用户列表已授权和相关CSI用户列表(3) 文本特征提取Frequency Rake Word2Vec Doc2Vec(4) 相关用户选择①中心度之间②RF排名③基于随机图的社区检测其次，Tomas等人[26]提出的词嵌入模型Word2Vec将文本转换为向量空间中的词单元，以捕获词之间的语义。我们使用GoogleNews向量负3003作为预训练模型。它是由1000亿个单词组成的Google News数据集的单词词典的向量模型。我们将tweetT中的单词转换为向量空间，然后将tweet的向量定义为tweet中所有单词向量的均值。然后，我们得到的平均余弦相似度之间的向量的鸣叫和所有的词向量的CSI短语列表中的每个短语。第三，Doc2Vec [27]通过将Word2Vec中的“word”单元扩展为“parcise”，将文本的句子转换为向量空间。我们使用英语维基百科4作为预训练模型，它是由维基百科文章训练的。我们得到的余弦相似度之间的向量转换从鸣叫T和CSI短语列表。4.4. 网络攻击检测指标我们定义的攻击日期，如果方程。（3）真实。给定攻击日期之前的测量周期P和通过社区检测获得的社区组Gi，我们将P期间Gi中的用户撰写的推文定义为Tweet（P，Gi）。然后，对于文本相似性度量S顶，CSI相关性得分ScoreS顶（Tweet（P，Gi））被定义为Gi中用户所写的所有推文的平均CSI相关性得分。这里，如果我们使用Y，这是目标网络攻击发生的年份，而不是Tweet（P，G i）中的P，我们可以定义Y期间G i的CSI相关性得分。我们定义基线来显示所提出的模型的有效性，因为我们不能公平地将其与以前的研究进行比较。[8]仅针对基于DDoS相关词的DDoS攻击。[9，10]专注于检测相关推文的改进，这可以用来改进本研究中提出的文本分析，这表明了一个正交问题。首先，基线模型使用CSI用户列表，相比之下，在所提出的模型中，使用经验证的CSI用户列表和经验证且相关的CSI用户列表。其次，与所提出的模型中的文本相似性分析相比，它使用关键字频率进行文本特征提取。第三，与社区检测相比，它采用三个标准来选择相关用户：（1）BC（介数中心性），（2）RF（记录的未来）排名和（3）随机。首先，BC基于图上的信息流根据影响量找到一组节点[30]。其次，RF Rank按照相关性的顺序提供用户的排序列表网络攻击，这是由Recorded Future提供的（具体来说，根据包含“利用”一词的书面推文数量对用户进行排序）。第三，随机从CSI用户列表中随机选择用户。通过社区检测，我们得到了四个社区组，每个社区组分别包含33、73、53和38个用户，平均数量为是49.25为了进行比较，我们根据这三个标准选择了前50名用户。我们使用一个度量来测量检测精度，如等式（1）所示。（4）、我们专注于相对增强，由于在建议的框架中使用的每个组件，而不是绝对精度值。精度Eq正确检测到的网络攻击数量（三）评分SM（Tweet（ P， Gi））>评分SM（Tweet（ Y， Gi））（3）=5. 绩效评价网络攻击总数（四）5.1. 实验环境在实验中，我们比较了所提出的模型和比较之间的检测精度。表3描述了使用的参数。默认参数以粗体表示。这里，测量时段包括攻击当天。3 https：//cde. 去吧。com/archive/p/word2vec/4 https：//github. com/jhlau/doc2vec/blob/master/5.2. 实验结果通过社区检测和文本相似性分析，将目标用户从CSI用户列表中筛选出来，得到已认证的CSI用户列表和已认证的相关CSI用户列表。图4（a）示出了改变过滤用户的结果。因此，这两种过滤方法提高了所有三种类型的文本相似性度量的检测精度。具体地，所提出的模型中的已验证和相关CSI用户列表优于所述模型中的CSI用户列表。J. - H.公园和H.- Y. KwonICT Express 8（2022）499504∼∼表4通过社区检测识别的群体统计组1234STDRake的CSI相关性评分2.6022.5032.8892.5730.147过滤推文0.8440.6090.5890.7100.101见图4。由于过滤用户和文本相似性度量的比较是不同的。图五. 通过社区检测和基线确定的四个群体之间的比较。基线模型的准确率为11.37 - 24.45%，验证了社区检测和文本分析的有效性.图4（b）显示了文本相似性度量变化时的结果。实验结果表明，该模型中的文本分析比关键词频率具有更高的检测准确率。特别是，Rake在所提出的模型中表现出最高的准确性，其优于关键字频率高达29.46%。图5（a）示出了随着测量周期的变化，通过群落检测识别的四个组之间的比较。结果表明，第3组精度最高，但差异较大，特别是在测量周期为3 ~ 5d时，一般精度较高。图图5（b）示出了组3的比较结果，其示出了图5（a）中的最佳检测精度，其中基线模型使用BC、RF和随机。显然，BC和RF通常比Random更好。第3组疗效显著优于BC、RF和Random，分别为28.89 ± 35.56%。组3的最高准确率为75.56%。为了验证社区检测的有效性，我们针对根据我们的社区检测而检测到的每个社区获得以下两个统计量：（1）当测量周期为5天时基于Rake的CSI相关性得分以及（2）被CSI相关性得分过滤掉的推文与所有推文的比率。前一个值越高，后一个值越低，群体越相关。表4按组别列出了这些标准的结果它图第六章按组进行的情绪分析（%）。表示组3对于前一个标准具有最高值，对于后一个标准具有最低值。这个结果与图10中的结果一致。5（a）.我们还注意到这两个标准都具有高标准差，表明检测到的社区是可区分的。例如，社区在CSI相关性分数上的标准偏差显著大于随机划分的四个组（即，0.054）约为2.72倍。当测量期为5天时，我们进一步对我们检测到的社区的推文进行情感分析。图6是通过将每条推文映射到情感类（即，阳性、阴性或中性），具有最大得分。有趣的是，Group3中负面推文的比例明显最高，而正面推文的比例最低，这意味着与网络攻击最相关的社区对事件的负面影响最大。6. 结论在这项研究中，我们旨在通过跟踪网络攻击相关用户撰写的社交媒体的趋势来快速检测网络攻击。我们提出了一种新的网络攻击检测模型，使用社区检测和社交媒体上的文本分析。它结合了推文中的语义为了评估与网络攻击的相关性（即，基于文本的分析）和社区检测以识别与网络攻击最相关的组（即，基于图形的分析）。通过大量的实验，我们证明了该模型的有效性，在检测准确率和相关性偏差和情感分析社区之间的网络攻击。在这项研究中提出的方法的突出点是，我们结合了两种不同的数据类型：文本语义分析的语义理解的推文和社区检测利用Twitter用户的关系。因此，本文提出的方法可以有效地应用每种数据类型来改进基线. 我们还可以将所提出的模型的这一特性应用于另一个领域。例如，在股票价格预测问题中，由影响者（例如，埃隆·马斯克（Elon Musk）J. - H.公园和H.- Y. KwonICT Express 8（2022）499505在社交媒体上显著影响股票价格。他们与其他相关人员也有着密切的关系。因此，本研究所提出的方法可应用于其他领域的问题。在这项研究中，我们利用推文的语义和推文用户之间的关系。作为进一步的研究，我们计划纳入更多的数据类型，以提高检测精度。也就是说，可以从Twitter收集的地理信息，例如用户配置文件中的位置和书面推文中的位置，对于检测网络攻击至关重要。首先，推文用户的位置将是检测社区的重要信息。其次，与特定网络攻击相关的推文的撰写地点可能与网络攻击的目标地点有很强的关系。因此，我们可以期望通过将位置信息结合到模型中来提高当前的检测精度。CRediT作者贡献声明朴正河：概念化，方法论，软件，数据管理，写作-初稿，可视化，调查。Hyuk-Yoon Kwon：概念化，方法学，调查，监督，撰写竞合利益作者声明，他们没有已知的可能影响本文所报告工作致谢这项工作部分得到了韩国政府（MSIT）资助的韩国国家研究基金会（NRF）资助（编号2021R1F1A1064050）的支持，部分得到了教育部资助的韩国国家研究基金会（ NRF ）基础科学研究计划的支持（编号2021R1F1A1064050）。2019R1A6A1A03032119）。引用[1] Twitter by numbers ： Stats ， demographics& fun facts ， 2020 ，Available online：https：//www. 我是一个很好的朋友。com/twitter-statistics（2020年10月[2] A. Attarwala，S. Dimitrov，A. Obeidi，Twitter的效率如何：通过Twitter使用支持向量机预测2012年美国总统选举，并与爱荷华州电子市场进行比较，2017年智能系统会议（IntelliSys），IEEE，2017年，pp。646-652[3] J. Liu ， T. Singhal ， L.T. Blessing ， K.L. 伍德， K.H. Lim ，Epic30m：超过3000万条相关推文的流行病语料库，载于：2020年IEEE大数据国际会议（大数据），IEEE，2020年，pp。1206 -1215[4] 纳赛尔·阿尔萨迪，皮特·伯纳普，奥默·拉纳，我们能预测一场骚乱吗？使用Twitter进行破坏性事件检测，见：2017年ACM互联网技术交易（TOIT），2017年，pp. 1比26[5] A. Hernandel-Suarez ，G. Sanchez-Perez ， K. Toscano-Medina ， V.Martinez-Hernandez ， H. Perez Meana ， J. Olivares-Mercado ， V.Sanchez，Twitter中的社会情感传感器，用于预测网络攻击，传感器18（5）（2018）1380。[6] A. Modi，Z. Sun，A. Panwar，T. 海尔纳角 Zhao，中国粘蝇A.Doupé等人，Towards automated threat intelligence fusion，in：2016IEEE 2ndInternational Conference on Collaboration and InternetComputing（CIC），IEEE，2016，pp. 408-416[7] R.P. Lippman，D.J. Weller-Fahy，A.C. Mensch，W.M. Campbell，J.P. Campbell，W.W. Streilein，K.M.卡特，在社交媒体中寻找恶意网络讨论，在：第三十一届AAAI人工智能会议研讨会，2017年。[8] N.钱伯斯湾Fry，J. McMasters，《从社交媒体文本中检测拒绝服务攻击：将NLP应用于计算机安全》，2018年北美分会会议论文集计算语言学协会：人类语言技术，第1卷（长论文），2018年，第10页。1626-1635年。[9] N.迪奥尼西奥角Alves ，P.M. Ferreira ，A. Bessani ，Cyberthreatdetectionfrom twitter using deep neural networks ， in ： 2019International JointConferenceon Neural Networks （ IJCNN ），IEEE，2019，pp. 一比八[10] R.P. Khandpur，T. Ji，S. Jan，G.王，C.T. Lu，N. Ramakrishnan，众包网络安全：使用社交媒体进行网络攻击检测，载于：2017年ACM信息和知识管理会议论文集，2017年，第100页。1049-1057[11] Shi Zong，Alan Ritter，Graham Mueller，Evan Wright，分析社交媒体上报告的网络安全威胁的感知严重性，2019，arXiv预印本arXiv：1902。10680.[12] Otgonpurev Mendsaikhan等人，使用Doc2Vec语言模型识别网络安全特定内容，见：2019年IEEE第43届年度计算机软件和应用会议（COMPSAC），第1卷，IEEE，2019年。[13] P. Goyal ， K.T. Hossain ， A. Deb ， N. Tavabi ， N. Bartley ， A.Abeliuk，E. Ferrara，K. Lerman，从网络源中发现信号以预测网络攻击，2018，eprint arXiv：1806。03342.[14] Muhammad Aqib Javed等人，网络中的社区检测：多学科综述，J。网络Comput. Appl. 108（2018）87[15] Mark E.J. Newman ， Fast algorithm for detecting communitystructureinnetworks，Phys. Rev. E 69（6）（2004）066133。[16] 杨文，张文，张文，等.大规模网络中的社区结构.北京：科学出版社，2004.[17] V.D. J.L.布隆德尔纪尧姆河Lambiotte，E. Lefebvre，Fast unfold-ingof communities in large networks，J. Stat.机械理论实验(10)（2008）P10008。[18] M. Seifikar，S. Farzi，M. Barati，C-blondel：一种基于louvain的高效动态社区检测算法，IEEE Trans. Comput. Soc. 7（2）（2020）308-318。[19] M.A. Javed，M.S.尤尼斯，S。J. Qadir，A. Baig，网络中的社区检测：多学科综述，J. Netw。Comput. 108（2018）87-111.[20] S.戈什，M。Halappanavar，A. Tumeo，A. Kalyanaraman，H. Lu，L. Chavarria-Miranda等人，分布式louvain算法的图社区检测，在：2018 IEEE国际并行和分布式处理研讨会（IPDPS），IEEE，2018年，pp。885-895[21] Z. Zhang，P. Pu，D.汉，M。唐，自适应louvain算法：基于小概率事件原理的快速稳定社区检测算法，Physica A 506（2018）975-986。[22] Derry Jatnika ， Moch Arif Bijaksana ， Arie Ardiyanti Suryani ，Word2vecmodel analysis for semantic similarities in english words，ProcediaComput. Sci. 157（2019）160-167.[23] 唐丹，孙宇，基于语言深度感知的英语作文自动评分方法，物理学报：会议系列。1486（4）（2020）.[24] J. You，J. Lee，H.Y. Kwon，一种完整而快速的收集推文的抓取方法，在2021年IEEE大数据和智能计算国际会议（BigComp），IEEE，2021年，pp. 24比27[25] S. Rose，D. Engel，N. Cramer，W. Cowley，从单个文档中自动提取关键字，文本最小值：Appl. Theory 1（2010）1-20.[26] T.米科洛夫岛，意-地萨特斯凯弗角，澳-地Chen，G. Corrado，J.Dean，单词和短语及其组合性的分布式表示，2013，arXiv预印本ArXiv：1310。四五六。J. - H.公园和H.- Y. KwonICT Express 8（2022）499506[27] Q.勒，T. Mikolov，句子和文档的分布式表示，在：国际机器学习会议，PMLR，2014年，pp. 1188-1196年。[28] N.迪奥尼西奥角Alves ，P.M. Ferreira ，A. Bessani，Cyberthreatdetectionfrom twitter using deep neural networks，in：Proceedings ofthe2019InternationalJointConferenceonNeuralNetworks（ IJCNN ）， Budapest ， Hungary ， 14-19 July 2019 ， IEEE ，Piscataway，NJ，USA，2019，pp. 一比八[29] Y.Aphinyanaphongs，A.作者声明：R.Bonneau，P.Krebs，用于自动检测电子烟使用和使用的文本分类从Twitter戒烟：可行性试点，Pac。Symp.生物计算机21（2016）480-491。[30] L.C. Freeman，A set of measures of centrality based on betweenness，Sociometry（1977）35-41.

下载后可阅读完整内容，剩余1页未读，立即下载