基于语义分析和学习的社会网络搜索

189 浏览量更新于2023-12-05 收藏 675KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com在线获取ScienceDirectCAAITransactions on Intelligence Technology 1（2016）293e302http://www.journals.elsevier.com/caai-transactions-on-intelligence-technology/评论文章基于语义分析和学习的社会网络搜索寇菲菲，杜俊平*，何义江，叶凌飞北京邮电大学计算机学院，智能通信软件与多媒体北京市重点实验室，北京1008762016年12月22日在线发布摘要由于每个人都参与到社交网络中，社交网络中充满了海量的多媒体数据，事件通过社交网络以多模态、多属性的异构数据形式发布和传播。关于社交网络搜索的研究很多。在现有研究的基础上，考虑到消息的时空特征和用户之间的社会关系，从语义的角度总结出一个整体的社会网络搜索框架。对于社交网络搜索而言，时空数据的获取和表示是基础，社交网络跨媒体大数据的语义分析和建模是重要组成部分，社交网络的深度语义学习是重点研究领域，索引和排名机制是不可或缺的部分。本文综述了这些领域的研究现状，并指出了社会网络搜索面临的主要挑战。最后，对社会网络搜索的前景和进一步的工作Copyright © 2016 ，重庆理工大学 . Elsevier B. V. 制作和托管这是 CC BY-NC-ND 许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：语义分析;语义学习;跨模态;社会网络搜索随着社交网络越来越流行，大量用户持续活跃。他们总是在任何时候发表他们所看到的和他们所想的。社交网络中的用户可以关注他们感兴趣的人，并对消息进行评论或转发。社交网络已经积累了大量用户生成的数据。由于手机摄像头的存在，出现了各种异构媒体，比如除了文本信息之外，社交网络中的图像和视频。在社交网络中，如Twitter和新浪微博，发布的消息限制为140个字符[1]。它太短，无法传达用户想要表达的内容，因此他们通常除了简洁的文字外，还使用不止一个图像来描述事件。社会网络数据是多模态的、异构的，并且还伴随有多个属性，例如，时间戳和位置信息。* 通讯作者。电子邮件地址：junpingdu@126.com（J. Du）。同行评议由重庆理工大学负责。发布消息，并且Twitter所描述的事件的时空信息（即，事件发生的地点和时间）。在社交网络中存在大量的社会关系。在发布微博时，许多用户经常使用主题标签，有时还会分享相关链接以提供有关事件的更多细节[2]。海量的社会网络数据蕴含着极其宝贵的信息，信息的特性给社会网络搜索带来了机遇和挑战。在社交网络平台上，人们可以通过发布、转发和评论等方式快速高效地分享信息。许多事件首先在社交网络平台上报道因此，如何在海量的社会网络数据中获取感兴趣的信息就变得尤为重要[3]。用户可以搜索及时信息、社会信息以及热门信息。及时的信息搜索意味着跟上正在发生的事情，了解趋势或新闻。社会信息搜索是指搜索特定的个人及其感兴趣的内容。主题信息搜索是指搜索特定的主题，http://dx.doi.org/10.1016/j.trit.2016.12.0012468-2322/Copyright © 2016，重庆理工大学由爱思唯尔公司制作和主持这是一篇基于CC BY-NC- ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。294F. Kou等人/CAAI Transactions on Intelligence Technology 1（2016）293e 302公众对他们的感情。社交网络搜索已经引起了广泛的关注，例如，近年来国际著名的TREC大会就设置了微博搜索话题。当前的社交网络搜索，如Twitter和新浪上的搜索，用户输入搜索关键词，返回检索到的列表。然而，由于社交网络数据量大、内容短小、用户拼写错误和叙述风格多样等问题，导致关键词形式的社交网络搜索结果不佳。随着深度学习的发展，跨模态检索取得了一定的进展。用文本搜索图像或用图像搜索文本都取得了很好的搜索效果[4]。在现实生活中，当我们看到一个图像时，我们想知道图像背后发生了什么。由于每个人都参与到社交网络中，因此在社交网络中存在大量的多媒体数据。在社交网络上搜索一张图片，我们希望得到包含相同或相似图片的推文，并且我们还需要包含与搜索图片相关或一致的文本的推文。通过社交网络搜索，我们可以得到更详细的信息。如果我们想了解一条简短微博所描述的事件的更多细节，相应的代表性图像可以给我们更丰富、更生动的情况描述。因此，对多模态异构社会网络数据进行分析是一个极具吸引力和挑战性的课题。通过对时空信息的表达和建模，语义分析和语义学习可以实现社会网络跨模态搜索。目前，社会化网络搜索已经引起了广泛的关注，主要的研究工作集中在以下几个方面。时空社会网络数据的获取与表示，即社会网络数据的获取、数据的合理清洗与过滤、数据特征的提取、数据的有效存储与管理;社交网络中跨模态数据的语义分析与建模，利用语义分析技术实现对社交网络中跨模态数据的准确内容理解，对社交网络数据的时空特征、文本特征、视觉特征和社交特征等多种特征进行建模，并将这些数据特征映射到同一表示空间中;社交网络的深度语义学习。即实现文本特征和视觉特征的关联映射学习，实现异构数据的匹配;社会网络搜索的索引和排序机制，要实现社会网络搜索，需要根据不同的搜索需求对社会网络数据进行索引和排序。考虑到实际情况，对不同的特征，如文本特征、视觉特征、社交特征、时空特征、主题标签、链接信息、社交关系等，设置不同的权重，可以设计不同的排序方法。基于上述分析和社会网络搜索的最新研究成果，图1总结了基于语义分析和学习的社会网络搜索的总体框架。1.一、分析了社会网络数据的特点，给出了社会网络搜索的主要目的和社会网络中现有的搜索形式，指出了社会网络跨模态搜索的意义，给出了社会网络搜索的主要架构。在此基础上，综述了时空数据的获取与表达、社交网络的分析与建模、社交网络的深度语义学习、社会网络搜索的索引与排序机制等方面的研究现状，并指出了社会网络搜索面临的主要挑战。最后，对该领域今后的工作进行了展望。1. 在线社交网络社交网络是一种关系网络，可以帮助用户建立在线友谊，并在朋友之间分享兴趣、爱好、状态以及活动信息，具有强大的信息发布、传播、获取和分享功能。社交网络数据主要包括文本信息、图像信息、时间戳和位置信息[5]。时空数据的获取和表示为事件检测[6]、跨媒体搜索[7]、图像标注等[8]和其他研究领域。1.1. 在线社交网络获取社交网络数据的主要方式有两种。一个是为社交网络提供良好的数据API接口，如Twitter和Flickr;我们可以获得图1.一、基于语义分析和学习的社会网络搜索总体框架F. Kou等人/CAAI Transactions on Intelligence Technology 1（2016）293e 302295在我们通过OAuth验证后，通过保持长套接字连接来进行信息流。另一种是对于没有提供良好数据API接口的社交网络，如新浪微博，研究者只能使用爬虫技术来获取所需信息。Zhou等人[9]提出了一种支持并行化技术的新浪微博数据爬虫。该工具可以实时抓取特定微博信息，如用户的粉丝、微博文字内容等。利用关键字匹配和并行化技术，可以同时获取多个用户的信息。实验结果表明，该工具采集的数据实时性好，准确性高。Zeng等人[10]开发了一种基于微博话题的微博网络爬虫。他们设计了一种广度优先的搜索策略，并将其应用到微博爬虫中。本课题的主要特点是对短文本主题抽取技术和多关键词匹配技术进行了分析和设计。所设计的基于微博主题的原型系统能够实时抓取和存储微博数据。虽然效率较低，但抓取的微博数据具有较好的主题相关性。1.2. 在线社交网络向量空间模型、LDA主题模型和词嵌入等常用的文本特征表示方法。在文献[11]中，文本信息采用LDA主题模型进行建模。构建了本地语料库的词典，利用概率主题模型获取词在不同主题上的分布，并将文本的语义映射到主题空间中。在文献[12]中，使用skip-gram模型来表示文本，通过预测周围的词，然后用固定长度的向量来表示文本中的每个词。此外，作者在大量数据上训练了模型，因此可以高质量地表示单词和短语。各种文本特征的表示方法在长文本中取得了很大的成功，特别是主题模型和词嵌入方法。然而，社交网络中的文本信息通常都很短，如何利用现有的文本特征表示来表示短文本是一个亟待解决的问题。在跨媒体领域，SIFT特征和通过深度学习方法深度学习的图像特征通常用于图像表示。 SIFT（ScaleInvariantFeatureTransform）特征是计算机视觉领域的一个重要特征。与传统的识别方法不同，SIFT不关注整体特征，而是关注局部点，并建立尺度空间作为局部点的特征描述，选择合适的尺度来适应图像大小的变化，方向信息的利用使其很好地适应旋转。对于跨媒体搜索，通常采用k-means算法对SIFT特征进行聚类，从而获得视觉词。利用主题模型对视觉词进行建模，可以得到视觉词在不同主题下的分布，最终将图像映射到主题语义空间[13]。目前，主要通过深度神经网络获取深度图像特征。常用的两种深度神经网络结构是 AlexNet[14] 和 VGG-Net[15]。AlexNet是一个卷积神经网络，具有五个卷积层，两个全连接层和一个SoftMax层。VGG-Net使用更多的网络层，一般达到16到19层，在卷积层中，卷积滤波器的大小是相同的。通过深度学习方法获取的图像特征在图像分类、图像标注、图像检索等任务中取得了比人工特征更好的效果。互联网带来的大数据为深度神经网络提供了大量的训练样本，GPU的使用保证了运算速度。社交网络中用户发布消息的时间特征和位置特征可以离散处理，也可以连续建模。例如，时间在动态LDA中被切片[16]。在文献[17]中，作者将时间信息建模为贝塔分布，位置信息由连续的纬度和经度表示。连续的纬度和经度也分别被建模为贝塔分布。在参考文献[18]中，作者提出了STM-twitter LDA，它也使用beta分布来表示连续时间信息，但位置信息是离散处理的。它收集了16个国家在同一时期的twitter数据，并将一个国家作为一个地区来模拟位置信息。将时间特征和位置特征建模为连续的概率分布可以为社交网络搜索提供更准确的结果，但并非所有情况都需要连续建模，离散处理时间特征和位置特征可以大大提高搜索速度。1.3. 社交网络数据的存储和管理在社交网络中一直产生大量数据。社交网络数据同时具有数据量大、数据速度快的特点，因此如何有效地存储和管理社交网络数据显得尤为重要。为了应对社交网络中大数据特性和快速数据特性并存的情况，Gilad Mishne等人[19]首先设计了一个基于Hadoop的数据系统，在处理大数据方面取得了良好的效果。但在处理实时快速数据时，效果并不理想。为了支持Twitter的查询建议，他们将其替换为内存处理引擎，并可以实现社交网络的实时搜索。对于大多数现有的社交网络搜索，查询操作在内存中执行，并且内存是稀缺的。当大量数据存储在内存中时，很难实现实时的社交网络搜索。Amr Magdy等人[20]提出了一种kFlushing策略来提高内存命中率。如果内存已满，它会将相关性较低的数据从内存转移到硬盘，然后可以在内存中处理新数据，实现社交网络中的实时搜索。社交网络为用户提供了发布和传播信息的平台，为大规模社交网络的研究提供了数据基础[21]。现有296F. Kou等人/CAAI Transactions on Intelligence Technology 1（2016）293e 302文本特征、图像特征、时间特征和位置特征的表示方法在特定领域取得了良好的效果。然而，对于多模态、多属性的社会网络数据，如何将各种特征融合在一起，并一致地表示出来，还需要进一步的研究。为了在社交网络中实现大数据、快速数据的实时搜索，需要开发一种更合适的数据存储和管理方式。2. 社交网络跨媒体大数据2.1. 短文本的语义分析与建模短文本是社交网络中的主流，如何对文本信息进行建模，解决文本信息的稀疏性问题，引起了众多学者的关注。在文献[22]中，作者提出了一种新的短文本主题建模方法--双项主题模型（BTM）。为了克服短文本的稀疏性问题，作者利用丰富的全局词共现，而不是稀疏的文档级的。概率主题模型不依赖于任何外部信息，直接对无序词对进行建模。实验结果表明，BTM能发现更突出、更连贯的主题，即使在长文本上也能取得较好的效果。另一种简单但流行的处理稀疏性问题的方法是将短文本聚合成长文档，然后用标准的主题模型训练它们。在文献[23]中，作者假设一条tweet通常只有一个主题，并针对twitter中的短文本提出了一个概率主题模型Twitter-LDA。2.2. 跨模态数据的语义分析与建模大数据语义分析技术为理解社会网络数据提供了重要的支持，也是许多大数据应用的基础。主要问题是随着异构网络数据的快速产生，数据本身以多种形态存在，因此如何从异构介质中识别出相应的概念成为热点问题。Blei等人。[24]基于对文本和图像的分析设计了三种不同的生成模型。一个是强主题相关模型，其中文本和图像的主题是相同的。另一种是弱相关模型，其中文本和图像分别从同一主题分布中采样。另一种模型把文本看作是图像的注释，文本的主题从图像主题中均匀抽取。作者通过提出的Corr-LDA模型将文本和图像映射到同一主题空间，在图像标注和图像搜索任务中取得了良好的效果。Bian等人[25]提出了一种新的多模态LDA模型，它可以从微博中发现子主题，并通过探索不同数据模态之间的相关性获得子主题分布。利用多模态LDA模型，可以自动生成趋势主题的概要。在跨模态语义分析和建模领域，使用概率主题模型对不同模态的数据进行分析和建模是一种主流。通过改进现有的加工模型，利用语义分析和建模技术，建立更精确的跨模态语义空间，仍值得进一步研究。在上述基于潜在狄利克雷分布的生成模型中，严格的文本-图像对被视为研究对象，假设它们具有相同的主题分布，或者一个模态主题分布依赖于另一个模态主题分布。然而，对同一事件或对象的描述不仅在形式上是异质的，而且在内容、数量、粒度上也不是一一对应的。文献[26]提出了一种双边对应主题模型，它考虑了文本和图像主题之间的多重依赖关系，可以灵活地对社交媒体数据进行建模。该模型可用于社会网络数据的聚类和汇总。文献[27]提出了一种多模态互主题强化建模方法M3R。该方法利用类别信息、主题交互等外部数据为多模态数据建立公共空间。多模态数据的学习潜在表示是相关的和可区分的。在跨模态检索实验中取得了良好的效果。文献[28]提出了一种新的矩阵分解跨模态匹配算法，用于处理不成对数据。联合学习不同模态的矩阵，并使用一些类别标签信息2.3. 多属性数据的语义分析与建模社交网络中的图像和文本数据包含了大量与其他平台不同的时空信息，如微博描述的事件的时间和位置信息、推文发布的地点和时间、用户的位置信息等。时空信息的组合在跨模态搜索中起着至关重要的作用，以分析语义异构特征并建立公共语义空间[29]。文献[30]提出了一种结合时空信息的跨平台视频推荐方法。参考文献[31]提出了一种利用微博数据的时空信息来自动总结事件的方法，并在事件检测中取得了较好的效果。在参考文献[32]中，作者考虑了颜色，空间和时间信息来识别视频中的每个人。在社会网络搜索中考虑空间和时间信息可以大大改善搜索结果。利用社会网络数据之间的相关性，结合它们的多属性对社会网络数据进行分析和建模是当前研究的热点。在参考文献[33]中，受自然语言处理中深度学习成果的启发，作者提出了一种名为Deep Walk的方法，将数据建模为无向图。图中的顶点表示数据，它们之间的边暗示数据之间的关系。F. Kou等人/CAAI Transactions on Intelligence Technology 1（2016）293e 302297通过这种方法，可以学习潜在的表征。作为一种在线算法，DeepWalk也具有可扩展性和并行性。Wu等人[34]利用从用户行为数据集中收集的点击数据，将点击次数作为相关关系特征，结合Deep Walk，建立了点击特征和多模态数据的公共空间。DeepWalk算法将属性特征建模为边和边上的值，在实际应用中取得了良好的效果。但是Bryan Perozzi等人并没有给出严格的理论证明。在文献[35]中，Cao等人对图模型进行了分析和推导，并对深度随机游走算法进行了详细推导。在跨模态语义分析和建模领域，概率主题模型主要用于对不同模态的数据进行建模。同时对多个属性和多个模态进行建模比较困难，仍值得进一步研究。3. 在线社交网络跨媒体大数据的深度语义学习社交网络搜索使用特定模态形式的数据作为输入，并返回所有相关数据的列表。因此，将深度语义学习应用于社交网络数据，实现对搜索意图的准确理解，并将查询与搜索准确匹配，是实现精准搜索的关键。现有的社交网络搜索基于关键字搜索，并使用外部存储库，如本体或维基百科，以实现对关键字的准确理解[36]。用户在社交网络上发布消息将意见挖掘和情感分析应用于社交网络数据，以提高语义学习和精确搜索的效果，也是一个研究热点[37]。由于社交网络中大量图片和视频的存在，文本特征和视觉特征之间的映射学习引起了大量科学研究者的关注[38]。通常社交网络中的典型图像描述的是一个特定场景，社交网络图像的场景识别任务是跨模态社交网络搜索的一个重要研究方向[39]。3.1. 使用外部知识库进行语义学习由于社交网络搜索的搜索关键词相对较短，基于关键词的搜索可能会导致查询意图模糊。因此，外部知识库通常用于增强查询理解的准确性。在参考文献[40]和参考文献[41]中，对twitters附带的 hashtag 进行了分割，并将hashtag中的实体链接到Wikipedi以丰富语义并实现准确搜索。本体是进行语义检索的重要知识库，但它通常需要耗费大量的时间和人力，而且存储的数据通常是静态的。在参考文献[42]中，作者提出了一种基于维基百科的文本模型，而不是建立某种本体。它首先使用FCA（形式概念分析）来定义文档中的概念，并使用维基百科来确定概念的权重。在参考文献[43]中，维基百科和WordNet都被用作外部知识库，以消除文本理解的歧义，结合Google语料库和主题模型对用户进行分类，实现社交网络用户推荐。在文献[44]中，提出了一种基于知识的查询扩展方法用于社交网络搜索。他们使用的外部知识库是Freebase，通过从它派生的查询扩展，可以返回更多相关的tweets。作者将该方法应用于社会网络搜索任务中，由于查询被很好地理解，检索结果更好。除上述方法外，一个事件还经常出现在多个网络平台上，如新浪新闻、微博、百度百科、维基百科等社交网站或新闻平台。最近有学者利用深度神经网络来学习不同层次的多模态数据之间的相似性[45]。结合协同学习方法，可以将其他平台的语义学习结果应用到社交网络中，提高语义学习的效果。3.2. 跨模态数据的深度语义映射学习深度学习在跨媒体大数据的语义学习方面取得了优异的效果[46]。在参考文献[47]中，提出了一种深度视觉语义嵌入模型。文本特征由预先训练好的skip-gram模型提取，并表示为嵌入向量。通过预训练的深度神经网络提取视觉特征。文献[48]提出了一种深度典型相关分析方法，与CCA和KCCA方法相比，该方法在图像标注方面取得了更好的效果。文献[49]提出了一种深度语义关系学习方法，能够很好地保留原始图像-词对中的语义关系，实现了对大规模噪声数据的特征提取。文献[50]提出了一种对应深度自动编码方法，可以用来学习文本与图像之间的映射关系。在文献[51]中，作者使用语义注意模型，并结合视觉特征和视觉概念，然后可以从递归神经网络自动生成图像的自然语言描述。图像和文本之间的语义相似性学习可以在不同的层次上进行，如局部相似性学习、全局相似性学习和组合相似性学习。在文献[52]中，作者将图像片段与文本片段对齐，实现了图像CNN特征与文本特征之间的映射关系学习。文献[53]提出了一种自动发现语义词汇的方法，建立了图像特征和语义词汇的互空间。跨媒体检索实验证明了该方法的有效性。在文献[54]中，将图像和文本之间的局部相似性和全局相似性结合在一起，并提出了一种组合相似性算法。298F. Kou等人/CAAI Transactions on Intelligence Technology 1（2016）293e 302提出了一种深度交叉模态学习方法。在参考文献[55]中，作者使用卷积神经网络将图像CNN特征与单词，短语和句子进行匹配。提出的匹配CNN模型将文本组成不同的语义片段，并学习组成的片段和图像之间的模态间关系。对于社会网络搜索任务，可以选择合适的形式进行语义匹配关系学习。社会网络中跨媒体搜索的最大障碍是异构数据的语义鸿沟。因此，异构媒体数据之间的特征表示和映射关系学习是解决跨媒体搜索问题的关键。在参考文献[56]中，作者提出了一种基于深度学习的多模态检索方法。为了捕获异构数据的模态间和模态内语义关系，该方法首先需要学习目标函数。提出了两种学习方法。一种方法使用堆叠的自动编码器，这是一种需要最少先验知识的无监督方法。另一种方法使用神经语言模型和深度卷积神经网络，这是一种有监督的方法。语义关系学习法是一种有效的记忆方法，实验结果证明了它的有效性.基于深度学习的语义映射学习方法已广泛应用于社交网络中的跨模态搜索[57]。利用深度特征表示跨媒体数据，利用深度架构学习映射关系，可以有效提高搜索精度。但是，深度特征的维数很高，虽然可以提高搜索的准确率，但同时也会带来搜索速度的下降[58]。3.3. 在线社交网络中跨媒体大数据的情感分析针对社交网络数据能够反映用户情感的情况，许多学者在语义学习过程中引入情感分析，以提高学习效果[59]。Sixto等人[60]提出了一种将BM25排序函数与线性支持向量模型相结合的情感分析方法Aliaksei et al.[61]设计了一个深度卷积神经网络用于Twitter情感分析任务，在短语级别和消息级别的微博语料库中取得了良好的效果。文献[62]将社交网络图像分为视觉相关图像和情感相关图像，分别从视觉图像和情感图像中提取视觉词汇和情感词汇文本主题是根据不同的相关性分别作者提出的VELDA在跨媒体检索任务中取得了良好的效果。然而，情感分析方法大多将情感简单地分为三类：积极、消极和中性情感[63]，因此如何基于更细致的情感分析方法来提高社交网络搜索的效果需要进一步研究。3.4. 社交网络图像在社会网络中传播的突发事件图像往往倾向于描述整个场景而不是单个物体，因此为了充分利用图像信息，需要更好地实现场景识别。Yuan Y等人[64]提出了一种基于人类视觉系统的场景识别算法，对规则的深度架构流进行建模。该算法能更好地利用数据的结构信息，并能以无监督的方式实现高层特征下的场景分类。在社交网络中，有许多描述事件场景或热门话题的相似图像。这些相似的图像往往具有不同的分辨率，并且图像中包含了一些冗余的特征。这种社交网络特征使得难以识别图像的场景。在参考文献[65]中，为了处理不同分辨率的图像，作者使用了多任务模型，因为它可以找到图像之间的内在关系。此外，为了保证从图像中提取出最有用的信息，提出了一种基于稀疏特征选择和流形正则化的SFSMR方法。采用本文提出的方法，有效地提高了场景识别的准确率。此外，由于拍摄角度或距离的不同，同一场景的不同图像呈现为多尺度特征，其中往往包含不同数量和大小的物体。同一个物体的尺寸越大，物体的数量就越少，反之亦然。在文献[66]中，为了解决这个问题，作者提出了多尺度神经网络用于特定尺度的特征提取。在社会网络跨模态搜索的研究中，图像场景识别是一个重要的研究内容。然而，由于同一场景的图像往往是多尺度和多分辨率的，如何提取最有用的信息，同时解决数据偏差问题是值得探索的。4. 社会化网络搜索随着社交网络的普及，用户可以很方便地在互联网上传播自己关注的事件信息，在线社交网络已经成为非常重要的媒体平台[67]。许多最广为人知的事件首先在社交网络中传播[68]。由于社交网络数据量大、实时性强，人们更容易在社交网络中搜索自己感兴趣的东西。在社会网络搜索的研究领域中，索引和排序机制是实现实时搜索的关键。对于从社交网络中存在的大量相似图像中进行搜索，跨模态霍夫曼编码是一种有效的策略。本文介绍了上述两个研究领域（即索引和排序机制、跨模态霍夫曼码）以及社会网络搜索最常用的评价标准。F. Kou等人/CAAI Transactions on Intelligence Technology 1（2016）293e 3022994.1. 索引和排名机制随着网络技术的发展和互联网用户数量的大量增加，新一代网络平台上的数据量也在大量增加互联网上的信息纷繁复杂，用户很难从大量的网络资源中快速找到自己最需要的信息。基于此，各种信息检索技术和搜索引擎技术得到了广泛的研究和迅速的发展。文献[69]综合考虑了社会网络的时间特征、社会特征和文本特征，提出了一种三维立方体倒排索引机制，并设计了三维立方体阈值算法，能够有效地更新系统的不同参数。他们提出了融合多种特征的排序机制，实现了社交网络中个性化的实时搜索。在文献[70]中，实现了综合考虑微博位置信息的微博搜索。此外，根据不同区域的查询率和更新率，提出了一种调整索引大小的方法，以节省内存，实现微博实时搜索。现有的微博搜索是通过用户输入关键词集合，搜索系统返回相关微博列表，包括文本、图片、视频、链接、标签、社会关系特征等。微博搜索的关键步骤是综合考虑社交网络数据的各种特征，计算查询词之间的相似度，对返回列表进行排序。文献[71]综合考虑微博内容特征、链接特征和用户关系特征，提出了一种微博搜索评分机制。当应用到Twitter数据集时，它取得了很好的效果。在参考文献[72]中，使用设计的BloomFilter Chains，可以快速生成候选文档，从而可以提高搜索速度。在文献[73]中，作者提出了一种改进的语言模型。通过对时间特征赋予适当的权重，对返回的微博列表进行排序，可以取得较好的检索效果。Liang等人[74]提出了一种改进的混合排序算法，名为TimeRA。与其他排序聚合算法不同，TimeRA在继承了不同搜索算法优点的同时，考虑了时间特征。作者还利用矩阵分解方法对缺失的帖子进行建模。TimeRA算法在检索任务中表现良好。此外，Wang等人[75]提出了一种根据用户数量和回复数量对相关帖子进行评分的方法。回复和转发越多，得分越高。他们还利用一些时间窗口来提取离群特征。利用离群值特征，将用户的参与度转化为分数的影响4.2. 交叉模态霍夫曼码互联网上的跨媒体数据正在爆炸性地增长，但同一事件的大多数多媒体图像都是相似这些相似的图像是指原始图像经过多次变换后的不同版本。在这种情况下，大容量数据库的快速检索变得越来越重要。因此，构建一种有效的处理跨媒体数据的近似算法来提高跨媒体社交网络搜索的准确性和效率至关重要。深度学习技术和哈希编码的结合得到了广泛关注[76]。采用哈希编码技术对多维特征进行有效降维，同时实现相似跨媒体数据的有效聚类。Cao Y等人。[77]提出了一种关联哈希网络来统一表示图像和文本，以实现跨模态搜索。Liu H等人。[78]提出了一种监控矩阵分解哈希算法，将不同形式的数据映射到同一个公共空间。Wang Y等人[79]提出了LBMCH算法。首先，在每个汉明空间中建立关于不同模态的数据。然后，它自动创建不同模态之间的映射，很好地保存数据本身的特征。Wang L等人[80]提出了一种图像和文本嵌入的联合学习方法，该方法使用了具有两个分支和多个线性过程的神经网络。基于哈希算法的跨媒体检索方法可以将图像和文本的高维特征映射到汉明空间。可以生成表示图像或文本的低维散列序列。提高了检索速度，满足了海量图像检索的需求。5. 基于语义分析和学习的根据以上研究，我们可以看到，在线社交网络搜索是非常有吸引力的，许多研究人员都致力于这方面的研究。在基于语义分析和学习的社会网络搜索的总体框架中，社会网络搜索的主要研究领域可以分为四个部分。(1) 在线社交网络社交网络的跨媒体大数据包含了具有时空信息的文本和图像，以及其他一些在线社交网络中跨模态和时空数据的获取和表达是社交网络搜索的基础，实现它面临两个主要挑战如何从海量数据中快速、高效地获取准确的时空数据信息是当前面临的第一个挑战为了实现这一目标，需要提取文本特征、视觉特征、时间特征、空间特征和社会特征，并利用现有的特征表示方法解决短文本的社会网络内容稀疏性问题。另一个挑战是如何为具有多属性、多模态特征的跨媒体数据建模，实现多源异构数据的集成和实体解析处理。300F. Kou等人/CAAI Transactions on Intelligence Technology 1（2016）293e 302(2) 支持时空和社会特征跨媒体语义分析和建模技术为社交网络中跨媒体大数据的语义学习提供了关键支持。社会网络数据以不同的媒体形式存在，同时具有时空属性和社会属性。第一个挑战是，我们需要从异构介质中识别相应的概念。我们面临的另一个挑战是设计一个统一的模型来分析和处理多模态数据及其各种属性，然后将它们映射到共享的语义空间。语义分析和建模的目标是对多属性异构数据进行一致的表达，如何通过优化实现不同属性在同一语义空间中的语义表示也是一个巨大的挑战。(3) 在线社交网络在跨媒体大数据语义学习领域，深度学习方法取得了良好的效果。社会网络中具有时空特征的文本通常较短，因此具有内容稀疏性的特点。对应的图像通常与文本不严格一致。考虑到这些问题，第一个挑战是我们需要将深度特征和时空特征结合起来，并选择合适的层次来学习文本特征和视觉特征之间的相似性。另一个挑战是如何建立一个深度神经网络架构来学习文本特征和视觉特征之间的映射关系。我们还可以利用在其他领域学习到的文本和图像之间的映射关系，来提高社交网络平台上的映射学习效果，实现深度视觉语义匹配。(4) 社会网络搜索的索引和排序机制在线社交网络已经成为信息发布和传播的重要平台，越来越多的用户倾向于在社交网络上进行搜索。使用什么类型的索引来减少内存消耗，以及如何利用社会网络的各种特征建立个性化的排序机制来实现精确搜索是社会网络搜索面临的主要挑战。6. 结论与展望社交网络作为一个人人参与的媒体平台，在突发事件的发布和传播中发挥着重要作用。基于语义分析和学习的跨媒体社交网络搜索是当前的研究热点。本文总结了社会网络搜索的总体框架，并简要回顾了当前研究的主要方面，即时空信息社会网络跨媒体大数据的获取与表达，支持时空特征和社会特征的社会网络跨媒体大数据语义分析、建模与深度语义学习算法，以及社会网络搜索的索引与排序机制。在总结近年来研究成果的基础上，总结了各种技术在社会网络搜索中的关键作用.虽然现有的理论和技术方法已经取得了显著的成就，但仍有一些问题有待进一步思考。分析了社会化网络搜索面临的主要挑战，并对社会化网络搜索的未来工作进行了展望：在数据的获取和表达方面，我们需要更快速、更方便地获取和表达有效的社会网络信息，包括时空信息、图像信息、文本信息、社会信息等。选择合适的方法进行库存管理还需要进一步的研究。在数据分析和建模方面，综合时空特征、社会特征、文本特征和视觉特征，实现统一建模是促进跨模态社会网络搜索的重要途径。在多模态、多属性异构数据的深度语义学习中，如何利用现有的深度学习方法结合多属性学习多模态数据的关联映射是社会网络跨模态搜索的关键。在搜索算法方面，结合现有的索引和排名方法，深度学习和哈希索引技术的研究仍需进一步探索，以提高搜索速度和准确性。基于语义分析和学习的社会网络搜索是一个很有吸引力的研究方向，也是未来值得研究的工作。确认本工作得到国家自然科学基金项目（No.61532006，No.61320106006，No.61502042）的资助。引用[1] W. Feng角Zhang，W. Zhang，J. Han，J. Wang，C. Aggarwal等人，STREAMCUBE ： hierarchical spatio-temporal hashtag clusteringforevent exploration overthe Twitterstream ， in ： IEEE ，InternationalConference on Data Engineering，2015，pp. 1561年和1572年。[2] YJ 段，微博搜索关键技术研究，博士学位论文，中国科学技术大学，2014。[3] D.l Wang，G. Yu，S. Feng，Y.F.张永斌鲍，社会化媒体搜索实体建模及其关系研究，中国。J.计算机39（4）（2016）657e 674。[4] L. Castrejon，Y.艾塔尔角Vondrick，H. Pirsiavash，A. Torralba，LearningAlignedCross-ModalRepresentationsfromWeaklyAlignedData，2016。[5] K. Duan，D.J. Crandall，D. Batra，Multimodal learning in loosely-organized web images ， in ： 2014 IEEE Conference on ComputerVisionand Pattern Recognition（CVPR），IEEE Computer Society，2014，pp. 2465和2472。[6] J. Pang，F.贾角，澳-地Zhang，W. Zhang，使用相似级联的分级聚类模式进行无监督Web主题检测，IEEETrans. Multimed。17（6）（2015）843e 853。F. Kou等人/CAAI Transactions on Intelligence Technology 1（2016）293e 302301[7] Y. Wei，Y. Zhao，Z. Zhu，S. Wei，Y. Xiao，J. Feng，et al.，情态依赖跨媒体检索。系统技术7（4）（2015）。[8] A. Karpathy ， F.F. Li ， Deep visual-semantic alignments forgeneratingimage descriptions，Comput. 目视模式识别。（ 2014）3128e 3137。[9] Z·H Zhou，H.R. Zhang，J. Xie，基于Python的新浪微博数据爬虫，J. Comput. Appl. 34（11）（2014）3131e 3134。[10] X. H. 曾，基于主题的微博网络爬虫研究（博士学位论文），武汉理工大学，2014。[11] J.C. Pereira，E.科维耶洛湾Doyle，N.Rasiwasia，G.R.G.兰克利特，R. Levy等人，在跨模态多媒体检索的相关性和抽象的作用，IEEETrans. 软件。Eng. 36（3）（2013）521e 535。[12] T.米科洛夫岛，意-地萨特斯凯弗角，澳-地Chen，G. Corrado，J.Dean，单词和短语的分布式表示及其组合性，Adv. 神经信息过程系统 26（2013）3111e 3119。[13] K.刘，基于语义的跨媒体一致性研究（博士学位论文），北京交通大学，2015。[14] A.克里热夫斯基岛Sutskever，G.E. Hinton，Imagenet分类与深度卷积神经网络，高级神经信息处理。25（2）（2012）2012。[15] K. 西蒙尼扬A.Zisserman，Very deep convolutional networks for large

下载后可阅读完整内容，剩余1页未读，立即下载