第一章 绪论
1.1 研究背景
随着当下的信息发展速度不断的加快,现在人们利用互联网搜索信息的应用
非常成熟,而人们每时每刻在互联网上创造的信息也在急速增长。有相关的信息
统计,以播放的视频为例,在某视频网站中,平均每一分钟的视频上传是 72 小
时,证明了当下的网络资源正在不断的快速增长,视频的传输尚且如此,那么文
字以及图片的上传数量则更是巨大。当下全球的互联网网站的数量也非常的庞大,
但是人们在如此庞大的数据资源下,如何利用好这些数据资源,能够快速的需找
到自己想要的数据信息则变成了一项非常困难的事情。很多宝藏网站,有用的网
站由于宣传的缺失等,被互联网所埋没,人们找寻这些网站非常困难,找到有用
的信息则是更加困难的一件事情。现在人们对于大数据的概念有了初步的认识,
但是对于大数据下所带来的便捷生活和工作的方式则仍然在不断的摸索改进。现
在人们通过网络情感、爬虫等方式来进行相关信息的搜索与归类是最为便捷的一
种方式,能够有效的降低搜索的繁琐度,通过高效的关键词藻的信息查询来找到
自己想要的信息内容。
在旅游上,当下的旅游行业已经发展的非常快速,人们在旅游时首先会对想
要去的目的地景点数量、交通便捷程度、吃穿住行的方便程度进行深入的分析研
究,通过多个不同的旅游城市之间进行对比,从而找到更加向往,可能能够提供
更加舒适的旅游体验的城市。旅游爱好者在出发之前都会进行相应的行程制定,
详细的信息查看等,因此现在的各大网站也纷纷推出了以城市为搜索热点的旅游
信息查询,为用户提供了非常好的信息查询体验。通过这种方式能够更好的实现
信息的统计,实现有效价值信息的汇总。
1.2 国内外研究现状
1.2.1 国外研究现状
国外在关键词的搜索上通常会通过以爬虫的方式或者是以语料库的方式来
进行相对应的功能实现。语料库的出现是一项非常重要的功能,最早在 1970 年,
语料库就已经有了一定的与应用基础,这种应用最早是各类语言的一种搜索,国
外对于英语、法语、西班牙语等语言的语料搜集和研究非常的深入,通过不同的
语言进行相应的内容汇总形成了一个非常大的数据库,通过该数据库中可以以各
类语言为主来实现强大的内容存储实现。延续至今,在大数据的环境下,现在很
多的内容都形成了良好的语料库,通过语料库的搜集实现了广泛的内容汇总,在
面对人们日益增长的使用需求上,实现了非常高效的数据搜索以及数据的调阅的
服务。