知识图谱驱动的智能搜索与推荐系统进阶

1星 需积分: 48 101 下载量 69 浏览量 更新于2024-07-18 4 收藏 3.23MB PDF 举报
在大数据时代,知识图谱(Knowledge Graph)因其卓越的表现,在智能应用中崭露头角,尤其在搜索引擎(Intelligent Search Engine)和推荐系统(Recommender System)领域展现出巨大潜力。复旦大学知识工场实验室的研究者阳德青教授(yangdeqing@fudan.edu.cn)于2017年7月13日分享了关于基于知识图谱的搜索与推荐技术的深入探讨。 传统搜索引擎的发展历程可以追溯到早期的几个阶段。初期的搜索引擎主要依赖于关键词频率(如Yahoo、hao123),将高点击率的关键词排名靠前;然后是信息检索(IR)方法的应用,如基于关键词的向量空间模型和布尔模型,以及链接分析(如PageRank,Google的核心算法),这些方法更侧重于页面的相关性和权威性。 然而,当知识图谱介入时,搜索方式发生了显著变化。传统的搜索方式往往难以满足用户查找新颖信息或长尾内容的需求。知识图谱的优势在于它能将查询转变为对实体和概念的理解,通过查询一个词或短语,系统能够识别出与其相关的实体,并提供更为全面和深入的信息结果。这种转变被称为“搜索4.0”——用户基于个人兴趣和需求的个性化搜索,搜索引擎真正实现了对查询意图的深入理解和满足。 在知识图谱支持下,搜索引擎不仅限于关键词匹配,而是能够理解和推理用户可能感兴趣的信息。例如,如果用户搜索“巴黎塔”,不仅仅是找到包含“埃菲尔铁塔”这个词的网页,还会展示与其相关的历史、文化背景、旅游指南等深层次信息,这大大提高了搜索的准确性和用户体验。 同时,推荐系统也因知识图谱而受益。传统的推荐系统通常基于用户行为历史或物品属性进行个性化推荐,而知识图谱则能捕捉到物品之间的复杂关系,比如产品间的关联、用户偏好和社交网络的影响,从而生成更精细、多元化的推荐结果。 基于知识图谱的搜索与推荐技术是信息技术领域的重要进展,它通过连接数据、知识和用户需求,提升了信息获取的效率和质量,为未来的AI系统带来了新的可能性。
2019-07-19 上传
一.介绍(Introduction) 1.XunTa是在lucene4.3上创建的通过“知识点”来找人的搜人引擎。  输入一个关键词(或组合),XunTa返回一个排名列表,排在前面的人是与该关键词(组合)最相关的“达人”。  可访问 http://www.xunta.so立即体验. 2.什么是搜人引擎?  这里的搜人不是人肉搜索,而是用户根据自己的兴趣和爱好输入相关知识点,然后找到这个知识点上的达人。 3.XunTa上的延伸  XunTa允许对每个人名下的数量无限制的关键词单独打分,从而实现基于“评价图谱”和“知识图谱”的好友匹配与信息推荐。 二.XunTa技术特点  1.在架构上内生地支持增量式实时搜索。  2.除达人搜索外,还提供最新搜索。  3.经过长期测试,性能稳定,速度快 三.布署方法  1. 软件包解压后可看到以下文件目录结构:  xunta_v1.0   |---demo    可直接布署到Tomcat的项目war包   |---luceneIndex  索引文件夹,下面放置Lucene4.3版本的索引文件,存放了XXX条来自社交网站的“发言”数据。   |---XunTa   XunTa项目源代码,可导入Eclipse(javaEE版)并运行。   |---readme.txt  您正在看的该说明文件。  2. Tomcat下直接体验XunTa搜人引擎   a.将索引文件夹luceneIndex_new复制到D盘根目录下   b.将 XunTa.war 复制到Tomcat的webapps目录下   c.启动Tomcat,然后在浏览器地址栏输入 http://localhost:8080/XunTa 可看到XunTa主页.在搜索框中输入关键词即返回“达人”列表。   (Tomcat的安装这里不另说明。)  3. 在myEclipse下导入源代码   a.xunta文件夹下放的是项目源文件,可直接导入myEclipse生成一个名为“xunta”的项目,   b.xunta\LocalContext\so\xunta\localcontext目录下的LocalContext.java是配置项目索引文件路径的类,默认是d:\\luceneIndex\\travel.     如果索引文件夹luceneIndex_new没有复制到D盘根目录下,则要修改默认路径.   c.启动myEclipse中的Tomcat7,然后在浏览器地址栏输入 http://localhost:8080/XunTa 即可看到XunTa主页.在搜索框中输入关键词即返回“达人”列表。 四.其它  1. 用户可按Lucene4.3标准自行创建索引数据,索引文档的结构可下载lukeall工具来查看.  2. 用户也可使用与XunTa配套的社交信息实时抓取工具来生成索引数据。它通过配置模版的方法抓取网页数据,也可以通过API获得目标网站的数据。该工具整理好亦将上载到开源社区。如急需,可向我们索取。  3. 你可以通过试用下面的网站来测试部分功能。 遇到任何技术问题,或对搜索创意感兴趣,欢迎加入寻TA网官方QQ群(298342166)讨论,也可发邮件(Email:1019357922@qq.com)或致电(18521702948,13817385089)垂询. 下载并使用该开源代码,表明您同意并遵守CC-BY-SA 3.0协议和GNU自由文档许可证.您可以上述协议条款下修改和再使用。 标签:(一种用