举一个直观的例子,这个例子也是我们CCKS评测里的一个图谱模式(Schema)。从金融研报中抽取能代表研报的金融知识
点:如果说机构是常见的实体类型,那风险就是金融研报里面非常关心的点。风险点不是物理世界里存在的实体,但是它可以
作为我们金融知识图谱里面的一个知识点的存在。(点击了解赛事:基于本体的金融知识图谱自动化构建技术评测)。
同样,业务、产品、品牌这些类型都可以作为知识点,而这些知识点之也存在某些联系(例如:机构开展业务、机构生产销售
产品、采购产品),这些知识点连接成了一个网络,这样就可以非常直观的理解我们所谓的知识图谱。
达观渊海知识图谱
上图是我们定义好知识图谱Schema后,从研报里抽取出来的一个构建好的图谱。虽然非常复杂,但它能将我们所关心的金融
知识点关联起来。我们应该怎样使用这种复杂的图谱呢?基于知识图谱的问答系统会给我们提供一个很好的使用方法/交互方
式,这也是我们要研究知识问答系统的一个原因。
达观数据渊海知识图谱
达观数据渊海知识图谱将整个知识图谱分为以下三部分:
1.构建
抽取式构建:
知识图谱不是凭空产生的,我们刚才提到的研报知识图谱的内容来源是PDF、PPT、Word这样的非结构化文档,我们要从非
结构化文档中把知识点抽取出来、建立联系。这个过程我们称之为抽取式构建,需要使用各种各样的NLP技术。
映射式构建:
我们在过去的时间里存有了大量的已经结构化的知识,这些知识点可能是人工整理的、用各种正则表达式抽取的、也可能是在
其他系统中已经通过NLP技术抽取出来的结构化的数据。这些数据可能在Oracle、MySQL等数据库中,也可能在Excel、CSV
的文件中,或者有可能在Hadoop、Hbase这样的大数据平台中。我们可以通过规则、映射等方法,用这些数据构建图谱。
存储
一般来说,我们会将构建好图谱需要存储在图数据库中。常见的图数据库有janusGraph、Neo4J……达观渊海知识图谱就是
使用janusGraph存储。janusGraph的底层存储是Hbase和Hadoop这个平台,它可以支持百亿甚至千亿级的数据存储。