fb15k-237数据集
fb15k-237数据集是一个常用的知识图谱数据集,用于知识图谱的关系抽取任务。它是基于现有的FB15K数据集进行改进和精简得到的。
数据集中包含了15,786个实体,237个关系以及592,213个三元组。与原始FB15K数据集相比,fb15k-237数据集去除了一些不常用的关系,使得数据集更加精简和高效。同时,为了减少训练模型时的偏差,数据集中还使用了负例采样的技术,即对于每个正例三元组,会随机生成一定数量的负例三元组。
fb15k-237数据集具有一定的实际应用价值。通过对该数据集的研究,可以提取出实体之间的关系,从而帮助我们更好地理解知识图谱的结构和关联。这对于自然语言处理、问答系统、信息检索等领域都具有重要的意义。此外,基于fb15k-237数据集的研究还能够为知识图谱的构建、补全和修正提供指导和参考。
总之,fb15k-237数据集作为一个常用的知识图谱关系抽取数据集,通过精简和负例采样等技术,提供了一个有价值的资源供研究者进行知识图谱相关任务的研究。
fb15k-237数据集分类
FB15K-237 数据集概述
FB15K-237 是一个广泛使用的知识图谱补全(Knowledge Graph Completion, KGC)数据集,其设计目的是解决原始 FB15K 中存在的逆向推理问题。该数据集中移除了反向关系三元组,从而使得评估更加严格和真实[^2]。
分类详情
FB15K-237 主要由实体(entity)、关系(relation)以及这些实体间的关系构成的三元组(triple)组成。具体来说:
- 实体:代表实际世界中的对象或概念。
- 关系:描述两个实体间的联系方式。
- 三元组:<head entity, relation, tail entity> 形式的组合,表示头实体通过某种关系连接到尾实体。
此数据集包含了约 14,951 种不同的实体和 237 类独特的关系类型。
{
"entity_count": 14951,
"relation_types": 237
}
用途
主要用于研究如何有效地从不完全的知识库中推断新的事实,特别是在处理长尾分布下的稀有关系时表现出色。对于少样本学习(few-shot learning),尤其是针对那些训练实例较少的关系类别,提供了宝贵的资源和支持。
特点
- 减少冗余:相比前版 FB15K 去掉了反向边,提高了测试难度;
- 多样化的关系模式:涵盖了多种不同类型的关系,增加了模型泛化能力的要求;
- 适用于低频关系建模:特别适合探索在少量标注情况下提升性能的技术方案,如元学习(meta-learning)。
fb15k-237数据集下载
如何下载 FB15k-237 数据集
FB15k-237 是一个广泛用于知识图谱研究的数据集,它来源于 Freebase 并经过处理形成。该数据集包含 237 种关系和约 14,541 种实体[^2]。以下是获取此数据集的方法:
官方资源链接
原始 FB15k-237 数据集可以通过以下官方或可信第三方网站下载:
- 官方网站: Facebook AI Research 提供了 FB15k 和 FB15k-237 的初始版本。虽然 Facebook 已停止维护这些数据集,但仍可通过存档页面访问它们。
- 替代存储库: 许多学术机构和个人开发者会将常用数据集托管在公开平台上。例如,在 GitHub 上可以找到多个镜像仓库。
下载地址示例
以下是一些常见的下载源:
Kaggle: Kaggle 社区提供了许多机器学习竞赛所需的数据集,其中包括 FB15k-237[^4]。
Google Drive 或 CSDN: 用户上传的压缩包文件通常可以直接解压使用。注意验证其完整性和一致性。
- 示例链接 (CSDN): [https://download.csdn.net/download/qq_21097885/12340908]
文件结构说明
下载后的数据集一般分为三个部分:
train.txt
: 包含训练样本三元组(head_entity, relation, tail_entity)
。valid.txt
: 包含验证集三元组。test.txt
: 测试集中使用的三元组。
每条记录的形式类似于 /m/06cx9 /location/country/form_of_government /m/017dcd
,其中 /m/06cx9
和 /m/017dcd
是实体 ID,而中间项表示两者之间的关系类型。
实体映射表
由于 Google 停用了 Freebase API,无法通过简单方式查询实体的具体含义。然而,一些社区贡献者整理了基于旧版 Freebase 导出的字典文件 (entity2id.txt
) 来帮助理解这些编码的实际意义。如果需要进一步解析,建议参考此类辅助工具或者尝试联系相关研究人员共享成果。
import pandas as pd
# 加载实体ID与名称对照表
entities_df = pd.read_csv('path_to_entities_dict/entity2name.txt', sep='\t', header=None)
print(entities_df.head())
上述脚本可用于读取并展示前几行实体及其对应的自然语言描述。
相关推荐













