2019年系统总结：BERT模型在问答与实体识别中的应用

需积分: 0 52 浏览量更新于2024-08-05 收藏 259KB PDF 举报

"该资源包含了2019年一个系统的部分总结，主要涉及BERT模型在信息检索和自然语言处理任务中的应用。文件包括LoadCorpus.py用于数据预处理，train_ner.py用于训练BERT-BiLSTM-fc的命名实体识别（NER）模型，GetSegmentDict.py用于构建实体和属性值的字典，以及mention_extractor.py和GetChar2Prop.py用于实体提及的提取和字符到属性值的映射。" 在深入讨论这些知识点之前，首先要理解BERT（Bidirectional Encoder Representations from Transformers）是一种预训练语言模型，它通过在大规模文本数据上进行无监督学习，能够捕捉到丰富的上下文信息，从而在各种NLP任务中表现出色。 1. **LoadCorpus.py**: 这个脚本用于读取训练数据，其中包括问题ID、问题文本、SPARQL查询、答案实体以及黄金实体和关系。SPARQL是一种用于查询语义网数据的语言，黄金实体和关系用于评估模型的性能。数据结构化为字典，便于后续处理。通过分析数据，可以发现系统关注于处理不同类型的查询模式，如单实体单关系、单实体双关系、双实体双关系等。 2. **train_ner.py**: 这部分代码实现了一个基于BERT的序列标注模型——NERBERT，用于从问题中提取实体提及（mention）。NER任务是识别文本中具有特定意义的名词短语，例如人名、地名等。在这个模型中，BERT-BiLSTM-fc结合了BERT的上下文表示、双向LSTM（BiLSTM）的序列建模能力以及全连接层（fc）进行分类。提供的结果表明，在400条数据上的初步测试中，模型达到了约0.74的F1分数。 3. **GetSegmentDict.py**: 这个脚本用于构建两个重要的字典：segment_dict.txt存储从知识库和实体链接文件中抽取出的实体mention，property_dict.json则记录了实体的属性值（在这里称为“literal”）。这个过程对于后续的实体链接和信息检索至关重要。由于原始数据可能存在格式不规范的问题，如下划线分隔的实体，这可能导致segment_dict中包含无效实体。 4. **mention_extractor.py**: 该模块负责从每个数据项的问题部分提取实体mention。它结合了jieba分词（一种常用的中文分词工具）和NERBERT模型。jieba确保提取的mention存在于预定义的segment_dict中，而NERBERT模型则可能识别出不在字典中的mention，提供更广泛的覆盖范围。 5. **GetChar2Prop.py**: 最后，这个脚本读取property_dict.json，建立字符到属性值的映射。这有助于快速查找和关联文本中的特定字符或字符序列与已知的属性值。这个系统专注于使用BERT模型进行实体识别和信息检索。通过对问题文本的深入处理和与知识库的交互，系统旨在有效地理解并回答复杂查询，同时处理数据格式的不一致性。这种技术在问答系统、知识图谱建设和语义搜索等领域有广泛应用。

1. LoadCorpus.py

功能：

读取训练文件，问题 id、问题、sparql、答案实体。

问题被去除一些杂项。

sparql 可以提取用于查询的 gold entity 和 gold relation

数据项为 dict，键有'id'、'question'、'answer'、'gold_entities'、'gold_relations'、'sparql'。

这里提供了关于查询的统计信息，可能是该系统能解决的问题类型：

一个实体一个关系，e r ?x

一个实体两个关系，e r1 ?a . ?a r2 ?x

两个实体两个关系，{ e1 r1 e2 . e2 r2 ?x }

两个实体一个以内的关系

其他

2. train_ner.py

功能：

建立 BERT-BiLSTM-fc 的序列标注模型 NERBERT，用于提取问题中的 mention

ground truth 是 gold entity 与问题字符重合的部分为 1，其他为 0

这里不能保证该 mention 在正确的实体 mention 中

效果：

400 条数据：precision 0.7818, recall 0.7083, f1 0.7432

epoch 13 | train loss 8.6860 | test f1-score 0.7446, precision 0.8025, recall 0.694

3. GetSegmentDict.py

功能：

从知识库文件和实体链接文件抽取实体的 mention，建立 segment_dict.txt

每一行为一个实体的 mention

从实体链接文件抽取 literal（作者将 literal 统称为属性值，property），建立 property_dict.json

文件，

每一行为 literal，及其对应的频率

问题：

pkubase-complete 中多个实体有下划线，mention2ent 有不标准的三元组，因此

segment_dict 有无效实体

4. mention_extractor.py

功能：

对每一个数据项，从问题中，利用 jieba 分词和 NERBERT 模型抽取实体的 mention。

jieba 分词的实体保证在 segment_dict 里，而 NERBERT 模型不保证。

返回一个字典：{ mention: mention }

5. GetChar2Prop.py

下载后可阅读完整内容，剩余3页未读，立即下载

神康不是狗

粉丝: 39
资源: 336

2019年系统总结：BERT模型在问答与实体识别中的应用

电脑报2019年第16期-2019年4月29日

2019年图书馆个人工作总结(二).pdf

2019年人力系统上半年工作总结.docx

2019年秋学期工会工作总结.pdf

2019年日历、工作计划总结表.doc

2019年高中化学第1章原子结构与元素周期律章末系统总结学案鲁科版必修22019110717

小学2019年秋(2019第一学期)少先队工作总结.pdf

2019年高中化学第3章重要的有机化合物章末系统总结学案鲁科版必修220191107126

2019年事务所会计工作总结(二篇).pdf

2019年图书馆个人总结范文.pdf

最新资源