深度探索BERT在知识问答系统中的应用

需积分: 50 79 浏览量更新于2024-11-06 1 收藏 4.68MB ZIP 举报

资源摘要信息:"KBQA_zh:基于BERT的KBQA，包含joint和pipeline两种模式" 知识图谱问答系统（KBQA）是一种基于知识图谱实现的问题解答技术，旨在理解自然语言提出的问题，并从知识图谱中提取答案返回给用户。BERT是一种预训练语言表示模型，能够在各种自然语言处理任务上取得卓越的效果。本项目提出的KBQA系统结合了BERT模型的优秀性能，采用了两种不同的处理模式：joint模式和pipeline模式。 1. Joint模式： joint模式是通过联合学习的方式同时进行意图识别和命名实体识别。在这种模式下，系统将意图识别和实体识别视为一个整体的任务，使用BERT模型同时对这两种信息进行编码和提取，这样可以更好地捕获两者之间的相关性。联合学习通常有助于改善模型对于复杂结构信息的处理能力。 2. Pipeline模式： pipeline模式则是将意图识别和命名实体识别分为两个独立的步骤进行处理。首先通过命名实体识别（NER）模型提取问题中的关键信息，然后利用QA相似度模型，基于提取到的实体信息和知识图谱进行问题的答案匹配。虽然这种分步骤的方法可能无法捕捉到联合模式中意图和实体之间的相关性，但它简化了模型的训练过程，并允许各个组件独立优化。为了运行KBQA系统，需要准备适当的开发环境。项目文档中提到的开发环境包括： - Tensorflow：1.15版本，一个开源的机器学习框架，用于构建和训练模型。 - Python：3.6版本，KBQA项目的主要编程语言。 - PyMySQL：0.10.1版本，用于在Python中连接和操作MySQL数据库。 - gRPCio：版本1.32.0，用于支持HTTP/2协议的远程过程调用。 - gRPCio-tools：版本1.32.0，提供与gRPC相关的代码生成和工具。在准备了必要的环境之后，KBQA系统可以按照以下步骤运行： - 首先，需要下载BERT中文预训练模型，并将其放置在指定的文件夹下（在此例中为chinese_L-12_H-768_A-12文件夹）。 - 以pipeline模式为例，执行以下命令来训练命名实体识别模型和问答模型： 1. cd qa_pipeline（切换到qa_pipeline目录） 2. sh run_ner.sh（运行命名实体识别的脚本） 3. sh run_...（后续的命令未完全给出，但可以推断接下来会有进一步的步骤来训练问答模型） KBQA_zh项目的源代码文件以"KBQA_zh-master"命名，表明用户可以访问到的项目源代码是主分支的代码。此项目具有两个重要标签： - "Python"：表示项目是使用Python语言开发的。 - "KBQA"：表示项目的功能是关于知识图谱问答系统。 - "BERT"：表明该项目利用BERT预训练模型作为其核心。综上所述，KBQA_zh项目是利用BERT预训练模型构建的知识图谱问答系统，提供了两种不同的处理模式来优化问答任务的处理。该系统需要特定的开发环境配置，并提供了详细的运行指南以便用户运行和训练模型。

收起资源包目录

KBQA_zh:基于BERT的KBQA，包含joint和pipeline两种模式（66个子文件）

run_joint.sh 518B

extract_features.py 14KB

optimization_test.py 2KB

qa_pipeline.proto 536B

test.tsv 2.84MB

qa_pipeline_pb2_grpc.py 2KB

qa_pipeline_pb2_grpc.cpython-36.pyc 2KB

train.tsv 1.28MB

qa_module.py 6KB

LICENSE 1KB

metrics.cpython-36.pyc 5KB

CONTRIBUTING.md 1KB

joint_classifier.py 34KB

ner_module.cpython-36.pyc 5KB

joint_module.cpython-36.pyc 6KB

README.md 2KB

tokenization.py 12KB

predicting_movie_reviews_with_bert_on_tf_hub.ipynb 65KB

chinese_ner.py 28KB

readme.md 98B

qa_system.cpython-36.pyc 3KB

qa_joint_pb2.cpython-36.pyc 2KB

train.tsv 4.01MB

chinese_ner.cpython-36.pyc 20KB

qa_module.cpython-36.pyc 5KB

qa_joint_server.py 2KB

qa_server.py 901B

emo.png 266KB

metrics.py 5KB

chinese_qa.py 28KB

create_pretraining_data.py 16KB

modeling_test.py 9KB

chinese_qa.cpython-36.pyc 19KB

qa_pipeline_pb2.cpython-36.pyc 2KB

metrics.cpython-36.pyc 5KB

ner_module.py 7KB

metrics.py 5KB

qa_joint_client.py 2KB

LICENSE 11KB

KGMySql.py 719B

kbqa.kb 29KB

test.tsv 1.13MB

optimization.py 6KB

run_classifier.py 34KB

.gitignore 1KB

train.tsv 1.64MB

run_ner.sh 502B

qa_joint_pb2_grpc.py 2KB

__init__.py 616B

modeling.py 37KB

qa_joint_pb2.py 4KB

qa_client.py 2KB

qa_joint.proto 533B

requirements.txt 110B

tokenization_test.py 4KB

multilingual.md 11KB

run_qa.sh 497B

run_pretraining.py 18KB

qa_pipeline_pb2.py 4KB

qa_system.py 3KB

test.tsv 907KB

joint_module.py 9KB

run_classifier_with_tfhub.py 11KB

README.md 49KB

sample_text.txt 4KB

run_squad.py 45KB

共 66 条

帝哲

粉丝: 42
资源: 4669

深度探索BERT在知识问答系统中的应用

baseQA_in_insuranceqa:基于Bert和w2v在中文保险QA数据集上的baseline

KBQA-BERT:基于知识图谱的QA系统，BERT模型

KBQA-BERT:基于知识图谱的问答系统，BERT做命名实体识别和句子相似度，分为在线和大纲模式

bert_for_corrector:基于bert进行中文文本纠错

KBQA_BANK:银行客服用的智能问答系统

chnlp_bert：探索BERT能力的对象

bert_sentiment_analysis:使用BERT进行深度学习的情感分析

ESG_BERT:使用BERT根据ESG类别对推文进行分类

Multilingual_NER:将BERT应用于英语和俄语的命名实体识别

bert_distill：BERT蒸馏（基于BERT的蒸馏实验）

最新资源