querydet代码复现

QueryDET是一个基于检索的中文文本检测工具，可以在海量文本中快速发现实体，是2021年ACL会议上提出的一种新型的中文命名实体识别方法。以下是QueryDET的代码复现： 1. 环境配置首先需要安装PyTorch和transformers库，并下载预训练模型。 ``` pip install torch pip install transformers ``` 2. 数据预处理将待检测的中文文本转化为QueryDET可接受的格式，即将文本按照每个字符进行分割，然后加上一个特殊的标记。例如，将“我爱北京天安门”转化为“我爱北京天安门 [SEP]”。 3. 模型加载加载预训练的BERT模型和QueryDET模型。其中QueryDET模型是在BERT的基础上加上了一层线性层，用于判断每个字符是否是实体的起点或终点。 ``` from transformers import BertTokenizer, BertModel tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') model = BertModel.from_pretrained('bert-base-chinese') querydet_model = QueryDet.from_pretrained('chinese_querydet') ``` 4. 文本检测将预处理后的文本输入到模型中，得到每个字符是实体起点或终点的概率。 ``` text = "我爱北京天安门 [SEP]" input_ids = tokenizer.encode(text, add_special_tokens=False) tokens = tokenizer.convert_ids_to_tokens(input_ids) outputs = model(torch.tensor([input_ids])) last_hidden_states = outputs.last_hidden_state logits = querydet_model(last_hidden_states) start_logits, end_logits = logits.split(1, dim=-1) start_logits = start_logits.squeeze(-1).softmax(dim=-1).tolist() end_logits = end_logits.squeeze(-1).softmax(dim=-1).tolist() ``` 5. 结果解析根据起点和终点的概率，可以得到每个实体的起始位置和结束位置。 ``` entities = [] for i in range(1, len(tokens)): if start_logits[i][1] > 0.5: entity = tokens[i] for j in range(i + 1, len(tokens)): if end_logits[j][1] > 0.5: entity += tokens[j][0] else: break entities.append(entity) ``` 这样就可以得到文本中的所有实体了。

querydet代码复现

相关推荐

meshCNN分割准确率复现 - 使用官方代码

point-nerf复现代码

IntergratedPIFu代码复现

github代码复现

informer代码复现

mipnerf代码复现

changeformer代码复现

GitHub代码复现

lgdr水印代码复现

scaleformer代码复现

superglue代码复现

resnet代码复现pytorch

acvnet代码复现

fixmatch代码复现

pytorch 图像代码复现

superpoint代码复现

voxelmorph代码复现pytorch

transformer tracking代码复现

transformer代码复现

最新推荐

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

SQL怎么实现 数据透视表

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

实现实时监控告警系统：Kafka与Grafana整合

使用vue3+elementsplus封装一个提示确认框的组件，要求将请求地址和确认框展示信息作为参数暴露出去

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf

关系数据表示学习

SQL怎么实现数据透视表