没有合适的资源?快使用搜索试试~ 我知道了~
首页投资知道 基于BERT的中文问答匹配检测
投资知道 问题答案匹配 本项目基于BERT中文预训练模型,使用huggingface transformers开源工具库实现中文关于投资知道的问题答案匹配检测系统的模型实现。 问题适用场景:投资问答/论坛等,自动检测问题答案是否匹配,代替人工审核。 模型、代码及数据下载地址 所有数据、模型及代码下载链接:百度网盘地址,提取码: doh9 原始BERT预训练模型为chinese_wwm_pytorch,下载地址哈工大崔一鸣开源的中文预训练模型,网盘上也有,主要需3个文件,按huggingface库要求改名,具体见file_utils.py,模型bin文件,配置json文件和词表txt文件。 数
资源详情
资源评论
资源推荐

投资知道投资知道 基于基于BERT的中文问答匹配检测的中文问答匹配检测
投资知道投资知道 问题答案匹配问题答案匹配
本项目基于BERT中文预训练模型,使用huggingface transformers开源工具库实现中文关于投资知道的问题答案匹配检测系统的模型实现。
问题适用场景:投资问答/论坛等,自动检测问题答案是否匹配,代替人工审核。
模型、代码及数据下载地址模型、代码及数据下载地址
所有数据、模型及代码下载链接:百度网盘地址,提取码: doh9
原始BERT预训练模型为chinese_wwm_pytorch,下载地址哈工大崔一鸣开源的中文预训练模型,网盘上也有,主要需3个文件,按huggingface库要求改名,具体见file_utils.py,模
型bin文件,配置json文件和词表txt文件。
数据分析及预处理数据分析及预处理
原始数据结构 title/question/reply/is_best,question大部分为空。处理方式详见 preprocess_data_touzi.ipynb。
查看数据概况:
总共588159条数据,数据分布:
question数据分布
question为空的有: 439921
question 与 title 内容相同的有: 10542291253
question 不为空,且与title 内容不相同的有: 56985
分析question与title不同的5W6数据
前2列为title与question
question数据处理:
1>考虑title与question的长度。2>考虑title与question的文本相似度。
对于文本相似度大于一定值的取长度较长的数据,对于文本相似度较低的,互为补充考虑将question与title拼接起来作为最终的best_title。




















weixin_38599518
- 粉丝: 7
- 资源: 882
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助

会员权益专享
最新资源
- ARM Cortex-A(armV7)编程手册V4.0.pdf
- ABB机器人保养总结解析.ppt
- 【超详细图解】菜鸡如何理解双向链表的python代码实现
- 常用网络命令的使用 ipconfig ping ARP FTP Netstat Route Tftp Tracert Telnet nslookup
- 基于单片机控制的DC-DC变换电路
- RS-232接口电路的ESD保护.pdf
- linux下用time(NULL)函数和localtime()获取当前时间的方法
- Openstack用户使用手册.docx
- KUKA KR 30 hA,KR 60 hA机器人产品手册.pdf
- Java programming with JNI
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制

评论0