如何利用NER技术，炼造出地址实体识别的火眼金睛_地址ner,ner地址识别 - CSDN文库

地址实体识别

需积分: 50 157 浏览量更新于2023-03-03 评论 2 收藏 767KB DOCX 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

如何利用  技术，炼造出地址实体识别的火眼金睛

1. 应用背景

在银行信用卡业务中，为防范一些团体伪冒办卡的欺诈行为，会使用申请地址与行内

高危风险地址进行一对多模糊匹配，实现黑名单判别功能。另外在客户申请信用卡时实时

计算客户申请地址与历史地址的相似度值也有利于风险识别。在对行内的客户做画像时，

客户预留的地址数据可以深度挖掘来提炼一些区域位置共性标签等。在上述的场景中都涉

及了对地址数据的使用，但是地址往往是一段文本，需要进行结构化处理抽取出地址中的

各级行政区域才能被更好使用。基于以上场景，我们尝试使用中文命名实体识别技术探索

在地址信息抽取这个场景中的应用。

中文命名实体识别（  ，  ）是自然语言处理

（        ）中用来解决信息抽取（ 

）问题的一项技术，它可以从非结构化文本中抽取类似人名、地名、组织机构

名、时间等实体信息从而得到结构化的数据。举个例子，假如有这么一句话：“  宣布，

深度学习的三位创造者 ， ，以及  ! 获得了

"#$% 年的图灵奖。”那么  的任务就是从这句话中提取出：

&机构名”：

&人名”：， ， !

&时间”："#$% 年

&专有名词”'图灵奖

理论上，借助  技术可以将文本中所有感兴趣的实体进行抽取。

地址信息抽取的目标就是将一个地址串中的各级别实体（如：省、市、区(县、路(街

道、小区(建筑、乡(镇）抽取出来形成结构化的数据。使用  解决这个问题本质上算是

一种分类。

在上图的地址中，包含了五类实体（省、市、区、路和小区），每一类实体被作为一

种类别。我们使用了 )* 的标注模式（+,)++*+）对地址中

的每个字进行类别标注，例如：+-.表示省这个实体的起始字，)+-. 表示

中间的字，+-. 表示结尾字，当一个地址中的字不是我们要提取的主体时就可以用

* 来标注。除了我们使用的 )* 这种标注模式，还有其它的标注模式，如：)* 标注模

式 /+, ， )+ ， *+0 ， )*1 标注模式 /+, ， )+ ， *+

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余6页未读，立即下载

评论0

「已注销」

粉丝: 0
资源: 1

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈