如何利用 技术,炼造出地址实体识别的火眼金睛
1. 应用背景
在银行信用卡业务中,为防范一些团体伪冒办卡的欺诈行为,会使用申请地址与行内
高危风险地址进行一对多模糊匹配,实现黑名单判别功能。另外在客户申请信用卡时实时
计算客户申请地址与历史地址的相似度值也有利于风险识别。在对行内的客户做画像时,
客户预留的地址数据可以深度挖掘来提炼一些区域位置共性标签等。在上述的场景中都涉
及了对地址数据的使用,但是地址往往是一段文本,需要进行结构化处理抽取出地址中的
各级行政区域才能被更好使用。基于以上场景,我们尝试使用中文命名实体识别技术探索
在地址信息抽取这个场景中的应用。
中 文 命 名 实 体 识 别 ( , ) 是 自 然 语 言 处 理
( ) 中 用 来 解 决 信 息 抽 取 (
)问题的一项技术,它可以从非结构化文本中抽取类似人名、地名、组织机构
名、时间等实体信息从而得到结构化的数据。举个例子,假如有这么一句话:“ 宣布,
深度学习的三位创造者 , ,以及 ! 获得了
"#$% 年的图灵奖。”那么 的任务就是从这句话中提取出:
&机构名”:
&人名”:, , !
&时间”:"#$% 年
&专有名词”'图灵奖
理论上,借助 技术可以将文本中所有感兴趣的实体进行抽取。
地址信息抽取的目标就是将一个地址串中的各级别实体(如:省、市、区(县、路(街
道、小区(建筑、乡(镇)抽取出来形成结构化的数据。使用 解决这个问题本质上算是
一种分类。
在上图的地址中,包含了五类实体(省、市、区、路和小区),每一类实体被作为一
种类别。我们使用了 )* 的标注模式(+,)++*+)对地址中
的每个字进行类别标注,例如:+-.表示省这个实体的起始字,)+-. 表示
中间的字,+-. 表示结尾字,当一个地址中的字不是我们要提取的主体时就可以用
* 来标注。除了我们使用的 )* 这种标注模式,还有其它的标注模式,如:)* 标注模
式 /+, , )+ , *+0 , )*1 标 注 模 式 /+, , )+ , *+
评论0