
2017年第 3期
计 算 机 与 现 代 化
JISUANJI YU XIANDAIHUA 总第 259期
文章编号 :1006-2475(2017)03-0013435
基 于句法决策树 和 SVM 的短文本语境识别模型
王 峥 ,刘师培 ,彭艳兵
(1.烽 火通信科技 股份 有限公 司南京研 发部 ,江苏 南京 210019;2.武 汉邮电科 学研 究院,湖北 武 汉 430074)
摘要 :随着社会 生活 网络化的 日趋成熟 ,在很 多研 究和商业领 域里都遇到 了中文文本 处理 问题 。不断深化的 文本分类研
究需要从文本 的各 个方面来解析 文本 信息 ,语义 解析 是 文本挖掘 的 关键技 术 ,语境 识 别可 以应 用在许 多文 本挖掘技 术
中,比如 情感分析、舆情 分析 等。基 于句法决策树、N—gram模 型的特征要 素提 取 方法和 SVM 分 类器 ,提 出一种语境 分类
模型 ,解决字词在不同语境下的 多义性 问题 。该模型具有 良好的泛化 能力,在批 量处理时具有很好 的通用效果 ,能比较
有效地解 决文本挖掘 中语境识别 难题 。
关键词 :中文文本处理 ;语境识 别;决策树 ;N—gram模型 ;SVM分类 器
中图分类号 :TP393 文献标 识码 :A doi:10.3969/j.issn.1006-2475.2017.03.003
An Essay Context Recognition M odel Based on Syntax Decision Tree and SVM Algorithm
W ANG Zheng ,LIU Shi.pei ,PENG Yah.bing
(1.Nanjing R&D,FiherHome Telecommunication Technologies Co.,Ltd.,Nanjing 210019,China;
2.Wuhan Research Institute of Posts and Telecommunications,Wuhan 430074,China)
Abstract:W ith the increasing maturity of the networked social life,many fields such as research and commerce have encountered
the problems of processing Chinese texts.Parsing the texts from all aspects is necessary for the increasingly deepening research of
text clas sification.On the one hand,semantic paming is essential to text mining.On the other hand,context recognition can be
widely applied in numerous text mining problems,such as sentiment analysis,public feeling analysis and SO on.In this paper,a
context classification model is proposed based on syntactic decision trees,N—gram feature extraction and SVM classifiers to recog-
nize the different meanings of the same words under different short contexts.The results show that the proposed model,which can
batch process data,has favorable generalization ability,indicating that the model call solve the problems of context recognition ef-
ficiently.
Key words:Chinese text processing;context identification;decision tree;N—gram model;SVM classifier
0 引 言 1 研究背景
文本挖掘技术是一个从非结构化文本信息中获
取有用的模式的过程。随着文本挖掘 的深入 ,对文本
语义的精确判断的要求也越来越 高。文本 内容 的多
样化给文本挖 掘带来 了不小 的麻烦 ,例如在 网络社
区、论坛 、商品评论 等不 同表达格式 、UGC(用户产生
内容 )的多样化表达。为了使文本语境形式化 ],本
文提出一种根据词性、句法 的统计概率模型 ,利用概
率分类模型解决关键词所在的语境问题 ]。
语境识别是文本挖掘技术的一种,通过判断文本
信息的关键特征,预测文本处于何种语境 ,以解决字
词在不 同语境中的多义性问题 ,这对排除字词多义性
在文本 挖掘中所 带来 的干扰具有至关重要 的作用 。
语境识 别方法 是 句法分析 的一 种。所谓 句法 分
析是根据给定的语法 ,自动推导出句子 中所包含的句
法单位和这些句法单位之间的关 系。句法分析的研
究大致分为 2种 :基于规则的方法 和基于统计 的
方法 。前者 从汉语 的最本质 特征 出发 ,相对稳定并且
更能表达汉语句子成分的构成规律 ,但是语法规则 的
收稿 日期 :2016-08-30
作者简介 :王峥 (1977一),男 ,江苏 徐州人 ,烽火通信科技股份有 限公 司南 京研发 部高级工 程师 ,研究方 向 :海 量数据分析 ,网
络行 为分 析 ;刘师培 (1992一),男 ,湖北潜 江人 ,武汉邮 电科学研究 院硕士研 究生 ,研究 方 向:数据分析 ,自然语 言处理 ;彭艳
兵 (1975一),男 ,博 士 ,研究方 向 :网络安全 。