机器学习驱动的新兴技术识别方法：机器人技术案例

需积分: 0 155 浏览量更新于2024-07-01 收藏 3.28MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

资源详情

资源推荐

942 情报学报第 37 卷

学习算法，橙色实心矩形为专家小组知识与判断，绿

色实心框为新兴技术识别产出。在获取的论文与专利

数据基础上，以上每个问题都由机器学习算法进行处

理，并与技术预见专家小组进行交互，融合数据挖

掘、领域知识与专业决策，综合判断新兴技术。

2.2 基于分类算法，结合专家小组先验知识，

进行基础的技术类别划分

使用机器学习算法，结合专家小组先验知识，

对技术领域内全样本论文专利数据进行获取与特征

提取，以保证技术识别的全面性，采用机器学习分

类算法，对论文专利数据进行分类，完成基础技术

类别划分，使识别出的新兴技术颗粒度的基本一致。

通过邮件形式，由专家小组成员提供技术领域

重要期刊和会议列表以确定论文数据范围，提供技

术领域中重要关键词，IPC 分类号，主要机构等，构

成检索式等，确定专利数据范围。分别从 Web of

Science（WoS）论文数据库和 Thomson Innovation

（TI）专利数据库分别获取论文和专利数据，提取

其摘要信息，由于摘要信息为文本类型，必须通过

特征提取，对文本进行向量化，才能够使用机器学

习方法进行后续的分析。在提取停用词表后，使用

term frequency–inverse document frequency（TF-IDF）

方法提取论文专利摘要的特征。

TF-IDF 方法为最常用的文本特征向量化的方

法

[35]

，用于评估词对一个文件集或一个语料库中的

一份文件的重要程度。字词的重要性随着它在文件

中出现的次数成正比增加，但同时会随着它在语料

库中出现的频率成反比下降，其计算公式为：

TF-IDF=TF IDF=

log



单词在文档中出现的频数

文档单词总数

出现单词的文档集合

文档总数

(1)

通过会议方式，根据专家小组的领域知识及研

究方向，确定该领域的基础技术类别划分及对应的

论文关键词，将其作为先验知识加入分类算法，并

使用机器学习分类算法对论文专利摘要进行分类。

在整个流程框架中，这一过程具有很强的重要性和

必要性，因为后续主题建模 Topic Model 中的 LDA

算法是无监督的机器学习，得到的结果难以进行约

束，因此，Topic Model 的输入就成了决定分析结果

的重要因素，为了提高 Topic Model 的输入数据的质

量，首先采用有监督的机器学习分类算法对论文专

利摘要进行分类，其结果作为 LDA 算法的输入。

常用的分类算法主要有，朴素贝叶斯（Naive

Bayesian，NB）、决策树（Decision Tree，DT）、随

机森林（Random Forest，RF）、支持向量机（Support

Vector Machine ， SVM ）、 K 近邻法（K-Nearest

Neighbor，KNN）等。其中 NB 对小规模的数据表现

很好，适合多分类任务，但对输入特征十分敏感，

要求特征间彼此独立，而文本数据，每个词之间往

往都有关联，并不相互独立

[36]

。DT 计算量简单，可

解释性强，比较适合处理有缺失属性值的样本，能

够处理不相关的特征，但是非常容易过拟合

[37]

。RF

模型泛化能力强，训练速度快，容易实现并行计算，

在某些噪音较大的分类问题上会过拟合

[38]

。KNN 理

论成熟，可用于非线性分类，对数据没有假设，原

生支持多分类，但是对训练样本数量敏感，训练集

较少时，结果准确率较低

[39]

。SVM 可用于线性，非

线性分类，也可以用于回归，低泛化误差，容易解

释，计算复杂度较低，但原始的 SVM 只适用于二分

类问题

[40]

。根据样本的特点：特征为意义连续的文

本信息，没有缺失值，需要多分类，对过拟合问题

容忍度低。本文在 SVM 的基础上对分类策略进行调

整，用若干个二分类分类器的组合解决一个多分类

问题，每次对一个目标类别和剩余其他类别的集合

进行二分类，通过循环，完成多分类。这一方法虽

然时间复杂度高，运算时间长，但分类效果较好。

2.3 基于主题建模算法，结合专家小组后验知

识，确定关键技术及其二级方向

将基础技术类别划分的论文专利摘要，按类别

进行合并，作为数据集，使用 Topic Model 中的隐含

狄利克雷分布（Latent Dirichlet allocation，LDA）算

法对其进行主题建模，得到该领域的所有主题。

LDA 算法认为一篇文章的每个词都是通过“以

一定概率选择了某个主题，并从这个主题中以一定

概率选择某个词语”这样一个过程得到的。那么，如

果要生成一篇文档，它里面的每个词语出现的概率

为：

()=()()ppp



主题

词语文档词语主题主题文档

LDA 方法使生成的文档可以包含多个主题，其

概率图模型如图 2 所示。

其中，α 代表整个文档集上主题的 Dirichlet 先验

分布，β 代表所有主题上词语的 Dirichlet 先验分布，

N 代表词语个数，M 代表整个文档集中的文档数量，

为 Gibbs 抽样算法迭代次数，T 代表主题个数。

剩余16页未读，继续阅读

方2郭

粉丝: 29
资源: 324

机器学习驱动的新兴技术识别方法：机器人技术案例

从机器学习谈起

系统辨识与建模的一种新方法

基于引文分析和深度学习的新兴技术识别算法研究1

qt 5开发及实例(第2版)陆文周源代码

一种新的机器学习算法_SupportVectorMachines

一种新的图像识别算法

5110-微信小程序健身房私教预约微信小程序+ssm（源码+数据库+lun文）.zip

Fast_integration_dependencies_in_spring_boot.是一个快速_fastdep.zip

05-Python数据类型-列表的相关运算

python字典介绍​.docx

5062-微信小程序传染病防控宣传系统的设计与实现+springboot（源码+数据库+lun文）.zip

智慧种植管理系统.zip

5302-微信小程序党建工作小秘书（源码+数据库）.zip

5137-微信小程序在线选座+ssm（源码+数据库+lun文）.zip

5208-微信小程序校园约拍微信小程序设计与实现ssm（源码+数据库+lun文）.zip

5117-微信小程序宿舍管理系统小程序+ssm（源码+数据库+lun文）.zip

西门子博图1214c组态的运动控制学习案列，画圆，画方，相对运动，绝对运动，点动回原点，注释全面，博图v15.1版本

5323-微信小程序的足浴城消费系统（源码+数据库）.zip

Flask图片动态加载应用.zip

5193-微信小程序运动健康小程序SpringBoot（源码+数据库+lun文）.zip

最新资源

python字典介绍.docx