没有合适的资源?快使用搜索试试~ 我知道了~
首页机器学习驱动的新兴技术识别方法:机器人技术案例
机器学习驱动的新兴技术识别方法:机器人技术案例
需积分: 0 0 下载量 155 浏览量
更新于2024-07-01
收藏 3.28MB PDF 举报
"一种基于机器学习的新兴技术识别方法_以机器人技术为例_周源1" 在当前快速发展的科技环境中,新兴技术的识别是至关重要的,它可以帮助企业和政策制定者预测未来的发展趋势,以便做出正确的决策。这篇由周源、刘宇飞和薛澜合作的研究文章提出了一种创新的方法,该方法利用机器学习技术来识别新兴技术,特别是在机器人技术领域的应用。研究指出,传统的文献计量学方法在处理大量数据和理解文献语义方面存在局限性,不能充分地结合技术专家的专业知识和判断,这限制了其在技术预见中的有效性和实用性。 文章介绍了基于机器学习的主题模型,该模型可以高效地整合和分析来自论文与专利的大规模数据,揭示出文献的深层次语义信息。这种方法的创新之处在于,它不仅能够全面、一致地识别技术的各个层面,还能够将专家的领域知识和判断融入到机器学习过程中,从而提高预测新兴技术的准确性。 此外,研究者们通过分析论文和专利的年度引用率,寻找技术子领域的潜在新兴模式。引用率作为一项关键指标,可以反映出技术的影响力和潜在的发展潜力。以机器人技术为例,他们使用Web of Science的论文数据库和Thomson Innovation的专利数据库,收集了十多万条全领域的数据进行实证研究。 这项工作对于改进技术预见方法具有重要意义,它提供了更科学、更精确的方式来预测和识别新兴技术,有助于科技政策的制定和企业的战略规划。通过机器学习,我们可以期待更准确地捕捉到科技界的未来动向,特别是对于像机器人技术这样快速发展的领域,这样的方法将具有巨大的应用价值。
资源详情
资源推荐
942 情 报 学 报 第 37 卷
学习算法,橙色实心矩形为专家小组知识与判断,绿
色实心框为新兴技术识别产出。在获取的论文与专利
数据基础上,以上每个问题都由机器学习算法进行处
理,并与技术预见专家小组进行交互,融合数据挖
掘、领域知识与专业决策,综合判断新兴技术。
2.2 基于分类算法,结合专家小组先验知识,
进行基础的技术类别划分
使用机器学习算法,结合专家小组先验知识,
对技术领域内全样本论文专利数据进行获取与特征
提取,以保证技术识别的全面性,采用机器学习分
类算法,对论文专利数据进行分类,完成基础技术
类别划分,使识别出的新兴技术颗粒度的基本一致。
通过邮件形式,由专家小组成员提供技术领域
重要期刊和会议列表以确定论文数据范围,提供技
术领域中重要关键词,IPC 分类号,主要机构等,构
成检索式等,确定专利数据范围。分别从 Web of
Science(WoS)论文数据库和 Thomson Innovation
(TI)专利数据库分别获取论文和专利数据,提取
其摘要信息,由于摘要信息为文本类型,必须通过
特征提取,对文本进行向量化,才能够使用机器学
习方法进行后续的分析。在提取停用词表后,使用
term frequency–inverse document frequency(TF-IDF)
方法提取论文专利摘要的特征。
TF-IDF 方法为最常用的文本特征向量化的方
法
[35]
,用于评估词对一个文件集或一个语料库中的
一份文件的重要程度。字词的重要性随着它在文件
中出现的次数成正比增加,但同时会随着它在语料
库中出现的频率成反比下降,其计算公式为:
TF-IDF=TF IDF=
log
ji
i
j
单词 在文档 中出现的频数
文档 单词总数
出现单词 的文档集合
文档总数
(1)
通过会议方式,根据专家小组的领域知识及研
究方向,确定该领域的基础技术类别划分及对应的
论文关键词,将其作为先验知识加入分类算法,并
使用机器学习分类算法对论文专利摘要进行分类。
在整个流程框架中,这一过程具有很强的重要性和
必要性,因为后续主题建模 Topic Model 中的 LDA
算法是无监督的机器学习,得到的结果难以进行约
束,因此,Topic Model 的输入就成了决定分析结果
的重要因素,为了提高 Topic Model 的输入数据的质
量,首先采用有监督的机器学习分类算法对论文专
利摘要进行分类,其结果作为 LDA 算法的输入。
常用的分类算法主要有,朴素贝叶斯(Naive
Bayesian,NB)、决策树(Decision Tree,DT)、随
机森林(Random Forest,RF)、支持向量机(Support
Vector Machine , SVM )、 K 近邻法(K-Nearest
Neighbor,KNN)等 。其 中 NB 对小规模的数据表现
很好,适合多分类任务,但对输入特征十分敏感,
要求特征间彼此独立,而文本数据,每个词之间往
往都有关联,并不相互独立
[36]
。DT 计算量简单,可
解释性强,比较适合处理有缺失属性值的样本,能
够处理不相关的特征,但是非常容易过拟合
[37]
。RF
模型泛化能力强,训练速度快,容易实现并行计算,
在某些噪音较大的分类问题上会过拟合
[38]
。KNN 理
论成熟,可用于非线性分类,对数据没有假设,原
生支持多分类,但是对训练样本数量敏感,训练集
较少时,结果准确率较低
[39]
。SVM 可用于线性,非
线性分类,也可以用于回归,低泛化误差,容易解
释,计算复杂度较低,但原始的 SVM 只适用于二分
类问题
[40]
。根据样本的特点:特征为意义连续的文
本信息,没有缺失值,需要多分类,对过拟合问题
容忍度低。本文在 SVM 的基础上对分类策略进行调
整,用若干个二分类分类器的组合解决一个多分类
问题,每次对一个目标类别和剩余其他类别的集合
进行二分类,通过循环,完成多分类。这一方法虽
然时间复杂度高,运算时间长,但分类效果较好。
2.3 基于主题建模算法,结合专家小组后验知
识,确定关键技术及其二级方向
将基础技术类别划分的论文专利摘要,按类别
进行合并,作为数据集,使用 Topic Model 中的隐含
狄利克雷分布(Latent Dirichlet allocation,LDA)算
法对其进行主题建模,得到该领域的所有主题。
LDA 算法认为一篇文章的每个词都是通过“以
一定概率选择了某个主题,并从这个主题中以一定
概率选择某个词语”这样一个过程得到的。那么,如
果要生成一篇文档,它里面的每个词语出现的概率
为:
()=()()ppp
主题
词语 文档 词语 主题 主题 文档
LDA 方法使生成的文档可以包含多个主题,其
概率图模型如图 2 所示。
其中,α 代表整个文档集上主题的 Dirichlet 先验
分布,β 代表所有主题上词语的 Dirichlet 先验分布,
N 代表词语个数,M 代表整个文档集中的文档数量,
为 Gibbs 抽样算法迭代次数,T 代表主题个数。
剩余16页未读,继续阅读
方2郭
- 粉丝: 29
- 资源: 324
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功