没有合适的资源?快使用搜索试试~ 我知道了~
游戏化的朴素贝叶斯分类方法的实验和应用
主题:通过人在回路WWW 2018,2018年4月23日至27日,法1139一种游戏化的朴素贝叶斯分类方法:Newswires与系统医学评论Giorgio Maria Di NunzioDept.意大利帕多瓦信息工程大学dinunzio@dei.unipd.it玛丽亚·梅斯特罗部意大利帕多瓦信息工程大学maistro@dei.unipd.it费德里卡·韦扎尼部语言学和文学研究意大利帕多瓦大学federica.vezzani@phd.unipd.it摘要受监督的机器学习算法需要训练一组标记的示例;然而,标记过程是昂贵且耗时的任务,其由本地专家执行,这些专家通过迭代过程来标记数据集以过滤掉数据集的不相关对象在本文中,我们描述了一组实验,使用游戏化技术将这个标签任务转化为一个互动的学习过程,用户可以合作,以实现一个共同的目标。为此,首先,我们使用朴素贝叶斯(NB)分类器的几何解释,以创建系统当前状态的直观可视化,并让用户直接更改一些参数作为游戏的一部分我们将这种可视化技术应用于新闻专线的分类,并报告了不同人群(博士生、硕士生和普通公众)的实验结果然后,我们提出了一个初步的实验,查询重写的系统评价在医疗场景中,它利用游戏化技术来收集不同的配方相同的查询。这两个实验都展示了游戏化方法的利用如何帮助用户参与可能难以理解和/或执行起来很无聊的抽象任务CCS概念• 信息系统→多语言和跨语言检索;众包;·计算理论→主动学习;·应用计算→语言翻译;医疗保健信息系统;·软件及其工程→互动游戏;关键词自动文本分类,游戏化,众包,电子医疗ACM参考格式:Giorgio Maria Di Nunzio,Maria Maistro和Federica Vezzani。2018年。朴素贝叶斯分类的博弈方法:新闻通讯社和系统医学评论的案例研究在2018年网络会议Compan- ion,2018年4月23日至27日,法国里昂 。ACM ,NewYork,NY,USA,8页。https://doi.org/10.1145/3184558.3191547本文在知识共享署名4.0国际(CC BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利。WWW©2018 IW3C2(国际万维网会议委员会),在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04..https://doi.org/10.1145/3184558.31915471介绍在机器学习中创建地面事实或黄金标准通常非常昂贵,因为它需要由该领域的专家手动标记对象为了降低这个标签阶段的成本,可以使用众包和交互式机器学习方法[1]以可负担的成本注释数据集[27]。在激励人们参与这些贴标签任务方面的一个主要挑战是设计一个系统,以促进和促成对工作的积极动机的形成,并适合活动的类型 在这个意义上,有两个重要的概念需要考虑:可解释性和游戏化。1.1解释性可解释性是与专家驱动领域(例如医疗领域)相关的机器学习应用中的常见需求,其中用户希望在考虑部署模型之前理解和验证模型的含义。可解释性的一个目标是通过创建可以通知、协作、竞争和理解真实世界环境中的用户的算法,为非专家揭开机器学习“黑盒”的神秘面纱[ 20 ]。例如,一个好的预测器对于模型返回关键决策的情况肯定是有用的,比如药物在其治疗用途中的有效性。尽管如此,制作一个模型来揭示药物会或不会 在具体情况下开展的工作将更有意义,并将使专家们能够在今后设计出更好的治疗药物。1另一个问题是,模型的可解释性和准确性是并发任务。例如,为了解释分类器的预测,通常建议使用少量变量或少量示例,但如果需要准确性,则必须使用大量变量和足够的训练数据集。Féraud,one of 介绍了一种解释神经网络分类的方法的论文[ 19 ]的作者提出了具有两个模型的解决方案:一个用于预测,另一个用于解释。另一种方式解决这个问题的方法是在仅在可用样本的一个小子集上训练分类器之后寻找接近最优的解决方案,如[6]关于二进制分类问题的工作。2016年4月,在Quora与Ricardo Baeza Yates的一次会议上,有人问了一个问题:机器学习?Yoshua Bengio教授回答说:1https://goo.gl/jntQJU2https://goo.gl/MWYJpJ主题:通过人在回路WWW 2018,2018年4月23日至27日,法1140--可解释性被夸大了。在使用模型之前,我们真正需要的是对训练模型的一般能力的一些(统计)保证话虽如此,我认为我们应该尽一切努力弄清楚机器学习模型内部发生了什么,因为它可以帮助我们调试它们并找出它们的局限性,从而构建更好的模型。1.2游戏化游戏化被定义为例如,游戏元素,如排行榜或积分,用于与其正常预期就业不同的目的,并作为用户成就的总结[2]。如今,游戏化在广泛的学科中传播,其应用在不同的领域中实施。例如,在线社区和社交媒体网站越来越常见的特征是基于徽章和积分系统奖励用户成就的机制。它们已被应用于许多领域,例如,健康游戏[26],教育游戏[23]和企业游戏[34]。游戏化在学术研究领域的使用是最近才引入的,其潜力仍有待探索和验证。信息检索(IR)最近处理了游戏化,正如2014年,2015年和2016年的GamifIR所见证的那样。在[21]中,作者描述了游戏的基本元素和机制,并概述了游戏化在IR过程中的可能应用 在[32]中,提出了适当游戏化Web搜索的方法,即使得信息的搜索和结果的扫描都成为更令人愉快的活动。1.3我们的建议在本文中,我们介绍了我们目前的工作的几何解释的贝叶斯规则的启发,从这种视觉方法最近被提出作为一种直观的方式来教导机器学习和优化概率分类器[8,11我们引入了一组实验,其中非专家用户使用这种类型的可视化直接与朴素贝叶斯(NB)分类器进行交互。此外,我们提出了一个初步的实验,利用游戏化的方法,以收集不同的重新制定相同的查询在医疗场景。通过这两个实验,我们的目标是展示游戏化如何有助于在不同的环境和不同的方法中收集人类注释的数据。在第2节中,我们介绍了交互式机器学习的一些基本概念,这些概念用于呈现NB分类器的二维视觉解释。接下来,第3节描述了使用游戏化方法解决新闻和医学文档分类问题的实验。最后,在第4节中,我们讨论了一些开放的问题,并给出了我们的结论。最后的评论。3http://gamifir.com2交互式机器学习在交互式机器学习(IML)中,与用户的交互允许模型快速且非常准确地更新;此外,即使是非专家用户也可以通过直观的可视化工具以最小的努力解决机器学习问题。在这种情况下,Becker提出了分类器结构可视化的期望要求列表[4]:用很少的统计学知识就能迅速掌握影响分类的主要因素;查看整个模型并了解它如何应用于记录,而不是特定于每个记录的可视化比较每个属性的每个值所贡献的相关证据;查看给定类的特征,即将该类与其他类区分开的属性列表;推断所示概率中的记录计数和置信度,使得可以从图形快速评估分类器对特定值的预测的可靠性;具有一个系统,该系统应该处理许多属性而不创建难以理解的可视化或不切实际的操纵场景。受这些要求的启发,这些要求今天仍然非常相关,我们专注于外行人对大型数据集的探索和分类问题。通过提供足够的数据和知识可视化,用户对所得到的分类器有更深入的理解,并且用户的模式识别能力可以用于提高分类器构造的有效性[3,10]。在下面的部分中,我们首先提供奠定NB分类器的基础的主要概念和概念,然后我们描述所提出的NB分类器的交互式可视化2.1二维NB分类已经提出了不同的贝叶斯方法来产生预测模型,这些预测模型不仅准确,而且可由人类专家解释。一个示例是贝叶斯规则列表,该模型由一系列if-then语句组成,该语句将高维多变量特征空间离散化为一系列简单的、易于解释的决策语句[25]。另一个示例,即贝叶斯案例模型(BCM),是用于基于贝叶斯案例的推理和原型分类和聚类的一般用户实验显示,与现有技术方法相比,使用BCM产生的解释时,参与者的理解在统计学上有显著改善[24]。在本文中,我们使用似然空间的扩展[33]。特别地,我们考虑 如 下 定 义 的 二 元 分 类 的 问 题 : 假 设 使 用 一 组 n 个 类C=c1,…,ci,…并且对象〇可以被分配给一个(或多个)类。我们不是构建一个单一的多类分类器,而是将该多类分类分成n个二进制问题[31]。通常,二元问题的两类是:ci,“positi v e”类,并且c i = C \ c i,“negati v e”类(我们将使用·······主题:通过人在回路WWW 2018,2018年4月23日至27日,法1141.--||||FF {}|它被转化成了一个游戏。游戏基于接口,与JJ指数i,当不存在误解公式的风险时贝叶斯分类器的最简单的方法是将对象〇分配到正类别,当P(c)|〇)> P(c)|〇)(1)也就是说,如果类c的概率大于给定对象o的它的补集c的概率。贝叶斯规则告诉我们如何使用先验概率P(c)和对象的可能性P(o)来逆转这个问题|c):P(O|c)P(c)> P(o|c)P(c)(二)P(o)P(o)似然空间投影中的下一步骤是简单地计算等式(2)的对数似然,并且将log(P(o。))和log(P(o。))视为二维空间的坐标,其中当log(P(o|c))− log(P(o|c))> log(P(c))-log(P(c))(3)在真实情况下,我们通过对象o的特征的类条件概率来估计似然函数。例如,让我们假设我们要研究的对象的特征是一组特征=f1,. . .,fm.因此,对象o是这些特征的特定实现,并且其对于类别c的可能性是:P(O|c)= P({f1,. . . ,fm}|c)(4)与该概率的估计相关的问题是所需的数据量随着特征的数量(例如特征的数量)呈指数增长。如果中的变量是二进制的,则概率表有2 |F|条目[22])。由于这个原因,它是非常常见的简化问题,通过一个强大的假设称为朴素贝叶斯假设,即。所有特征在给定类别的情况下是条件独立用数学术语来说:MP(f1,. . . ,fm c)= P(fjc)(5)j=1然后,似然空间中的决策变为:.log(P(f)j |c))−。log(P(f)j |c))>log(P(c))− log(P(c)) ( 六)图1:NB分类器的二维视图y轴表示P(o c)。图上的每个点对应于一个对象(即,路透社收藏的文档)并且其颜色去注释该点所属的类。目标很简单:找到以最佳方式分隔两组点(正类和负类)的线。根据该理论,我们可以通过两种方式来改进点的分离:我们可以通过修改先验beta函数的值α和β来改变特征的概率的估计;即我们可以通过改变似然空间中的截距qL和角系数mL来调整分类线(关于该方法的更多细节,参见[93新闻和医疗系统评论在本节中,我们将介绍一组实验,描述概率文本分类器可视化方法的改进似然空间方法是在0 - 1损失函数(假阳性和假阴性的单位成本相等)的假设下开发的。在[9,17]中,我们将等式(1)扩展到更一般的情况,其考虑了另外两个参数:P(O|c)
下载后可阅读完整内容,剩余1页未读,立即下载
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![application/x-rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- VMP技术解析:Handle块优化与壳模板初始化
- C++ Primer 第四版更新:现代编程风格与标准库
- 计算机系统基础实验:缓冲区溢出攻击(Lab3)
- 中国结算网上业务平台:证券登记操作详解与常见问题
- FPGA驱动的五子棋博弈系统:加速与创新娱乐体验
- 多旋翼飞行器定点位置控制器设计实验
- 基于流量预测与潮汐效应的动态载频优化策略
- SQL练习:查询分析与高级操作
- 海底数据中心散热优化:从MATLAB到动态模拟
- 移动应用作业:MyDiaryBook - Google Material Design 日记APP
- Linux提权技术详解:从内核漏洞到Sudo配置错误
- 93分钟快速入门 LaTeX:从入门到实践
- 5G测试新挑战与罗德与施瓦茨解决方案
- EAS系统性能优化与故障诊断指南
- Java并发编程:JUC核心概念解析与应用
- 数据结构实验报告:基于不同存储结构的线性表和树实现
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)