没有合适的资源?快使用搜索试试~ 我知道了~
软件影响9(2021)100103原始软件出版物分类特征托马斯·T 放大图片创作者:Kok a,b,Cheryl,GeorgKremplb,HugoG. 施纳克c,daIDLab,根特大学- imec,比利时b荷兰乌得勒支大学信息计算科学系数学数据分析小组c荷兰乌得勒支乌得勒支大学医学中心UMCU脑中心精神病学系d荷兰乌得勒支大学人文学院语言、文学和传播系A R T I C L E I N F O保留字:主动学习主动特征获取分类特征的主动选择机器学习实验评价框架A B标准在一些机器学习应用中,获取最具预测性的特征的数据是昂贵的,但其他特征是现成的。最近,第一个主动学习方法,这个主动选择分类特征问题(ASCF)已经提出。在本文中,我们介绍了一个Python包,它提供了ASCF的框架,包括监督和无监督选择方法的实现,以及用于执行实验评估的框架。这一框架已被用于最近的出版物的背景下,神经影像学研究精神障碍,其有用性已被证明在模拟研究设计与MRI数据。代码元数据当前代码版本v1用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-55可再生胶囊的永久链接https://codeocean.com/capsule/3313284/tree/v1法律代码许可证MIT许可证使用git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求、操作环境依赖性https://github.com/thomastkok/active-selection-of-classification-features/blob/master/requirements.txt如果可用,链接到开发人员文档/手册https://github.com/thomastkok/active-selection-of-classification-features/blob/master/README.md问题支持电子邮件thomas. ugent.be,mail@thomastkok.com正文动机使用监督机器学习技术的一个核心前提是数据的可用性。然而,在实际应用中,数据的获取通常是昂贵或繁琐的。对于预测特征数据丰富但标签稀缺且需要从Oracle昂贵获取的应用程序,主动学习提供了丰富的文献,介绍了选择最有洞察力的实例进行标记的方法。然而,在一些应用中,获得关于最具预测性的特征本身的数据是昂贵的,而关于其他特征的数据是昂贵的。功能便宜或容易获得。对于这些应用,最近定义了主动选择分类特征(ASCF)的新主动学习问题[1]:给定的主要任务是在预测但昂贵的、尚未获得的分类特征x上学习分类器n:x→n,而另一组廉价的辅助特征z可供选择。 然后,ASCF任务包括主动选择这些实例,昂贵的特征x是最有用的。这是通过学习辅助预测器m:z→ x来基于辅助特征预测这种有用性来完成的。本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。通讯作者:IDLab,根特大学-imec,比利时.电子邮件地址:thomas. ugent.be(T.T. Kok)。https://doi.org/10.1016/j.simpa.2021.100103接收日期:2021年5月17日;接收日期:2021年6月24日;接受日期:2021年6月25日2665-9638/©2021作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsT.T. Kok,G.Krempl和H.G.施纳克软件影响9(2021)1001032Fig. 1.分类特征的主动选择:������通过使用辅助廉价特征z并学习其值的预测器x:z → x并估计其有用性来 识 别 具 有 主 要 分 类 任 务 的 最 有 洞 察 力 的 代 价 特 征 值 x 的 实 例 : x→ x ���。对于这项任务,如图所示。1(a)1. 实现问题设置,2. 实现了两种ASCF方法,一种是有监督的,一种是无监督的,3. 并提供了有效执行实验的框架。探索这个问题的动机是由理论和实际应用环境的动机。文献中未探讨具体的问题设置(最接近的是主动特征获取[2]问题设置)。问题设置最初是为医疗案例研究定义的,其目的是更有效地构建预测模型。在这种情况下,分类模型预测精神分裂症的诊断是通过核磁共振扫描建立的。这些扫描的获取对于患者来说是昂贵且不舒服的,因此能够确定某个患者的扫描是否将是信息性的将避免患者的不必要负担并降低成本。功能. 该软件使用Python编程语言[3]实现,依赖于几个包,最重要的是:scikit-learn [4],numpy [5]和pandas [6,7]。开放源代码,MIT许可的代码,1分为几个部分:• 方法和基线:我们之前在ASCF工作中定义的方法和基线已在本手册中实施和显示。• base:这个子文件夹包含了维护ASCF问题设置环境的基本类。这些措施包括:具有缺失分类特征的数据集、待优化的模型、能够查询任何缺失分类特征的oracle以及允许选择这些查询的采样器。• experiment:这个子文件夹包含实验设置的基本内容。它能够从命令行运行实验,以及生成实验设置和评估实验结果。影响概述。 该软件的开发允许我们追求现有的研究问题:找到是否有可能改善随机选择这个问题的设置。为此,我们需要进行实验来测试任何开发的方法,1 可查阅:https://github.com/thomastkok/active-selection-of-classification-features。真实的场景该软件允许追求与分类特征的主动选择的问题设置相关的任何研究问题,最重要的是这个问题的潜在方法。使用该软件进行实验的能力改变了其用户的日常实践,以及更容易开发解决此问题的新方法的能力。当开发出解决此问题的新方法或找到数据集时,该软件可以轻松探索 初步的结果,以及更深入。该软件已在以下出版物中使用以获得结果,预计稍后将有更多与领域相关的出版物1. T. Kok,Active Selection of Classification Features,硕士2. T.科克河M.布劳威尔河M. Mandl,H. G. Schnack,G. Krempl,分类特征的主动选择,在:智能数据分析的进展IDA 2021,LNCS 的 第 12695 卷 , Springer , 2021 , pp. 184-195. doi :http://dx.doi.org/10.1007/978-3-030-74251-5_15使用该软件,这些出版物能够显示出对基准数据集的简单基线的改进,特别是当应用于真实世界的神经成像数据时。到目前为止,该软件还没有普及,但可以随着对ASCF问题的认识和解决方法的可用性而增长。在[1]的综述中明确证实了神经成像(尤其是在临床环境中)对此类技术的需求因此,它允许很大的潜力。该软件在神经成像领域之外具有潜在用途。任何遵循ASCF问题设置原则的问题都可以使用该软件以及相关方法。这可以通过确认以下项目进行检查• 一些信息集要么是所有数据点都已知的,要么是容易且便宜的检索。此外,该数据与最终分类模型无关,或因其他原因无法纳入。该信息将对应于选择特征。• 对于所有数据点,某些信息集尚未知晓,要么很难获得,要么很昂贵。该信息将对应于分类特征。在医疗领域,通常必须从大量可能的仪器中选择测量仪器,这些仪器在可用性、患者负担、成本、时间消耗方面都不同。医学领域中的许多(分类)问题可能满足ASCF要求,并且T.T. Kok,G.Krempl和H.G.施纳克软件影响9(2021)1001033对模特来说是最重要的。ASCF的潜在应用可能在其他(生物)医学领域,如动物研究和药物研究中找到,除此之外,在其他领域,人类很难收集或从人类收集信息,或者很难获得一些测量结果-想想地质学。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢感谢Rachel M。作者:Rene M. Mandl,Hilleke E. 来自UMCU脑中心的Hulshoff Pol和Wiepke Cahn,以及来自乌得勒支大学的Ad Feelders。此外,我们感谢UU/UMCU的SIG应用数据科学资助研究项目引用[1]T. Kok,R.M. Brouwer,R.M. H.G.曼德尔Schnack,G. Krempl,分类特征的主动选择, 在:智能 数据分析的进 展XIX。IDA 2021。第 12695卷, 见: LNCS,Springer,2021年,pp. 184-http://dx.doi.org/10.1007/[2]M. 作 者 : J. 教 务 长 , 主 动 特 征 值 获 取 , 管 理 。 Sci. 55 ( 4 ) ( 2009 )664http://dx.doi.org/10.1287/mnsc.1080.0952[3]G. Van Rossum,F.L. Drake,Python 3参考手册,PythonSpace,ScottsValley,CA,2009年。[4]F.佩德雷戈萨湾瓦罗科格拉福,V.米歇尔,B.蒂里翁岛,澳-地格里塞尔,M。作者声明:R.放大图片作者:王伟帕索斯角,澳-地库 那波,M。布鲁赫,M。Perrot,E. Duchesnay,Scikit-learn:Python中的机器学习,J。 马赫学习.Res. 12(2011)2825[5]C.R.放 大图 片作 者: Harris,K. J. Millman,S. J. Gommers,P. Virtanen,D.Cournapeau,E.Wieser ,J. Taylor ,S. 新泽西州伯格史密斯河克恩,M。Picus,S.霍耶M.H. van Kerkwijk , M. 布 雷 特 , A. 哈 勒 什 , J.F. del Rio , M. Wiebe , P.Peterson,P. Gérard-Marchant,K.谢泼德,T.Reddy,W.Weckesser,H.阿巴西角 Gohlke , T. E.Oliphant , Array programming with numpy , Nature 585(7825)(2020)357http://dx.doi.org/10.1038/s41586-020-2649-2[6]pandas开发团队pandas-dev/pandas:Pandas。(2020年3月)http://dx.doi.org/10.5281/zenodo.3715232网站。[7]M. Wes,Python中统计计算的数据结构,在:S。范德沃特,J. Millman(编辑),第九届Python in Science会议论文集,2010年,pp.56http://dx.doi.org/10.25080/Majora-92bf1922-00a[8]T. Kok,分类特征的主动选择,硕士论文,乌得勒支大学,乌得勒支,荷兰,2020年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功