代价敏感极限学习机相异性集成在基因表达数据分类中的应用

0 下载量 77 浏览量 更新于2024-08-30 收藏 1.06MB PDF 举报
"嵌入代价敏感的极限学习机相异性集成的基因表达数据分类" 这篇研究论文探讨了在基因表达数据分类中的一个特定问题,即如何处理不同样本的误分类代价不相等的情况。传统的极限学习机(Extreme Learning Machine, ELM)算法主要关注分类精度,但在实际应用中,误分类的代价可能是不同的,例如在医学诊断中,某些类型的错误可能比其他错误更严重。因此,论文提出了一种新的方法,名为"基于相异性集成极限学习机的代价敏感算法"(Cost-Sensitive-Dissimilarity-Based Ensemble of Extreme Learning Machine, CS-D-ELM)。 极限学习机是一种快速的单层神经网络训练方法,它通过随机初始化输入隐藏层权重并一次性求解输出权重来实现。在相异性集成(Dissimilarity-Based Ensemble, D-ELM)框架下,这种方法通过集成多个不同的分类器来提高整体的分类性能和稳定性。然而,D-ELM并不考虑样本的误分类代价,这限制了其在代价敏感问题上的应用。 论文提出的CS-D-ELM算法引入了概率估计和代价重新构造的概念。在分类过程中,不仅考虑了样本之间的相似性,还考虑了误分类和拒识(即无法确定类别)的代价。通过这种方式,算法能够在决策时平衡不同错误类型的影响,从而达到最小化平均误分类代价的目标。 为了验证新算法的有效性,研究人员将其应用于多个基因表达数据集。实验结果表明,CS-D-ELM相比标准的D-ELM在处理代价敏感问题时能获得更好的分类效果,尤其在误分类代价不均衡的情况下,它的性能优势更为明显。这证明了该算法在基因表达数据分析和其他类似任务中的实用性和适应性。 此外,这篇论文的作者团队包括了在机器学习、数据挖掘和模式识别等领域有深厚研究背景的学者。他们的工作受到了国家自然科学基金、浙江省自然科学基金和浙江省科技厅国际合作项目的资助,体现了这项研究的学术价值和实践意义。 这篇研究论文为代价敏感的机器学习提供了一个新的解决方案,特别是在生物信息学领域,对于提升基因表达数据分类的准确性和适应性具有重要的理论和实际贡献。