改进的子抽样多元双样本检验：基于KNN算法

需积分: 8 33 浏览量更新于2024-08-13 收藏 1.14MB PDF 举报

"本文主要介绍了一种针对简单子抽样多元双样本检验的改进方法，旨在解决样本容量不平衡的问题，通过集成子抽样和加权调整策略提高检验的准确性和效率。该方法结合了KNN算法，并在2015年的《江南大学学报（自然科学版）》上发表，由陈丽君、朱永忠和王方磊共同撰写。研究得到了国家自然科学基金和江苏省自然科学基金的支持。" 详细说明：在统计学中，双样本检验通常用于比较两个独立样本群体的差异，例如，比较两组人的平均收入或某种治疗效果。在实际应用中，样本容量可能不均衡，即一个样本的观测值数量可能远大于另一个。这会导致检验的效力降低，甚至可能产生误导性的结论。为了解决这个问题，研究人员提出了简单子抽样多元双样本检验的改进方法。该方法的核心是集成子抽样，这是一种将混合样本分成多个子集并分别进行检验的策略。通过这种方法，可以平衡各个子样本的容量，使得每个子样本的大小接近，从而减少由于样本大小差异带来的影响。同时，这种方法尽可能地保留了原始数据中的所有信息，避免因子抽样而丢失关键的统计特性。另一方面，为了进一步减少样本非平衡度对检验结果的影响，研究者在构建检验统计量时引入了加权调整策略。这一策略依据样本的非平衡程度来调整各个观测值的权重，使得在计算统计量时，那些来自较小样本的观测值能获得更大的权重，从而在总体比较中起到更大的作用。论文中提到的KNN算法（K-最近邻算法）是一种常用的分类和回归方法，它可以根据样本点的邻居关系进行预测。在这里，KNN可能被用来确定样本点之间的相似性，帮助在子抽样过程中选择具有代表性的样本点，以增强检验的准确性。这项改进的检验方法通过集成子抽样和加权调整，提供了一种更为有效的处理非平衡样本的工具，对于在生物统计、社会科学以及其他领域进行双样本比较的研究具有重要的实践意义。通过这些技术，研究人员能够更准确地评估两个群体之间的差异，从而做出更有依据的决策。

书书书

第

 

卷第



期

 

年

 

月

 

江南大学学报

（

自然科学版

）

Journal of Jiangnan University（Natural Science Edition）

  

 

 



收稿日期

：     ；

修订日期

：    。

基金项目

：

国家自然科学基金项目

（ ）；

江苏省自然科学基金项目

（       ）。

作者简介

：

陈丽君

（ —），

女

，

广西玉林人

，

统计学专业硕士研究生

。

󰧩 通信作者

：

朱永忠

（ —），

男

，

江西瑞昌人

，

教授

，

硕士生导师

。

主要从事统计与随机过程研究

。

：

简单子抽样多元双样本检验的改进方法

陈丽君

，

朱永忠

󰧩

，

王方磊

（

河海大学理学院

，

江苏南京

   ）

摘要

：

基于简单子抽样多元双样本检验方法

，

提出一种改进的检验方法

。

改进的方法一方面对混

合样本进行集成子抽样

，

既达到平衡样本容量的目的

，

又尽可能地保留所有样本点的信息

；

另一方

面

，

在检验统计量的构造中根据样本的非平衡度

，

采用加权调整的策略

，

进一步减小样本非平衡度

对检验结果的影响

。

关键词

：

非平衡

；

双样本检验

；

算法

；

子抽样

中图分类号

：  

文献标志码

：

文章编号

：   （ ）  

Improved Simple Subsampling Based on the Nearest Neighbor Method

 ， 

󰧩

， 

（  ， ，    ，）

Abstract：  ，             

                   

     ，         

   

Key words：， ，  ，



近年来

，

非平衡类问题成为一个新的研究领域

并应用于生物科学

、

金融

、

欺诈检测和文本挖掘等

领域

。

这些领域中的数据分布是不均衡的

，

如信用

卡使用中的欺诈行为通常少于正常使用行为

。

非平

衡的多元双样本检验问题是非平衡数据研究的问

题之一

。

随着现代计算机的广泛应用

，

检验方法的

理论发展以及检验方法在其他学科中应用的增加

，

众多学者对双样本检验及其检验效力进行了大量

研究

。

早在

 

年

，

［ ］

在经典



检验的基础

上

，

利用混合样本的经验分布函数

，

建立了一种自

由分布的多元



检验

。

随后



［］

于

 

年利用混合样本的最小生成树

（）

将最大

偏离检验等双样本检验由一元情形推广到多元

。

 

年



［］

通过构造一种基于



改进的子抽样多元双样本检验：基于KNN算法

2015统计继续教育.rar

2011-2019年重庆大学432统计学考研真题及部分答案详解

应用统计学 期末考试 答案 天津大学 2015.12

STATS216-2015-Homework:STATS216 家庭作业

河北省邢台市2015_2016学年高二数学下学期期末考试试题文扫描版.doc

苏州大学432统计学历年考研真题汇编

精品资料（2021-2022年收藏）全国精品收藏？年高等教育自学考试市场调查与预测试题.doc

福州大学432统计学2021年考研专业课初试大纲.pdf

2021年深圳大学经济学院应用统计专硕432统计学考试大纲、考试题型及复试参考书目.docx

vue.js v2.5.17

最新资源

应用统计学期末考试答案天津大学 2015.12