书书书
第
卷第
期
年
月
江 南 大 学 学 报
(
自 然 科 学 版
)
Journal of Jiangnan University(Natural Science Edition)
收稿日期
: ;
修订日期
: 。
基金项目
:
国家自然科学基金项目
( );
江苏省自然科学基金项目
( )。
作者简介
:
陈丽君
( —),
女
,
广西玉林人
,
统计学专业硕士研究生
。
通信作者
:
朱永忠
( —),
男
,
江西瑞昌人
,
教授
,
硕士生导师
。
主要从事统计与随机过程研究
。
:
简单子抽样多元双样本检验的改进方法
陈丽君
,
朱永忠
,
王方磊
(
河海大学 理学院
,
江苏 南京
)
摘 要
:
基于简单子抽样多元双样本检验方法
,
提出一种改进的检验方法
。
改进的方法一方面对混
合样本进行集成子抽样
,
既达到平衡样本容量的目的
,
又尽可能地保留所有样本点的信息
;
另一方
面
,
在检验统计量的构造中根据样本的非平衡度
,
采用加权调整的策略
,
进一步减小样本非平衡度
对检验结果的影响
。
关键词
:
非平衡
;
双样本检验
;
算法
;
子抽样
中图分类号
:
文献标志码
:
文章编号
: ( )
Improved Simple Subsampling Based on the Nearest Neighbor Method
,
,
( , , ,)
Abstract: ,
,
Key words:, , ,
近年来
,
非平衡类问题成为一个新的研究领域
并应用于生物科学
、
金融
、
欺诈检测和文本挖掘等
领域
。
这些领域中的数据分布是不均衡的
,
如信用
卡使用中的欺诈行为通常少于正常使用行为
。
非平
衡的多元双样本检验问题是非平衡数据研究的问
题之一
。
随着现代计算机的广泛应用
,
检验方法的
理论发展以及检验方法在其他学科中应用的增加
,
众多学者对双样本检验及其检验效力进行了大量
研究
。
早在
年
,
[ ]
在经典
检验的基础
上
,
利用混合样本的经验分布函数
,
建立了一种自
由分布 的多元
检验
。
随后
[]
于
年利用混合样本的最小生成树
()
将最大
偏离检验等双 样本检 验由一 元情形 推广到 多元
。
年
[]
通过构造一种基于
最近邻分
类算法
()
的检验统计量来解决多元双样本检
验问题
,
但是随着两样本不平衡度的增加
,
该方法
的检验效力急剧减弱
。
年
[]
提出一
种基于观测点最小距离非二分图
()
的交叉匹
配检验
,
该检验用于低维的大容量样本时表现出极
高的检验效力
。
同年
[]
用观测点在变量空间
的距离作算术函数
,
构造了一种基于观测点间能量
的多元检验统计量
。
后两种检验方法主要利用混合
样本点之间的紧密性这一性质
,
而只有当两个样本
的容量相当时
,
才能保证检验结果的有效性
。
同时
,
对这些检验方法一致性和渐近性的研究十分依赖