BiometricBlender：超高维、多类合成数据生成器

44 浏览量更新于2024-01-27 收藏 676KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件X 22（2023）101366原始软件出版物BiometricBlender：模仿生物特征空间的超高维、多类合成数据生成器Marcell Stippingera，J.，Dávid Hanákb，Marcell T. Kurbucza，c，Gerdom Hanczárb，奥利维尔湾Törtelib，Zoltán Somogyváriaa计算科学系，Wigner物理研究中心，29-33 Konkoly-Thege Miklós Street，H-1121 Budapest，HungarybCursor Insight，20-22 Wenlock Road，N1 7 GU伦敦，英国c数据分析和信息系统研究所，布达佩斯科维努斯大学，8 Fenvám Square，H-1093，匈牙利ar t i cl e i nf o文章历史记录：2021年12月9日收到2023年3月8日收到修订版，2023年保留字：数据集生成器超高维多类分类a b st ra ct缺乏可免费获得的（真实生活或合成的）高维或超高维、多类数据集可能会阻碍对特征筛选的快速增长的研究，特别是在生物识别领域，其中这种数据集的使用是常见的。本文报道了一个名为Biomet-ricBlender的Python软件包，这是一个超高维、多类合成数据生成器，用于对各种特征筛选方法进行基准测试。在数据生成过程中，用户可以控制混合特征的整体有用性和相互关联性，因此合成特征空间能够模仿真实生物特征数据集的关键属性版权所有©2023作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。代码元数据当前代码版本1.1.0用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-21-00238Code Ocean compute capsule不适用法律代码许可证MIT许可证（更多信息请访问：https://mit-license.org（检索日期：2023年1月22日）。）使用Git的代码版本控制系统使用Python的软件代码语言、工具和服务编译和安装要求、操作环境依赖性Python 3.7.1+，h5 py 2.10+，numpy 1.18+，scipy 1.6+，scikit-learn 0.24+;与操作系统无关（Linux，OS X，MS Windows）链接到开发人员文档和用户手册https://github.com/cursorinsight/biometricblender/blob/paper/README.md问题支持电子邮件stippinger. wigner.hu软件元数据当前代码版本1.1.0用于此代码版本的代码/存储库的永久链接https://github.com/cursorinsight/biometricblender/tree/paper法律代码许可证MIT许可证（更多信息请访问：https://mit-license.org（检索日期：2023年1月22日）。）编译和安装要求、操作环境依赖性Python 3.7.1+，h5 py 2.10+，numpy 1.18+，scipy 1.6+，scikit-learn 0.24+;与操作系统无关（Linux，OS X，MS Windows）链接到开发人员文档和用户手册https://github.com/cursorinsight/biometricblender/blob/paper/README.md问题支持电子邮件stippinger. wigner.hu1. 动机和意义*通讯作者。电子邮件地址：wigner.hu（Marcell Stippinger）。https://doi.org/10.1016/j.softx.2023.101366分析包括数十万特征的超高维数据正在成为现代科学研究许多领域中越来越常见的问题[1]。以来2352-7110/©2023作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softx放大图片作者：Marcell Stippinger，Dávid Hanák，MarcellT.Kurbucz等人软件X 22（2023）1013662• FIJ[客户端]∈C∈F[客户端]=·=tures;• FF是隐藏特征的期望数量r}·{lkj l（ck，fjhidden）.地点是随机选择的，在一个en-chee。包络线要么是正态分布要么是均匀分布可见tures;fj可见|1≤j≤ F可见是一组可见的fea工厂有：• 特征数（真和假）：F真，F假。• SC是每个类别的样本数量;以及• 有序度∈Z[0，C]：控制是否lkj：k∈∪[]的一种这些数据集通常仅包含相对较少的相关、非冗余的预测因子，通常采用在主要分析之前去除不相关特征的筛选步骤，伪特征是隐藏特征的集合，这些特征只是纯粹的噪声，对样本的分类没有贡献有用的信息。此外：达到更好的预测精度和更快的计算[2]。虽然许多筛选方法已经发表在真真F假Ffake=F隐藏，=0。近年来（例如，[3-此外，这些公共数据集（参见，例如，与分类任务相关的高维数据集，UC Irvine Machine Learning Repository1）通常不包含关于特征的有用性的地面实况辅助信息此外，它们大多数都有二进制响应变量，所以它们不能用于基准方法开发解决多类筛选问题。虽然在生物测定中通常会遇到这样的问题，但是很难通过使用可用的数据生成器（例如，Madelon数据集[10]和由scikit-learnPython pack-age [11]的make_classification为了弥补这一缺陷，本文报道了一个名为BiometricBlender的Python包，这是一个超高维，多类合成数据生成器，用于对各种特征筛选方法进行基准测试。在数据生成过程中因此，生物特征数据集的关键属性可以通过混合合成特征空间来模仿。该数据集提供了真实生物特征数据集的替代方案，这些数据集通常不能免费获得。因此，它能够公布根据这些数据取得的结果。本文的结构如下。第2节包含数据发生器软件的详细描述作为说明性的例子，第3节提出了三个合成的特征空间生成模仿现实生活中的数据集。最后，第4节总结了软件的影响并提供了结论。2. 软件描述本节详细描述了Biomet- ricBlender的完整发生器管道。管道的输出是高尺寸的，从遗传学中进行类比，隐藏的特征是基因型，可见的特征是样本的表型。‘‘True feature’’ genes have an effect on the behaviorbeing observed, while ‘‘fake feature’’ genes do如果隐藏的功能是直接观察和理想的distributed，样本分类将是一个微不足道的任务。管道后半部分的混合器组件（见下文）确保了这些信息在可见特征中更加隐蔽。完整管道执行以下步骤：1. 根据c k选择合适的分布类型和一组分布参数类和fj隐藏特征;2. F隐藏的隐藏特征值从这些分布中提取每份样品的比例：伊什岛 ∈S，fjhidden∈Fhidden：vhidden=v（si，fjhidden）;3. 通过多项式、线性和/或对数组合将隐藏特征彼此组合以产生每个样本的F可见4. 一定量的随机噪声被添加到可见特征值。2.1. 软件构架图1显示了管道的概述，以及组件之间的数据流。每个组件名称后括号中的数字表示给定组件参与上述步骤中的哪一个。每个组件都有许多参数，这些参数控制各个特征的有用性和信噪比。组件及其参数见第2.1.1至2.1.5节。2.1.1. 工厂位置该组件负责确定每个类的分布的位置3和隐藏的功能：L=• 可见是可观察的、可见的特征的{所需数量}分配，由用户指定。位置的参数• C=|C|是类的数量;2• 班级数量（s：C.）• S=|S| =C·S C是样本总数。可见特征是从一组隐藏特征中派生出来的，这些特征明显少于它们的可见对应物。在这方面：隐藏可见光• F隐藏 =fj隐藏|1≤j≤Fhidden是隐藏fea的集合。Ftrue是一组隐藏的特征，这些特征被创建为重要的和有区别的，并且Z1、C 任何特定fj隐藏特征的位置序列是随机的，部分或完全有序的，从而控制特征之间它的值指定每个有序子序列中位置的平均数。当不止一个而是多个特征起作用时，这是相关的：位置越有序，新特征添加到整体信息量中的细节就越少。例如：身高和脚的大小排序相似，因此知道两者所携带的信息量并不比只知道其中之一多另一方面，智商相对于这两个特征是随机排列的，所以同时知道智商和身高会使信息量加倍。1 网址：https://archive.ics.uci.edu（检索日期：2023年1月22日）。2 注意，为了简单起见，使用标量SC。进一步的开发可以通过采用具有不同样本大小的类来提供更真实的特征空间。3 位置定义分布的平移，例如，它是正态分布的平均值，最小值，即，均匀分布的值范围的开始×=V，空间多类S函数特征矩阵V其中：可见ijFF放大图片作者：Marcell Stippinger，Dávid Hanák，MarcellT.Kurbucz等人软件X 22（2023）1013663（）·∈[客户端]（）·∈[客户端]∈：=[][]隐藏特征值的S×F矩阵V=v。由于Fig. 1. BiometricBlender发生器管路的主要部件。共享程度Z0，C：控制平均有多少类共享完全相同的位置。在零共享范围的情况下，所有类都有单独的、可区分的位置。使用共享范围C，应用于所有假特征，所有类共享一个位置：KZ1、C l kjl j，渲染功能完全无用。在类之间的共享程度产生可区分的类组，在这些组中，各个类看起来是相同的。例如：社会安全号码（SSN）的共享范围为零，因为所有SSN都是唯一的。另一方面，名字的共享程度要高得多有用性 R0，1直观地控制如何展开是特征采样器的采样分布。有用性越而不是具体说明所有手动隐藏的功能，位置工厂期望有用的方案，它产生的所有功能的有用性。该方案可以是线性的、指数的或长尾的.纯噪声特征的有用性被固定为零。图图2通过两个隐藏特征的示例显示了不同的有用性参数设置。对抽样差异的解释在很大程度上依赖于被模拟的数据。示例1：在识别人员时，SSN的有用性是1，因为它永远不会改变，而且是明确的。呼吸频率具有低得多的但仍然非零的有用性，因为虽然它不能识别个体，但它可以区分一些年龄组、进行某些活动的人或具有影响呼吸的某种医学状况的人。例2：当在短时间尺度上测量时，体重的不确定性很小。发现体重的差异意味着通常在一段时间内达到的体重减轻或增加。更长的时间。相比之下，即使在相同的条件下，签名也不能被完全复制，图二. 两个隐藏特征A和B的示例，十个类的排序范围为2，共享范围为2。2.1.2. 特征采样器该组件采用前一步骤的位置和有用性值，并从这些位置周围的正态分布中为所作为一个选项，统一分布也可在命令行界面。在采样期间，有用性被转换为抽样分布：对于真实特征，将转换后的比例乘以从1左右的小均匀分布中得出的数字，以增加一些方差;• 对于伪特征，使用固定的比例值对于每个类ck∈C，创建S个C样本，从而得到一个同一分钟。在文献中，不同会话中特征的再现性被称为持久性[12，13]。瞬时区分能力是特征在给定时间点将类别与群体的其余部分区分开[14]第14话更一般地说，特性的有用性取决于两个组件：持久性和隐藏隐藏隐藏IJ到有用性到规模的转换，不太有用的功能更大的幅度。幅值在混合之前进行归一化。2.1.3. 多项式混合器此组件采用至少一个（最多d个）非唯一隐藏要素的所有可能组合，并将其瞬时辨别力在我们的软件中，通过有用性参数建模，会话数由每个类的样本数定义。4规模定义分布的范围，例如，它是标准差对于正态分布，以及均匀分布的值范围的长度。·放大图片作者：Marcell Stippinger，Dávid Hanák，MarcellT.Kurbucz等人软件X 22（2023）1013664√[] ×=[]∑[]（）输出是一个Ftranss集合，F transs = |F反式|为+j=1IJIJ它同时通过采取适当的措施，根例如，如果特征值a=x，y=d=z，an=d=2，2. α相对有用性是从均匀分布中随机抽取的，默认情况下介于0-1之间;则所生成的特征是x、y、z和z2。56xy，xz，yz，（x2，y2）3. 特征和随机噪声通过线性或对数插值混合，具有α，1-α权重，（非唯一）过渡特征。结果为F反式 =F隐藏。2.1.4. 特色搅拌机d=1的退化情形因此，如果α为1，则添加零噪声，并且当α为0时，随机噪声完全阻挡了特征值。2.2. 软件功能该分量取过渡特征，构造一个随机的、F可见的 F跨维稀疏权矩阵Wwij，并使用这些权重产生可见的混合特征每个可见特征的混合过渡特征的数量W）的每一列中的非零项的数量是从小值的离散均匀分布中随机选择的。权值本身是从狄利克雷分布中选择的，使得它们的每个可见特征的总和总是1：FBiometricBlender的唯一功能是生成一个超高维度的多类数据集，以基准测试各种特征筛选方法。输出被生成为具有以下结构的HDF5文件9• created_at（string）：数据生成的时间戳;（尺寸：S×F可见，尺寸标签：“i：∑transw=1。因此，这些特征的整体大小• 特征在混合过程中被保留下来。即便如此，对于使用距离操作的分类方法，可能需要对可见特征进行归一化[15]，而其他方法，如决策树和随机森林分类器，对不同尺度的特征不敏感。功能混合器可以在两种模式下运行：或作为字符串的默认参数值）：生成的可见特征值，即，Vvisible;id（string）：在数据生成时创建的唯一标识符（UUID 4）;• hash（string）：数据或文本“不可用”的哈希• labels（dimension：S，dimension label：在线性模式中，可见特征是过渡特征的加权和样品标签;• 名称（尺寸：F可见的，尺寸标签：F反式V v i sible=V v i sible=VtranssW 其中，v_v_isible=v_transw;真实姓名，即，可见的;• 有用性（维度：可见，维度标签：伊季它JTt=1‘‘feature’’): usefulness of• 可选的hidden_features和hidden_usefulness在对数模式中，可见特征是过渡特征的加权幂的乘积：F反式Vvi sible=Vvi sible其中，v_visible=v_transs WJt.分别与特征和有用性类似地刻划隐藏特征。给定一个固定的种子，输出是可再现的，直到舍入线性模式导致特征分布接近高斯分布，而对数模式生成接近对数正态分布的长尾特征分布。7在这两种模式下，特征都表示为由正态分布分量组成的原始不相关混合分布（隐藏特征）的函数。8可见特征的相关性模拟了大特征空间中冗余的挑战。2.1.5. 噪声混合器最后，将可选的随机噪声添加到可见特征，每个功能：采取以下步骤：1. 噪声从正态分布中随机抽取;5 注意，通过求根，我们最终得到了一些重复的值。6 F反式等于恰好取d项的组合的数量，F隐藏1项-所有隐藏的特征加上常数1-每次，有替换;减去唯一的情况下采取1 d次。7 线性混合模式（可选噪声混合，见下文）符合因子分析（FA）的生成模型，因此，在理论上，隐藏的特征可以被重构为多维旋转和一些噪声。对数混合模式不同，但FA仍然产生合理的重建。8 它们之间的所有关联都是由于个体类手段虽然通过将大量可见特征解相关来处理它们的问题是诱人的，例如，通过使用Cholesky变换[13]，在线性情况下，由于大量的可见特征，代数解可能是不稳定的。此外，对于对数情况，这样的变换不会返回原始的独立特征，只是一些具有对角方差的因变量库和Matlab将所有数组扩展到至少两个维度。3. 说明性实例3.1. 特征空间作为第一说明性示例，生成合成数据集以模仿Cursor Insight的私有签名特征空间。10已设置以下自定义命令行参数：• n-class=100;• n-samples-per-class=16;• n真特征=40;• n-伪特征=160;• 位置排序范围=2;• 位置共享范围=3;• n-features-out=10 000;• 混合模式='logarithmic'。9 有关HDF5格式的详细信息，请访问：hdfgroup.org/solutions/hdf5（检索日期：2023年1月22日）。10 光标洞察力赢得的ICDAR竞争对签名验证2015年，作者[16]有关详细信息，请参阅：https：//cursorinsight.com/e-signatures.html（检索日期：2023年1月22日）。请注意，为了证明筛选的潜力，这里生成的数据集比模拟数据更具噪音。+···F隐藏%d分别-1IJple’’,t=1错误.请注意，特定于语言的实现和包装器可能会为您提供不同的维度，例如，一些R放大图片作者：Marcell Stippinger，Dávid Hanák，MarcellT.Kurbucz等人软件X 22（2023）1013665×F·==-·==·==表1分类结果的160010 000数据集的三个基本分类器和各种减少算法。（a）只报告所有参数中准确度最高的参数。（b）拟合时间是还原步骤后的壁时间，对应于上述精度。（a）分类性能（b）分类器约简无PCA FAk-bestFtrue 约简无PCA FAk-bestk近邻0.1310.2180.2140.6410.632k近邻0.153秒0.003秒0.001秒0.006秒课SVC0.4710.4660.5480.6860.656课SVC24 s0.37秒0.42秒0.46 SRF0.6090.3710.7160.6920.860RF300 S22 S21 S29 S生成的数据集有1600个样本和10000个特征。注意，在该特征集中，必须调整生成模型的参数以近似统计（例如，特征谱），而不是规定统计数据本身。我们通过以下方式测试它的分类。我们在原始数据和数据的缩减/分解版本上训练了三个基本分类器的scikit-learn[11我们的特点是最好的交叉验证的准确性，可以达到每个分类器使用全网格搜索的关键参数。这些参数为：k -最近邻（kNN）的权值C0.5、1.0、2.0;支持向量分类器（SVC）的tol1e-4、1 e-3、1 e-2;以及n_estimators1000;min_samples_leaf1，2，4;max_depth无、8、10;min_杂质_减少随机森林分类器（RF）为0.0、0.01、0.05减少步骤允许分类器在更集中的数据集上工作。我们执行每个约简/分解算法，以产生10、25、50、100、200、400和800个特征的约简特征空间，并仅报告最佳精度，见表1。主成分分析（PCA）保持其默认设置。对于因子分析（FA），我们应用了方差最大旋转。k-best SelectKBest方法使用f_classif分数越来越多地选择最佳特征。true使用了真正的隐藏功能。3.2. FaceNet特征空间深度神经网络FaceNet [17]为每个呈现的肖像提供了128个特征。这些特征是近似正常的，几乎没有冗余（低平均相关性），并且对不相关的特征不敏感，例如照明（低噪声）。在MORPH-II数据集[18]上，据报道PCA可以解释总特征的一半的特征方差[19]。因此，我们假设需要64个真实且没有虚假的特征来产生数据集。我们可以通过减少每个可见特征中混合的真实特征的数量来暴露真实特征，同时减少观察噪声。建议使用以下自定义命令行参数：• n真特征=64;• return0;• n-features-out=128;• return2;• return3;• 最大噪声=0.2。我们的期望得到满足，见图。3 .第三章。3.3. 发声数据库为了研究帕金森病标记物，从252名受试者中收集了主成分分析表明，168个特征可以解释95%的方差。不像在图三. 由生成的特征空间的PCA分量解释的方差来模拟FaceNet数据集在前一种情况下，由于特征空间的形状（756个样本，753个特征），在没有实际解决分类问题的情况下，人们不能说出有多少特征是真实的。但我们的框架能够模拟这种情况。Sakar等人。[20]证明了需要50个非冗余特征来解决86%准确率的分类任务基于他们的场景，我们假设50个真实功能和118个虚假功能，因此建议使用以下自定义命令行参数• n-class=252;• n-samples-per-class=3;• n真特征=50;• n-伪特征=118;• n-features-out=753;• return2;• return4;• 最大噪声=0.3。3.4. 画廊大小为了测试图库大小的影响，人们通常希望生成大量的类，然后将过滤后的输出提供给正在研究的al-出租m。请注意，数据必须在一个步骤中生成。由于实现细节，生成较少数量的类，即，1000个类不会导致生成的合成数据的子集请求10000个特征，即使种子是相同的。试验应按照文献中的描述进行。这个例子只显示了生成具有许多类的数据集的参数，如下所示：• n-classes=10 000;• n-samples-per-class=4;• n真特征=50;• n-features-out=2000。此外，可以尝试设置更多参数，例如min-usefulness，max-usefulness ， location-ordering-extent 或 location-sharing-extent，请参阅GitHub上的程序使用[21]。放大图片作者：Marcell Stippinger，Dávid Hanák，MarcellT.Kurbucz等人软件X 22（2023）10136664. 影响和结论被称为BiometricBlender的超高维度、多类别数据生成器以两种方式支持快速增长的特征筛选研究。一方面，它通过提供真实（通常非自由）生物特征数据集的替代方案，促进了广泛的特征筛选方法（见表1另一方面，它使人们能够公布根据这些数据取得的成果。为此，用户可以在数据生成期间控制混合特征的整体有用性和相互关联性。此外，研究分类性能如何随着类的数量（图库大小）[19]，真特征和假特征的比例，它们的总数或它们的混合（混合参数）而变化。因此，合成特征空间能够模仿真实生物特征数据集的关键属性我们希望提请读者注意以下可能被视为潜在利益冲突的事实，以及对这项工作的重大财政捐助。潜在利益冲突的性质描述如下：一些作者为Cursor Insight工作，Cursor Insight是一家IT公司，主要针对人体运动分析，人员分类和基于大规模生物特征数据的身份识别。为了有效地处理这种真实的、多类的、超高维度的数据集，我们提出了自己的特征筛选算法，因为我们发现行业标准的解决方案是不够的。然后我们决定公开分享我们的解决方案。当为了证明我们的筛选算法对标准解决方案的性能时，对合成数据生成器的需求出现了，我们开始寻找这种维度的公开可用的参考数据集，或这种生成器，但没有找到竞合利益作者声明以下可能被视为潜在利益冲突的经济利益/个人关系：我们希望提请编辑注意以下可能被视为潜在利益冲突的事实，以及对本工作的重大财务贡献潜在利益冲突的性质如下所述：一些作者为Cursor Insight工作，Cursor Insight是一家IT公司，主要从事人体运动分析，特别是基于大规模生物特征数据的人员分类和识别。为了有效地处理这种真实的、多类别的、超高维度的数据集，我们提出了我们自己的特征筛选算法，因为我们发现行业标准解决方案是不够的。我们决定与公众分享我们的解决方案。当为了证明我们的筛选算法相对于标准解决方案的性能时，对合成数据生成器的需求出现了，我们开始寻找这种维度的公开可用的参考数据集或这种生成器，但没有找到。数据可用性文章中描述的研究未使用任何数据致谢作者要感谢 Erika Griechisch （ Cursor In- sight ，伦敦）和András Telcs（Wigner物理研究中心，布达佩斯）的宝贵意见和建议。医学硕士，M.T. K和Z.S.感谢匈牙利Eötvös Loránd研究网络（Z.S.获得资助编号SA- 114/2021）。Z. S.由匈牙利国家研究、发展和创新办公室资助，NKFIH K135837和匈牙利国家脑研究计划2017-1.2.1-NKP-2017-00002。M.T. K在MILAB人工智能国家实验室计划的框架内，获得了匈牙利创新和技术部NRDI办公室的支持，并获得了匈牙利科学研究基金（OTKA/NKFIH）的支持，合同号为PD 142593。引用[1] 刘毅，陈翔.某些变量条件下超高维异质数据的分位数筛选。J Stat ComputSimul 2018;88（2）：329-42. http://dx.doi.org/10.1214/13-AOS1087网站。[2]邱D，安J.超高维数据的分组变量筛选线性模型。Comput Statistist Data Anal 2020;144：106894. http://dx.doi的网站。org/10.1016/j.csda.2019.106894。[3]Mai Q，Zou H.Kolmogorov滤波器用于高-二维二元分类Biometrika 2013;100（1）：229网址：//dx.doi.org/10.1093/biomet/ass062网站。[4]麦勤，邹宏，等.融合Kolmogorov滤波器：一种非参数无模型筛选方法. AnnStatist 2015;43（4）：1471-97. http://dx.doi.org/10.1214/14-AOS1303.[5]陈X，陈X，王红.用于超高尺寸的鲁棒特征筛选右删失数据通过距离相关。Comput Statistist Data Anal 2018;119：118-38.http://dx.doi.org/10.1016/j.csda.2017.10.004网站。[6]陈X，张Y，刘Y，陈X.无模型特征筛选用于超高多维竞争风险数据。Statistist Probab Lett 2020;164：108815.http://dx.doi.org/10.1016/j.spl.2020.108815网站。[7]陈晓，刘CC，徐S.一种有效的联合特征筛选算法超高维Cox模型Comput Statist 2021;36（2）：885-910.http://dx.doi.org/10.1007/s00180-020-01032-9网站。[8]何勇，张玲，季军，张晓.椭圆copula的鲁棒特征筛选回归模型J Multivariate Anal 2019;173：568-82.http://dx.doi.org/10.1016/j.jmva.2019.05.003.[9]胡强，林林. 高维回归中的特征筛选内生协变量。计算机经济2021;1http://dx.doi.org/10.1007/s10614-021-10174-x.[10]Guyon I，Gunn S，Ben-Hur A，Dror G. 2003年国家公共卫生调查结果分析特征选择挑战。高级神经信息处理系统2004;17.[11]Pedregosa F ， Varoquaux G， Gramfort A， Michel V， Thirion B， GriselO，Blondel M，Prettenhofer P，Weiss R，Dubsovic V，et al. Scikit-learn：MachinelearninginPython.JMachLearnRes2011;12 ： 2825-30.http://dx.doi.org/10.48550/arXiv.1201.0490。[12]Friedman L，Nixon MS，Komogortsev OV.评估时间的方法潜在的生物特征的持久性：应用于眼科，步态，面部和大脑结构数据库。PLoS One 2017;12（6）：1-42. 网址：//dx.doi.org/10.1371/journal.pone.0178501网站。[13]Friedman L，Stern HS，Price LR，Komogortsev OV.为什么生物特征的时间持久性，如组内相关系数所评估的，对于分类性能来说是非常有价值的传感器2020;20（16）.网址：//dx.doi.org/10.3390/s20164555网站。[14]费希尔河研究工作者的统计方法。爱丁堡：奥利弗和博伊德;1925年。[15]Friedman L，Komogortsev OV. 评估七项措施生物特征标准化技术。IEEE Trans Inf Forensics Secur 2019;14（10）：2528http://dx.doi.org/10.1109/TIFS.2019.2904844网站。[16]Malik MI，Ahmed S，Marcelli A，P. U，Blumenstein M，Alewijns L，利维奇 ·M ICDAR 2015 在线和离线熟练论坛签名验证和作者识别竞赛（SigWIcomp2015）。 2015年第13届文献分析与检索国际会议。ICDAR，IEEE; 2015 ， p. 1186-90. http://dx.doi.org/10.1109/ICDAR.2015 的网站。7333948。[17]Schroff F，Kalenichenko D，Philbin J. FaceNet：人脸识别和聚类。IEEE计算机视觉与模式识别会议论文集2015，p. 815-23.http://dx.doi的网站。org/10.1109/CVPR.2015.7298682。[18]Ricanek K，Tesafaye T.MORPH：正常人纵向图像数据库成人年龄增长第七届自动人脸和手势识别国际会议（FGR 06）。IEEE;2006年，第341-5页。http://dx.doi.org/10.1109/FGR.2006.78。[19][10]李国忠，李国忠.生物识别性能作为画廊大小的函数。应用科学 2022;12 （ 21 ） .http://dx.doi.org/10.3390/app122111144网站。[20]Sakar CO，Serbes G，Gunduz A，Tunc HC，Nizam H，Sakar BE，Tutuncu M，放大图片作者：Aydin T，Isenkul ME，Apaydin H. 帕金森病分类的语音信号处理算法的比较分析和可调Q因子小波变换的使用。Appl Soft Comput2019;74：255-63. http://dx.doi.org/10.1016/j.asoc.2018.10.022网站。[21][10] Stippinger M，Hanák D，Kurbucz MT，Hanczár G，Törteli OM，HergertL，绍莫吉瓦里湾BiometricBlender。2022，GitHubURLhttps://github.com/cursorinsight/biometricblender。

下载后可阅读完整内容，剩余1页未读，立即下载