基于机器学习的医学检查数据性别差异分析与识别研究

51 浏览量更新于2023-12-06 收藏 12.86MB PDF 举报

Array

机器学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0Array 14 (2022) 1001400 Published by Elsevier Inc. This is an open access article under the CC BY-NC-ND license(http://creativecommons.org/licenses/by-nc-nd/4.0/)0目录可在ScienceDirect上找到0Array0期刊主页：www.elsevier.com/locate/array0GARD：基于机器学习的性别差异分析与识别�0何世文a，b，c，�，宋健a，欧叶宇a，袁元红d，��，张晓杰e，f，徐晓华g0a 中国湖南长沙中南大学计算机学院，邮编410083 b 东南大学国家移动通信研究实验室，中国南京邮编210096 c紫金山实验室，中国 d 湖南省儿童医院急诊中心，中国湖南长沙邮编410007 e中南大学第二附属医院精神科，中国湖南长沙邮编410011 f 国家精神障碍临床研究中心，中国湖南长沙邮编410011 g南京医科大学第一附属医院内分泌科，中国南京邮编2100120文章信息0关键词：性别差异分析，性别识别，医学检查数据，机器学习0摘要0近年来，基于医学检查大数据的智能诊断和智能医疗已成为未来医学发展的主要趋势。本文提出了一种分析医学检查项目（医学属性）中男性和女性差异的方法，并发现不同年龄段的男性和女性在医学属性上存在差异。然后，采用聚类分析方法进一步分析男女在医学检查项目上的差异，从而在特定年龄范围内找到一些可以用于性别识别的共同重要属性（CIAs）。接着，我们提出了两种利用找到的CIAs进行性别识别的模型（GRMs）。提供了大量实验结果来验证所提出的GRMs的有效性。实验结果表明，具有较大差异值的医学属性确实有助于性别识别。在一定年龄范围内，如17至51岁，所提出的GRM仅使用六个医学属性就可以达到92.8%的准确率。01. 引言0随着计算机技术和医院信息系统的快速发展，电子病历（EMR）已普及，取代了传统的手写病历[1]。此外，建立先进的EMR系统将使医院进入数字化医院的新时代，并为医院的医疗、科研和教学以及医院管理提供主动、便捷和高效的数据服务。然而，在收集EMR数据时，一些医学检查项目的值是不可避免地会丢失的，比如性别的值。对于EHR分析，患者性别信息在提供一些有用信息方面起着非常重要的作用，而缺乏这些信息将影响EMR的数据质量。然而，在一些中国的EHR中，性别信息要么丢失[2]，要么因0�本工作部分得到中国国家自然科学基金项目62171474的支持，部分得到东南大学国家移动通信研究实验室开放研究基金项目2022D03的支持，部分得到OPPO研究基金项目CN05202112160224的支持。� 通讯作者：中国湖南长沙中南大学计算机学院，邮编410083。�� 通讯作者。邮箱地址：shiwen.he.hn@csu.edu.cn（S. He），1301140117@csu.edu.cn（J.Song），Ouyeyu@csu.edu.cn（Y. Ou），yyhong120@163.com（Y. Yuan）0Xiaojiezhang2014@163.com（张晓洁），xxh7812@163.com（徐晓辉）。0隐私问题[3]。因此，有必要研究填补医疗数据中缺失值的算法，并从不涉及隐私风险的数据中预测性别。众所周知，依赖数据完整性的准确分析医学检查数据有利于早期疾病检测、患者护理和社区服务。然而，医学检查数据的不完整性将降低分析准确性。Yoon等人提出了一种采用著名的生成对抗网络（GAN）框架的生成对抗插补网络（GAIN）来填补缺失数据[4]。Yang等人指出GAIN不适合分析医学检查数据，因为GAN本身适应于像素数据，因此他们结合模糊编码来调整GAIN[5]。由于重症监护病房中的大多数医学检查数据都是时间序列，Luo等人结合了GAN0https://doi.org/10.1016/j.array.2022.100140收到日期：2022年1月8日；接受日期：2022年3月7日20Array 14（2022）1001400S. He等人0使用门控循环单元构建门控循环单元进行数据插补，填补时间序列数据中的缺失值[6]。类似地，时间维度信息被用来通过多方向循环神经网络填补缺失值[7]。机器学习和深度学习也被广泛用于填补EMR中的缺失值。McLean等人介绍了预测均值匹配、�最近邻、迭代插补和MICE，以生成肿瘤中心EMR中缺失数据的值[8]。Farnaz等人开发了一个时间序列医学生成辅助网络（GANs）用于伤口预后模型，可以从EMR生成连续和分类特征[9]。0在解决数据不完整性问题时，填补性别0信息，即性别识别也是一个研究热点。对于性别识别，Li等人引入了基于五个面部特征的多支持向量机（SVM）性别分类器，另外还包括人类头发和衣服[10]。使用面部图像的Gabor滤波器响应来识别性别和年龄[11]。通过检测和定位回归树集上的面部标志来开发了基于RestNet的性别识别器[12]。除了面部图像外，还有研究使用文本、手机行为和神经信号来区分男性和女性。Moumita等人通过提取姓名的欧拉数有效地识别了男性和女性[13]。通过将用户的移动文本数据与基于Web文档的性别代表性词集进行匹配来预测用户的性别信息[14]。Dongxu等人通过结合统计知识和社会学知识，利用社交网络上的重要行为来区分男性和女性[15]。Kaur等人尝试从神经信号中挖掘有用的信息，他们设计了一个预测框架，使用脑波传感器收集的神经信号来识别年龄和性别[16]。在医学领域，Junmei等人开发了一种使用卷积神经网络（CNN）的数据管理方法，以预测来自EMR的患者性别的缺失值[2]。Serkan等人提出了一种基于多探测器计算机断层扫描（MDCT）图像测量髌骨的机器学习算法，使用决策树（DT）方法来确定性别[17]。Yuichiro等人使用脑MRI（磁共振成像）构建了一个多通道3D-CNN，并验证了脑结构图像模式对性别识别的影响[18]。0本文首先分析了男性和0在医学检查项目中的女性，然后基于分析结果构建两个基于性别识别模型，以识别男性和女性。主要贡献总结如下：01. 提出了一种基于重叠区域的算法来分析0男性和女性在医学检查中的差异；02. 在某个年龄范围内发现一些常见重要属性（CIAs）0发现年龄范围有助于通过聚类分析识别男性和女性，并提出了一个年龄范围划分算法；03. 提出了两个性别识别模型（GRMs），即针对已知年龄的样本的GRM A和0已知年龄的样本进行性别识别的GRMA和未知年龄的样本进行性别识别的GRMB，用于识别样本的性别。实验结果表明，在某些年龄范围内，如17至51岁，提出的GRM A和GRM B的准确率分别达到92.8%和93.8%。0本文的其余部分组织如下。在第 2 部分，我们0描述数据集并分析男性和女性在医学检查中的差异。在第 3部分，我们通过聚类分析进一步分析，并确定在每个年龄子范围内对性别识别起重要作用的医学检查项目。在第 4部分，根据示例的年龄是否已知，提出了两个性别识别模型。然后，在第 5部分评估了提出的模型和数据分析在性别识别中的作用。最后，在第 6部分进行总结。02. 数据描述和分析02.1. 数据描述0分析男性和女性在医学检查中的差异0检查数据，我们在湘雅医学大数据系统中进行了脱敏处理，共收集了62,072个样本。为便于展示，设 � 为样本集合。每个样本包含 � = 39个医学检查项目（医学属性）和2个基本属性（“AGE”：年龄，“SEX”：性别）。特别地，表1列出了医学属性类型、索引、属性和属性全称。医学属性包括常规血液检查、肝功能检查、肾功能检查和血浆凝血酶原时间测定。为了了解集合 �中的数据结构，我们列出了每个属性的常见统计数据，包括平均值（Mean）、最小值（MIN）和最大值（MAX）。对于基本属性，集合 �中样本的最小年龄和最大年龄分别为1和70，即年龄范围为 � = {1 , 2 , … , 69 ,70}。对于男性样本，“SEX”属性的值为“0”，而对于女性样本，“SEX”属性的值为“1”。02.2. 差异分析0现有研究表明0表1中列出的一些医学属性在男性和女性中存在显著差异。例如，RBC、HGB和HCT等医学属性在 2 岁后男性和女性之间存在显著差异 [ 19 , 20]。通过对1至17岁之间样本的统计分析，发现CREA和UA在12至17岁男性和女性之间存在显著差异 [ 21]。然而，前述文献中使用的统计方法只能确定男性和女性的医学属性 �的分布是否相同。如果它们不相同，则认为男性和女性在医学属性（DEFEA） �上存在显著差异。然而，这些前述文献未揭示DEFEA �的变化趋势，我们只知道存在DEFEA � 。换句话说，它们没有比较DEFEA �的大小。简而言之，这些统计分析无法告诉我们DEFEA � 的具体值 [ 22]。接下来，我们通过男性和女性的医学属性 � 的分布分别分析DEFEA � 。0图1显示了三个医学属性在0男性和女性的不同年龄。具体来说，图1(a)、1(b)和1(c)说明了医疗属性CREA、HGB和PT%的数值分布。可以发现，在5岁时，医疗属性CREA和HGB的数值分布几乎相同。然而，在5岁以上，男性和女性的数值分布存在较大差异。对于医疗属性PT%，在这些年龄段，男性和女性的数值分布差异并不明显。从统计的角度来看，对于医疗属性 �，男性和女性的数值分布越接近，数值分布的重叠区域就越大。这意味着可以用男性和女性在年龄 � 时医疗属性 � 的数值分布的重叠区域 � ( �, � ) 来评估年龄 �时的医疗属性 � 的DEFEA，给出如下：0� ( �, � ) = − ln ( � ( �, � )) , (1)0这里 � 代表相应医疗属性 � 的索引， � ∈ � = {1 , 2 , … , 39} ，而 � ( �, � )由以下公式计算：0� ( �, � )0� ∈ � � min ( � � ( �, �, � ) , � � ( �, �, � ) ) , (2)0其中 � � 是通过均匀分割医疗属性 � 的值范围生成的子区间集合， � � ( �, �, � ) 和 � � (�, �, � ) 代表男性和女性医疗属性 � 的样本频率，属于 � th 子区间的年龄 � ，3respectively. Note that 𝐃 (𝑡, 𝑟) is negatively correlated with 𝐎 (𝑡, 𝑟), andapproximates 0 when 𝐎 (𝑡, 𝑟) is close to 1. In other words, the overlapof the two numerical distributions means that there is no differencebet(4)0数组14 (2022) 1001400S. He等0表1 数据结构。0属性类型索引属性属性全名平均值最小值最大值单位0血常规检查 1 RBC 红细胞计数 4.46 3.27 5.60 10^12/L 2 HCT 红细胞压积 40.05 29.40 49.00% 3 MCV 红细胞平均体积 89.97 73.40 100.00fL 4 MCH 平均红细胞血红蛋白 29.52 22.30 33.10Pg 5 MCHC平均红细胞血红蛋白浓度 328.27 301.00 351.00g/L 6 RDW-CV 红细胞体积分布宽度-CV 12.77 11.60 17.00% 7 WBC 白细胞计数 6.29 3.54 12.63 10^9/L 8 LYM# 淋巴细胞计数 2.02 0.77 5.47 10^9/L 9 LYM%淋巴细胞浓度 32.80 10.50 61.70% 10 MONO# 单核细胞计数 0.33 0.05 0.64 10^9/L 11 MONO% 单核细胞浓度 5.27 0.70 8.30% 12 EO 嗜酸性粒细胞浓度 2.50 0.10 9.00% 13 BASO 嗜碱性粒细胞浓度 0.40 0.000.90% 14 PCT 血小板压积 0.25 0.13 0.42% 15 MPV 血小板平均体积 10.96 9.00 13.50fL 16 HGB 血红蛋白 131.48 92.00 164.00g/L 17 PLT 血小板计数 231.93 111.00 425.00 10^9/L 18 P_LCR血小板大细胞比率 32.50 16.00 52.70% 19 PDW 血小板分布宽度 13.27 9.10 20.10% 20 EO# 嗜酸性粒细胞计数 0.15 0.01 0.62 10^9/L 21 BASO# 嗜碱性粒细胞计数 0.02 0.00 0.06 10^9/L 22 RDW-SD红细胞体积分布宽度-SD 12.77 11.60 17.00%0肝功能检测 23 TBA 总胆汁酸 4.46 0.10 15.50μmol/L 24 TBIL 总胆红素 10.25 3.60 24.90μmol/L 25 TP 总蛋白 66.98 55.60 78.90g/L 26 GLO 球蛋白 26.59 19.00 36.00g/L 27 A/G 白蛋白/球蛋白比 1.54 0.982.18 28 ALB 白蛋白 40.39 30.90 47.90g/L 29 ALT 丙氨酸氨基转移酶 16.77 3.30 52.90μ/L 30 AST 天冬氨酸氨基转移酶 20.03 5.30 45.00μ/L 31 AST/ALT 天冬氨酸氨基转移酶/丙氨酸氨基转移酶 1.38 0.52 3.2432 DBIL 直接胆红素 3.20 0.10 7.00μmol/L0肾功能检测 33 CREA 肌酐 61.02 22.30 113.90μmol/L 34 BUN 尿素氮 4.96 2.50 9.30mmol/L 35 UA 尿酸 297.26 162.40 500.00μmol/L0血浆凝血酶原时间 36 PT_sec 凝血酶原时间 11.94 10.00 14.40秒时间检测 37 PT% 凝血酶原时间活性 114.34 76.00 166.00% 38 PT_Ratio 凝血酶原时间比值 0.95 0.82 1.14 39 INR 国际标准化比值 0.950.78 1.170个人信息 40 性别性别 0.56 0 1 41 年龄年龄 41 1 700图2显示了DEFEA值随年龄增长的变化。0分别。请注意，�（�，�）与�（�，�）呈负相关，并且当�（�，�）接近1时，�（�。换句话说，两个数值分布的重叠意味着在医疗属性上男性和女性之间没有差异。03. 聚类分析0医疗属性，如CREA，ALT，在特定年龄范围内男性和女性之间的DEFEA值明显不同。其他医疗属性的值在每个年龄段的差异不明显。我们能否找到在每个年龄段具有更高DEFEA值的医疗属性，这些属性在区分男性和女性中起重要作用？为了回答这个问题，接下来0在上述分析之后，可以发现只有少数0为了便于表述，我们定义0�（�）0∑�∈��（�，�）0�。（3）0如果�（�，�）高于�（�），则将医疗属性�视为在年龄�处区分男性和女性的重要属性（IA）。我们引入一个矩阵�，其元素由以下给出0�（�，�0{1，如果�（�，�）>�（�）0其中�∈�，�∈�。年龄子范围��中IA的内聚性定义为0�（�）0�1,�2∈��（�1，�2），（5）0其中�（�1，�2）由以下计算0�（�1，�2）=∑0�∈�0|||�（�1，�）−�（�2，�）|||。（6）0从公式（5）和（6）可以看出，内聚性越小，年龄子范围��中IA的相似性越大。4𝐕 (𝑖, 𝑟) =𝑡∈𝑖 𝐃 (𝑡, 𝑟),(7)𝛱 (𝑖) =𝑟∈𝑖, 𝑟.(8)⎧⎪⎨⎪⎩{1, 2, ⋯ , 70} , ∅, ∅, ⋯ , ∅⏟⏞⏞⏞⏟⏞⏞⏞⏟𝑛−1⎫⎪⎬⎪⎭;0Array 14（2022）1001400S. He等0图1. 不同年龄下（a）CREA，（b）HGB，（c）PT%的数值分布。0图2. DEFEA值。0通过使用内聚性概念，我们使用分层聚类（DHC）将年龄范围划分为一些年龄子范围，其目标是最小化年龄子范围内内聚性的总和，使得年龄子范围内的年龄之间的IA尽可能相同。详细的DHC总结为算法1。为了说明运行算法1的过程，图3给出了年龄子范围为10的示例。可以看到当�=10时，每个0年龄子范围在16岁之前包含少量年龄，在16岁之后包含更多年龄。这意味着在1岁到16岁之间，常见的IAs频繁变化，并在16岁后趋于稳定。此外，通过DHC获得的同一年龄子范围内不同年龄的IAs也可能不同。在年龄子范围��中，我们将所有年龄的DEFEA �的平均值视为DEFEA �的值，表示为0其中 � ∈ � , | | � � | | 表示年龄子范围 � � 中的年龄数量。同样，对于年龄子范围 � �，我们定义DEFEAs值的平均值为0如果 � ( �, � ) 高于 � ( � ) ，则将医疗属性 � 视为在年龄子范围 � �中区分男女的常见重要属性（CIAs）。0输入: � (年龄子范围的数量 ( � ≤ 70) ); 输出: 单元数组 �� , � 个 �� 代表 �个年龄子范围; 1: 使用等式 (4) 计算 � ;02: 初始化单元数组 �� =03: 当 �� { � } = � 时5S. He et al.𝑘 ←max 𝐿𝐶;11:𝑎 ← min 𝐶𝑙𝑢𝑠𝑡𝑒𝑟 {𝑘};𝑡𝑒𝑟 𝑖← 𝐶𝑙𝑢𝑠𝑡𝑒𝑟 {𝑖};𝐶𝑙𝑢𝑠𝑡𝑒𝑟 𝑘} ← {𝑎, 𝑎 + 1, ⋯ , 𝑢};1} ← {𝑢 + 1, 𝑢 + 2, ⋯ , 𝑏};0数组14（2022）1001400图3. 凝聚度和IAs数量随划分数量的变化。04: 初始化数组 �� , �� 的大小为 � , �� 的元素为06: 如果 �� { � } ≠ � 则07: �� ( � ) ← �� { � } 的凝聚度 ;08: 结束如果09: 结束循环013: 初始化数组 �� , �� 的大小为 ( � − � ) , �� 的元素0为0;014: 对于 � = 1 ∶ � − � 进行015: �� ( � ) ← { �, � + 1 , � , � + � − 1} 的凝聚度之和0和016: { � + �, � , � } ;17: 结束循环019: 对于 � = � − 1 ∶ −1 ∶ � + 1 进行021: 结束循环024: 结束循环 25:返回 ��0通过算法1，年龄范围�被划分为许多年龄0子范围，但不必要进行过度划分。为了确定最佳的年龄子范围数量，在本文中使用了两种方法。一种是观察随着年龄子范围数量的增加，所有年龄子范围的凝聚度之和的变化趋势。另一种是观察随着年龄子范围数量的增加，所有年龄子范围中不同CIAs的数量的变化趋势。图4说明了随着年龄子范围数量的增加，上述两种趋势。可以观察到，随着年龄子范围数量的增加，总凝聚度减少并趋于饱和。而所有年龄子范围中不同CIAs的数量随着年龄子范围数量的增加而增加，并且也趋于饱和。为了使划分结果尽可能准确，我们需要进行权衡。一方面，需要避免不必要的划分。另一方面，需要确保同一年龄子范围内的年龄具有相似的CIAs。结合这两个因素，接下来，我们将年龄范围�划分为4个年龄子范围是更好的0图4. 随着年龄子范围数量的增加，凝聚力和CIAs的变化。0选择，即， � 1 = {1 , 2 , … , 7} , � 2 = {8 , 9 , … , 16} , � 3 = {17 , 18 , …, 51} , � 4 = {52 , 53 , … , 70} .表2列出了年龄子范围�中的CIAs和DEFEA比率的计算结果0�（�, �）=�（�, �）∑�∈��（�, �）�100%。(9)0在表2中，共有27个不同的医学属性。0CIAs的数量在年龄子范围内变化很大。具体来说，在年龄子范围1中有18个CIAs，这是最多的。年龄子范围3中的CIAs数量为7，这是最少的。此外，年龄子范围2和4中的CIAs数量分别为13和11。这意味着年龄子范围1中CIAs的DEFEA值和非CIAs的DEFEA值并没有太大的不同，相反，年龄子范围3中CIAs的DEFEA值要高得多，这与图2一致。对于大多数医学属性，DEFEA的值在任何年龄都保持在0.4以下，我们可以认为年龄子范围�中CIAs的数量越小，年龄子范围�中CIAs的DEFEA值越高。0请注意，算法中CIAs之间的相关性没有考虑0算法1，因此，首先使用Pearson相关方法来减少一些相关的医学属性，以便构建GRMs。一般来说，如果Pearson相关系数corr（x，y）的绝对值大于�=0.80，则变量�和�具有很强的相关性。表3列出了所有具有大于�的Pearson相关系数绝对值的医学属性。当corr（x，y）>�时，我们丢弃DEFEA值较低的医学属性。为了更直观地显示，表2显示了属性是否被保留，其中“��”表示丢弃医学属性，否则将使用医学属性构建GRMs。04. 性别识别0为了进一步评估CIAs的有效性，在本节中，根据0根据年龄是否已知，我们构建两个GRMs来区分样本的性别。特别是，我们研究了在已知年龄的情况下的有效GRM。而对于年龄未知的情况，称为案例II，我们设计了另一个GRM。为了解释起见，我们将年龄子范围��中保留的CIAs表示为集合��。0案例I：当年龄已知时，很容易知道相同的0示例属于四个年龄子范围中的哪一个。这意味着我们可以使用每个年龄子范围的CIAs来构建相应的GRM。让年龄属于年龄子范围�的样本构成一个样本子集�，�∈�={1 , 2 , 3 ,4}。不难发现，性别识别问题属于二分类问题。因此，对于年龄子范围�，可以使用二分类学习算法，如逻辑回归（LR）[23]，随机森林（RF）[24]，01 提出的性别识别可以用于其他情况，即其他年龄子范围的数量。61 = {1, 2, … , 7}MCV (4.00%), MCH (3.14%), ALT (3.04%), MONO (3.01%), A_G (2.95%), RDW-SD (2.95%),⁓⁓⁓⁓⁓RDW-CV (2.95%), EO (2.95%), TP (2.93%), AST/ALT (2.89%), HGB (2.87%), RBC (2.83%),⁓⁓⁓PDW (2.82%), LYM (2.81%), MPV (2.80%), LYM# (2.74%), CREA (2.68%), BUN (2.62%)12340数组14（2022）1001400S. He等人0表2 CIAs及其DEFEA比率。0年龄子范围CIAs和DEFEA比率0�2={8，9，…，16}RBC（5.44%），HGB（5.14%），��HCT（4.53%），UA（4.35%），CREA（3.94%），MCV（3.34%），INR（3.01%），BUN（2.85%），ALT（2.76%），PT%（2.68%），AST（2.62%），��PT_Ratio（2.58%），MONO（2.56%）0�3={17，18，…，51}HGB（9.79%），CREA（9.77%），��HCT（9.60%），RBC（8.26%），UA（5.51%），AST/ALT（4.52%），ALT（4.40%）0�4={52，53，…，70}CREA（8.76%），HGB（6.02%），��HCT（5.40%），RBC（4.34%），UA（4.11%），MONO#（3.50%），MONO（3.00%），MCH（2.86%），DBIL（2.75%），LYM（2.74%），MCHC（2.58%）0表3 删除的医学属性的相关系数。0ID年龄子范围��corr（�，�）01 � PDW MPV 0.83 2 � RDW-CV RDW-SD 1.00 3 � PT_Ratio INR 0.96 4 � � � HCT HGB 0.820图5. GRM A的性别识别过程。0图6. GRM B。0可以用来构建识别模型��。识别模型��是通过将集合��中的元素作为特征和基本属性作为样本标签来训练样本子集�中的样本而构建的。因此，所有的识别模型��构成了GRM A。当使用GRMA进行性别识别时，如果要识别的样本的年龄在年龄子范围�内，则通过相应的识别模型��识别样本如图5所示。情况II：当年龄未知时，我们不知道要识别的样本的年龄属于哪个年龄子范围，这意味着设计GRMA的思想不能直接使用。为了有效地利用每个年龄子范围的CIAs，接下来，我们为每个年龄子范围设计了三分类学习。然后，使用集成学习方法构建GRMB来识别要识别的样本的性别。具体来说，年龄子范围��的识别模型��具有识别样本性别并通过输出三个概率��（�），��（�）和��（�）来判断样本年龄范围的能力。�别的样本年龄属于年龄子范围�且性别为男性的概率。��（�）是要识别的样本年龄属年龄子范围�且性别为女性的概率。��（�）是要识别的样本年龄不属于年龄子范围�的率。与识别模型��的训练过程不同，0识别模型��是使用所有年龄的样本进行训练的。特别地，为了训练识别��，集合∪�∈��被视为特征。同时，样本子集�中的男性样本和女性样本被标记为‘‘m’’和‘‘f’’，集合∪�≠��中的样本被标记为‘‘o’’。然后，每个年龄子范围的三个概率共同用于识别样本的性别，即计算男性和女性的综合概率，即0�（�）=∑0�∈�0��（�）��（�0�（�）=∑0�∈�0��（�）��（�）。0如果�（�）>�（�），样本的性别为男性，否则为女性。为了清楚描述情况II的GRMB，GRMB的详细结构如图6所示。请注意，即使已知要识别的样本的年龄，我们也可以使用GRM B来识别样本的性别，而忽略年龄信息。这意味着与GRM A相比，GRMB具有更广泛的应用范围。05. 实验0在本节中，我们评估了GRMs的性能，并进一步讨论了CIAs的作用以及年龄范围划分的重要性。对于每个实验，我们使用了五种学习算法，即LR，线性判别分析（LDA）[25]，朴素贝叶斯（NB）[26]，RF和梯度提升决策树（GBDT）[27]。此外，为了比较，我们还评估了几种简单的GRM，即GRM 0，GRM 1和GRM2。特别是，GRM0通过两类分类方法直接识别样本的性别，即不考虑年龄因素。GRM0使用∪�∈��作为训练特征，对所有年龄的样本进行训练。GRM 1和GRM2分别将∪�∈��和∪�≠��中的CIAs作为特征来训练GRM��。我们将识别模型��的识别结果作为年龄子范围�的GRM A（GRM 1和GRM2）的结果。年龄子范围�中GRM B和GRM0的识别结果是通过年龄属于年龄子范围�的样本计算的。0表4显示了GRM A和GRMB的识别准确性。可以看出，当我们使用经典的学习算法，如LR、LDA和NB时，在年龄子范围� 1和� 2中，GRM A和GRMB之间存在可比较的性能差异。具体来说，GRM A相对于GRMB获得了约6%的准确率提升。然而，在年龄子范围� 3和� 4中，GRM A和GRMB之间存在微小差异。当采用具有较强学习能力的学习算法，如RF和GBDT时，GRM B的识别准确性可以达到GRM A在年龄子范围� 1中的水平，在年龄子范围� 3和�4中，GRM B优于GRM A。实验结果表明，年龄信息的缺失对年龄子范围� 1和�2中的性别识别影响更为严重。此外，无论是GRM A还是GRMB，五种算法的准确率在年龄子范围� 1中都是最低的，在年龄子范围�3中是最高的。这是因为年龄子范围� �中CIA的数量越小，年龄子范围��中DEFEA的值越大。我们还发现，年龄子范围� �中CIA的数量越小，Array 14 (2022) 1001407S. He et al.LRLDANBRFGBDTGRM A1 = {1, 2, … , 7}0.6069 ± 0.02030.6254 ± 0.02060.6152 ± 0.03000.6134 ± 0.02300.6192 ± 0.01362 = {8, 9, … , 16}0.6999 ± 0.03560.7308 ± 0.03370.6807 ± 0.02870.7276 ± 0.01920.7295 ± 0.02733 = {17, 18, … , 51}0.9222 ± 0.00600.9276 ± 0.00490.9116 ± 0.00720.9234 ± 0.00590.9287 ± 0.00584 = {52, 53, … , 70}0.8419 ± 0.01170.8391 ± 0.01240.8235 ± 0.01080.8475 ± 0.00870.8460 ± 0.0077GRM B1 = {1, 2, … , 7}0.5460 ± 0.02170.5351 ± 0.01590.5607 ± 0.02040.6094 ± 0.02220.5919 ± 0.01992 = {8, 9, … , 16}0.6475 ± 0.02090.6216 ± 0.02620.6324 ± 0.02750.6797 ± 0.01480.6541 ± 0.02593 = {17, 18, … , 51}0.9116 ± 0.00340.9236 ± 0.00340.9055 ± 0.00520.9371 ± 0.00680.9381 ± 0.00594 = {52, 53, … , 70}0.8361 ± 0.00610.8400 ± 0.00550.8104 ± 0.00710.8624 ± 0.00600.8614 ± 0.0059LRLDANBRFGBDT1 = {1, 2, … , 7}GRM00.5365 ± 0.02050.5237 ± 0.01740.5543 ± 0.02340.5992 ± 0.02370.5871 ± 0.0190(–)(–)(–)(–)(–)GRM B0.5460 ± 0.02170.5351 ± 0.01590.5607 ± 0.02040.6094 ± 0.02220.5919 ± 0.0199(1.77%)(2.18%)(1.15%)(1.70%)(0.82%)GRM10.6069 ± 0.02480.6217 ± 0.02240.6120 ± 0.03120.6051 ± 0.01500.6203 ± 0.0177(13.12%)(18.71%)(10.41%)(0.98%)(5.65%)2 = {8, 9, … , 16}GRM00.6502 ± 0.02400.6390 ± 0.02150.6279 ± 0.02960.6789 ± 0.01980.6296 ± 0.0232(–)(–)(–)(–)(–)GRM B0.6475 ± 0.02090.6216 ± 0.02620.6324 ± 0.02750.6797 ± 0.01480.6541 ± 0.0259(−0.42%)(−2.72%)(0.72%)(0.12%)(3.89%)GRM10.6992 ± 0.04330.7321 ± 0.02020.6807 ± 0.02950.7270 ± 0.01540.7315 ± 0.0258(7.54%)(14.57%)(8.41%)(7.08%)(16.18%)3 = {17, 18, … , 51}GRM00.9033 ± 0.00390.9138 ± 0.00300.9017 ± 0.00670.9288 ± 0.01400.9285 ± 0.0077(–)(–)(–)(–)(–)GRM B0.9116 ± 0.00340.9236 ± 0.00340.9055 ± 0.00520.9371 ± 0.00680.9381 ± 0.0059(0.92%)(1.07%)(0.42%)(0.89%)(1.03%)GRM10.9390 ± 0.00780.9428 ± 0.00450.9155 ± 0.00570.9377 ± 0.00440.9413 ± 0.0060(3.95%)(3.17%)(1.53%)(0.96%)(1.38%)4 = {52, 53, … , 70}GRM00.8211 ± 0.00590.8244 ± 0.00440.8028 ± 0.00550.8627 ± 0.00680.8561 ± 0.0070(–)(–)(–)(–)(–)GRM B0.8361 ± 0.00610.8400 ± 0.00550.8104 ± 0.00710.8624 ± 0.00600.8614 ± 0.0059(1.83%)(1.89%)(0.95%)(−0.03%)(0.62%)GRM10.8678 ± 0.01510.8656 ± 0.01260.8367 ± 0.01750.8677 ± 0.00860.8674 ± 0.0105(5.69%)(5.00%)(4.22%)(0.58%)(1.32%)0表4 GRM A和GRM B的识别性能。0模型年龄子范围算法 (准确率的平均值 ± 标准偏差)0表5 GRM 0、GRM B和GRM 1的比较。0年龄子范围模型算法 (准确率的平均值 ± 标准偏差 (增益 (%)))0DEFEA值越大，GRMs在年龄子范围 � �中的识别准确率就越高。这表明DEFEA值较大的医学属性确实有助于性别识别。0表5列出了GRM 0、GRM B和GRM 1之间的比较0为了进一步评估GRMB的有效性并分析年龄范围划分的作用。请注意，在大多数年龄子范围中，GRMB与五种学习算法相比，获得了高达1%的增益。然而，在年龄子范围 � 2 中，GRMB并没有显示出压倒性的优势。但值得一提的是，如果使用学习算法NB、RF或GBDT，GRM B的识别准确率仍然高于年龄子范围 � 2 中的GRM0。这意味着，即使对于受到年龄信息缺乏影响最大的年龄子范围 � 2，GRMB也是有效的。同时，这也表明，即使我们不知道样本的年龄并划分年龄范围，我们仍然可以提高性别识别的准确性。让我们看看另一组对照实验的结果，可以看到在所有年龄子范围中，GRM 1在五种学习算法的识别准确率方面优于GRM0。特别是在年龄子范围 � 1 和 � 2 中，平均增益为10.3%，而在年龄子范围 � 3 和 �4中，平均增益为2.8%。这意味着，如果我们知道样本的年龄，年龄范围划分将更多地提高性别识别的准确性，这比未知样本年龄的情况要高得多。此外，年龄范围的划分对于年龄子范围 � 1 和 � 2中的性别识别更有帮助。这是因为不同年龄子范围的性别差异是不同的，学习它们的差异性0性别差异信息分开有助于提高识别准确率。如果年龄范围没有划分，GRM更倾向于学习在性别差异明显的年龄子范围 � 3 和 � 4 中的医学属性的性别差异信息。0以反映CIAs的作用。我们可以看到，在年龄子范围 � 1 和 � 2 中，GRM1在识别准确率方面与GRM A相比没有显著改善。这意味着对于年龄子范围 � 1 和 �2，CIAs的选择是合适的，我们没有漏掉任何用于区分男性和女性的有用医学属性。对于年龄子范围 � 3 和 �4，更多医学属性的参与导致了识别准确率的小幅提高。特别是在年龄子范围 � 3和 � 4 中，GRM1在识别准确率方面获得了约2%

下载后可阅读完整内容，剩余1页未读，立即下载