肝硬化患者生存数据集:特征预处理及生存分析

版权申诉
5星 · 超过95%的资源 2 下载量 11 浏览量 更新于2024-10-25 2 收藏 12KB RAR 举报
资源摘要信息:"肝硬化患者生存预测数据集" 数据集背景介绍: 肝硬化是一种严重的肝脏疾病,它指的是肝脏由于长期的损伤导致广泛的疤痕形成。这种情况通常是由慢性饮酒、肝炎病毒等引起的。梅奥诊所自1974年至1984年间进行了一项原发性胆汁性肝硬化(PBC)的研究,提供了本数据集。PBC是一种特殊类型的肝硬化,它涉及到胆汁流经肝脏的管道系统受损,导致胆汁在肝脏中积累,进而损害肝脏细胞。 数据预处理说明: 数据集在使用之前经过了特定的预处理步骤,以确保数据的质量和可用性: 1. 删除了“药物”列中含有缺失值(NA)的记录,以确保这一关键变量的完整性。 2. 将剩余数据中的缺失值用平均值替代,以减少缺失值对统计分析的影响。 3. 对所有类别型属性进行了独热编码(One-Hot Encoding),这通常用于将分类变量转换为机器学习模型能够识别和处理的格式。 问题描述: 数据集包含了1974年至1984年间,424名PBC患者的记录,其中312名患者参加了梅奥诊所的一项药物D-青霉素的随机安慰剂对照试验,另外112名患者虽未参加试验,但同意进行基本指标记录及生存跟踪。研究中还包含了这些患者登记日期至1986年7月的生存时间数据,即从登记日期到死亡、肝移植或研究分析截止时间的天数。数据集最终除了312名随机试验患者外,还包括了106名未参与试验的患者数据。 字段介绍: - ID:患者唯一标识符。 - N_Days:患者从登记至死亡、肝移植或研究截止日期之间的天数。 - Status:患者状态,包括C(审查)、CL(因肝脏移植而审查)或D(死亡)。 - Drug:患者被分配的药物类型,为D-青霉素或安慰剂。 - Age:患者的年龄,以天为单位。 - Sex:患者性别,包括男性(M)或女性(F)。 - Ascites:是否患有腹水,N为否,Y为是。 - Hepatomegaly:是否存在肝肿大,N为否,Y为是。 - Spiders:蜘蛛痣的存在,N为没有,Y为有。 - Edema:水肿情况,N表示无水肿且未接受利尿剂治疗,S表示无利尿剂的水肿或通过利尿剂解决的水肿,Y表示尽管接受利尿剂治疗仍有水肿。 - Bilirubin:血清胆红素含量,单位为毫克/分升。 - Cholesterol:血清胆固醇含量,单位为毫克/分升。 - Albumin:白蛋白含量,单位为克/分升。 - Copper:尿铜排泄量,单位为微克/天。 - Alk_Phos:碱性磷酸酶活性,单位为单位/升。 - SGOT:血清谷草转氨酶活性,单位为单位/毫升。 - Triglycerides:甘油三酯含量,单位为毫克/分升。 - Platelets:血小板含量,单位为毫克/分升。 - Prothrombin:凝血酶原时间,单位为秒。 引用格式: 当使用本数据集进行研究或分析时,应当遵循相应的引用格式。数据集引用格式如下: @misc{Cirrhosis3291, title = {肝硬化患者生存预测}, author = {z}, howpublished = {\url{***}}, year = {2023}, } 这说明了数据集的标题、作者、获取途径以及发布年份,便于学术引用和数据来源追溯。 文件名称列表说明: - cirrhosis.csv:该文件包含了肝硬化患者生存预测数据集的详细数据信息,是一个CSV格式的数据表,可以用于数据分析和机器学习模型训练。 - 肝硬化患者生存预测_readme.md:这是一个Markdown格式的文档,通常包含了数据集的详细说明、字段描述、预处理步骤、问题描述和可能的使用建议等,便于用户理解和使用数据集。 上述内容汇总了数据集的核心信息和背景,对数据预处理、字段内容以及引用格式进行了详细介绍,为进行肝硬化患者生存预测的研究提供了重要的参考资料。