全国统计建模大赛2024第十届TCGA-CRC数据集发布

版权申诉
0 下载量 116 浏览量 更新于2024-09-28 收藏 132.22MB ZIP 举报
资源摘要信息: "2024年第十届全国大学生统计建模大赛数据存放_TCGA-CRC.zip" 知识点说明: 1. 统计建模大赛:统计建模是一种使用统计方法对数据进行分析的技术,旨在揭示数据中的模式、关系和趋势。全国大学生统计建模大赛是一种学术竞赛,旨在激发大学生对统计学的兴趣,提高他们运用统计学知识解决实际问题的能力。这类竞赛通常要求参赛者对给定的问题或者数据集使用统计模型进行分析,并撰写报告或者进行展示。 2. TCGA-CRC数据集:TCGA代表The Cancer Genome Atlas,它是美国国家卫生研究院(NIH)资助的一项大型癌症基因组计划,旨在建立一个全面的癌症基因组绘图集。CRC代表结直肠癌(Colorectal Cancer),它是癌症研究的一个重点领域。TCGA-CRC数据集包含了结直肠癌患者的基因组、转录组、蛋白质组、代谢组等多组学数据,这些数据为癌症研究提供了宝贵的资源。 3. 数据存放:数据存放是指在数据管理过程中对数据进行保存、分类和整理的过程。在一个统计建模大赛中,数据存放是参赛者准备工作的核心部分之一,它要求参赛者对获取的数据进行有效管理,确保数据的安全和可访问性,以及方便后续的数据分析工作。 4. 压缩文件:压缩文件是一种通过特定算法对文件或文件集合进行压缩,以减小文件大小、提高存储效率或方便网络传输的技术。在本例中,"TCGA-CRC.zip"是TCGA-CRC数据集的压缩版本,它可以通过压缩工具如WinRAR、7-Zip等软件进行解压缩,以便参赛者提取数据。 由于没有更多的文件名称列表,我们无法确切了解压缩包内的具体文件结构和内容。但是,通常这类数据集可能包括各种类型的文件,如CSV、Excel表格、图像文件等,涵盖了原始数据、预处理数据、元数据描述、实验方法文档等。 结语: 通过对"2024年第十届全国大学生统计建模大赛数据存放_TCGA-CRC.zip"文件信息的分析,我们可知本资源涉及到统计建模大赛、TCGA-CRC数据集、数据存放以及压缩文件的概念和应用。参赛者需要对TCGA-CRC数据集进行深入研究,并运用统计建模方法进行分析,以期在大赛中取得优异成绩。同时,合理有效的数据管理和利用压缩工具来处理数据集,对于提高数据处理效率和保证数据完整性的过程中也起到了关键作用。

解释这段代码for (i in cancer_types){ admat<-read.csv(str_c(dir,"\tcga_data\",i,"\admat.csv"),check.names=F) positive_rna<-read.csv(str_c(dir,"\tcga_data\",i,"\positive_normalized_rna.csv"),row.names = 1, check.names = F) negative_rna<-read.csv(str_c(dir,"\tcga_data\",i,"\negative_normalized_rna.csv"),row.names = 1, check.names = F) positive_mi<-read.csv(str_c(dir,"\tcga_data\",i,"\positive_normalized_mi.csv"),row.names = 1, check.names = F) negative_mi<-read.csv(str_c(dir,"\tcga_data\",i,"\negative_normalized_mi.csv"),row.names = 1, check.names = F) normal_rna<-read.csv(str_c(dir,"\tcga_data\",i,"\normal_normalized_rna.csv"),row.names = 1, check.names = F) normal_mi<-read.csv(str_c(dir,"\tcga_data\",i,"\normal_normalized_mi.csv"),row.names = 1, check.names = F) positive_delta<-cal_delta_pcc(admat,normal_rna,normal_mi,positive_rna,positive_mi) negative_delta<-cal_delta_pcc(admat,normal_rna,normal_mi,negative_rna,negative_mi) wilcox<-delta_wilcox_test(positive_delta,negative_delta,wilcox_pval) write.csv(wilcox,str_c(dir,"\tcga_data\",i,"\wilcox.csv"),quote=F,row.names=F) row.names(wilcox)<-str_c(wilcox[,1],"",wilcox[,2]) positive_delta<-na.omit(positive_delta) row.names(positive_delta)<-str_c(positive_delta[,1],"",positive_delta[,2]) negative_delta<-na.omit(negative_delta) row.names(negative_delta)<-str_c(negative_delta[,1],"_",negative_delta[,2]) positive_delta<-positive_delta[row.names(positive_delta)%in%row.names(wilcox),] negative_delta<-negative_delta[row.names(negative_delta)%in%row.names(wilcox),] negative_delta<-negative_delta ml_input<-merge(positive_delta,negative_delta,by="row.names") ml_input<-ml_input write.csv(ml_input,str_c(dir,"\tcga_data\",i,"\ml_input.csv"),quote=F,row.names=F) }

2023-07-12 上传

请解释一下这段代码for (i in cancer_types){ admat<-read.csv(str_c(dir,"\\tcga_data\\",i,"\\admat.csv"),check.names=F) positive_rna<-read.csv(str_c(dir,"\\tcga_data\\",i,"\\positive_normalized_rna.csv"),row.names = 1, check.names = F) negative_rna<-read.csv(str_c(dir,"\\tcga_data\\",i,"\\negative_normalized_rna.csv"),row.names = 1, check.names = F) positive_mi<-read.csv(str_c(dir,"\\tcga_data\\",i,"\\positive_normalized_mi.csv"),row.names = 1, check.names = F) negative_mi<-read.csv(str_c(dir,"\\tcga_data\\",i,"\\negative_normalized_mi.csv"),row.names = 1, check.names = F) normal_rna<-read.csv(str_c(dir,"\\tcga_data\\",i,"\\normal_normalized_rna.csv"),row.names = 1, check.names = F) normal_mi<-read.csv(str_c(dir,"\\tcga_data\\",i,"\\normal_normalized_mi.csv"),row.names = 1, check.names = F) positive_delta<-cal_delta_pcc(admat,normal_rna,normal_mi,positive_rna,positive_mi)#"自定义cal_delta_pcc"函数计算正样本和负样本的delta值,并把数据装入positive_delta中 negative_delta<-cal_delta_pcc(admat,normal_rna,normal_mi,negative_rna,negative_mi) wilcox<-delta_wilcox_test(positive_delta,negative_delta,wilcox_pval)#自定义delta_wilcox_test函数计算结果 write.csv(wilcox,str_c(dir,"\\tcga_data\\",i,"\\wilcox.csv"),quote=F,row.names=F) row.names(wilcox)<-str_c(wilcox[,1],"_",wilcox[,2]) positive_delta<-na.omit(positive_delta) row.names(positive_delta)<-str_c(positive_delta[,1],"_",positive_delta[,2]) negative_delta<-na.omit(negative_delta) row.names(negative_delta)<-str_c(negative_delta[,1],"_",negative_delta[,2]) positive_delta<-positive_delta[row.names(positive_delta)%in%row.names(wilcox),] negative_delta<-negative_delta[row.names(negative_delta)%in%row.names(wilcox),] negative_delta<-negative_delta[,3:ncol(negative_delta)] ml_input<-merge(positive_delta,negative_delta,by="row.names") ml_input<-ml_input[,-1] write.csv(ml_input,str_c(dir,"\\tcga_data\\",i,"\\ml_input.csv"),quote=F,row.names=F) }

2023-07-12 上传