df_All = read.delim("4.All_SMT/HSM.mRNA.cpm.txt", header = T, row.names = 1) #对数据进行转置,如果想对基因分组则不用转置 df_All = t(df_All) View(df_All) # 读取样本分组数据文件 dfGroup_All = read.delim("4.All_SMT/Group.information_PCA_3D.txt", header = T, row.names = 1) dfGroup_All # PCA计算 # 一个逻辑值,指示在进行分析之前是否应该将变量缩放到具有单位方差 pca_result_All <- prcomp(df_All, scale=T) pca_result_All$x<-data.frame(pca_result_All$x) pca_result_All length(pca_result_All)
时间: 2024-03-04 20:52:40 浏览: 29
根据代码,length(pca_result_All)的输出应该是12。因为pca_result_All是使用prcomp函数进行主成分分析得到的结果,是一个包含多个元素的列表对象,其中包括:
1. sdev:包含每个主成分的标准差
2. rotation:包含每个原始变量与主成分之间的相关系数
3. center:包含每个原始变量的均值
4. scale:如果进行了缩放,则包含每个原始变量的标准差
5. x:包含每个样本在每个主成分上的得分
6. 其他元素:不需要在length函数中计算
因此,length(pca_result_All)的输出为12,表示pca_result_All包含12个元素。
相关问题
df = pd.read_csv
df = pd.read_csv函数是用于读取CSV文件的函数。它可以接受不同的参数来指定文件的路径、分隔符以及其他读取选项。
在引用中的示例中,df = pd.read_csv('girl.csv', delim_whitespace=True)将会读取名为'girl.csv'的文件,并使用空白字符作为分隔符。
在引用中的示例中,df = pd.read_csv('girl.csv', delim_whitespace=True, dtype={"id": str})与前一个示例相同,但是还指定了"id"列的数据类型为字符串。
在引用中的示例中,展示了三种不同的读取文件的方法。第一个是通过文件路径读取,第二个是通过网页上的文件URL读取,第三个是通过文件对象读取。
优化这段代码df_in_grown_ebv = pd.read_table(open(r"C:\Users\荆晓燕\Desktop\20230515分品种计算育种值\生长性能育种值N72分组 (7).txt"), delim_whitespace=True, encoding="gb18030", header=None) df_in_breed_ebv = pd.read_table(open(r"C:\Users\荆晓燕\Desktop\20230515分品种计算育种值\繁殖性能育种值N72分组 (7).txt"), delim_whitespace=True, encoding="gb18030", header=None) # df_in_grown_Phenotype.columns = ['个体号', '活仔EBV', '21d窝重EBV', '断配EBV'] # df_in_breed_Phenotype.columns = ['个体号', '115EBV', '饲料转化率EBV', '瘦肉率EBV', '眼肌EBV', '背膘EBV'] df_in_breed_ebv.columns = ['个体号', '活仔EBV', '21d窝重EBV', '断配EBV'] df_in_grown_ebv.columns = ['个体号', '115daysEBV', '饲料转化率EBV', '瘦肉率EBV', '眼肌EBV', '背膘EBV'] NBA_mean = np.mean(df_in_breed_ebv['活仔EBV']) NBA_std = np.std(df_in_breed_ebv['活仔EBV']) days_mean = np.mean(df_in_grown_ebv['115daysEBV']) days_std = np.std(df_in_grown_ebv['115daysEBV']) fcr_mean = np.mean(df_in_grown_ebv['饲料转化率EBV']) fcr_std = np.std(df_in_grown_ebv['饲料转化率EBV']) output = pd.merge(df_in_grown_ebv, df_in_breed_ebv, how='inner', left_on='个体号', right_on='个体号') # output['计算长白母系指数'] = 0.3 * (NBA - NBA_mean)/NBA_std - 0.3 * (days - days_mean)/days_std - 0.3 * (fcr-fcr_mean)/fcr_std + 0.1 * (pcl-pcl_mean)/pcl_std output['计算长白母系指数'] = 0.29 * (df_in_breed_ebv['活仔EBV'] - NBA_mean)/NBA_std - 0.58 * (df_in_grown_ebv['115daysEBV']- days_mean)/days_std - 0.13 * (df_in_grown_ebv['饲料转化率EBV']-fcr_mean)/fcr_std MLI_mean = np.mean(output['计算长白母系指数']) MLI_std = np.std(output['计算长白母系指数']) output['校正长白母系指数'] = 25 * ((output['计算长白母系指数'] - MLI_mean)/MLI_std) + 100
可以优化的地方有:
1. 重复的路径可以抽象成一个变量,避免代码重复。
2. 可以使用 with 语句来处理文件读取,避免忘记关闭文件。
3. 可以在读取文件时指定列名,避免后续需要重新指定列名。
4. 可以将计算指数和计算校正指数的代码分成两个函数,提高代码的可读性和可维护性。
优化后的代码如下:
```
import pandas as pd
import numpy as np
# 定义文件路径
breed_file = r"C:\Users\荆晓燕\Desktop\20230515分品种计算育种值\繁殖性能育种值N72分组 (7).txt"
grown_file = r"C:\Users\荆晓燕\Desktop\20230515分品种计算育种值\生长性能育种值N72分组 (7).txt"
def read_file(file_path, columns):
with open(file_path, encoding="gb18030") as f:
df = pd.read_table(f, delim_whitespace=True, header=None)
df.columns = columns
return df
# 读取文件并指定列名
df_in_breed_ebv = read_file(breed_file, ['个体号', '活仔EBV', '21d窝重EBV', '断配EBV'])
df_in_grown_ebv = read_file(grown_file, ['个体号', '115daysEBV', '饲料转化率EBV', '瘦肉率EBV', '眼肌EBV', '背膘EBV'])
def calculate_index(df_in_breed_ebv, df_in_grown_ebv):
# 计算指数
NBA_mean = np.mean(df_in_breed_ebv['活仔EBV'])
NBA_std = np.std(df_in_breed_ebv['活仔EBV'])
days_mean = np.mean(df_in_grown_ebv['115daysEBV'])
days_std = np.std(df_in_grown_ebv['115daysEBV'])
fcr_mean = np.mean(df_in_grown_ebv['饲料转化率EBV'])
fcr_std = np.std(df_in_grown_ebv['饲料转化率EBV'])
df = pd.merge(df_in_grown_ebv, df_in_breed_ebv, how='inner', on='个体号')
df['计算长白母系指数'] = 0.29 * (df['活仔EBV'] - NBA_mean) / NBA_std - 0.58 * (df['115daysEBV'] - days_mean) / days_std - 0.13 * (df['饲料转化率EBV'] - fcr_mean) / fcr_std
return df
def calculate_correction_index(df):
# 计算校正指数
MLI_mean = np.mean(df['计算长白母系指数'])
MLI_std = np.std(df['计算长白母系指数'])
df['校正长白母系指数'] = 25 * ((df['计算长白母系指数'] - MLI_mean) / MLI_std) + 100
return df
# 计算指数和校正指数
df_index = calculate_index(df_in_breed_ebv, df_in_grown_ebv)
df_correction_index = calculate_correction_index(df_index)
```
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)