list中有str变量和nan，怎么消除nan

可以使用 Python 中的列表解析和类型判断来删除列表中的 NaN 值。以下是示例代码： ``` import math my_list = [1, 2, float('nan'), 'hello', 4, 5, float('nan'), 'world'] new_list = [x for x in my_list if not (isinstance(x, float) and math.isnan(x))] print(new_list) ``` 输出结果为： ``` [1, 2, 'hello', 4, 5, 'world'] ``` 在上面的示例中，我们使用了列表解析来创建一个新列表，其中只包含不是 NaN 的元素。为了避免删除字符串类型的元素，我们使用了 isinstance 函数来判断一个元素是否为 float 类型并且是否为 NaN。需要注意的是，如果列表中同时包含字符串和 NaN 值，那么删除 NaN 值后，新列表将只包含字符串和数字类型的元素。如果需要保留 NaN 值，请在使用列表解析时添加相应的条件。

def cycle_sig(cycle): all_cell_vot_new = [] for i in cycle: i = str(i) if i == 'nan': continue else: i = i[2:] cell_str = i.split('_') cell_list = [] for t in cell_str: t = float(t)/1000 cell_list.append(t) all_cell_vot_new.append(np.array(cell_list)) all_cycle_sig = np.array(all_cell_vot_new) return all_cycle_sig

这是一个Python函数，其作用是将一个包含多个元素的列表 `cycle` 转换成一个二维的numpy数组。具体来说，该函数对 `cycle` 中的每个元素进行处理，将其转换成一个包含多个浮点数的列表，然后将这些列表组合成一个二维的numpy数组 `all_cycle_sig`。函数的具体实现过程如下： - 初始化一个空列表 `all_cell_vot_new`，用于保存转换后的列表。 - 遍历列表 `cycle` 中的每个元素，将其转换成字符串类型并赋值给变量 `i`。 - 判断 `i` 是否等于 'nan'，如果是则跳过当前循环，否则执行下一步。 - 将字符串 `i` 中的前两个字符删除，并将剩余部分以字符 '_' 为分隔符转换成一个列表 `cell_str`。 - 初始化一个空列表 `cell_list`，用于保存转换后的浮点数。 - 遍历列表 `cell_str` 中的每个元素，将其转换成浮点数并除以 1000，然后添加到列表 `cell_list` 中。 - 将转换后的列表 `cell_list` 添加到列表 `all_cell_vot_new` 中。 - 将列表 `all_cell_vot_new` 转换成一个二维的numpy数组并赋值给变量 `all_cycle_sig`。 - 返回变量 `all_cycle_sig`。

(1)读取“GSE83148_series_matrix.txt”基因芯片文件和平台“GPL570-55999.txt”(跳过注释行)，分别命名为df1和df2 （2）清除df1与df2中的重复数据和缺失数据(df1清除存在NaN的行，df2清除“Gene Symbol”列存在NaN的行) （3）df2新增一列“gene”其值为“Gene Symbol”列的第一个基因名，df1的“ID_REF”列重命名为“ID”列，df2保留“ID”和“gene”列然后与df1合并为df，df中gene名相同的记录表达量取平均值，打印df （4）转置df，并在后面添加一列label，以“N”标识正常样本，以“C”标识肿瘤样本，这些信息可以从“GSE83148_series_matrix.txt”基因芯片文件的“!Sample_title”行提取，打印并保存df （5）将“label”列转换为哑变量(k-1)，并作为df的最后一列，删除label列（6）任选两个基因，分别对其表达量进行离差标准化和标准差标准化（结果不需要保存到df中）（7）尝试任选一个基因，离散化其表达量（不需要保存）（8）统计df的每个基因在肿瘤和正常样本上表达量的平均值，并保存为A （9）提前A中表达量差值的绝对值最大的10个基因名

很抱歉，作为一个语言模型，我没有权限读取或处理本地文件。我能够提供的帮助是，根据您的指示生成代码以供您在本地执行。以下是回答您的问题的Python代码： (1)读取“GSE83148_series_matrix.txt”基因芯片文件和平台“GPL570-55999.txt”(跳过注释行)，分别命名为df1和df2 ```python import pandas as pd df1 = pd.read_csv("GSE83148_series_matrix.txt", sep="\t", skiprows=31) df2 = pd.read_csv("GPL570-55999.txt", sep="\t", skiprows=31) ``` (2)清除df1与df2中的重复数据和缺失数据(df1清除存在NaN的行，df2清除“Gene Symbol”列存在NaN的行) ```python df1.drop_duplicates(inplace=True) df1.dropna(inplace=True) df2.drop_duplicates(inplace=True) df2.dropna(subset=["Gene Symbol"], inplace=True) ``` (3)df2新增一列“gene”其值为“Gene Symbol”列的第一个基因名，df1的“ID_REF”列重命名为“ID”列，df2保留“ID”和“gene”列然后与df1合并为df，df中gene名相同的记录表达量取平均值，打印df ```python df2["gene"] = df2["Gene Symbol"].apply(lambda x: x.split("|")[0]) df1.rename(columns={"ID_REF": "ID"}, inplace=True) df = pd.merge(df1, df2[["ID", "gene"]], on="ID") df = df.groupby(["gene"]).mean().reset_index() print(df) ``` (4)转置df，并在后面添加一列label，以“N”标识正常样本，以“C”标识肿瘤样本，这些信息可以从“GSE83148_series_matrix.txt”基因芯片文件的“!Sample_title”行提取，打印并保存df ```python sample_title = pd.read_csv("GSE83148_series_matrix.txt", sep="\t", nrows=28, header=None) sample_title = sample_title.iloc[27,:].str.split("_") sample_title = sample_title.apply(lambda x: "N" if x[1]=="N" else "C") df = df.T df["label"] = sample_title.values df = df.T print(df) df.to_csv("df.csv", index=False) ``` (5)将“label”列转换为哑变量(k-1)，并作为df的最后一列，删除label列 ```python dummy = pd.get_dummies(df["label"], drop_first=True) df = pd.concat([df, dummy], axis=1) df.drop(columns=["label"], inplace=True) ``` (6)任选两个基因，分别对其表达量进行离差标准化和标准差标准化（结果不需要保存到df中） ```python from sklearn.preprocessing import scale # 离差标准化 gene1 = df.loc["Gene1"] gene1_normalized = (gene1 - gene1.min()) / (gene1.max() - gene1.min()) # 标准差标准化 gene2 = df.loc["Gene2"] gene2_normalized = scale(gene2) ``` (7)尝试任选一个基因，离散化其表达量（不需要保存） ```python # 假设选择"Gene3" gene3 = df.loc["Gene3"] gene3_discretized = pd.cut(gene3, bins=3, labels=["Low", "Medium", "High"]) ``` (8)统计df的每个基因在肿瘤和正常样本上表达量的平均值，并保存为A ```python A = df.groupby(lambda x: "N" if x.endswith("N") else "C").mean().T ``` (9)提前A中表达量差值的绝对值最大的10个基因名 ```python diff = abs(A["C"] - A["N"]) top10 = diff.nlargest(10).index.tolist() ```

阅读全文

list中有str变量和nan，怎么消除nan

相关推荐

用MATLAB编写的去除excel中Nan的代码

删除DataFrame中值全为NaN或者包含有NaN的列或行方法

PHP7最全面离线手册（多语言，包括中文、英文）

Python类中实现多个构造器的方法

Python数据与变量全攻略：深入浅出的处理方法

【NumPy数据清洗】：数据预处理中寻找和替换特定元素的高效策略

Python在远程医疗监控数据分析中的角色

ADS数据挖掘入门：如何从数据中发现隐藏的模式

大型项目测试无忧：Hypothesis库在复杂逻辑中的应用

【数据科学案例】：Anaconda在实际应用中的魔法效应

Python在商品市场分析中的应用：供需分析与价格预测

【PyCharm进阶攻略】：Pandas库在Excel数据处理中的威力

R语言文本分析高级教程：Rwordseq包在实际应用中的深度应用

【Python数据清洗速成课】：数据结构在有效清洗中的应用

Java中字符串到double转换的全方位剖析：原理、应用与优化

【Vaex中的数据类型处理】：处理复杂类型数据的3大技巧

大家在看

JESD47I中文版.docx

sdram 资料 原理。

运算放大器的设计及ADS仿真设计——两级运算放大器仿真设计

《Web服务统一身份认证协议设计与实现》本科毕业论文一万字.doc

[C#]文件中转站程序及源码

最新推荐

Python Numpy:找到list中的np.nan值方法

python中从str中提取元素到list以及将list转换为str的方法

如何在python中判断变量的类型

判断List和Map是否相等并合并List中相同的Map

python中将一个全部为int的list 转化为str的list方法

HTML挑战：30天技术学习之旅

【CodeBlocks精通指南】：一步到位安装wxWidgets库（新手必备）

andorid studio 配置ERROR: Cause: unable to find valid certification path to requested target

VC++实现文件顺序读写操作的技巧与实践

【大数据时代必备：Hadoop框架深度解析】：掌握核心组件，开启数据科学之旅

sdram 资料原理。