df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'], 'data1': range(6)}) pd.get_dummies(df['key']) pd.get_dummies(df['key'], prefix='key') df_with_dummies = df[['data1']].join(dummies) df_with_dummies 错误显示NameError: name 'dummies' is not defined
时间: 2023-09-04 13:08:54 浏览: 309
抱歉,我的回答中有误。这是因为dummies这个变量在之前的代码中没有被定义。下面是修改后的代码:
```
import pandas as pd
# 创建数据框
df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'], 'data1': range(6)})
# 对key列进行one-hot编码
dummies = pd.get_dummies(df['key'], prefix='key')
# 将编码结果与原始数据框进行连接
df_with_dummies = df[['data1']].join(dummies)
# 输出结果
print(df_with_dummies)
```
这段代码将创建一个数据框(df),包含两列'key'和'data1'。然后,我们对'key'列进行one-hot编码,将结果存储在一个名为'dummies'的变量中。最后,我们将'data1'列与'dummies'进行连接(join),将结果存储在一个名为'df_with_dummies'的变量中,并打印输出。
相关问题
df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'], 'data1': range(6)}) df pd.get_dummies(df['key']) pd.get_dummies(df['key'], prefix='key')
这是一个示例,用于展示 pd.get_dummies() 函数的用法。首先我们创建了一个 DataFrame,其中包含了一个叫做 key 的分类变量和一个叫做 data1 的数值变量。接下来,我们使用 pd.get_dummies() 函数将 key 变量转换成虚拟变量。如果不指定 prefix 参数,该函数会自动将新生成的特征列命名为原始变量值。因此,pd.get_dummies(df['key']) 会生成三列新的特征:a、b、c。如果某一行的 key 值是 a,则 a 列为 1,其余两列为 0。
如果指定了 prefix 参数,函数会在新生成的列名前面加上该前缀。因此,pd.get_dummies(df['key'], prefix='key') 会生成三列新的特征:key_a、key_b、key_c。如果某一行的 key 值是 a,则 key_a 列为 1,其余两列为 0。
运行这段代码报错“ AttributeError: 'UIntSparseIntVect' object has no attribute 'ToBitString'”,该如何解决? smiles = data['SMILES'] fps = [] for smi in smiles: mol = Chem.MolFromSmiles(smi) fp = AllChem.GetMorganFingerprint(mol, 2) fps.append(fp.ToBitString()) fps_array = np.array(fps.GetNonzeroElements().values(), dtype=np.float32) fps_df = pd.DataFrame(fps_array, columns=[f'Fingerprint_{i+1}' for i in range(fps_array.shape[1])])
这个错误是由于您尝试在`UIntSparseIntVect`对象上使用了不存在的`ToBitString`属性。`ToBitString`方法只能用于二进制的位向量,而不是使用`GetMorganFingerprint`函数生成的默认稀疏向量。
为了解决这个问题,您可以直接将稀疏向量的非零元素转换为浮点数,并将其存储在一个数组中。然后,您可以将数组转换为DataFrame并进行后续处理。
以下是更新后的代码示例:
```python
import numpy as np
smiles = data['SMILES']
fps = []
for smi in smiles:
mol = Chem.MolFromSmiles(smi)
fp = AllChem.GetMorganFingerprint(mol, 2)
fps.append(fp.GetNonzeroElements())
fps_array = np.zeros((len(fps), max(max(fp.keys()) for fp in fps) + 1), dtype=np.float32)
for i, fp in enumerate(fps):
for key, value in fp.items():
fps_array[i][key] = value
fps_df = pd.DataFrame(fps_array, columns=[f'Fingerprint_{i+1}' for i in range(fps_array.shape[1])])
```
在这里,我使用了`GetNonzeroElements`方法获取稀疏向量的非零元素,并将其存储在一个列表中。然后,我创建了一个全零数组`fps_array`,并将每个非零元素的值放入相应的位置。最后,我将数组转换为DataFrame,并为每一列命名。
请注意,这里假设您已经导入了必要的库(如`numpy`)并正确安装了RDKit。
阅读全文