这段代码报错为'Shape of passed values is (2244, 2048), indices imply (2244, 1)',是哪出了问题呢,如何解决:data = pd.read_csv(r"E:\exercise\Resin\B-MF_data.csv") #验证随机森林填补缺失值方法是否有效 # 假设data是一个包含多个特征的数据集,其中SMILES是需要转换为分子指纹的特征 smiles = data['SMILES'] fps = [] for smi in smiles: mol = Chem.MolFromSmiles(smi) fp = AllChem.GetMorganFingerprintAsBitVect(mol, 2) fps.append(fp.ToBitString()) fps_array = np.array([list(fp) for fp in fps], dtype=int) fps_df = pd.DataFrame(fps_array, columns=['Fingerprint']) # 将分子指纹的DataFrame与原始数据集进行合并 data_with_fingerprint = pd.concat([data, fps_df], axis=1) # 检查分子指纹列的数据类型 print(data_with_fingerprint['Fingerprint'].dtype)
时间: 2024-04-11 22:27:05 浏览: 173
KNN分类器汇报详细介绍附代码
这段代码报错的原因是在合并分子指纹的DataFrame时,维度不匹配。具体来说,你创建了一个名为 `fps_array` 的二维数组作为分子指纹的DataFrame,但是在合并时却将其视为一维数组。
解决这个问题的方法是修改以下行:
```python
fps_df = pd.DataFrame(fps_array, columns=['Fingerprint'])
```
为:
```python
fps_df = pd.DataFrame(fps_array, columns=[f'Fingerprint_{i+1}' for i in range(fps_array.shape[1])])
```
这样会根据 `fps_array` 的列数自动生成适当数量的列名。然后再运行代码,就不会报错了。
阅读全文