numpy.core._exceptions._ArrayMemoryError: Unable to allocate 37.9 TiB for an array with shape (1011173, 5150761) and data type float64
时间: 2024-03-27 11:36:08 浏览: 131
这个错误提示表示你的计算机无法分配足够的内存来创建一个形状为 `(1011173, 5150761)`,数据类型为 `float64` 的数组。这个数组大约需要 37.9 TiB 的内存,这已经超出了绝大部分计算机的内存容量。
如果你的数据集确实非常大,可能需要考虑使用分布式计算框架(如 Apache Spark)或者使用基于 GPU 的计算。另外,还可以考虑使用稀疏矩阵来存储用户-物品评分矩阵,这样可以大大减少内存占用。
例如,可以使用 `scipy.sparse` 库中的 `coo_matrix` 类来创建稀疏矩阵:
```python
import numpy as np
from scipy.sparse import coo_matrix
# Load data from CSV file.
data = np.loadtxt('my.csv', delimiter=',')
user_ids = data[:, 0].astype(int) - 1
item_ids = data[:, 1].astype(int) - 1
ratings = data[:, 2]
# Create sparse user-item rating matrix.
R = coo_matrix((ratings, (user_ids, item_ids)))
# Train model using ALS algorithm.
K = 10
max_iter = 10
lambda_ = 0.1
U, V = als(R, K, max_iter, lambda_)
# Predict ratings for test set.
R_pred = U.dot(V.T)[R.nonzero()]
# Compute RMSE.
mse = np.mean((R_pred - ratings[R.nonzero()]) ** 2)
rmse = np.sqrt(mse)
print('RMSE:', rmse)
```
上面的代码使用 `coo_matrix` 类创建稀疏矩阵 `R`,然后将其作为参数传递给 `als` 函数进行训练。在计算 RMSE 时,我们只需要使用非零元素的位置来选择预测评分和实际评分,这样可以大大减少内存占用。
阅读全文