使用pyspark mllib,拆分lpsa.data以data为后缀的数据集
时间: 2023-11-22 07:55:37 浏览: 64
可以使用以下代码来加载数据并拆分以"data"为后缀的文件:
```python
from pyspark import SparkContext
from pyspark.mllib.regression import LabeledPoint
sc = SparkContext("local", "data_split")
# 加载数据
data = sc.textFile("lpsa.data")
# 拆分以"data"为后缀的数据集
train_data = data.filter(lambda x: "data" not in x)
test_data = data.filter(lambda x: "data" in x)
# 转换为LabeledPoint格式
train_labeled_data = train_data.map(lambda x: x.split(",")).map(lambda x: LabeledPoint(x[-1], x[:-1]))
test_labeled_data = test_data.map(lambda x: x.split(",")).map(lambda x: LabeledPoint(x[-1], x[:-1]))
# 打印结果
print("Train Data:")
print(train_labeled_data.collect())
print("Test Data:")
print(test_labeled_data.collect())
```
这段代码会将数据集中以"data"为后缀的数据拆分到"test_data"中,其余数据拆分到"train_data"中。然后,使用LabeledPoint格式转换数据,最后打印结果。
阅读全文