导入pyspark.conf,pyspark.sparkcontext,pyspark.mllib,实现SVM对于新闻的分类。数据集为多个按照类别分类的文件夹，每个文件夹下为新闻的中文正文内容，采用tf-idf对数据集进行清洗和处理，得到RDD。路径为/project/art/a.txt,/project/pe/b.txt

以下是实现SVM对于新闻的分类的代码： ```python from pyspark import SparkConf, SparkContext from pyspark.mllib.feature import HashingTF, IDF from pyspark.mllib.regression import LabeledPoint from pyspark.mllib.classification import SVMWithSGD # 创建SparkConf和SparkContext conf = SparkConf().setAppName("SVM News Classification") sc = SparkContext(conf=conf) # 读取数据并进行清洗和处理 pos_data = sc.textFile("/project/art/a.txt").map(lambda x: x.split(" ")) neg_data = sc.textFile("/project/pe/b.txt").map(lambda x: x.split(" ")) all_data = pos_data.union(neg_data) # 使用哈希技巧将每个单词映射成一个固定的数字来表示 hashing_tf = HashingTF() tf = hashing_tf.transform(all_data) # 使用IDF算法计算tf-idf权值 idf = IDF().fit(tf) tfidf = idf.transform(tf) # 将数据转换为LabeledPoint格式 pos_labels = [1 for _ in range(pos_data.count())] neg_labels = [0 for _ in range(neg_data.count())] labels = pos_labels + neg_labels data = tfidf.zip(sc.parallelize(labels)).map(lambda x: LabeledPoint(x[1], x[0])) # 将数据集分为训练集和测试集 training_data, test_data = data.randomSplit([0.8, 0.2]) # 训练SVM模型 model = SVMWithSGD.train(training_data, iterations=100) # 对测试集进行预测 predictions = model.predict(test_data.map(lambda x: x.features)) # 计算准确率 labels_and_predictions = test_data.map(lambda x: x.label).zip(predictions) accuracy = labels_and_predictions.filter(lambda x: x[0] == x[1]).count() / float(test_data.count()) print("Accuracy:", accuracy) # 关闭SparkContext sc.stop() ``` 上述代码中的数据集读取路径为`/project/art/a.txt`和`/project/pe/b.txt`，可以根据实际情况进行修改。此外，需要注意的是，由于本代码是在Spark集群环境下运行的，因此需要先将代码上传到集群中才能运行。

阅读全文

导入pyspark.conf,pyspark.sparkcontext,pyspark.mllib,实现SVM对于新闻的分类。数据集为多个按照类别分类的文件夹，每个文件夹下为新闻的中文正文内容，采用tf-idf对数据集进行清洗和处理，得到RDD。路径为/project/art/a.txt,/project/pe/b.txt

相关推荐

wm8960驱动文件及asound.conf配置

OpenLDAP的slapd.conf文件

redis.conf-6.0

导入pyspark.conf,pyspark.sparkcontext,pyspark.mllib,实现SVM对于新闻的分类。数据集为多个按照类别分类的文件夹，每个文件夹下为新闻的中文正文内容，采用tf-idf对数据集进行清洗和处理，得到RDD。

1.环境为pyspark，使用mllib,sparkcontext导入包

--conf spark.pyspark.python

from pyspark.conf import SparkConf from pyspark.sql.session import SparkSession from pyspark import SparkContext from pyspark.sql.types import Row if __name__ == "__main__": sc = SparkContext("local","Simple App") peopleRDD = sc.textFile("file:///usr/loca

使用支持向量机（SVM）对sklearn.datasets import load_digits的数据集进行分类

/etc/resolv.conf配置多个DNS

在docker里导入redis.conf文件

pyspark dataframe rdd.glom() demo

resolv.conf莫名其妙多个ip

python pyspark java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver

wpa_supplicant.conf为啥在文件夹中显示为文本文档

wpa_supplicant.conf如何让其在文件夹中正确显示为conf文件而不是txt文件

Linux系统中xorg.conf文件详细介绍

Spark及pyspark的操作应用.pdf

linux时间同步ntp.conf配置文件

nginx.conf下载

最新推荐

解决Cent0S 6.7直接在/etc/resolv.conf文件下修改DNS地址重启不生效问题

详谈redis优化配置和redis.conf说明(推荐)

Nginx配置文件（nginx.conf）配置详解（总结）

比较完整的Nginx配置文件nginx.conf常用参数中文详解

pyspark给dataframe增加新的一列的实现示例

IEEE 14总线系统Simulink模型开发指南与案例研究

管理建模和仿真的文件

【数据安全黄金法则】：R语言中party包的数据处理与隐私保护

Takagi-Sugeno模糊控制方法的原理是什么？如何设计一个基于此方法的零阶或一阶模糊控制系统？

STLinkV2.J16.S4固件更新与应用指南

from pyspark.conf import SparkConf from pyspark.sql.session import SparkSession from pyspark import SparkContext from pyspark.sql.types import Row if name == "main": sc = SparkContext("local","Simple App") peopleRDD = sc.textFile("file:///usr/loca