在pyspark上实现从hdfs上读入停用词表文档。即将代码stopwords = ['的', '了', '是', '在', '我', '有', '和', '就', '不', '人', '都', '一', '一个', '上', '也', '而', \ '等', '到', '与', '自己', '可以', '没有', '这'] data = sc.wholeTextFiles('hdfs://spark01:9000/project/data//') \ .map(lambda x: (x[0], ''.join(x[1].split()))) \ .map(lambda x: (x[0].split('/')[-2], x[1])) \ .map(lambda x: (x[0], [w for w in jieba.cut(x[1]) if w not in stopwords]))进行改写

时间: 2023-08-06 19:01:44 浏览: 89

停用词表stopwords

5星 · 资源好评率100%

可以使用以下代码实现： ```python import jieba from pyspark import SparkContext, SparkConf # 初始化 Spark conf = SparkConf().setAppName("Read Stopwords from HDFS").setMaster("local[*]") sc = SparkContext(conf=conf) # 从 HDFS 读取停用词表文档 stopwords_rdd = sc.textFile("hdfs://spark01:9000/project/stopwords.txt") stopwords = stopwords_rdd.collect() # 读取数据并进行分词和去除停用词 data = sc.wholeTextFiles("hdfs://spark01:9000/project/data/*/*") \ .map(lambda x: (x[0], ''.join(x[1].split()))) \ .map(lambda x: (x[0].split('/')[-2], x[1])) \ .map(lambda x: (x[0], [w for w in jieba.cut(x[1]) if w not in stopwords])) # 输出结果 print(data.collect()) # 关闭 Spark sc.stop() ``` 其中，我们首先使用 `sc.textFile()` 函数从 HDFS 上读取停用词表文档，然后使用 `collect()` 函数将数据收集到 driver 端，并保存到 `stopwords` 变量中。接着，我们使用 `sc.wholeTextFiles()` 函数从 HDFS 上读取数据，然后使用 `map()` 函数进行分词和去除停用词的处理，最后将处理后的结果保存到 `data` 变量中。最后，我们使用 `collect()` 函数输出 `data` 变量中的结果，并使用 `sc.stop()` 函数关闭 Spark。

阅读全文

相关推荐

停用词表，中英文的stopwords.txt

停用词表stop word

基于hadoop实现，利用ssh框架实现hdfs网盘+源代码+文档说明

PySpark的HDFS和MySQL读写

基于Java的Hadoop核心功能实现 包括HDFS及MapReduce等+源代码+文档说明

HDFS的读取数据过程详解 + Java代码实现

HDFS的写入数据过程详解 + Java代码实现

这是一个基于Hadoop的视频转码系统，首先视频在本地进行分割成64M左右大小，然后从本地文件夹中上传到HDFS中+源代码+文档

将hdfs上的文件导入hbase的源代码

大数据HDFS文档

Hadoop-HDFS-Shell-学习资料及文档、Java代码

本云盘系统是基于hadoop hdfs的集群分布式系统+源代码+文档说明

hdfs java代码实现文件基础操作

HDFS的Java API的访问方式实例代码

HDFS官方设计文档

HDFS详细安装文档

自定义RDD-从HDFS读取数据代码.zip

最新推荐

python读取hdfs上的parquet文件方式

第二章 分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

【java毕业设计】智慧社区在线教育平台（源代码+论文+PPT模板）.zip

基于深度强化学习的德州扑克AI算法优化详细文档+全部资料+源码.zip

JavaScript实现的高效pomodoro时钟教程

管理建模和仿真的文件

【WebLogic客户端兼容性提升秘籍】：一站式解决方案与实战案例

使用jupyter读取文件“近5年考试人数.csv”，绘制近5年高考及考研人数发展趋势图，数据如下（单位：万人）。

CMake 3.25.3版本发布：程序员必备构建工具

基于Java的Hadoop核心功能实现包括HDFS及MapReduce等+源代码+文档说明

第二章分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx