spark中KMeans 文本聚类对DataFrame中的文本计算tf-idf向量

在Spark中，可以使用`HashingTF`和`IDF`类来计算DataFrame中文本的tf-idf向量。然后，可以使用`KMeans`类对文本进行聚类。以下是一个简单的例子： ```python from pyspark.ml.clustering import KMeans from pyspark.ml.feature import HashingTF, IDF, Tokenizer from pyspark.ml.linalg import Vectors from pyspark.sql.functions import udf from pyspark.sql.types import ArrayType, StringType # 创建一个DataFrame df = spark.createDataFrame([(0, "hello world"), (1, "world is good"), (2, "goodbye world")], ["id", "sentence"]) # 分词 tokenizer = Tokenizer(inputCol="sentence", outputCol="words") words_df = tokenizer.transform(df) # 计算tf向量 hashing_tf = HashingTF(inputCol="words", outputCol="raw_features", numFeatures=20) tf_df = hashing_tf.transform(words_df) # 计算idf向量 idf = IDF(inputCol="raw_features", outputCol="tf_idf_features") idf_model = idf.fit(tf_df) tf_idf_df = idf_model.transform(tf_df) # 提取tf-idf向量 tf_idf_df = tf_idf_df.select("id", "tf_idf_features") to_vector = udf(lambda v: Vectors.dense(v.toArray()), returnType=VectorUDT()) tf_idf_df = tf_idf_df.withColumn("tf_idf_vector", to_vector("tf_idf_features")) # 训练KMeans模型 kmeans = KMeans(k=2, seed=1) model = kmeans.fit(tf_idf_df) # 添加预测结果到DataFrame predictions_df = model.transform(tf_idf_df) # 展开tf-idf向量 for i in range(20): col_name = "tf_idf_" + str(i) tf_idf_df = tf_idf_df.withColumn(col_name, tf_idf_df.tf_idf_features.getItem(i)) # 删除原始的tf-idf向量列 tf_idf_df = tf_idf_df.drop("tf_idf_features") # 合并预测结果和tf-idf向量 result_df = predictions_df.join(tf_idf_df, on="id") ``` 这样，`result_df`就是包含原始文本、对应tf-idf向量和聚类结果的DataFrame了。

阅读全文

spark中KMeans 文本聚类 对DataFrame中的文本计算tf-idf向量

大家在看

B-6 用户手册.doc

线性代数导论第5版课后答案

深究标准IO的缓存

运动插件一套.zip

polsarpro官方教程、操作说明 PolSARpro v5.0 Software Training Course

最新推荐

Python——K-means聚类分析及其结果可视化

python中实现k-means聚类算法详解

实验 Spark ML Bisecting k-means聚类算法使用

详解Java实现的k-means聚类算法

zip4j.jar包下载,版本为 2.11.5

WildFly 8.x中Apache Camel结合REST和Swagger的演示

管理建模和仿真的文件

【声子晶体模拟全能指南】：20年经验技术大佬带你从入门到精通

2024-07-27怎么用python转换成农历日期

FDFS客户端Python库1.2.6版本发布

spark中KMeans 文本聚类对DataFrame中的文本计算tf-idf向量