爬取1000条大众评论,并合成词云

时间: 2023-08-29 19:04:57 浏览: 63
请注意,爬取他人网站的评论可能会涉及到侵权问题,建议遵守网站的规定和法律法规。此外,以下代码仅供学习参考,不得用于非法用途。 以下是爬取大众点评的评论并生成词云的示例代码,需要使用到 requests、BeautifulSoup 和 jieba 库: ```python import requests from bs4 import BeautifulSoup import jieba from wordcloud import WordCloud, STOPWORDS import matplotlib.pyplot as plt # 爬取大众点评的评论 url = 'https://www.dianping.com/shop/18114768/review_all' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') comments = soup.find_all('div', {'class': 'review-words'}) # 将评论写入文件 with open('comments.txt', 'w', encoding='utf-8') as f: for comment in comments: f.write(comment.text.strip() + '\n') # 读取评论文件 with open('comments.txt', 'r', encoding='utf-8') as f: text = f.read() # 使用 jieba 分词 words = jieba.cut(text) # 去除停用词 stopwords = set(STOPWORDS) stopwords.add('还是') stopwords.add('就是') stopwords.add('真的') stopwords.add('非常') stopwords.add('已经') stopwords.add('还有') stopwords.add('这么') stopwords.add('这个') stopwords.add('不过') stopwords.add('但是') stopwords.add('所以') stopwords.add('一定') stopwords.add('一点') stopwords.add('感觉') stopwords.add('比较') stopwords.add('有点') stopwords.add('很多') stopwords.add('这种') stopwords.add('这样') stopwords.add('这里') stopwords.add('这个') stopwords.add('不用') stopwords.add('不能') stopwords.add('没有') stopwords.add('不会') stopwords.add('不好') stopwords.add('不行') stopwords.add('不太') stopwords.add('不敢') words = [word for word in words if word not in stopwords] # 合成词云 wordcloud = WordCloud(width=800, height=800, background_color='white').generate(' '.join(words)) plt.figure(figsize=(8, 8), facecolor=None) plt.imshow(wordcloud, interpolation='bilinear') plt.axis("off") plt.tight_layout(pad=0) plt.show() ``` 这个代码会爬取大众点评“自在生活”这家店铺的评论,并将评论写入文件。然后使用 jieba 库对评论进行分词,并去除停用词。最后使用 WordCloud 库生成词云并展示。这个词云可以帮助我们了解该店铺的消费者对其的评价情况。

相关推荐

最新推荐

recommend-type

python 爬取豆瓣电影评论,并进行词云展示

# -*-coding:utf-8-*- import urllib.request from bs4 import BeautifulSoup def getHtml(url): """获取url页面""" headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, ...
recommend-type

python 爬取马蜂窝景点翻页文字评论的实现

主要介绍了python 爬取马蜂窝景点翻页文字评论的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
recommend-type

利用Python爬取微博数据生成词云图片实例代码

主要给大家介绍了关于利用Python爬取微博数据生成词云图片的相关资料,文中通过示例代码介绍非常详细,对大家学习或者使用python具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧。
recommend-type

Python爬取数据并实现可视化代码解析

主要介绍了Python爬取数据并实现可视化代码解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
recommend-type

Python爬取数据并写入MySQL数据库的实例

今天小编就为大家分享一篇Python爬取数据并写入MySQL数据库的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

MATLAB结构体与对象编程:构建面向对象的应用程序,提升代码可维护性和可扩展性

![MATLAB结构体与对象编程:构建面向对象的应用程序,提升代码可维护性和可扩展性](https://picx.zhimg.com/80/v2-8132d9acfebe1c248865e24dc5445720_1440w.webp?source=1def8aca) # 1. MATLAB结构体基础** MATLAB结构体是一种数据结构,用于存储和组织相关数据。它由一系列域组成,每个域都有一个名称和一个值。结构体提供了对数据的灵活访问和管理,使其成为组织和处理复杂数据集的理想选择。 MATLAB中创建结构体非常简单,使用struct函数即可。例如: ```matlab myStruct
recommend-type

详细描述一下STM32F103C8T6怎么与DHT11连接

STM32F103C8T6可以通过单总线协议与DHT11连接。连接步骤如下: 1. 将DHT11的VCC引脚连接到STM32F103C8T6的5V电源引脚; 2. 将DHT11的GND引脚连接到STM32F103C8T6的GND引脚; 3. 将DHT11的DATA引脚连接到STM32F103C8T6的GPIO引脚,可以选择任一GPIO引脚,需要在程序中配置; 4. 在程序中初始化GPIO引脚,将其设为输出模式,并输出高电平,持续至少18ms,以激活DHT11; 5. 将GPIO引脚设为输入模式,等待DHT11响应,DHT11会先输出一个80us的低电平,然后输出一个80us的高电平,
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。