用python爬虫获取豆瓣评论

时间: 2023-11-18 19:02:27 浏览: 97

基于Python编写爬虫从豆瓣批量获取看过电影的用户列表并应用Python kNN算法预测用户性别含设计文档、数据源、源代码.rar

5星 · 资源好评率100%

从豆瓣批量获取看过电影的用户列表，并应用kNN算法预测用户性别首先从豆瓣电影的“看过这部电影的豆瓣成员”页面上来获取较为活跃的豆瓣电影用户。获取数据链接分析这是看过"模仿游戏"的豆瓣成员的网页链接：http://movie.douban.com/subject/10463953/collections。一页上显示了20名看过这部电影的豆瓣用户。当点击下一页时，当前连接变为：http://movie.douban.com/subject/10463953/collections?start=20。由此可知，当请求下一页内容时，实际上就是将"start"后的索引增加20。因此，我们可以设定base_url='http://movie.douban.com/subject/10463953/collections?start=',i=range(0,200,20),在循环中url=base_url+str(i)。之所以要把i的最大值设为180，是因为后来经过测试，豆瓣只给出看过一部电影的最近200个用户。读取网页在访问时我设置了一个HTTP代理，并且为了防止访问频率过快而被豆瓣封ip，每读取一个网页后都会调用time.sleep(5)等待5秒。在程序运行的时候干别的事情好了。网页解析本次使用BeautifulSoup库解析html。每一个用户信息在html中是这样的： <table width="100%" class=""> <tr> <td width="80" valign="top"> <a href="http://movie.douban.com/people/46770381/"> <img class="" src="http://img4.douban.com/icon/u46770381-16.jpg" alt="七月" /> </a> </td> <td valign="top"> <div class="pl2"> <a href="http://movie.douban.com/people/46770381/" class="">七月 <span style="font-size:12px;">(银川)</span> </a> </div> <p class="pl">2015-08-23  <span class="allstar40" title="推荐"></span> </p> </td> </tr> </table> 首先用读取到的html初始化soup=BeautifulSoup(html)。本次需要的信息仅仅是用户id和用户的电影主页，因此真正有用的信息在这段代码中： <td width="80" valign="top"> <a href="http://movie.douban.com/people/46770381/"> <img class="" src="http://img4.douban.com/icon/u46770381-16.jpg" alt="七月" /> </a> </td> 因此在Python代码中通过td_tags=soup.findAll('td',width='80',valign='top')找到所有<td width="80" valign="top">的块。 td=td_tags[0],a=td.a就可以得到 <a href="http://movie.douban.com/people/46770381/"> <img class="" src="http://img4.douban.com/icon/u46770381-16.jpg" alt="七月" /> </a> 通过link=a.get('href')可以得到href属性，也就用户的电影主页链接。然后通过字符串查找也就可以得到用户ID了。

您可以使用Python的requests库和BeautifulSoup库来爬取豆瓣评论。以下是一个简单的示例代码： ```python import requests from bs4 import BeautifulSoup def crawl_comments(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') comments = soup.find_all('span', class_='short') for comment in comments: print(comment.text) url = 'https://movie.douban.com/subject/27619748/comments?status=P' crawl_comments(url) ``` 这段代码使用requests库发送GET请求，然后使用BeautifulSoup解析HTML页面。通过查看豆瓣电影评论页面的HTML结构，可以找到评论内容所在的标签和类名（这里使用的是`<span class="short">`），然后通过`find_all`方法找到所有评论的标签，并逐个打印出来。请注意，为了模拟浏览器行为，我们在headers中设置了User-Agent。另外，豆瓣的网页结构可能会有变化，所以在实际使用时可能需要根据实际情况进行调整。

阅读全文

用python爬虫获取豆瓣评论

相关推荐

python关于豆瓣评论的爬虫

python爬取豆瓣评分

Python爬虫获取豆瓣Top250电影列表

使用python爬虫获取豆瓣top10

python爬虫获取豆瓣电影

python爬虫获取豆瓣top250

python爬虫抓取豆瓣评论

python爬虫爬取豆瓣评论

python爬虫获取豆瓣250电影信息并保存到sqlite数据库

基于python爬虫获取豆瓣电影TOP和电影实时票房项目

Python爬虫获取豆瓣网评分Top200的电影——亲测可用

python爬虫爬取豆瓣电影评论

通过Python爬虫获取豆瓣电视剧评分数据教程

Python爬虫与豆瓣评论数据分析可视化教程

python爬虫爬取豆瓣评论页

基于python的豆瓣爬虫

python-crawler-douban:豆瓣综合爬虫，使用 Python-3.7 + Scrapy-1.5 构建，含豆瓣电影、豆瓣读书、豆瓣音乐三类Top250内容爬取及短评爬取

豆瓣爬虫python

最新推荐

python 爬取豆瓣电影评论，并进行词云展示

java全大撒大撒大苏打

(175820822)基于java的工资管理系统设计与实现

Java毕业设计项目：校园二手交易网站开发指南

管理建模和仿真的文件

【MVC标准化：肌电信号处理的终极指南】：提升数据质量的10大关键步骤与工具

能否提供一个在R语言中执行Framingham数据集判别分析的详细和完整的代码示例？

Blaseball Plus插件开发与构建教程

"互动学习：行动中的多样性与论文攻读经历"

【天线性能提升密籍】：深入探究均匀线阵方向图设计原则及案例分析