Python爬虫实战：详解微博评论抓取及代码

199 浏览量更新于2024-08-29 24 收藏 379KB PDF 举报

本文档是一篇关于如何使用Python编写一个爬虫脚本来抓取微博评论的教程，作者详细介绍了整个过程，并提供了完整的代码。文章首先强调了在处理敏感话题时，如粉丝与黑子的争议，通过编程获取公开数据的需求。以下是主要内容的详细解读： 1. **库导入**：开始时，作者引入了多个Python库，包括`time`, `base64`, `rsa`, `binascii`, `requests`, `re`, `PIL`, `random`, `urllib.parse`, `http.cookiejar`, `csv`, 和 `os`。这些库分别用于处理时间操作、编码解码、rsa加密、图像处理、随机数生成、URL编码解码、cookies管理和文件操作，这些都是爬虫必备的基础模块。 2. **全局变量设置**：然后定义了一些全局变量，如`comment_path`用于存储抓取到的评论数据，以及`agent`头信息，模拟浏览器用户代理，使请求看起来像来自真实的浏览器访问。`headers`字典包含了用于伪装请求的User-Agent，这里是Mozilla的Chrome浏览器版本。 3. **数据存储目录**：为了组织数据，作者创建了一个名为`comment_path`的路径，如果这个路径不存在，就使用`os.mkdir()`函数创建一个新的目录来存放抓取的评论。 4. **WeiboLogin 类**：文档的核心部分是`WeiboLogin`类，用于模拟登录微博。这个类有三个关键方法： - `__init__`: 初始化方法，设置了类属性如用户账号（user）、密码（password）、会话对象（session）以及cookie的管理器（LWPCookieJar）。 - 使用`session.get(self.index_url)`访问登录页面，这一步通常用于获取初始的cookies。 - 未在这部分内容中展示，但后续可能包括登录逻辑，如POST请求到登录接口，处理验证码等。 5. **登录过程**：在登录类中，会根据用户的输入进行登录操作。登录成功后，cookies将被保存到指定的`cookie_path`文件中，以便后续使用。如果需要频繁登录或切换账号，可以创建不同的实例，每个实例对应一个独立的cookies文件。 6. **爬取评论**：登录成功后，爬虫将使用这些cookies发送请求到微博的评论页面，通过分析网页结构和使用回调函数（`callback`），可能会涉及反爬虫策略的处理，比如JavaScript渲染或动态加载的评论。这部分代码没有直接给出，但一般会包含解析HTML内容，提取评论内容和链接，以及可能的深度遍历分页链接来获取更多评论。这篇教程指导读者如何使用Python编写一个基础的微博评论抓取爬虫，包括登录、cookie管理以及可能遇到的挑战。实际操作时，可能需要根据微博的API变化和网站结构调整代码。在爬取数据时，请确保遵守相关法律法规和网站的服务条款，尊重版权和隐私。

python爬虫手把手教你抓取微博评论（完整代码）爬虫手把手教你抓取微博评论（完整代码）

前几天周子瑜捐款的事情引发粉丝和黑子大战，突然想了解其中的对话前几天周子瑜捐款的事情引发粉丝和黑子大战，突然想了解其中的对话

不想看的朋友可以直接跳到最后拿代码不想看的朋友可以直接跳到最后拿代码

开始工作开始工作

第一步引入库第一步引入库

import time

import base64

import rsa

import binascii

import requests

import re

from PIL import Image

import random

from urllib.parse import quote_plus

import http.cookiejar as cookielib

import csv

import os

第二步：一些全局变量的设置第二步：一些全局变量的设置

comment_path = 'comment'

agent = 'mozilla/5.0 (windowS NT 10.0; win64; x64) appLewEbkit/537.36 (KHTML, likE gecko) chrome/71.0.3578.98 safari/537.36'

headers = {'User-Agent': agent}

第三步：创立目录作为存放数据的第三步：创立目录作为存放数据的

if not os.path.exists(comment_path):

os.mkdir(comment_path)

第四步：登陆类的创立第四步：登陆类的创立

class WeiboLogin(object):

"""

通过登录 weibo.com 然后跳转到 m.weibo.cn

"""

# 初始化数据

def __init__(self, user, password, cookie_path):

super(WeiboLogin, self).__init__()

self.user = user

self.password = password

self.session = requests.Session()

self.cookie_path = cookie_path

# LWPCookieJar是python中管理cookie的工具，可以将cookie保存到文件，或者在文件中读取cookie数据到程序

self.session.cookies = cookielib.LWPCookieJar(filename=self.cookie_path)

self.index_url = "http://weibo.com/login.php"

self.session.get(self.index_url, headers=headers, timeout=2)

self.postdata = dict()

def get_su(self):

"""

对 email 地址和手机号码先 javascript 中 encodeURIComponent

对应 Python 3 中的是 urllib.parse.quote_plus

然后在 base64 加密后decode

"""

username_quote = quote_plus(self.user)

username_base64 = base64.b64encode(username_quote.encode("utf-8"))

return username_base64.decode("utf-8")

# 预登陆获得 servertime, nonce, pubkey, rsakv

def get_server_data(self, su):

"""与原来的相比，微博的登录从 v1.4.18 升级到了 v1.4.19

这里使用了 URL 拼接的方式，也可以用 Params 参数传递的方式

"""

pre_url = "http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su="

pre_url = pre_url + su + "&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.19)&_="

pre_url = pre_url + str(int(time.time() * 1000))

pre_data_res = self.session.get(pre_url, headers=headers)

# print("*"*50)

# print(pre_data_res.text)

# print("*" * 50)

sever_data = eval(pre_data_res.content.decode("utf-8").replace("sinaSSOController.preloginCallBack", ''))

return sever_data

def get_password(self, servertime, nonce, pubkey):

"""对密码进行 RSA 的加密"""

rsaPublickey = int(pubkey, 16)

key = rsa.PublicKey(rsaPublickey, 65537) # 创建公钥

message = str(servertime) + ' ' + str(nonce) + '' + str(self.password) # 拼接明文js加密文件中得到

message = message.encode("utf-8")

passwd = rsa.encrypt(message, key) # 加密

passwd = binascii.b2a_hex(passwd) # 将加密信息转换为16进制。

return passwd

def get_cha(self, pcid):

"""获取验证码，并且用PIL打开，

1. 如果本机安装了图片查看软件，也可以用 os.subprocess 的打开验证码

2. 可以改写此函数接入打码平台。

"""

cha_url = "https://login.sina.com.cn/cgi/pin.php?r="

cha_url = cha_url + str(int(random.random() * 100000000)) + "&s=0&p="

cha_url = cha_url + pcid

cha_page = self.session.get(cha_url, headers=headers)

with open("cha.jpg", 'wb') as f:

f.write(cha_page.content)

f.close()

try:

im = Image.open("cha.jpg")

im.show()

im.close()

except Exception as e:

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38608055

粉丝: 7

Python爬虫实战：详解微博评论抓取及代码

Python爬取微博评论代码

python知乎评论爬虫源代码

Python对爬取微博的评论进行jieba分词和词频统计

手把手教你写Python爬虫

手把手教你写python爬虫

Python爬虫实战：手把手教你抓取澎湃新闻网新闻

Python爬虫入门到精通：手把手教你成为数据探险家

手把手教你使用Python网络爬虫实现邮件定时发送（附源码）.docx

python3爬虫全套教程

手把手教你如何使用Python执行js代码.docx

最新资源