Scrapy爬虫与MySQL结合：解析新片网数据，处理评论图标的存储

137 浏览量更新于2024-08-29 收藏 242KB PDF 举报

"这篇教程主要介绍了如何使用Scrapy爬虫框架来抓取新片网的数据，并结合MySQL存储这些数据，同时解决评论图标识别的问题。在处理数据的过程中，需要注意字段匹配、列表转字符串以及图片编码等问题。" 在Scrapy爬虫项目中，数据的处理和存储是关键步骤。以下是对描述和标签中涉及的知识点的详细说明： 1. **Scrapy框架**：Scrapy是一个Python编写的开源网络爬虫框架，用于高效地抓取网页并提取结构化数据。它提供了一个强大的中间件系统，可以自定义处理请求、响应和爬取的数据。 2. **数据库字段匹配**：在将数据存储到MySQL时，确保Scrapy项目的`items`定义的字段与数据库表结构对应非常重要。字段名应一致，这样在使用`yield item`传递数据时，才能正确地插入数据库。 3. **JSON转换**：在数据库中存储Python列表时，通常需要将列表转换为字符串。可以使用`json.dumps()`函数将Python对象序列化为JSON字符串。例如，`post_dic["author_info_list"] = json.dumps(post_datail_data["author_info_list"])`。 4. **Base64编码**：对于无法直接存储在数据库中的非文本数据，如图片或图标，可以使用Base64编码将其转换为可存储的字符串。在例子中，`comments_dic['content'] = base64.b64encode(comments['content'].encode("utf-8"))`，这将评论内容（假设为二进制数据）编码为Base64字符串，以便存储。 5. **HTTP请求与响应**：Scrapy通过`Request`对象发起HTTP请求，`response`对象则包含服务器返回的信息。在爬虫过程中，通常会分析`response`来提取所需数据。 6. **SQL操作**：在将Scrapy爬取的数据存入MySQL时，可能需要进行SQL插入操作。确保数据类型和格式与数据库表结构匹配，避免出现错误。 7. **Craigslist (cra)** 和 **POST请求**: Craigslist可能是指使用Scrapy爬取Craigslist网站的例子，而POST请求通常用于提交表单数据或发送复杂请求，比如登录或评论。 8. **用户代理(User-Agent)**：在爬取网页时，可能需要设置不同的User-Agent，以模拟不同的浏览器访问，防止被网站识别为机器人。 9. **信息抽取(info)**：在Scrapy中，信息抽取涉及解析HTML或XML文档，提取需要的数据。这通常通过XPath或CSS选择器完成。 10. **正则表达式(Regex/Regexp)**：在处理网页数据时，正则表达式可用于查找和提取特定模式的文本。 11. **数据清洗**：在存储数据前，可能需要对原始数据进行清洗，如去除HTML标签、处理缺失值或异常值等。这段代码的上下文似乎是从一个Scrapy爬虫开始，但未提供完整代码。完整的爬虫项目可能包括解析HTML，提取数据，构造数据库插入语句，以及处理评论图标等内容。为了完成整个爬虫，你需要考虑更多细节，如登录机制（如果需要的话）、错误处理、分页、反爬虫策略等。

scrapy 爬取新片网配合爬取新片网配合mysql存数据，以及评论图标识别！存数据，以及评论图标识别！

注意：

（1）items中的字段表一定要跟数据库保持一致而且也要跟获取数据yield 的数据名字也要相符，否则接收不到

（2）数据库中存入的值是列表格式的，需要json.dump转成字符串例如：

post_dic[“author_info_list”]=json.dumps(post_datail_data[“author_info_list”])

（3）获取的评论信息有图标，数据库是不认识的尽管这样设置依然不识别，需要自己想办法解密，而加密既要能存进去，还要能取出来，所以采用base64方法

例如：

comments_dic[‘content’] = base64.b64encode(comments[‘content’].encode(“utf-8”))#评论的内容

话不多说，上代码：

一、爬取数据页面：xinpianchang.py

import json

import random

import re

import scrapy

from patsy.splines import bs

from scrapy import Request

from xinpianchang.items import postlistItem, userItem , commentlistItem

import base64

page=1

def get_phpsessid():

‘’’

生成PHPSESSID算法

:return:

‘’’

smallkey = [chr(i) for i in range(97, 123)] # 用ascii生成一个小写26位字母列表

smallkey.extend([str(i) for i in range(10)])

# 把两个列表连接第二个表内容为数字得到的字母数字随机

# 随机选出来的再转成字符串，设定26位再返回

return ‘’.join(random.choices(smallkey, k=26))

class IndexSpider(scrapy.Spider):

name = ‘index’

allowed_domains = [‘xinpianchang.com’, ‘openapi-vtom.vmovier.com’] start_urls = [‘https://www.xinpianchang.com/channel/index/sort-like?from=tabArticle’]

custom_settings = {

“ITEM_PIPELENTS”:{

‘xinpianchang.pipelines.XinpianchangPipeline’: 300,

}

def parse(self, response):

‘’’

获取解析商品列表页面数据

:param response:

:return:

‘’’

if response.text.find(‘系统繁忙’) != -1:

# print(“系统繁忙”)

print(’@’ * 50, ‘系统繁忙’, ‘@’ * 50)

else:

global page

page += 1

cookies = {“Authorization”: “1F848EC2BECC44529BECC445AEBECC4B7FBBECC4C1209D9EA0C4”}

post_list = response.xpath(’//ul[@class=“video-list”]//li[@class=“enter-filmplay”]’)

print(“页码====”,page,“获取到总条数==”,len(post_list))

# print(“post_list”,post_list)

for post in post_list:

post_img = post.xpath(

‘./a[@class=“video-cover”]//img[@class=“lazy-img”]/@_src’).get() or “default” # 缩略图片

# print(“post_img====”,post_img)

post_articleid = post.xpath(“./@data-articleid”).get() # 获取href链接变量值

# print(“post_articleid====”, post_articleid)

post_url = “https://www.xinpianchang.com/a%s?from=ArticleList”%(post_articleid) # 访问的详情页面链接地址

# print(“descurl=======”,descurl)

yield Request(post_url, self.parse_Postdesc,meta={“post_img”:post_img,“post_articleid”:post_articleid}) # 详情页面发起请求

# # 爬取下一页

# if page > 90:

# cookies[‘PHPSESSID’] = get_phpsessid()

# # page = 0

# next_pages = response.xpath(’//div[@class=“page”]/a/@href’).extract()

# for pages in next_pages:

# yield response.follow(pages, cookies=cookies)

nextTag=response.xpath("//div[@class='channel-container']/div[@class='channel-con']/div[@class='page-wrap']/div[@class='page']/a[last()]")

print("nextTag===",nextTag)

if nextTag:

page += 1

print("=====下一页路径", page)

_url=nextTag.xpath("./@href").get()

if page 21 and page<70:

yield response.follow(_url, self.parse, cookies=cookies)

else:

cookies['PHPSESSID'] = get_phpsessid()

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38623707

粉丝: 5

Scrapy爬虫与MySQL结合：解析新片网数据，处理评论图标的存储

爬虫实战之Scrapy框架爬取新片场网站信息.zip

新片场爬虫

使用scrapy爬取伯乐在线文章并保存到mysql

scrapy爬取网站数据

scrapy爬取淘宝商品信息并分析数据

研招网scrapy爬取

scrapy爬取数据的过程

scrapy爬取新闻网二级页面

scrapy爬取微博评论简书

scrapy爬取百度页面

最新资源