修改 def get_data(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36' } req = request.Request(url, headers=headers) response = request.urlopen(req) if response.getcode() == 200: return response.read() return None if name == 'main': html = get_data( 'http://m.maoyan.com/mmdb/comments/movie/1200486.json?_v_=yes&offset=0&startTime=2018-07-28%2022%3A25%3A03') print(html) def parse_data(html): data = json.loads(html)['cmts'] # 将str转换为json comments = [] for item in data: comment = { 'id': item['id'], 'nickName': item['nickName'], 'cityName': item['cityName'] if 'cityName' in item else '', # 处理cityName不存在的情况 'content': item['content'].replace('\n', ' ', 10), # 处理评论内容换行的情况 'score': item['score'], 'startTime': item['startTime'] } comments.append(comment) return comments if name == 'main': html = get_data( 'http://m.maoyan.com/mmdb/comments/movie/1200486.json?_v_=yes&offset=0&startTime=2018-07-28%2022%3A25%3A03') comments = parse_data(html) print(comments)

时间: 2024-03-18 07:45:19 浏览: 99

这段代码是用来获取猫眼电影某部电影的评论数据，并将其解析成字典形式。其中，get_data()函数通过传入指定的url，获取对应的评论数据；parse_data()函数用来解析获取到的评论数据，并将其处理成字典形式，以便后续的分析和使用。在主函数中，先调用get_data()函数获取评论数据，再将获取到的数据传给parse_data()函数进行解析，最后将解析后的数据存储在一个列表中，并打印出来。

import os.path import random import time from multiprocessing import Pool import requests from lxml import etree headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36' } def get_img_src(page): ''' 抓取页面的图片的src :return: ''' for i in range(1, page+1): url = f'https://www.pkdoutu.com/photo/list/?page={i}' print(f'抓取{url}页数据') res = requests.get(url, headers=headers) res.encoding = res.apparent_encoding tree = etree.HTML(res.text) # 抓取图片 img_list = tree.xpath('//img[@referrerpolicy="no-referrer"]/@data-original') yield img_list def download_img(url): ''' 下载图片 :return: ''' time.sleep(random.uniform(0, 1)) img_res = requests.get(url, headers=headers) img_name = url.split('_')[-1] # 通过图片url进行拆分，拿到图片名称和后缀 path = 'img' # 判断路径是否存在，不存在则创建 if not os.path.exists(path): os.mkdir(path) # 写入到文件中 with open(os.path.join(path, img_name), 'wb') as f: f.write(img_res.content) if name == 'main': pool = Pool() # 通过生成器get_img_src返回图片列表 for url_list in get_img_src(2): for url in url_list: # 循环加入进程池 pool.apply_async(download_img, args=(url, )) pool.close() pool.join() print('over')

这是一个 Python 程序，主要用于从指定网站上抓取图片并下载到本地。程序使用了 multiprocessing 库中的进程池来实现多进程下载，加快了下载速度。其中，get_img_src 函数用于抓取指定页数的图片链接，download_img 函数用于下载指定链接的图片并保存到本地。主函数中使用了进程池来异步下载所有图片。程序的具体实现步骤如下： 1. 导入所需的库，包括 os.path、random、time、multiprocessing 和 requests。 2. 定义抓取图片链接的函数 get_img_src，通过循环抓取指定页数的页面，并使用 lxml 库解析页面内容，抓取图片链接并返回。 3. 定义下载图片的函数 download_img，通过 requests 库下载指定链接的图片，并将图片保存到本地。 4. 在主函数中使用进程池来异步下载所有图片，具体实现如下： a. 创建进程池 pool。 b. 通过生成器 get_img_src 返回图片链接列表，循环遍历每个链接。 c. 将 download_img 函数加入进程池，并传入图片链接作为参数。 d. 关闭进程池，并等待所有进程完成。 e. 打印下载完成提示信息。该程序适用于需要大量下载图片的场景，可以通过调整进程池的大小和抓取的页数来适应不同的需求。

import requests from urllib import parse #全局请求头 files = {} headers = {} body = {} timeouts = {} resHeader = {} class ShowapiRequest: def init(self, url, my_appId, my_appSecret): self.url = url self.my_appId = my_appId self.my_appSecret = my_appSecret body["1422355"] = my_appId body["24db7e66fd054eab98c921a5c807d97d"] = my_appSecret headers["User-Agent"] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2427.7 Safari/537.36" def addFilePara(self, key, value_url): files[key] = open(r"%s" % (value_url), 'rb') return self def addHeadPara(self, key, value): headers[key] = value return self def addBodyPara(self, key, value): body[key] = value return self #设置连接时间和读取时间 def setTimeout(self, connecttimout, readtimeout): timeouts["connecttimout"] = connecttimout timeouts["readtimeout"] = readtimeout return self def get(self): get_url = self.url + "?" + parse.urlencode(body) if not timeouts: res = requests.get(get_url, headers=headers) else: timeout = (timeouts["connecttimout"], timeouts["readtimeout"]) res = requests.get(get_url, headers=headers, timeout=timeouts) return res def post(self): if not timeouts: res = requests.post(self.url, files=files, data=body, headers=headers) else: timeout = (timeouts["connecttimout"], timeouts["readtimeout"]) res = requests.post(self.url, files=files, data=body, headers=headers, timeout=timeout) return res

这段代码是一个 ShowapiRequest 类，用于调用 Showapi 平台的 API 接口。它通过构建请求参数、请求头和超时时间等信息来发送 HTTP GET 或 POST 请求，并返回响应结果。在类的初始化方法中，会传入 Showapi 平台的 appid 和 secret，并在请求体中添加这些参数。此外，还会设置一个默认的 User-Agent 请求头。类中的 `addFilePara`、`addHeadPara` 和 `addBodyPara` 方法用于添加文件参数、请求头参数和请求体参数，并返回实例自身。 `setTimeout` 方法用于设置连接和读取的超时时间。 `get` 和 `post` 方法分别用于发送 HTTP GET 和 POST 请求，并返回响应结果。其中涉及到请求参数、请求头、超时时间的使用。

阅读全文

相关推荐

从零开始学Python网络爬虫1

python实现接口并发测试脚本

利用Python获取赶集网招聘信息前篇

爬虫所需的IP代理和User-Agent技术

【Python开发者必读】：requests库进阶指南 - 异步IO与定制化请求头

搜索引擎构建系列文章：01 - 网页爬虫基础与实践

[Advanced Chapter] Advanced Scrapy Practices: Customizing Middleware and Pipelines: Writing Custom ...

Python爬虫教程：urllib高级用法

实例3：股票数据定向爬虫

实例4：股票数据Scrapy爬虫

爬虫实战：用Python抓取网页数据

实例2：淘宝商品比价定向爬虫

网络爬虫：使用Python进行网页抓取

Scrapy爬虫：数据提取与处理技巧

Python实战：利用爬虫技术获取网页数据

Scrapy框架实践：构建高效的爬虫系统

module 'urllib.request' has no attribute 'get'

最新推荐

pocketsphinx-0.1.15-cp34-cp34m-win32.whl.rar

SSM Java项目：StudentInfo 数据管理与可视化分析

管理建模和仿真的文件

负载均衡技术深入解析：确保高可用性的网络服务策略

怎么解决头文件重复包含

pyedgar：Python库简化EDGAR数据交互与文档下载

"互动学习：行动中的多样性与论文攻读经历"

网络监控工具使用宝典：实时追踪网络状况的专家级技巧

unity 实现子物体不跟随父物体移动和旋转

Node.js环境下wfdb文件解码与实时数据处理