修改 def get_data(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36' } req = request.Request(url, headers=headers) response = request.urlopen(req) if response.getcode() == 200: return response.read() return None if __name__ == '__main__': html = get_data( 'http://m.maoyan.com/mmdb/comments/movie/1200486.json?_v_=yes&offset=0&startTime=2018-07-28%2022%3A25%3A03') print(html) def parse_data(html): data = json.loads(html)['cmts'] # 将str转换为json comments = [] for item in data: comment = { 'id': item['id'], 'nickName': item['nickName'], 'cityName': item['cityName'] if 'cityName' in item else '', # 处理cityName不存在的情况 'content': item['content'].replace('\n', ' ', 10), # 处理评论内容换行的情况 'score': item['score'], 'startTime': item['startTime'] } comments.append(comment) return comments if __name__ == '__main__': html = get_data( 'http://m.maoyan.com/mmdb/comments/movie/1200486.json?_v_=yes&offset=0&startTime=2018-07-28%2022%3A25%3A03') comments = parse_data(html) print(comments)
时间: 2024-03-18 07:45:19 浏览: 99
这段代码是用来获取猫眼电影某部电影的评论数据,并将其解析成字典形式。其中,get_data()函数通过传入指定的url,获取对应的评论数据;parse_data()函数用来解析获取到的评论数据,并将其处理成字典形式,以便后续的分析和使用。在主函数中,先调用get_data()函数获取评论数据,再将获取到的数据传给parse_data()函数进行解析,最后将解析后的数据存储在一个列表中,并打印出来。
相关问题
import os.path import random import time from multiprocessing import Pool import requests from lxml import etree headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36' } def get_img_src(page): ''' 抓取页面的图片的src :return: ''' for i in range(1, page+1): url = f'https://www.pkdoutu.com/photo/list/?page={i}' print(f'抓取{url}页数据') res = requests.get(url, headers=headers) res.encoding = res.apparent_encoding tree = etree.HTML(res.text) # 抓取图片 img_list = tree.xpath('//img[@referrerpolicy="no-referrer"]/@data-original') yield img_list def download_img(url): ''' 下载图片 :return: ''' time.sleep(random.uniform(0, 1)) img_res = requests.get(url, headers=headers) img_name = url.split('_')[-1] # 通过图片url进行拆分,拿到图片名称和后缀 path = 'img' # 判断路径是否存在,不存在则创建 if not os.path.exists(path): os.mkdir(path) # 写入到文件中 with open(os.path.join(path, img_name), 'wb') as f: f.write(img_res.content) if __name__ == '__main__': pool = Pool() # 通过生成器get_img_src返回图片列表 for url_list in get_img_src(2): for url in url_list: # 循环加入进程池 pool.apply_async(download_img, args=(url, )) pool.close() pool.join() print('over')
这是一个 Python 程序,主要用于从指定网站上抓取图片并下载到本地。程序使用了 multiprocessing 库中的进程池来实现多进程下载,加快了下载速度。其中,get_img_src 函数用于抓取指定页数的图片链接,download_img 函数用于下载指定链接的图片并保存到本地。主函数中使用了进程池来异步下载所有图片。
程序的具体实现步骤如下:
1. 导入所需的库,包括 os.path、random、time、multiprocessing 和 requests。
2. 定义抓取图片链接的函数 get_img_src,通过循环抓取指定页数的页面,并使用 lxml 库解析页面内容,抓取图片链接并返回。
3. 定义下载图片的函数 download_img,通过 requests 库下载指定链接的图片,并将图片保存到本地。
4. 在主函数中使用进程池来异步下载所有图片,具体实现如下:
a. 创建进程池 pool。
b. 通过生成器 get_img_src 返回图片链接列表,循环遍历每个链接。
c. 将 download_img 函数加入进程池,并传入图片链接作为参数。
d. 关闭进程池,并等待所有进程完成。
e. 打印下载完成提示信息。
该程序适用于需要大量下载图片的场景,可以通过调整进程池的大小和抓取的页数来适应不同的需求。
import requests from urllib import parse #全局请求头 files = {} headers = {} body = {} timeouts = {} resHeader = {} class ShowapiRequest: def __init__(self, url, my_appId, my_appSecret): self.url = url self.my_appId = my_appId self.my_appSecret = my_appSecret body["1422355"] = my_appId body["24db7e66fd054eab98c921a5c807d97d"] = my_appSecret headers["User-Agent"] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2427.7 Safari/537.36" def addFilePara(self, key, value_url): files[key] = open(r"%s" % (value_url), 'rb') return self def addHeadPara(self, key, value): headers[key] = value return self def addBodyPara(self, key, value): body[key] = value return self #设置连接时间和读取时间 def setTimeout(self, connecttimout, readtimeout): timeouts["connecttimout"] = connecttimout timeouts["readtimeout"] = readtimeout return self def get(self): get_url = self.url + "?" + parse.urlencode(body) if not timeouts: res = requests.get(get_url, headers=headers) else: timeout = (timeouts["connecttimout"], timeouts["readtimeout"]) res = requests.get(get_url, headers=headers, timeout=timeouts) return res def post(self): if not timeouts: res = requests.post(self.url, files=files, data=body, headers=headers) else: timeout = (timeouts["connecttimout"], timeouts["readtimeout"]) res = requests.post(self.url, files=files, data=body, headers=headers, timeout=timeout) return res
这段代码是一个 ShowapiRequest 类,用于调用 Showapi 平台的 API 接口。它通过构建请求参数、请求头和超时时间等信息来发送 HTTP GET 或 POST 请求,并返回响应结果。
在类的初始化方法中,会传入 Showapi 平台的 appid 和 secret,并在请求体中添加这些参数。此外,还会设置一个默认的 User-Agent 请求头。
类中的 `addFilePara`、`addHeadPara` 和 `addBodyPara` 方法用于添加文件参数、请求头参数和请求体参数,并返回实例自身。
`setTimeout` 方法用于设置连接和读取的超时时间。
`get` 和 `post` 方法分别用于发送 HTTP GET 和 POST 请求,并返回响应结果。其中涉及到请求参数、请求头、超时时间的使用。
阅读全文