首页import requests import chardet base_url = 'https://zhuhai.qfang.com/school' headersvalue = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.34', } for i in range(0, 10): paramsvalue = {'star': str(i * 25), 'filter': ''} try: r = requests.get(base_url, params=paramsvalue, headers=headersvalue, timeout=1) except requests.Timeout: print('成功!') else: print(r.status_code) print(r.url) code_type = chardet.detect(r.content) ['encoding'] with open('q.txt', 'a+', encoding='utf=8') as f: f.write(r.content.decode(code_type))

import requests import chardet base_url = 'https://zhuhai.qfang.com/school' headersvalue = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.34', } for i in range(0, 10): paramsvalue = {'star': str(i * 25), 'filter': ''} try: r = requests.get(base_url, params=paramsvalue, headers=headersvalue, timeout=1) except requests.Timeout: print('成功!') else: print(r.status_code) print(r.url) code_type = chardet.detect(r.content) ['encoding'] with open('q.txt', 'a+', encoding='utf=8') as f: f.write(r.content.decode(code_type))

时间: 2024-04-26 13:25:25 浏览: 126

python爬虫练习：爬图片

python 爬虫练习项目：爬图片，目标网站 http://www.win4000.com/ 美桌图片主要思路：该网站存在’http://www.win4000.com/meinvtag’ + str(i) + ‘_1.html’ 这样的一个链接形式的多个图片分类集合页面，暂时叫做tag页面吧，每个tag下面有5页组成（range(1, 6): # 共5个页面）， 1、获取所有tag页面：遍历所有tag页面，寻找r.status_code 为 200的页面，同时分析页面，通过find(‘h2’)的标签，寻找此tag页面的名称，将存在的页面的名称和地址放入字典返回。 def get_al

这段代码是用 Python 实现了一个爬虫，爬取了珠海Q房网站的学校信息。代码中用到了 requests 库发送 HTTP 请求获取网页内容，以及 chardet 库检测网页编码。循环了 10 次，每次获取 25 个学校信息，若请求超时则打印“成功!”，否则打印请求状态码、请求链接和网页编码，最后将获取到的内容写入文件。

阅读全文