import requests import chardet base_url = 'https://zhuhai.qfang.com/school' headersvalue = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.34', } for i in range(0, 10): paramsvalue = {'star': str(i * 25), 'filter': ''} try: r = requests.get(base_url, params=paramsvalue, headers=headersvalue, timeout=1) except requests.Timeout: print('成功!') else: print(r.status_code) print(r.url) code_type = chardet.detect(r.content) ['encoding'] with open('q.txt', 'a+', encoding='utf=8') as f: f.write(r.content.decode(code_type))
时间: 2024-04-26 20:25:25 浏览: 121
这段代码是用 Python 实现了一个爬虫,爬取了珠海Q房网站的学校信息。代码中用到了 requests 库发送 HTTP 请求获取网页内容,以及 chardet 库检测网页编码。循环了 10 次,每次获取 25 个学校信息,若请求超时则打印“成功!”,否则打印请求状态码、请求链接和网页编码,最后将获取到的内容写入文件。
相关问题
import requests import chardet base_url = 'https://zhuhai.qfang.com/rent/503708359?insource=rent_list&top=2' headersvalue = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.34', } for i in range(0, 10): paramsvalue = {'star': str(i * 25), 'filter': ''} try: r = requests.get(base_url, params=paramsvalue, headers=headersvalue, timeout=1) except requests.Timeout: print('Timeout!') else: print(r.status_code) print(r.url) code_type = chardet.detect(r.content)['encoding'] with open('1111.txt', 'a+', encoding='utf=8') as f: f.write(r.content.decode(code_type))
这段代码是使用Python的requests库和chardet库来爬取一个网页的内容,并将内容写入到一个名为1111.txt的文件中。在代码中,使用循环来遍历不同的参数值,每次访问网页时设置不同的参数值,从而获取不同的结果。如果在访问网页时出现超时的情况,代码会打印出"Timeout!"。在写入文件时,使用chardet库来检测网页的编码格式,并将内容解码后写入文件。
import requests import re ur1='https://bj.lianjia.com/zufang/' header={'User-Agent':'Mozilla/5.0(Windows NT 6.1;Win64;x64)AppleWebKit/537.36 (KHTML,like Gecko) Chrome/74.0.3729.169 Safari/537.36'} response = requests.get(url,headers=header) html=response.text 哪里有错误并修改
代码中的第一行和第二行之间缺少空格,应该在第二行前加一个空格。
此外,在第三行代码中,将`ur1`改为`url`,因为变量名写错了。
修改后的代码如下:
```python
import requests
import re
url = 'https://bj.lianjia.com/zufang/'
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}
response = requests.get(url, headers=header)
html = response.text
```
阅读全文