if soup.find_all("div", class_="zg_page list_pagebox"): another_url = soup.select('div.zg_page.list_pagebox > p > a')[1].get("href") wb2_data = requests.get(another_url) wb2_data.encoding = 'gb2312' soup = BeautifulSoup(wb2_data.text, 'lxml') passage1 = soup.select('div.cont.clearfix > div.zgsz_show.fl > div.zgsz_sContent.clearfix > p') passage1.pop(0) for paragraph1 in passage1: data1 = paragraph1.get_text() if len(data1) > 30: f.write(data1 + '\n') 优化这段代码
时间: 2024-03-05 10:54:46 浏览: 172
RESTful_Web_Services中文版.pdf----广告
这段代码可以做一些优化,例如:
1. 使用try-except语句来处理可能出现的异常,避免程序因为异常而崩溃。
2. 将代码封装成函数,使其更加模块化和可重用。
3. 使用with语句来更好地管理文件对象,避免忘记关闭文件。
下面是优化后的代码示例:
```python
import requests
from bs4 import BeautifulSoup
def get_passages(url, file_path):
try:
response = requests.get(url)
response.encoding = 'gb2312'
soup = BeautifulSoup(response.text, 'lxml')
if soup.find_all("div", class_="zg_page list_pagebox"):
next_url = soup.select('div.zg_page.list_pagebox > p > a')[1].get("href")
get_passages(next_url, file_path)
passages = soup.select('div.cont.clearfix > div.zgsz_show.fl > div.zgsz_sContent.clearfix > p')
passages.pop(0)
with open(file_path, 'a', encoding='utf-8') as f:
for passage in passages:
data = passage.get_text().strip()
if len(data) > 30:
f.write(data + '\n')
except Exception as e:
print('Error:', e)
```
这个函数接受两个参数:url和file_path,分别表示要爬取的页面URL和要保存数据的文件路径。该函数会递归地爬取所有页面,并将满足条件的文本写入文件。如果中途出现异常,函数会打印错误信息。
阅读全文