import requests from bs4 import BeautifulSoup url = 'http://www.greenfinancechina.com/zhengcefagui/list-1.html' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 获取政策标题和发布时间 policy_list = soup.find_all('div', class_='news-item') for policy in policy_list: title = policy.find('a').text time = policy.find('span', class_='time').text print(title, time)

这段代码可以用来爬取中国绿色金融网站上的政策信息，并将政策标题和发布时间输出到控制台上。您可以将这段代码保存为一个 Python 文件，然后在终端或者命令行中执行该文件。请注意，为了能够正常运行该代码，您需要安装 requests 和 BeautifulSoup 这两个库。您可以使用以下命令来安装这两个库： ```bash pip install requests pip install beautifulsoup4 ``` 如果您已经安装了这两个库，就可以运行该代码了。运行代码时，可能会遇到一些错误，例如网络连接错误或者解析错误。您可以根据错误提示修改代码或者调整网络设置，以便能够成功爬取政策信息。

修改代码，使得li_list的编码格式是utf-8import requests from bs4 import BeautifulSoup url = 'https://www.icbc.com.cn/page/827855918799994880.html' response = requests.get(url=url) page_response = response.text soup = BeautifulSoup(page_response, 'html.parser',from_encoding='utf-8') li_list = soup.select('#mypagehtmlcontent p')

import requests from bs4 import BeautifulSoup url = 'https://www.icbc.com.cn/page/827855918799994880.html' response = requests.get(url=url) page_response = response.content.decode('utf-8') soup = BeautifulSoup(page_response, 'html.parser') li_list = soup.select('#mypagehtmlcontent p') # 以下为测试代码，可以不用理会 for li in li_list: print(li.text)

优化这段代码import requests from bs4 import BeautifulSoup url = "https://www.gupang.com/202305/64619.html" response = requests.get(url) soup = BeautifulSoup(response.content, "html.parser") title = soup.find("h1", class_="title").text content = soup.find("div", class_="content").text print(title) print(content)

可以使用以下方法进行优化： 1. 添加异常处理，以防止请求失败或解析失败导致程序崩溃： ```python import requests from bs4 import BeautifulSoup url = "https://www.gupang.com/202305/64619.html" try: response = requests.get(url) response.raise_for_status() # 抛出异常，如果请求失败 except requests.exceptions.RequestException as e: print(e) sys.exit(1) soup = BeautifulSoup(response.content, "html.parser") try: title = soup.find("h1", class_="title").text content = soup.find("div", class_="content").text except AttributeError as e: print(e) sys.exit(1) print(title) print(content) ``` 2. 使用`with`语句来管理资源，以确保在使用完文件或网络连接后自动释放资源： ```python import requests from bs4 import BeautifulSoup url = "https://www.gupang.com/202305/64619.html" try: with requests.get(url) as response: response.raise_for_status() soup = BeautifulSoup(response.content, "html.parser") title = soup.find("h1", class_="title").text content = soup.find("div", class_="content").text except (requests.exceptions.RequestException, AttributeError) as e: print(e) sys.exit(1) print(title) print(content) ``` 这种方法可以避免手动关闭连接或文件，而且代码更加简洁。

阅读全文

相关推荐

import sys import os import urllib from bs4 import BeautifulSoup

import reimport requestsfrom bs4 import BeautifulSoupimport t

http://python-requests.org/库的透明持久缓存-Python开发

以下代码爬取的内容是乱码，什么原因？from bs4 import BeautifulSoup import requests if name == 'main': url = 'https://www.pincai.com/article/2320333.htm' response = requests.get(url).text soup = BeautifulSoup(response, 'lxml')。帮我修改好代码

爬虫问题： （1）利用以下代码段获取指定url链接对应网页源代码 url='https://movie.douban.com/top250' importrequests strs=requests.

用python爬取新闻网页（URL：http://www.news.cn/politics/leaders/2023- 04/28/c_1129576764.htm）中的新闻文本。

使用requests库和BeautifulSoup爬取该网站https://top.baidu.com/board?tab=realtime

用requests获取 下一章href

实现采集以下页面的新闻标题： https://www.solidot.org/ 不限（requests或urllib或其他）+ BeautifulSoup 输出相应的完整python代码

大家在看

silvaco中文学习资料

AES128（CBC或者ECB）源码

EMC VNX 5300使用安装

华为MA5671光猫使用 华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载

视频转换芯片 TP9950 iic 驱动代码

最新推荐

掌握Android RecyclerView拖拽与滑动删除功能

【IBM HttpServer入门全攻略】：一步到位的安装与基础配置教程

[root@localhost~]#mount-tcifs-0username=administrator,password=hrb.123456//192.168.100.1/ygptData/home/win mount：/home/win：挂载点不存在

惠普8594E与IT8500系列电子负载使用教程

MATLAB与Python在SAR点目标仿真中的对决：哪种工具更胜一筹？

前端代理配置config.js配置proxyTable多个代理不生效

最小二乘法程序深入解析与应用案例

SAR点目标仿真应用指南：案例研究与系统设计实战

eclipse为项目配置jdk

Matlab读写XML工具包使用说明及安装指导

爬虫问题：（1）利用以下代码段获取指定url链接对应网页源代码 url='https://movie.douban.com/top250' importrequests strs=requests.

用requests获取下一章href

华为MA5671光猫使用华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载