import requests from bs4 import BeautifulSoup url = 'http://itc.hzau.edu.cn/' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') tag = soup.find('li', class_='menu-item menu-item-type-custom menu-item-object-custom menu-item-764') link = tag.a['href'] print(link)

这段代码的作用是从http://itc.hzau.edu.cn/这个网站中，找到class为'menu-item menu-item-type-custom menu-item-object-custom menu-item-764'的li标签，然后获取该标签下的a标签的href属性值，并打印输出。需要注意的是，代码中使用了requests库和BeautifulSoup库，requests库用于发送HTTP请求，BeautifulSoup库用于解析HTML文档。在使用BeautifulSoup库时，需要指定解析器，这里使用的是html.parser。另外，通过find方法获取标签时，需要指定标签的属性和属性值，这里使用的是class_='menu-item menu-item-type-custom menu-item-object-custom menu-item-764'。如果网站中不存在符合条件的标签，则会抛出AttributeError异常，因为没有a属性。所以在实际使用中，需要进行异常处理。

优化这段代码import requests from bs4 import BeautifulSoup url = "https://www.gupang.com/202305/64619.html" response = requests.get(url) soup = BeautifulSoup(response.content, "html.parser") title = soup.find("h1", class_="title").text content = soup.find("div", class_="content").text print(title) print(content)

可以使用以下方法进行优化： 1. 添加异常处理，以防止请求失败或解析失败导致程序崩溃： ```python import requests from bs4 import BeautifulSoup url = "https://www.gupang.com/202305/64619.html" try: response = requests.get(url) response.raise_for_status() # 抛出异常，如果请求失败 except requests.exceptions.RequestException as e: print(e) sys.exit(1) soup = BeautifulSoup(response.content, "html.parser") try: title = soup.find("h1", class_="title").text content = soup.find("div", class_="content").text except AttributeError as e: print(e) sys.exit(1) print(title) print(content) ``` 2. 使用`with`语句来管理资源，以确保在使用完文件或网络连接后自动释放资源： ```python import requests from bs4 import BeautifulSoup url = "https://www.gupang.com/202305/64619.html" try: with requests.get(url) as response: response.raise_for_status() soup = BeautifulSoup(response.content, "html.parser") title = soup.find("h1", class_="title").text content = soup.find("div", class_="content").text except (requests.exceptions.RequestException, AttributeError) as e: print(e) sys.exit(1) print(title) print(content) ``` 这种方法可以避免手动关闭连接或文件，而且代码更加简洁。

修改代码，使得li_list的编码格式是utf-8import requests from bs4 import BeautifulSoup url = 'https://www.icbc.com.cn/page/827855918799994880.html' response = requests.get(url=url) page_response = response.text soup = BeautifulSoup(page_response, 'html.parser',from_encoding='utf-8') li_list = soup.select('#mypagehtmlcontent p')

import requests from bs4 import BeautifulSoup url = 'https://www.icbc.com.cn/page/827855918799994880.html' response = requests.get(url=url) page_response = response.content.decode('utf-8') soup = BeautifulSoup(page_response, 'html.parser') li_list = soup.select('#mypagehtmlcontent p') # 以下为测试代码，可以不用理会 for li in li_list: print(li.text)

import requests from bs4 import BeautifulSoup url = 'http://itc.hzau.edu.cn/' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') tag = soup.find('li', class_='menu-item menu-item-type-custom menu-item-object-custom menu-item-764') link = tag.a['href'] print(link)

相关推荐

import sys import os import urllib from bs4 import BeautifulSoup

import reimport requestsfrom bs4 import BeautifulSoupimport t

python requests.get带header

用BeautifulSoup实现对http://news.imnu.edu.cn/的爬取

以下代码爬取的内容是乱码，什么原因？from bs4 import BeautifulSoup import requests if name == 'main': url = 'https://www.pincai.com/article/2320333.htm' response = requests.get(url).text soup = BeautifulSoup(response, 'lxml')。帮我修改好代码

最新推荐

2024年欧洲化学电镀市场主要企业市场占有率及排名.docx

计算机本科生毕业论文1111

BSC关键绩效财务与客户指标详解

管理建模和仿真的文件

【实战演练】俄罗斯方块：实现经典的俄罗斯方块游戏，学习方块生成和行消除逻辑。

卷积神经网络实现手势识别程序

绘制企业战略地图：从财务到客户价值的六步法

"互动学习：行动中的多样性与论文攻读经历"

【实战演练】井字棋游戏：开发井字棋游戏，重点在于AI对手的实现。

transformer模型对话