使用python爬虫爬取“https://www.chzc.edu.cn/info/1024/66328.htm”任一信息代码
时间: 2023-09-07 21:13:25 浏览: 110
好的,以下是使用Python爬虫爬取该链接信息的代码示例:
```python
import requests
from bs4 import BeautifulSoup
url = "https://www.chzc.edu.cn/info/1024/66328.htm"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36"
}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, "html.parser")
# 获取文章标题
title = soup.find("h2", class_="contentTitle").text.strip()
print("文章标题:", title)
# 获取文章正文
content = soup.find("div", class_="contentInfo").text.strip()
print("文章正文:", content)
```
运行上述代码,即可获取该链接中的文章标题和正文。需要注意的是,为了避免触发网站的反爬机制,我们在请求头中添加了User-Agent信息,模拟浏览器访问。
相关问题
使用python爬虫爬取“https://www.chzc.edu.cn/info/1024/66328.htm”中图片
好的,可以使用Python的requests和BeautifulSoup库来实现爬取图片的功能。以下是实现的代码:
```python
import requests
from bs4 import BeautifulSoup
url = "https://www.chzc.edu.cn/info/1024/66328.htm"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
# 找到所有的图片标签
img_tags = soup.find_all("img")
# 遍历图片标签并下载图片
for img_tag in img_tags:
img_url = img_tag["src"]
img_name = img_url.split("/")[-1]
img_response = requests.get(img_url)
with open(img_name, "wb") as f:
f.write(img_response.content)
```
解释一下代码:
首先,我们使用requests库获取网页的HTML代码。然后,使用BeautifulSoup库对HTML代码进行解析。
接着,我们使用find_all方法找到所有的图片标签。在这个例子中,该网页只有一张图片,所以img_tags列表中只有一个元素。
最后,我们遍历图片标签并使用requests库下载图片。图片的文件名可以通过图片URL中的最后一个斜杠后的字符串获得。图片保存在当前目录下。
希望这个代码可以帮到你。
使用python爬取https://www.chzc.edu.cn/info/1025/92906.htm所有图片
可以使用 requests 库和 BeautifulSoup 库来爬取网页,并下载其中的图片。以下是示例代码:
```python
import requests
from bs4 import BeautifulSoup
import os
# 设置请求头部,模拟浏览器请求
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 目标网页 URL
url = 'https://www.chzc.edu.cn/info/1025/92906.htm'
# 发送 GET 请求
r = requests.get(url, headers=headers)
# 解析网页
soup = BeautifulSoup(r.text, 'html.parser')
# 获取所有图片链接
img_urls = []
for img in soup.find_all('img'):
img_url = img.get('src')
if img_url and img_url.startswith('/'):
img_url = 'https://www.chzc.edu.cn' + img_url
img_urls.append(img_url)
# 创建保存图片的目录
if not os.path.exists('imgs'):
os.mkdir('imgs')
# 下载图片
for i, img_url in enumerate(img_urls):
try:
img_data = requests.get(img_url, headers=headers).content
with open(f'imgs/img_{i}.jpg', 'wb') as f:
f.write(img_data)
print(f'Download {img_url} success!')
except:
print(f'Download {img_url} failed!')
```
代码中,首先使用 requests 库发送 GET 请求获取网页内容,然后使用 BeautifulSoup 库解析网页,获取其中的图片链接。接着,创建一个名为 "imgs" 的目录,用于保存下载的图片。最后,遍历图片链接列表,使用 requests 库下载图片并保存到指定目录下。
需要注意的是,为了避免因为网站对于频繁访问的限制,最好在请求头部中加入一些浏览器相关的头信息。此外,还需要处理图片链接中以 "/" 开头的相对路径,将其转化为绝对路径。
阅读全文