爬取https://www.csdn.net/下class=”blog-text“的数据
时间: 2023-06-24 13:09:00 浏览: 69
您可以使用Python的requests和BeautifulSoup库来爬取CSDN网站的数据。以下是示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.csdn.net/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
blog_texts = soup.find_all('div', {'class': 'blog-text'})
for blog_text in blog_texts:
print(blog_text.text.strip())
```
这段代码会发送GET请求到CSDN网站,然后使用BeautifulSoup库解析网页内容。它会查找所有class为“blog-text”的div标签,并打印出它们的文本内容。您可以根据需要对代码进行修改。
相关问题
用python的requests数据库做一个爬https://www.csdn.net网站的爬虫
好的,那我们来编写一个简单的Python程序,使用requests库爬取CSDN网站首页的标题信息。
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.csdn.net/'
res = requests.get(url)
soup = BeautifulSoup(res.text, 'html.parser')
titles = soup.find_all('div', class_='title')
for title in titles:
print(title.text.strip())
```
这段代码使用requests库向CSDN网站的首页发出请求,并使用BeautifulSoup库解析网页内容,最后获取网页中所有class为"title"的div标签,并输出它们的文本内容。
需要注意的是,由于CSDN网站使用了反爬措施,所以我们需要在请求头中加入一些信息,以模拟浏览器的请求。可以将上述代码中的`res = requests.get(url)`改为以下代码:
```python
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
res = requests.get(url, headers=headers)
```
这样就可以愉快地爬取CSDN网站的信息了。
python 爬取data:image/png;base64图片并存储
首先,我们需要用Python进行网页爬取,找到包含data:image/png;base64格式图片的标签。可以使用BeautifulSoup库来解析网页,并使用find方法找到img标签中class为comicimg的元素,然后获取其src属性,即为图片数据的base64编码字符串。
接下来,我们需要将base64编码的字符串解码,并保存为图片文件。可以使用base64库的b64decode方法将字符串解码为二进制数据。然后,我们可以将解码后的数据写入文件中。
请注意,有时候导出来的图片可能是空白的,这可能是因为解码后的数据不正确,或者图片本身就是空白的。在存储图片之前,可以尝试将解码后的数据进行保存并查看,以确保数据正确。
下面是一个示例代码,可以实现爬取data:image/png;base64格式图片并保存的功能:
```python
import requests
import base64
# 发送请求获取网页内容
url = 'http://example.com' # 替换为目标网页的URL
response = requests.get(url)
html = response.text
# 解析网页内容
from bs4 import BeautifulSoup
bs = BeautifulSoup(html, 'html.parser')
# 获取图片数据的base64编码字符串
strings = str(bs.find(name="img", attrs={"class": "comicimg"}).get('src'))
# 解码base64编码的字符串
head, encode = strings.split(',', 1)
image_data = base64.b64decode(encode)
# 将解码后的数据保存为图片文件
with open('image.png', 'wb') as f:
f.write(image_data)
```
以上代码可以爬取指定URL的网页内容,并查找class为comicimg的img标签,获取其中的图片数据。然后将图片数据解码并保存为image.png文件。请注意,需要将代码中的url替换为你要爬取的网页的URL,以及根据需要修改保存的文件名。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* *3* [python爬取图片遇见src乱码: data:image/png;base64](https://blog.csdn.net/weixin_39834780/article/details/114445179)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"]
[ .reference_list ]
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)