爬虫出现� � VP8 �5 0� �*� � >
时间: 2023-06-17 13:02:44 浏览: 98
<自己动手写网络爬虫>图书+光盘文件
这个错误信息可能是因为你正在爬取的网站返回了一些非文本格式的数据(例如图片、视频等),而你的爬虫程序无法解析这些数据。可以尝试使用 requests 库的 content 属性获取响应内容,并通过其他库来解析数据,例如使用 Pillow 库处理图片数据。如果你使用的是 Scrapy 爬虫框架,可以在 settings.py 文件中添加以下代码来忽略非文本数据的下载:
```python
ITEM_PIPELINES = {
'scrapy.pipelines.images.ImagesPipeline': 1, # 处理图片
'scrapy.pipelines.media.MediaPipeline': 2, # 处理其他媒体文件
}
MEDIA_ALLOW_REDIRECTS = True
```
这样的话,Scrapy 将会自动过滤掉非文本数据并将其交给对应的 Pipeline 处理。
阅读全文