请使用 Python 的Scrapy库爬取网站https://www.stats.gov.cn/sj/zxfb/202410/t20241025_1957132.html并保存到 txt 文件
时间: 2024-10-29 16:11:10 浏览: 15
利用scrapy框架爬取http://www.quanshuwang.com/ 上所有小说,并创建层级文件夹分类存储
Scrapy是一个强大的Python网络爬虫框架,用于高效地抓取网站数据。为了从指定URL爬取数据并保存到txt文件,你需要按照以下步骤操作:
1. **安装Scrapy**:
如果你还没有安装Scrapy,首先需要安装它。打开终端(Windows用户可以打开命令提示符),运行`pip install scrapy`。
2. **创建Scrapy项目**:
使用Scrapy创建一个新的项目,输入命令:
```
scrapy startproject my_crawler
```
这将生成一个名为my_crawler的基本项目结构。
3. **定义Spider**:
在`my_crawler/spiders`目录下,新建一个Python文件(如stats_spider.py),编写爬虫代码。例如:
```python
import scrapy
class StatsSpider(scrapy.Spider):
name = 'stats'
allowed_domains = ['stats.gov.cn']
start_urls = ['https://www.stats.gov.cn/sj/zxfb/202410/t20241025_1957132.html']
def parse(self, response):
# 使用response.text获取页面内容,然后解析提取所需信息
with open('output.txt', 'w', encoding='utf-8') as f:
f.write(response.text)
# 提交爬取到的数据
yield {
'content': response.text
}
```
4. **配置settings.py**:
确保`my_crawler/settings.py`文件中的`FEED_FORMAT`设置为`text`,以便保存为txt文件:
```python
FEED_FORMAT = 'text'
```
5. **运行爬虫**:
回到项目根目录,运行`scrapy crawl stats`命令开始爬取。
6. **检查结果**:
执行完成后,在项目目录下会看到名为`output.txt`的文件,其中包含抓取的内容。
阅读全文