scrapy爬取北京公交车信息爬取北京公交车信息（https://beijing.8684.cn）：公交车名称（lineName），运行时间（time），票价信息（price），所属公司（campony），往返线路（upline和downline），并将其保存在bus_messages.csv文件中。

时间: 2023-06-27 18:01:25 浏览: 240

【Scrapy爬虫项目】爬取books.toscrape.com上书籍的相关信息并存储为csv文件

好的，以下是实现该需求的Scrapy爬虫代码： ```python import scrapy class BusSpider(scrapy.Spider): name = 'bus' allowed_domains = ['beijing.8684.cn'] start_urls = ['https://beijing.8684.cn/'] def parse(self, response): bus_links = response.xpath('//div[@class="bus-layer"]/div/a') for link in bus_links: bus_url = link.xpath('./@href').extract_first() yield scrapy.Request(url=response.urljoin(bus_url), callback=self.parse_bus) def parse_bus(self, response): line_name = response.xpath('//h1[@class="bus_i_t1"]/text()') time = response.xpath('//div[@class="bus_i_content"]/p[1]/text()') price = response.xpath('//div[@class="bus_i_content"]/p[2]/text()') company = response.xpath('//div[@class="bus_i_content"]/p[3]/a/text()') upline = response.xpath('//div[@class="bus_line_site "][1]/div[@class="bus_line_site_name"]/a/text()') downline = response.xpath('//div[@class="bus_line_site "][2]/div[@class="bus_line_site_name"]/a/text()') yield { 'lineName': line_name.extract_first(), 'time': time.extract_first(), 'price': price.extract_first(), 'company': company.extract_first(), 'upline': upline.extract(), 'downline': downline.extract(), } ``` 这个爬虫会首先访问起始URL，然后通过解析页面来获取所有公交车的链接。然后，对于每个公交车链接，它会进一步打开该链接并解析公交车的详细信息。最后，将所有信息保存到CSV文件中。为了运行这个爬虫，您需要安装Scrapy并运行以下命令： ``` scrapy runspider bus_spider.py -o bus_messages.csv ``` 这将运行爬虫，并将结果保存到名为“bus_messages.csv”的文件中。请注意，运行命令时应在包含爬虫代码的目录中打开命令行。

阅读全文

scrapy爬取北京公交车信息 爬取北京公交车信息（https://beijing.8684.cn）：公交车名称（lineName），运行时间（time），票价信息（price），所属公司（campony），往返线路（upline和downline），并将其保存在bus_messages.csv文件中。

相关推荐

Scrapy深度爬取新浪：大规模获取用户信息与微博数据

Scrapy深度爬取：递归抓取新浪微博用户信息

Python基于Scrapy爬取www.rkpass.cn题目_rkpassScrapy.zip

利用scrapy框架爬取http://www.quanshuwang.com/ 上所有小说，并创建层级文件夹分类存储

scrapy爬取智联招聘职位信息

scrapy爬取知乎用户信息

Scrapy爬取books.toscrape.com使用ProxyPool代理池示例

Python基于Scrapy爬取www.rkpass.cn题目+源代码+文档说明+数据库sql

Scrapy爬取dome.html_python爬虫_

scrapy爬取古诗文网.zip

SCRAPY爬取中国最好大学.rar

python基于scrapy爬取网页信息

scrapy爬取房天下的房源信息

使用scrapy爬取链家网数据.zip

scrapy爬取cnblog博客园

scrapy爬取电影天堂

scrapy爬取网络小说

scrapy爬取疫情数据

Scrapy爬取网站：Quotes to Scrape

最新推荐

Python爬虫实例_城市公交网络站点数据的爬取方法

Python爬虫实例——scrapy框架爬取拉勾网招聘信息

python爬虫框架scrapy实战之爬取京东商城进阶篇

Java-美妆神域_3rm1m18i_221-wx.zip

51单片机的温度监测与控制（温控风扇）

JavaScript实现的高效pomodoro时钟教程

管理建模和仿真的文件

【WebLogic客户端兼容性提升秘籍】：一站式解决方案与实战案例

使用jupyter读取文件“近5年考试人数.csv”，绘制近5年高考及考研人数发展趋势图，数据如下（单位：万人）。

CMake 3.25.3版本发布：程序员必备构建工具

scrapy爬取北京公交车信息爬取北京公交车信息（https://beijing.8684.cn）：公交车名称（lineName），运行时间（time），票价信息（price），所属公司（campony），往返线路（upline和downline），并将其保存在bus_messages.csv文件中。