首页python爬虫爬取上市公司信息实例

python爬虫爬取上市公司信息实例

时间: 2024-05-28 15:06:42 浏览: 162

Python爬虫可以很方便地从互联网上抓取数据，对于爬取上市公司信息，我们可以使用爬虫框架Scrapy来实现。以下是一个简单的示例： 1. 首先，我们需要创建一个新的Scrapy项目： ``` scrapy startproject listed_company ``` 2. 然后，在项目的spiders目录下创建一个新的Spider： ``` cd listed_company scrapy genspider listed_spider example.com ``` 其中，example.com是我们要爬取的网站域名。 3. 在spider中实现爬取逻辑，例如： ```python import scrapy class ListedSpider(scrapy.Spider): name = "listed_spider" allowed_domains = ["example.com"] start_urls = [ "http://example.com/listed_company" ] def parse(self, response): for company in response.css('div.company'): yield { 'name': company.css('a::text').get(), 'ticker': company.css('span.ticker::text').get(), 'exchange': company.css('span.exchange::text').get(), } next_page = response.css('a.next_page::attr(href)').get() if next_page is not None: yield response.follow(next_page, self.parse) ``` 这个Spider会从example.com/listed_company页面中抓取每个上市公司的名称、股票代码和交易所信息，并且会自动跟随“下一页”链接继续爬取。 4. 最后，在命令行中运行以下命令即可启动爬虫： ``` scrapy crawl listed_spider -o listed_companies.csv ``` 这个命令会将所有抓取到的数据保存到CSV文件listed_companies.csv中。

阅读全文