python爬虫爬取上市公司信息实例
时间: 2024-05-28 15:06:42 浏览: 162
Python爬虫可以很方便地从互联网上抓取数据,对于爬取上市公司信息,我们可以使用爬虫框架Scrapy来实现。以下是一个简单的示例:
1. 首先,我们需要创建一个新的Scrapy项目:
```
scrapy startproject listed_company
```
2. 然后,在项目的spiders目录下创建一个新的Spider:
```
cd listed_company
scrapy genspider listed_spider example.com
```
其中,example.com是我们要爬取的网站域名。
3. 在spider中实现爬取逻辑,例如:
```python
import scrapy
class ListedSpider(scrapy.Spider):
name = "listed_spider"
allowed_domains = ["example.com"]
start_urls = [
"http://example.com/listed_company"
]
def parse(self, response):
for company in response.css('div.company'):
yield {
'name': company.css('a::text').get(),
'ticker': company.css('span.ticker::text').get(),
'exchange': company.css('span.exchange::text').get(),
}
next_page = response.css('a.next_page::attr(href)').get()
if next_page is not None:
yield response.follow(next_page, self.parse)
```
这个Spider会从example.com/listed_company页面中抓取每个上市公司的名称、股票代码和交易所信息,并且会自动跟随“下一页”链接继续爬取。
4. 最后,在命令行中运行以下命令即可启动爬虫:
```
scrapy crawl listed_spider -o listed_companies.csv
```
这个命令会将所有抓取到的数据保存到CSV文件listed_companies.csv中。
阅读全文