python虎扑数据爬取
时间: 2024-01-06 14:05:25 浏览: 147
以下是使用Python进行虎扑NBA球员数据爬取的示例代码:
```python
import scrapy
class NBAPlayerSpider(scrapy.Spider):
name = "nba_player"
allowed_domains = ["nba.hupu.com"]
start_urls = ["https://nba.hupu.com/stats/players/pts/1"]
def parse(self, response):
for player in response.xpath('//table[@class="players_table"]//tr')[1:]:
yield {
'rank': player.xpath('.//td[1]/text()').get(),
'name': player.xpath('.//td[2]//a/text()').get(),
'team': player.xpath('.//td[3]//a/text()').get(),
'score': player.xpath('.//td[4]/text()').get(),
'rebound': player.xpath('.//td[5]/text()').get(),
'assist': player.xpath('.//td[6]/text()').get(),
}
next_page = response.xpath('//div[@class="pages"]//a[@class="page_next"]/@href')
if next_page:
yield response.follow(next_page[0], self.parse)
```
这个爬虫使用Scrapy框架,爬取了虎扑NBA球员数据,并将数据存储在字典中。它可以爬取球员的排名、姓名、所属球队、得分、篮板和助攻等信息。在爬取过程中,它会自动跟随下一页链接,直到爬取完所有页面。
阅读全文