python如何爬取数据
时间: 2023-10-04 11:14:47 浏览: 94
Python有很多库可以用来爬取数据,其中比较常用的是requests、BeautifulSoup、Scrapy等。
使用requests库可以发送HTTP请求,获取网页内容,示例代码如下:
```python
import requests
url = 'https://www.baidu.com'
response = requests.get(url)
print(response.text)
```
使用BeautifulSoup库可以解析HTML、XML等文档,获取其中的数据,示例代码如下:
```python
from bs4 import BeautifulSoup
import requests
url = 'https://www.baidu.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.title.string)
```
使用Scrapy框架可以快速高效地爬取大规模的数据,需要编写爬虫程序。以下是一个简单的Scrapy爬虫示例:
```python
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/page/1/',
]
def parse(self, response):
for quote in response.css('div.quote'):
yield {
'text': quote.css('span.text::text').get(),
'author': quote.css('span small::text').get(),
'tags': quote.css('div.tags a.tag::text').getall(),
}
next_page = response.css('li.next a::attr(href)').get()
if next_page is not None:
yield response.follow(next_page, self.parse)
```
以上是三种爬取数据的常用方法,具体选择哪种方法取决于你的需求和技术水平。
阅读全文