python如何爬虫,请给出例子
时间: 2023-02-20 22:59:12 浏览: 172
python爬虫实例
Python可以使用第三方库如BeautifulSoup和Scrapy来进行网络爬虫。
下面是一个使用BeautifulSoup爬取网页标题的简单示例:
```python
import requests
from bs4 import BeautifulSoup
url = 'http://www.example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.title.string)
```
上面的代码会发送一个GET请求到'http://www.example.com',然后使用BeautifulSoup解析HTML,并输出网页标题。
更复杂的爬虫可能会使用Scrapy框架,在这种情况下,你需要编写一个爬虫类来定义如何爬取网页。
```python
import scrapy
class ExampleSpider(scrapy.Spider):
name = "example"
start_urls = [
'http://www.example.com/1',
'http://www.example.com/2',
]
def parse(self, response):
for quote in response.css('div.quote'):
yield {
'text': quote.css('span.text::text').get(),
'author': quote.css('span small::text').get(),
'tags': quote.css('div.tags a.tag::text').getall(),
}
```
上面的代码定义了一个名为ExampleSpider的爬虫类,它会爬取名为'start_urls'中列出的网页,并使用css选择器来解析页面。
记住,爬虫需要遵守网站的使用条款和隐私政策,并且应该慎重使用爬虫爬取敏感数据或高
阅读全文