python爬虫项目代码
时间: 2023-11-08 13:05:53 浏览: 47
以下是一个简单的 Python 爬虫项目代码,可以爬取指定网站的文章标题和链接:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com' # 指定要爬取的网站
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
for article in soup.find_all('article'): # 找到所有文章标签
title = article.find('h2').text # 获取文章标题
link = article.find('a')['href'] # 获取文章链接
print(title, link)
```
相关问题
python爬虫框架代码
以下是使用Python的Scrapy爬虫框架的示例代码:
首先,您需要安装Scrapy。您可以使用以下命令将其安装在您的计算机上:
```
pip install scrapy
```
接下来,创建一个新的Scrapy项目,使用以下命令:
```
scrapy startproject myproject
```
这将在当前目录下创建一个名为“myproject”的新文件夹。进入该文件夹并创建一个新的Spider,使用以下命令:
```
cd myproject
scrapy genspider example example.com
```
这将在“myproject / spiders”文件夹中创建一个名为“example”的新Python文件。在该文件中,您可以编写您的爬虫代码。以下是一个基本的示例:
```python
import scrapy
class ExampleSpider(scrapy.Spider):
name = 'example'
allowed_domains = ['example.com']
start_urls = ['http://www.example.com']
def parse(self, response):
# 在这里编写您的解析代码
pass
```
在此示例中,我们定义了一个名为“example”的Spider,并指定了要爬取的域名和起始URL。我们还定义了一个名为“parse”的方法,该方法将解析响应并提取所需的数据。
接下来,您需要运行Spider以开始爬取。使用以下命令:
```
scrapy crawl example
```
该命令将运行名为“example”的Spider。Scrapy将自动下载网页并将其传递给“parse”方法进行解析。您可以在此方法中使用XPath或CSS选择器等工具来提取所需的数据。
最后,您可以将数据保存到文件或数据库中,也可以将其发送到API或其他系统。这取决于您的需求和项目的特定要求。
Python爬虫项目美团
以下是一个使用Python爬虫采集美团外卖数据的简单示例:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
# 发送请求,获取美团外卖首页的HTML内容
url = 'https://www.meituan.com/'
response = requests.get(url, headers=headers)
html = response.text
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(html, 'html.parser')
# 获取美团外卖的店铺信息
shops = soup.find_all('div', class_='shop-item')
# 遍历店铺信息并输出
for shop in shops:
name = shop.find('h4').text.strip()
rating = shop.find('span', class_='rating').text.strip()
sales = shop.find('span', class_='sales').text.strip()
print('店铺名称:', name)
print('评分:', rating)
print('销量:', sales)
print('--')
```
这段代码使用了`requests`库发送HTTP请求,获取美团外卖首页的HTML内容。然后使用`BeautifulSoup`库解析HTML内容,提取出店铺的名称、评分和销量等信息,并进行输出。