python爬虫多网站
时间: 2023-12-02 12:03:21 浏览: 90
如何使用python爬虫爬取要登陆的网站
以下是使用Python爬虫爬取多个网站的步骤:
1. 导入所需的库,包括requests、BeautifulSoup和pandas等库。
2. 使用requests库获取网站的HTML内容。
3. 使用BeautifulSoup库解析HTML内容,提取所需的信息。
4. 将提取的信息存储到pandas的DataFrame中。
5. 将DataFrame中的数据保存到本地文件中。
下面是一个范例,演示如何使用Python爬虫爬取多个网站的信息:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 定义要爬取的网站列表
url_list = ['https://www.example1.com', 'https://www.example2.com', 'https://www.example3.com']
# 定义一个空的DataFrame,用于存储爬取的数据
df = pd.DataFrame(columns=['Title', 'Link'])
# 循环遍历网站列表,爬取每个网站的信息
for url in url_list:
# 使用requests库获取网站的HTML内容
response = requests.get(url)
html = response.content
# 使用BeautifulSoup库解析HTML内容,提取所需的信息
soup = BeautifulSoup(html, 'html.parser')
title = soup.title.string
link = url
# 将提取的信息存储到pandas的DataFrame中
df = df.append({'Title': title, 'Link': link}, ignore_index=True)
# 将DataFrame中的数据保存到本地文件中
df.to_csv('websites.csv', index=False)
# 输出爬取的结果
print(df)
```
阅读全文