如何用Python将抓取到的网页源代码写入CSV文件中?
时间: 2024-10-22 13:15:50 浏览: 15
一个Python爬虫参考源代码.rar
在Python中,你可以使用requests库来获取网页源代码,然后利用BeautifulSoup或其他HTML解析库来提取你需要的数据,最后通过pandas库将数据写入CSV文件。以下是一个简单的步骤示例:
1. 首先安装需要的库:
```bash
pip install requests beautifulsoup4 pandas
```
2. 使用requests库抓取网页内容:
```python
import requests
url = "http://example.com" # 替换为你想要抓取的网址
response = requests.get(url)
html_content = response.text
```
3. 使用BeautifulSoup解析HTML内容:
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_content, 'lxml') # 使用合适的解析器
data = [] # 定义一个列表来存储要写入CSV的数据
# 提取并添加数据到列表中
for item in soup.find_all('tag_name'): # 根据实际HTML结构替换'tag_name'
data_row = [item.text.strip()] # 或者你想提取的属性
data.append(data_row)
```
4. 将数据写入CSV文件:
```python
import csv
with open('output.csv', 'w', newline='', encoding='utf-8') as csvfile:
writer = csv.writer(csvfile)
writer.writerows(data)
```
阅读全文