python爬虫数据清洗案例
时间: 2023-07-17 14:58:45 浏览: 66
当然,我可以为您提供一个简单的 Python 爬虫数据清洗案例。假设我们要爬取一个网页上的新闻标题,并对标题进行清洗和整理。
首先,我们需要安装必要的库。在 Python 中,我们可以使用 `requests` 库来发送 HTTP 请求,使用 `beautifulsoup4` 库来解析 HTML。
```python
pip install requests beautifulsoup4
```
接下来,我们可以编写爬虫代码。下面是一个示例:
```python
import requests
from bs4 import BeautifulSoup
# 发送 HTTP 请求并获取网页内容
url = 'https://example.com/news'
response = requests.get(url)
html = response.text
# 使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(html, 'html.parser')
# 查找新闻标题的标签和属性
title_tags = soup.find_all('h2', class_='news-title')
# 清洗和整理新闻标题
cleaned_titles = []
for tag in title_tags:
title = tag.text.strip() # 去除标题前后的空白字符
cleaned_titles.append(title)
# 打印清洗后的新闻标题
for title in cleaned_titles:
print(title)
```
在上面的示例中,我们首先发送 HTTP 请求并获取网页内容,然后使用 BeautifulSoup 解析 HTML。接着,我们查找新闻标题的标签和属性,并对标题进行清洗和整理。最后,我们打印清洗后的新闻标题。
请注意,这只是一个简单的示例,实际的数据清洗可能涉及更复杂的操作,例如正则表达式匹配、文本处理等。具体的清洗方法取决于您所爬取的网页和数据的结构。