pycharm爬取数据
时间: 2023-09-19 21:08:20 浏览: 147
淘宝爬取数据.docx
在 PyCharm 中爬取数据可以使用 Python 的爬虫库,常见的有 Requests、BeautifulSoup、Scrapy 等等。以下是一个使用 Requests 和 BeautifulSoup 爬取网页并提取数据的示例:
```python
import requests
from bs4 import BeautifulSoup
# 发送 HTTP 请求
url = 'https://www.example.com'
response = requests.get(url)
# 解析 HTML 页面
soup = BeautifulSoup(response.text, 'html.parser')
# 提取数据
data_list = []
for item in soup.find_all('div', class_='item'):
title = item.find('h2', class_='title').text.strip()
summary = item.find('p', class_='summary').text.strip()
data_list.append({'title': title, 'summary': summary})
# 打印数据
for data in data_list:
print(data['title'], data['summary'])
```
以上代码中,首先使用 requests 库发送 HTTP 请求,获取网页内容;然后使用 BeautifulSoup 库解析 HTML 页面,提取所需数据。最后将数据存储到列表中,并进行打印。需要注意的是,这里只是一个简单的示例,实际应用中还需要考虑众多问题,例如异常处理、反爬虫策略等等。
阅读全文