使用requests和bs4库爬取
时间: 2023-10-17 22:05:40 浏览: 132
网页并解析HTML
requests和bs4库是Python中常用的爬虫库,可以帮助我们从网页中获取数据。使用这两个库可以完成以下步骤:
1. 导入requests和bs4库
```python
import requests
from bs4 import BeautifulSoup
```
2. 发送请求并获取网页内容
```python
url = "https://www.baidu.com"
response = requests.get(url)
html = response.text
```
3. 解析HTML
```python
soup = BeautifulSoup(html, "html.parser")
```
4. 查找元素并提取数据
```python
title = soup.title.string
print(title)
```
完整代码示例:
```python
import requests
from bs4 import BeautifulSoup
url = "https://www.baidu.com"
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, "html.parser")
title = soup.title.string
print(title)
```
输出结果:
```
百度一下,你就知道
```
相关问题
使用requests和bs4库爬取网站并保存在csv文件中的代码
好的,以下是使用requests和bs4库爬取网站并保存在csv文件中的代码:
```python
import requests
from bs4 import BeautifulSoup
import csv
# 请求URL
url = 'https://www.example.com'
# 发送请求,获取响应
response = requests.get(url)
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 查找需要的信息
data = []
for item in soup.find_all('div', class_='item'):
title = item.find('h2').text.strip()
content = item.find('p').text.strip()
data.append([title, content])
# 保存到CSV文件中
with open('data.csv', 'w', encoding='utf-8', newline='') as file:
writer = csv.writer(file)
writer.writerow(['Title', 'Content'])
for item in data:
writer.writerow(item)
```
希望可以帮助到您!如果您有其他问题,请继续提问。
利用requests库和BeautifulSoup库爬取豆瓣电影top25
好的,以下是使用 Python 的 requests 和 BeautifulSoup 库爬取豆瓣电影 top250 的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 请求 URL 和 headers
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送请求
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
# 解析页面
movies = soup.find_all('div', class_='hd')
for movie in movies:
print(movie.a.span.text)
```
以上代码会输出豆瓣电影 top250 的电影名称。您可以根据需求进行修改和扩展。
阅读全文