python爬取新榜源代码
时间: 2023-09-25 19:09:32 浏览: 74
以下是一个简单的 Python 爬取新榜的示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.newrank.cn/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
# 根据需要提取页面信息
# 示例:提取页面标题
title = soup.title.text.strip()
print(title)
```
首先,我们导入了 requests 和 BeautifulSoup 模块。然后,我们指定了要爬取的网址,并设置了请求头以避免被反爬虫机制封锁。接着,我们使用 requests 库发起 GET 请求,并将响应的 HTML 文档传递给 BeautifulSoup 对象进行解析。最后,我们可以使用 BeautifulSoup 对象提供的方法提取我们需要的信息。在本示例中,我们提取了页面标题并将其打印到控制台上。
当然,你需要根据具体需求修改代码。另外,爬取网站时需要注意遵守网站的 robots.txt 协议,不要过于频繁地发起请求,以免给服务器造成过大的负担。
阅读全文