首页python爬取新榜源代码

python爬取新榜源代码

时间: 2023-09-25 19:09:32 浏览: 74

以下是一个简单的 Python 爬取新榜的示例代码： ```python import requests from bs4 import BeautifulSoup url = 'https://www.newrank.cn/' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') # 根据需要提取页面信息 # 示例：提取页面标题 title = soup.title.text.strip() print(title) ``` 首先，我们导入了 requests 和 BeautifulSoup 模块。然后，我们指定了要爬取的网址，并设置了请求头以避免被反爬虫机制封锁。接着，我们使用 requests 库发起 GET 请求，并将响应的 HTML 文档传递给 BeautifulSoup 对象进行解析。最后，我们可以使用 BeautifulSoup 对象提供的方法提取我们需要的信息。在本示例中，我们提取了页面标题并将其打印到控制台上。当然，你需要根据具体需求修改代码。另外，爬取网站时需要注意遵守网站的 robots.txt 协议，不要过于频繁地发起请求，以免给服务器造成过大的负担。

阅读全文