首页python起点爬虫代码

python起点爬虫代码

时间: 2023-09-05 07:12:30 浏览: 59

以下是一个使用 Python 进行起点小说网站爬虫的示例代码： ```python import requests from bs4 import BeautifulSoup def get_novel_content(url): response = requests.get(url) if response.status_code == 200: soup = BeautifulSoup(response.content, 'html.parser') novel_content = soup.find('div', class_='read-content j_readContent') if novel_content: return novel_content.text.strip() return None url = "https://read.qidian.com/chapter/abc123" novel_content = get_novel_content(url) if novel_content: print(novel_content) else: print("Failed to fetch novel content.") ``` 在这个示例中，我们使用了 `requests` 库发送 HTTP 请求，并使用 `BeautifulSoup` 进行 HTML 解析。`get_novel_content` 函数接受一个小说章节的 URL 参数，并返回章节的内容。我们首先发送 GET 请求获取页面的内容，然后使用 BeautifulSoup 解析 HTML。通过查找特定的 HTML 元素，我们可以提取小说内容。在这个示例中，我们使用了 `find` 方法来找到具有特定类名的 `<div>` 元素，并提取其文本内容。请注意，这只是一个示例，实际爬取网站时可能需要根据网站的具体结构进行相应调整。另外，请确保遵守网站的访问策略和法律法规，以及尊重原创作者的权益。