python爬虫代码知乎
时间: 2024-09-16 12:04:38 浏览: 122
Python爬虫代码通常用于从网站上抓取数据,如知乎这样的社交媒体平台。在Python中,常见的库如`requests`用于发送HTTP请求获取网页内容,`BeautifulSoup`或`lxml`用于解析HTML文档提取所需信息,`Scrapy`是一个更强大的框架,专为爬虫设计。
下面是一个简单的使用`requests`和`BeautifulSoup`爬取知乎文章标题的示例:
```python
import requests
from bs4 import BeautifulSoup
def zhihu_topic_scraper(topic_url):
# 发送GET请求
response = requests.get(topic_url)
# 检查请求是否成功
if response.status_code == 200:
# 解析响应内容为BeautifulSoup对象
soup = BeautifulSoup(response.text, 'html.parser')
# 查找并提取文章标题
article_titles = [title.text for title in soup.find_all('h2', class_='QuestionItem-title')]
return article_titles
else:
print(f"请求失败,状态码:{response.status_code}")
# 使用函数
topic_url = "https://www.zhihu.com/topic/xxx"
titles = zhihu_topic_scraper(topic_url)
# 打印结果
for title in titles:
print(title)
阅读全文