用python爬取小红书平台数据的代码
时间: 2023-06-17 16:05:54 浏览: 577
以下是一个简单的 Python 爬虫示例,可以用于爬取小红书平台的数据。请注意,这个代码仅作为学习参考,未经小红书官方许可不得用于商业用途。
```python
import requests
import json
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
def get_data(pageNum):
url = 'https://www.xiaohongshu.com/fe_api/burdock/weixin/v2/search/notes'
params = {
'sort': 'general',
'keyword': '化妆品',
'page': pageNum,
'pageSize': 20,
'needGifCover': 'false',
'platform': 'all'
}
response = requests.get(url, params=params, headers=headers)
json_data = json.loads(response.text)
return json_data
if __name__ == '__main__':
for i in range(1, 5):
data = get_data(i)
for item in data['data']:
print(item['title'])
```
上面的代码使用 requests 库发送 HTTP 请求,并使用 json 库解析响应数据。其中,`get_data` 函数接受一个参数 `pageNum`,表示要获取的页码。该函数构造了一个 HTTP GET 请求,并使用 requests 库发送请求。请求参数包括排序方式、关键词、页码、每页大小、是否需要 GIF 封面以及平台类型。请求成功后,调用 json.loads() 将响应数据转换为 Python 字典对象。
在主函数中,我们循环调用 `get_data` 函数,获取前 4 页的数据。对于每一页的数据,我们遍历其中的每一条笔记,打印出标题。当然,你可以根据自己的需求对数据进行存储或其他处理。
阅读全文