python爬虫爬取50000+新浪新闻
时间: 2023-10-10 13:13:50 浏览: 63
使用Python爬虫爬取新浪新闻,您可以通过伪装成浏览器来避免被服务器屏蔽。一种实现方法是通过设置请求报头来模拟浏览器的请求。您可以打开某个网页,在开发者工具的Network选项中查看请求报头,然后使用相同的报头进行爬取。另外,您还可以使用正则表达式来处理返回的文档,提取新闻标题和网址。
例如,您可以使用以下代码来爬取50000条新浪新闻的标题和网址:
```python
import requests
import re
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
titles = []
links = []
for page in range(1, 1001):
url = f'https://news.sina.com.cn/roll/#page{page}'
response = requests.get(url, headers=headers)
content = response.text
pat1 = r'"title":"(.*?)",'
pat2 = r'"url":"(.*?)",'
titles += re.findall(pat1, content)
links += re.findall(pat2, content)
if len(titles) >= 50000:
break
for i in range(50000):
print(f'Title: {titles[i]}')
print(f'URL: {links[i]}')
print('---')
```
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)