首页python爬虫爬取50000+新浪新闻

python爬虫爬取50000+新浪新闻

时间: 2023-10-10 13:13:50 浏览: 63

使用Python爬虫爬取新浪新闻，您可以通过伪装成浏览器来避免被服务器屏蔽。一种实现方法是通过设置请求报头来模拟浏览器的请求。您可以打开某个网页，在开发者工具的Network选项中查看请求报头，然后使用相同的报头进行爬取。另外，您还可以使用正则表达式来处理返回的文档，提取新闻标题和网址。例如，您可以使用以下代码来爬取50000条新浪新闻的标题和网址： ```python import requests import re headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } titles = [] links = [] for page in range(1, 1001): url = f'https://news.sina.com.cn/roll/#page{page}' response = requests.get(url, headers=headers) content = response.text pat1 = r'"title":"(.*?)",' pat2 = r'"url":"(.*?)",' titles += re.findall(pat1, content) links += re.findall(pat2, content) if len(titles) >= 50000: break for i in range(50000): print(f'Title: {titles[i]}') print(f'URL: {links[i]}') print('---') ```