首页import requests from bs4 import BeautifulSoup import csv # 请求URL url = 'https://s.weibo.com/top/summary' # 请求头部信息 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 发送请求 response = requests.get(url, headers=headers) # 解析HTML页面 soup = BeautifulSoup(response.text, 'lxml') # 获取热搜列表 hot_list = soup.find_all('tr')[1:11] # 输出展示和保存到csv文件 with open('weibo_hot.csv', 'w', newline='', encoding='utf-8-sig') as csvfile: writer = csv.writer(csvfile) writer.writerow(['排名', '标题', '日期', '内容']) for i, item in enumerate(hot_list): title = item.find_all('a')[0].text date = item.find_all('td')[1].text content = item.find_all('td')[2].text.strip() writer.writerow([i+1, title, date, content]) print(f"{i+1}. 标题：{title} 日期：{date} 内容：{content}")

import requests from bs4 import BeautifulSoup import csv # 请求URL url = 'https://s.weibo.com/top/summary' # 请求头部信息 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 发送请求 response = requests.get(url, headers=headers) # 解析HTML页面 soup = BeautifulSoup(response.text, 'lxml') # 获取热搜列表 hot_list = soup.find_all('tr')[1:11] # 输出展示和保存到csv文件 with open('weibo_hot.csv', 'w', newline='', encoding='utf-8-sig') as csvfile: writer = csv.writer(csvfile) writer.writerow(['排名', '标题', '日期', '内容']) for i, item in enumerate(hot_list): title = item.find_all('a')[0].text date = item.find_all('td')[1].text content = item.find_all('td')[2].text.strip() writer.writerow([i+1, title, date, content]) print(f"{i+1}. 标题：{title} 日期：{date} 内容：{content}")

时间: 2023-07-15 17:10:24 浏览: 71

python爬虫练习：爬图片

python 爬虫练习项目：爬图片，目标网站 http://www.win4000.com/ 美桌图片主要思路：该网站存在’http://www.win4000.com/meinvtag’ + str(i) + ‘_1.html’ 这样的一个链接形式的多个图片分类集合页面，暂时叫做tag页面吧，每个tag下面有5页组成（range(1, 6): # 共5个页面）， 1、获取所有tag页面：遍历所有tag页面，寻找r.status_code 为 200的页面，同时分析页面，通过find(‘h2’)的标签，寻找此tag页面的名称，将存在的页面的名称和地址放入字典返回。 def get_al

这是一个爬取微博热搜榜的Python程序。首先，使用requests库发送GET请求获取HTML页面，然后使用BeautifulSoup库解析HTML页面。接着，找到热搜列表所在的HTML标签，并且用find_all方法获取前10个热搜。最后，将热搜的排名、标题、日期和内容写入CSV文件，并且在控制台输出热搜的详细信息。

阅读全文