下列代码中统计id为 "main" 的元素的第一个子元素 ul下的元素个数import requests from bs4 import BeautifulSoup headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.41'} url='https://www.ibiquges.com/xiaoshuodaquan/' strhtml=requests.get(url,headers=headers) soup=BeautifulSoup(strhtml.text,'lxml') info=soup.select('#main > div:nth-child(1) > ul') for item in info: print(item.get_text())

以代码中info1_list为横轴，count_list为相应数据，以200,400,600,800为纵轴，绘制柱形图import requests from bs4 import BeautifulSoup import matplotlib.pyplot as plt import numpy as np headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.41'} url='https://www.ibiquges.com/xiaoshuodaquan/' strhtml=requests.get(url,headers=headers) soup=BeautifulSoup(strhtml.text,'lxml') info_list = []#书籍目录 count_list = []#书籍数量 info1_list = [] for i in range(1, 14, 2): info = soup.select(f'#main > div:nth-child({i}) > ul') info1 = soup.select(f'#main > div:nth-child({i}) > h2') for item in info: #print(item.get_text()) count = len(info[0].find_all('li')) count_list.append(count) info_list.append(info) for item1 in info1: print(item1.get_text()) info1_list.append(item1.get_text()) print(info1_list) print(count_list)

from bs4 import BeautifulSoup import matplotlib.pyplot as plt import numpy as np headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0....

将下列代码合并一下，使其看起来简洁些import requests from bs4 import BeautifulSoup headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.41'} url='https://www.ibiquges.com/xiaoshuodaquan/' strhtml=requests.get(url,headers=headers) soup=BeautifulSoup(strhtml.text,'lxml') info=soup.select('#main > div:nth-child(1) > ul') for item in info: print(item.get_text()) count = len(info[0].find_all('li')) print(count) info1=soup.select('#main > div:nth-child(3) > ul') for item in info1: print(item.get_text()) count1 = len(info1[0].find_all('li')) print(count1) info2=soup.select('#main > div:nth-child(5) > ul') for item in info2: print(item.get_text()) count2 = len(info2[0].find_all('li')) print(count2) info3=soup.select('#main > div:nth-child(7) > ul') for item in info3: print(item.get_text()) count3 = len(info3[0].find_all('li')) print(count3) info4=soup.select('#main > div:nth-child(9) > ul') for item in info4: print(item.get_text()) count4 = len(info4[0].find_all('li')) print(count4) info5=soup.select('#main > div:nth-child(11) > ul') for item in info5: print(item.get_text()) count5 = len(info5[0].find_all('li')) print(count5) info6=soup.select('#main > div:nth-child(13) > ul') for item in info6: print(item.get_text()) count6 = len(info6[0].find_all('li')) print(count6)

from bs4 import BeautifulSoup headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.41'} url='...

import requests from bs4 import BeautifulSoup import openpyxl class LianJiaSpider(): def init(self): self.url = 'https://bj.lianjia.com/ershoufang/pg{0}/' self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.0.12022 SLBChan/109'} def send_request(self, url): resp = requests.get(url, headers=self.headers) if resp.status_code == 200: return resp def parse_html(self, resp): lst = [] html = resp.text bs = BeautifulSoup(html, 'lxml') ul = bs.find('ul', class_='sellListContent') li_list = ul.find_all('li') for item in li_list: title = item.find('div', class_='title').text positionInfo = item.find('div', class_='positionInfo').text address = item.find('div', class_='address').text followInfo = item.find('div', class_='followInfo').text tag = item.find('div', class_='tag').text totalPrice = item.find('div', class_='totalPrice totalPrice2').text unitPrice = item.find('div', class_='unitPrice').text # print(unitPrice) lst.append((title, positionInfo, address, followInfo, tag, totalPrice, unitPrice)) print(lst) self.save(lst) def save(self, lst): wb = openpyxl.Workbook() sheet = wb.active for row in lst: sheet.append(row) continue wb.save('D:/爬虫/链家.csv') def start(self): for i in range(1, 5): full_url = self.url.format(i) resp = self.send_request(full_url) #print(resp.text) self.parse_html(resp) if name == 'main': lianjia = LianJiaSpider() lianjia.start()使用以上代码爬取数据保存到文件中只显示最后一页30条数据，前面页码的数据都被覆盖了，如何更改

from bs4 import BeautifulSoup import openpyxl class LianJiaSpider(): def __init__(self): self.url = 'https://bj.lianjia.com/ershoufang/pg{0}/' self.headers = {'User-Agent': 'Mozilla/5.0 (Windows ...

import requests from bs4 import BeautifulSoup import time headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 " "Safari/537.36 Edg/113.0.1774.42" } def get_info(url): wb_data = requests.get(url, headers=headers) soup = BeautifulSoup(wb_data.text, 'lxml') ranks = soup.select('span.pc_temp_num') titles = soup.select('div.pc_temp_songlist>ul>li>a') times = soup.select('span.pc_temp_tips_r>span') for rank, title, time in zip(ranks, titles, times): str1 = title.get_text().split('.') data = { 'rank': rank.get_text().strip(), 'singer': str1[0], 'song': str1[-1], 'time': time.get_text().strip() } print(data) if name == 'main': urls = ["https://www.kugou.com/yy.rank/home{}.8888.html".format(str(i)) for i in range(1, 30)] for url in urls: get_info(url) time.sleep(2)print(data) UnboundLocalError: local variable 'data' referenced before assignment

这个错误是因为 data 变量没有被正确地初始化。在 get_info 函数中，data 变量只在循环内部被定义，因此如果没有任何一次循环被执行，那么在函数结束时它仍然不存在。如果你想在循环外部使用 data 变量，你...

import requests import os from bs4 import BeautifulSoup cookie = os.getenv('MY_COOKIE') # 保存到环境变量中 def get_with_cookie(url): headers = { 'cookie': cookie, 'pragma': 'no-cache', 'referer': 'https://uland.taobao.com/sem/tbsearch?refpid=mm_26632258_3504122_32538762&keyword=%E7%88%B1%E6%B7%98%E5%AE%9D%E4%B9%B0%E4%B8%9C%E8%A5%BF&clk1=066356e5e429004e6730976351cc1afc&upsId=066356e5e429004e6730976351cc1afc', 'sec-ch-ua': '"Microsoft Edge";v="113", "Chromium";v="113", "Not-A.Brand";v="24"', 'sec-ch-ua-mobile': '?0', 'sec-ch-ua-platform': "Windows", 'sec-fetch-dest': 'document', 'sec-fetch-mode': 'navigate', 'sec-fetch-site': 'same-origin', 'sec-fetch-user': '?1', 'upgrade-insecure-requests': '1', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.50' } resp = requests.get(url=url, headers=headers) return resp.text # 解析HTML内容，提取商品名称、价格和销量信息 def parse_html(html): soup = BeautifulSoup(html, 'html.parser') title = soup.select_one('h3.tb-main-title[data-title]') return title # 测试接口： url = 'https://item.taobao.com/item.htm?id=699089474285&ali_refid=a3_430673_1006:1102522391:N:%2BAkz14GC%2BXi%2Bma9dw7y9M4p5Yhq5iT8I:f9e826228fbc823934848d20e28dff81&ali_trackid=162_f9e826228fbc823934848d20e28dff81&spm=a2e0b.20350158.31919782.5' resp_text = get_with_cookie(url) title = parse_html(resp_text) # 打印商品信息 print(title.text.strip())使用try-except语句捕获异常

from bs4 import BeautifulSoup cookie = os.getenv('MY_COOKIE') # 保存到环境变量中 def get_with_cookie(url): headers = { 'cookie': cookie, 'pragma': 'no-cache', 'referer': '...

import requests import re import os from bs4 import BeautifulSoup from scrapy import Spider from PIL import Image import io def GetBasicInfo(url): res = requests.get(url, headers=headers) res.encoding = 'utf-8' soup = BeautifulSoup(res.text, 'lxml') tmp = soup.find(attrs={'class': 'mhlistbody'}) chapters = tmp.ul.contents chapters.reverse() return chapters def GetRealUrls(mh_info): imgs = [] comic_size = re.findall(r'comic_size:"(.?)"', mh_info)[0] base_url = 'https://mhpic.jumanhua.com/comic/{}.jpg%s.webp' % comic_size num_img = int(re.findall(r'totalimg:(\d+)', mh_info)[0]) pageid = int(re.findall(r'pageid:(\d+)', mh_info)[0]) imgpath = re.findall(r'imgpath:"(.?)"', mh_info)[0] start = 0 while True: idx = imgpath.find('\\', start) if idx == -1: break imgpath = imgpath[:idx] + imgpath[idx+1:] start = idx + 1 for i in range(num_img): realpath = str() for s in imgpath: realpath += chr(ord(s) - pageid % 10) url = base_url.format(realpath + str(i+1)) imgs.append([url, str(i+1)+'.jpg']) return imgs def DownloadChapter(savepath, url): if not os.path.exists(savepath): os.mkdir(savepath) res = requests.get(url, headers=headers) res.encoding = 'utf-8' mh_info = re.findall(r'mh_info={(.*?)}', res.text)[0] img_urls = GetRealUrls(mh_info) for img_url in img_urls: img_content = requests.get(img_url[0]).content filename = os.path.join(savepath, img_url[1]) img = Image.open(io.BytesIO(img_content)) img.save(filename) if name == 'main': url = 'https://www.manhuatai.com/yaoshenji/' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36'} savepath = url.split('/')[-2] Spider(url,savepath)

这段代码是一个简单的Python脚本，用于下载指定漫画网站的漫画图片。它使用了requests库来发送HTTP请求，re库用于正则表达式匹配，os库用于处理文件路径，BeautifulSoup库用于解析HTML，PIL库用于处理图片...

用python代码写一个爬取网易云音乐的代码

这段代码爬取的是网易云音乐上一个歌单的歌曲信息（歌单ID为3778678），输出的是歌曲ID和歌曲名称。需要注意的是，网易云音乐的网页是使用Ajax加载的，所以如果要爬取的是某个歌手的歌曲信息，就需要使用模拟Ajax...

用Python爬虫做一个“天气预报”软件（exe可执行）

from bs4 import BeautifulSoup def get_weather(city_code): url = 'http://www.weather.com.cn/weather/{}.shtml'.format(city_code) headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ...

写一个爬取网易云音乐歌单信息包含了歌单的ID、名字、播放次数、创建时间、创建歌单的用户、歌单的类型、更新时间、收藏数量、歌曲数量、歌单的描述、歌单的评论数量、分享数量的代码

from bs4 import BeautifulSoup url = 'https://music.163.com/discover/playlist' headers = { 'Referer': 'https://music.163.com/', 'Host': 'music.163.com', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;...

python爬虫电影GUI代码

from bs4 import BeautifulSoup import tkinter as tk # 爬取电影数据 def get_movie_data(): url = 'http://www.ygdy8.net/html/gndy/dyzz/index.html' headers = {'User-Agent': 'Mozilla/5.0'} response = ...

请用Python给我写一个程序，要求：1，程序为中文语言，使用www.ip138.com网站查询；2，用户可通过输入IPv4地址，在点击回车键后查询输入IPv4地址的经纬度信息，经纬度信息要精确到分、秒，并把查询到的经纬度信息以文本的形式呈现在控制台上。

from bs4 import BeautifulSoup def get_ip_location(ip_address): '''通过ip138网站查询给定IP地址的经纬度信息''' url = f'http://www.ip138.com/ips1388.asp?ip={ip_address}&action=2' headers = { 'User-...

python调试文件时发生import requests报错.doc

python调试文件时发生import requests报错，先填写环境变量，如何一步步完成pip安装过程。

requests+BeautifulSoup4+MongoDB 爬取51job招聘信息

【Python爬虫】通过requests+BeautifulSoup4+MongoDB 爬取51job招聘信息（最新）

python爬虫代码（requests、BeautifulSoup）.docx

requests+lxml/etree+xpath表达式 requests+BeautifulSoup+find_all进行信息提取

相关推荐

import reimport requestsfrom bs4 import BeautifulSoupimport t

使用requests和BeautifulSoup库实现从任意网站爬取数据_附源代码+注释

# 第一个爬虫示例,爬取百度页面 import requests #导入爬虫的库，不然调用不了爬虫的函数 response =

用python代码写一个爬取网易云音乐的代码

用Python爬虫做一个“天气预报”软件（exe可执行）

写一个爬取网易云音乐歌单信息包含了歌单的ID、名字、播放次数、创建时间、创建歌单的用户、歌单的类型、更新时间、收藏数量、歌曲数量、歌单的描述、歌单的评论数量、分享数量的代码

python爬虫电影GUI代码

python调试文件时发生import requests报错.doc

requests+BeautifulSoup4+MongoDB 爬取51job招聘信息

python爬虫代码（requests、BeautifulSoup）.docx

最新推荐

nodejs-x64-0.10.21.tgz

node-v4.1.1-linux-armv6l.tar.xz

node-v4.1.0-linux-arm64.tar.xz

matlab S-Function 混合系统仿真

智慧交通规划方案.pptx

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

用matlab绘制高斯色噪声情况下的频率估计CRLB，其中w(n)是零均值高斯色噪声，w(n)=0.8*w(n-1)+e(n)，e(n)服从零均值方差为se的高斯分布

JSBSim Reference Manual