sb=re.compile(r'([^-]*)') #城市字段精简为区分到市级 def old_job_city(): sql="select j_id,area from boss" db = dbcon.dbc().conn() cs = db.cursor(); try: # 执行sql语句 cs.execute(sql) # 提交到数据库执行 db.commit() result = cs.fetchall(); except: # 发生错误时回滚 db.rollback() # 关闭数据库连接 db.close() return result joblist=old_job_city() def new_job_city(city,id): sql="update boss set area='%s' where j_id='%d'"%(city,id) db = dbcon.dbc().conn() print(sql) ds = db.cursor(); n = 0 try: # 执行sql语句 n = ds.execute(sql) # 提交到数据库执行 db.commit() except: # 发生错误时回滚 db.rollback() # 关闭数据库连接 db.close() return n for job in joblist: city=re.findall(sb, job[1]) if len(city)>2: new_job_city(city[0],job[0]) else: continue

时间: 2024-02-15 12:11:35 浏览: 195

这段代码的作用是从数据库中查询职位的城市信息，将城市字段精简为区分到市级，然后更新到数据库中。具体来说，它首先定义了一个正则表达式 `sb`，用于匹配城市信息中的非 `-` 字符串。然后通过 `old_job_city()` 函数从数据库中查询所有的职位信息和城市信息。接着定义了一个 `new_job_city()` 函数，用于更新给定职位的城市信息。最后通过一个循环遍历所有的职位信息，将城市信息精简为市级，然后更新到数据库中。

import requests # 导入网页请求库 from bs4 import BeautifulSoup # 导入网页解析库 import pandas as pd import numpy as np import re import matplotlib.pyplot as plt from pylab import mpl danurl=[]; def get_danurl(surl): r=requests.get(surl) r.encoding='utf-8' demo=r.text soup=BeautifulSoup(demo,"html.parser") wangzhi=soup.find_all('a',string=re.compile('杭州市小客车增量指标竞价情况')) list3=' '.join('%s' %id for id in wangzhi) res_url=r'href="(.?)"' alink = re.findall(res_url, list3, re.I | re.S | re.M) return alink def get_page(url): mydict={} r=requests.get(url) r.encoding='utf-8' demo=r.text #print(demo) soup=BeautifulSoup(demo,"html.parser") try: duan2=soup.find_all('p',class_="p")[0].text duan3=soup.find_all('p',class_="p")[2].text pattern3 = re.compile(r'(?<=个人)\d+.?\d') gerenbj=pattern3.findall(duan2)[0] jingjiariqi=soup.find_all('p',class_="p")[0].text.split('。')[0] except IndexError: duan2=soup.find_all('p',class_="p")[2].text duan3=soup.find_all('p',class_="p")[4].text pattern3 = re.compile(r'(?<=个人)\d+.?\d') gerenbj=pattern3.findall(duan2)[0] jingjiariqi=soup.find_all('p',class_="p")[2].text.split('。')[0] duan1=soup.find_all('p')[1].text pattern1 = re.compile(r'(?<=个人增量指标)\d+.?\d') gerenzb=pattern1.findall(duan1)[0] pattern2 = re.compile(r'(?<=单位增量指标)\d+.?\d') danweizb=pattern2.findall(duan1)[0] pattern4 = re.compile(r'(?<=单位)\d+.?\d') danweibj=pattern4.findall(duan2)[0] pattern5 = re.compile(r'(?<=个人)\d+.?\d') mingerencjj=pattern5.findall(duan3)[0] avegerencjj=pattern5.findall(duan3)[1] pattern6 = re.compile(r'(?<=单位)\d+.?\d') mindanweicjj=pattern6.findall(duan3)[0] avedanweicjj=pattern6.findall(duan3)[1] pattern7 = re.compile(r'(?<=成交)\d+.?\d*') mingerencjs=pattern7.findall(duan3)[0] mindanweicjs=pattern7.findall(duan3)[1] 解释代码

这段代码是用来爬取杭州市小客车增量指标竞价情况的数据。首先导入了requests库和BeautifulSoup库，用于进行网页请求和解析。然后定义了一个函数`get_danurl`，用于获取竞价情况网页的链接。函数中首先发送一个GET请求获取网页内容，然后使用BeautifulSoup进行解析，找到所有包含"杭州市小客车增量指标竞价情况"文本的链接，并通过正则表达式提取出链接地址。接下来是`get_page`函数，用于获取具体页面的数据。函数中同样发送一个GET请求获取网页内容，并使用BeautifulSoup进行解析。然后通过一些规则提取出所需的数据，如个人增量指标、单位增量指标、个人竞价、单位竞价、个人成交、单位成交等。最后返回一个包含这些数据的字典。

import pandas as pd import re fdata = pd.read_csv("cata_3024.csv",encoding="gbk") def extract_province(address): province_re = re.compile(r'^(.*?(省|自治区))') match = province_re.match(address) if match: return match.group(1) else: return '' def['province'] = df['address'].apply(extract_province)

在这段代码中，第一行和第二行是正确的，分别导入了pandas和re库，并使用pandas的read_csv函数读取了一个csv文件。但是在第三行，您似乎打错了变量名，应该将"fdata"改为"df"。修改后的代码如下： ```python import pandas as pd import re df = pd.read_csv("cata_3024.csv", encoding="gbk") def extract_province(address): province_re = re.compile(r'^(.*?(省|自治区))') match = province_re.match(address) if match: return match.group(1) else: return '' df['province'] = df['address'].apply(extract_province) ``` 在这个例子中，我们首先导入了pandas和re库，然后使用pandas的read_csv函数读取了一个csv文件。接着定义了一个函数extract_province，用于提取地址中的省份信息，并将其应用到DataFrame的每一行上。最后，我们将提取出来的省份信息存储在DataFrame的一个新列中。

阅读全文

相关推荐

Python中请不要再用re.compile了

正则表达式笔记（re.search_re.match_re.split_re.compile_用法） - douzujun -

shell-and-vi-compile.rar_linux C语言 shell_linux compile命令_reach4m

import pandas as pd import re def extract_province(address): province_re = re.compile(r'^(.*?(省|自治区))') match = province_re.match(address) if match: return match.group(1) else: return '' def['province'] = df['address'].apply(extract_province)

用python的a=re.compile（）编写程序匹配邮箱地址

Python3中正则模块re.compile、re.match及re.search函数用法详解

Python库 | pip_compile_multi-2.4.5-py2.py3-none-any.whl

Python库 | pip_compile_multi-1.5.0-py2.py3-none-any.whl

PyPI 官网下载 | pip_compile_multi-1.0.6-py2.py3-none-any.whl

PyPI 官网下载 | pip_compile_multi-1.5.0-py2.py3-none-any.whl

PyPI 官网下载 | pip_compile_multi-2.3.2-py2.py3-none-any.whl

Python库 | req_compile-0.10.6-py2.py3-none-any.whl

Python库 | proto_compile-0.1.6-py2.py3-none-any.whl

PyPI 官网下载 | proto_compile-0.1.6-py2.py3-none-any.whl

re.compile()和re.search()区别

re.compile是做什么

Java源码ssm框架医院预约挂号系统-毕业设计论文-期末大作业.rar

阿尔茨海默病脑电数据分析与辅助诊断：基于PDM模型的方法

大家在看

Digital Fundamentals 10th Ed (Solutions)- Floyd 数字电子技术第十版答案

建模-牧场管理

Advanced Data Structures

python爬虫1688一件代发电商工具（一）-抓取商品和匹配关系

普通模式电压的非对称偏置-fundamentals of physics 10th edition

最新推荐

Java源码ssm框架医院预约挂号系统-毕业设计论文-期末大作业.rar

易语言例程：用易核心支持库打造功能丰富的IE浏览框

管理建模和仿真的文件

STM32F407ZG引脚功能深度剖析：掌握引脚分布与配置的秘密（全面解读）

给出文档中问题的答案代码

Docker构建与运行Next.js应用的指南

"互动学习：行动中的多样性与论文攻读经历"

【热传递模型的终极指南】：掌握分类、仿真设计、优化与故障诊断的18大秘诀

python经典题型和解题代码

宠物控制台应用程序：Java编程实践与反思