（1）检查总价列所含的中文字符（'[\u4E00-\u9FA5]'）（2）删除中文字符（“万”），并将类型转换为float，并保留两位小数（3）依次检查单价、面积、建成时间、关注人数等其他列中所含的中文字符（4）观察数据集，查询'建成时间'列不包括关键字'年建'的记录数；只保留含关键字'年建'的记录（5）将单价、面积、建成时间和关注人数列转换为float类型。 2. 类型特征哑变量处理（1）查看户型特征的种类（唯一值），使用独热编码并加入到原有数据中，删除原有列。（2）查看区域特征的种类（唯一值），使用独热编码并加入到原有数据中，删除原有列。（3）查看类型特征的种类（唯一值），使用独热编码并加入到原有数据中，删除原有列（注意类型为'其他'的记录）。（4）查看结构特征的种类（唯一值），使用独热编码并加入到原有数据中，删除原有列（注意类型为'暂无数据'的记录）。（5）查看朝向特征的种类（唯一值），以'东', '南', '西', '北', '东北', '东南', '西南', '西北'为类型自定义独热编码函数，使用独热编码并加入到原有数据中，删除原有列。（6）检测'楼层'列中不包含'楼层'文字的记录数，只保留包含“楼层”记录。查看朝向特征的种类（唯一值），提取所在楼层，对所在楼层进行独热编码。使用正则表达式提取总楼层数据并转换为int类型，删除原有列。（7）检查整理列名称，注意列名称是否包含空格等。

时间: 2024-03-06 19:49:14 浏览: 19

好的，您的问题是： 1. 数据清洗（1）检查总价列所含的中文字符（'[\u4E00-\u9FA5]'）（2）删除中文字符（“万”），并将类型转换为float，并保留两位小数（3）依次检查单价、面积、建成时间、关注人数等其他列中所含的中文字符（4）观察数据集，查询'建成时间'列不包括关键字'年建'的记录数；只保留含关键字'年建'的记录（5）将单价、面积、建成时间和关注人数列转换为float类型。首先，我们可以使用 Pandas 库来读取和处理数据。假设我们有一个名为 df 的数据框，其中包含了房屋的信息，包括总价（price）、单价（unit_price）、面积（area）、建成时间（build_time）和关注人数（attention_num）等列。我们可以使用以下代码来完成上述任务： ``` import re # (1) 检查总价列所含的中文字符 if df['price'].str.contains('[\u4E00-\u9FA5]').any(): print('总价列包含中文字符！') # (2) 删除中文字符（“万”），并将类型转换为float，并保留两位小数 df['price'] = df['price'].str.replace('万', '').astype(float).round(2) # (3) 依次检查单价、面积、建成时间、关注人数等其他列中所含的中文字符 if df['unit_price'].str.contains('[\u4E00-\u9FA5]').any(): print('单价列包含中文字符！') if df['area'].str.contains('[\u4E00-\u9FA5]').any(): print('面积列包含中文字符！') if df['build_time'].str.contains('[\u4E00-\u9FA5]').any(): print('建成时间列包含中文字符！') if df['attention_num'].str.contains('[\u4E00-\u9FA5]').any(): print('关注人数列包含中文字符！') # (4) 观察数据集，查询'建成时间'列不包括关键字'年建'的记录数；只保留含关键字'年建'的记录 print('建成时间列不包括关键字"年建"的记录数：', len(df[~df['build_time'].str.contains('年建')])) df = df[df['build_time'].str.contains('年建')] # (5) 将单价、面积、建成时间和关注人数列转换为float类型 df['unit_price'] = df['unit_price'].astype(float) df['area'] = df['area'].astype(float) df['build_time'] = df['build_time'].apply(lambda x: re.findall('\d+', x)[0]).astype(float) df['attention_num'] = df['attention_num'].astype(float) ``` 以上代码中，我们使用了正则表达式来提取建成时间列中的数字，并将其转换为 float 类型。同时，我们也使用了 Pandas 的 str.contains() 函数来检查列中是否包含中文字符。 2. 类型特征哑变量处理（1）查看户型特征的种类（唯一值），使用独热编码并加入到原有数据中，删除原有列。（2）查看区域特征的种类（唯一值），使用独热编码并加入到原有数据中，删除原有列。（3）查看类型特征的种类（唯一值），使用独热编码并加入到原有数据中，删除原有列（注意类型为'其他'的记录）。（4）查看结构特征的种类（唯一值），使用独热编码并加入到原有数据中，删除原有列（注意类型为'暂无数据'的记录）。（5）查看朝向特征的种类（唯一值），以'东', '南', '西', '北', '东北', '东南', '西南', '西北'为类型自定义独热编码函数，使用独热编码并加入到原有数据中，删除原有列。（6）检测'楼层'列中不包含'楼层'文字的记录数，只保留包含“楼层”记录。查看朝向特征的种类（唯一值），提取所在楼层，对所在楼层进行独热编码。使用正则表达式提取总楼层数据并转换为int类型，删除原有列。（7）检查整理列名称，注意列名称是否包含空格等。以下是代码实现： ``` # (1) 查看户型特征的种类（唯一值），使用独热编码并加入到原有数据中，删除原有列 room_types = df['room_type'].unique() for room_type in room_types: df[room_type] = (df['room_type'] == room_type).astype(int) df.drop('room_type', axis=1, inplace=True) # (2) 查看区域特征的种类（唯一值），使用独热编码并加入到原有数据中，删除原有列 regions = df['region'].unique() for region in regions: df[region] = (df['region'] == region).astype(int) df.drop('region', axis=1, inplace=True) # (3) 查看类型特征的种类（唯一值），使用独热编码并加入到原有数据中，删除原有列（注意类型为'其他'的记录） house_types = df['house_type'].unique() for house_type in house_types: if house_type != '其他': df[house_type] = (df['house_type'] == house_type).astype(int) df.drop('house_type', axis=1, inplace=True) # (4) 查看结构特征的种类（唯一值），使用独热编码并加入到原有数据中，删除原有列（注意类型为'暂无数据'的记录） structure_types = df['structure'].unique() for structure_type in structure_types: if structure_type != '暂无数据': df[structure_type] = (df['structure'] == structure_type).astype(int) df.drop('structure', axis=1, inplace=True) # (5) 查看朝向特征的种类（唯一值），以'东', '南', '西', '北', '东北', '东南', '西南', '西北'为类型自定义独热编码函数，使用独热编码并加入到原有数据中，删除原有列 def one_hot_encoding_direction(df): directions = ['东', '南', '西', '北', '东北', '东南', '西南', '西北'] for direction in directions: df[direction] = df['direction'].apply(lambda x: 1 if direction in x else 0) df.drop('direction', axis=1, inplace=True) one_hot_encoding_direction(df) # (6) 检测'楼层'列中不包含'楼层'文字的记录数，只保留包含“楼层”记录。查看朝向特征的种类（唯一值），提取所在楼层，对所在楼层进行独热编码。使用正则表达式提取总楼层数据并转换为int类型，删除原有列。 print('楼层列不包含"楼层"的记录数：', len(df[~df['floor'].str.contains('楼层')])) df = df[df['floor'].str.contains('楼层')] df['floor'] = df['floor'].apply(lambda x: re.findall('\d+', x)[0]).astype(int) one_hot_encoded_floor = pd.get_dummies(df['floor'], prefix='floor') df = pd.concat([df, one_hot_encoded_floor], axis=1) df.drop('floor', axis=1, inplace=True) one_hot_encoding_direction(df) # (7) 检查整理列名称，注意列名称是否包含空格等。 df.columns = df.columns.str.strip() # 去除列名中的空格 ``` 以上代码中，我们使用了 Pandas 的 get_dummies() 函数来进行独热编码，并使用正则表达式来提取楼层和建成时间列中的数字。同时，我们也注意到了列名中可能存在的空格等问题，并使用了 str.strip() 函数来去除空格。

相关推荐

PHP 正则表达式验证中文的问题

JS正则表达式验证中文字符

C#匹配中文字符串的4种正则表达式分享

u4e00- u9fa5

java中\u4e00-\u9fa5 和 \u4E00-\u9FA5有什么区别

/[\u4e00-\u9fa5]/和/^[\\u4e00-\\u9fa5]+$/有什么区别

解释一下pat1 = r'(([\u4e00-\u9fa5])\2([\u4e00-\u9fa5])\3)'

/^[\u4e00-\u9fa5a-zA-Z]{2,10}([\u4e00-\u9fa5a-zA-Z]+[\s,·])?[\u4e00-\u9fa5a-zA-Z]{2,10}$/ 解释一下这段正则

u4e00-\u9fa5

[^\u4e00-\u9fa5]

/^([-\w\u4e00-\u9fa5()]+[-\w\u4e00-\u9fa5()\s]*[-\w\u4e00-\u9fa5()]+|[-\w\u4e00-\u9fa5()]*)$/

\u4e00-\u9fa5

[\u4e00-\u9fa5]表示什么

[\u4e00-\u9fa5]+

^[\u4e00-\u9fa5]{1,}$表示什么

“^\u4e00-\u9fa5\u0030-\u0039”的含义

[\u4e00-\u9fa5]

如何使用和匹配[\u4e00-\u9fa5]+\.img$

/[\u4e00-\u9fa5]/g

[\u4E00-\u9FA5a-zA-Z]+

最新推荐

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

解释minorization-maximization (MM) algorithm，并给出matlab代码编写的例子

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

实现实时监控告警系统：Kafka与Grafana整合

帮我实现在Androidstudio调用chapgpt并提供源码

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf

关系数据表示学习

/^([-\w\u4e00-\u9fa5()]+[-\w\u4e00-\u9fa5()\s][-\w\u4e00-\u9fa5()]+|[-\w\u4e00-\u9fa5()])$/