python 数据去重
时间: 2023-09-03 11:15:31 浏览: 45
可以使用set()函数对数据进行去重,set()函数会保留数据中唯一的值,示例代码如下:
```python
data = [1, 2, 2, 3, 4, 4, 5]
result = set(data)
print(result)
```
输出结果:
```
{1, 2, 3, 4, 5}
```
另外,如果需要保留原始数据的顺序,可以使用列表推导式和条件判断来实现,示例代码如下:
```python
data = [1, 2, 2, 3, 4, 4, 5]
result = []
for i in data:
if i not in result:
result.append(i)
print(result)
```
输出结果:
```
[1, 2, 3, 4, 5]
```
相关问题
python数据去重
在Python中,可以使用多种方法对数据进行去重。以下是几种常见的方法:
1. 使用集合(set):将数据转换为集合,集合中的元素是唯一的,重复的元素会被自动去除。
```python
data = [1, 2, 3, 3, 4, 5, 5]
unique_data = list(set(data))
print(unique_data) # 输出 [1, 2, 3, 4, 5]
```
2. 使用列表推导式:通过遍历原始数据,将不重复的元素添加到新列表中。
```python
data = [1, 2, 3, 3, 4, 5, 5]
unique_data = [x for i, x in enumerate(data) if x not in data[:i]]
print(unique_data) # 输出 [1, 2, 3, 4, 5]
```
3. 使用字典键(dict keys):利用字典的键是唯一的特性,将原始数据作为键,新列表中的值可以是任意值(例如 None)。
```python
data = [1, 2, 3, 3, 4, 5, 5]
unique_data = list(dict.fromkeys(data))
print(unique_data) # 输出 [1, 2, 3, 4, 5]
```
这些方法都可以实现数据去重,具体选择哪种方法取决于你的需求和个人偏好。
python pandas 数据去重
在Python中,使用pandas库可以很方便地进行数据去重操作。下面是三种常见的方法:
1. 使用`drop_duplicates`方法:这个方法适用于DataFrame格式的数据,可以去除指定列下的重复行。具体代码如下:
```python
import pandas as pd
# 读取数据
df = pd.read_excel('666.xlsx')
# 去重
df.drop_duplicates(subset=['ASIN'], keep='first', inplace=True)
# 打印去重后的数据
print(df)
```
引用自
2. 使用`drop_duplicates`方法:这个方法同样适用于DataFrame格式的数据。具体代码如下:
```python
import pandas as pd
# 读取数据
csv = pd.read_csv('E:/aaa/03.csv', low_memory=False, error_bad_lines=False)
df = pd.DataFrame(csv)
# 打印原始数据行数
print(df.shape)
# 去重
f = df.drop_duplicates(keep=False)
# 打印去重后的数据行数
print(f.shape)
# 将去重后的数据写入新文件
f.to_csv('E:/aaa/distionct_03.csv', index=None)
```
引用自
总结起来,以上两种方法都是使用pandas的`drop_duplicates`方法来进行数据去重。第一种方法是针对Excel文件,第二种方法是针对CSV文件。根据你的具体需求选择其中的一种方法即可。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* [pandas怎么去除数据中的重复值](https://blog.csdn.net/Leexin_love_Ling/article/details/114024136)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
- *2* *3* [python数据去重(pandas)](https://blog.csdn.net/qq_39012566/article/details/98633780)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://img-home.csdnimg.cn/images/20210720083646.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)