首页reviews=reviews.copy() reviews=reviews[['content']] print('去重之前：',reviews.shape[0]) reviews=reviews.drop_duplicates() print('去重之后：',reviews.shape[0])

reviews=reviews.copy() reviews=reviews[['content']] print('去重之前：',reviews.shape[0]) reviews=reviews.drop_duplicates() print('去重之后：',reviews.shape[0])

时间: 2023-06-18 22:02:28 浏览: 79

文本情感分类 'negative', 'neutral', 'positive' 数据集reviews.csv

博客地址 https://blog.csdn.net/qq_37401291/article/details/128730195

这段代码的作用是对一个名为`reviews`的DataFrame进行去重操作，只保留`content`列，并打印出去重前后的数据量。首先，`reviews=reviews.copy()`是为了避免对原始的`reviews`对象进行修改，以免影响后续的操作。然后，`reviews=reviews[['content']]`是为了只保留`content`列。接着，`reviews=reviews.drop_duplicates()`是对`reviews`进行去重操作，去除重复的行。最后，使用`print()`函数打印出去重前后的数据量，以便确认去重操作是否成功。

阅读全文