使用total_df = pd.merge(paper_df,cite_df,on='title_name',how='inner'),为什么会多出数据
时间: 2023-11-28 11:05:28 浏览: 123
使用inner join的方式合并两个数据集时,只会保留两个数据集中都存在的记录,即只会保留在title_name列上存在相同值的记录。如果合并后出现了多出数据的情况,可能是因为两个数据集中存在title_name值相同但其他列的值不同的记录,导致这些记录在合并时被重复保留下来。这种情况可能需要进一步对数据进行清洗或者调整合并方式。
相关问题
使用total_df = pd.merge(paper_df,cite_df,on='title_name',how='innerr'),为什么会出现重复行
出现重复行可能是因为合并两个数据集时,title_name在其中一个数据集中出现了多次。这样,在合并后的数据集中,每个title_name都会被匹配到多个cite_df中的行,从而导致重复行的出现。可以使用.drop_duplicates()方法去除重复行。例如,可以在合并后的代码后面添加如下代码:
total_df = total_df.drop_duplicates()
这样就可以去除重复行了。
解释total_df = pd.merge(paper_df,cite_df,on='title_name',how='outer')
这行代码将两个数据框 paper_df 和 cite_df 按照它们的 title_name 列进行外连接(outer join)合并,并将合并后的结果存储在 total_df 中。外连接是一种合并方式,它会将两个数据框中的所有行都合并起来,如果其中一个数据框中的某些行在另一个数据框中找不到匹配的行,则在合并后的结果中,这些行会被保留下来,但是对应的列会被填充为缺失值(NaN)。
阅读全文