解释total_df = pd.merge(paper_df,cite_df,on='title_name',how='outer')
时间: 2023-11-28 13:05:31 浏览: 44
这行代码将两个数据框 paper_df 和 cite_df 按照它们的 title_name 列进行外连接(outer join)合并,并将合并后的结果存储在 total_df 中。外连接是一种合并方式,它会将两个数据框中的所有行都合并起来,如果其中一个数据框中的某些行在另一个数据框中找不到匹配的行,则在合并后的结果中,这些行会被保留下来,但是对应的列会被填充为缺失值(NaN)。
相关问题
使用total_df = pd.merge(paper_df,cite_df,on='title_name',how='innerr'),为什么会出现重复行
出现重复行可能是因为合并两个数据集时,title_name在其中一个数据集中出现了多次。这样,在合并后的数据集中,每个title_name都会被匹配到多个cite_df中的行,从而导致重复行的出现。可以使用.drop_duplicates()方法去除重复行。例如,可以在合并后的代码后面添加如下代码:
total_df = total_df.drop_duplicates()
这样就可以去除重复行了。
解释total_df = pd.merge(paper_df,cite_df,on='title_name',how='outer')中的how是什么,以及其他模式包含哪些
how是指合并的方式,包括以下几种模式:
1. inner:内连接,保留两个数据框中都存在的记录。
2. outer:外连接,保留两个数据框中所有记录,如果某个数据框中没有对应的记录,则用NaN填充。
3. left:左连接,以左边的数据框为准,保留左边数据框中所有记录,右边数据框中没有对应的记录用NaN填充。
4. right:右连接,以右边的数据框为准,保留右边数据框中所有记录,左边数据框中没有对应的记录用NaN填充。
相关推荐
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)