解释total_df = pd.merge(paper_df,cite_df,on='title_name',how='outer')
时间: 2023-11-28 08:05:31 浏览: 164
这行代码将两个数据框 paper_df 和 cite_df 按照它们的 title_name 列进行外连接(outer join)合并,并将合并后的结果存储在 total_df 中。外连接是一种合并方式,它会将两个数据框中的所有行都合并起来,如果其中一个数据框中的某些行在另一个数据框中找不到匹配的行,则在合并后的结果中,这些行会被保留下来,但是对应的列会被填充为缺失值(NaN)。
相关问题
解释total_df = pd.merge(paper_df,cite_df,on='title_name',how='outer')中的how是什么,以及其他模式包含哪些
how是指合并的方式,包括以下几种模式:
1. inner:内连接,保留两个数据框中都存在的记录。
2. outer:外连接,保留两个数据框中所有记录,如果某个数据框中没有对应的记录,则用NaN填充。
3. left:左连接,以左边的数据框为准,保留左边数据框中所有记录,右边数据框中没有对应的记录用NaN填充。
4. right:右连接,以右边的数据框为准,保留右边数据框中所有记录,左边数据框中没有对应的记录用NaN填充。
使用total_df = pd.merge(paper_df,cite_df,on='title_name',how='inner'),为什么会多出数据
使用inner join的方式合并两个数据集时,只会保留两个数据集中都存在的记录,即只会保留在title_name列上存在相同值的记录。如果合并后出现了多出数据的情况,可能是因为两个数据集中存在title_name值相同但其他列的值不同的记录,导致这些记录在合并时被重复保留下来。这种情况可能需要进一步对数据进行清洗或者调整合并方式。
阅读全文