首页解释total_df = pd.merge(paper_df,cite_df,on='title_name',how='outer')

解释total_df = pd.merge(paper_df,cite_df,on='title_name',how='outer')

时间: 2023-11-28 08:05:31 浏览: 164

这行代码将两个数据框 paper_df 和 cite_df 按照它们的 title_name 列进行外连接（outer join）合并，并将合并后的结果存储在 total_df 中。外连接是一种合并方式，它会将两个数据框中的所有行都合并起来，如果其中一个数据框中的某些行在另一个数据框中找不到匹配的行，则在合并后的结果中，这些行会被保留下来，但是对应的列会被填充为缺失值（NaN）。

解释total_df = pd.merge(paper_df,cite_df,on='title_name',how='outer')中的how是什么，以及其他模式包含哪些

how是指合并的方式，包括以下几种模式： 1. inner：内连接，保留两个数据框中都存在的记录。 2. outer：外连接，保留两个数据框中所有记录，如果某个数据框中没有对应的记录，则用NaN填充。 3. left：左连接，以左边的数据框为准，保留左边数据框中所有记录，右边数据框中没有对应的记录用NaN填充。 4. right：右连接，以右边的数据框为准，保留右边数据框中所有记录，左边数据框中没有对应的记录用NaN填充。

使用total_df = pd.merge(paper_df,cite_df,on='title_name',how='inner')，为什么会多出数据

使用inner join的方式合并两个数据集时，只会保留两个数据集中都存在的记录，即只会保留在title_name列上存在相同值的记录。如果合并后出现了多出数据的情况，可能是因为两个数据集中存在title_name值相同但其他列的值不同的记录，导致这些记录在合并时被重复保留下来。这种情况可能需要进一步对数据进行清洗或者调整合并方式。

阅读全文