在进行数据分析时,经常要分割训练集、测试集,并且还要考虑数据预处理、特征抽取、特征工程等,那么要仔细分析这些步骤之间的相互联系。关于训练集、测试集、数据预处理、特征工程,请回答以下问题关于缺失值填充与训练集、测试集的关系,下面正确的操作是() A. 先用全数据的均值填充缺失值,然后随机分割训练集、测试集 B. 先随机分割训练集、测试集,然后用各自集合的均值填充缺失值 C. 先随机分割训练集、测试集,然后用训练集的均值填充缺失值 D. 先随机分割训练集、测试集,然后用测试集的均值填充缺失值
时间: 2023-12-28 19:42:46 浏览: 199
正确的操作是 C. 先随机分割训练集、测试集,然后用训练集的均值填充缺失值。在实际的数据分析中,我们通常会先将数据集随机分割为训练集和测试集,然后对训练集和测试集分别进行数据预处理、特征工程等操作。在对训练集进行数据预处理、特征工程等操作时,如果存在缺失值,常见的做法是使用训练集中的均值、中位数或众数等来填充缺失值。因为测试集是模拟真实环境下的数据,我们并不知道测试集中的真实均值、中位数或众数等,因此不能使用测试集的均值来填充训练集和测试集中的缺失值。因此,答案是 C. 先随机分割训练集、测试集,然后用训练集的均值填充缺失值。
阅读全文