通常,我们通过复制现有管道来创建新管道(即货物崇拜编程),且旧管道会丢弃一些
新管道需要的数据。例如,Google+热门信息的管道会丢弃时间较早的帖子(因为它会不
断尝试对最新的帖子进行排名)。此管道被复制用于 Google+信息流,在信息流中,时间
较早的帖子仍然有意义,但旧管道仍会丢弃它们。另一种常见模式是仅记录用户看到的数据。
因此,如果我们想要对用户看不到特定帖子的原因进行建模,此类数据就毫无用处,因为管
道已丢弃所有负分类样本。Play 中也曾出现过类似的问题。在处理 Play 应用首页时,创建
了一个新管道,其中还包含来自 Play 游戏着陆页的样本,但无任何特征可区分各个样本的
来源。
第 7 条规则:将启发式算法转变为特征或在外部处理它们。
通常,机器学习尝试解决的问题并不是全新的问题。有一个现有的系统,它可用于排名、
分类,或解决您正尝试解决的任何问题。这意味着有多种规则和启发式算法。使用机器学习