翻译已翻译文本的英语到西班牙语翻译。一般来说,这些系统的工作假设是测试数据与训练数据有些相似,但又不一样。例如,如果我们训练一个模型来检测人类的肺炎,该模型将用于其他人,但不会用于动物。或者,如果我们训练一个系统从西班牙语翻译成英语,测试文本将与训练文本不同,但它们始终是用西班牙语而不是法语编写的。在这种情况下,很明显,使用西班
牙语文本学习的系统将无法推广到法语。或者我们会请法语口译员翻译普 购买企业电子邮件地址列表 通话吗?然而,训练和测试数据之间的差异可能比从西班牙语到法语或从人类到动物的变化更微妙,但仍然对预测质量产生破坏性影响。 让我们重新想象系统的案例,以区分狗和猫的图像,但有一个小的变化:我们的数据库仅由黑狗和白猫组成。在这种情况下,动物的颜色将是区分这两个类别的一个非常有
用的特征。事实上,它会给我们一个完美的预测:如果动物身体的主要颜色是黑色,那就是狗;如果它是白色的,它将是一只猫。现在让我们想象一下,在我们的测试集中有一个细微的差别:出现了白狗。你认为关于白狗的预测会发生什么?系统几乎肯定会错误地为他们分配“猫”标签,从而导致这部分目标人群的性能降低。如果我们想以多种方式避免算法偏差,那么在基于机器学习