大数据必须知道的事!
5. WOEEncoder WOEEncoder(代表"证据权重"编码器)只能用于二进制目标变量,即级别为0/1的目标变量。 证据权重背后的想法是,您有两种分布:
该算法的核心是将1s的分布除以0s的分布(对于每个组)。当然,该值越高,我们越有信心该组"偏向" 1,反之亦然。然后,取该值的对数。 JamesSteinEncoder具有两个显着优点:与最大似然估计器相比,它提供了更好的估计,并且不需要任何参数设置。 14. GLMMEncoder GLMMEncoder采用完全不同的方法。基本上,它适合y上的线性混合效应模型。这种方法利用了以下事实:线性混合效应模型是专为处理同类观察组而设计的(在此也有详细说明)。因此,该想法是使模型不具有回归变量(仅包含截距),并将级别用作组。
这样,输出就是截距和组的随机效应之和。 13. JamesSteinEncoder TargetEncoder和MEstimateEncoder既取决于组数字,也取决于用户设置的参数值(分别是平滑和m)。这不方便,因为设置这些权重是一项手动任务。 下面是一个自然的问题:是否有一种方法可以在不需要任何人工干预的情况下设置最佳w_i?JamesSteinEncoder尝试以统计为基础的方式执行此操作。 直觉是,具有较高方差的组的均值应被较少信任。因此,组方差越高,权重越低(如果您想了解更多有关公式的信息,我建议克里斯·赛义德(Chris Said)发表此帖子)。
我们来看一个数字示例: 12. MEstimateEncoder MEstimateEncoder与TargetEncoder相似,但w_i取决于一个称为" m"的参数,该参数设置全局平均值应按绝对值加权的大小。m很容易理解,因为它可以看作是多个观察值:如果水平仪上有m个观察仪,则水平仪的均值和总体平均权重相同。
让我们看看不同m值的结果如何变化: (编辑:通化站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |