大数据必须知道的事！

发布时间：2021-01-31 15:41:22 所属栏目：动态来源：互联网

导读：5. WOEEncoder WOEEncoder(代表证据权重编码器)只能用于二进制目标变量，即级别为0/1的目标变量。证据权重背后的想法是，您有两种分布： 1的分布(每组1个的数量/所有y中1的数量) 0的分布(每个组中的0个数/所有y中的0个数) 该算法的核心是将1s的分布除以0s的

5. WOEEncoder

WOEEncoder(代表"证据权重"编码器)只能用于二进制目标变量，即级别为0/1的目标变量。

证据权重背后的想法是，您有两种分布：

1的分布(每组1个的数量/所有y中1的数量)
0的分布(每个组中的0个数/所有y中的0个数)

该算法的核心是将1s的分布除以0s的分布(对于每个组)。当然，该值越高，我们越有信心该组"偏向" 1，反之亦然。然后，取该值的对数。

JamesSteinEncoder具有两个显着优点：与最大似然估计器相比，它提供了更好的估计，并且不需要任何参数设置。

14. GLMMEncoder

GLMMEncoder采用完全不同的方法。基本上，它适合y上的线性混合效应模型。这种方法利用了以下事实：线性混合效应模型是专为处理同类观察组而设计的(在此也有详细说明)。因此，该想法是使模型不具有回归变量(仅包含截距)，并将级别用作组。

这样，输出就是截距和组的随机效应之和。

13. JamesSteinEncoder

TargetEncoder和MEstimateEncoder既取决于组数字，也取决于用户设置的参数值(分别是平滑和m)。这不方便，因为设置这些权重是一项手动任务。

下面是一个自然的问题：是否有一种方法可以在不需要任何人工干预的情况下设置最佳w_i?JamesSteinEncoder尝试以统计为基础的方式执行此操作。

直觉是，具有较高方差的组的均值应被较少信任。因此，组方差越高，权重越低(如果您想了解更多有关公式的信息，我建议克里斯·赛义德(Chris Said)发表此帖子)。

我们来看一个数字示例：

12. MEstimateEncoder

MEstimateEncoder与TargetEncoder相似，但w_i取决于一个称为" m"的参数，该参数设置全局平均值应按绝对值加权的大小。m很容易理解，因为它可以看作是多个观察值：如果水平仪上有m个观察仪，则水平仪的均值和总体平均权重相同。

让我们看看不同m值的结果如何变化：

（编辑：通化站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

索尼中国地区 PS5 销	新款MacBook Air已在路
迫不及待了粉丝自制虚	你想知道视频如何加水