加入收藏 | 设为首页 | 会员中心 | 我要投稿 通化站长网 (https://www.0435zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

大数据必须知道的事!

发布时间:2021-01-31 15:41:22 所属栏目:动态 来源:互联网
导读:5. WOEEncoder WOEEncoder(代表证据权重编码器)只能用于二进制目标变量,即级别为0/1的目标变量。 证据权重背后的想法是,您有两种分布: 1的分布(每组1个的数量/所有y中1的数量) 0的分布(每个组中的0个数/所有y中的0个数) 该算法的核心是将1s的分布除以0s的

5. WOEEncoder

WOEEncoder(代表"证据权重"编码器)只能用于二进制目标变量,即级别为0/1的目标变量。

证据权重背后的想法是,您有两种分布:

  • 1的分布(每组1个的数量/所有y中1的数量)
  • 0的分布(每个组中的0个数/所有y中的0个数)

该算法的核心是将1s的分布除以0s的分布(对于每个组)。当然,该值越高,我们越有信心该组"偏向" 1,反之亦然。然后,取该值的对数。
 

JamesSteinEncoder具有两个显着优点:与最大似然估计器相比,它提供了更好的估计,并且不需要任何参数设置。

14. GLMMEncoder

GLMMEncoder采用完全不同的方法。基本上,它适合y上的线性混合效应模型。这种方法利用了以下事实:线性混合效应模型是专为处理同类观察组而设计的(在此也有详细说明)。因此,该想法是使模型不具有回归变量(仅包含截距),并将级别用作组。

这样,输出就是截距和组的随机效应之和。
 

13. JamesSteinEncoder

TargetEncoder和MEstimateEncoder既取决于组数字,也取决于用户设置的参数值(分别是平滑和m)。这不方便,因为设置这些权重是一项手动任务。

下面是一个自然的问题:是否有一种方法可以在不需要任何人工干预的情况下设置最佳w_i?JamesSteinEncoder尝试以统计为基础的方式执行此操作。

直觉是,具有较高方差的组的均值应被较少信任。因此,组方差越高,权重越低(如果您想了解更多有关公式的信息,我建议克里斯·赛义德(Chris Said)发表此帖子)。

我们来看一个数字示例:
 

12. MEstimateEncoder

MEstimateEncoder与TargetEncoder相似,但w_i取决于一个称为" m"的参数,该参数设置全局平均值应按绝对值加权的大小。m很容易理解,因为它可以看作是多个观察值:如果水平仪上有m个观察仪,则水平仪的均值和总体平均权重相同。

让我们看看不同m值的结果如何变化:

(编辑:通化站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!