音信量,熵,交叉熵,相对熵与代价函数

by admin on 2019年2月20日

正文将介绍音讯量,熵,交叉熵,相对熵的定义,以及它们与机具学习算法中代价函数的概念的关联。转发请保留原文链接:http://www.cnblogs.com/llhthinker/p/7287029.html

必发365bifa0000 1

1. 信息量

新闻的量化计算:

必发365bifa0000 2

诠释如下:

音讯量的分寸应该可以衡量事件爆发的“感叹程度”或不显明:

若是有⼈告诉我们⼀个非凡不容许的风云发⽣了,我们接受的音讯要多于大家被告知有个别很只怕发⽣的事件发⽣时接受的音信。倘若我们掌握某件事情⼀定会发⽣,那么大家就不会吸纳到新闻。
也等于说,消息量应该延续依靠于事件发生的几率分布p(x)
因此必发365bifa0000,,我们想要寻找⼀个基于可能率p(x)总括新闻量的函数h(x),它应有拥有如下性质:

  1. h(x) >= 0,因为音讯量表示收获多少新闻,不应该为负数。
  2. h(x, y) = h(x) +
    h(y),相当于说,对于七个不相干事件x和y,大家着眼到五个事件x,
    y同时发⽣时取得的音信应该相等观望到事件各⾃发⽣时得到的信息之和;
  3. h(x)是有关p(x)的平淡递减函数,相当于说,事件x越简单爆发(可能率p(x)越大),音讯量h(x)越小。

又因为一旦多个不相干事件是总结独⽴的,则有p(x, y) = p(x)p(y)。按照不相干事件可能率可乘、新闻量可加,很不难想到对数函数,看出h(x)⼀定与p(x)的对数有关。因而,有

必发365bifa0000 3满足上述脾性。

会签(并行)是指联合撰写时,由各发文机关的公司主一同签发文件。

2. 熵(信息熵)

对于二个无限制变量X而言,它的拥有可能取值的新闻量的冀望就称为熵。熵的面目标另一种解释:最短平均编码长度(对于离散变量

离散变量:

必发365bifa0000 4

一而再变量:

必发365bifa0000 5

在管制系列中的会签流程,例如公司干部离职、博士结束学业离校都要在不一致的机关去签字认同,那里去哪个部门签约没有种种之分,但具有机关签署落成后才方可离职或离校。
 

3. 交叉熵

幸存关于样本集的一个票房价值分布p和q,其中p为真实分布,q非真实分布。依照实际分布p来衡量识别三个样书的熵,即依照分布p给样本进行编码的最短平均编码长度为:

必发365bifa0000 6

假若应用非真实分布q来给样本进行编码,则是基于分布q的音讯量的愿意(最短平均编码长度),由于用q来编码的范本来自分布p,所以希望与真实分布一致。所以据悉分布q的最短平均编码长度为:

必发365bifa0000 7

 上式CEH(p, q)即为交叉熵的概念。

可以钦命后继步骤哪多少个步骤必须相互,至少多少个以上。

4. 相对熵

将由q拿到的平分编码长度比由p拿到的平均编码长度多出的bit数,即便用非真实分布q计算出的范本的熵(交叉熵),与使用真实分布p计算出的样本的熵的差值,称为相对熵,又称KL散度

KL(p, q) = CEH(p, q) – H(p)=

 必发365bifa0000 8

相对熵(KL散度)用于衡量多少个票房价值分布p和q的异样。注意,KL(p,
q)意味着将分布p作为忠实分布,q作为非真正分布,因而KL(p, q) != KL(q, p)。

相互伊始步骤可以灵活与聚集步骤结合,达到各个配置的会签格局。并行开发步骤一定有汇聚步骤与之相应。

5. 机械学习中的代价函数与接力熵

必发365bifa0000 9
是数据的真实可能率分布,必发365bifa0000 10
是由数量统计得到的可能率分布。机器学习的目标就是期待必发365bifa0000 11尽量地逼近甚至分外必发365bifa0000 12
,从而使得相对熵接近最小值0.
是因为实在的几率分布是一定的,绝对熵公式的后半片段(-H(p)) 就成了三个常数。那么相对熵达到最小值的时候,也表示交叉熵达到了不大值。对必发365bifa0000 13
的优化就等效于求交叉熵的小不点儿值。此外,对交叉熵求最小值,也等效于求最大似然估算(maximum
likelihood estimation)。

特别的,在logistic regression中, 
p:真实样本分布,遵从参数为p的0-三次布,即X∼B(1,p) 

p(x = 1) =
y

p(x = 0) = 1 – y
q:待推断的模型,听从参数为q的0-3遍布,即X∼B(1,q) 

p(x
= 1) = h(x)

p(x
= 0) = 1-h(x)

个中h(x)为logistic regression的比方函数。
三头的穿插熵为: 
必发365bifa0000 14
对持有磨练样本取均值得: 

必发365bifa0000 15

其一结果与通过最大似然估计方法求出来的结果同样。使用最大似然揣摸方法到场博客 Logistic
Regression.
 

 

Ref:

《格局识别与机具学习》1.6节

http://blog.csdn.net/rtygbwwwerr/article/details/50778098

https://www.zhihu.com/question/41252833

 

场景

l  A、B、C、D全体必选 (all),all代表享有后继步骤(all)

l  A、B中必选其中2个C必选(AB,1)&C

规则

l  并行早先步骤(多少个后继步骤的成团,至少N>=3个以上必采用)

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图