联合熵（joined entropy）、条件熵（conditional entropy）、相对熵（relative entropy）、互信息（mutual information）以及相关关系整理-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

联合熵（joined entropy）、条件熵（conditional entropy）、相对熵（relative entropy）、互信息（mutual information）以及相关关系整理

阅读量：2051 次

发布时间：2019-04-28

本文共 3996 字，大约阅读时间需要 13 分钟。

这部分内容算是对前面时间序列中近似熵、样本熵、模糊熵等熵的基础部分，毕竟前面部分只是对各种熵的求法步骤做了归纳，要理解其中的意义来得从最基础的部分进行分析。

Entropy (熵)

熵是衡量随机变量不确定性的指标。根据Shannon的定义，对于一个在概率空间 $\Omega$ 中，具有概率分布 $p (x)$ 的随机变量 $X$ ，它的熵的定义为：

-\int_{\Omega}p(x)log_{2}(p(x))dx

-\sum_{x\in\Omega}p(x)log_{2}(p(x))

其中，上面两个式子分别是当

X

为连续或者离散随机变量时，所以

p (x)

也便是对应的连续概率分布或者离散概率分布。

由于连续的情况是基于离散情况泛化出的结果，所以下面以离散随机变量的情况为例分析。

举个扔硬币的例子，一个硬币正反两面的概率都是

\frac{1}{2}

，所以对于正负结果这个随机变量，它的熵为：

H(x)=-\frac{1}{2}log_{2}(\frac{1}{2})-\frac{1}{2}log_{2}(\frac{1}{2})=1

再举个极端的例子，这个硬币每次扔都是正面或者背面向上，此时的熵为：

H(x)=-1log_{2}(1)=0

对于这样具有两个状态空间的变量，当概率分布变化时，得到的熵的变化对应如下：

图中可以看出，当概率为 $\frac{1}{2}$ 时熵最大。对于不确定性，也可以理解对于一个问题有不同的答案，像扔硬币这个例子，问题就是结果是正面还是背面，当极端情况下只有背面或者正面的结果时，问题的答案就没有任何疑问，此时也便不具有不确定性，所以熵为0；当概率五五开时，此时问题的答案就有不确定性，并且此时的不确定性是最大的。

熵是有界的，下面的不等式适用于离散随机变量：

\leqslant H(X) \leqslant log_{2}(|X|)

其中，

∣ X ∣

表示离散变量

X

的值的个数，其中当

X

服从于均匀分布 (uniform distribution) 时等号成立。

Joined Entropy (联合熵)

对于两个离散随机变量 $X, Y$ ，则它们的联合熵是： $Y)=-\sum_{x\in X y\in Y}p(x,y)log_{2}(p(x,y))$ 联合熵可以归纳到多变量的情况下，对于 $X_{1},...,X_{n}$ 有 $H(X_{1},...,X_{n})$ 。

Conditional Entropy (条件熵)

条件熵的表现形式是： $H(X|Y)=-\sum_{x\in X, y\in Y}p(x|y)log_{2}(p(x|y))$ 当 $X, Y$ 是对立的随机变量时，条件熵的表现形式是： $H(X|Y)=-\sum_{x\in X, y\in Y}p(x)log_{2}(p(x))=H(X)$ 条件熵和联合熵之间的关系是： $H (X, Y) = H (X) + H (Y ∣ X) = H (Y) + H (X ∣ Y)$

Relative Entropy (相对熵)

相对熵也称作K-L散度 (Kullback–Leibler divergence)，K-L距离 (Kullback–Leibler distance)。是用来衡量两个随机变量的概率分布之间的差异性的指标。

还是以随机变量

X, Y

为例，它们对应的概率分布分别是

p (x), q (y)

，当

X, Y

为离散型变量时，

p

对

q

的相对熵为：

\sum_{x\in X,y\in Y} p(x)log_{2}\frac{p(x)}{q(x)}

当

X, Y

为连续型变量时，

p

对

q

的相对熵为：

\int_{x\in X,y\in Y} p(x)log_{2}\frac{p(x)}{q(x)}dx

当

p (x)

和

q (x)

的相似度越高，相对熵越小。

KL散度主要有两个性质：

(1)、不对称性

尽管KL散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为它不具有对称性，即

D (P ∣ ∣ Q)! = D (Q ∣ ∣ P)

。

(2)、非负性

相对熵的值是非负值，即

D (P ∣ ∣ Q) > 0

。

Mutual Information (互信息)

对于两个随机变量 $X, Y$ ，它们的互信息可以定义为 $X, Y$ 的联合分布和对立分布乘积的相对熵。 $I(X;Y)=D(p(x,y)||p(x)q(y))=-\sum_{x\in X,y\in Y} p(x,y)log_{2}\frac{p(x,y)}{p(x)p(y)}$ 经过变形和计算可以得到互信息 $I (X; Y) = H (X) + H (Y) - H (X, Y)$

互信息的意义是衡量 $X$ 到 $Y$ 的不确定性的减少程度，另外互信息是对称的（symmetric），也就是

I (X; Y) = I (Y; X)

，所以互信息不能用于确定信息流的方向。

总结

对于随机变量 $X, Y$ ，它们的熵、联合熵、条件熵以及互信息之间的关系是：

其中，左边的圆形区域表示随机变量 $X$ 的熵，右边的圆形区域表示随机变量 $Y$ 的熵。左边的 $H (X ∣ Y)$ 区域表示在随机变量 $Y$ 给定的条件下随机变量 $X$ 的条件熵；左边的 $H (Y ∣ X)$ 区域表示在随机变量 $X$ 给定的条件下随机变量 $Y$ 的条件熵。两个圆中间相交的部分表示随机变量 $X, Y$ 的互信息。两个圆构成的整体部分表示 $X, Y$ 的联合熵。

REF

《Entropy Analysis of Financial Time Series》

转载地址：http://vbklf.baihongyu.com/

你可能感兴趣的文章

剑指offer 25.二叉树中和为某一值的路径

剑指offer 26. 数组中出现次数超过一半的数字

剑指offer 27.二叉树的深度

剑指offer 29.字符串的排列

剑指offer 31.最小的k个树

剑指offer 32.整数中1出现的次数

剑指offer 33.第一个只出现一次的字符

剑指offer 34.把数组排成最小的数

剑指offer 35.数组中只出现一次的数字

剑指offer 36.数字在排序数组中出现的次数

剑指offer 37.数组中重复的数字

剑指offer 38.丑数

剑指offer 39.构建乘积数组

剑指offer 57. 删除链表中重复的结点

剑指offer 58. 链表中环的入口结点

剑指offer 59. 把字符串转换成整数

剑指offer 60. 不用加减乘除做加法

leetcode 热题 Hot 100-3. 合并两个有序链表

leetcode 热题 Hot 100-4. 对称二叉树

Leetcode C++《热题 Hot 100-12》226.翻转二叉树

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-05-16 02:03:52 当前IP: 3.21.104.72 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我